¿Cómo crear un Data Lake Generación 2 en Azure?

Publicado por

En este post vas a aprender cómo crear un Data Lake de segunda generación en Azure, ya que últimamente es necesario almacenar grandes cantidades de datos y dependiendo de la necesidad, los Data Lake son una muy buena opción, para poder crear el Data Lake es necesario tener una cuenta de Azure.

¿Qué es un Data Lake?

Data Lake es una solución que nos permite almacenar grandes volúmenes de datos para luego analizar estos datos generando reportes, implementar modelos predictivos, entre otros casos de uso.

Data Lake de segunda generación

El Azure Data Lake de segunda generación combina los beneficios del Data Lake de primera generación y los blob storage, por ejemplo el bajo coste, los niveles de almacenamiento (Hot, Cold, Archive) los cuales dependiendo del uso de los datos podemos asignar este nivel de almacenamiento.

Paso 1

El primer paso es ingresar a nuestra cuenta de Azure, aquí podrás encontrar el link:

https://azure.microsoft.com/es-es/

Ingresas con tus credenciales

Paso 2

Vamos a dirigirnos al panel de búsqueda, para seleccionar el servicio storage account.

Paso 3

Dentro del servicio de storage accounts vamos a ir donde dice + Create damos click y se nos abrirá una nueva pestaña donde vamos a configurar las especificaciones que tendrá nuestro data lake de 2 generación.

Paso 4

En la nueva pestaña vamos a rellenar las especificaciones de nuestro data lake, la primera opción es la suscripción la cual vamos a cargar el servicio, en este caso debes tener una suscripción activa de Azure. Para este caso voy a seleccionar mi suscripción personal.

Paso 5

Seleccionar el grupo de recursos, este grupo de recursos es donde queremos almacenar todos nuestros recursos para un proyecto. Idealmente y dependiendo de la necesidad, los recursos para un mismo proyecto deben estar en un mismo grupo de recursos, pero esto siempre depende de la necesidad. Si ya tienes un grupo de recursos puedes seleccionarlo o crear un en caso de que no tengas.

1. Seleccionado un grupo de recursos existente

Para usar un grupo de recursos existente solo tenemos que dar click en la flecha que se ubica en la parte derecha de la pestaña y se desplegará todos los grupos de recursos que tenemos actualmente.

2. Creando un grupo de recursos

Para crear un grupo de recursos, vamos a la parte que dice Create new y se nos desplegará una nueva pestaña donde debemos colocar el nombre como queremos que se llame nuestro nuevo grupo de recursos. Para este caso el grupo de recursos será proyecto, luego de crear el grupo de recursos podrás ver que dentro de paréntesis esta la palabra New lo cual nos permite identificar que el grupo de recursos se acabó de crear.

Paso 6

En este paso vamos a darle un nombre a nuestro data lake y vamos a seleccionar en cual región queremos que se ubique nuestro data lake, para este caso la región mas cercana para Colombia por el momento es East US 2.

En Storage account name puedes darle el nombre que tu quieras a tu data lake para el ejemplo le daremos el nombre de stproyecto.

Paso 7

Vamos a seleccionar el rendimiento de nuestro data lake, la redundancia de este mismo y con esto acabaríamos con la parte básica. Para el desempeño/Performance vamos a seleccionar Standard y para la redundancia/Rendundacy seleccionamos Geo-redundant storage (GRS).

Paso 8

Vamos a dirigirnos a la pestaña de Advanced y asegurarnos que la siguiente casilla este activada Enable hierarchical namespace esta opción es la que nos permite crear nuestro data lake de segunda generación, ya que si no la activamos tendremos un blob storage y no un data lake. Las otras opciones no las vamos a modificar y continuamos a la siguiente sección.

Paso 9

Para esta última sección vamos a darle en review+create ya que no es necesario modificar las otras opciones para nuestro primer data lake.

Seleccionamos Go to resource y nuestro data lake de segunda generación se ha creado.

Nuestro Data Lake de segunda generación se ha creado, podemos identificar varios valores importantes como el nombre que le dimos ubicado en la parte superior izquierda, la suscripción que usa este recurso y uno de los aspectos más importantes los containers/contenedores que es donde podemos crear los contenedores de nuestras capas.

Paso 10

Vamos a crear los contenedores para las capa raw, bronze, silver y gold, donde almacenaremos nuestros datos. Decidir que va en cada capa depende de la necesidad sim embargo, profundizaremos mas en este tema en un proximo post.

  1. Debemos selección la opción containers/contenedores y se nos abrirá una nueva pestaña.
  2. En la nueva pestaña seleccionamos + Container y nos pedirá el nombre de nuestro nuevo contenedor en este caso vamos a crear la capa raw.
  3. Damos click en Create y habremos creado nuestro primer contenedor o capa.
  4. Realizaremos estos mismos pasos para crear los demás contendores bronze, silver y gold

Finalmente, tenemos un Data Lake con sus 4 capas, donde podremos almacenar la información de nuestra organización. Es importante identificar qué información va en cada capa, esto con el fin de tener un orden y una estructura, pero esto será tema para otro blog.

Espero te haya gustado este blog, si tienes alguna sugerencia o duda puedes dejarla en los comentarios. Nos vemos en una próxima ocasión.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *