¿Cómo obtener una conectividad directa entre sus datos on-premises y Databricks en GCP?

Una de las muchas ventajas que tienen el servicio de Databricks distinto a que se puede usar dentro de cualquier arquitectura y nube, es que nos permite poder acceder a múltiples fuentes, y generar desarrollos sobre ingeniería, ciencia, análisis y visualización de datos. Databricks se ha convertido en una herramienta muy poderosa en los últimos años, ya que permite tener en una sola herramienta todas las fases de un proyecto de datos, y facilitar el control y la administración del desarrollo.

Casi todas las organizaciones en la actualidad tiene la mayoría de sus datos de negocio por no decir que su totalidad almacenados en servidores locales, por ende si desea trabajar en una migración de su infraestructura on-premises a la nube o llevar a cabo un proyecto de ingeniería, ciencia de datos o inteligencia de negocio, a través de Databricks, es importante tener presente a la hora de configurar e implementar la infraestructura, garantizar la conectividad correcta desde nuestro servicio en la nube a nuestra fuente de datos on-premises.

Esta es una guía sobre cómo establecer la conectividad desde su espacio de trabajo de Databricks en GCP a su otra red local, y las consideraciones que se deben conocer para tener una conectividad y acceso a los datos de manera exitosa y segura.

En la imagen siguiente se presenta es esquema de la arquitectura que deberás montar o tener para la configuración.

Arquitectura de referencia Databricks GCP

Se partirá del hecho que ya se tenga una red virtual (VPC) creada en la suscripción de GCP, a continuación, se presenta una tabla con la lista de requisitos que se deben cumplir y tener para los recursos y atributos de red, con los cuales se pueda hacer una configuración exitosa.

Atributo o recurso de la red VPCDescripciónRango Valido
Rango de la subredEs el rango de direcciones IP asignado a la VPC, en la cual se ubicará el clúster de nodos de GKE del área de trabajo de DatabricksEl rango es valido desde /29 a /9
Región de la subredRegión en la que se cree la red virtual (VPC)La región de la subred debe coincidir con la región en la que se construya el área de trabajo de Databricks para aprovisionar el clúster de GKE y ejecutarse de manera correcte
Rango secundario para los pod del GKERango de direcciones IP donde se ubicará el clúster de GKE de los pods del área de trabajo de DatabricksEl rango es válido desde /21 a /9
Rango secundario para los servicios de GKERango de direcciones IP donde se ubicará el clúster de GKE de servicios del área de trabajo de DatabricksEl rango es válido desde /27 a /16

Se puede compartir la red virtual VPC con múltiples áreas de trabajo

Puedes usar tu red virtual en GCP para múltiples áreas de trabajo, solo recuerda que debes asegurarte que las subredes asignadas para cada área de trabajo no se superpongan, una buena practica es usar áreas de trabajo de Databricks en proyectos de GCP por separado, para esto haga uso de la propiedad shared VPC (Imagen 1) y compártalas con todos los proyectos que requiera.

Compartir la red privada

Requisitos de permisos y acceso en el proyecto en GCP.

Para poder crear un área de trabajo con una VPC personalizada, es necesario que tu usuario tenga los siguientes roles en el ambiente de GCP.

OperaciónRoles requeridos
Creación de la configuración de redRol de visualizador tanto en el proyecto donde se encuentra la VPC como en el que se creará el área de trabajo
Creación del área de trabajo de DatabricksRol de visualizador en el proyecto donde se encuentra la VPC. Rol de propietario, o editor, y administrador de IAM del proyecto en el que se creará el área de trabajo

Una vez ya tenga su red VPC creada, configurada y conectada a su VPN que tiene acceso sobre su red local, se procede a crear la suscripción de Databricks.

Para crear la suscripción, cuando tenga seleccionado el proyecto se da click en la opción de suscribirse que muestra el servicio de Databricks.

Creación de suscripción de Databricks
  1. Una vez creada la suscripción en el panel de administración de Databricks, dar clic en el menú de navegación de la izquierda en la sección de recursos de nube.
  2. Clic en la opción de añadir configuración de red
  3. Abre una nueva ventana en el navegador, y abre la consola de GCP
  4. Navega y busca de red virtual VPC
  5. Dale clic en el nombre de la subred, la consola de GCP te mostrará una pagina con los detalles de la subred y otra información que necesitaras para hacer la configuración.
Visualización de detalles de la VPC para crear la configuración de red en Databricks.

Copia la información en los campos de añadir una configuración de red.

  • Ingresa un nombre que le desees dar a la red en el primer campo
  • Ingresa los valores correctos para el id del proyecto en GCP que esta alojada la red de VPC, el nombre de la VPC, nombre de la subred y la región .
  • Ingresa el rango de direcciones ip secundario que creaste para designarle a los pods y servicios de GKE del Databricks.
  • Para finalizar darle click en añadir.
Configuración de red en Databricks.

Ahora puedes crear tu área de trabajo de Databricks para esto selecciona la opción de workspace en el panel de administración .

  • Selecciona la opción de crear área de trabajo
  • Ingresa un nombre que le desees dar al área de trabajo en el primer campo
  • Selecciona la región que deberá será la misma en la que creaste o tienes tu red VPC
  • Ingresa el id el proyecto de GCP en el cual quieres crear esta área de trabajo
  • En configuraciones avanzadas, slecciona customer managed network para qu puedas configurar tu área de trabajo bajo el recurso de nube que creaste en los pasos anteriores
  • Finalmente selecciona la configuración de red que creaste.
  • Click en guardar.
Creación del area de trabajo bajo la configuración de red en Databricks.

¡¡Ya has creado tu área de trabajo bajo te red privada en la nube de GCP!!

Por último te invito a que ingreses al área de trabajo, crees un notebook y hagas una prueba de conexión, apuntándole a la dirección ip del servidor que contiene los datos que quieres consumir…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *