¿ Porque elegir dataflow de GCP?

Cloud Dataflow es un servicio administrado que ejecuta una amplia variedad de patrones de procesamiento de datos, está basada en la tecnología Apache Beam, la cual permite trabajar con código abierto utilizando los lenguajes de programación Python y Java.
Permite desarrollar ETL desde cero utilizando tecnología Apache Beam en pipeline o flujos de datos, también se encuentran construidos o preconstruidos dentro de la plataforma para realizar la ingesta de la información en tiempo real o en Batch de acuerdo al requerimiento de la empresa.
Ventajas de utilizar Dataflow para construir una ETL

  • Procesamiento unificado de datos por lotes
  • Transmisión rápida y tiempo real de ser necesario
  • Funcionamiento sin servidores, es decir no requiere de hadware para realizar los desarrollos, ya que se puede trabajar con codigo abierto mediante Apache Beam
  • Rentable, su costo es de acuerdo con el consumo
  • Altamente escalable, por lo tanto, permite el procesamiento de alto volumen de datos.
  • Procesamiento de datos completamente administrados
  • Se maximiza el uso de los recursos mediante ajuste de escala automático horizontal
  • El proceso puede ser automatizado
  • Es una herramienta versátil que es fácilmente integrable con otras aplicaciones

A continuación, se van a ilustrar algunos ejemplos donde se utiliza Dataflow para realizar procesos de integración de datos y otras herramientas de la plataforma de Google

I. En la Figura se ilustra un proceso donde los datos de entrada se encuentran almacenados dentro de un Google Cloud Sorage, el cual permite guardar archivos en cualquier formato, luego pasa por un dataflow que corre el pipeline con el código desarrollado en Apache Beam y finalmente el resultado puede escribirse en Google Cloud Storage.

II. Otro ejemplo extraer la información de redes sociales, luego hacer el proceso de ETL de los datos y finalmente se puede realizar un modelo de analítica descriptiva o avanzada, para esto Google tiene diversas aplicaciones que ayudan a que el proceso sea más fácil, en la siguiente figura se ilustra una posible arquitectura para el ejemplo descrito.

En resumen, Dataflow es una herramienta que se puede utilizar mediante Apache Beam para realizar desarrollos en diferentes lenguajes de programación como python, java, permitiendo la ejecución de proyectos de acuerdo con las necesidades de la empresa, la integración con otras herramientas facilita la ingesta, desarrollo, integración y automatización de los procesos.
En Information Workers contamos con un excelente equipo de profesionales que desarrollan proyectos utilizando herramientas de Google Cloud.

comments powered by Disqus