Short Data Dossier

Bootcamp AI
2 min readAug 17, 2020

--

Datos

Los datos pasan por un flujo llamado pipelines, desde un punto de origen, hasta su destino para realizar las aplicaciones requeridas. Google ofrece diferentes servicios para cada una de las instancias. Es necesario decidir el mejor servicio en base a la aplicación que se le va a dar a los datos.
Existen 2 tipos de bases de datos:

  • Relacionales/SQL
  • No Relacionales/NoSQL

En la siguiente tabla se observan aplicaciones para los tipos de datos:

Cloud DataStore

Es un servicio transaccional, que permite manejar transacciones atómicas.

Cloud BigTable

Es importante tener el diseño del esquema de los datos, ya que es la manera en la que se va a consumir la información. Trabaja con el Row Key.

Cloud Spanner

Es una muy potente base de datos relacional con ventajas como su capacidad, elasticidad, escalamiento, volumen de datos que puede soportar.

Streaming

Se recomienda utilizar Pub/Sub. Funciona con tópicos, mensajes, publicadores, subscriptores y un almacenador de los mensajes. El publicador envía el mensaje al tópico, el cual lo almacena y lo envía a una subscripción, la cual enviará este mensaje a los diferentes subscriptores que existan.

Cloud DataFlow

Maneja datos de entrada, un procesamiento interno y una salida. Transforma los datos usando ETL. Sirve para datos que llegan fuera de tiempo o que se reprocesan

Cloud DataProc

Son las ejecuciones de los ecosistemas de Hadoop. Se pueden tener varios DataProc, cada uno dedicado a un proceso en específico.

BigQuery

Es un servicio de Data Warehouse. Puede ejecutar sentencias de SQL sobre grandes volúmenes de datos.

Conoce más:

Registrate en el programa de Data Engineering en GCP.

--

--

No responses yet