Short Data Dossier
Datos
Los datos pasan por un flujo llamado pipelines, desde un punto de origen, hasta su destino para realizar las aplicaciones requeridas. Google ofrece diferentes servicios para cada una de las instancias. Es necesario decidir el mejor servicio en base a la aplicación que se le va a dar a los datos.
Existen 2 tipos de bases de datos:
- Relacionales/SQL
- No Relacionales/NoSQL
En la siguiente tabla se observan aplicaciones para los tipos de datos:
Cloud DataStore
Es un servicio transaccional, que permite manejar transacciones atómicas.
Cloud BigTable
Es importante tener el diseño del esquema de los datos, ya que es la manera en la que se va a consumir la información. Trabaja con el Row Key.
Cloud Spanner
Es una muy potente base de datos relacional con ventajas como su capacidad, elasticidad, escalamiento, volumen de datos que puede soportar.
Streaming
Se recomienda utilizar Pub/Sub. Funciona con tópicos, mensajes, publicadores, subscriptores y un almacenador de los mensajes. El publicador envía el mensaje al tópico, el cual lo almacena y lo envía a una subscripción, la cual enviará este mensaje a los diferentes subscriptores que existan.
Cloud DataFlow
Maneja datos de entrada, un procesamiento interno y una salida. Transforma los datos usando ETL. Sirve para datos que llegan fuera de tiempo o que se reprocesan
Cloud DataProc
Son las ejecuciones de los ecosistemas de Hadoop. Se pueden tener varios DataProc, cada uno dedicado a un proceso en específico.
BigQuery
Es un servicio de Data Warehouse. Puede ejecutar sentencias de SQL sobre grandes volúmenes de datos.