Construyendo un Data Lake en GCP: Módulo 2

Introducción a Data Lake

  • Piscina de Datos (Data sinks)
  • Flujos de trabajo de orquestación de alto nivel

Almacenamiento de Datos y opciones ETL en GCP

Data lake soluciona tus problemas de almacenamiento, para ello tienes Cloud Storage como un llamado Catch-all, Cloud SQL y Cloud spanner para datos relacionales, además Cloud firestore y Cloud Bigtable para datos NoSQL.

Construir un Data Lake usando Cloud Storage

Es el servicio de almacenamiento para trabajar con datos, datos no estructurados en la nube.

  • Es relativamente barato en comparación con el costo de la computación.
  • Cloud Storage es un almacén de objetos, por lo que recupera y almacena objetos binarios sin datos contenidos en estos objetos.
  • Proporciona compatibilidad de archivos y puede hacer que los objetos se vean y funcionen como si fuesen archivos dentro y fuera de ella.
  • Sus datos son durables y disponibles al instante.
  • Puede compartir datos globalmente, pero están cifrados y controlados.
  • Tienen una latencia moderada y un alto rendimiento.
  • Los objects existen dentro de los buckets no fuera de ellos.
  • Los buckets tienen un único nombre global, sólo si elimina el bucket el nombre queda disponible.
  • Fácil localización de un bucket en particular.
  • Un bucket se crea y se asocia a una región cercana donde los datos serán procesados, reduciendo la latencia.

Asegurando Cloud Storage

Cloud Storage implementa dos métodos completamente separados pero superpuestos de control de acceso a objetos. Política de Cloud IAM y listas de control de acceso. Cloud IAM es estándar en Google Cloud Platform. Se establece a nivel de cubo y se aplica reglas de acceso uniformes a todos los objetos dentro de un cubo. Las listas de control de acceso pueden ser aplicados a nivel de cubo o en objetos individuales. Por lo tanto, proporciona más grano fino en el control de acceso.

Almacenamiento de todo tipo de datos

Otro beneficio de las instancias de Cloud SQL es que son accesibles por otros servicios GCP e incluso servicios externos. Puede usar Cloud SQL con App Engine usando controladores estándar como Connector / J para Java o MySQLdb para Python. Cloud SQL también admite otras aplicaciones y herramientas a las que podría estar acostumbrado, como SQL Workbench, Toad y otras aplicaciones externas que usan controladores MySQL estándar.

  • Instancias de Cloud SQL que se replican desde una instancia maestra externa
  • Instancias externas de MySQL que se replican desde un maestro de Cloud SQL
  1. Cuando se produce una interrupción de zona y su maestro falla en su réplica de conmutación por error, se cierran las conexiones existentes a la instancia. Se puede retornar a la conexión usando la misma IP.
  2. Después de la conmutación por error, la réplica se convierte en la maestra y Cloud SQL crea automáticamente una nueva réplica de conmutación por error en otra zona. Si se reconoce su instancia de Cloud SQL para estar cerca de otros recursos, se puede reubicar la instancia de Cloud SQL a su zona original cuando la zona esté disponible, sino no es necesario reubicar la instancia.
  • Matías Idrobo
  • Williams Ortiz
  • Paúl Ramírez

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store