Introduction to Data Engineering: Módulo 1

1. Google Cloud Platform (GCP)

  • GCP cuenta con un gran almacenamiento que alberga la información de todas las plataformas de Google garantizando un gran porcentaje de duración. GCP posee servidores regionales para atender a las necesidades de trabajo en tiempo real. Cloud Storage Buckets son uno de los muchos recursos de GCP.
  • GCP tiene los servidores y las redes para soportar la demanda de transferencia de datos.
  • GCP ofrece servicios de seguridad y se puede encargar en el manejo de una gran parte de las responsabilidades de los datos almacenados.

2. Ingeniero de Datos

2.1 Roles

El ingeniero de datos está encargado de construir pipelines para ordenar los datos, y poder obtener información en tablas y reportes que puedan ser útiles para su análisis o para modelados de Machine Learning. Son importantes al saber dónde está la información como mostrarla, que parte del negocio puede usar dicha información para tomar decisiones.

2.2 Desafíos

El desafío principal es el acceso a los datos. Para poder acceder a los datos se realiza una conexión a través de una plataforma alterna con backups.

4. Data Lake

Un Data Lake es donde se centraliza toda la información de la empresa en un solo lugar, sin importar si es información relacional o no relacional, información transaccional o analítica centralizándola en un lugar específico. Una de las opciones de Google Cloud Platform (GCP) es Cloud Storage siendo similar a un S3 de AWS o Buckets de Azure.

4.1 Cloud Storage

Es un datalake diseñado para tener un gran porcentaje de durabilidad en su almacenamiento, infraestructura, análisis y Machine Learning.

  • Limpiar, formatear y obtener datos listos para insights empresariales en un data warehouse.
  • Optimizar los Queries para su desempeño (obtención, paralelismo y ejecución)
  • Tener los datos listos para ser utilizados.

5. Data Lakes y Data Warehouses

Las preguntas para responder son quiero un data lake para solo almacenar a querer un data warehouse para realizar analítica sobre la información.

  • 30TB de capacidad de almacenamiento
  • 60000 IOPs (Lecturas y escrituras por segundo)
  • Autoescalabilidad, y auto backup.
  • Paulette Parra
  • Diego Paz
  • Pablo Zuñiga

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store