Building a Data Warehouse: Módulo 3

1. BigQuery un data warehouse moderno.

  • A diferencia de base de datos normales que están orientadas a filas Big Query lo hace por columnas y distribuye el peso por columnas

Figura 1 Estructura de Big Query

  • La data esta replicada en múltiples Datacenters y con esto la información se distribuye. Y al ejecutar los Querys la parte de procesamiento es Dremel de BIG QUERY que permite ver cuántos capacitadores necesito para hacer el Query que trae los datos y los muestra

1.1 Optimización de los Capacitadores

Codificación por diccionario el capacitador trae ordena y muestra los datos

Codificación por tamaño puede hacer que se reduzca la data al momento de leer y reordena los datos antes de ejecutarlo

1.2 SLOTS

  • Capacidad de cómputo en Big Query unión de red ram y cpu

1.3 Big Query Organización

  • Big Query organiza datos en tablas llamados dataset

1.4 Seguridad

  • EL IAM da permiso a los datasets mas no a las tablas

Autores:

  • Gabriel Guerra

Revisa los siguientes post

Módulo 1: Introduction to Data Engineering

Módulo 2: Construyendo un Data Lake en GCP

Módulo 4: Big Query

Módulo 6: Serverless Data Processing with Dataflow

Conoce más: bootcampai.org/di

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store