Building a Data Warehouse: Módulo 3

3 min readJun 17, 2020

1. BigQuery un data warehouse moderno.

A diferencia de base de datos normales que están orientadas a filas Big Query lo hace por columnas y distribuye el peso por columnas
Big Query almacena toda la información en un sistema columnar propietario que se llama capacitator, este maneja los worflows para sacarle provecho a esta herramienta
La data esta almacenada y codificada en un sistema de archivos distribuidos llamado colossus en diferentes discos físicos como se muestra en la figura 1

Figura 1 Estructura de Big Query

La data esta replicada en múltiples Datacenters y con esto la información se distribuye. Y al ejecutar los Querys la parte de procesamiento es Dremel de BIG QUERY que permite ver cuántos capacitadores necesito para hacer el Query que trae los datos y los muestra
Adicionalmente podemos ejecutar datos de fuera de la zona de almacenamiento estos datos pueden estar en Could Storage o en Google drive o en Big Table
Como los datos no están almacenados en Big Query y debe usar otra red esto lo vuelve un poco más lento
Servicio de data warehouse de GCP tienes muchas características, se puede hacer query en SQL no solo en datasets pequeños sino con gran volumen de datos.
Capacidades de Serverless ya que no requiere de información por detrás, y se puede cancelar querys
Esquema de visualización porque todo se exponen en Apis
Big Query posee 300 ms de latencia
Big Query cobra por consumo
Se coloca una base de datos fija con pagos fijos
Consultas SQL interactivas sobre grandes conjuntos de datos (petabytes) en segundos
Sin servidor y sin operaciones, incluidas las consultas ad hoc.
Ecosistema de visualización y herramientas de informes.
Ecosistema de ETL y herramientas de procesamiento de datos.
Datos actualizados al minuto.
Machine Learning.
Seguridad y colaboración.

Codificación por diccionario el capacitador trae ordena y muestra los datos

Codificación por tamaño puede hacer que se reduzca la data al momento de leer y reordena los datos antes de ejecutarlo

Big Query organiza datos en tablas llamados dataset
Disponible para todos los proyectos y dentro de cada proyecto se tiene tablas
Big Query corresponde a un proyecto y esto está asociada a una cuenta de facturación
Cada tabla maneja una estructura

EL IAM da permiso a los datasets mas no a las tablas
Para seguridad tiene los mismo que cloud storage
Para dar acceso una persona debo ir al IAM y dar acceso a una persona en Big Query
Soporta vistas autorizadas y con esto se maneja restricción individual
Solo de da acceso a la vista y no al dataset
Se maneja auditorio como ver quien borro datos si se ejecuta o no los querys

Autores:

Revisa los siguientes post

Módulo 1: Introduction to Data Engineering

Módulo 4: Big Query

Conoce más: bootcampai.org/di