Building a Data Warehouse: Módulo 3

1. BigQuery un data warehouse moderno.

  • Big Query almacena toda la información en un sistema columnar propietario que se llama capacitator, este maneja los worflows para sacarle provecho a esta herramienta
  • La data esta almacenada y codificada en un sistema de archivos distribuidos llamado colossus en diferentes discos físicos como se muestra en la figura 1
  • Adicionalmente podemos ejecutar datos de fuera de la zona de almacenamiento estos datos pueden estar en Could Storage o en Google drive o en Big Table
  • Como los datos no están almacenados en Big Query y debe usar otra red esto lo vuelve un poco más lento
  • Servicio de data warehouse de GCP tienes muchas características, se puede hacer query en SQL no solo en datasets pequeños sino con gran volumen de datos.
  • Capacidades de Serverless ya que no requiere de información por detrás, y se puede cancelar querys
  • Esquema de visualización porque todo se exponen en Apis
  • Big Query posee 300 ms de latencia
  • Big Query cobra por consumo
  • Se coloca una base de datos fija con pagos fijos
  • Consultas SQL interactivas sobre grandes conjuntos de datos (petabytes) en segundos
  • Sin servidor y sin operaciones, incluidas las consultas ad hoc.
  • Ecosistema de visualización y herramientas de informes.
  • Ecosistema de ETL y herramientas de procesamiento de datos.
  • Datos actualizados al minuto.
  • Machine Learning.
  • Seguridad y colaboración.

1.1 Optimización de los Capacitadores

Codificación por diccionario el capacitador trae ordena y muestra los datos

1.2 SLOTS

  • Capacidad de cómputo en Big Query unión de red ram y cpu
  • 1 slot es la mitad de la capacidad de una máquina virtual de 1 GB de memoria
  • Se usan para realizar el procesamiento de los query
  • Mas slots más memoria ósea el query está compilado y se debe procesarlo
  • Cada big query tiene un límite de 2000 slots
  • Para tener más slots en big query hay la opción de separar slots
  • ½ CPU y 1Gb RAM cada slot

1.3 Big Query Organización

  • Big Query organiza datos en tablas llamados dataset
  • Disponible para todos los proyectos y dentro de cada proyecto se tiene tablas
  • Big Query corresponde a un proyecto y esto está asociada a una cuenta de facturación
  • Cada tabla maneja una estructura

1.4 Seguridad

  • EL IAM da permiso a los datasets mas no a las tablas
  • Para seguridad tiene los mismo que cloud storage
  • Para dar acceso una persona debo ir al IAM y dar acceso a una persona en Big Query
  • Soporta vistas autorizadas y con esto se maneja restricción individual
  • Solo de da acceso a la vista y no al dataset
  • Se maneja auditorio como ver quien borro datos si se ejecuta o no los querys
  • Paulette Parra
  • Diego Paz
  • Pablo Zuñiga

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store