Funcionalidad Avanzada en BigQuery

Ventana de funciones analíticas

Se utiliza esta funcionalidad para:

· Agregaciones estándar como:

COUNT

Ejemplo:

· Funciones de navegaciones como:

LEAD

Ejemplo:

· Funciones de clasificación y numeración como:

RANK

Ejemplo:

Clausulas WITH

· WITH es simplemente una subconsulta con nombre (o expresión de tabla común)

· Actúa como una mesa temporal.

· Divide consultas complejas

· Encadenar varias subconsultas en un solo WITH

· Puede hacer referencia a otras subconsultas en futuras subconsultas.

Funciones GIS

· BigQuery tiene funcionalidad GIS incorporada
Ejemplo:
¿Podemos encontrar los códigos postales mejor atendidos por el sistema Citi Bike de Nueva York al buscar el número de estaciones dentro de 1 km de cada código postal que tienen al menos 30 bicicletas?

· Utilice ST_DWITHIN para comprobar si dos objetos de ubicación están a cierta distancia.

· Representar puntos de longitud y latitud como Well Known Text (WKT) usando la función ST_GeogPoint.

Ejemplo:

· Representar regiones con ST_MakeLine y ST_MakePolygon
Ejemplo:

· Función ST_DWithin: ¿Hay ubicaciones a cierta distancia?
Ejemplo:

· Otras funciones de predicción:
Intersecciones de ubicaciones: ST_Intersects

Geometría dentro de otra: ST_Contains

Geometría envuelve a otra: ST_CoveredBy

· Función ST_Union_Agg y ST_Centroid_Agg: Combinar varios polígonos en uno solo

Ejemplo:

Consideraciones de rendimiento.

Mejores prácticas para decisiones rápidas, inteligentes y basadas en datos

Prácticas recomendadas para analizar datos con BigQuery

Mejore la escalabilidad mejorando la eficiencia

Optimizar consultas en BigQuery

BigQuery ordena automáticamente los datos según los valores de las columnas de agrupación.

Configurar la agrupación en clústeres en el momento de la creación de la tabla

BigQuery volverá a agrupar automáticamente sus datos

Organizar datos a través de tablas administradas

Particionar

Clusterizar

Filtrar el almacenamiento antes de que comience la ejecución de consultas para reducir los costos.

Optimización del almacenamiento en segmentos de columnas para mejorar el filtrado y la colocación de registros.

Reduce un escaneo de tabla completo a las particiones especificadas.

El rendimiento de la agrupación en clústeres y el ahorro de costos no se pueden evaluar antes de que comience la consulta.

Una sola columna da como resultado una cardinalidad más baja (por ejemplo, miles de particiones).

● Partición de tiempo (pseudocolumna)

● Partición de tiempo (columna Fecha / Hora del usuario)

● Partición de rango de enteros

Agrupación priorizada de hasta 4 columnas, en tipos más diversos (pero sin columnas anidadas).

Usar planes de BigQuery para optimizar

Autores:

  • Gabriel Guerra
  • Paulette Parra
  • Diego Paz
  • Pablo Zuñiga

Conoce más:

Registrate en el programa de Data Engineering en GCP.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store