Redshift vs BigQuery vs Snowflake: una comparación del DataWarehouse más popular para la transformación digital basada en datos y el análisis de datos dentro de las empresas

La transformación digital es la nueva norma dentro de la organización moderna, en la que continuamente desafían el status quo, experimentan y se sienten cómodos con el fracaso para impulsar nuevos éxitos; como tales, estos experimentos requieren una rápida configuración de DataWarehouse y soluciones de análisis de datos listas para usar.

Solía ​​llevar meses, si no trimestres, poner en funcionamiento un DataWarehouse. Y necesitaría la ayuda de Accenture o IBM. Bueno, ya no.

La arquitectura del DataWarehouse está cambiando rápidamente. Las empresas se están moviendo cada vez más hacia DataWarehouse basados ​​en la nube con un costo inicial más bajo, escalabilidad mejorada y rendimiento en lugar de los sistemas tradicionales en las instalaciones.

Cuando nuestros clientes nos preguntan cuál es el mejor DataWarehouse para sus proyectos de análisis de datos o transformación digital basada en datos, consideramos la respuesta en función de sus necesidades específicas. Por lo general, necesitan datos casi en tiempo real a un precio bajo sin la necesidad de mantener la infraestructura de DataWarehouse. En este caso, les recomendamos que utilicen DataWarehouse modernos como Redshift, BigQuery o Snowflake.

Desde el 18 de mayo de 2020, las 3 soluciones han atraído una atención bastante seria:

Fuentes para su adopción individual: RedShift , BigQuery , Snowflake

Consideraciones

  • Geolocalización de los datos
  • Volumen de datos
  • Recursos humanos dedicados para el soporte y mantenimiento
  • Escalabilidad: horizontal frente a vertical
  • Seguridad
  • Modelos de precios

Ubicación geográfica del DataWarehouse

Para obtener una versión actualizada, consulte las regiones Redshift , Bigquery y Snowflake .

Si no puede encontrar su país en la lista, no se preocupe, todavía hay formas en las que puede aprovechar estos recursos. Para hacerlo, debe:

  • Anonimizar sus datos (eliminar toda la información de identificación personal (PII) como nombre, número de teléfono, dirección, direcciones de correo electrónico, etc.)
  • Asegúrese de que su política de cifrado de datos en la plataforma coincida con los requisitos de su país
  • Consulte con su delegado de protección de datos interno o con las autoridades pertinentes.

Una vez que haya terminado, debería poder continuar con estos servicios.

Volumen de datos

Volúmenes de datos:

  • El punto óptimo de Postgres, MySQL, MSSQL y muchos otros RDBMS es de hasta 1 TB de datos involucrados en análisis. Si se excede este tamaño, puede experimentar un rendimiento degradado.
  • Las soluciones basadas en Amazon Redshift, Google BigQuery, Snowflake y Hadoop admiten un tamaño de conjunto de datos de hasta varios petabytes de manera óptima.

Tipo de datos:

Fuente de datos:

Si aún no está utilizando ninguna de las infraestructuras en la nube para ejecutar sus servicios existentes, deberá considerar invertir en la construcción de tuberías de datos para enviar datos a través de Internet a través de VPN para enviar sus datos al DataWarehouse respectivo. Ejemplos de cómo se verá para cada servicio son los siguientes:

  1. AWS Redshift

Ejemplo de una canalización de datos para AWS Redshift. Fuente: Automatización de flujos de trabajo de análisis en AWS

2. Google BigQuery

Ejemplo de una canalización de datos para Google BigQuery. Fuente: Ejecución de Spark en Dataproc y carga en BigQuery con Apache Airflow

3. Snowflake

Ejemplo de una canalización de datos para Snowflake. Fuente: conector de fábrica de datos Snowflake (con credenciales dinámicas y SQL)

El diseño variará según su caso de uso.

Recursos humanos dedicados para el soporte y mantenimiento

Los criterios de selección se desglosan en:

  • Configurar recursos de ingeniería
  • Recursos de ingeniería de mantenimiento continuo
  • Conjuntos de habilidades del personal

Aunque Redshift, Bigquery y Snowflake son mucho más fáciles de usar, necesitará comprender el impacto de cada limitación.

Escalabilidad: horizontal frente a vertical

La escalabilidad horizontal se refiere a la adición de más máquinas, mientras que la escalabilidad vertical significa la adición de recursos en un solo nodo para aumentar su capacidad.

En la mayoría de los casos, el escalado horizontal se refiere al aumento de la potencia informática, mientras que el escalado vertical se refiere a agregar más almacenamiento o memoria de acceso aleatorio (RAM).

Esto significa que se deben realizar más esfuerzos de ingeniería para configurar Redshift, ya que la computación y el almacenamiento están acoplados, no puede agregar nuevos procesadores para computar ni agregar espacio de almacenamiento adicional sin reconfigurar el clúster. Mientras que para BigQuery y Snowflake, no existe tal preocupación, ya que la computación y el almacenamiento son independientes con procesos ya integrados en anticipación del escalado vertical u horizontal.

Seguridad

Consulte lo siguiente para conocer las características de seguridad de Redshift , BigQuery y Snowflake .

Modelos de precios

Consulte lo siguiente para conocer los precios de Redshift , BigQuery y Snowflake .

En términos de precios, Redshift es más predecible ya que los recursos ya están predeterminados, Snowflake también se puede medir fácilmente ya que depende del tiempo invertido, mientras que BigQuery es más difícil de predecir ya que el recurso de consulta requerido varía a menos que esté dispuesto a pagar un precio fijo.

Veamos qué casos son óptimos para cada servicio según los modelos de precios.

1) Redshift

a) Informes diarios de NASDAQ: carga de trabajo urgente para informes de datos

b) Ofertas publicitarias automatizadas: las ofertas en ciertas redes publicitarias se ajustan a través de modelos predictivos sobre Redshift casi en tiempo real

c) Paneles de control en vivo: tener transmisión de datos en vivo con consultas continuas mediante actualización

2) BigQuery

a) Modelos de recomendación: que se ejecutan una vez al día para aplicaciones de comercio electrónico

b) Informes ad-hoc: consultas complejas en ocasiones para un informe trimestral

c) Inteligencia de ventas: para que los equipos de ventas o marketing realicen descubrimientos ad-hoc mediante el análisis de los datos de la forma que deseen.

d) Machine Learning: para descubrir nuevos patrones en los datos, especialmente el comportamiento del consumidor.

3) Snowflake

a) Empresas de inteligencia empresarial: muchos usuarios simultáneos (de 100 a 1000) consultan los datos al mismo tiempo para descubrir un patrón en los datos.

b) Proporcionar datos como un servicio: otorgar a miles de clientes acceso a sus datos con fines de análisis en forma de una interfaz de usuario de análisis o API de datos.

¿Qué DataWarehouse es el adecuado para usted?

Conoce más de Bootcamp AI

www.bootcampai.org

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store