Athena

  • JSON
  • ORC
  • Parquet
  • Avro

Laboratorio Athena

  1. Dentro del bucket crear 1 carpeta llamada data y dentro de ella dos subcarpetas llamadas input y output
  2. Dentro de la carpeta input crear las siguiente carpetas dentro: schema -> covid ->tables -> research
  3. Entrar a la EC2 y descargar el siguiente archivo de S3: s3://aws-files-data-analytics/dataset/research.tsv
  4. Ejecutar aws s3 cp s3://aws-files-data-analytics/dataset/research.tsv .
  5. Subir el archivo research.csv a la carpeta research que hemos creado, modificado xxxx por el nombre de nuestro bucket en S3.
  6. Ejecutamos: aws s3 cp research.tsv s3://aws-athena-xxxx/data/input/schema/covid/tables/research/
  7. Creamos el schema llamado covid y clic en Run query o Ctrl + Enter
  8. Creamos la tabla research, antes cambiamos en la línea 25 el nombre de nuestro bucket.
  9. Creamos la tabla research_parquet, cambiamos el nombre de nuestro bucket.
  10. Ahora creamos una tabla en formato parquet pero con partición, para seguir optimizando los costos.
  11. Finalmente comparamos los tiempos y data escaneada de los siguientes querys.

QuickSight

Es un servicio de inteligencia empresarial basado en la nube el cual nos permite proporcionar información a todos los integrantes de su organización fácilmente

  • Aurora / RDS
  • Athena
  • EC2 que alojan BD
  • Archivos de S3 (Jsono parquet)
  • Teradata

Laboratorio QuickSight

  1. Clic en Sign up for QuickSight.
  2. Seleccione la opción Estándar y clic en Continuar
  3. Ingresas un nombre para la cuenta, tu correo, y seleccionas AWS S3 y eliges el bucket donde están tus archivos csv de la clase anterior
  4. Revisamos algunos ejemplos.
  5. Ejemplo 1 : Web and Social Media Analytics
  • Cristian Moyano
  • Lui Moyano
  • Edwin Rodríguez

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store