Athena

Athena es un servidor de consultas que nos facilita el análisis de S3 con SQL. No posee un servidor por lo cual solo se paga por las consultas realizadas.
Trabaja con el motor de presto y puede soportar la lectura de formatos como:

  • CSV / TSV
  • JSON
  • ORC
  • Parquet
  • Avro

Al pagar por uso tiene un costo muy bajo el cual es de 5 dólares por cada terabyte escaneado. Se recomienda para ahorrar costos usar tablas en formato parquet y particionadas, lo cual nos permite reducir los costos entre 30% a 90%/

Laboratorio Athena

  1. Entrar el servicio de S3 y crear un bucket con el siguiente nombre : aws-athena-lmgs (las letras las iniciales de sus nombres).
  2. Dentro del bucket crear 1 carpeta llamada data y dentro de ella dos subcarpetas llamadas input y output
  3. Dentro de la carpeta input crear las siguiente carpetas dentro: schema -> covid ->tables -> research
  4. Entrar a la EC2 y descargar el siguiente archivo de S3: s3://aws-files-data-analytics/dataset/research.tsv
  5. Ejecutar aws s3 cp s3://aws-files-data-analytics/dataset/research.tsv .
  6. Subir el archivo research.csv a la carpeta research que hemos creado, modificado xxxx por el nombre de nuestro bucket en S3.
  7. Ejecutamos: aws s3 cp research.tsv s3://aws-athena-xxxx/data/input/schema/covid/tables/research/
  8. Creamos el schema llamado covid y clic en Run query o Ctrl + Enter
  9. Creamos la tabla research, antes cambiamos en la línea 25 el nombre de nuestro bucket.
  10. Creamos la tabla research_parquet, cambiamos el nombre de nuestro bucket.
  11. Ahora creamos una tabla en formato parquet pero con partición, para seguir optimizando los costos.
  12. Finalmente comparamos los tiempos y data escaneada de los siguientes querys.

QuickSight

Es un servicio de inteligencia empresarial basado en la nube el cual nos permite proporcionar información a todos los integrantes de su organización fácilmente

Nos permite crear y publicar paneles interactivos que incluyen información de aprendizaje automático. Se puede acceder a los paneles desde cualquier dispositivo e integrarlos en aplicaciones portales y sitios web.

Los datos que se pueden analizar son los siguientes:

  • RedShift
  • Aurora / RDS
  • Athena
  • EC2 que alojan BD
  • Archivos de S3 (Jsono parquet)
  • Teradata

Laboratorio QuickSight

  1. Entrar el servicio de QuickSight.
  2. Clic en Sign up for QuickSight.
  3. Seleccione la opción Estándar y clic en Continuar
  4. Ingresas un nombre para la cuenta, tu correo, y seleccionas AWS S3 y eliges el bucket donde están tus archivos csv de la clase anterior
  5. Revisamos algunos ejemplos.
  6. Ejemplo 1 : Web and Social Media Analytics

7. Ejemplo 2 : Business Review analysis

8. Clic en Administrar datos para usar un csv que tenemos para este
laboratorio
9. Clic en Nuevo conjunto de datos
10. Seleccionamos la opción Cargar un archivo y subimos el archivo
players_2020.csv
11. El archivo se cargará el SPACE de QuickSight
12. Aparecerá la siguiente página, aquí podemos crear dashboard
personalizados

13. Clic en age, clic derecho cambiar a Medida y seleccionar.

14. Se añadirá un nuevo gráfico, y elegimos la medida nationality.

15. Clic en la parte superior derecha, clic en Administrar QuickSight
16. Seleccionamos Configuración de cuenta y clic en Cancelar la
suscripción.

Autores:

  • Michelle Herrera
  • Cristian Moyano
  • Lui Moyano
  • Edwin Rodríguez

Conoce más: bootcampai.org/aws-big-data

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store