Data Analytics en AWS: Módulo 1

Introducción a Big Data y Cloud Computing

BIG DATA

En la actualidad los sistemas digitales avanzan de forma acelerada, uno de los campos que ha tenido un realce es el Big Data. Big Data indica la gestión de distintos tipos de documentos no solo en el almacenamiento si no también en su procesamiento.

Big Data nos permite agregar valor a todos los datos que recolectamos tratando esa información de manera que sea productiva en cualesquiera áreas de desarrollo.

Image for post

V’s del Big Data

Big Data tiene varios desafíos a nivel global con respecto a la información estos campos son los principales de los 10 existentes:

  • Volumen
  • Velocidad
  • Variedad
  • Veracidad
  • Valor

Volumen

La gran cantidad de datos que registramos en el medio generan una ingesta de manera exponencial desde los diferentes puntos de conexión como tablets, laptops, teléfonos, etc. Toda esta información permite que las empresas hayan cambiado su forma de comercializar sus productos y como ejemplo se presenta el campo de IoT (Internet of Things), que se enfoca en que todo esté conectado lo cual se traduce en grandes cantidades de información.

Image for post

Velocidad

Toda la información que generamos debe ser cargada en distintos servidores alrededor del mundo exigiendo a estos sistemas una alta velocidad para poder transferir, recolectar toda la información para que sea procesada y presentada.

Image for post

Variedad

Tenemos y manejamos diferentes recursos desde donde adquirimos información como por ejemplo vídeos, música, tablas, mails entre otros, la precedencia de estos archivos genera variedad y su almacenamiento se lo trata de una manera específica para cada tipo de información utilizando diferentes recursos.

Image for post

Tenemos los datos clasificados de la siguiente manera.

Datos estructurados permiten almacenar información para tabular en un sistema de bases de datos relacionales (OLPT) y multidimensionales (OLAP).

Datos semiestructurados hacen referencia a las bases de datos no relacionales.

Datos no estructurados no tienen un formato específico para almacenamiento y se lo realiza de manera tradicional como PDF, Word, vídeos entre otros.

Veracidad

El tipo de datos que almacenamos en la red proceden de distintas fuentes lo cual nos cuestiona en cuales datos podemos confiar y confirmar la veracidad de esta, buscando la verificación de los datos que se consumen.

Image for post

Valor

Toda la información recolectada no sería útil si no se agrega valor, este se lo realiza al momento de analizar la información y presentarla en gráficos los cuales nos permitan conocer que está pasando con nuestra información.

Big Data debe presentar importantes características al momento de presentar una solución escalable, tolerancia a fallos, segura, distribuida y flexible.

Image for post

Fases de solución de Big Data

Las fases de una solución se componen de 5 elementos:

  • Recolección
  • Almacenaje
  • Procesamiento
  • Análisis y validación
  • Seguridad
Image for post

Recolección

AWS ofrece varios recursos para adquirir la información y se lo puede realizar por lotes y en tiempo real.

Almacenaje

AWS tiene varios recursos para el almacenaje entre ellos tenemos S3, Dynamo DB y cassandra MCS.

Procesamiento

Podemos realizar el procesamiento por lotes o procesamiento por flujos haciendo uso de los distintos servicios, con esto se define los métodos que se utilizan en la recopilación y presentarlos.

Visualización

Una vez analizados los datos se requiere la presentación de los mismos con los resultados que nos permitan.

Seguridad

La seguridad es un eje transversal en este tema y se la realiza a través de todos y cada uno de los pasos anteriores

Data Lake

Uno de los casos de uso más importantes de las tecnologías de Big Data es analizar los datos y descubrir los patrones ocultos y la información que contienen. Para que esto sea efectivo, todos los datos de las fuentes deben guardarse en bruto hasta poder ser analizados apropiadamente. Un Data Lake es un repositorio centralizado que le permite almacenar todos sus datos estructurados y no estructurados a cualquier escala.

Permite ejecutar diferentes tipos de análisis, sobre los datos recopilados. Los análisis pueden ir desde paneles y visualizaciones hasta procesamiento de grandes datos, análisis en tiempo real y aprendizaje automático para guiar mejores decisiones. Los Data Lakes nos pueden ayudar en actividades de:

Movimiento de Datos

Permiten importar cualquier cantidad de datos que puedan venir en tiempo real. Los datos se recopilan de múltiples fuentes y se trasladan al lago de datos en su formato original. Este proceso le permite escalar a datos de cualquier tamaño, mientras ahorra tiempo al definir estructuras de datos, esquemas y transformaciones.

Almacenamiento, Clasificación y Seguridad de Datos

Dan la facilidad de recopilar y almacenar datos relacionales y no relacionales a cualquier escala y a bajo costo. También le brindan la capacidad de comprender qué datos hay en el Lake a través del rastreo, la catalogación y la indexación de datos. Finalmente, los datos deben estar protegidos para evitar accesos no autorizados.

Analítica y Machine Learning

Permite usar un amplio conjunto de motores analíticos para análisis únicos, transmisión en tiempo real, análisis predictivo, IA y aprendizaje automático. Esto incluye marcos de código abierto como Apache Hadoop, Presto y Apache Spark, y ofertas comerciales de proveedores de almacenamiento de datos y de inteligencia empresarial. Data Lakes permiten ejecutar análisis sin la necesidad de mover sus datos a un sistema de análisis separado.

Image for post

Cloud Computing

De una manera simple, la computación en la nube (cloud computing) es una tecnología que permite acceso remoto a softwares, almacenamiento de archivos y procesamiento de datos por medio de Internet, siendo así, una alternativa a la ejecución en una computadora personal o servidor local. En el modelo de cloud computing, no hay necesidad de instalar aplicaciones localmente en computadoras.

La computación en la nube ofrece a los individuos y a las empresas la capacidad de un pool de recursos de computación con buen mantenimiento, seguro, de fácil acceso y bajo demanda. En lugar de comprar, poseer y mantener servidores y centros de datos físicos, puede acceder a servicios tecnológicos, como potencia informática, almacenamiento y bases de datos, según sea necesario, de un proveedor de la nube como AWS.

Nube Pública

Modelo de cloud computing administrada por terceros, servidores comunes, los usuarios finales no conocen qué trabajos de otros clientes pueden estar corriendo en el mismo servidor o red.

Nube Privada

En este tipo de nube, el proveedor es propietario del servidor, red, y disco y pueden decidir qué usuarios están autorizados a utilizar la infraestructura. Infraestructura manejada por un solo administrador que controla qué aplicaciones debe correr y dónde.

Nube Híbrida

Este es el tipo más común de implementación de nube, consiste en conectar la nube pública y la infraestructura existente local (on-premise) para ampliar e incrementar la infraestructura de la empresa al mismo tiempo que se conectan estos recursos en la nube con el sistema interno.

Servicios de AWS

Amazon Web Services ofrece un amplio conjunto de productos globales basados ​​en la nube que incluyen computación, almacenamiento, bases de datos, análisis, redes, dispositivos móviles, herramientas de desarrollo, herramientas de administración, IoT, seguridad y aplicaciones empresariales. Estos servicios ayudan a las organizaciones a moverse más rápido, reducir los costos de TI y escalar. Las empresas más grandes y las nuevas empresas más importantes confían en AWS para impulsar una amplia variedad de cargas de trabajo que incluyen: aplicaciones web y móviles, desarrollo de juegos, procesamiento y almacenamiento de datos, almacenamiento, archivo y muchos otros.

Entre más de los 175 servicios que ofrece AWS se pueden categorizar a los más utilizaos como:

Image for post

Autores:

  • Michelle Herrera
  • Cristian Moyano
  • Lui Moyano
  • Edwin Rodríguez

Revisa los siguientes post

Módulo 2: Ingesta de datos Kinesis Data Firehose

Módulo 3: Almacenamiento — Kinesis Data Stream — SQS — DMS

Módulo 4: Procesamiento — AWS IOT CORE

Conoce más: bootcampai.org/aws-big-data

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store