Blueprints de la infraestructura de datos; Almacenamiento “lakehouse”; los datos no son más el nuevo petróleo

Bootcamp AI
4 min readNov 5, 2020

Por mucho que oímos sobre inteligencia artificial y aprendizaje automático, son solo una faceta de una tendencia aún mayor dentro de la empresa: el cambio de sistemas de software basados ​​en código a aquellos basados ​​en datos. Aquí nos enfocamos en los datos y resumimos nuestras historias y grupos más importantes sobre las formas en que está cambiando la empresa, desde nuevas pilas de tecnología y modelos comerciales hasta quién puede usar los datos y cómo.

Los planos de la infraestructura de datos

La aparición de AI / ML ha agregado complejidad a la infraestructura de datos, las herramientas que centralizan y procesan los datos, y ha creado dos ecosistemas paralelos. El primero es para los sistemas operativos (incluido AI / ML) que impulsan los productos basados ​​en datos, y el segundo es para los sistemas analíticos tradicionales (incluidas las herramientas de inteligencia empresarial). Entonces, ¿cómo se integra en la empresa toda la innovación en herramientas de datos y tecnología en torno a estos dos ecosistemas?

Preguntamos a más de 20 profesionales de las principales organizaciones de datos: (a) cómo se veían sus pilas de tecnología interna y (b) si diferirían si construyeran una nueva desde cero hoy. El resultado: una arquitectura unificada para una infraestructura de datos moderna y tres modelos comunes para implementarla.

Una nueva forma de almacenar datos: “lakehouse”

Muchas empresas tienen dos tipos distintos de almacenamiento: datalake y datawarehouse. El datawarehouse maneja análisis “fuera de línea”, como dashboards e informes de BI, que describen lo que está sucediendo en una empresa. Y los datalakes almacenan datos más desordenados, generalmente no estructurados, que impulsan los modelos “en línea” para la ciencia de datos y los cálculos detrás de los modelos que ejecutan el negocio (por ejemplo, cuando Lyft o Uber establecen precios en los viajes).

Pero a medida que los datalakes maduran, son más capaces de manejar casos de uso de BI y análisis directamente. ¿Podría ser el futuro un “lago” de datos que proporcione una única plataforma de almacenamiento para inteligencia empresarial y ciencia de datos?

Datos y el problema de los sistemas complejos

En un sistema basado en código, el objetivo es construir software que, dadas determinadas entradas, produzca un determinado conjunto de salidas. La tarea es fundamentalmente de ingeniería: puedes modularizar, puedes construir integraciones, puedes controlar todas las primitivas. Pero los sistemas de datos, especialmente los sistemas AI / ML, son más parecidos a la metafísica que a la ingeniería, en su intento de modelar y controlar la complejidad del mundo natural.

Por qué los datos no son el nuevo petróleo

Una vez que se extrae el petróleo, no se puede volver a extraer y mantiene su valor a lo largo del tiempo (aparte de los cambios del mercado). Los datos, por otro lado, se pueden extraer infinitamente; normalmente se vuelve menos valioso con el tiempo; y, a medida que crece un corpus de datos, el costo de adquirir más datos aumenta a medida que disminuye el valor incremental de agregar datos.

Eso no quiere decir que los datos no sean valiosos. Los datos son fundamentales para las estrategias de productos de muchas empresas y hay formas en que pueden contribuir a la defensa, pero no es un foso mágico. Es más probable que la defensa a largo plazo provenga de tecnología diferenciada y experiencia en el dominio, y los datos son un combustible clave para ambos.

Decisiones basadas en datos cuando todos son analistas

A medida que más industrias y organizaciones pasan de los procesos manuales basados ​​en papel a los procesos digitales automatizados (palabra de moda: transformación digital), la inteligencia empresarial (BI) está dando paso a la analítica operativa (OA). Con BI, un equipo de especialistas crea cuadros de mando que los ejecutivos y gerentes utilizan para comprender el desempeño pasado de una empresa y tomar decisiones de alto nivel. En el análisis operativo, todos se convierten en analistas, acceden a datos casi en tiempo real para tomar más decisiones operativas y abren nuevas oportunidades para la infraestructura del análisis operativo, las aplicaciones centradas en la industria y las herramientas basadas en roles. Entonces, ¿qué significa eso para los trabajadores y la empresa?

Referencia:

Traducción a16z

Conoce más en bootcampai.org

--

--