Prebuilt ML model APIs for Unstructured Data: Módulo 12

Big Data Analytics with Cloud

Prebuilt ML model APIs for Unstructured Data

GCP tiene la ventaja de brindar diferentes APIs, para que los equipos de negocios puedan tomar decisiones, además de predecir comportamientos.

Datos no Estructurados son Difíciles

Existen muchos ejemplos que demuestran cómo se puede extraer información de elementos, como lo son imágenes, audios o videos. Por mencionar algunos ejemplos se tiene:

· AUCNET: Realizar modelos de imágenes personalizadas para darle un precio a los carros.

· OCADO: Construye a partir de una NPL API para enrutar los correos de clientes.

· GIPHY: Usa una API de Visión para encontrar textos en memes.

· UNIQLO: Es una empresa que vende ropa, la cual utiliza Dialogflow para crear una nueva experiencia de compra.

Supongamos que somos una empresa aérea que requiere identificar los glaciares de una montaña de las nubes del cielo. Para poder realizar esto, se puede utilizar un modelo de ML.

Como otro ejemplo, se puede decir que una empresa necesita ubicar a un buque de carga en altamar y poder saber la capacidad con la que se está moviendo. Para ello, es necesario utilizar imágenes satelitales de este buque. O también, utilizando sensores de temperatura, se podrá tomar datos de cómo se encuentra viajando la carga. Esta información podrá ser cargada a los APIs y de esta forma, realizar cálculos y predicciones.

En el caso de la medicina, se puede utilizar la API de visión para analizar imágenes médicas y poder realizar un diagnóstico. Por ejemplo, se podría identificar una Retinopatía Diabética.

Para todo esto, existen opciones para utilizar APIs con modelos pre-entrenados o construir uno mismo el propio modelo.

ML APIs para Datos Enriquecedores

La mayoría de los datos en una empresa se encuentran no estructurados. Estos datos se pueden encontrar en emails, documentos, PDFs, páginas webs, entre otros. Los datos estructurados son datos ubicados en una base de datos, en archivos JSON y en algunas hojas de cálculos.

Los datos no estructurados pueden ser procesados al ser etiquetados con una IA. Para ello, se utiliza la API de Cloud Natural Language.

Existe una API llamada Syntactic Analysis, la cual se encarga de romper el texto en elementos más pequeños como palabras u oraciones. Al hacer esto, provee información sobre la morfología de la oración. Después de esto, los elementos pueden ser etiquetados en base a su rol dentro de la oración, siendo así, el sujeto, predicado, entre otros.

La API Entity Analysis permite reconocer diferentes objetos. Es así como, en base a su aplicación, puede identificar a personas, obras de arte, una ubicación, un precio, un número de teléfono, etc.

La API Sentiment Analysis permite identificar la opinión emocional de la actitud de un escritor y darle un valor o magnitud.

Combinar las APIs Entity y Sentiment Analysis permitirá determinar el sentimiento expresado frente a entidades presentadas en un texto.

Actualmente se tienen más de 600 categorías para poder identificar las imágenes.

Big Data Analytics with Cloud AI Platform Notebooks

Qué es un Notebook

Un notebook es una plataforma en línea que permite ingresar códigos con comentarios, y que sean interactivos. Los notebooks son principalmente utilizados para el análisis de datos y machine learning. El notebook permite que otras personas puedan leer, editar y ejecutar el código, además de realizar trabajos colaborativos.

Dentro de AI Platform se tiene a los Jupyter Notebooks, los cuales se traducen en una instancia preconfigurada, la cual ya tiene los frameworks correspondientes a los paquetes elegidos. AI Platforms utiliza la versión más actualizada y estable de Jupyter Notebooks.

AI Platforms corresponde a una instancia de Compute Engine. Al crear un Notebook, se está equipando una máquina con los paquetes escogidos. Esta instancia puede ser observada en el proyecto creado, desde aplicaciones como DataLab o DataFlow.

Todo esto funciona conectándose a través de Jupyter Lab, el cual se está ejecutando en un Compute Engine, en donde se va a poder correr el código necesitado. Este código puede ser almacenado en Source Reporsitories. Vale acotar que desde JupyterLab se puede consumir la información, ya sea que se encuentre en Cloud SQL, buckets o BigQuery.

La magia de BigQuery y los lazos a Pandas

Los porcentajes, como código, permiten realizar consultas en BigQuery. Utilizando esta información y con ayuda de Pandas, se puede presentar la información de una manera más visual.

Autores:

  • Steve Acosta
  • Matías Idrobo
  • Williams Ortiz
  • Paúl Ramírez

Conoce más: bootcampai.org/di

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store