BigQuery ML & Cloud AutoML

Bootcamp AI
5 min readAug 18, 2020

Custom Model building with SQL in BigQuery ML

BigQuery ML

BigQuery ML permite a los usuarios crear y ejecutar modelos de aprendizaje automático en utilizando consultas SQL estándar. BigQuery ML democratiza el aprendizaje automático al permitir a los profesionales de SQL compilar modelos con las habilidades y herramientas de SQL existentes. BigQuery ML aumenta la velocidad de desarrollo al eliminar la necesidad de mover datos.

Ventajas de BigQuery ML

● BigQuery ML democratiza el uso del AA gracias a que permite a los analistas de datos y a los usuarios principales de almacenes de datos compilar y ejecutar modelos mediante hojas de cálculo y herramientas de inteligencia comercial existentes. Esto permite la toma de decisiones comerciales mediante análisis predictivos en toda la organización.

● No es necesario programar una solución de AA con Python o Java. Los modelos se entrenan y se accede a ellos en BigQuery mediante SQL, un lenguaje que los analistas de datos conocen.

● BigQuery ML aumenta la velocidad de innovación y desarrollo del modelo, ya que quita la necesidad de exportar datos desde el almacén de datos. En cambio, BigQuery ML acerca el AA a los datos. Para ello, exporta y reformatea los datos.

Funcionalidades de Big Query ML

· La interfaz de usuario web de BigQuery

· La herramienta de línea de comando bq

· La API REST de BigQuery

· Herramientas adicionales, como una computadora portátil Jupyter o la plataforma de inteligencia empresarial

Modelos utilizados en BigQuery ML

· Regresión lineal para el pronóstico; por ejemplo, ventas de un artículo en un día determinado. Las etiquetas tienen un valor real (no pueden ser +/- infinito o NaN).

· Regresión logística binaria para clasificación; por ejemplo, determinar si un cliente realizará una compra. Las etiquetas solo deben tener dos valores posibles.

· Regresión logística multiclase para clasificación. Estos modelos se pueden usar para predecir varios valores posibles; por ejemplo, si una entrada tiene un valor “bajo”, “medio” o “alto”. Las etiquetas pueden tener hasta 50 valores únicos. En BigQuery ML, el entrenamiento de regresión logística multiclase utiliza un clasificador multinomial con una función de pérdida de entropía cruzada.

· K-significa agrupamiento para la segmentación de datos, por ejemplo, identificación de segmentos de clientes. K-means es una técnica de aprendizaje no supervisada, por lo que el entrenamiento modelo no requiere etiquetas o datos divididos para entrenamiento o evaluación.

· Factorización matricial para crear sistemas de recomendación de productos. Puede crear recomendaciones de productos basadas en el historial de comportamiento de los clientes, las transacciones y las clasificaciones de productos, y luego usar esas recomendaciones para brindarles experiencias personalizadas.

· Series temporales para hacer pronósticos de series temporales. Puede usar esta función para crear millones de modelos de series de tiempo y usarlos para pronosticar. El modelo maneja anomalías, tiempos y vacaciones automáticamente.

Custom Model building with Cloud AutoML

Entrena modelos de aprendizaje automático personalizados de alta calidad casi sin esfuerzo ni experiencia en el tema.

Cloud AutoML es un conjunto de productos de aprendizaje automático que permite a los desarrolladores con experiencia limitada en esta área entrenar modelos de alta calidad específicos para las necesidades de su empresa. Se basa en las tecnologías de vanguardia de Google para el aprendizaje por transferencia y la búsqueda de arquitecturas neuronales.

Cloud AutoML sigue un procedimiento estándar que se divide en tres fases, que son entrenar, desplegar y servir. La fase de formación tiene varios pasos. Primero tienes que preparar un conjunto de datos que será utilizado en el proceso de formación supervisada. A continuación, debe analizar el conjunto de datos para asegurarse de que tenga cualidades que le permitan sea ​​efectivo. Y es posible que deba corregir el conjunto de datos. Una vez que el conjunto de datos está preparado y validado, lo usa para entrenar el modelo. Y finalmente, el modelo se utiliza con datos de prueba para evaluar si va a ser eficaz en predecir y clasificar nuevos casos. Si el modelo no funciona bien en este punto, es posible que deba volver atrás y modificar el conjunto de datos y vuelva a intentarlo. La segunda fase consiste en implementar el modelo y administrarlo. Eso significa deshacerse de lo viejo o modelos sin usar. La tercera fase es alojar el modelo en un servicio en el que se puede utilizar para predecir y clasificar. Para reunir la información es más común tenerla en un archivo CSV (valores separados por comas). El archivo CSV debe estar codificado en UTF-8 y estar ubicado en el mismo depósito de Cloud Storage con el archivo fuente. También puede crear y administrar conjuntos de datos preparados mediante programación en Python, Java o Node.js

Puede cargar el archivo CSV y los archivos de imagen desde Cloud Storage o puede cargar desde su computadora local usando Importar. La formación admite varios formatos de archivo, incluidos JPEG y PNG. Las imágenes pueden ser de hasta 30 megabytes de tamaño. Deben convertirse en codificación base64 que almacena la imagen como un archivo de texto. Entonces, el archivo preparado será un archivo TXT o un archivo comprimido a archivo .zip. AutoML Visión crea la matriz de confusión para hasta 10 etiquetas. Si tienes más de 10 etiquetas, la matriz incluye las 10 etiquetas con mayor confusión (incorrectas predicciones). Utilice estos datos para evaluar la preparación de su modelo. Los formatos de archivo de formación incluyen JPEG, PNG, WEBP, GIF, BMP, TIFF, ICO hasta 30 MB. Las solicitudes de servicio admiten archivos JPEG, PNG o GIF de hasta 1,5 MB.

Si no se utiliza un modelo personalizado de Natural Lenguage durante 60 días, se eliminará. Si se utiliza un modelo personalizado de lenguaje natural, se eliminará después de 6 meses. Entonces debes entrenar un nuevo modelo cada 6 meses. Los métodos de entrenamiento y entrega dentro de Cloud AutoML se mejoran con frecuencia y actualizado. No se garantiza que estos cambios sean compatibles con versiones anteriores. Que puede hacer que un modelo personalizado sea incompatible con el servicio actual. Entonces deberías planear volver a generar periódicamente el modelo personalizado para seguir usándolo.

Autores:

  • Steve Acosta
  • Matías Idrobo
  • Williams Ortiz
  • Paúl Ramírez

Conoce más:

Registrate en el programa de Data Engineering en GCP.

--

--