Paradigmas del Machine Learning

¿Hay que temerle a la IA?

Video: https://www.youtube.com/watch?v=q0NG5_NG6k8

1. Lo que sabemos de la inteligencia artificial

Se tiene el conocimiento de dos eventos que son muy importantes en el ámbito de la inteligencia artificial, el primero ocurre en 1997 en una partida de ajedrez, entre el campeón del mundo de ajedrez: Garry Kaspárov, y la supercomputadora de IBM denominada Deep Blue, partida la cual ganó la supercomputadora. Mostrando de esta forma que una computadora estaba dominando un campo que se creía estaba ligado a la cognitiva humana. El otro evento es la partida entre el software creado por la compañía Google DeepMind llamado, AlphaGo, y el campeón mundial el juego orienta llamado Go, Lee Sedol, partida la cual ganó el software. Esto da un mayor realce al mundo de la inteligencia artificial, llevándonos de esta manera a lo que actualmente se conoce como la cuarta revolución.

Con esto se sabe que las grandes compañías como Google, IBM, Tesla, etc. Han empezado a invertir en proyectos de inteligencia artificial.

2. Aprendizaje supervisado y aprendizaje no supervisado

Este mundo de la inteligencia artificial está inspirado en un órgano fundamental, para ser más preciso en el cerebro, sobre el que están inspirados muchos de los conceptos que dan base a este mundo. Uno de estos conceptos es el paradigma del aprendizaje, que básicamente son mecanismos que nos permiten procesar toda información y transformarla en verdadero conocimiento. Saber cómo funcionan estos mecanismos es algo fundamental dentro del Machine Learning, por lo cual podemos dividirlos en tres grandes mundos que son: el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje reforzado. Vamos a profundizar en dos de estos que son:

● Aprendizaje supervisado

Es un tipo de aprendizaje que se basa en encontrar la relación existente entre una variable de entrada y una variable de salida, lo que se puede decir que surge de enseñarle a los algoritmos el resultado que queremos obtener, previo a un determinado valor que se la ha mostrado, donde si se cumplen los requisitos el algoritmo devolverá un resultado correcto, incluso con valores de entrado que no los haya visto antes. Mostrando de esta manera que, si se le presenta a estos algoritmos los suficientes datos de entrada y salida, y si existe algún patrón este lo aprenderá, desde encontrar la relación entre una serie de números, hasta diagnosticar si una persona sufrirá o no de depresión a partir de sus publicaciones en Instagram. Siendo este paradigma uno de los más usado por su amplia aplicación práctica en la última década.

● Aprendizaje no supervisado

Es el paradigma que logra reproducir un conocimiento únicamente de los datos que se les proporciona de entrada a estos algoritmos, sin explicar cuál es resultado que desea obtener. Uno de los limitantes de este paradigma es que, al no tener ejemplos de respuestas, no se sabría con certeza si el algoritmo está actuando correctamente. Una de las ventajas que representa este paradigma es que es mucho menos costoso en comparación al aprendizaje supervisado.

Otro punto para tener en cuenta es que estos algoritmos pueden llegar a aprender estructuras conceptuales que se denominan espacios latentes, siendo un ejemplo poder definir lo que es una silla, a pesar de tener miles de formas que visiblemente no cuentan con un patrón definido.

3. ¿Hay que temerle a la IA?

Siendo objetivos, podemos presentar tres motivos por los cuales si se debe tener miedo a la inteligencia artificial, que son:

● Algoritmos sesgados: el problema de estos algoritmos radica en el tipo de datos de entrada que le proporcionamos, como es conocido nuestro mundo está lleno de prejuicios y por ende no se desea que estas características se vieran reflejadas en los sistemas de inteligencia artificial que se desarrolla.

● Cajas negras responsables: Son algoritmos que no sabremos exactamente cómo van a responder o el resultado que nos va a arrojar.

● Cambios disruptivos: son algoritmos que van a llevar a un cambio drástico, haciendo referencia a que muchos trabajos que son considerados como habituales van a desaparecer, y por la realidad actual, es un cambio que va a suceder debido a que estos sistemas son muy versátiles y se puede llegar a generar procesos que impliquen a una empresa.

4. ¿Google nos escucha?

Vivimos en una era de la información y hemos pasado de una revolución analógica a una digital, donde la tendencia es analizar y monitorizar toda fuente de información que sea propensa a obtener datos de valor. Lo que también es importante es que con el paso del tiempo se está dando más importancia a nuestra privacidad y hasta qué punto las organizaciones se mantienen dentro de lo ético y lo legal. Por lo tanto ¿Google nos escucha? Analizando, Google es una empresa de publicidad que intenta conectar a anunciantes con los consumidores, por lo tanto, usa nuestra información como usuarios con el fin de hacernos marketing personalizado. Por lo tanto, respondiendo a la pregunta si Google escucha nuestras conversaciones mediante los dispositivos, la respuesta es sí. Esto es algo lógico al momento de pensar, debido a que estas aplicaciones deben responder a un comando de voz, y para poder hacerlo deben estar todo el tiempo activado para poder reaccionar al momento de pronunciar el comando. Y siguiendo esta lógica se debe considerar que la información recolectada al momento de activar el comando se debe almacenar para poder analizar posteriormente. Pero esto no quiere decir que esté analizando nuestras conversaciones privadas para registrar algún sistema de publicidad durante todo el tiempo, lo que hace es almacenar desde el momento en el cual realizamos la activación por comando de voz hasta finalizar el tema de búsqueda; de esta manera, Google se enfrenta a cuatro tareas las cuales siguen el siguiente orden:

● Convertir la voz en texto

● Separar audio del ruido

● Entender la semántica

● Análisis de sentimientos

En cuestión de las dos primeras vemos que no existe problema alguno por parte de Google, pero en las dos restantes si tiene varias complicaciones ya que son cosas de mucho más análisis por parte del algoritmo.

Entrando más a profundidad de lo que es el aprendizaje supervisado y no supervisado podemos hablar lo siguiente:

● Aprendizaje supervisado

Si se desea trabajar con este paradigma nos debemos asegurar de tener las variables de entrada y la variable de salida, en esto podemos distinguir dos modelos para resolver problemáticas que pueden ser del tipo clasificación, que se basa en establecer el resultado en una respuesta dicotómica, es decir, que solo tenga dos posibilidades; y el otro modelo es de regresión y de estimación, en estos casos a partir de los datos de entrada que se le proporcione al algoritmo se desea que regrese una variable continua.

Dentro del modelo de clasificación, se suele usar mucho la regresión logística y lo que hace es crear una probabilidad de ocurrencia. En esta también se usa lo que se conoce como los árboles de decisión, que consisten en crear ramificaciones que conectan todas las características y caiga dentro de las dos posibles respuestas. Otro algoritmo usado son las máquinas de soporte vectorial, que genera un hiperplano a partir de nuestra base de datos y separa los dos posibles resultados.

Dentro del modelo de regresión y estimación el algoritmo más usado es el de la regresión lineal, lo que hace es sacar una ecuación conformada por todas las variables de entrada y nos devolverá un estimado del resultado.

● Aprendizaje no supervisado

Este paradigma se usa cuando suministramos las variables de entrada, pero no tengamos idea de cuáles serán las variables de salida, y dentro de este mundo tenemos 6 tipos de técnicas que son:

⮚ Clustering: en esta técnica la base de datos que le proporcionamos al algoritmo lo debe dividir, agrupar, segmentar y perfilar según lo que yo deseo o que el propio algoritmo los agrupe según le parezca más conveniente a partir de la base de datos suministrada.

⮚ Sistema de asociación: su finalidad es encontrar productos que se venden en conjunto, y de esta manera realizar marketing.

⮚ Detección de anomalías: es cuando necesitamos casos muy poco usuales dentro de la base de datos que hemos proporcionado.

⮚ Minería de secuencia: se basa en determinar la probabilidad de que suceda un evento tras realizar uno principal.

⮚ Reducción de dimensiones: se busca agrupar las variables que tengan algún tipo de característica en común y de esta manera reducir el número de variables de entrada, es muy usado cuando la base de datos que se suministre tenga un número muy alto de variables y de esta manera se pueda obtener un mejor resultado.

⮚ Sistema de recomendaciones: se basa en la información del pasado y que se puede centrar en seguir la misma línea de elementos coincidentes o que tenga los mismos elementos, pero con un agregado, se puede apreciar esto en diversos servicios como pueden ser YouTube, Spotify, etc. En donde en base a nuestro historial de gustos o de búsqueda nos sugiere cosas que pueden gustar o que uno no sabía que le llegaron a gustar.

Dentro de la técnica del Clustering lo que se usa es K medias y lo que hace es que, en un plano formado por todas las variables de entrada, saca las medias que existen entre los datos más cercanos y forma un grupo, mientras que los que están más alejados conforman otro grupo.

Dentro de los sistemas de reducciones lo que se usa es el análisis de componentes principales.

Autores:

  • Jean Pierre Von Lippke
  • Juan Valdez
  • Stefano Hurtado
  • Bryan Loarte

Código — Andrea Escobar

Conoce más:

Registrate en el programa de Python for Data Science.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store