Machine Learning: desafíos, lecciones y oportunidades en el modelado de riesgo crediticio

Introducción

El aprendizaje automático es un método para enseñar a las computadoras a analizar datos, aprender de ellos y luego hacer una determinación o predicción con respecto a nuevos datos. En lugar de codificar manualmente un conjunto específico de instrucciones para realizar una tarea en particular, la máquina se “entrena” utilizando grandes cantidades de datos y algoritmos para aprender a realizar la tarea. El aprendizaje automático se superpone con su campo hermano de menor perfil, el aprendizaje estadístico. Ambos intentan encontrar y aprender de patrones y tendencias dentro de grandes conjuntos de datos para hacer predicciones. El campo del aprendizaje automático tiene una larga tradición de desarrollo, pero las mejoras recientes en el almacenamiento de datos y la potencia informática los han hecho omnipresentes en muchos campos y aplicaciones diferentes, muchos de los cuales son muy comunes. Siri de Apple, feeds de Facebook, y las recomendaciones de películas de Netflix dependen de alguna forma de aprendizaje automático. Uno de los primeros usos del aprendizaje automático fue el modelado de riesgo crediticio, cuyo objetivo es utilizar datos financieros para predecir el riesgo de incumplimiento.

Enfoques de aprendizaje automático

Ahora veamos tres algoritmos de aprendizaje automático diferentes: redes neuronales artificiales, bosque aleatorio y refuerzo.

Random forest

Los bosques aleatorios combinan predictores de árboles de decisión, de modo que cada árbol depende de los valores de un vector aleatorio muestreado de forma independiente y con la misma distribución. Un árbol de decisiones es la unidad más básica del bosque aleatorio. En un árbol de decisión, se ingresa una entrada en la parte superior y, a medida que atraviesa el árbol, los datos se clasifican en subconjuntos cada vez más pequeños. En el ejemplo que se muestra en la Figura 3, el árbol determina la probabilidad de incumplimiento en función de tres variables: tamaño de la empresa; la relación entre las ganancias antes de intereses, impuestos, depreciación y amortización (EBITDA) y los gastos por intereses; y la relación entre el pasivo corriente y las ventas. El recuadro 1 contiene el conjunto de datos inicial en el que el 39% de las empresas son morosas y el 61% no incumplen. Las empresas con coeficientes de EBITDA a gastos por intereses inferiores a 2,4 se incluyen en el recuadro 2. El recuadro 2, que representa el 33% de los datos, está 100% compuesto por morosos. Su color naranja indica un mayor riesgo de incumplimiento, mientras que el color azul indica un menor riesgo de incumplimiento. El enfoque de bosque aleatorio combina las predicciones de muchos árboles y la decisión final se basa en el promedio del resultado de los árboles de decisión independientes subyacentes. En este ejercicio, usamos la agregación bootstrap de varios árboles como un avance hacia un modelo simple basado en árboles.1

Boosting

Boosting es similar al bosque aleatorio, pero los árboles de decisión subyacentes se ponderan en función de su rendimiento. Considere la parábola de los ciegos y el elefante, en la que se les pide a los hombres que toquen diferentes partes del elefante y luego construyan una imagen completa. Los ciegos se envían en seis lotes diferentes. El primer grupo se dirige a lugares seleccionados al azar, y la descripción (parcial) de cada persona se evalúa en función de qué tan bien coincide con la descripción real. Este grupo da una descripción precisa solo del tronco, mientras que la descripción del resto del cuerpo es inexacta. Se anotan las secciones incompletas, y cuando el segundo grupo de ciegos es conducido a la habitación, se les conduce a estas partes. Este proceso se repite para los lotes restantes. Finalmente, las descripciones se combinan de forma aditiva ponderandolas según su precisión y, en este caso, también el tamaño de las partes del cuerpo. Esta descripción final, la combinación, describe bastante bien al elefante.

Modelo RiskCalc de Moody’s Analytics

El modelo RiskCalc produce probabilidades de incumplimiento esperadas para empresas privadas al estimar el impacto de un conjunto de factores de riesgo. Utiliza un marco de modelo aditivo generalizado (GAM), en el que a las transformaciones no lineales de cada factor de riesgo se les asignan ponderaciones y se combinan en una única puntuación. Luego, una función de enlace asigna la puntuación combinada a una probabilidad de incumplimiento.

Resultados

Descripción De Datos

Resumen

Este ejercicio analiza el rendimiento de tres métodos de aprendizaje automático utilizando el modelo GAM del software RiskCalc como punto de referencia. Los enfoques de aprendizaje automático ofrecen índices de precisión comparables a los del modelo GAM. En comparación con el modelo RiskCalc, estos enfoques alternativos están mejor equipados para capturar las relaciones no lineales comunes al riesgo crediticio. Al mismo tiempo, las predicciones hechas por los enfoques a veces son difíciles de explicar debido a su compleja naturaleza de “caja negra”. Estos modelos de aprendizaje automático también son sensibles a valores atípicos, lo que resulta en un ajuste excesivo de los datos y predicciones contrarias a la intuición. Además, y quizás más interesante, encontramos que expandir el conjunto de datos para incluir variables de comportamiento de préstamos mejora el poder predictivo en más de 10 puntos porcentuales para todos los métodos de modelado.

Fuente

--

--

bootcampai.org

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store