MACHINE LEARNING PARA SERIES DE NEGOCIOS: ÁRBOLES DE DECISIÓN

Machine Learning se ha convertido en un tema central de interés para los medios de comunicación, gracias a sus recientes aplicaciones exitosas en la creación de valor en una variedad de escenarios empresariales. En Clariba, como expertos en análisis predictivo, somos agentes activos de su adopción y democratización, ya que hemos estado aplicando el ML en nuestras soluciones predictivas durante mucho tiempo. Cuando se usan de forma inteligente y con la metodología adecuada, las técnicas de Machine Learning pueden ofrecer un aumento en el rendimiento a empresas y organizaciones de todo tipo.

Con esta serie, intentamos presentar a los recién llegados los diferentes tipos de Aprendizaje Automático, sus técnicas y algoritmos principales y sus usos comerciales. También queremos ayudar a desmitificar el término y brindar a nuestros clientes y prospectos ideas sobre cómo integrar el LD en sus procesos operativos y de toma de decisiones diarios.

¿Qué es Machine Learning?

El nombre Machine Learning fue introducido por Arthur Samuel en 1959. Es un campo de la ciencia que explora el desarrollo de algoritmos que pueden aprender y hacer predicciones sobre los datos. La principal diferencia con otros algoritmos comunes es la pieza de "aprendizaje". Los algoritmos de Machine Learning no son series de procesos ejecutados en serie para producir un resultado predefinido. En su lugar, son una serie de procesos que buscan "aprender" patrones de eventos pasados y construir funciones que pueden producir buenas predicciones, con un grado de confianza.

Dentro del campo del análisis de datos, Machine Learning  forma parte de una área conocida como análisis predictivo .

TIPOS Y USO

Como acabamos de describir, la pieza learning es la que mejor define este tipo de algoritmos. Dependiendo del tipo de aprendizaje, normalmente se dividen en supervisado , sin supervisión , semi-supervisado y refuerzo algoritmos.

Comenzaremos esta serie con un ejemplo de algoritmos de aprendizaje supervisado.

Los algoritmos de aprendizaje supervisados intentan encontrar relaciones y dependencias entre un producto objetivo que deseamos predecir, que va desde la pérdida hasta el fraude de seguros o el éxito potencial de una promoción de ventas en diferentes personas, y los datos que tenemos de otras personas de El pasado, incluyendo características demográficas o datos de comportamiento previos. Utilizamos estos datos pasados como variables de entrada para predecir el valor de salida más probable para los nuevos datos, en función de las relaciones aprendidas de los conjuntos de datos anteriores.

Los métodos supervisados más típicos son:

  • Árboles de Decisión

  • Regresión Lineal

  • El Vecino mas Cercano

  • Ingenuo Bayes

  • Máquinas de vectores de soporte (MVS)

  • Redes Neuronales

Árboles de Decisión

Los árboles de clasificación y regresión se conocen comúnmente como CART. El término fue introducido por Leo Breiman para referirse a los algoritmos de Árbol de Decisión que se pueden usar para problemas de modelado predictivo de clasificación o regresión.

El algoritmo básico de CART es la base para algoritmos más avanzados como árboles de decisión empaquetados, Random forest y árboles de decisión potenciados.

Los árboles de decisión generalmente se usan para predecir la probabilidad de lograr un resultado para una nueva observación (individuo, cliente, ...) según sus atributos (edad, demografía, comportamiento de compra, ...), utilizando datos anteriores que tenemos de un número suficiente de Observaciones similares o individuos. El resultado para predecir es normalmente binario: sí / no (se agitará / no se agitará, se comprará / no se comprará, ...).

Se denominan árboles porque se pueden representar como un árbol binario donde cada nodo raíz representa una única variable de entrada (edad, ciudad, segmento ...) y un punto de división en esa variable (suponiendo que la variable es numérica). Los nodos de hoja del árbol contienen la variable de salida (comprará, batirá, ...) que queremos predecir.

Comencemos con un ejemplo simple, donde trataremos de predecir el género en función de la altura y el peso de las personas. A continuación se muestra un ejemplo muy simple de un árbol de decisión binario:

 

Imatge.jpg

El árbol se puede representar tanto como un gráfico o como un conjunto de reglas. Por ejemplo, a continuación se muestra el árbol de decisiones anterior, que describe un conjunto de reglas:

  1. Si Altura > 180 cm Entonces Hombres

  2. Si Altura <= 180 cm y peso  80 kg Entonces Hombre

  3. Si Altura <= 180 cm Y Peso <= 80 kg Entonces Mujer

Con la representación de árbol binario del modelo CART descrito anteriormente, hacer predicciones es relativamente sencillo. Cada vez que evaluamos a un nuevo individuo, podemos predecir su género según la altura y el peso, con un grado de confianza.

Veamos un árbol de decisiones en acción, para ayudar a una empresa de telecomunicaciones de EE. UU. A evitar el abandono.

EJEMPLO DE CASO DE NEGOCIO: PREVENCIÓN DE IGLESIA EN UN TELCO

Tenemos un conjunto de datos de muestra con los siguientes atributos de un número significativo de clientes:

  • Estado: 2 caracteres que representan al estado

  • Duración de la cuenta: antigüedad de la cuenta en días

  • Código de área: código postal

  • Plan internacional: Booleano sí / no explicando si el cliente tiene un plan internacional contratado

  • Plan de correo de voz: Booleano sí / no mostrando si el cliente tiene un correo de voz activado

  • Número de mensajes de vmail: número total de mensajes de correo de voz administrados

  • Minutos totales del día: promedio de minutos de llamadas de voz durante el día, por mes

  • Total de llamadas durante el día: número promedio de llamadas durante el día, por mes

  • Cargo total diario: gasto promedio en llamadas diarias, por mes

  • Total de minutos en vísperas: promedio de minutos de llamadas de voz durante la noche, por mes

  • Número total de llamadas: número promedio de llamadas de voz durante la noche, por mes

  • Cargo total en vísperas: gasto promedio en llamadas de voz durante la noche, por mes

  • Total de minutos nocturnos: promedio de minutos de llamadas de voz durante la noche, por mes

  • Total de llamadas nocturnas: número promedio de llamadas de voz durante la noche, por mes

  • Cargo nocturno total: gasto promedio en llamadas de voz durante la noche, por mes

  • Total intl minutos: promedio de minutos en llamadas internacionales, por mes

  • Total llamadas internacionales: número promedio de llamadas internacionales, por mes

  • Cargo internacional total: gasto promedio en llamadas internacionales, por mes

  • Llamadas de servicio al cliente: número de llamadas al servicio de atención al cliente

  • Churned: Boolean es verdadero / falso, lo que significa que lo hicieron de la compañía o no lo hicieron. Esta será nuestra variable objetivo para predecir y prevenir

La imagen a continuación representa una pequeña muestra de nuestro conjunto de datos que estamos usando para nuestras predicciones.

Imatge5.jpg

Utilizamos SAP Predictive analytics para ayudarnos a construir nuestro árbol de decisiones, para responder a la pregunta de negocios: ¿cómo podríamos evitar la pérdida de clientes, según nuestros datos históricos?

Veamos el resultado:

Imatge2.jpg

El árbol comienza con el análisis de toda la población, que en nuestro caso son 3332 clientes. Lo primero que notamos es que más del 14% de estos clientes han batido. La primera variable que el algoritmo muestra como decisiva para predecir la rotación es "llamadas de servicio al cliente". Como podemos ver en el recuadro a la derecha en la Fig 1, alrededor del 52% de los clientes que han llamado al servicio al cliente más de 3 veces terminan batiéndose. La compañía debe actuar de manera proactiva, llamar a esos clientes e intentar escucharlos y resolver sus problemas justo después de la 3 rd llamada.

Primera acción de prevención: llame proactivamente a todos los clientes inmediatamente después de la 3 rd llamada recibida al servicio al cliente para tratar de resolver sus problemas.

Sigamos analizando el árbol:

Imatge3.jpg

El siguiente nivel nos dice que hay una gran correlación entre no tener un correo de voz activado y batir, especialmente entre los clientes con un gasto diario bajo. Podríamos asumir que esos usuarios no usan sus teléfonos para trabajar, por lo que reciben un mejor servicio cuando tienen un servicio de correo de voz activo durante el día, lo que les permite ponerse al día con las llamadas y mensajes que faltan al final del día.

Segunda acción de prevención: inicie una campaña que ofrece la activación gratuita del correo de voz e informe proactivamente al segmento de clientes más relevante (cargo diario entre 0 y 24.43 $, mensual)

Finalmente, analicemos el nivel inferior del árbol usando "Plan Internacional" como separador de rama:

Imatge4.jpg

Como podemos ver, la tasa de pérdida de personal es mayor entre los clientes que tienen un plan de llamadas internacionales, independientemente de la combinación de las variables anteriores. Claramente, todos los clientes que tienen un plan de llamadas internacionales están descontentos y tienden a agitar más.

Tercera acción de prevención: revisar los planes internacionales y su adecuación al uso y las necesidades de cada segmento de clientes.

Resumen

Los árboles de decisión son un método fácil de representar frecuencias de atributos que sospechamos que pueden proporcionar información, ayudando a predecir un resultado. Pueden ser muy útiles para analizar las causas probables de los buenos y malos resultados comerciales y ayudarnos a mejorar nuestros niveles de servicio, aumentar la retención de clientes o prevenir el fraude, entre muchas otras aplicaciones.

Lo más importante es que los árboles de decisión, como muchos otros algoritmos ML, ya están disponibles en muchas de las soluciones de SAP BI. Clariba puede ayudarlo a identificar los procesos de aprendizaje automático que pueden agregar valor a su negocio e integrarlos en su ecosistema de BI existente. Contáctanos y estaremos encantados de ayudarte en este viaje.

Referencias

https://machinelearningmastery.com/classification-and-regression-trees-for-machine-learning/

https://towardsdatascience.com/types-of-machine-learning-algorithms-you-should-know-953a08248861

EspañolEnglish