En estos días, el "machine learning" es una palabra comúnmente utilizada en una amplia gama de industrias. La necesidad de administrar, analizar e informar sobre conjuntos de datos a gran escala ya no se limita a las empresas tecnológicas: los sectores desde el comercio minorista hasta la manufactura y la atención médica dependen de los científicos de datos para dar sentido a los enormes volúmenes de datos recopilados en la ejecución de sus negocios e intentar usarlo para planificar el futuro, optimizar procesos y predecir riesgos y oportunidades.
Ahora, sin embargo, la misma tecnología inteligente que permite a los especialistas manipular estos conjuntos de datos ha evolucionado para simplificar el proceso de interacción con esas mismas herramientas. Esto ha reducido la barrera de entrada en términos de procesamiento y análisis de datos, permitiendo a los que no son especialistas implementar el aprendizaje automático para hacer predicciones e identificar patrones en sus datos.
Un excelente ejemplo de tal implementación es Smart Predict, parte de SAP Analytics Cloud, que combina una interfaz fácil de usar con algoritmos preescritos para permitir que cualquiera asuma el papel de científico de datos dentro de sus organizaciones.
Veamos más detalladamente cómo funciona Smart Predict:
Crear un modelo predictivo en SAP Analytics Cloud
Dentro de SAP Analytics Cloud hay tres tipos distintos de "Escenarios predictivos". Cada uno es adecuado para una tarea ligeramente diferente y requiere entradas diferentes:
A. Classification: Used to predict the value of a target. SAP Analytics Cloud returns a percentage probability of each of two outcomes occurring.
B. Regression: Used to predict the numerical value of a target depending on a selection of variables describing it. SAP Analytics Cloud returns a numerical value.
C. Time Series: Used to forecast numerical values over a specified time period, based on existing data. SAP Analytics Cloud returns a series of values which can be graphed.
Entrenando el modelo predictivo
Para crear un escenario predictivo, necesitamos entrenar el modelo utilizando un conjunto de datos existente, ya sea un conjunto de datos de capacitación o de aplicación. El resultado de esto creará un tercer conjunto de datos.
Training Dataset: Input dataset that we use to generate our predictive model, containing historical data on the value that we want to predict. The target variable is the column related to our business question.
Application Dataset: Used to create predictions with current or new data. The values for the target variable are unknown.
Output Dataset: Contains our predictions and any added columns that we have requested.
Cuando entrenamos el modelo, la herramienta divide nuestro conjunto de datos en dos subconjuntos. Genera modelos predictivos utilizando el primero, y aplica cada versión del modelo predictivo para probar la precisión y robustez frente al segundo. La versión con mejor rendimiento es el modelo predictivo seleccionado.
Después de esto viene una etapa de informe donde se evalúa el modelo predictivo seleccionado para decidir si el modelo está listo para usarse o no. En este punto, tenemos la opción de aplicar el modelo, mejorarlo o crear uno nuevo desde cero.
Variables
Para poder crear un escenario predictivo, necesitamos varios parámetros o variables. Las variables son los valores de las columnas en nuestro conjunto de datos y, según el escenario predictivo, intervendrán diferentes tipos de variables, por ejemplo:
Target Variable: The answer to our question (the variable we are trying to generate). It is used in all Predictive Scenarios, but in Time Series it is called the Signal Variable.
Date Variable: Time Dimension. Mandatory for Time Series Predictive Scenario.
Segmented Variable: To divide our data and the prediction into subsections, for example by product category. This variable is only used in Time Series Predictive Scenarios and is optional.
Excluded Variable: Data to ignore in the predictive model. It is an optional variable and can be used in all the Predictive Scenarios.
Influencer Variable: Other data that will be used to explain the target variable. It is an optional variable and can be used in all the Predictive Scenarios.
Es importante no confundir variables y roles. La diferencia es que las variables son los valores de columna de nuestro conjunto de datos, y los roles son variables asignadas que se utilizan para crear un modelo predictivo.
Evaluando la precisión de nuestro modelo
Una vez que se ha creado el modelo, podemos ver un conjunto de parámetros que nos ayudan a evaluar la precisión del modelo predictivo. Veamos algunos ejemplos y cómo podemos analizarlos para determinar el éxito de nuestro modelo.
Escenario de series de tiempo
En este ejemplo, intentamos pronosticar las ventas de una variedad de productos y segmentaremos el pronóstico por categorías de productos. La medida más importante que debemos considerar es el MAPE (Error porcentual absoluto medio). Esta es la probabilidad de error de las ventas futuras predichas por ese modelo.
En la captura de pantalla que se muestra a continuación podemos ver el MAPE de cada categoría de producto, en el lado izquierdo los valores más bajos y en el lado derecho los más altos. Finalmente, en la parte inferior, podemos ver el MAPE medio del modelo.
También podemos ver los factores que el modelo predictivo ha considerado. En el siguiente ejemplo, podemos ver nuestros valores de pronóstico reales, "valores atípicos" que son puntos muy distintos de la desviación estándar y, finalmente, la línea discontinua, que representa la zona de error del valor predicho con valores máximos y mínimos.
En realidad, el modelo predictivo nos daría muchos más gráficos para analizar, pero con estos conceptos básicos podemos ver cómo se puede medir la precisión de nuestra predicción usando el algoritmo de series temporales.
Escenario de clasificación
En este ejemplo, clasificaremos a los clientes que el negocio puede perder. Hay dos valores importantes a tener en cuenta. El primero es el poder predictivo (KI), que es la proporción de información que nuestro modelo puede explicar, y proporciona el porcentaje de cuán cerca está nuestro modelo de la perfección. El segundo es la confianza de predicción (KR), muestra la robustez, que es la tasa de éxito de nuestro modelo en la identificación de futuras pérdidas de clientes.
En la siguiente imagen podemos ver el KI y KR de nuestro modelo, podemos ver que ambos son relativamente altos, lo cual es una buena noticia!
Otra vista interesante de la precisión de nuestro modelo se puede ver en el cuadro a continuación, donde comparamos el rendimiento del modelo (línea azul) con la posibilidad aleatoria (rojo) y un modelo perfecto donde se detectan todas las pérdidas (verde). Como podemos ver, en este caso, nuestro modelo rastrea el modelo perfecto de manera extremadamente estrecha, lo que indica un alto grado de precisión.
También podemos ver, por ejemplo, un gráfico de todas las variables que el proceso de generación del modelo encontró relevantes y clasificarlas por la fuerza de su efecto sobre las pérdidas de clientes.
Como en el ejemplo anterior, el modelo predictivo nos daría muchos más gráficos, pero aquí hemos resumido la ilustración más básica del modelo.
Analizando y reportando los resultados
El último paso en el proceso es analizar los resultados finales de la predicción. SAP Analytics Cloud facilita esto a través de una opción llamada "Smart Discovery" con la que podemos explorar nuestros datos utilizando algoritmos de Aprendizaje Automático para descubrir elementos influyentes clave, valores inesperados y más.
Cuando creamos la historia con Smart Discovery y el modelo de Clasificación explicado anteriormente, la herramienta genera automáticamente dos páginas de información: una que brinda una visión general y otra que muestra los elementos influyentes clave del modelo.
Simplemente presionando un botón tenemos un tablero de instrumentos, este es un buen punto de partida. Además, el panel creado es interactivo, a la derecha podemos ver una selección de entrada, este selector tiene la función de cambiar la medida que se muestra en los gráficos, por lo que podemos ver diferentes indicadores en la misma vista: la influencia, la distribución, etc. para los batidores y clientes activos.
Como SAP Analytics Cloud es también una herramienta de autoservicio de BI (Business Intelligence), podemos ajustar el diseño del informe, agregando más visualización en las páginas existentes o en una nueva página. Por ejemplo, podemos agregar una nueva página con un gráfico de pronóstico de las ventas en nuestra tienda logradas a partir de nuestro modelo de Series de Tiempo explicado anteriormente.
Como podemos ver en los ejemplos que exploramos en este artículo, la ventaja comercial clave de Smart Predict es que los usuarios de SAP Analytics Cloud pueden generar predicciones rápida y fácilmente, a través de una interfaz sencilla, así como comprender claramente la precisión de la salida, sin la necesidad de asignar la tarea a un especialista.
Los algoritmos preescritos en Smart Predict son útiles para cientos de posibles aplicaciones, lo que permite a los gerentes y ejecutivos analizar rápidamente conjuntos de datos para predecir el rendimiento futuro y ayudar a la toma de decisiones o pronósticos, con una sobrecarga administrativa muy reducida.
Si bien esta tecnología no reemplaza la experiencia de un científico de datos calificado en todos los escenarios, para los tipos comunes de pronóstico y modelado, representa un avance en la eliminación de la barrera de entrada para utilizar el aprendizaje automático.
Si deseas obtener más información sobre cómo Smart Predict podría revolucionar el acceso al aprendizaje automático y los modelos predictivos dentro de su organización, el equipo de Clariba estará encantado de demostrarlo.