Componentes personalizados R - Aplicación de codificación de peso de la evidencia y del scorecard
Introducción
Esta aplicación proporciona un análisis de tipo exploratorio, utilizado para determinar qué variables en el conjunto de datos tienen un poder predictivo sobre la variable dependiente (objetivo).
Ha sido un método muy popular en el desarrollo del scorecard - para el riesgo de crédito dentro del sector bancario, pero en los últimos años ha recibido atención creciente en otros sectores, también.
Requisitos previos
Sugerimos instalar el Entorno de Desarrollo Integrado de RStudio (IDE), ya que es la interfaz más popular para R.
Puede, entonces, simplemente instalar las siguientes bibliotecas a través de RStudio:
data.table (available on cran)
To install the package use the following command: install.packages(“data.table”)
devtools (disponible en cran)
To install the package use the following command: install.packages(“devtools”)
woe ( available on Github)
To install the package use the following command: install_github("woe","barbuirina19")
If you need assistance configuring R in SAP PA Expert Analytics, refer to the following guide.
Cómo cargar el componente en SAP PA
You can download the component as a .spar file Github and then deploy it as described here.
Simply import the component by clicking the + button under models tab:
USO
Los usuarios pueden configurar los siguientes parámetros:
Ejemplo
We can use the Insurance_training dataset, which can be found here.
This table contains data on the customers of insurance company (demographics : age, gender, children, profession and more specific: type of car, annual km, years since license, etc.)
The goal is to analyze the past accident claims and get a deeper understanding over the main characteristics of a risky client. The scorecard that gets generated can be, then, pushed into a database and used to generate risk scores for the new insurance applicants.
In the Predict tab, simply drag and drop the new component, right click on it, and Configure Settings:
Después de ejecutar correctamente el análisis, puede explorar:
1. Scorecard table
2. Variable importance chart
3. Weight of evidence charts
1. Scorecard table
2. Variable importance chart
3. Peso de los gráficos de pruebas
Please note it is mandatory that the target variable be binary and numerical. The application will not translate categorical variables into the appropriate format (e.g. “Yes/No” response variable into numerical “1/0”).
In case the target is not numerical, simply use a formula (under Data Preparation) and do the necessary changes before running the analysis.
In case the target is not binary (more than 2 values), then use a formula to create dummy variables and then run the analysis using each one of the new variables as target.