#Instalación de librerías
library(tidyverse) # instalando la librería tidyverse para preparación de datos
# Install the 'caret' package in R
install.packages("caret", dependencies = TRUE)
library(caret)
#Instalación de librerías rpart y rpart.plot
install.packages("rpart")
install.packages("rpart.plot")
library(rpart)
library(rpart.plot)
df<-read.csv("/content/riesgo_crecer.csv") #carga la tabla de datos en el entorno de R
head(df) # Previsualización del archivo de datos (las seis primeras filas)
summary(df) # Estadísticas descriptivas de la tabla de datos

       X              edad        ingresoanual     tipovivienda      
 Min.   :    1   Min.   :20.00   Min.   :   4080   Length:14047      
 1st Qu.: 3512   1st Qu.:23.00   1st Qu.:  39000   Class :character  
 Median : 7024   Median :26.00   Median :  55059   Mode  :character  
 Mean   : 7024   Mean   :27.71   Mean   :  66106                     
 3rd Qu.:10536   3rd Qu.:30.00   3rd Qu.:  80000                     
 Max.   :14047   Max.   :84.00   Max.   :2039784                     
  aniosempleo     destinacion        tipoprestamo       monto_prestamo 
 Min.   : 0.000   Length:14047       Length:14047       Min.   :  500  
 1st Qu.: 2.000   Class :character   Class :character   1st Qu.: 5000  
 Median : 4.000   Mode  :character   Mode  :character   Median : 8000  
 Mean   : 4.788                                         Mean   : 9763  
 3rd Qu.: 7.000                                         3rd Qu.:13000  
 Max.   :41.000                                         Max.   :35000  
  tasainteres     estadodeuda        default       historiacreditos
 Min.   : 5.42   Min.   :0.0000   Min.   :0.0000   Min.   : 2.000  
 1st Qu.: 7.90   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.: 3.000  
 Median :11.11   Median :0.0000   Median :0.0000   Median : 4.000  
 Mean   :11.07   Mean   :0.2203   Mean   :0.1804   Mean   : 5.795  
 3rd Qu.:13.48   3rd Qu.:0.0000   3rd Qu.:0.0000   3rd Qu.: 8.000  
 Max.   :23.22   Max.   :1.0000   Max.   :1.0000   Max.   :30.000  
  ponderador       
 Length:14047      
 Class :character  
 Mode  :character

#Conversión de las variables categoricas a factores
df$tipovivienda <- as.factor(df$tipovivienda)
df$destinacion <- as.factor(df$destinacion)
df$tipoprestamo <- as.factor(df$tipoprestamo)
df$default <- as.factor(df$default)
summary(df)

       X              edad        ingresoanual         tipovivienda 
 Min.   :    1   Min.   :20.00   Min.   :   4080   Alquilada :7107  
 1st Qu.: 3512   1st Qu.:23.00   1st Qu.:  39000   Hipotecada:5843  
 Median : 7024   Median :26.00   Median :  55059   Otro      :  46  
 Mean   : 7024   Mean   :27.71   Mean   :  66106   Propia    :1051  
 3rd Qu.:10536   3rd Qu.:30.00   3rd Qu.:  80000                    
 Max.   :14047   Max.   :84.00   Max.   :2039784                    
                                                                    
  aniosempleo                    destinacion   tipoprestamo monto_prestamo 
 Min.   : 0.000   Compra cartera       :2290   A:4537       Min.   :  500  
 1st Qu.: 2.000   Educativo            :2798   B:4485       1st Qu.: 5000  
 Median : 4.000   Libre destino        :2380   C:2864       Median : 8000  
 Mean   : 4.788   Médico               :2579   D:1599       Mean   : 9763  
 3rd Qu.: 7.000   Mejoramiento vivienda:1559   E: 432       3rd Qu.:13000  
 Max.   :41.000   Venture              :2441   F: 108       Max.   :35000  
                                               G:  22                      
  tasainteres     estadodeuda     default   historiacreditos  ponderador       
 Min.   : 5.42   Min.   :0.0000   0:11513   Min.   : 2.000   Length:14047      
 1st Qu.: 7.90   1st Qu.:0.0000   1: 2534   1st Qu.: 3.000   Class :character  
 Median :11.11   Median :0.0000             Median : 4.000   Mode  :character  
 Mean   :11.07   Mean   :0.2203             Mean   : 5.795                     
 3rd Qu.:13.48   3rd Qu.:0.0000             3rd Qu.: 8.000                     
 Max.   :23.22   Max.   :1.0000             Max.   :30.000

#Filtramos la base de datos con con los deudas inactivas y los que ganen mas de 15 millones anuales
df_inactivos<-subset(df,df$estadodeuda==0 & ingresoanual >= 15000)
dim(df) #Evaluamos la dimensión de la base original
dim(df_inactivos) #Evaluamos la dimensión de la base filtrada
summary(df_inactivos) #Mostramos el resumen de la base filtrada

       X              edad        ingresoanual         tipovivienda 
 Min.   :    1   Min.   :20.00   Min.   :  15000   Alquilada :4845  
 1st Qu.: 3501   1st Qu.:23.00   1st Qu.:  42246   Hipotecada:5075  
 Median : 7032   Median :26.00   Median :  60000   Otro      :  30  
 Mean   : 7035   Mean   :27.78   Mean   :  70708   Propia    : 976  
 3rd Qu.:10568   3rd Qu.:30.00   3rd Qu.:  85000                    
 Max.   :14047   Max.   :84.00   Max.   :2039784                    
                                                                    
  aniosempleo                    destinacion   tipoprestamo monto_prestamo 
 Min.   : 0.000   Compra cartera       :1612   A:4102       Min.   :  500  
 1st Qu.: 2.000   Educativo            :2309   B:3746       1st Qu.: 5000  
 Median : 4.000   Libre destino        :1895   C:2245       Median : 8000  
 Mean   : 4.989   Médico               :1876   D: 642       Mean   : 9357  
 3rd Qu.: 7.000   Mejoramiento vivienda:1163   E: 163       3rd Qu.:12000  
 Max.   :41.000   Venture              :2071   F:  28       Max.   :35000  
                                               G:   0                      
  tasainteres     estadodeuda default  historiacreditos  ponderador       
 Min.   : 5.42   Min.   :0    0:9356   Min.   : 2.000   Length:10926      
 1st Qu.: 7.75   1st Qu.:0    1:1570   1st Qu.: 3.000   Class :character  
 Median :10.63   Median :0             Median : 4.000   Mode  :character  
 Mean   :10.48   Mean   :0             Mean   : 5.839                     
 3rd Qu.:12.69   3rd Qu.:0             3rd Qu.: 8.000                     
 Max.   :22.06   Max.   :0             Max.   :30.000

#Omisión de variables irrelevantes: vamos a separar de la tabla de modelado (df_inactivos) las columnas que no se usarán en el modelo
df_inactivos<-select(df_inactivos,c(-X,-estadodeuda) )

#Descarte de valores nulos: sobre la base filtrada
df_inactivos<-na.omit(df_inactivos)
summary(df_inactivos)
dim(df_inactivos)

      edad        ingresoanual         tipovivienda   aniosempleo    
 Min.   :20.00   Min.   :  15000   Alquilada :4845   Min.   : 0.000  
 1st Qu.:23.00   1st Qu.:  42246   Hipotecada:5075   1st Qu.: 2.000  
 Median :26.00   Median :  60000   Otro      :  30   Median : 4.000  
 Mean   :27.78   Mean   :  70708   Propia    : 976   Mean   : 4.989  
 3rd Qu.:30.00   3rd Qu.:  85000                     3rd Qu.: 7.000  
 Max.   :84.00   Max.   :2039784                     Max.   :41.000  
                                                                     
                destinacion   tipoprestamo monto_prestamo   tasainteres   
 Compra cartera       :1612   A:4102       Min.   :  500   Min.   : 5.42  
 Educativo            :2309   B:3746       1st Qu.: 5000   1st Qu.: 7.75  
 Libre destino        :1895   C:2245       Median : 8000   Median :10.63  
 Médico               :1876   D: 642       Mean   : 9357   Mean   :10.48  
 Mejoramiento vivienda:1163   E: 163       3rd Qu.:12000   3rd Qu.:12.69  
 Venture              :2071   F:  28       Max.   :35000   Max.   :22.06  
                              G:   0                                      
 default  historiacreditos  ponderador       
 0:9356   Min.   : 2.000   Length:10926      
 1:1570   1st Qu.: 3.000   Class :character  
          Median : 4.000   Mode  :character  
          Mean   : 5.839                     
          3rd Qu.: 8.000                     
          Max.   :30.000

# En este paso se aplica la regla empírica, la cual nos dice que el 99,7 % de los datos están entre 3 y -3 desviaciones estandar de la media
df_train_inactivos <- df_inactivos %>%
  mutate(
    # Calcular los valores estandarizados para las nuevas variables numéricas
    z_edad = (edad - mean(edad)) / sd(edad),
    z_ingresoanual = (ingresoanual - mean(ingresoanual)) / sd(ingresoanual),
    z_aniosempleo = (aniosempleo - mean(aniosempleo)) / sd(aniosempleo),
    z_tasainteres    = (tasainteres    - mean(tasainteres)) / sd(tasainteres),
    z_historiacreditos  = (historiacreditos  - mean(historiacreditos  )) / sd(historiacreditos )
  )

    # Filtrar las filas donde los valores estandarizados están entre -3 y 3 para todas las nuevas variables numéricas
df_train_inactivos<- df_train_inactivos %>%
    filter(
    between(z_edad, -3, 3),
    between(z_ingresoanual, -3, 3),
    between(z_aniosempleo, -3, 3),
    between(z_tasainteres, -3, 3),
    between(z_historiacreditos, -3, 3)
  )

# Removemos las variables creadas que no deseamos
df_train_inactivos<- df_train_inactivos%>%  select(-starts_with("z_"))

# Mostrar un resumen del dataframe limpio
summary(df_train_inactivos)

      edad        ingresoanual        tipovivienda   aniosempleo    
 Min.   :20.00   Min.   : 15000   Alquilada :4732   Min.   : 0.000  
 1st Qu.:23.00   1st Qu.: 42000   Hipotecada:4836   1st Qu.: 2.000  
 Median :26.00   Median : 60000   Otro      :  28   Median : 4.000  
 Mean   :27.25   Mean   : 66950   Propia    : 934   Mean   : 4.818  
 3rd Qu.:30.00   3rd Qu.: 83003                     3rd Qu.: 7.000  
 Max.   :46.00   Max.   :227500                     Max.   :17.000  
                                                                    
                destinacion   tipoprestamo monto_prestamo   tasainteres   
 Compra cartera       :1560   A:3973       Min.   :  500   Min.   : 5.42  
 Educativo            :2264   B:3619       1st Qu.: 5000   1st Qu.: 7.75  
 Libre destino        :1788   C:2173       Median : 8000   Median :10.62  
 Médico               :1805   D: 600       Mean   : 9230   Mean   :10.46  
 Mejoramiento vivienda:1114   E: 148       3rd Qu.:12000   3rd Qu.:12.69  
 Venture              :1999   F:  17       Max.   :35000   Max.   :19.29  
                              G:   0                                      
 default  historiacreditos  ponderador       
 0:9034   Min.   : 2.000   Length:10530      
 1:1496   1st Qu.: 3.000   Class :character  
          Median : 4.000   Mode  :character  
          Mean   : 5.552                     
          3rd Qu.: 8.000                     
          Max.   :17.000

#Separación de la muestras
df_train<-sample_frac(df_train_inactivos,0.74) #selección aleatoria de la muestra de entrenamiento
df_test<-setdiff(df_train_inactivos,df_train) #toma la diferencia entre la muestra inicial y la muestra de entrenamiento
dim(df_train)
dim(df_test)

#Estimamos el modelo 1A de regresión logit
modelo1A <- glm(default ~ . - ponderador , data = df_train, family = binomial)
summary(modelo1A)

Call:
glm(formula = default ~ . - ponderador, family = binomial, data = df_train)

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)  
(Intercept)                      -2.074e+01  3.254e+02  -0.064   0.9492  
edad                              1.258e-02  1.609e-02   0.782   0.4342  
ingresoanual                      3.448e-07  1.480e-06   0.233   0.8157  
tipoviviendaHipotecada           -4.570e-02  9.813e-02  -0.466   0.6414  
tipoviviendaOtro                 -6.222e-02  1.007e+00  -0.062   0.9508  
tipoviviendaPropia                2.152e-01  1.528e-01   1.408   0.1590  
aniosempleo                       2.263e-02  1.235e-02   1.832   0.0670 .
destinacionEducativo              1.129e-01  1.560e-01   0.724   0.4690  
destinacionLibre destino          2.434e-01  1.642e-01   1.482   0.1383  
destinacionMédico                -8.749e-03  1.676e-01  -0.052   0.9584  
destinacionMejoramiento vivienda  1.627e-01  1.846e-01   0.881   0.3782  
destinacionVenture                3.023e-01  1.623e-01   1.863   0.0625 .
tipoprestamoB                     1.310e-01  4.726e+02   0.000   0.9998  
tipoprestamoC                     2.082e+01  3.254e+02   0.064   0.9490  
tipoprestamoD                     2.078e+01  3.254e+02   0.064   0.9491  
tipoprestamoE                     2.079e+01  3.254e+02   0.064   0.9490  
tipoprestamoF                     2.172e+01  3.254e+02   0.067   0.9468  
monto_prestamo                   -1.015e-05  8.138e-06  -1.247   0.2122  
tasainteres                      -3.110e-02  4.340e-02  -0.717   0.4736  
historiacreditos                 -2.384e-02  2.296e-02  -1.038   0.2991  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 6347.6  on 7791  degrees of freedom
Residual deviance: 2990.4  on 7772  degrees of freedom
AIC: 3030.4

Number of Fisher Scoring iterations: 19

#Prueba ómnibus: Es la prueba de significancia global del modelo
omnibus1A <- anova(modelo1A, test="Chisq")
omnibus1A
#Recordatorio: Se lee el p-value de la última fila porque es el que contiene todas las variables del modelo

#Hacemos un summary del modelo para revisar la significancia individual
summary(modelo1A)

Call:
glm(formula = default ~ . - ponderador, family = binomial, data = df_train)

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)  
(Intercept)                      -2.074e+01  3.254e+02  -0.064   0.9492  
edad                              1.258e-02  1.609e-02   0.782   0.4342  
ingresoanual                      3.448e-07  1.480e-06   0.233   0.8157  
tipoviviendaHipotecada           -4.570e-02  9.813e-02  -0.466   0.6414  
tipoviviendaOtro                 -6.222e-02  1.007e+00  -0.062   0.9508  
tipoviviendaPropia                2.152e-01  1.528e-01   1.408   0.1590  
aniosempleo                       2.263e-02  1.235e-02   1.832   0.0670 .
destinacionEducativo              1.129e-01  1.560e-01   0.724   0.4690  
destinacionLibre destino          2.434e-01  1.642e-01   1.482   0.1383  
destinacionMédico                -8.749e-03  1.676e-01  -0.052   0.9584  
destinacionMejoramiento vivienda  1.627e-01  1.846e-01   0.881   0.3782  
destinacionVenture                3.023e-01  1.623e-01   1.863   0.0625 .
tipoprestamoB                     1.310e-01  4.726e+02   0.000   0.9998  
tipoprestamoC                     2.082e+01  3.254e+02   0.064   0.9490  
tipoprestamoD                     2.078e+01  3.254e+02   0.064   0.9491  
tipoprestamoE                     2.079e+01  3.254e+02   0.064   0.9490  
tipoprestamoF                     2.172e+01  3.254e+02   0.067   0.9468  
monto_prestamo                   -1.015e-05  8.138e-06  -1.247   0.2122  
tasainteres                      -3.110e-02  4.340e-02  -0.717   0.4736  
historiacreditos                 -2.384e-02  2.296e-02  -1.038   0.2991  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 6347.6  on 7791  degrees of freedom
Residual deviance: 2990.4  on 7772  degrees of freedom
AIC: 3030.4

Number of Fisher Scoring iterations: 19

# Cálculo de la matriz de confusión del modelo 1A
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE ENTRENAMIENTO
df_train$score1A<-predict(modelo1A,type="response")
# Paso 2: Crear la variable pronóstico
df_train$pron1A<-as.numeric(df_train$score1A>0.5)
df_train$pron1A<-as.factor(df_train$pron1A)
df_train$default<-as.factor(df_train$default)
# Generar la matriz de confusión
confusionMatrix(df_train$pron1A, df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 6159  456
         1  532  645
                                          
               Accuracy : 0.8732          
                 95% CI : (0.8656, 0.8805)
    No Information Rate : 0.8587          
    P-Value [Acc > NIR] : 0.0001039       
                                          
                  Kappa : 0.4921          
                                          
 Mcnemar's Test P-Value : 0.0170296       
                                          
            Sensitivity : 0.9205          
            Specificity : 0.5858          
         Pos Pred Value : 0.9311          
         Neg Pred Value : 0.5480          
             Prevalence : 0.8587          
         Detection Rate : 0.7904          
   Detection Prevalence : 0.8489          
      Balanced Accuracy : 0.7532          
                                          
       'Positive' Class : 0

# Estimar modelo 1B (parsimonioso y con sentido del negocio)
modelo1B <- glm(default ~ monto_prestamo + aniosempleo, data = df_train, family = binomial)

# Mostrar resumen del modelo
summary(modelo1B)

Call:
glm(formula = default ~ monto_prestamo + aniosempleo, family = binomial, 
    data = df_train)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.894e+00  7.086e-02 -26.724   <2e-16 ***
monto_prestamo  9.440e-06  5.400e-06   1.748   0.0805 .  
aniosempleo     1.238e-04  8.820e-03   0.014   0.9888    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 6347.6  on 7791  degrees of freedom
Residual deviance: 6344.5  on 7789  degrees of freedom
AIC: 6350.5

Number of Fisher Scoring iterations: 4

#Prueba ómnibus: Es la prueba de significancia global del modelo
omnibus1B <- anova(modelo1B, test="Chisq")
omnibus1B

#Resumen del modelo 1B
summary(modelo1B)

Call:
glm(formula = default ~ monto_prestamo + aniosempleo, family = binomial, 
    data = df_train)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.894e+00  7.086e-02 -26.724   <2e-16 ***
monto_prestamo  9.440e-06  5.400e-06   1.748   0.0805 .  
aniosempleo     1.238e-04  8.820e-03   0.014   0.9888    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 6347.6  on 7791  degrees of freedom
Residual deviance: 6344.5  on 7789  degrees of freedom
AIC: 6350.5

Number of Fisher Scoring iterations: 4

# Cálculo de la matriz de confusión del modelo 1B
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE ENTRENAMIENTO
df_train$score1B<-predict(modelo1B,type="response")
# Paso 2: Crear la variable pronóstico
df_train$pron1B<-as.numeric(df_train$score1B>0.5)
df_train$pron1B<-as.factor(df_train$pron1B)
df_train$default<-as.factor(df_train$default)
# Generar la matriz de confusión
confusionMatrix(df_train$pron1B, df_train$default)

Warning message in confusionMatrix.default(df_train$pron1B, df_train$default):
“Levels are not in the same order for reference and data. Refactoring data to match.”

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 6685 1107
         1    0    0
                                        
               Accuracy : 0.8579        
                 95% CI : (0.85, 0.8656)
    No Information Rate : 0.8579        
    P-Value [Acc > NIR] : 0.508         
                                        
                  Kappa : 0             
                                        
 Mcnemar's Test P-Value : <2e-16        
                                        
            Sensitivity : 1.0000        
            Specificity : 0.0000        
         Pos Pred Value : 0.8579        
         Neg Pred Value :    NaN        
             Prevalence : 0.8579        
         Detection Rate : 0.8579        
   Detection Prevalence : 1.0000        
      Balanced Accuracy : 0.5000        
                                        
       'Positive' Class : 0

# Estimar Modelo 1C con solo dos variables
modelo1C <- glm(default ~ monto_prestamo , data = df_train, family = binomial)

# Ver resumen del modelo
summary(modelo1C)

Call:
glm(formula = default ~ monto_prestamo, family = binomial, data = df_train)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.893e+00  6.049e-02 -31.298   <2e-16 ***
monto_prestamo  9.448e-06  5.366e-06   1.761   0.0783 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 6347.6  on 7791  degrees of freedom
Residual deviance: 6344.5  on 7790  degrees of freedom
AIC: 6348.5

Number of Fisher Scoring iterations: 4

#Prueba ómnibus: Es la prueba de significancia global del modelo
omnibus1C <- anova(modelo1C, test="Chisq")
omnibus1C

#Resumen del modelo 1C
summary(modelo1C)

Call:
glm(formula = default ~ monto_prestamo, family = binomial, data = df_train)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.893e+00  6.049e-02 -31.298   <2e-16 ***
monto_prestamo  9.448e-06  5.366e-06   1.761   0.0783 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 6347.6  on 7791  degrees of freedom
Residual deviance: 6344.5  on 7790  degrees of freedom
AIC: 6348.5

Number of Fisher Scoring iterations: 4

# Cálculo de la matriz de confusión del modelo 1c
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE ENTRENAMIENTO
df_train$score1C<-predict(modelo1C,type="response")
# Paso 2: Crear la variable pronóstico
df_train$pron1C<-as.numeric(df_train$score1C>0.5)
df_train$pron1C<-as.factor(df_train$pron1C)
df_train$default<-as.factor(df_train$default)
# Generar la matriz de confusión
confusionMatrix(df_train$pron1C, df_train$default)

Warning message in confusionMatrix.default(df_train$pron1C, df_train$default):
“Levels are not in the same order for reference and data. Refactoring data to match.”

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 6685 1107
         1    0    0
                                        
               Accuracy : 0.8579        
                 95% CI : (0.85, 0.8656)
    No Information Rate : 0.8579        
    P-Value [Acc > NIR] : 0.508         
                                        
                  Kappa : 0             
                                        
 Mcnemar's Test P-Value : <2e-16        
                                        
            Sensitivity : 1.0000        
            Specificity : 0.0000        
         Pos Pred Value : 0.8579        
         Neg Pred Value :    NaN        
             Prevalence : 0.8579        
         Detection Rate : 0.8579        
   Detection Prevalence : 1.0000        
      Balanced Accuracy : 0.5000        
                                        
       'Positive' Class : 0

#Cálculo del ponderador: hacia arriba (igualar la categoría pequeña con la categoría grande)
df_train$ponderador<-ifelse(df_train$default==1,6685/1107,1) #Si default=1: pondere, pero si es =0 vale lo mismo.
head(df_train) #Visualización de las primeras 6 filas

#Estimación del Modelo 1D: modelo balanceado incluyendo de nuevo todas las variables (el mismo modelo 1A pero con balanceo)
modelo1D<-glm(default~edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+monto_prestamo+tasainteres+historiacreditos,data=df_train,family=binomial,weights=ponderador)
#no se incluye en la ecuación el ponderador, ni los cálculos de score y pronóstico realizados para otros modelos.
#el comando "weights" se usa para incluir el ponderador que balancea el modelo
summary(modelo1D)

Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”

Call:
glm(formula = default ~ edad + ingresoanual + tipovivienda + 
    aniosempleo + destinacion + tipoprestamo + monto_prestamo + 
    tasainteres + historiacreditos, family = binomial, data = df_train, 
    weights = ponderador)

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)  
(Intercept)                      -1.978e+01  1.973e+02  -0.100   0.9201  
edad                              1.326e-02  1.271e-02   1.043   0.2969  
ingresoanual                      3.733e-07  1.160e-06   0.322   0.7475  
tipoviviendaHipotecada           -4.980e-02  7.509e-02  -0.663   0.5072  
tipoviviendaOtro                 -8.705e-02  7.708e-01  -0.113   0.9101  
tipoviviendaPropia                2.294e-01  1.213e-01   1.892   0.0585 .
aniosempleo                       2.453e-02  9.823e-03   2.497   0.0125 *
destinacionEducativo              1.095e-01  1.170e-01   0.935   0.3496  
destinacionLibre destino          2.408e-01  1.249e-01   1.928   0.0538 .
destinacionMédico                -1.580e-02  1.252e-01  -0.126   0.8996  
destinacionMejoramiento vivienda  1.447e-01  1.392e-01   1.039   0.2986  
destinacionVenture                3.138e-01  1.241e-01   2.529   0.0114 *
tipoprestamoB                     1.232e-01  2.865e+02   0.000   0.9997  
tipoprestamoC                     2.162e+01  1.973e+02   0.110   0.9127  
tipoprestamoD                     2.157e+01  1.973e+02   0.109   0.9130  
tipoprestamoE                     2.160e+01  1.973e+02   0.110   0.9128  
tipoprestamoF                     2.256e+01  1.973e+02   0.114   0.9089  
monto_prestamo                   -1.045e-05  6.085e-06  -1.717   0.0860 .
tasainteres                      -2.874e-02  3.379e-02  -0.850   0.3951  
historiacreditos                 -2.485e-02  1.788e-02  -1.390   0.1646  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18628.1  on 7791  degrees of freedom
Residual deviance:  6208.7  on 7772  degrees of freedom
AIC: 6207.5

Number of Fisher Scoring iterations: 18

#Prueba ómnibus: Es la prueba de significancia global del modelo
omnibus1D <- anova(modelo1D, test="Chisq")
omnibus1D

Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”

#Resumen del modelo 1D
summary(modelo1D)

Call:
glm(formula = default ~ edad + ingresoanual + tipovivienda + 
    aniosempleo + destinacion + tipoprestamo + monto_prestamo + 
    tasainteres + historiacreditos, family = binomial, data = df_train, 
    weights = ponderador)

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)  
(Intercept)                      -1.978e+01  1.973e+02  -0.100   0.9201  
edad                              1.326e-02  1.271e-02   1.043   0.2969  
ingresoanual                      3.733e-07  1.160e-06   0.322   0.7475  
tipoviviendaHipotecada           -4.980e-02  7.509e-02  -0.663   0.5072  
tipoviviendaOtro                 -8.705e-02  7.708e-01  -0.113   0.9101  
tipoviviendaPropia                2.294e-01  1.213e-01   1.892   0.0585 .
aniosempleo                       2.453e-02  9.823e-03   2.497   0.0125 *
destinacionEducativo              1.095e-01  1.170e-01   0.935   0.3496  
destinacionLibre destino          2.408e-01  1.249e-01   1.928   0.0538 .
destinacionMédico                -1.580e-02  1.252e-01  -0.126   0.8996  
destinacionMejoramiento vivienda  1.447e-01  1.392e-01   1.039   0.2986  
destinacionVenture                3.138e-01  1.241e-01   2.529   0.0114 *
tipoprestamoB                     1.232e-01  2.865e+02   0.000   0.9997  
tipoprestamoC                     2.162e+01  1.973e+02   0.110   0.9127  
tipoprestamoD                     2.157e+01  1.973e+02   0.109   0.9130  
tipoprestamoE                     2.160e+01  1.973e+02   0.110   0.9128  
tipoprestamoF                     2.256e+01  1.973e+02   0.114   0.9089  
monto_prestamo                   -1.045e-05  6.085e-06  -1.717   0.0860 .
tasainteres                      -2.874e-02  3.379e-02  -0.850   0.3951  
historiacreditos                 -2.485e-02  1.788e-02  -1.390   0.1646  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18628.1  on 7791  degrees of freedom
Residual deviance:  6208.7  on 7772  degrees of freedom
AIC: 6207.5

Number of Fisher Scoring iterations: 18

# Cálculo de la matriz de confusión del modelo 1D
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE ENTRENAMIENTO
df_train$score1D<-predict(modelo1D,type="response")
# Paso 2: Crear la variable pronóstico
df_train$pron1D<-as.numeric(df_train$score1D>0.5)
df_train$pron1D<-as.factor(df_train$pron1D)
df_train$default<-as.factor(df_train$default)
# Generar la matriz de confusión
confusionMatrix(df_train$pron1D, df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 5621    0
         1 1070 1101
                                          
               Accuracy : 0.8627          
                 95% CI : (0.8548, 0.8702)
    No Information Rate : 0.8587          
    P-Value [Acc > NIR] : 0.1606          
                                          
                  Kappa : 0.5975          
                                          
 Mcnemar's Test P-Value : <2e-16          
                                          
            Sensitivity : 0.8401          
            Specificity : 1.0000          
         Pos Pred Value : 1.0000          
         Neg Pred Value : 0.5071          
             Prevalence : 0.8587          
         Detection Rate : 0.7214          
   Detection Prevalence : 0.7214          
      Balanced Accuracy : 0.9200          
                                          
       'Positive' Class : 0

#Estimación del Modelo 1E: modelo balanceado incluyendo las variables relevantes obtenidas en el modelo 1D
modelo1E<-glm(default~destinacion+monto_prestamo+tasainteres,data=df_train,family=binomial,weights=ponderador)
#no se incluye en la ecuación el ponderador, ni los cálculos de score y pronóstico realizados para otros modelos.
#el comando "weights" se usa para incluir el ponderador que balancea el modelo
summary(modelo1E)

Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”

Call:
glm(formula = default ~ destinacion + monto_prestamo + tasainteres, 
    family = binomial, data = df_train, weights = ponderador)

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)    
(Intercept)                      -1.202e+01  2.348e-01 -51.164  < 2e-16 ***
destinacionEducativo              3.416e-02  8.605e-02   0.397    0.691    
destinacionLibre destino          8.209e-02  9.110e-02   0.901    0.368    
destinacionMédico                -1.197e-01  9.133e-02  -1.311    0.190    
destinacionMejoramiento vivienda  1.752e-02  1.030e-01   0.170    0.865    
destinacionVenture                4.423e-02  8.856e-02   0.499    0.617    
monto_prestamo                   -2.384e-05  4.137e-06  -5.761 8.36e-09 ***
tasainteres                       9.934e-01  1.796e-02  55.314  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18628.1  on 7791  degrees of freedom
Residual deviance:  9854.8  on 7784  degrees of freedom
AIC: 9787.8

Number of Fisher Scoring iterations: 6

#Prueba omnibus para el modelo 1E
omnibus1E<-anova(modelo1E,chisq.test)
omnibus1E

Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”
Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”

#Resumen del modelo 1E
summary(modelo1E)

Call:
glm(formula = default ~ destinacion + monto_prestamo + tasainteres, 
    family = binomial, data = df_train, weights = ponderador)

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)    
(Intercept)                      -1.202e+01  2.348e-01 -51.164  < 2e-16 ***
destinacionEducativo              3.416e-02  8.605e-02   0.397    0.691    
destinacionLibre destino          8.209e-02  9.110e-02   0.901    0.368    
destinacionMédico                -1.197e-01  9.133e-02  -1.311    0.190    
destinacionMejoramiento vivienda  1.752e-02  1.030e-01   0.170    0.865    
destinacionVenture                4.423e-02  8.856e-02   0.499    0.617    
monto_prestamo                   -2.384e-05  4.137e-06  -5.761 8.36e-09 ***
tasainteres                       9.934e-01  1.796e-02  55.314  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18628.1  on 7791  degrees of freedom
Residual deviance:  9854.8  on 7784  degrees of freedom
AIC: 9787.8

Number of Fisher Scoring iterations: 6

# Cálculo de la matriz de confusión del modelo 1E
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE ENTRENAMIENTO
df_train$score1E<-predict(modelo1E,type="response")
# Paso 2: Crear la variable pronóstico
df_train$pron1E<-as.numeric(df_train$score1E>0.5)
df_train$pron1E<-as.factor(df_train$pron1E)
df_train$default<-as.factor(df_train$default)
# Generar la matriz de confusión
confusionMatrix(df_train$pron1E, df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 5453   76
         1 1238 1025
                                          
               Accuracy : 0.8314          
                 95% CI : (0.8229, 0.8396)
    No Information Rate : 0.8587          
    P-Value [Acc > NIR] : 1               
                                          
                  Kappa : 0.5177          
                                          
 Mcnemar's Test P-Value : <2e-16          
                                          
            Sensitivity : 0.8150          
            Specificity : 0.9310          
         Pos Pred Value : 0.9863          
         Neg Pred Value : 0.4529          
             Prevalence : 0.8587          
         Detection Rate : 0.6998          
   Detection Prevalence : 0.7096          
      Balanced Accuracy : 0.8730          
                                          
       'Positive' Class : 0

#Estimación del Modelo 1F: modelo balanceado incluyendo las variables relevantes obtenidas en el modelo 1D
modelo1F<-glm(default~monto_prestamo+tasainteres,data=df_train,family=binomial,weights=ponderador)
#no se incluye en la ecuación el ponderador, ni los cálculos de score y pronóstico realizados para otros modelos.
#el comando "weights" se usa para incluir el ponderador que balancea el modelo
summary(modelo1F)

Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”

Call:
glm(formula = default ~ monto_prestamo + tasainteres, family = binomial, 
    data = df_train, weights = ponderador)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.202e+01  2.283e-01 -52.643  < 2e-16 ***
monto_prestamo -2.355e-05  4.126e-06  -5.708 1.14e-08 ***
tasainteres     9.944e-01  1.793e-02  55.455  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18628.1  on 7791  degrees of freedom
Residual deviance:  9861.2  on 7789  degrees of freedom
AIC: 9784.1

Number of Fisher Scoring iterations: 6

#Prueba omnibus para el modelo 1F
omnibus1F<-anova(modelo1F,chisq.test)
omnibus1F

Warning message in eval(family$initialize):
“non-integer #successes in a binomial glm!”

#Resumen del modelo 1F
summary(modelo1F)

Call:
glm(formula = default ~ monto_prestamo + tasainteres, family = binomial, 
    data = df_train, weights = ponderador)

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)    -1.202e+01  2.283e-01 -52.643  < 2e-16 ***
monto_prestamo -2.355e-05  4.126e-06  -5.708 1.14e-08 ***
tasainteres     9.944e-01  1.793e-02  55.455  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 18628.1  on 7791  degrees of freedom
Residual deviance:  9861.2  on 7789  degrees of freedom
AIC: 9784.1

Number of Fisher Scoring iterations: 6

# Cálculo de la matriz de confusión del modelo 1F
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE ENTRENAMIENTO
df_train$score1F<-predict(modelo1F,type="response")
# Paso 2: Crear la variable pronóstico
df_train$pron1F<-as.numeric(df_train$score1F>0.5)
df_train$pron1F<-as.factor(df_train$pron1F)
df_train$default<-as.factor(df_train$default)
# Generar la matriz de confusión
confusionMatrix(df_train$pron1F, df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 5458   75
         1 1233 1026
                                          
               Accuracy : 0.8321          
                 95% CI : (0.8236, 0.8404)
    No Information Rate : 0.8587          
    P-Value [Acc > NIR] : 1               
                                          
                  Kappa : 0.5194          
                                          
 Mcnemar's Test P-Value : <2e-16          
                                          
            Sensitivity : 0.8157          
            Specificity : 0.9319          
         Pos Pred Value : 0.9864          
         Neg Pred Value : 0.4542          
             Prevalence : 0.8587          
         Detection Rate : 0.7005          
   Detection Prevalence : 0.7101          
      Balanced Accuracy : 0.8738          
                                          
       'Positive' Class : 0

# EVALUACIÓN: Cálculo de la matriz de confusión del modelo 1A
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE **COMPROBACION**
df_test$score1A<-predict(modelo1A,newdata= df_test, type="response") #agregar la muestra de comprobación con la función newdata
# Paso 2: Crear la variable pronóstico
df_test$pron1A<-as.numeric(df_test$score1A>0.5)
df_test$pron1A<-as.factor(df_test$pron1A)
df_test$default<-as.factor(df_test$default)
# Generar la matriz de confusión
confusionMatrix(df_test$pron1A, df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 2134  200
         1  198  192
                                         
               Accuracy : 0.8539         
                 95% CI : (0.8401, 0.867)
    No Information Rate : 0.8561         
    P-Value [Acc > NIR] : 0.6408         
                                         
                  Kappa : 0.4058         
                                         
 Mcnemar's Test P-Value : 0.9600         
                                         
            Sensitivity : 0.9151         
            Specificity : 0.4898         
         Pos Pred Value : 0.9143         
         Neg Pred Value : 0.4923         
             Prevalence : 0.8561         
         Detection Rate : 0.7834         
   Detection Prevalence : 0.8568         
      Balanced Accuracy : 0.7024         
                                         
       'Positive' Class : 0

# EVALUACIÓN: Cálculo de la matriz de confusión del modelo 1B
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE **COMPROBACION**
df_test$score1B<-predict(modelo1B,newdata= df_test, type="response") #agregar la muestra de comprobación con la función newdata
# Paso 2: Crear la variable pronóstico
df_test$pron1B<-as.numeric(df_test$score1B>0.5)
df_test$pron1B<-as.factor(df_test$pron1B)
df_test$default<-as.factor(df_test$default)
# Generar la matriz de confusión
confusionMatrix(df_test$pron1B, df_test$default)

Warning message in confusionMatrix.default(df_test$pron1B, df_test$default):
“Levels are not in the same order for reference and data. Refactoring data to match.”

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 2332  392
         1    0    0
                                          
               Accuracy : 0.8561          
                 95% CI : (0.8423, 0.8691)
    No Information Rate : 0.8561          
    P-Value [Acc > NIR] : 0.5135          
                                          
                  Kappa : 0               
                                          
 Mcnemar's Test P-Value : <2e-16          
                                          
            Sensitivity : 1.0000          
            Specificity : 0.0000          
         Pos Pred Value : 0.8561          
         Neg Pred Value :    NaN          
             Prevalence : 0.8561          
         Detection Rate : 0.8561          
   Detection Prevalence : 1.0000          
      Balanced Accuracy : 0.5000          
                                          
       'Positive' Class : 0

# EVALUACIÓN: Cálculo de la matriz de confusión del modelo 1C
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE **COMPROBACION**
df_test$score1C<-predict(modelo1C,newdata= df_test, type="response") #agregar la muestra de comprobación con la función newdata
# Paso 2: Crear la variable pronóstico
df_test$pron1C<-as.numeric(df_test$score1C>0.5)
df_test$pron1C<-as.factor(df_test$pron1C)
df_test$default<-as.factor(df_test$default)
# Generar la matriz de confusión
confusionMatrix(df_test$pron1C, df_test$default)

Warning message in confusionMatrix.default(df_test$pron1C, df_test$default):
“Levels are not in the same order for reference and data. Refactoring data to match.”

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 2332  392
         1    0    0
                                          
               Accuracy : 0.8561          
                 95% CI : (0.8423, 0.8691)
    No Information Rate : 0.8561          
    P-Value [Acc > NIR] : 0.5135          
                                          
                  Kappa : 0               
                                          
 Mcnemar's Test P-Value : <2e-16          
                                          
            Sensitivity : 1.0000          
            Specificity : 0.0000          
         Pos Pred Value : 0.8561          
         Neg Pred Value :    NaN          
             Prevalence : 0.8561          
         Detection Rate : 0.8561          
   Detection Prevalence : 1.0000          
      Balanced Accuracy : 0.5000          
                                          
       'Positive' Class : 0

# EVALUACIÓN: Cálculo de la matriz de confusión del modelo 1D
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE **COMPROBACION**
df_test$score1D<-predict(modelo1D,newdata= df_test, type="response") #agregar la muestra de comprobación con la función newdata
# Paso 2: Crear la variable pronóstico
df_test$pron1D<-as.numeric(df_test$score1D>0.5)
df_test$pron1D<-as.factor(df_test$pron1D)
df_test$default<-as.factor(df_test$default)
# Generar la matriz de confusión
confusionMatrix(df_test$pron1D, df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 1960    0
         1  372  392
                                        
               Accuracy : 0.8634        
                 95% CI : (0.85, 0.8761)
    No Information Rate : 0.8561        
    P-Value [Acc > NIR] : 0.1433        
                                        
                  Kappa : 0.6026        
                                        
 Mcnemar's Test P-Value : <2e-16        
                                        
            Sensitivity : 0.8405        
            Specificity : 1.0000        
         Pos Pred Value : 1.0000        
         Neg Pred Value : 0.5131        
             Prevalence : 0.8561        
         Detection Rate : 0.7195        
   Detection Prevalence : 0.7195        
      Balanced Accuracy : 0.9202        
                                        
       'Positive' Class : 0

# EVALUACIÓN: Cálculo de la matriz de confusión del modelo 1E
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE **COMPROBACION**
df_test$score1E<-predict(modelo1E,newdata= df_test, type="response") #agregar la muestra de comprobación con la función newdata
# Paso 2: Crear la variable pronóstico
df_test$pron1E<-as.numeric(df_test$score1E>0.5)
df_test$pron1E<-as.factor(df_test$pron1E)
df_test$default<-as.factor(df_test$default)
# Generar la matriz de confusión
confusionMatrix(df_test$pron1E, df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 1894   29
         1  438  363
                                          
               Accuracy : 0.8286          
                 95% CI : (0.8139, 0.8425)
    No Information Rate : 0.8561          
    P-Value [Acc > NIR] : 1               
                                          
                  Kappa : 0.5148          
                                          
 Mcnemar's Test P-Value : <2e-16          
                                          
            Sensitivity : 0.8122          
            Specificity : 0.9260          
         Pos Pred Value : 0.9849          
         Neg Pred Value : 0.4532          
             Prevalence : 0.8561          
         Detection Rate : 0.6953          
   Detection Prevalence : 0.7059          
      Balanced Accuracy : 0.8691          
                                          
       'Positive' Class : 0

# EVALUACIÓN: Cálculo de la matriz de confusión del modelo 1F
## Paso 1: calcular los pronósticos SOBRE LA MUESTRA DE **COMPROBACION**
df_test$score1F<-predict(modelo1F,newdata= df_test, type="response") #agregar la muestra de comprobación con la función newdata
# Paso 2: Crear la variable pronóstico
df_test$pron1F<-as.numeric(df_test$score1F>0.5)
df_test$pron1F<-as.factor(df_test$pron1F)
df_test$default<-as.factor(df_test$default)
# Generar la matriz de confusión
confusionMatrix(df_test$pron1F, df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 1896   28
         1  436  364
                                         
               Accuracy : 0.8297         
                 95% CI : (0.815, 0.8436)
    No Information Rate : 0.8561         
    P-Value [Acc > NIR] : 0.9999         
                                         
                  Kappa : 0.5175         
                                         
 Mcnemar's Test P-Value : <2e-16         
                                         
            Sensitivity : 0.8130         
            Specificity : 0.9286         
         Pos Pred Value : 0.9854         
         Neg Pred Value : 0.4550         
             Prevalence : 0.8561         
         Detection Rate : 0.6960         
   Detection Prevalence : 0.7063         
      Balanced Accuracy : 0.8708         
                                         
       'Positive' Class : 0

#Calculo de los odds ratio para el modelo 1F

options(scipen = 999) #quitando notación científica
options(digits = 3)
oddsratio1F<-exp(coef(modelo1F))
as.matrix(oddsratio1F)

#Estimación del modelo 2A: modelo genérico de árbol de clasificación con todas las variables.
modelo2A<-rpart(default~edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+monto_prestamo+tasainteres+historiacreditos,data=df_train)
rpart.plot(modelo2A)

#Matriz de confusión para el modelo 2A - Muestra de entrenamiento
df_train$pron2A<-predict(modelo2A,type="class")
confusionMatrix(df_train$pron2A,df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 6377  629
         1  308  478
                                              
               Accuracy : 0.88                
                 95% CI : (0.872, 0.887)      
    No Information Rate : 0.858               
    P-Value [Acc > NIR] : 0.00000000944       
                                              
                  Kappa : 0.439               
                                              
 Mcnemar's Test P-Value : < 0.0000000000000002
                                              
            Sensitivity : 0.954               
            Specificity : 0.432               
         Pos Pred Value : 0.910               
         Neg Pred Value : 0.608               
             Prevalence : 0.858               
         Detection Rate : 0.818               
   Detection Prevalence : 0.899               
      Balanced Accuracy : 0.693               
                                              
       'Positive' Class : 0

#Estimando el modelo 2B - definición de los criterios de poda
control.poda<-rpart.control(maxdepth=3,minsplit=800)
#maxdepth= máximo número de niveles, en R el máximo es 30 niveles y el mínimo es 3 niveles
#minsplit= tamaño mínimo de los nodos filiales (minimo debe ser 5% del tamaño de la muestra n)
#En minsplit se puso el valor n=800 porque es alrededor del 10% de la muestra de entrenamiento (n de entrenamiento = 7792)
modelo2B<-rpart(default~edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+monto_prestamo+tasainteres+historiacreditos,data=df_train,control=control.poda)
rpart.plot(modelo2B)

#Matriz de confusión para el modelo 2B - Muestra de entrenamiento
df_train$pron2B<-predict(modelo2B,type="class")
confusionMatrix(df_train$pron2B,df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 6232  523
         1  453  584
                                        
               Accuracy : 0.875         
                 95% CI : (0.867, 0.882)
    No Information Rate : 0.858         
    P-Value [Acc > NIR] : 0.00000839    
                                        
                  Kappa : 0.472         
                                        
 Mcnemar's Test P-Value : 0.0272        
                                        
            Sensitivity : 0.932         
            Specificity : 0.528         
         Pos Pred Value : 0.923         
         Neg Pred Value : 0.563         
             Prevalence : 0.858         
         Detection Rate : 0.800         
   Detection Prevalence : 0.867         
      Balanced Accuracy : 0.730         
                                        
       'Positive' Class : 0

#Estimación del modelo 2C
control.poda<-rpart.control(maxdepth=30,minsplit=390)
#maxdepth= máximo número de niveles, en R el máximo es 30 niveles y el mínimo es 3 niveles
#minsplit= tamaño mínimo de los nodos filiales (minimo debe ser 5% del tamaño de la muestra n)
#En minsplit se puso el valor n=390 porque es el 5% de la muestra de entrenamiento (n de entrenamiento = 7792)
modelo2C<-rpart(default~edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+monto_prestamo+tasainteres+historiacreditos,data=df_train,control=control.poda,weights=ponderador)
rpart.plot(modelo2C)

#Matriz de confusión para el modelo 2C - Muestra de entrenamiento
df_train$pron2C<-predict(modelo2C,type="class")
confusionMatrix(df_train$pron2C,df_train$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 5628    0
         1 1057 1107
                                             
               Accuracy : 0.864              
                 95% CI : (0.857, 0.872)     
    No Information Rate : 0.858              
    P-Value [Acc > NIR] : 0.0534             
                                             
                  Kappa : 0.602              
                                             
 Mcnemar's Test P-Value : <0.0000000000000002
                                             
            Sensitivity : 0.842              
            Specificity : 1.000              
         Pos Pred Value : 1.000              
         Neg Pred Value : 0.512              
             Prevalence : 0.858              
         Detection Rate : 0.722              
   Detection Prevalence : 0.722              
      Balanced Accuracy : 0.921              
                                             
       'Positive' Class : 0

#Matriz de confusión para el modelo 2A - Muestra de comprobación
df_test$pron2A<-predict(modelo2A,newdata=df_test,type="class")
confusionMatrix(df_test$pron2A,df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 2204  244
         1  137  144
                                        
               Accuracy : 0.86          
                 95% CI : (0.847, 0.873)
    No Information Rate : 0.858         
    P-Value [Acc > NIR] : 0.363         
                                        
                  Kappa : 0.353         
                                        
 Mcnemar's Test P-Value : 0.0000000562  
                                        
            Sensitivity : 0.941         
            Specificity : 0.371         
         Pos Pred Value : 0.900         
         Neg Pred Value : 0.512         
             Prevalence : 0.858         
         Detection Rate : 0.808         
   Detection Prevalence : 0.897         
      Balanced Accuracy : 0.656         
                                        
       'Positive' Class : 0

#Matriz de confusión para el modelo 2B - Muestra de comprobación
df_test$pron2B<-predict(modelo2B,newdata=df_test,type="class")
confusionMatrix(df_test$pron2B,df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 2167  189
         1  174  199
                                       
               Accuracy : 0.867        
                 95% CI : (0.854, 0.88)
    No Information Rate : 0.858        
    P-Value [Acc > NIR] : 0.0888       
                                       
                  Kappa : 0.446        
                                       
 Mcnemar's Test P-Value : 0.4625       
                                       
            Sensitivity : 0.926        
            Specificity : 0.513        
         Pos Pred Value : 0.920        
         Neg Pred Value : 0.534        
             Prevalence : 0.858        
         Detection Rate : 0.794        
   Detection Prevalence : 0.863        
      Balanced Accuracy : 0.719        
                                       
       'Positive' Class : 0

#Matriz de confusión para el modelo 2C - Muestra de comprobación
df_test$pron2C<-predict(modelo2C,newdata=df_test,type="class")
confusionMatrix(df_test$pron2C,df_test$default)

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 1956    0
         1  385  388
                                             
               Accuracy : 0.859              
                 95% CI : (0.845, 0.872)     
    No Information Rate : 0.858              
    P-Value [Acc > NIR] : 0.448              
                                             
                  Kappa : 0.591              
                                             
 Mcnemar's Test P-Value : <0.0000000000000002
                                             
            Sensitivity : 0.836              
            Specificity : 1.000              
         Pos Pred Value : 1.000              
         Neg Pred Value : 0.502              
             Prevalence : 0.858              
         Detection Rate : 0.717              
   Detection Prevalence : 0.717              
      Balanced Accuracy : 0.918              
                                             
       'Positive' Class : 0

#Estimación del modelo 3A
modelo3A<-rpart(monto_prestamo~edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+tasainteres+historiacreditos+default,data=df_train)
rpart.plot(modelo3A)

## Evaluación del modelo: cálculo del R²
rsq.rpart(modelo3A)

Regression tree:
rpart(formula = monto_prestamo ~ edad + ingresoanual + tipovivienda + 
    aniosempleo + destinacion + tipoprestamo + tasainteres + 
    historiacreditos + default, data = df_train)

Variables actually used in tree construction:
[1] ingresoanual tasainteres 

Root node error: 2.729e+11/7792 = 35023039

n= 7792 

        CP nsplit rel error  xerror     xstd
1 0.140941      0   1.00000 1.00053 0.021638
2 0.026839      1   0.85906 0.86530 0.017742
3 0.023494      2   0.83222 0.84175 0.016844
4 0.022732      3   0.80873 0.83207 0.016617
5 0.010000      4   0.78599 0.79948 0.016066

# Evaluación del modelo 3A: RMSEA
df_train$pron3A<-predict(modelo3A)
RMSE(df_train$monto_prestamo,df_train$pron3A)

#Estimando el modelo 3B - definición de los criterios de poda
control.poda<-rpart.control(maxdepth=3,minsplit=3240)
#maxdepth= máximo número de niveles, en R el máximo es 30 niveles y el mínimo es 3 niveles
#minsplit= tamaño mínimo de los nodos filiales (minimo debe ser 5% del tamaño de la muestra n)
#En minsplit se puso el valor n=3240 inicialmente para poder comparar, alrededor del 40% de la muestra (n de entrenamiento = 7792)
modelo3B<-rpart(monto_prestamo~edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+tasainteres+historiacreditos+default,data=df_train,control=control.poda)
rpart.plot(modelo3B)

## Evaluación del modelo: cálculo del R2
rsq.rpart(modelo3B)

Regression tree:
rpart(formula = monto_prestamo ~ edad + ingresoanual + tipovivienda + 
    aniosempleo + destinacion + tipoprestamo + tasainteres + 
    historiacreditos + default, data = df_train, control = control.poda)

Variables actually used in tree construction:
[1] ingresoanual

Root node error: 2.729e+11/7792 = 35023039

n= 7792 

        CP nsplit rel error  xerror     xstd
1 0.140941      0   1.00000 1.00012 0.021623
2 0.026744      1   0.85906 0.86382 0.017679
3 0.022732      2   0.83232 0.85587 0.017480
4 0.010000      3   0.80958 0.83513 0.017249

# Evaluación del modelo 3A: RMSEA
df_train$pron3A<-predict(modelo3A)
RMSE(df_train$monto_prestamo,df_train$pron3A)

# Evaluación del modelo 3A: RMSEA - Muestra de comprobación
df_test$pron3A<-predict(modelo3A,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron3A)

# Evaluación del modelo 3B: RMSEA - Muestra de comprobación
df_test$pron3B<-predict(modelo3B,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron3B)

#Estimación del modelo 4A
modelo4A<-lm(monto_prestamo~ edad+ingresoanual+tipovivienda+aniosempleo+destinacion+tipoprestamo+tasainteres+historiacreditos,data = df_train)
summary(modelo4A)

Call:
lm(formula = monto_prestamo ~ edad + ingresoanual + tipovivienda + 
    aniosempleo + destinacion + tipoprestamo + tasainteres + 
    historiacreditos, data = df_train)

Residuals:
     Min       1Q   Median       3Q      Max 
-17121.2  -3602.2   -687.4   2975.7  25788.4 

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)                       1.866e+03  6.761e+02   2.760 0.005793 ** 
edad                             -1.894e+01  2.240e+01  -0.846 0.397699    
ingresoanual                      7.030e-02  1.857e-03  37.848  < 2e-16 ***
tipoviviendaHipotecada            1.307e+03  1.341e+02   9.742  < 2e-16 ***
tipoviviendaOtro                 -8.721e+01  1.208e+03  -0.072 0.942472    
tipoviviendaPropia                9.556e+02  2.180e+02   4.383 1.18e-05 ***
aniosempleo                       5.633e+00  1.680e+01   0.335 0.737460    
destinacionEducativo              6.802e+01  2.036e+02   0.334 0.738386    
destinacionLibre destino         -4.428e+01  2.139e+02  -0.207 0.836023    
destinacionMédico                -9.407e+00  2.126e+02  -0.044 0.964701    
destinacionMejoramiento vivienda  2.814e+02  2.444e+02   1.152 0.249506    
destinacionVenture               -9.998e+00  2.089e+02  -0.048 0.961828    
tipoprestamoB                     7.960e+02  2.607e+02   3.053 0.002272 ** 
tipoprestamoC                    -1.703e+02  4.031e+02  -0.422 0.672699    
tipoprestamoD                     9.075e+02  5.557e+02   1.633 0.102489    
tipoprestamoE                     2.122e+03  7.667e+02   2.768 0.005657 ** 
tipoprestamoF                     5.297e+03  1.591e+03   3.331 0.000871 ***
tasainteres                       1.928e+02  6.051e+01   3.186 0.001446 ** 
historiacreditos                  2.330e+01  3.213e+01   0.725 0.468452    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5245 on 7773 degrees of freedom
Multiple R-squared:  0.2174,	Adjusted R-squared:  0.2156 
F-statistic:   120 on 18 and 7773 DF,  p-value: < 2.2e-16

#Estimación del modelo 4B
modelo4B<-lm(monto_prestamo~ ingresoanual+tipovivienda+tipoprestamo+tasainteres,data = df_train)
summary(modelo4B)

Call:
lm(formula = monto_prestamo ~ ingresoanual + tipovivienda + tipoprestamo + 
    tasainteres, data = df_train)

Residuals:
     Min       1Q   Median       3Q      Max 
-17196.9  -3586.5   -694.1   2974.5  25701.1 

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)            1519.70636  474.82428   3.201  0.00138 ** 
ingresoanual              0.07049    0.00183  38.520  < 2e-16 ***
tipoviviendaHipotecada 1327.92833  131.05110  10.133  < 2e-16 ***
tipoviviendaOtro        -54.80518 1207.11269  -0.045  0.96379    
tipoviviendaPropia      983.53396  215.23985   4.569 4.96e-06 ***
tipoprestamoB           795.89507  260.58446   3.054  0.00226 ** 
tipoprestamoC          -164.78545  402.95923  -0.409  0.68260    
tipoprestamoD           936.22629  554.08307   1.690  0.09113 .  
tipoprestamoE          2138.59910  765.00890   2.796  0.00519 ** 
tipoprestamoF          5340.46486 1588.92171   3.361  0.00078 ***
tasainteres             192.07323   60.47449   3.176  0.00150 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5243 on 7781 degrees of freedom
Multiple R-squared:  0.2171,	Adjusted R-squared:  0.2161 
F-statistic: 215.8 on 10 and 7781 DF,  p-value: < 2.2e-16

#Estimación del modelo 4C
modelo4C<-lm(monto_prestamo~ ingresoanual+tasainteres,data = df_train)
summary(modelo4C)

Call:
lm(formula = monto_prestamo ~ ingresoanual + tasainteres, data = df_train)

Residuals:
   Min     1Q Median     3Q    Max 
-17952  -3608   -795   2894  26222 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.765e+03  2.515e+02   7.017 2.46e-12 ***
ingresoanual 7.558e-02  1.776e-03  42.558  < 2e-16 ***
tasainteres  2.341e+02  2.046e+01  11.439  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5300 on 7789 degrees of freedom
Multiple R-squared:  0.1993,	Adjusted R-squared:  0.1991 
F-statistic: 969.6 on 2 and 7789 DF,  p-value: < 2.2e-16

#Estimacion del modelo 4D
modelo4D<-lm(log(monto_prestamo)~
log(ingresoanual)+
log(tasainteres)
, data=df_train)
summary(modelo4D)

Call:
lm(formula = log(monto_prestamo) ~ log(ingresoanual) + log(tasainteres), 
    data = df_train)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.40373 -0.37099  0.08814  0.45468  1.52596 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        1.74111    0.17155  10.149   <2e-16 ***
log(ingresoanual)  0.60816    0.01467  41.451   <2e-16 ***
log(tasainteres)   0.21399    0.02400   8.916   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.6204 on 7789 degrees of freedom
Multiple R-squared:  0.1864,	Adjusted R-squared:  0.1862 
F-statistic: 892.5 on 2 and 7789 DF,  p-value: < 2.2e-16

#Estimacion del modelo 4E
modelo4E<-lm(monto_prestamo~
log(ingresoanual)+
log(tasainteres)
, data=df_train)
summary(modelo4E)

Call:
lm(formula = monto_prestamo ~ log(ingresoanual) + log(tasainteres), 
    data = df_train)

Residuals:
     Min       1Q   Median       3Q      Max 
-14276.0  -3571.4   -631.9   2866.5  25555.4 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)       -57717.8     1449.8  -39.81   <2e-16 ***
log(ingresoanual)   5566.4      124.0   44.89   <2e-16 ***
log(tasainteres)    2508.6      202.8   12.37   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5243 on 7789 degrees of freedom
Multiple R-squared:  0.2163,	Adjusted R-squared:  0.2161 
F-statistic:  1075 on 2 and 7789 DF,  p-value: < 2.2e-16

#Estimacion del modelo 4F
modelo4F<-lm(log(monto_prestamo)~
ingresoanual+
tasainteres
, data=df_train)
summary(modelo4F)

Call:
lm(formula = log(monto_prestamo) ~ ingresoanual + tasainteres, 
    data = df_train)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.36559 -0.37167  0.07887  0.46689  1.59369 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  8.188e+00  2.998e-02 273.121  < 2e-16 ***
ingresoanual 7.874e-06  2.117e-07  37.200  < 2e-16 ***
tasainteres  1.975e-02  2.439e-03   8.097 6.48e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.6316 on 7789 degrees of freedom
Multiple R-squared:  0.1567,	Adjusted R-squared:  0.1565 
F-statistic: 723.8 on 2 and 7789 DF,  p-value: < 2.2e-16

#Cálculo del RMSEA del modelo 4A
df_test$pron_m4A<-predict(modelo4A,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron_m4A)

#Cálculo del RMSEA del modelo 4B
df_test$pron_m4B<-predict(modelo4B,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron_m4B)

#Cálculo del RMSEA del modelo 4C
df_test$pron_m4C<-predict(modelo4C,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron_m4C)

#Cálculo del RMSEA del modelo 4D
df_test$pron_m4D<-predict(modelo4D,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron_m4D)

#Cálculo del RMSEA del modelo 4E
df_test$pron_m4E<-predict(modelo4E,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron_m4E)

#Cálculo del RMSEA del modelo 4F
df_test$pron_m4F<-predict(modelo4F,newdata=df_test)
RMSE(df_test$monto_prestamo,df_test$pron_m4F)

import pandas as pd

Semana	Etapa	Actividades principales	Entregables principales
1	Comprensión del negocio	- Identificación de objetivos comerciales - Análisis PESTEL y DOFA - Revisión del contexto y problemática del Fondo Emprender	Documento de comprensión del negocio (Fase 1)
2	Preparación y exploración de datos	- Limpieza de la base `riesgo_crecer.csv` - Tratamiento de valores nulos - Análisis exploratorio (EDA)	Dataset limpio y visualizaciones iniciales
2-3	Modelado	- Construcción del modelo de regresión logística - Pruebas con variables significativas	Modelo entrenado y resultados iniciales
2-3	Evaluación del modelo	- Cálculo de métricas (Accuracy, Recall, F1, AUC-ROC) - Interpretación de coeficientes	Matriz de confusión, curva ROC y análisis interpretativo
4	Despliegue y storytelling final	- Elaboración de conclusiones - Visualización final de hallazgos - Presentación ejecutiva del modelo	Notebook final con storytelling y presentación explicativa

Variable	Tipo de Dato	Descripción	Valores/Ejemplo
`edad`	Entero	Edad del emprendedor.	`23`, `45`, `32`
`ingresoanual`	Numérico	Ingreso anual del emprendedor.	`12,000,000`, `35,000,000`
`tipovivienda`	Factor	Tipo de vivienda en la que habita.	`Propia`, `Familiar`, `Alquilada`, `Otra`
`aniosempleo`	Entero	Años que lleva el emprendedor en su empleo actual.	`0`, `5`, `12`
`destinacion`	Factor	Finalidad del crédito solicitado.	`Capital de trabajo`, `Compra de equipo`, etc.
`tipoprestamo`	Factor	Tipo de préstamo asignado por categoría.	`A`, `B`, `C`, `D`
`monto_prestamo`	Numérico	Valor desembolsado del préstamo en pesos colombianos.	`10,000,000`, `30,000,000`
`tasainteres`	Numérico	Tasa de interés (%) aplicada al préstamo.	`10.5`, `25.0`
`estadodeuda`	Factor (Binario)	Estado actual de la deuda.	`1` = Activa, `0` = Inactiva
`default`	Factor (Binario)	Indica si hubo impago del crédito.	`0` = No paga, `1` = Sí paga
`historiacreditos`	Entero	Número total de créditos anteriores del solicitante con otras entidades.	`0`, `2`, `5`, `12`

	Df	Deviance	Resid. Df	Resid. Dev	Pr(>Chi)
	<int>	<dbl>	<int>	<dbl>	<dbl>
NULL	NA	NA	7791	6347.584	NA
edad	1	0.6572843	7790	6346.926	4.175203e-01
ingresoanual	1	0.1269051	7789	6346.799	7.216628e-01
tipovivienda	3	23.6950993	7786	6323.104	2.892224e-05
aniosempleo	1	0.6920201	7785	6322.412	4.054781e-01
destinacion	5	29.5381110	7780	6292.874	1.818004e-05
tipoprestamo	5	3299.2331062	7775	2993.641	0.000000e+00
monto_prestamo	1	1.6329566	7774	2992.008	2.012946e-01
tasainteres	1	0.5053519	7773	2991.503	4.771579e-01
historiacreditos	1	1.0787391	7772	2990.424	2.989798e-01

	Df	Deviance	Resid. Df	Resid. Dev	Pr(>Chi)
	<int>	<dbl>	<int>	<dbl>	<dbl>
NULL	NA	NA	7791	6347.584	NA
monto_prestamo	1	3.0527824871	7790	6344.531	0.08059895
aniosempleo	1	0.0001970385	7789	6344.531	0.98880043

	Df	Deviance	Resid. Df	Resid. Dev	Pr(>Chi)
	<int>	<dbl>	<int>	<dbl>	<dbl>
NULL	NA	NA	7791	6347.584	NA
monto_prestamo	1	3.052782	7790	6344.531	0.08059895

	edad	ingresoanual	tipovivienda	aniosempleo	destinacion	tipoprestamo	monto_prestamo	tasainteres	default	historiacreditos	ponderador	score1A	pron1A
	<int>	<int>	<fct>	<int>	<fct>	<fct>	<int>	<dbl>	<fct>	<int>	<dbl>	<dbl>	<fct>
1	24	110000	Hipotecada	8	Médico	A	10800	6.99	0	4	1.00000	1.025473e-09	0
2	33	50750	Alquilada	2	Libre destino	C	7500	11.91	1	6	6.12764	5.518153e-01	1
3	23	42000	Propia	5	Venture	A	6500	6.03	0	2	1.00000	1.848543e-09	0
4	22	65000	Alquilada	6	Libre destino	A	16000	7.88	0	3	1.00000	1.197785e-09	0
5	28	39996	Alquilada	10	Educativo	D	5525	14.54	0	10	1.00000	4.991471e-01	0
6	24	54000	Alquilada	8	Médico	C	1500	14.17	1	2	6.12764	5.163558e-01	1

Modelo	Accuracy	Sensitivity	Specificity	N° Variables Usadas
1A	0.8539	0.9151	0.4898	10
1B	0.8561	1.0000 ⚠️	0.0000	2
1C	0.8601	1.0000 ⚠️	0.0000	1
1D	0.8634	0.8405	1.0000 ⚠️	10
1E	0.8286	0.8122	0.9260	3
1F	0.8297	0.8130	0.9286	2

(Intercept)	0.00000603
monto_prestamo	0.99997645
tasainteres	2.70311470

Modelo	R²	Número de variables	RMSEA
4A	0.2174	9	5238.44
4B	0.2171	4	5240.85
4C	0.1993	2	5308.72
4D	0.1864	2	10891.44
4E	0.2163	2	5225.34
4F	0.1567	2	10891.45

Modelo	RMSEA	R²	N° Nodos finales
3A	5356.25	21,4%	6
3B	5371.10	19,05%	4

Caso Riesgo de Crédito - Linea Crecer (Taller 2)

MODELO 1: MODELOS DE REGRESIÓN LOGIT PARA ESTIMAR PROBABILIDAD DE IMPAGO

Fase 1: Comprensión del negocio 📈

1. Contexto comercial

2. Objetivos comerciales

3. Criterios de rendimiento comercial

4. Evaluación de situación actual

5. Requisitos, supuestos y restricciones

6. Análisis costo/beneficio

7. Objetivos de Data Mining

8. Criterios de rendimiento de los modelos

9. Plan del proyecto

Fase 2. Comprension de los datos 📊

1. Recolección inicial de los datos

2. Descripción de los datos

3. Exploración de los datos

4. Verificación de la calidad de los datos

Fase 3: Preparación de los datos ⬆️

Cargue de datos

Tipologia de las variables

Selección de los datos

Depuración de los datos

Separación de las muestras

Fase 4.1: Modelado 🧠

Modelo 1A

Identificación del modelo 1A

Estimación del modelo 1A

Diagnóstico del modelo 1A

Prueba omnibus modelo 1A

Prueba de Wald modelo 1A

Matriz de confusión modelo 1A

Modelo 1B

Identificación del modelo 1B

Estimación del modelo 1B

Diagnóstico del modelo 1B

Prueba omnibus modelo 1B

Prueba de Wald modelo 1B

Matriz de confusión modelo 1B

Modelo 1C

Identificación del modelo 1C

Estimación del modelo 1C

Diagnóstico del modelo 1C

Prueba omnibus modelo 1C

Prueba de Wald modelo 1C

Matriz de confusión modelo 1C

Modelo 1D

Identificación del modelo 1D

Estimación del modelo 1D

Diagnóstico del modelo 1D

Prueba omnibus modelo 1D

Prueba de Wald modelo 1D

Matriz de confusión modelo 1D

Modelo 1E

Identificación del modelo 1E

Estimación del modelo 1E

Diagnóstico del modelo 1E

Prueba omnibus modelo 1E

Prueba de Wald modelo 1E

Matriz de confusión modelo 1E

Modelo 1F

Identificación del modelo 1F

Estimación del modelo 1F

Diagnóstico del modelo 1F

Prueba omnibus modelo 1F

Prueba de Wald modelo 1F

Matriz de confusión modelo 1F

Fase 5.1: Evaluación 📝

Evaluación modelo 1A

Evaluación modelo 1B

Evaluación modelo 1C

Evaluación modelo 1D

Evaluación modelo 1E

Evaluación modelo 1F

Conclusión técnica de los modelos

Fase 6.1: Distribución 🚛

Planeación de la distribución

Creación de medios de distribución

Distribución de resultados

MODELO 2: ÁRBOL DE CLASIFICACIÓN PARA ESTIMAR LA PROBABILIDAD DE IMPAGO

Fase 4.2: Modelado 🧠