#Instalación de librerías
library(tidyverse) # instalando la librería tidyverse para preparación de datos
df<-read.csv("/content/ventaslidl.csv") #carga la tabla de datos en el entorno de R
head(df) # Previsualización del archivo de datos (las seis primeras filas)
summary(df) # Estadísticas descriptivas de la tabla de datos

── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.2     ✔ tibble    3.2.1
✔ lubridate 1.9.4     ✔ tidyr     1.3.1
✔ purrr     1.0.4     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

       X          tipo_registro           SKU             Vendido      
 Min.   :     1   Length:198917      Min.   :  50001   Min.   :0.000   
 1st Qu.: 49730   Class :character   1st Qu.: 217252   1st Qu.:0.000   
 Median : 99459   Mode  :character   Median : 612208   Median :0.000   
 Mean   : 99459                      Mean   : 861363   Mean   :0.171   
 3rd Qu.:149188                      3rd Qu.: 904751   3rd Qu.:0.000   
 Max.   :198917                      Max.   :3960788   Max.   :1.000   
                                                       NA's   :122921  
 TipoMarketing        PrimeraVez     PrecioRegular      AnioFabricacion
 Length:198917      Min.   :0.0000   Min.   :    0.00   Min.   :   0   
 Class :character   1st Qu.:0.0000   1st Qu.:   42.00   1st Qu.:2003   
 Mode  :character   Median :1.0000   Median :   69.95   Median :2007   
                    Mean   :0.6422   Mean   :   90.90   Mean   :2006   
                    3rd Qu.:1.0000   3rd Qu.:  116.00   3rd Qu.:2011   
                    Max.   :1.0000   Max.   :12671.48   Max.   :2018   
                                                                       
 CantidadVendida   MenorPrecioVenta   PrecioNetoProductor
 Min.   :   0.00   Min.   :    0.00   Min.   :    0.00   
 1st Qu.:  21.00   1st Qu.:    4.91   1st Qu.:   17.95   
 Median :  32.00   Median :   16.08   Median :   33.98   
 Mean   :  41.43   Mean   :   30.98   Mean   :   46.83   
 3rd Qu.:  50.00   3rd Qu.:   40.24   3rd Qu.:   55.49   
 Max.   :2542.00   Max.   :14140.21   Max.   :19138.79

df <- df %>%
  mutate(
    # Conversión a variables categoricas
    tipo_registro = as.factor(tipo_registro),
    TipoMarketing = as.factor(TipoMarketing),
    PrimeraVez = as.factor(PrimeraVez),
    Vendido = as.factor(Vendido),

    # Variables derivadas de las iniciales
    EnPromocion = as.factor(ifelse(MenorPrecioVenta < PrecioRegular, 1, 0)),
    PromoAgresiva = as.factor(ifelse((PrecioRegular - MenorPrecioVenta) > 50, 1, 0)),
    RatioPrecioRegularCosto = ifelse(PrecioNetoProductor > 0,
                                     PrecioRegular / PrecioNetoProductor,
                                     NA),
    EsRentable= as.factor(ifelse(((MenorPrecioVenta - PrecioNetoProductor) / PrecioNetoProductor) > 0, 1, 0)))
  summary(df)

       X             tipo_registro         SKU          Vendido      
 Min.   :     1   Active    :122921   Min.   :  50001   0   : 63000  
 1st Qu.: 49730   Historical: 75996   1st Qu.: 217252   1   : 12996  
 Median : 99459                       Median : 612208   NA's:122921  
 Mean   : 99459                       Mean   : 861363                
 3rd Qu.:149188                       3rd Qu.: 904751                
 Max.   :198917                       Max.   :3960788                
                                                                     
 TipoMarketing PrimeraVez PrecioRegular      AnioFabricacion CantidadVendida  
 D: 97971      0: 71163   Min.   :    0.00   Min.   :   0    Min.   :   0.00  
 S:100946      1:127754   1st Qu.:   42.00   1st Qu.:2003    1st Qu.:  21.00  
                          Median :   69.95   Median :2007    Median :  32.00  
                          Mean   :   90.90   Mean   :2006    Mean   :  41.43  
                          3rd Qu.:  116.00   3rd Qu.:2011    3rd Qu.:  50.00  
                          Max.   :12671.48   Max.   :2018    Max.   :2542.00  
                                                                              
 MenorPrecioVenta   PrecioNetoProductor EnPromocion PromoAgresiva
 Min.   :    0.00   Min.   :    0.00    0: 15954    0:110685     
 1st Qu.:    4.91   1st Qu.:   17.95    1:182963    1: 88232     
 Median :   16.08   Median :   33.98                             
 Mean   :   30.98   Mean   :   46.83                             
 3rd Qu.:   40.24   3rd Qu.:   55.49                             
 Max.   :14140.21   Max.   :19138.79                             
                                                                 
 RatioPrecioRegularCosto EsRentable   
 Min.   :  0.000         0   :145811  
 1st Qu.:  1.258         1   : 50788  
 Median :  1.748         NA's:  2318  
 Mean   :  3.138                      
 3rd Qu.:  3.353                      
 Max.   :555.554                      
 NA's   :6724

#Seleccion de registros historical y que todos los datos registrados de las variables de precios sean mayor que cero
#Por otro lado, tambien se seleccionan los registros con años de fabricación mayores al 2009
df_his<-subset(df,df$tipo_registro=='Historical' &
df$PrecioRegular>0 &
df$MenorPrecioVenta>0 &
df$CantidadVendida>0 &
df$PrecioNetoProductor>0 &
df$AnioFabricacion>2009)
summary(df_his)

       X            tipo_registro        SKU          Vendido   TipoMarketing
 Min.   :    1   Active    :    0   Min.   :  50006   0:15420   D: 7694      
 1st Qu.:21868   Historical:19720   1st Qu.: 287840   1: 4300   S:12026      
 Median :41542                      Median : 550759                          
 Mean   :41134                      Mean   : 616979                          
 3rd Qu.:61166                      3rd Qu.: 705852                          
 Max.   :75995                      Max.   :3463257                          
 PrimeraVez PrecioRegular     AnioFabricacion CantidadVendida 
 0: 2441    Min.   :   1.71   Min.   :2010    Min.   :  1.00  
 1:17279    1st Qu.:  51.95   1st Qu.:2010    1st Qu.: 25.00  
            Median :  81.95   Median :2011    Median : 39.00  
            Mean   : 106.88   Mean   :2012    Mean   : 49.93  
            3rd Qu.: 143.00   3rd Qu.:2013    3rd Qu.: 63.00  
            Max.   :1095.99   Max.   :2016    Max.   :851.00  
 MenorPrecioVenta  PrecioNetoProductor EnPromocion PromoAgresiva
 Min.   :   3.00   Min.   :   1.32     0: 2332     0:12961      
 1st Qu.:  29.55   1st Qu.:  27.60     1:17388     1: 6759      
 Median :  48.80   Median :  42.98                              
 Mean   :  62.89   Mean   :  55.84                              
 3rd Qu.:  83.99   3rd Qu.:  63.85                              
 Max.   :7781.01   Max.   :9828.14                              
 RatioPrecioRegularCosto EsRentable
 Min.   : 0.01047        0: 9141   
 1st Qu.: 1.32400        1:10579   
 Median : 1.73477                  
 Mean   : 2.81624                  
 3rd Qu.: 3.01383                  
 Max.   :68.98750

#Omisión de variables irrelevantes: vamos a separar de la tabla de modelado (lidl_his) las columnas que no se usarán en el modelo
df_his<-select(df_his,c(-X,-SKU,-tipo_registro)) #la función select se usa para descartar columnas (c()), indicando con un signo - las variables a descartar.
summary(df_his)

 Vendido   TipoMarketing PrimeraVez PrecioRegular     AnioFabricacion
 0:15420   D: 7694       0: 2441    Min.   :   1.71   Min.   :2010   
 1: 4300   S:12026       1:17279    1st Qu.:  51.95   1st Qu.:2010   
                                    Median :  81.95   Median :2011   
                                    Mean   : 106.88   Mean   :2012   
                                    3rd Qu.: 143.00   3rd Qu.:2013   
                                    Max.   :1095.99   Max.   :2016   
 CantidadVendida  MenorPrecioVenta  PrecioNetoProductor EnPromocion
 Min.   :  1.00   Min.   :   3.00   Min.   :   1.32     0: 2332    
 1st Qu.: 25.00   1st Qu.:  29.55   1st Qu.:  27.60     1:17388    
 Median : 39.00   Median :  48.80   Median :  42.98                
 Mean   : 49.93   Mean   :  62.89   Mean   :  55.84                
 3rd Qu.: 63.00   3rd Qu.:  83.99   3rd Qu.:  63.85                
 Max.   :851.00   Max.   :7781.01   Max.   :9828.14                
 PromoAgresiva RatioPrecioRegularCosto EsRentable
 0:12961       Min.   : 0.01047        0: 9141   
 1: 6759       1st Qu.: 1.32400        1:10579   
               Median : 1.73477                  
               Mean   : 2.81624                  
               3rd Qu.: 3.01383                  
               Max.   :68.98750

#Descarte de valores nulos: sobre la base de modelado
df_his<-na.omit(df_his)
summary(df_his)

 Vendido   TipoMarketing PrimeraVez PrecioRegular     AnioFabricacion
 0:15420   D: 7694       0: 2441    Min.   :   1.71   Min.   :2010   
 1: 4300   S:12026       1:17279    1st Qu.:  51.95   1st Qu.:2010   
                                    Median :  81.95   Median :2011   
                                    Mean   : 106.88   Mean   :2012   
                                    3rd Qu.: 143.00   3rd Qu.:2013   
                                    Max.   :1095.99   Max.   :2016   
 CantidadVendida  MenorPrecioVenta  PrecioNetoProductor EnPromocion
 Min.   :  1.00   Min.   :   3.00   Min.   :   1.32     0: 2332    
 1st Qu.: 25.00   1st Qu.:  29.55   1st Qu.:  27.60     1:17388    
 Median : 39.00   Median :  48.80   Median :  42.98                
 Mean   : 49.93   Mean   :  62.89   Mean   :  55.84                
 3rd Qu.: 63.00   3rd Qu.:  83.99   3rd Qu.:  63.85                
 Max.   :851.00   Max.   :7781.01   Max.   :9828.14                
 PromoAgresiva RatioPrecioRegularCosto EsRentable
 0:12961       Min.   : 0.01047        0: 9141   
 1: 6759       1st Qu.: 1.32400        1:10579   
               Median : 1.73477                  
               Mean   : 2.81624                  
               3rd Qu.: 3.01383                  
               Max.   :68.98750

# En este paso se aplica la regla empírica, la cual nos dice que el 99,7 % de los datos están entre 3 y -3 desviaciones estandar de la media
inv_train_his <- df_his %>%
  mutate(
    # Calcular los valores estandarizados para las nuevas variables numéricas
    z_RatioPrecioRegularCosto = (RatioPrecioRegularCosto - mean(RatioPrecioRegularCosto)) / sd(RatioPrecioRegularCosto),
    z_cantidadvendida = (CantidadVendida - mean(CantidadVendida)) / sd(CantidadVendida),
    z_menorprecioventa = (MenorPrecioVenta - mean(MenorPrecioVenta)) / sd(MenorPrecioVenta),
    z_precionetoproductor = (PrecioNetoProductor - mean(PrecioNetoProductor)) / sd(PrecioNetoProductor),
    z_precioregular = (PrecioRegular - mean(PrecioRegular )) / sd(PrecioRegular),
  )

    # Filtrar las filas donde los valores estandarizados están entre -3 y 3 para todas las nuevas variables numéricas
    inv_train_his<- inv_train_his %>%
    filter(
    between(z_RatioPrecioRegularCosto, -3, 3),
    between(z_cantidadvendida, -3, 3),
    between(z_menorprecioventa, -3, 3),
    between(z_precionetoproductor, -3, 3),
    between(z_precioregular, -3, 3)
  )

# Removemos las variables creadas que no deseamos
  inv_train_his<- inv_train_his %>%  select(-starts_with("z_"))

# Mostrar un resumen del dataframe limpio
summary(inv_train_his)

 Vendido   TipoMarketing PrimeraVez PrecioRegular    AnioFabricacion
 0:14832   D: 6922       0: 2320    Min.   :  1.71   Min.   :2010   
 1: 3873   S:11783       1:16385    1st Qu.: 50.00   1st Qu.:2010   
                                    Median : 79.95   Median :2011   
                                    Mean   :100.91   Mean   :2012   
                                    3rd Qu.:134.67   3rd Qu.:2013   
                                    Max.   :332.60   Max.   :2016   
 CantidadVendida  MenorPrecioVenta PrecioNetoProductor EnPromocion
 Min.   :  1.00   Min.   :  3.00   Min.   :  2.68      0: 2228    
 1st Qu.: 24.00   1st Qu.: 28.99   1st Qu.: 28.49      1:16477    
 Median : 38.00   Median : 47.37   Median : 43.44                 
 Mean   : 46.46   Mean   : 59.70   Mean   : 52.00                 
 3rd Qu.: 60.00   3rd Qu.: 80.88   3rd Qu.: 63.94                 
 Max.   :169.00   Max.   :300.00   Max.   :406.19                 
 PromoAgresiva RatioPrecioRegularCosto EsRentable
 0:12652       Min.   : 0.07002        0:8933    
 1: 6053       1st Qu.: 1.31585        1:9772    
               Median : 1.69807                  
               Mean   : 2.42642                  
               3rd Qu.: 2.77387                  
               Max.   :12.40572

#Separación de la muestras
inv_train<-sample_frac(inv_train_his,0.74) #selección aleatoria de la muestra de entrenamiento
inv_test<-setdiff(inv_train_his,inv_train) #toma la diferencia entre la muestra inicial y la muestra de entrenamiento
dim(inv_train)
dim(inv_test)

#Estimación del modelo 1A
modelo1A<-lm(CantidadVendida~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
MenorPrecioVenta+
PrecioNetoProductor+
EnPromocion+
PromoAgresiva+
RatioPrecioRegularCosto+
EsRentable,
data = inv_train)
summary(modelo1A)

Call:
lm(formula = CantidadVendida ~ Vendido + TipoMarketing + PrimeraVez + 
    PrecioRegular + AnioFabricacion + MenorPrecioVenta + PrecioNetoProductor + 
    EnPromocion + PromoAgresiva + RatioPrecioRegularCosto + EsRentable, 
    data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-78.581 -16.766  -4.833  11.694 127.357 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)              1.262e+03  3.329e+02   3.790 0.000151 ***
Vendido1                 1.676e+01  5.630e-01  29.771  < 2e-16 ***
TipoMarketingS          -1.468e+01  5.338e-01 -27.493  < 2e-16 ***
PrimeraVez1              8.233e+00  6.684e-01  12.317  < 2e-16 ***
PrecioRegular            4.050e-02  8.038e-03   5.038 4.75e-07 ***
AnioFabricacion         -6.044e-01  1.655e-01  -3.651 0.000262 ***
MenorPrecioVenta        -2.008e-02  9.236e-03  -2.174 0.029722 *  
PrecioNetoProductor     -1.828e-01  1.004e-02 -18.220  < 2e-16 ***
EnPromocion1             7.109e-01  8.626e-01   0.824 0.409896    
PromoAgresiva1           2.832e+00  7.473e-01   3.789 0.000152 ***
RatioPrecioRegularCosto  1.870e+00  1.814e-01  10.306  < 2e-16 ***
EsRentable1             -4.101e-01  5.984e-01  -0.685 0.493137    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 25.47 on 13830 degrees of freedom
Multiple R-squared:  0.2786,	Adjusted R-squared:  0.278 
F-statistic: 485.6 on 11 and 13830 DF,  p-value: < 2.2e-16

#Estimacion del modelo 1B
modelo1B<-lm(log(CantidadVendida)~
log(PrecioRegular)+
log(AnioFabricacion)+
log(MenorPrecioVenta)+
log(PrecioNetoProductor)
, data=inv_train)
summary(modelo1B)

Call:
lm(formula = log(CantidadVendida) ~ log(PrecioRegular) + log(AnioFabricacion) + 
    log(MenorPrecioVenta) + log(PrecioNetoProductor), data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.5520 -0.3960  0.0122  0.4059  1.9564 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)               7.720e+02  5.522e+01  13.980  < 2e-16 ***
log(PrecioRegular)        3.293e-01  9.615e-03  34.252  < 2e-16 ***
log(AnioFabricacion)     -1.010e+02  7.259e+00 -13.915  < 2e-16 ***
log(MenorPrecioVenta)     2.152e-02  7.228e-03   2.977  0.00292 ** 
log(PrecioNetoProductor) -4.068e-01  9.277e-03 -43.849  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5817 on 13837 degrees of freedom
Multiple R-squared:  0.1585,	Adjusted R-squared:  0.1583 
F-statistic: 651.7 on 4 and 13837 DF,  p-value: < 2.2e-16

#Estimación del modelo 1C
modelo1C<-lm(CantidadVendida~
log(PrecioRegular)+
log(AnioFabricacion)+
log(MenorPrecioVenta)+
log(PrecioNetoProductor)
,data=inv_train)
summary(modelo1C)

Call:
lm(formula = CantidadVendida ~ log(PrecioRegular) + log(AnioFabricacion) + 
    log(MenorPrecioVenta) + log(PrecioNetoProductor), data = inv_train)

Residuals:
   Min     1Q Median     3Q    Max 
-75.82 -18.43  -5.92  12.33 136.37 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)              26714.2362  2615.0997  10.215   <2e-16 ***
log(PrecioRegular)          14.8539     0.4553  32.623   <2e-16 ***
log(AnioFabricacion)     -3506.2831   343.7794 -10.199   <2e-16 ***
log(MenorPrecioVenta)        3.1204     0.3423   9.116   <2e-16 ***
log(PrecioNetoProductor)   -19.7731     0.4393 -45.007   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 27.55 on 13837 degrees of freedom
Multiple R-squared:  0.1557,	Adjusted R-squared:  0.1554 
F-statistic: 637.8 on 4 and 13837 DF,  p-value: < 2.2e-16

#Estimación del modelo 1D
modelo1D<-lm(log(CantidadVendida)~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
MenorPrecioVenta+
PrecioNetoProductor+
EnPromocion+
PromoAgresiva+
RatioPrecioRegularCosto+
EsRentable,
data = inv_train)
summary(modelo1D)

Call:
lm(formula = log(CantidadVendida) ~ Vendido + TipoMarketing + 
    PrimeraVez + PrecioRegular + AnioFabricacion + MenorPrecioVenta + 
    PrecioNetoProductor + EnPromocion + PromoAgresiva + RatioPrecioRegularCosto + 
    EsRentable, data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3401 -0.3606  0.0033  0.3701  1.7770 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)             66.3312417  7.0304793   9.435  < 2e-16 ***
Vendido1                 0.3375239  0.0118913  28.384  < 2e-16 ***
TipoMarketingS          -0.3025023  0.0112748 -26.830  < 2e-16 ***
PrimeraVez1              0.1867816  0.0141185  13.230  < 2e-16 ***
PrecioRegular            0.0012765  0.0001698   7.518 5.89e-14 ***
AnioFabricacion         -0.0311644  0.0034964  -8.913  < 2e-16 ***
MenorPrecioVenta        -0.0006253  0.0001951  -3.205  0.00135 ** 
PrecioNetoProductor     -0.0050577  0.0002120 -23.861  < 2e-16 ***
EnPromocion1             0.0914474  0.0182199   5.019 5.26e-07 ***
PromoAgresiva1           0.0755486  0.0157834   4.787 1.71e-06 ***
RatioPrecioRegularCosto  0.0176004  0.0038318   4.593 4.40e-06 ***
EsRentable1             -0.0279444  0.0126381  -2.211  0.02704 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5379 on 13830 degrees of freedom
Multiple R-squared:  0.2807,	Adjusted R-squared:  0.2802 
F-statistic: 490.7 on 11 and 13830 DF,  p-value: < 2.2e-16

#Estimación del modelo 1E
modelo1E<-lm(CantidadVendida~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
PrecioNetoProductor+
PromoAgresiva+
RatioPrecioRegularCosto,
data = inv_train)
summary(modelo1E)

Call:
lm(formula = CantidadVendida ~ Vendido + TipoMarketing + PrimeraVez + 
    PrecioRegular + AnioFabricacion + PrecioNetoProductor + PromoAgresiva + 
    RatioPrecioRegularCosto, data = inv_train)

Residuals:
   Min     1Q Median     3Q    Max 
-78.35 -16.73  -4.79  11.71 127.78 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)              1.196e+03  3.306e+02   3.617 0.000300 ***
Vendido1                 1.665e+01  5.624e-01  29.612  < 2e-16 ***
TipoMarketingS          -1.411e+01  5.123e-01 -27.549  < 2e-16 ***
PrimeraVez1              8.247e+00  6.674e-01  12.357  < 2e-16 ***
PrecioRegular            3.021e-02  6.537e-03   4.621 3.86e-06 ***
AnioFabricacion         -5.719e-01  1.644e-01  -3.479 0.000506 ***
PrecioNetoProductor     -1.851e-01  9.457e-03 -19.569  < 2e-16 ***
PromoAgresiva1           3.997e+00  6.567e-01   6.087 1.18e-09 ***
RatioPrecioRegularCosto  1.876e+00  1.796e-01  10.444  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 25.48 on 13833 degrees of freedom
Multiple R-squared:  0.2778,	Adjusted R-squared:  0.2774 
F-statistic: 665.1 on 8 and 13833 DF,  p-value: < 2.2e-16

#Estimación del modelo 1F
modelo1F<-lm(log(CantidadVendida)~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
PrecioNetoProductor+
PromoAgresiva+
RatioPrecioRegularCosto,
data = inv_train)
summary(modelo1F)

Call:
lm(formula = log(CantidadVendida) ~ Vendido + TipoMarketing + 
    PrimeraVez + PrecioRegular + AnioFabricacion + PrecioNetoProductor + 
    PromoAgresiva + RatioPrecioRegularCosto, data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3056 -0.3584  0.0103  0.3722  1.8284 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)             60.7522397  7.0074521   8.670  < 2e-16 ***
Vendido1                 0.3309556  0.0119200  27.765  < 2e-16 ***
TipoMarketingS          -0.2715040  0.0108581 -25.005  < 2e-16 ***
PrimeraVez1              0.1901321  0.0141447  13.442  < 2e-16 ***
PrecioRegular            0.0009819  0.0001385   7.087 1.43e-12 ***
AnioFabricacion         -0.0283809  0.0034841  -8.146 4.09e-16 ***
PrecioNetoProductor     -0.0050955  0.0002004 -25.424  < 2e-16 ***
PromoAgresiva1           0.1250589  0.0139180   8.985  < 2e-16 ***
RatioPrecioRegularCosto  0.0185747  0.0038072   4.879 1.08e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.54 on 13833 degrees of freedom
Multiple R-squared:  0.275,	Adjusted R-squared:  0.2746 
F-statistic: 655.9 on 8 and 13833 DF,  p-value: < 2.2e-16

#Estimación del modelo 1G
modelo1G<-lm(log(CantidadVendida)~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
MenorPrecioVenta+
PrecioNetoProductor+
EnPromocion+
PromoAgresiva+
RatioPrecioRegularCosto,
data = inv_train)
summary(modelo1G)

Call:
lm(formula = log(CantidadVendida) ~ Vendido + TipoMarketing + 
    PrimeraVez + PrecioRegular + AnioFabricacion + MenorPrecioVenta + 
    PrecioNetoProductor + EnPromocion + PromoAgresiva + RatioPrecioRegularCosto, 
    data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3285 -0.3604  0.0054  0.3686  1.7462 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)             66.7949345  7.0283389   9.504  < 2e-16 ***
Vendido1                 0.3370581  0.0118912  28.345  < 2e-16 ***
TipoMarketingS          -0.2990915  0.0111704 -26.775  < 2e-16 ***
PrimeraVez1              0.1877714  0.0141134  13.304  < 2e-16 ***
PrecioRegular            0.0012777  0.0001698   7.524 5.62e-14 ***
AnioFabricacion         -0.0314033  0.0034952  -8.985  < 2e-16 ***
MenorPrecioVenta        -0.0007963  0.0001791  -4.446 8.83e-06 ***
PrecioNetoProductor     -0.0049132  0.0002017 -24.363  < 2e-16 ***
EnPromocion1             0.0952983  0.0181390   5.254 1.51e-07 ***
PromoAgresiva1           0.0786152  0.0157246   5.000 5.82e-07 ***
RatioPrecioRegularCosto  0.0165893  0.0038049   4.360 1.31e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.538 on 13831 degrees of freedom
Multiple R-squared:  0.2805,	Adjusted R-squared:   0.28 
F-statistic: 539.1 on 10 and 13831 DF,  p-value: < 2.2e-16

#Estimación del modelo 1H
modelo1H<-lm(CantidadVendida~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
MenorPrecioVenta+
PrecioNetoProductor+
EnPromocion+
PromoAgresiva+
RatioPrecioRegularCosto,
data = inv_train)
summary(modelo1H)

Call:
lm(formula = CantidadVendida ~ Vendido + TipoMarketing + PrimeraVez + 
    PrecioRegular + AnioFabricacion + MenorPrecioVenta + PrecioNetoProductor + 
    EnPromocion + PromoAgresiva + RatioPrecioRegularCosto, data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-78.665 -16.777  -4.819  11.690 127.373 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)              1.268e+03  3.327e+02   3.813 0.000138 ***
Vendido1                 1.675e+01  5.629e-01  29.764  < 2e-16 ***
TipoMarketingS          -1.463e+01  5.288e-01 -27.660  < 2e-16 ***
PrimeraVez1              8.248e+00  6.681e-01  12.345  < 2e-16 ***
PrecioRegular            4.052e-02  8.038e-03   5.041 4.69e-07 ***
AnioFabricacion         -6.079e-01  1.655e-01  -3.674 0.000239 ***
MenorPrecioVenta        -2.259e-02  8.479e-03  -2.664 0.007730 ** 
PrecioNetoProductor     -1.807e-01  9.546e-03 -18.931  < 2e-16 ***
EnPromocion1             7.674e-01  8.587e-01   0.894 0.371486    
PromoAgresiva1           2.877e+00  7.444e-01   3.865 0.000112 ***
RatioPrecioRegularCosto  1.855e+00  1.801e-01  10.298  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 25.47 on 13831 degrees of freedom
Multiple R-squared:  0.2786,	Adjusted R-squared:  0.2781 
F-statistic: 534.1 on 10 and 13831 DF,  p-value: < 2.2e-16

#Estimación del modelo 1I
modelo1I<-lm(CantidadVendida~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
MenorPrecioVenta+
PrecioNetoProductor,
data = inv_train)
summary(modelo1I)

Call:
lm(formula = CantidadVendida ~ Vendido + TipoMarketing + PrimeraVez + 
    PrecioRegular + AnioFabricacion + MenorPrecioVenta + PrecioNetoProductor, 
    data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-64.733 -17.070  -5.019  11.839 126.826 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)          1.652e+03  3.299e+02   5.006 5.61e-07 ***
Vendido1             1.687e+01  5.645e-01  29.894  < 2e-16 ***
TipoMarketingS      -1.499e+01  5.286e-01 -28.349  < 2e-16 ***
PrimeraVez1          7.719e+00  6.678e-01  11.559  < 2e-16 ***
PrecioRegular        1.021e-01  4.338e-03  23.544  < 2e-16 ***
AnioFabricacion     -7.959e-01  1.641e-01  -4.852 1.24e-06 ***
MenorPrecioVenta    -4.041e-02  6.361e-03  -6.354 2.17e-10 ***
PrecioNetoProductor -2.471e-01  6.970e-03 -35.451  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 25.58 on 13834 degrees of freedom
Multiple R-squared:  0.2721,	Adjusted R-squared:  0.2717 
F-statistic: 738.6 on 7 and 13834 DF,  p-value: < 2.2e-16

#Estimación del modelo 1I
modelo1J<-lm(log(CantidadVendida)~
Vendido+
TipoMarketing+
PrimeraVez+
PrecioRegular+
AnioFabricacion+
MenorPrecioVenta+
PrecioNetoProductor,
data = inv_train)
summary(modelo1J)

Call:
lm(formula = log(CantidadVendida) ~ Vendido + TipoMarketing + 
    PrimeraVez + PrecioRegular + AnioFabricacion + MenorPrecioVenta + 
    PrecioNetoProductor, data = inv_train)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3308 -0.3613  0.0059  0.3719  1.8580 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)          6.777e+01  6.955e+00   9.744   <2e-16 ***
Vendido1             3.377e-01  1.190e-02  28.377   <2e-16 ***
TipoMarketingS      -2.998e-01  1.114e-02 -26.903   <2e-16 ***
PrimeraVez1          1.864e-01  1.408e-02  13.237   <2e-16 ***
PrecioRegular        2.433e-03  9.146e-05  26.597   <2e-16 ***
AnioFabricacion     -3.183e-02  3.459e-03  -9.204   <2e-16 ***
MenorPrecioVenta    -1.609e-03  1.341e-04 -11.997   <2e-16 ***
PrecioNetoProductor -5.496e-03  1.469e-04 -37.405   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5393 on 13834 degrees of freedom
Multiple R-squared:  0.2769,	Adjusted R-squared:  0.2765 
F-statistic: 756.8 on 7 and 13834 DF,  p-value: < 2.2e-16

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1A<-predict(modelo1A,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1A<-((inv_test$CantidadVendida-inv_test$pron_m1A)^2) #error cuadrático
mseaA<-mean(inv_test$esq1A) #promedio del error cuadrático
rmseaA<-sqrt(mseaA) #raíz cuadrada del error cuadrático medio
rmseaA

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1B<-predict(modelo1B,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1B<-((inv_test$CantidadVendida-inv_test$pron_m1B)^2) #error cuadrático
mseaB<-mean(inv_test$esq1B) #promedio del error cuadrático
rmseaB<-sqrt(mseaB) #raíz cuadrada del error cuadrático medio
rmseaB

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1C<-predict(modelo1C,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1C<-((inv_test$CantidadVendida-inv_test$pron_m1C)^2) #error cuadrático
mseaC<-mean(inv_test$esq1C) #promedio del error cuadrático
rmseaC<-sqrt(mseaC) #raíz cuadrada del error cuadrático medio
rmseaC

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1D<-predict(modelo1D,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1D<-((inv_test$CantidadVendida-inv_test$pron_m1D)^2) #error cuadrático
mseaD<-mean(inv_test$esq1D) #promedio del error cuadrático
rmseaD<-sqrt(mseaD) #raíz cuadrada del error cuadrático medio
rmseaD

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1E<-predict(modelo1E,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1E<-((inv_test$CantidadVendida-inv_test$pron_m1E)^2) #error cuadrático
mseaE<-mean(inv_test$esq1E) #promedio del error cuadrático
rmseaE<-sqrt(mseaE) #raíz cuadrada del error cuadrático medio
rmseaE

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1F<-predict(modelo1F,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1F<-((inv_test$CantidadVendida-inv_test$pron_m1F)^2) #error cuadrático
mseaF<-mean(inv_test$esq1F) #promedio del error cuadrático
rmseaF<-sqrt(mseaF) #raíz cuadrada del error cuadrático medio
rmseaF

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1G<-predict(modelo1G,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1G<-((inv_test$CantidadVendida-inv_test$pron_m1G)^2) #error cuadrático
mseaG<-mean(inv_test$esq1G) #promedio del error cuadrático
rmseaG<-sqrt(mseaG) #raíz cuadrada del error cuadrático medio
rmseaG

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1H<-predict(modelo1H,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1H<-((inv_test$CantidadVendida-inv_test$pron_m1H)^2) #error cuadrático
mseaH<-mean(inv_test$esq1H) #promedio del error cuadrático
rmseaH<-sqrt(mseaH) #raíz cuadrada del error cuadrático medio
rmseaH

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1I<-predict(modelo1I,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1I<-((inv_test$CantidadVendida-inv_test$pron_m1I)^2) #error cuadrático
mseaI<-mean(inv_test$esq1I) #promedio del error cuadrático
rmseaI<-sqrt(mseaI) #raíz cuadrada del error cuadrático medio
rmseaI

#Cálculo del RMSEA - Modelo 1A
#Paso 1: construir los pronósticos en la muestra de comprobación
inv_test$pron_m1J<-predict(modelo1J,newdata=inv_test)
#Paso 2: construcción del RMSEA
inv_test$esq1J<-((inv_test$CantidadVendida-inv_test$pron_m1J)^2) #error cuadrático
mseaJ<-mean(inv_test$esq1J) #promedio del error cuadrático
rmseaJ<-sqrt(mseaJ) #raíz cuadrada del error cuadrático medio
rmseaJ

Fase	Duración estimada	Responsable
Comprensión del negocio	1 día	Estudiante / Analista
Comprensión de los datos	1-2 días	Estudiante / Analista
Preparación de los datos	2-3 días	Estudiante / Analista
Modelado	2 días	Estudiante
Evaluación de los modelos	1 día	Estudiante
Comunicación de resultados	1 día	Estudiante

Variable	Tipo de Dato	Descripción	Valores/Ejemplo
`tipo_registro`	Factor	Tipo de registro del producto en el inventario.	`Historical`, `Active`
`SKU`	Entero	Código único de identificación del producto.	`1737127`, `3255963`
`Vendido`	Factor	Indica si el producto fue vendido.	`0` (No), `1` (Sí)
`TipoMarketing`	Factor	Tipo de estrategia de marketing aplicada al producto.	`D` (Directo por tienda), `S` (Fabricante)
`PrimeraVez`	Factor	Indica si el producto se vendió por primera vez en la tienda.	`0` (No), `1` (Sí)
`PrecioRegular`	Numérico	Precio regular de venta del producto (sin promociones).	`44.99`, `121.95`
`AnioFabricacion`	Entero	Año de fabricación del producto.	`2015`, `2010`
`CantidadVendida`	Entero	Número total de unidades vendidas del producto.	`8`, `39`
`MenorPrecioVenta`	Numérico	Menor precio promocional aplicado al producto.	`28.97`, `0.00`
`PrecioNetoProductor`	Numérico	Precio neto pagado al fabricante/proveedor por el producto.	`31.84`, `15.54`
`EnPromocion`	Factor	Indica si el producto está en promoción.	`0` (No), `1` (Sí)
`PromoAgresiva`	Factor	Indica si la promoción tiene un descuento mayor a 50 unidades monetarias.	`0` (No), `1` (Sí)
`RatioPrecioRegularCosto`	Numérico	Relación entre el precio regular y el costo del productor.	`1.74`, `3.35`
`EsRentable`	Factor	Indica si el producto genera utilidad (precio de venta > costo del productor).	`0` (No), `1` (Sí)

	X	tipo_registro	SKU	Vendido	TipoMarketing	PrimeraVez	PrecioRegular	AnioFabricacion	CantidadVendida	MenorPrecioVenta	PrecioNetoProductor
	<int>	<chr>	<int>	<int>	<chr>	<int>	<dbl>	<int>	<int>	<dbl>	<dbl>
1	1	Historical	1737127	0	D	1	44.99	2015	8	28.97	31.84
2	2	Historical	3255963	0	D	1	24.81	2005	39	0.00	15.54
3	3	Historical	612701	0	D	0	46.00	2013	34	30.19	27.97
4	4	Historical	115883	1	D	1	100.00	2006	20	133.93	83.15
5	5	Historical	863939	1	D	1	121.95	2010	28	4.00	23.99
6	6	Historical	214948	0	D	0	132.00	2011	33	138.98	13.64

Modelo	R²	Número de variables	RMSEA
A	0.2786	11	25.8921
B	0.1585	4	51.9940
C	0.1557	4	27.7431
D	0.2807	11	51.9500
E	0.2778	8	25.8901
F	0.2750	8	51.9573
G	0.2805	10	51.9558
H	0.2786	10	25.8887
I	0.2721	7	25.9127
J	0.2769	7	51.9576

WORKSHOP #1 DEVELOPMENT - ANALÍTICA DE NEGOCIOS II - INVENTORY OPTIMIZATION AT LIDL¶

Phase 1: Business Understanding 📈¶

From shelves to data: optimización de inventarios de Lidl¶

1. Business context¶

2. Objetivos comerciales¶

3. Criterios de rendimiento comercial¶

4. Evaluación de situación actual¶

5. Requisitos, supuestos y restricciones¶

6. Análisis costo/beneficio¶

7. Objetivos de Data Mining¶

8. Criterios de rendimiento de los modelos¶

9. Plan del proyecto¶

Fase 2. Comprension de los datos 📊¶

1. Recolección inicial de los datos¶

2. Descripción de los datos¶

3. Exploración de los datos¶

4. Verificación de la calidad de los datos¶

Fase 3: Preparación de los datos ⬆️¶

Cargue de datos¶

Tipologia de las variables¶

Selección de los datos¶

Depuración de los datos¶

Transformación de las variables¶

Separación de las muestras¶

Fase 4: Modelado 🧠¶

Modelo A¶

Identificación del modelo A¶

Estimación del modelo A¶

Diagnóstico del modelo A¶

Modelo B¶

Identificación del modelo B¶

Estimación del modelo B¶

Diagnóstico del modelo B¶

Modelo C¶

Identificación del modelo C¶

Estimación del modelo C¶

Diagnóstico del modelo C¶

Modelo D¶

Identificación del modelo D¶

Estimación del modelo D¶

Diagnóstico del modelo D¶

Modelo E¶

Identificación del modelo E¶

Estimación del modelo E¶

Diagnóstico del modelo E¶

Modelo F¶

Identificación del modelo F¶

Estimación del modelo F¶

Diagnóstico del modelo F¶

Modelo G¶

Identificación del modelo G¶

Estimación del modelo G¶

Diagnóstico del modelo G¶

Modelo H¶

Identificación del modelo H¶

Estimación del modelo H¶

Diagnóstico del modelo H¶

Modelo I¶

Identificación del modelo I¶

Estimación del modelo I¶

Diagnóstico del modelo I¶

Modelo J¶

Identificación del modelo J¶

Estimación del modelo J¶

Diagnóstico del modelo J¶

Fase 5: Evaluación 📝¶

RMSEA MODELO A¶

RMSEA MODELO B¶

RMSEA MODELO C¶

RMSEA MODELO D¶

RMSEA MODELO E¶

RMSEA MODELO F¶

RMSEA MODELO G¶

RMSEA MODELO H¶

RMSEA MODELO I¶

RMSEA MODELO J¶

Conclusión técnica de los modelos¶

Fase 6: Distribución 🚛¶

Planeación de la distribución¶

Creación de medios de distribución¶