Regresión Logística Binaria

La Regresión Logística Binaria es una técnica multivariante diseñada para predecir la probabilidad de que ocurra un evento dicotómico (ej. “Compra” vs. “No Compra”, “Fuga” vs. “Retención”) a partir de un conjunto de variables predictoras métricas o categóricas.

A diferencia de la regresión lineal MCO, que predice valores continuos y asume normalidad en los residuos, la regresión logística utiliza el método de Estimación por Máxima Verosimilitud y la función logit para proyectar los resultados en una curva en forma de “S”, garantizando que las probabilidades predichas siempre se mantengan entre 0 y 1.

📋 Requerimientos y preparación de datos (inputs)

Para asegurar un correcto cálculo de las probabilidades de ocurrencia mediante la estimación por Máxima Verosimilitud, el usuario debe considerar los siguientes criterios al estructurar sus datos:

Variable Dependiente (dep_var): Debe ser una variable dicotómica (exactamente dos niveles). El motor de BarbWin 8 incluye un blindaje inteligente al estilo de SPSS: no es estrictamente necesario que los datos estén codificados como 0 y 1. El algoritmo evalúa matemáticamente los valores, asignando internamente el valor 1 (el “Evento” a predecir) al código numérico más alto, y un 0 (“No Evento”) al otro valor presente.
Variables Independientes (indep_vars): Pueden ser de naturaleza métrica (continuas) o dicotómicas. Si el modelo requiere evaluar el impacto de una variable categórica polinómica (nominal u ordinal con tres o más categorías), el usuario debe recodificarla previamente creando un bloque de variables indicadoras o dummies.
Identificador de Caso (id_var): Parámetro de uso obligatorio para garantizar la trazabilidad analítica. Permite vincular de forma inequívoca a cada individuo de la base de datos con su grupo de clasificación final y su probabilidad exacta calculada (propensity score) en el archivo de salida JSON.
Ponderación (weight_var): Si se declara, el motor expande y ajusta la influencia de cada caso dentro de la función de verosimilitud para que los resultados reflejen con precisión las proporciones y pesos del universo poblacional.
Valores Perdidos (Missings): La función aplica una exclusión estricta por lista (Listwise deletion). Cualquier sujeto que presente un valor perdido (NA) en la variable dependiente, en cualquiera de las independientes o en el factor de ponderación, será descartado de la matriz analítica antes de iniciar las iteraciones.

📊 Estructura de resultados y salida

El bloque analítico guía al usuario desde la descripción del evento a predecir hasta la evaluación del poder discriminante del modelo.

Análisis de la variable dependiente

Para que el modelo funcione correctamente, BarbWin 8 procesa internamente la variable dependiente transformándola a 0 y 1, asumiendo automáticamente que el valor numérico más alto representa el “Evento” (Categoría 1).

Balance de Clases (Frecuencias): Se presenta un gráfico de barras mostrando la proporción de 0s y 1s reales en la muestra. Es un diagnóstico vital: si los grupos están extremadamente desbalanceados (ej. 98% vs. 2%), el algoritmo de clasificación tenderá a sobrepredecir la categoría mayoritaria.

Resumen del modelo e historial de pasos

Esta tabla evalúa la bondad de ajuste del modelo global. Si se utiliza un método de selección automática (como Stepwise o Backward), la tabla detallará cada “paso” o modelo intermedio, listando de forma transparente qué variables específicas han sido incluidas en cada fase.

-2 Log Verosimilitud (-2LL): Es una medida de la “maldad” del ajuste (error). Cuanto menor sea el valor, mejor ajusta el modelo a los datos empíricos.
R cuadrado de Cox y Snell: Un pseudo R-cuadrado que intenta emular la interpretación de la regresión lineal. Su limitación geométrica es que nunca puede alcanzar el valor teórico de 1.
R cuadrado de Nagelkerke: Es la versión ajustada de Cox y Snell, reescalada matemáticamente para que su rango oscile entre 0 y 1. Es el indicador de referencia (equivalente al \(R^2\) lineal) para evaluar qué porcentaje de la varianza del evento es explicada por los predictores.

Tabla de clasificación (Matriz de confusión)

Mide la eficacia práctica del modelo a la hora de tomar decisiones. El algoritmo calcula la probabilidad de cada caso y lo clasifica utilizando un punto de corte (por defecto, 0.5).

Si la probabilidad es \(\ge 0.5\), se clasifica como 1 (Evento). Si es \(< 0.5\), se clasifica como 0.
La Diagonal (Aciertos): Muestra los Verdaderos Positivos y Verdaderos Negativos.
% Correcto Global: Porcentaje total de casos clasificados correctamente. Para que el modelo tenga utilidad práctica, este valor debe superar holgadamente la probabilidad de acierto por puro azar.

Variables en la Ecuación (Coeficientes)

Desglosa el peso matemático y estadístico de las variables predictoras que han sobrevivido al modelo final.

B: Coeficiente logístico (log-odds). Indica el cambio en el logaritmo de la razón de ventajas por cada unidad de incremento en la independiente.
Wald: Estadístico de contraste utilizado para evaluar la significación individual de cada coeficiente (es el cuadrado del valor Z).
Sig. (p-valor): Si es < 0.05, la variable aporta capacidad predictiva significativa al modelo.
Exp(B) (Odds Ratio / Razón de Ventajas): Es la métrica más importante para la interpretación de negocio.
- Si Exp(B) > 1: La variable aumenta la probabilidad del evento (ej. un valor de 1.50 significa que las probabilidades aumentan un 50% por cada punto extra en el predictor).
- Si Exp(B) < 1: La variable actúa como factor de protección o freno, reduciendo la probabilidad del evento.
- Si Exp(B) = 1: La variable no tiene efecto.

💡 Notas técnicas

La logística no requiere normalidad, por lo que el análisis de residuos tradicional se sustituye por métricas de probabilidad y devianza.

Gráfico de Densidad de Probabilidades: Muestra dos curvas superpuestas (los casos que realmente fueron 0 vs. los que fueron 1) distribuidas a lo largo del eje X (probabilidad del 0% al 100%). Un modelo perfecto mostraría dos “montañas” completamente separadas a izquierda y derecha de la línea roja del punto de corte.
Identificación de Casos Atípicos (Outliers): La tabla aísla aquellos sujetos cuyo Residuo de Devianza supera el umbral crítico (generalmente > 3). Son casos en los que el modelo estaba estadísticamente “muy seguro” de una predicción que finalmente resultó ser completamente errónea (ej. predijo un 99% de probabilidad de compra, pero el cliente no compró).