Regresión Lineal MCO
La Regresión Lineal por Mínimos Cuadrados Ordinarios (MCO) en BarbWin 8 permite modelar la relación entre una variable dependiente cuantitativa y uno o varios predictores. Este motor ha sido diseñado para replicar la salida de SPSS, añadiendo diagnósticos visuales avanzados para garantizar el rigor del modelo.
📋 Requerimientos y preparación de datos (inputs)
Para garantizar la validez de las estimaciones y cumplir con los supuestos matemáticos del modelo lineal (Mínimos Cuadrados Ordinarios), es fundamental estructurar los datos de la siguiente manera:
- Variable Dependiente (
dep_var): Debe ser estrictamente una variable métrica (continua o de escala). Si su distribución original presenta una asimetría muy acusada, se recomienda realizar una transformación matemática previa (ej. logarítmica) antes de introducirla al motor. - Variables Independientes (
indep_vars): Deben ser métricas (continuas) o dicotómicas (codificadas idealmente como 0 y 1). Si se desea evaluar el impacto de una variable categórica (nominal u ordinal) de más de dos niveles, el usuario debe recodificarla previamente en un bloque de variables dummy o indicadoras. - Identificador de Caso (
id_var): Es un parámetro obligatorio para la trazabilidad. Permite que la función vincule de forma exacta a cada individuo con su valor predicho y su diagnóstico de error (residuo) en el archivo de exportación JSON. - Ponderación (
weight_var): En caso de especificarse, el algoritmo pasa automáticamente a estimar el modelo mediante Mínimos Cuadrados Ponderados (WLS), otorgando mayor capacidad de atracción sobre la recta de regresión a aquellos casos con mayor peso. - Valores Perdidos (Missings): El motor aplica una eliminación estricta por lista (Listwise deletion). Cualquier sujeto que presente un valor nulo (
NA) en la variable dependiente o en alguna de las independientes será excluido temporalmente de la matriz de cálculo para evitar distorsiones en la matriz de varianzas y covarianzas.
📊 Estructura de resultados y salida
Análisis de la variable dependiente
Antes de evaluar el modelo, BarbWin 8 presenta la distribución de la variable dependiente (\(Y\)).
- Histograma con Curva Normal: Permite verificar visualmente si \(Y\) sigue una distribución normal. Desviaciones fuertes (asimetría o curtosis) pueden sugerir la necesidad de transformaciones logarítmicas.
- Gráfico Q-Q Plot: Los puntos deben alinearse sobre la diagonal roja. Si los puntos se separan en los extremos, existen valores atípicos que podrían sesgar los resultados.
Resumen del modelo
Esta tabla evalúa la calidad global del ajuste:
| Estadístico | Descripción |
|---|---|
| R | Coeficiente de correlación múltiple. Mide la fuerza de la relación lineal. |
| R cuadrado | Proporción de la varianza de la dependiente explicada por el modelo (0 a 1). |
| Error típ. estima | Desviación media de los residuos. Cuanto menor sea, más precisas son las predicciones. |
| Durbin-Watson | Evalúa la independencia de los errores. Valores cercanos a 2.0 indican ausencia de autocorrelación. |
Coeficientes e impacto
En la tabla de coeficientes, se analiza el peso individual de cada variable independiente que ha superado el proceso de selección (Stepwise/Enter).
- B (No estandarizado): Indica cuánto cambia \(Y\) por cada unidad que aumenta la independiente.
- Beta (Estandarizado): Permite comparar la importancia relativa de variables con distintas escalas. La variable con el Beta absoluto más alto es la que más “empuja” el modelo.
- Sig. (p-valor): Si es < 0.05, la variable es estadísticamente significativa.
- VIF / Tolerancia: Diagnóstico de multicolinealidad. Un VIF > 10 (o Tolerancia < 0.10) indica que la variable está redundante con otras y debe ser revisada.
Diagnóstico de residuos y outliers
Un modelo riguroso debe cumplir el supuesto de homocedasticidad y normalidad de los errores.
- Detección de Outliers: BarbWin 8 identifica automáticamente los casos cuyo Residuo Estandarizado supera el umbral crítico (generalmente 3 desviaciones típicas). Estos casos “mal explicados” deben ser investigados individualmente.
- Análisis Gráfico de Independientes: Se presentan Histogramas y Q-Q Plots para cada predictor final. Esto ayuda a identificar si una variable específica está introduciendo ruido o no linealidad en el sistema.
Recomendaciones
- Si existen outliers ilegítimos, sería conveniente eliminarlo. Analizar detenidamente los casos reportados.
- Si el Durbin-Watson es inferior a 1 o superior a 3, desconfíe de la significación de los coeficientes.
- En modelos Stepwise, observa cómo el R cuadrado aumenta en cada “Modelo X” de la tabla resumen para entender el aporte marginal de cada nueva variable.