Análisis de varianza
Esta función ejecuta el análisis de la varianza (ANOVA) para determinar si existen diferencias estadísticamente significativas entre las medias de diversos grupos. El algoritmo permite evaluar el impacto de uno o varios factores (variables independientes) sobre una variable métrica (dependiente), incluyendo la detección de efectos de interacción.
📊 Estructura de resultados y salida
El reporte desglosa la variabilidad de los datos en fuentes explicadas y no explicadas, proporcionando pruebas de contraste y diagnósticos de diferencias específicas.
1. Tabla de anova (Tipo III)
- Fuente (Source): Identifica el factor o la combinación de factores (interacción) que se está evaluando.
- Suma de cuadrados (Suma Sq): Cuantifica la cantidad de variabilidad total atribuible a cada factor. El modelo utiliza el Tipo III para asegurar que el orden de entrada de los factores no altere el resultado.
- Estadístico F (F-value): Cociente entre la varianza explicada por el factor y la varianza residual. Valores altos indican que el factor tiene un efecto real sobre la variable dependiente.
- Significación (p-value): Probabilidad de que las diferencias de medias observadas sean fruto del azar. Si \(p < 0.05\), se concluye que el factor tiene un efecto significativo.
- Grados de libertad (Df): Parámetro basado en el número de categorías del factor y el tamaño de la muestra, utilizado para el cálculo del estadístico.
2. Pruebas post-hoc (Tukey HSD)
- Comparación: Desglosa el análisis par a par entre todas las categorías del factor.
- Diferencia (Dif): Valor absoluto de la distancia entre las medias de los dos grupos comparados.
- Intervalos de confianza (Inf/Sup): Rango de estimación para la diferencia de medias. Si el intervalo incluye el valor 0, la diferencia no es significativa.
- p-adj: Nivel de significación corregido para comparaciones múltiples. Permite identificar exactamente qué grupos son diferentes entre sí tras haber hallado un resultado significativo en el ANOVA global.
3. Diagnóstico gráfico
- Gráfico de cajas (Boxplot): Para modelos de un solo factor, muestra la dispersión, la mediana y la media (marcada como diamante) de cada grupo, facilitando la inspección visual de las diferencias.
- Gráfico de interacción: Para modelos de dos o más factores, representa las líneas de las medias de cada grupo. Si las líneas se cruzan o no son paralelas, indica la existencia de un efecto de interacción (el efecto de un factor depende del nivel del otro).
💡 Notas
- Requisitos del modelo: El ANOVA asume normalidad en los residuos y homocedasticidad (igualdad de varianzas). El sistema utiliza internamente ponderaciones si se ha definido una variable de peso, ajustando las sumas de cuadrados al diseño muestral.
- Interacciones no estimables: Si el diseño presenta celdas vacías (combinaciones de factores sin datos), el motor cambia automáticamente a un modelo de efectos principales para garantizar la obtención de resultados válidos.
- Segmentación (Banners): Si se aplica una segmentación externa, el análisis de varianza completo se replica para cada subpoblación, permitiendo comparar si los factores actúan de igual forma en distintos segmentos.