Normalidad
Esta función ejecuta el análisis de normalidad para variables métricas, un requisito procedimental crítico para determinar si es posible aplicar pruebas estadísticas paramétricas (como el ANOVA o la correlación de Pearson). El algoritmo evalúa tanto la distribución individual de cada variable como el comportamiento del conjunto de datos en un espacio multivariante.
📊 Estructura de resultados y salida
El reporte integra contrastes de hipótesis y herramientas de diagnóstico visual para validar el ajuste de los datos a la curva normal.
1. Diagnóstico univariante
- Prueba de Shapiro-Wilk: Aplicada de forma automática para muestras inferiores a 5000 registros; es el test más potente para detectar desviaciones de la normalidad en muestras pequeñas y medianas.
- Prueba de Lilliefors (Kolmogorov-Smirnov): Utilizada como alternativa para validar la normalidad mediante la comparación de la función de distribución empírica de la muestra con la normal.
- Significación (p-value): Indica la probabilidad de que los datos provengan de una población normal. Un valor \(p > 0.05\) sugiere que los datos se ajustan a la normalidad, mientras que \(p < 0.05\) confirma una desviación significativa.
- Diagnóstico automático: Basado en el nivel de significación (\(\alpha\)) definido, el sistema etiqueta cada variable como “Normal” o “No Normal”.
2. Diagnóstico multivariante
- Test de Henze-Zirkler: Evalúa si el conjunto de variables seleccionadas, consideradas globalmente, siguen una distribución normal multivariante.
- Estadístico de prueba: Medida de la distancia entre la distribución observada y la teórica normal multivariante.
- Resultado de contraste: Determina si la combinación de variables es apta para análisis multivariantes complejos (como el análisis discriminante o modelos de ecuaciones estructurales).
3. Herramientas de diagnóstico visual
- Gráfico de densidad: Superpone la curva de densidad real de los datos con la curva normal teórica (en color diferenciado), permitiendo observar visualmente sesgos o excesos de curtosis.
- Gráfico Q-Q (Quantile-Quantile): Representa los cuantiles de la muestra frente a los cuantiles de la normal. Los puntos deben alinearse sobre la diagonal; cualquier curvatura o alejamiento sistemático de la línea indica falta de normalidad.
- Gráfico de Chi-cuadrado (Multivariante): En el análisis conjunto, muestra la alineación de las distancias de Mahalanobis. Una distribución normal multivariante perfecta mostraría todos los casos sobre una línea recta con pendiente unidad.
💡 Notas
- Segmentación: Si se define una variable de grupo, la normalidad se calcula de forma independiente para cada subsegmento, ya que la normalidad suele ser un requisito por grupo de contraste.
- Sensibilidad al tamaño muestral: En muestras muy grandes, los tests de hipótesis tienden a rechazar la normalidad ante desviaciones mínimas sin relevancia práctica. En estos casos, el analista debe priorizar la inspección de los gráficos Q-Q.
- Tratamiento de missings: La función realiza una limpieza de valores perdidos (listwise deletion) para asegurar la integridad de los cálculos multivariantes.