Normalidad

Esta función ejecuta el análisis de normalidad para variables métricas, un requisito procedimental crítico para determinar si es posible aplicar pruebas estadísticas paramétricas (como el ANOVA o la correlación de Pearson). El algoritmo evalúa tanto la distribución individual de cada variable como el comportamiento del conjunto de datos en un espacio multivariante.

📊 Estructura de resultados y salida

El reporte integra contrastes de hipótesis y herramientas de diagnóstico visual para validar el ajuste de los datos a la curva normal.

1. Diagnóstico univariante

Prueba de Shapiro-Wilk: Aplicada de forma automática para muestras inferiores a 5000 registros; es el test más potente para detectar desviaciones de la normalidad en muestras pequeñas y medianas.
Prueba de Lilliefors (Kolmogorov-Smirnov): Utilizada como alternativa para validar la normalidad mediante la comparación de la función de distribución empírica de la muestra con la normal.
Significación (p-value): Indica la probabilidad de que los datos provengan de una población normal. Un valor \(p > 0.05\) sugiere que los datos se ajustan a la normalidad, mientras que \(p < 0.05\) confirma una desviación significativa.
Diagnóstico automático: Basado en el nivel de significación (\(\alpha\)) definido, el sistema etiqueta cada variable como “Normal” o “No Normal”.

2. Diagnóstico multivariante

Test de Henze-Zirkler: Evalúa si el conjunto de variables seleccionadas, consideradas globalmente, siguen una distribución normal multivariante.
Estadístico de prueba: Medida de la distancia entre la distribución observada y la teórica normal multivariante.
Resultado de contraste: Determina si la combinación de variables es apta para análisis multivariantes complejos (como el análisis discriminante o modelos de ecuaciones estructurales).

3. Herramientas de diagnóstico visual

Gráfico de densidad: Superpone la curva de densidad real de los datos con la curva normal teórica (en color diferenciado), permitiendo observar visualmente sesgos o excesos de curtosis.
Gráfico Q-Q (Quantile-Quantile): Representa los cuantiles de la muestra frente a los cuantiles de la normal. Los puntos deben alinearse sobre la diagonal; cualquier curvatura o alejamiento sistemático de la línea indica falta de normalidad.
Gráfico de Chi-cuadrado (Multivariante): En el análisis conjunto, muestra la alineación de las distancias de Mahalanobis. Una distribución normal multivariante perfecta mostraría todos los casos sobre una línea recta con pendiente unidad.

💡 Notas

Segmentación: Si se define una variable de grupo, la normalidad se calcula de forma independiente para cada subsegmento, ya que la normalidad suele ser un requisito por grupo de contraste.
Sensibilidad al tamaño muestral: En muestras muy grandes, los tests de hipótesis tienden a rechazar la normalidad ante desviaciones mínimas sin relevancia práctica. En estos casos, el analista debe priorizar la inspección de los gráficos Q-Q.
Tratamiento de missings: La función realiza una limpieza de valores perdidos (listwise deletion) para asegurar la integridad de los cálculos multivariantes.