Normalidad

Esta función ejecuta el análisis de normalidad para variables métricas, un requisito procedimental crítico para determinar si es posible aplicar pruebas estadísticas paramétricas (como el ANOVA o la correlación de Pearson). El algoritmo evalúa tanto la distribución individual de cada variable como el comportamiento del conjunto de datos en un espacio multivariante.

📊 Estructura de resultados y salida

El reporte integra contrastes de hipótesis y herramientas de diagnóstico visual para validar el ajuste de los datos a la curva normal.

1. Diagnóstico univariante

  • Prueba de Shapiro-Wilk: Aplicada de forma automática para muestras inferiores a 5000 registros; es el test más potente para detectar desviaciones de la normalidad en muestras pequeñas y medianas.
  • Prueba de Lilliefors (Kolmogorov-Smirnov): Utilizada como alternativa para validar la normalidad mediante la comparación de la función de distribución empírica de la muestra con la normal.
  • Significación (p-value): Indica la probabilidad de que los datos provengan de una población normal. Un valor \(p > 0.05\) sugiere que los datos se ajustan a la normalidad, mientras que \(p < 0.05\) confirma una desviación significativa.
  • Diagnóstico automático: Basado en el nivel de significación (\(\alpha\)) definido, el sistema etiqueta cada variable como “Normal” o “No Normal”.

2. Diagnóstico multivariante

  • Test de Henze-Zirkler: Evalúa si el conjunto de variables seleccionadas, consideradas globalmente, siguen una distribución normal multivariante.
  • Estadístico de prueba: Medida de la distancia entre la distribución observada y la teórica normal multivariante.
  • Resultado de contraste: Determina si la combinación de variables es apta para análisis multivariantes complejos (como el análisis discriminante o modelos de ecuaciones estructurales).

3. Herramientas de diagnóstico visual

  • Gráfico de densidad: Superpone la curva de densidad real de los datos con la curva normal teórica (en color diferenciado), permitiendo observar visualmente sesgos o excesos de curtosis.
  • Gráfico Q-Q (Quantile-Quantile): Representa los cuantiles de la muestra frente a los cuantiles de la normal. Los puntos deben alinearse sobre la diagonal; cualquier curvatura o alejamiento sistemático de la línea indica falta de normalidad.
  • Gráfico de Chi-cuadrado (Multivariante): En el análisis conjunto, muestra la alineación de las distancias de Mahalanobis. Una distribución normal multivariante perfecta mostraría todos los casos sobre una línea recta con pendiente unidad.

💡 Notas

  • Segmentación: Si se define una variable de grupo, la normalidad se calcula de forma independiente para cada subsegmento, ya que la normalidad suele ser un requisito por grupo de contraste.
  • Sensibilidad al tamaño muestral: En muestras muy grandes, los tests de hipótesis tienden a rechazar la normalidad ante desviaciones mínimas sin relevancia práctica. En estos casos, el analista debe priorizar la inspección de los gráficos Q-Q.
  • Tratamiento de missings: La función realiza una limpieza de valores perdidos (listwise deletion) para asegurar la integridad de los cálculos multivariantes.