Outliers
Esta función ejecuta protocolos de detección de casos anómalos o extremos que pueden distorsionar los resultados de los análisis estadísticos posteriores. El algoritmo permite un diagnóstico desde dos perspectivas: la desviación individual de cada variable o la inconsistencia del caso en un espacio multivariante.
📊 Estructura de resultados y salida
El reporte identifica los registros que exceden los umbrales críticos de probabilidad o distancia, organizados por grupos de población si se ha definido una segmentación.
1. Diagnóstico univariante (Z-Score)
- Dato Z-Score: Transforma el valor original en unidades de desviación típica. Un valor superior al umbral establecido (habitualmente ±3 SD) identifica un caso extremo en esa variable específica.
- Identificación de registros: El sistema reporta el identificador del caso y el valor exacto que ha provocado la alerta para facilitar su inspección manual.
2. Diagnóstico multivariante (Distancia de Mahalanobis)
- Distancia D2: Mide la distancia de cada caso respecto al centroide (promedio) de todas las variables analizadas simultáneamente. Detecta casos que, sin ser extremos en una sola variable, presentan una combinación de valores altamente improbable.
- Probabilidad (p-value): Indica la probabilidad estadística de pertenencia del caso a la distribución conjunta. Valores inferiores a 0.001 suelen considerarse outliers multivariantes significativos.
3. Índices de influencia (Cook’s D)
- Distancia de Cook: Evalúa el efecto que tendría eliminar ese registro sobre el modelo estadístico. Un valor elevado (típicamente > 1) advierte de un caso con excesivo peso en la determinación de los resultados finales.
- Flag de influencia: Marcador visual que destaca aquellos registros que cumplen simultáneamente la condición de ser atípicos y tener una alta capacidad de distorsión.
4. Representación gráfica
- Diagramas de caja y dispersión: Visualización de la distribución donde los casos anómalos se resaltan en color diferenciado y se etiquetan con su identificador para una rápida localización.
- Gráfico de secuencia de distancias: En el análisis multivariante, muestra la evolución de la distancia Mahalanobis frente al umbral crítico definido por la distribución Chi-cuadrado.
💡 Notas
- Criterio de exclusión: La detección de un outlier no implica su eliminación automática; el analista debe determinar si se trata de un error de grabación o de un caso real pero extremo que requiere un tratamiento específico (como la winsorización o el uso de estadística robusta).
- Requisito de datos: El método multivariante requiere que no existan valores perdidos en el set de variables seleccionadas para el caso analizado, procediendo a su omisión en caso contrario.
- Identificación única: Si el analista proporciona una variable de identidad, el reporte utilizará dichos códigos; de lo contrario, empleará el número de fila del registro en el conjunto de datos original.