Análisis de Clúster No Jerárquico (K-Medias y K-Medoids)

El Análisis de Clúster No Jerárquico es una técnica de clasificación iterativa diseñada para particionar una muestra de datos en un número específico (\(K\)) de segmentos. A diferencia del enfoque jerárquico, esta técnica requiere que el investigador indique de antemano el número de grupos a formar. Es el estándar de la industria para segmentar bases de datos masivas gracias a su bajo coste computacional y a su capacidad para reasignar sujetos iterativamente hasta optimizar la solución (Kaufman and Rousseeuw 1990).

Barbwin 8 implementa tanto el algoritmo clásico de K-Medias como su alternativa robusta K-Medoids (PAM).

📊 Estructura de resultados y salida

El reporte se centra en el perfilado de los segmentos finales y la validación de sus diferencias.

1. Perfilado de los segmentos

Centros de clústeres iniciales: Posición geométrica desde la que arranca el algoritmo. Puede ser aleatoria o estar definida por un archivo de perfiles teóricos inyectados por el usuario.
Centros de clústeres finales (Centroides / Medoides): Representa el valor promedio (o el caso central real, en PAM) de cada variable para cada segmento tras finalizar todas las iteraciones. Es la tabla fundamental para “bautizar” y comprender qué caracteriza a cada clúster.
Distancias entre centros: Matriz que indica qué tan separados están los grupos finales en el espacio multidimensional. Clústeres con distancias cruzadas muy cortas podrían ser fusionables por falta de diferenciación.

2. Validación y distribución

Tabla ANOVA: Evalúa la capacidad discriminante de cada variable original en la formación de los grupos. Ayuda a identificar qué variables han tenido más “peso” en la separación geométrica.
Número de casos en cada clúster: Muestra el tamaño de cada segmento (las frecuencias absolutas). Clústeres con muy pocos casos frente al resto (segmentos residuales) sugieren que se ha elegido un \(K\) demasiado alto o que existen outliers capturando su propio clúster.
Mapa espacial (Proyección PCA): Gráfico de dispersión bidimensional que proyecta los clústeres finales y dibuja elipses de confianza al 95%. Permite verificar visualmente de un vistazo si existen solapamientos severos entre los segmentos en sus componentes principales.

💡 Notas

K-Medias vs. K-Medoids (PAM): Mientras que K-Medias calcula promedios matemáticos (que pueden no coincidir con ningún encuestado real y son sensibles a valores extremos), el algoritmo PAM fuerza a que el centro de cada clúster sea siempre un individuo real de la base de datos, aportando una robustez extrema frente a casos atípicos.
Metodología Mixta: La mejor práctica analítica consiste en ejecutar primero un Clúster Jerárquico en una submuestra para descubrir el número óptimo de grupos y extraer sus perfiles en un archivo. Posteriormente, se inyecta dicho archivo en este análisis No Jerárquico para que actúe como “semilla” inicial, garantizando una segmentación masiva perfecta y estable.
Estandarización: Al igual que en todos los métodos basados en distancia euclídea, es imprescindible estandarizar las variables si estas presentan unidades de medida o rangos muy dispares.
Interpretación del ANOVA: Los estadísticos \(F\) y sus niveles de significación en la tabla ANOVA son puramente descriptivos. Dado que los algoritmos de clúster están diseñados matemáticamente para maximizar precisamente esas diferencias, es redundante y estadísticamente incorrecto usar dichos \(p\)-valores para contrastar hipótesis formales poblacionales.

References

Kaufman, Leonard, and Peter J. Rousseeuw. 1990. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons.