Análisis de Clúster Jerárquico

El Análisis de Clúster Jerárquico es una técnica estadística multivariante de clasificación no supervisada. Su objetivo es agrupar secuencialmente individuos o casos en segmentos (clústeres) basándose en su similitud geométrica. A diferencia de otros métodos, el enfoque jerárquico no requiere que el investigador conozca de antemano el número de grupos; en su lugar, construye un árbol de jerarquías (de abajo hacia arriba) que permite explorar la estructura natural de los datos (Kaufman and Rousseeuw 1990).

Esta técnica es especialmente útil para muestras pequeñas o medianas y constituye el paso previo ideal para una segmentación definitiva.

📊 Estructura de resultados y salida

El reporte se organiza siguiendo las fases de formación geométrica y las métricas de validación para decidir el número óptimo de grupos.

1. Proceso de formación y agrupación

  • Matriz de proximidades: Muestra las distancias matemáticas (ej. Euclídea al cuadrado) calculadas entre cada par de individuos de la muestra original.
  • Agenda de aglomeración: Tabla que detalla el historial de fusiones paso a paso. Muestra qué casos o clústeres se unen en cada etapa y el coeficiente de distancia al que ocurre dicha unión. Un salto brusco en este coeficiente suele indicar que se están forzando a unir grupos con naturalezas muy diferentes.
  • Dendrograma: Representación visual en forma de árbol del proceso de aglomeración. Permite al investigador observar de manera intuitiva las ramas principales y decidir dónde realizar el “corte” vertical para establecer el número final de grupos.

2. Diagnóstico del número óptimo de clústeres

Para superar la subjetividad visual del dendrograma, el motor incluye tres potentes validaciones analíticas:

  • Diagnóstico NbClust: Ejecuta internamente hasta 30 índices estadísticos diferentes y propone como solución óptima el número de clústeres más votado por la regla de la mayoría (Charrad et al. 2014).
  • Método del Codo (Elbow): Gráfico que representa la reducción de la varianza intra-clúster a medida que aumentan los grupos. El número óptimo suele encontrarse en el “codo” o punto de inflexión donde la curva se estabiliza.
  • Análisis de Silueta (Silhouette): Evalúa la cohesión interna frente a la separación externa. Valores medios más cercanos a 1 indican que los individuos están perfectamente asignados, mientras que valores cercanos a 0 indican solapamiento (Rousseeuw 1987).

💡 Notas

  • Estandarización: Si las variables introducidas tienen escalas de medida muy diferentes (ej. edad en años frente a ingresos en miles de euros), es imperativo estandarizar los datos previamente. De lo contrario, las variables con magnitudes numéricas mayores dominarán completamente la formación de los grupos.
  • Exportación de centros: La función permite exportar no solo la pertenencia de cada caso, sino también los perfiles teóricos (centroides) de la solución elegida, listos para ser inyectados en un análisis no jerárquico posterior.

References

Charrad, Malika, Nadia Ghazzali, Véronique Boiteau, and Azam Niknafs. 2014. NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set.” Journal of Statistical Software 61 (6): 1–36. https://www.jstatsoft.org/v61/i06/.
Kaufman, Leonard, and Peter J. Rousseeuw. 1990. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons.
Rousseeuw, Peter J. 1987. “Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis.” Journal of Computational and Applied Mathematics 20: 53–65.