Análisis de correspondencias simple (CA)

Esta función ejecuta un Análisis de Correspondencias Simple, una técnica exploratoria multivariante diseñada para analizar tablas de contingencia de dos vías (cruces de variables categóricas). Su objetivo es proyectar geométricamente las filas y las columnas en un espacio de baja dimensionalidad, permitiendo interpretar la asociación subyacente y la similitud entre las diferentes categorías (Gabriel and Odoroff 1990; Greenacre 1993b, 1993a).

📊 Estructura de resultados y salida

El reporte descompone las inercias, evalúa la significación de los cruces a nivel global y local, e integra parametrizaciones avanzadas de proyección gráfica vectorial, replicando y extendiendo el marco analítico estándar.

1. Tabla de correspondencias

Matriz de frecuencias: Refleja el recuento bruto o cruce original entre las filas y columnas evaluadas.
Margen Activo: Sumatorio de filas y columnas. Excluye estrictamente las observaciones definidas como puntos suplementarios. Este margen define el universo de cálculo y el centroide gravitatorio del modelo.

2. Perfiles de fila y columna

Frecuencias relativas: Refleja la distribución interna de cada fila (sumando 1.0 en horizontal) y de cada columna (sumando 1.0 en vertical).
Masa (Promedio): Representa el perfil marginal o medio del conjunto de los datos activos. El análisis de correspondencias evalúa matemáticamente la distancia geométrica (desviación) entre el perfil de cada categoría individual y este perfil promedio.

3. Prueba de homogeneidad (Chi-cuadrado)

Contraste de dependencia: Evalúa estadísticamente si existe una relación sistemática entre las filas y las columnas de la matriz activa.
Significación (p-value): Un nivel de significación \(p < 0.05\) rechaza la hipótesis nula de independencia, justificando la viabilidad del modelo. Si las diferencias observadas no son significativas, el mapa gráfico carecería de validez inferencial.
Grados de libertad (gl): Calculado a partir de las dimensiones activas de la matriz: \((Filas\_activas - 1) \times (Columnas\_activas - 1)\).

4. Residuos estandarizados corregidos (Haberman)

Interpretación local de la inercia: Cuantifica la diferencia exacta entre la frecuencia observada en una celda y la teórica esperada bajo el supuesto de independencia, ajustada por el error típico marginal.
Umbrales de significación (\(Z\)): Valores absolutos elevados indican asociaciones que no pueden ser atribuidas al azar.
- Valores \(> 1.96\): Indican una atracción estadísticamente significativa (al 95% de confianza) entre esa categoría de fila y de columna.
- Valores \(< -1.96\): Indican una repulsión estadísticamente significativa entre las categorías cruzadas.

5. Resumen del modelo (Inercias)

Valor Singular: Raíz cuadrada de la inercia propia de cada dimensión. Mide la máxima correlación canónica entre filas y columnas en ese eje.
Inercia (Total y Chi-cuadrado): Representa la dispersión o variabilidad total explicada. El estadístico Chi-cuadrado es proporcional a esta inercia.
Proporción de Inercia: Porcentaje de la asociación total que es explicado por cada dimensión individualmente y de forma acumulada. Determina el número óptimo de ejes a retener.

6. Coordenadas y contribuciones

Masa: Peso marginal o tamaño relativo de la categoría. Una masa elevada confiere a la categoría una mayor capacidad de atracción sobre el origen de los ejes.
Score (Coordenadas): Ubicación geométrica del punto en el nuevo espacio factorial extraído.
Inercia (CTR - Contribución absoluta): Porcentaje de inercia de la dimensión que es atribuible al punto. Fundamental para la interpretación sustantiva de los ejes (qué variables definen cada dimensión).
Cos2 (COR - Contribución relativa): Índice de calidad de la representación del punto en el eje (de 0 a 1). Valores bajos advierten que la posición visual del punto está distorsionada por proyecciones en dimensiones omitidas.

7. Representación visual paramétrica (Mapa de Correspondencias)

Normalización de distancias (Map): Define el escalamiento espacial. El modo symmetric sitúa a filas y columnas en coordenadas principales (óptimo para leer distancias conjuntas). Modos como rowprincipal o colprincipal generan mapas asimétricos ideales para enfatizar la varianza interna de un solo conjunto.
Escalado de masas: Permite que el tamaño de los marcadores sea directamente proporcional al volumen (N) del perfil en la matriz original.
Filtros de contribución: Permite atenuar la intensidad visual de los puntos en función de su importancia analítica (CTR o Cos2), focalizando la lectura en los elementos tractores del modelo.

💡 Notas

Etiquetado gráfico vs analítico: El motor extrae sistemáticamente las etiquetas de variable extendidas (metadatos) para la redacción de las tablas analíticas. En contraste, el biplot proyecta identificadores cortos de sistema para evitar la colisión tipográfica y garantizar la legibilidad geométrica.
Puntos suplementarios: Los índices declarados como suplementarios (filas o columnas ilustrativas) se proyectan en el espacio basándose en el cálculo matemático del núcleo activo, sin alterarlo. Aparecen con masa nula en los reportes de contribución.

References

Gabriel, K. R., and C. Odoroff. 1990. “Biplots in Biomedical Research.” Statistics in Medicine 9: 469–85.

Greenacre, Michael J. 1993a. “Biplots in Correspondence Analysis.” Journal of Applied Statistics 20: 251–69.

Greenacre, Michael J. 1993b. Correspondence Analysis in Practice. Academic Press.