Análisis de correspondencias Múltiple (MCA)

Esta función ejecuta un Análisis de Correspondencias Múltiples, una técnica exploratoria multivariante diseñada para analizar patrones de asociación simultánea entre múltiples variables categóricas (tres o más). A diferencia del Análisis de Correspondencias Simple, el MCA descompone una Matriz de Burt (o matriz indicadora), proyectando tanto los casos individuales como las modalidades (categorías) en un mismo espacio factorial de baja dimensionalidad (Greenacre and Pardo 2006; Nenadic and Greenacre 2007b, 2007a).

El algoritmo integra la parametrización avanzada de Greenacre, sustituyendo las inercias crudas por inercias ajustadas para corregir la subestimación sistemática de la varianza que sufre el MCA estándar, proporcionando un modelo estadísticamente realista.

📋 Requerimientos y preparación de datos (inputs)

Para obtener un mapa perceptual fiable y evitar que categorías residuales distorsionen la interpretación, es necesario considerar los siguientes requerimientos:

Variables Activas (vars): Deben ser variables categóricas (Nominales u Ordinales). El análisis requiere un mínimo de 3 variables para poder extraer patrones de asociación múltiple.
Frecuencias de las Categorías (Masa): Se recomienda encarecidamente evitar incluir categorías con frecuencias extremadamente bajas (por ejemplo, respuestas que representan menos del 1% o 2% de la muestra total). Estas categorías actúan como “valores atípicos espaciales”, alejándose del centroide y deformando la formación de los ejes principales.
Variables Suplementarias (supcol): El usuario puede declarar variables adicionales como ilustrativas. Sus categorías se proyectarán en el mapa final para ayudar a la interpretación (ej. segmentar por edad o género), pero no influirán en el cálculo de la inercia ni en la posición de los ejes activos.
Identificador de Caso (id_var): Es un parámetro esencial si se desea generar el archivo JSON de coordenadas o si se opta por proyectar a los individuos en el mapa (show_cases = TRUE). Permite vincular cada punto del gráfico con el sujeto real de la base de datos.
Normalización Espacial: Por defecto, el motor utiliza el escalado simétrico, que es el estándar recomendado para interpretar simultáneamente las distancias entre categorías de distintas variables.

📊 Estructura de resultados y salida

Frecuencias marginales (categorías)

Frecuencia: Frecuencia absoluta de ocurrencia de cada modalidad dentro de su variable de origen en la matriz activa.
Masa: Peso marginal o tamaño relativo de la categoría respecto al total de la muestra (N). Categorías con masas extremadamente bajas actuarán como valores atípicos espaciales, alejándose del centroide y pudiendo distorsionar la formación de los ejes.

Resumen del modelo (inercias ajustadas)

Valor Singular: Medida de la correlación canónica extraída para cada dimensión.
Inercia Ajustada: Varianza explicada por cada dimensión tras aplicar la corrección de Greenacre sobre los autovalores de la Matriz de Burt.
Proporción de Inercia (Explicada y Acumulada): Porcentaje de información sustantiva capturada por el eje. Constituye el criterio principal para decidir la dimensionalidad óptima a proyectar en el mapa perceptual.

Coordenadas y contribuciones (casos y categorías)

Masa: Poder gravitatorio del punto (individuo o categoría) en la estimación del modelo global.
Score (Coordenadas): Ubicación geométrica exacta del punto en el nuevo hiperplano extraído.
Inercia (CTR - Contribución absoluta): Proporción de la varianza del eje que es explicada directamente por ese punto. Es la métrica clave para la interpretación analítica: permite identificar qué categorías específicas definen el significado de cada dimensión.
Cos2 (COR - Contribución relativa): Índice de fidelidad proyectiva (de 0 a 1). Indica en qué medida la posición del punto está siendo explicada por ese eje. Un Cos2 alto garantiza que la lectura visual de la distancia en el mapa es fidedigna y no un artefacto de la proyección desde dimensiones superiores.

Representación visual paramétrica (mapa MCA)

Normalización espacial (Map): Define el escalamiento de los ejes. La proyección en coordenadas principales (symmetric) es el estándar en MCA para interpretar simultáneamente asociaciones entre categorías de distintas variables.
Proyección de casos (show_cases): Permite al analista decidir si el biplot proyecta únicamente las categorías (ideal para muestras \(N > 1000\) para evitar la saturación de tinta) o si superpone a los individuos (útil en muestras pequeñas o focus groups para identificar outliers).
Escalado por masas (mass_scale): Representa las categorías como formas geométricas cuya área es directamente proporcional a su frecuencia marginal.
Filtros analíticos (contrib_type): Atenúa u oculta visualmente los puntos que no aportan información relevante al modelo (basado en CTR o Cos2), despejando el gráfico para facilitar la interpretación de los factores tractores.

💡 Notas técnicas

Interpretación geométrica: En MCA, la proximidad espacial entre categorías de distintas variables indica que tienden a coexistir fuertemente en los mismos individuos (asociación). Sin embargo, la proximidad entre categorías de una misma variable indica que los perfiles de los encuestados que eligieron ambas opciones son muy similares (sustitución).
Etiquetado anti-solapamiento: Para garantizar mapas de calidad profesional, el motor gráfico recorta automáticamente el prefijo de la variable (ej. de Generación:Millennial a Millennial). Las tablas numéricas conservan el nombre completo para evitar ambigüedades en respuestas comunes (ej. “Sí” / “No”).
Variables suplementarias: El analista puede declarar variables completas como ilustrativas (mediante sus índices en supcol). Sus categorías se proyectarán en el espacio final sin haber alterado el cálculo de las inercias o la posición de los ejes activos.

References

Greenacre, Michael J., and R. Pardo. 2006. “Subset Correspondence Analysis: Visualizing Relationships Among a Selected Set of Response Categories from a Questionnaire Survey.” Sociological Methods & Research 35: 193–218.

Nenadic, Oleg, and Michael Greenacre. 2007a. “Computation of Multiple Correspondence Analysis, with Code in R.” In Multiple Correspondence Analysis and Related Methods, edited by Michael Greenacre and Jörg Blasius. Chapman & Hall/CRC.

Nenadic, Oleg, and Michael Greenacre. 2007b. “Correspondence Analysis in R, with Two- and Three-Dimensional Graphics: The ca Package.” Journal of Statistical Software 20 (3). http://www.jstatsoft.org/v20/i03/.