Análisis discriminante lineal (LDA)

Introducción

La función bw8discriminant() ejecuta un Análisis Discriminante Lineal (algoritmo clásico formulado por R.A. Fisher), una técnica estadística multivariante de carácter supervisado.

A diferencia del análisis de clúster, donde el algoritmo busca grupos ocultos sin información previa, en el análisis discriminante nosotros le indicamos a la función a qué grupo pertenece cada sujeto (Variable de Agrupación). El objetivo matemático del algoritmo es encontrar la combinación lineal de variables continuas (Predictoras) que mejor separe o “discrimine” a esos grupos conocidos, maximizando la varianza inter-grupos y minimizando la varianza intra-grupos.

El resultado es un modelo predictivo capaz de clasificar nuevos casos basándose en sus características, siendo el antecesor directo de las modernas técnicas de Machine Learning.

Interpretación de resultados

El bloque de resultados presenta secuencialmente la extracción de las funciones matemáticas, su peso analítico, su precisión de acierto y su representación espacial.

Al inicio del informe se detalla:

Variable de Agrupación: La variable categórica que define los grupos reales (ej. “Comprador Fiel” vs. “Riesgo de Fuga”).
Ponderación: Si se aplicó una variable de peso, el algoritmo expande la muestra internamente (redondeando a enteros) para que las matrices de covarianza reflejen las proporciones poblacionales reales antes de calcular los coeficientes.

Modelo

Si nuestra variable de agrupación tiene \(k\) categorías, el algoritmo extraerá un máximo de \(k-1\) Funciones Discriminantes (ejes matemáticos de separación).

Autovalor (Eigenvalue): Es un índice matemático que indica la potencia discriminatoria de esa función. Cuanto mayor sea el autovalor, más dispersión genera entre los grupos.
% de Varianza: Indica qué porcentaje de la capacidad total de separación del modelo asume cada función. Habitualmente, la Función 1 absorbe la inmensa mayoría de la varianza (ej. 85%), siendo el eje principal que explica las diferencias entre los sujetos.

Coeficientes estandarizados de las funciones discriminantes

Esta es la tabla clave para entender qué variables importan. A diferencia de los coeficientes brutos, los coeficientes estandarizados (basados en Z-Scores) permiten comparar variables medidas en escalas totalmente distintas (ej. Edad en años vs. Ingresos en euros).

Interpretación: Para determinar qué variables dirigen la separación de los grupos, fíjate en el valor absoluto del coeficiente. Si la variable “Tiempo en Web” tiene un coeficiente de 0.85 y “Quejas” tiene -0.12, significa que el tiempo de navegación tiene un poder de discriminación muchísimo mayor, independientemente del signo algebraico.

Resultados de la clasificación (matriz de confusión)

Esta tabla cruza el Grupo Real al que sabíamos que pertenecía el sujeto frente al Grupo Predicho por nuestras ecuaciones discriminantes:

La Diagonal: Los números que cruzan la tabla en diagonal representan los aciertos (ej. era Comprador Fiel y el modelo lo clasificó como Comprador Fiel).
% Correcto: Evalúa el acierto individual para cada grupo. Es habitual que un modelo sea muy bueno detectando a un grupo extremo pero confunda a los grupos intermedios.
Clasificación correcta global: Es el porcentaje total de éxito del modelo. Como referencia, debe ser siempre superior a la probabilidad de acierto por puro azar.

Mapa de puntuaciones

La representación gráfica depende del número de grupos analizados:

2 Grupos (1 Función Discriminante): Se muestra un Gráfico de Densidad o Histograma. El eje X representa la puntuación en esa única función. Si el modelo es bueno, verás dos “campanas” (distribuciones) muy separadas, con poco solapamiento entre ellas.
3 o más Grupos (2+ Funciones Discriminantes): Se muestra un Mapa Territorial (Diagrama de Dispersión). En él, la Función 1 actúa como eje X y la Función 2 como eje Y. Cada punto es un sujeto. Las elipses de confianza (al 95%) ayudan a visualizar cómo las fronteras matemáticas del modelo logran aislar a los diferentes grupos en el espacio bidimensional.

Exportación de resultados (JSON)

Si se ha activado la opción export_json y se ha facilitado una variable identificadora (id_var), la función exportará un diccionario estandarizado.

Para el análisis discriminante, este JSON es vital ya que contiene la aplicación práctica del modelo. Por cada sujeto validado, exporta:

El ID del Caso.
El Grupo Predicho (la clasificación final que le otorga el algoritmo).
Las Puntuaciones (Scores) exactas en cada una de las Funciones Discriminantes (LD1, LD2…). Estas coordenadas permiten a sistemas externos ubicar a cualquier cliente en el mapa de segmentación.