Quién me conoce sabe que siento debilidad por el análisis de datos categóricos, en particular por técnicas como el análisis de correspondencias simple o múltiple o por las cosas más modernas que hay. No en vano se me dió especialmente bien en la universidad, en parte debido a que por fin me centré después de unos años locos, y en parte debido a algún buen profesor. El caso es que en el curro utilizamos este tipo de técnicas para encontrar relaciones entre variables categóricas que quizá hayan pasado desapercibidas en un primer análisis.
Me pide mi amigo Jesús Lagos que hagamos un vídeo hablando del análisis de componentes principales para un canal que tiene junto a Miguel Angel.
El caso es que llevo muchos años usándolo y lo estudié en la carrera, haciendo varios a mano, como no podía ser de otra manera, pero desde que empecé a usar software estadístico se me habían olvidado los detalles de la matemática subyacente.
Hoy vamos a darle una (pequeña) vuelta de tuerca al tema de la reducción de dimensiones ( y por ende la codificación ) con variables categóricas y ordinales.
Aunque puede que muchos no lo sepan, existen dos escuelas derivadas de lo que Tukey llamaba el análisis exploratorio de datos, a saber, la francesa y la holandesa.
La francesa con exponentes como Jean-Paul Benzécri, Saporta o Lebart, resuelven el problema de proyectar las relaciones entre variables categóricas en un hiperplano de menor dimensión de forma analítica.
En el post anterior se me olvidó comentar que una parte importante es la interpretación.
library(psych) library(polycor) ## ## Attaching package: 'polycor' ## The following object is masked from 'package:psych': ## ## polyserial datos <- readRDS("../../data/science.rds") cor_poly <- hetcor(datos) ## Warning in log(P): Se han producido NaNs res_factorial <- fa(cor_poly$correlations, nfactors = 3, n.obs = nrow(datos)) ## Loading required namespace: GPArotation diagram(res_factorial) Dónde vemos que MR2 es un factor que tendrá valores altos para todos aqueellos que hayan puntuado alto en las preguntas de su grado de acuerdo con las frases.
Supongo que todos sabemos lo de las escalas de medida, ¿verdad? Nominal, ordinal, intervalo y de razón. Y que todos sabemos lo que es un PCA y que sólo sirve para variables numéricas, ¿seguro?. Un PCA y otras técnicas relacionadas se basan en diagonalizar una matriz, ya sea mediante SVD, autovalores o a lo Gifi en dónde se utiliza Alternative Least Squares.
La materia prima de la que parte un PCA es una matriz de covarianzas o de correlaciones, pero, ¿qué pasa si nuestras variables no son numéricas sino ordinales?
Supongo que los muchos o pocos que me leen habrán escuchado hablar del análisis factorial, o al menos de del PCA, ¿verdad? ¿Pero cuántos conocen la diferencia entre un PCA y un análisis factorial? ¿Y la relación entre un análisis de correspondencias y un PCA? ¿Y los Confirmatory Factorial Analysis (CFA)?
Hoy sólo voy a hablar un poco del diferente enfoque entre PCA y Análisis Factorial, ambos forman parte de lo que toda la vida se había llamado técnicas de interdependencia (aprendizaje no supervisado lo llaman los modernos).