Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

¿Y si ... ? Parte I

Lo de la inferencia causal está de moda, y motivos hay, es una herramienta que intenta dar respuesta a preguntas cómo las siguientes. ¿Qué habría pasado si en vez de poner este precio a este producto hubiera puesto otro? ¿Se habría vendido más? ¿He mandado a mi campaña a aquellos para los que justo al mandar a campaña su probabilidad de compra se incrementa?

Ejemplillo con NMF

Ando falto de ideas, no sé si es la pandemia, el teletrabajo ( o la esclavitud en tiempos modernos como me gusta llamarlo) u otra cosa. Total, que me he puesto a bichear un post antiguo de mi amigo Carlos Gil sobre NMF (factorización no negativa de matrices). Cómo siempre el lo cuenta mucho mejor que yo. Total, que puede que en breve me toque tener algo a lo que quizá se pueda aplicar este tipo de técnicas, a saber, tener clientes y productos.

PCA I. El álgebra es tu amiga

Me pide mi amigo Jesús Lagos que hagamos un vídeo hablando del análisis de componentes principales para un canal que tiene junto a Miguel Angel. El caso es que llevo muchos años usándolo y lo estudié en la carrera, haciendo varios a mano, como no podía ser de otra manera, pero desde que empecé a usar software estadístico se me habían olvidado los detalles de la matemática subyacente.

Los viejos rockeros nunca mueren

En todo este mundo de la analítica de datos las modas van y vienen, pero la sensatez y el buen hacer siempre vuelven. Y vuelven porque son útiles, porque aportan valor y porque ¡qué demonios! ya está bien de postureo big datero de dibujitos de animales. Esta entrada viene a colación de lo que me cuenta un ex compañero de curro y sin embargo amigo, que hacen en su nueva empresa.

R 4.0.2 en amazon linux

Entrada corta sobre como instalar R 4.0.2 en amazon linux, ya que por defecto trae una versión de R de hace 3 años. La idea es instalar R vía rpm, sacada de aquí, pero el problema es que en amazon linux faltan algunas librerías que están en centos 7 y hay que buscar los rpm. La solución que me ha funcionado, estando como root en amazon linux cd /tmp curl -O http://mirror.

¿PCA con ordinales y nominales? Tercera entrega. ¡ Que vienen los holandeses !

Hoy vamos a darle una (pequeña) vuelta de tuerca al tema de la reducción de dimensiones ( y por ende la codificación ) con variables categóricas y ordinales. Aunque puede que muchos no lo sepan, existen dos escuelas derivadas de lo que Tukey llamaba el análisis exploratorio de datos, a saber, la francesa y la holandesa. La francesa con exponentes como Jean-Paul Benzécri, Saporta o Lebart, resuelven el problema de proyectar las relaciones entre variables categóricas en un hiperplano de menor dimensión de forma analítica.

Predicción, Estimación y Atribución

El título no es mío sino del gran Bradley Efron que a sus 82 años aún sigue dando guerra. Acaba de salir publicado un artículo con el título que acabo de plagiarle en JASA y la verdad es que estoy bastante de acuerdo con algunas de las cosas que plantea, o al menos es un debate interesante en estos tiempos. Deja algunas perlitas como If random forests had been around since 1908 and somebody just invented regression model significance testing, the news media might now be heralding an era of “sharp data.

¿PCA con ordinales? ¿Y con nominales? Segunda entrega

En el post anterior se me olvidó comentar que una parte importante es la interpretación. library(psych) library(polycor) ## ## Attaching package: 'polycor' ## The following object is masked from 'package:psych': ## ## polyserial datos <- readRDS("../../data/science.rds") cor_poly <- hetcor(datos) ## Warning in log(P): Se han producido NaNs res_factorial <- fa(cor_poly$correlations, nfactors = 3, n.obs = nrow(datos)) ## Loading required namespace: GPArotation diagram(res_factorial) Dónde vemos que MR2 es un factor que tendrá valores altos para todos aqueellos que hayan puntuado alto en las preguntas de su grado de acuerdo con las frases.

¿PCA con ordinales? Primera entrega

Supongo que todos sabemos lo de las escalas de medida, ¿verdad? Nominal, ordinal, intervalo y de razón. Y que todos sabemos lo que es un PCA y que sólo sirve para variables numéricas, ¿seguro?. Un PCA y otras técnicas relacionadas se basan en diagonalizar una matriz, ya sea mediante SVD, autovalores o a lo Gifi en dónde se utiliza Alternative Least Squares. La materia prima de la que parte un PCA es una matriz de covarianzas o de correlaciones, pero, ¿qué pasa si nuestras variables no son numéricas sino ordinales?

Factoriales....

Supongo que los muchos o pocos que me leen habrán escuchado hablar del análisis factorial, o al menos de del PCA, ¿verdad? ¿Pero cuántos conocen la diferencia entre un PCA y un análisis factorial? ¿Y la relación entre un análisis de correspondencias y un PCA? ¿Y los Confirmatory Factorial Analysis (CFA)? Hoy sólo voy a hablar un poco del diferente enfoque entre PCA y Análisis Factorial, ambos forman parte de lo que toda la vida se había llamado técnicas de interdependencia (aprendizaje no supervisado lo llaman los modernos).