Muestrear no es pecado

Estadística, ciencia de datos, big data, cosas varias

EPA, muestreo y partial pooling

Sale la EPA a a finales de Abril, con datos de Enero a Marzo. Es proverbial el retraso en la publicación de resultados por parte de las administraciones públicas. En intercambio de tweets con Carlos Gil, comentaba la posibilidad de ir actualizando datos poco a poco, en plan como las elecciones: Al 20% del escrutinio de la EPA, el número de parados y ocupados en España es de X y cosas así.

Encuesta

Estudio serológico covid19 El muestreo, ese gran olvidado. Se trata de una herramienta muy útil cuando se quiere saber una o varias características de una población pero, por lo que sea, no es factible abordar a toda la población o porque se necesita tener una idea aproximada de dicha característica de forma rápida. Bueno, pues si queremos saber el porcentaje y el número de personas que han tenido el coronavirus por provincia la herramienta adecuada es el muestreo.

Estimación muy burda del número de contagios.

Leo por ahí estimaciones de que hay en España más de 1 millón de contagiados y la verdad es que no tengo ni idea. Pero no se me ocurre ir poniendo ese dato por ahí como verdad absoluta, como hacen algunos . Hagamos un ejercicio simple y muy burdo, lo reconozco. Supongamos que el número de fallecidos por coronavirus está bien recogido, lo miro en mi dashboard que para eso lo hice y me dice que hoy 29 de Marzo hay un total acumulado de 6528 fallecidos.

El virus

En estos tiempos tan asépticos ya no estamos acostumbrados (en algunos países), a tratar con agentes patógenos altamente contagiosos como el que llena los titulares de periódicos y televisiones estos días. Sin más, vamos a comparar los datos de España e Italia, plagiando con total descaro a mi amigo Carlos Gil que puso este post de ayer y en este de hoy.

Lecciones aprendidas instalando paquetes de R

Ay, la nube.. que bien suena ¿verdad? Si, hasta que te toca pelearte con amazonlinux y versiones viejunas de R. Total, que me ha tocado lidiar un poco con la versión de R 3.4.1 de hace ya 3 años y tener que compilar en mi máquina un montón de librerías para amazon linux (que viene siendo un centos 7 modificado por aws) Así que lo primero es montarse un Dockerfile dónde id diciendo qué librerías de sistemas hay que añadir, y alguna ñapa por problemas con el compilador de C.

Cosas de pandas

Estoy usando Rmarkdown así que primero defino que versión o entorno de python quiero Sys.setenv(RETICULATE_PYTHON = "/usr/bin/python3") import pandas as pd df = pd.DataFrame({'A' : [1, 2, 3, 4], 'B' : [4, 3, 2, 1]}) df ## A B ## 0 1 4 ## 1 2 3 ## 2 3 2 ## 3 4 1 El index es autonumérico df.index ## RangeIndex(start=0, stop=4, step=1) Pues ahora viene lo raro, al menos para mí.

Finde de cacharreo

Bueno, pues he cambiado de portátil. Me he dado un capricho y me he pillado un slimbook prox 15 con 6 cores (12 hilos) , 32 Gb de RAM y una tarjeta gráfica nvidia de las normalitas. Pues después de algunos (muchos) problemas con los drivers de la tarjeta nvidia en linux, más específicamente en linux mint xfce, he conseguido que todo vaya bien, y hasta he podido probar computación con gpu en R.

La fatal arrogancia

No, no voy a hablar de liberalismo ni de Hayek. Solo quería hacer una pequeña reflexión sobre las nuevas generaciones de científicos de datos o como se les quiera llamar. Vengo observando hace cosa de 3 años, que las nuevas generaciones creen que es fácil utilizar modelos estadísticos (o de Machín Lenin como dice algún amigo mío) para predecir cosas como la bolsa, o acertar ,cual demiurgo, si se va a sufrir un cáncer y cosas por el estilo.

Cosas que deben cambiar

La semana pasada estuve en la bella ciudad de Alcoy en el congreso de Estadística e Investigación Operativa gracias a que nos invitaron a dar una sesión invitada presentando la Comunidad R-hispano. Como estoy en el mundo de la empresa mi percepción fue que, salvo en las charlas de investigación operativa, la distancia entre lo que se hace y se enseña en la universidad y lo que se utiliza en la empresa es bestial.

Codificación parcial y python

O como se conoce en estos tiempos modernos one hot encoding. En realidad se trata simplemente de cómo codificar una variable categórica en un conjunto de números que un algoritmo pueda utilizar. Ya hablé de esto mismo en el post codificación de variables categóricas I Básicamente, la codificación parcia lo que hace es crearse tantas variables indicadoras como niveles tengo en mi variable menos 1. Ejemplo. Construimos un conjunto de datos simple, con 3 variables