Y seguimos dando vueltas a los datos de post anteriores. Siempre hay quien dice que el bayesiano no sirve para big data y qué se acaba el universo antes de que termine de ajustar tu modelo (esto último creo que se lo he dicho yo alguna vez a Carlos).
Pero ya hemos visto en los dos post anteriores que podemos condensar los datos en menos filas sin perder información, así que , ¿por qué no utilizar un modelo bayesiano?
Bueno, pues voy a ampliar el ejemplo del último día, como es viernes, estoy cansado y me iré a tomar una birra pronto, intentaré ser breve.
Levantamos una sesión de spark y leemos los mismos datos del otro día. Ya de paso voy a probar el operador pipe nativo en R base |>. Si tienes la nueva versión de R instalada y la versión de Rstudio preview, en global options puedes poner para que al hacer Ctrl + Shift +M aparezca el nuevo operador o el antiguo.
En todo este mundo de la analítica de datos las modas van y vienen, pero la sensatez y el buen hacer siempre vuelven. Y vuelven porque son útiles, porque aportan valor y porque ¡qué demonios! ya está bien de postureo big datero de dibujitos de animales.
Esta entrada viene a colación de lo que me cuenta un ex compañero de curro y sin embargo amigo, que hacen en su nueva empresa.
El título no es mío sino del gran Bradley Efron que a sus 82 años aún sigue dando guerra. Acaba de salir publicado un artículo con el título que acabo de plagiarle en JASA y la verdad es que estoy bastante de acuerdo con algunas de las cosas que plantea, o al menos es un debate interesante en estos tiempos.
Deja algunas perlitas como If random forests had been around since 1908 and somebody just invented regression model significance testing, the news media might now be heralding an era of “sharp data.
No, no voy a hablar de liberalismo ni de Hayek. Solo quería hacer una pequeña reflexión sobre las nuevas generaciones de científicos de datos o como se les quiera llamar.
Vengo observando hace cosa de 3 años, que las nuevas generaciones creen que es fácil utilizar modelos estadísticos (o de Machín Lenin como dice algún amigo mío) para predecir cosas como la bolsa, o acertar ,cual demiurgo, si se va a sufrir un cáncer y cosas por el estilo.
Ayer estuve de birras con dos de los científicos de datos que más respeto y, como suele ser habitual, nos lo pasamos bien y echamos un buen rato de conversación.
El caso es que uno de ellos comentaba algo que debería ser obvio para todos los que estamos en este mundillo y es que “los modelos por sí solos no dan pasta”.
Lo ejemplifico con un sencillo ejemplo. Supongamos que nos encargan como científicos de datos hacer uno de esos modelos de “churn” o de riesgo o cualquier otra cosa, y que nosotros de forma diligente, hacemos un modelo chachi piruli.