En todo este mundo de la analítica de datos las modas van y vienen, pero la sensatez y el buen hacer siempre vuelven. Y vuelven porque son útiles, porque aportan valor y porque ¡qué demonios! ya está bien de postureo big datero de dibujitos de animales.
Esta entrada viene a colación de lo que me cuenta un ex compañero de curro y sin embargo amigo, que hacen en su nueva empresa. Y la mayoría de lo que hacen son cosas sensatas. Contrastes de hipótesis, modelos lineales (que es un marco más general que los contrastes de hipótesis), modelos multinivel, modelos de supervivencia, etc.
A todos nos seduce la idea de lanzar un modelo de deep lenin (cómo dice otro amigo) o la última variación de un xgboost con no se cuánta profundidad y con búsqueda vía randomsearch de los mejores “hiperparámetros” y ganar un punto de AUC (alguno una vez dijo que pasar de 0.78 a 0.79 era un millón de euros de beneficio, en fin) . Pero para cualquiera que lleve un tiempo razonable en estos lares sabe que es más importante tener datos limpios, actualizados y veraces.
Y para terminar, una lista de técnicas que siempre me han gustado, no necesariamente en orden.
- Modelos de supervivencia
- Modelos loglineales . Modelar las frecuencias de tablas multivía
- Ecuaciones estructurales. Forma de comprobar globalmente hipótesis causales, aunque ahora también hay cosas chulas debidas a Judea Pearl con otro enfoque.
- Reducción de dimensiones. Quien me conoces sabe que me gusta bastante todo lo relacionado con ese tema, proyección conjunta de variables continuas y categóricas, etc..
- Modelos mixtos. Desde que leí el libro de Gelman y Hill está entre mis cosas favoritas.
En fin, esta entrada va dedicada a mi amigo Sergio Calderón que creo que va a aprender un montón de cosas y no sólo a tirar árboles vía la última librería disponible en x lenguaje.
comments powered by Disqus