Las nuevas hornadas · Muestrear no es pecado

31 Jan 2019

Por circunstancias de la vida estoy entrevistando a nuevas generaciones de científicos de datos y no dejo de constatar algunas cosas , enumero algunas.

Saben programar (R, Python, Scala)
Están a la última en cuanto a modelos ensemble, Random Forest, Xgboost, catboost, lightgbm
Conocen algo de deep learning
Hablan más de un idioma correctamente

Pero luego me pongo a charlar con ellos y parece que a todos se les ha olvidado el principio de parsimonia. Les pregunto por cómo me explicarían la relación entre las variables nivel de estudios y provincia de residencia con por ejemplo el paro (les doy un dataset pequeño) y de forma sistemática me empiezan a contar que si un xgboost, que si embedding o no sé qué cosa moderna.

El caso es que aprecio cierta tendencia hacia palabrejas del machine learning big data world (alguien debería crear un generador de términos) que me preocupa, ¿dónde han quedado los modelos lineales y no digamos los glm? ¿ y la exploración de datos con tablas y gráficos?

Algunos ni siquiera me saben interpretar un coeficiente de regresión, ni lo que es ceteris paribus ni un efecto marginal o escribir la expresión del modelo. No sé si en los masteres que cursan hacen mucho enfoque en los medios (lenguajes de programación) y poco en los fines (explicar, inferir, obtener patrones) o qué es lo que sucede. Eso sí, a veces encuentras a alguien que da intervalos de confianza o que hace gráficos exploratorio o que al menos pregunta en qué unidades están las variables y entonces no lo veo todo perdido.