Hoy, mi amigo Jesús Lagos ha retuiteado una entrevista que ambos consideramos bastante mala, tweet, y el caso es que me ha hecho reflexionar sobre un par de tendencias que veo en el sector.
Inferencia causal Algoritmos éticos (“fairness”) Otras cosas No se trata de bandos, pero si tuviera que elegir uno, me quedaría en el de la inferencia causal. Eso sí, ahora mismo está de moda y parece que antes de Pearl no había nada.
El título no es mío sino del gran Bradley Efron que a sus 82 años aún sigue dando guerra. Acaba de salir publicado un artículo con el título que acabo de plagiarle en JASA y la verdad es que estoy bastante de acuerdo con algunas de las cosas que plantea, o al menos es un debate interesante en estos tiempos.
Deja algunas perlitas como If random forests had been around since 1908 and somebody just invented regression model significance testing, the news media might now be heralding an era of “sharp data.
En primer lugar, el título de este post se lo debo a Mario Passani y no va sobre estadística.
En realidad va sobre que últimamente me da la sensación de que la profesión del científico de datos se está centrado más en las formas que en el fondo. Os cuento un par de ejemplos.
Hace un tiempo en una empresa en la que trabajé se estaban implementando temas de análisis exploratorios usando pyspark de forma que se generaban unos bonitos htmls con info sobre las variables de un sparkdataframe.
Llevo un tiempo que me llegan noticias tales como “Con el big data predecimos cuál va a ser tu próxima tienda y cuánto te vas a gastar” o “predecimos los rebotes por partido de un jugador con un margen de error de un rebote cada 6 partidos” y cosas aún más peregrinas.
La verdad es que entre la gente más o menos seria que nos dedicamos a esto creo que está bastante claro que nuestra labor es reducir (y medir) la incertidumbre de algunos procesos de toma de decisiones, lean esto si quieren saber más en qué debería consistir nuestro trabajo.
Ayer estuve de birras con dos de los científicos de datos que más respeto y, como suele ser habitual, nos lo pasamos bien y echamos un buen rato de conversación.
El caso es que uno de ellos comentaba algo que debería ser obvio para todos los que estamos en este mundillo y es que “los modelos por sí solos no dan pasta”.
Lo ejemplifico con un sencillo ejemplo. Supongamos que nos encargan como científicos de datos hacer uno de esos modelos de “churn” o de riesgo o cualquier otra cosa, y que nosotros de forma diligente, hacemos un modelo chachi piruli.
Tengo la suerte de haber trabajado con algunos de los mejores arquitectos big data que hay en España y de considerarlos mis amigos. Para mí, este es el perfil clave en el éxito o fracaso de cualquier proyecto de Big Data y por desgracia es el perfil más complicado de encontrar.
Un buen arquitecto big data es justo el pegamento que une los mundos del ingeniero de datos y el de los mal llamados data scientist.
Supongo que ya ni los más viejos del lugar recuerdan el tiempo en que había protestas contra la incorporación de tractores y cosechadoras al mundo rural. Total, ¿para qué? la funcionalidad ya estaba cubierta con los jornaleros. El caso es que al final el “progreso” se fue imponiendo, haciendo desaparecer muchos puestos de trabajo y creando otros nuevos, sinceramente creo que en términos netos hemos salido ganando.
En esto de la ciencia de datos también tenemos nuestra tecnología y además, cambian a la velocidad del rayo, que si R, python, spark, h2o, apache flink, cosas como datarobot o driverless, sin olvidar a los aún hoy vivos SAS, MATLAB, SPSS, stata y alguno más que habrá por ahí.
Hay un refrán que dice “eres como el maestro liendres que de todo sabes y de nada entiendes”. Normalmente este dicho tiene un carácter peyorativo, pero siempre que lo menciono es justo con la intención contraria. Por ejemplo, para un científico de datos ser un maestro liendre es saber de todo un poco y entender algo más de lo que corresponde a su dominio.
Dicho esto, me surge la pregunta de si no nos estaremos enamorando demasiado de las herramientas olvidando el fin de las mismas, que no es otro que usarlas para entender ciertos problemas y que al hacerlo alguien nos pague por ello.
Por circunstancias de la vida estoy entrevistando a nuevas generaciones de científicos de datos y no dejo de constatar algunas cosas , enumero algunas.
Saben programar (R, Python, Scala) Están a la última en cuanto a modelos ensemble, Random Forest, Xgboost, catboost, lightgbm Conocen algo de deep learning Hablan más de un idioma correctamente Pero luego me pongo a charlar con ellos y parece que a todos se les ha olvidado el principio de parsimonia.