Ayer estuve de birras con dos de los científicos de datos que más respeto y, como suele ser habitual, nos lo pasamos bien y echamos un buen rato de conversación.
El caso es que uno de ellos comentaba algo que debería ser obvio para todos los que estamos en este mundillo y es que “los modelos por sí solos no dan pasta”.
Lo ejemplifico con un sencillo ejemplo. Supongamos que nos encargan como científicos de datos hacer uno de esos modelos de “churn” o de riesgo o cualquier otra cosa, y que nosotros de forma diligente, hacemos un modelo chachi piruli. Tal es nuestro éxito que si ordenamos de mayor o menor probabilidad de fuga, en el primer 10% de los clientes con mayor probabilidad estimada de fuga, vemos que efectivamente tenemos una tasa de churn 5 veces mayor que en el global de la población (todo esto realizado con los consabidos conjuntos de validación y test “out of time”). Bien, ¿pues todos tan contentos, no? pues la verdad es que hasta ahora no hemos generado ni un euro de beneficio para nuestra amada empresa.
Nuestro maravilloso modelo lo único que ha hecho es describir de forma más o menos acertada lo que podría ocurrir si no tomamos medida alguna. La pasta sólo llega si alguien utiliza de forma adecuada la información obtenida del modelo y toma medidas para evitar esa fuga de clientes.
Pero ¿qué es lo que sucede si se toman acciones y se reduce el “churn”? Pues que entonces es posible que algún avispado nos diga que nuestro modelo ya no es tan bueno, porque dijimos que se iba a fugar un % de gente y se han ido menos. Seguro que estáis pensando, ¡leche, pero que me estás contando, es evidente que hay que tener grupos de control para poder medir bien! Y tenéis toda la razón, pero a veces hay gente que no lo entiende.
Lo dicho, el big data (por sí solo) no da dinero, así que desconfiad de aquellos que os vendan cosas similares a “con este modelo de deep learning de la leche vamos a tener un retorno de 8 millones de euros”.
comments powered by Disqus