producción

Productivizando modelos de clasificación binaria con H20

En un post anterior ya vimos como entrenar un modelo de h2o y cómo sería la lógica para hacer predicciones en un entorno que tenga Spark pero no h2o. Un lector del blog comentó que porque no usar directamente H20 con sparkling water y leer directamente los datos a partir de un sparkdataframe y predecir también usando sparkling water. Aquí varios motivos. Por mi escasa experiencia con sparkling water existe un cuello de botella al pasar de sparkdataframe a h2oframe.

Cosas que quiero probar

Iba a escribir una cosa chula que hiciera honor al nombre del blog, algo sobre muestreo, postestratificación y demás, pero he llegado a casa tarde y no tengo ni tiempo ni ganas. Así que voy a poner una serie de librerías que tengo pendiente de probar y que creo reducirían la brecha idiomática entre los científicos de datos, los ingenieros y los arquitectos de datos y big data (si es que en tu organización tienes la suerte de que exista este perfil)

Entrenar con sparklyr, predecir con spark

Vivimos en la era del big data según dicen por esos lares, también tengo algún amigo que dice que el big data son los padres, no le falta razón. La mayoría de las cosas que hacemos se pueden hacer sin big data, porque en primer lugar ni en el 95 % de las veces se requiere y porque en el 5% restante podríamos hacer muestreo. Si no hay señal en 20.

Jugando con h2o

Qué es h2o Aparte de lo que todos entendemos por h2o, h2o también es una empresa, y tiene algunos productos útiles para aquellos que nos dedicamos a lo que ahora se llama “ciencia de datos”. Más info aquí h2o en R El tema es que h2o tiene apis para usarlo con R, python, hadoop o maven. info Veamos un pequeño ejemplo en R. En primer lugar instalamos h2o según las instrucciones.