Hay veces que uno se deja llevar por la emoción cuando hace algo y a veces se exagera un poco con lo que hace tu criatura.
Tal es el caso de la librería Nanyml, la cual tiene buena pinta pero exagera en al menos dos partes. La primera y más evidente es cuándo dice que puede estimar el desempeño futuro de un modelo sin comparar con lo que realmente pase, así promete el Estimating Performance without Targets
O como se conoce en estos tiempos modernos one hot encoding. En realidad se trata simplemente de cómo codificar una variable categórica en un conjunto de números que un algoritmo pueda utilizar.
Ya hablé de esto mismo en el post codificación de variables categóricas I
Básicamente, la codificación parcia lo que hace es crearse tantas variables indicadoras como niveles tengo en mi variable menos 1.
Ejemplo. Construimos un conjunto de datos simple, con 3 variables
El otro día me comentaba un científico de datos al que respeto profundamente que está flipando con poder usar sus modelos de python guardados en pickle dentro de R usando la librería reticulate y crear una shiny app, de hecho su comentario literal fue “estoy haciendo unos shinys monísimos”.
El tema es que ayer me puse a investigar la maravillosa librería de la gente de databricks MLflow, ¡gracias Diego por animarme a probarla!