ÑAAS · Muestrear no es pecado

06 Feb 2019

Por motivos que no vienen al caso un compañero del curro necesita hacer en spark una regresión lineal para los datos de cada cliente y extraer el coeficiente de una variable. Así que vamos a hacer algo que denomino ÑASS (Ñapas As A Service)

Cómo lo haríamos en R

library(tidyverse)

## ── Attaching packages ─────────────────────────────────── tidyverse 1.2.1 ──

## ✔ ggplot2 3.1.0       ✔ purrr   0.3.2  
## ✔ tibble  2.1.1       ✔ dplyr   0.8.0.1
## ✔ tidyr   0.8.3       ✔ stringr 1.4.0  
## ✔ readr   1.3.1       ✔ forcats 0.4.0

## ── Conflicts ────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

# simulto datos
x <- rnorm(100, 2, 10)
y <- 2 + 3 * x + rnorm(length(x), 1, 3)
df <- data.frame(id = rep(1:100, each = 3),
                 y = y ,
                 x = x)

Hacemos un group_by y un do, ya sé que en R haríamos un lm(y ~ factor(id) * x, data =df ) y punto, pero es por algo lo de hacerlo de otra forma.

coeficientes <- df %>%
  group_by(id) %>%
  do(coef_x = coef(lm(y ~ x, .))[2]) %>%
  unnest(coef_x)

coeficientes

## # A tibble: 100 x 2
##       id coef_x
##    <int>  <dbl>
##  1     1   3.15
##  2     2   2.78
##  3     3   2.85
##  4     4   3.04
##  5     5   3.18
##  6     6   2.45
##  7     7   2.99
##  8     8   7.13
##  9     9   3.75
## 10    10   3.06
## # … with 90 more rows

En Spark

Iniciamos sparklyr y creamos el spark dataframe a partir de df

library(sparklyr)

## 
## Attaching package: 'sparklyr'

## The following object is masked from 'package:purrr':
## 
##     invoke

sc <- spark_connect(master = "local")

df_tbl <- sc %>% sdf_copy_to(df, name = "df_spark", overwrite = TRUE)
df_tbl

## # Source: spark<df_spark> [?? x 3]
##       id      y      x
##    <int>  <dbl>  <dbl>
##  1     1 -18.9   -8.24
##  2     1  27.4    6.79
##  3     1 -28.4  -10.7 
##  4     2  37.4   10.4 
##  5     2  -6.58  -3.45
##  6     2  24.6    9.95
##  7     3  23.4    6.32
##  8     3 -49.5  -17.1 
##  9     3  18.7    8.48
## 10     4  21.1    6.48
## # … with more rows

Y usamos ahora casi la misma sintaxis que antes, pero en vez de usar lm usamos ml_linear_regression de MLlib.

coeficientes_spark <-  df_tbl %>% group_by(id) %>% 
  do(coeficientes = coef(ml_linear_regression(., y ~ x))[[2]])  %>% 
  unnest(coeficientes)

coeficientes_spark

## # A tibble: 100 x 2
##       id coeficientes
##    <int>        <dbl>
##  1    12         2.83
##  2    13         3.20
##  3    14         2.65
##  4    18         3.00
##  5    25         3.08
##  6    37         2.71
##  7    38         3.09
##  8    46         2.76
##  9    50         3.22
## 10    52         2.64
## # … with 90 more rows

Y lo llamo “ÑAAS” porque aunque es verdad que me hace los modelos en spark para cada id el resultado de aplicar coef al modelo me devuelve el coeficiente pero en estructura de datos de R, no en spark y lo que queremos es que los coeficientes estén en otro sparkdataframes. Así que si alguien sabe como hacer esto en scala usando UDF’s o UDAF’s que lo comente por aquí.