textmining

Cachitos. Tercera parte

Cómo aún ando medio “covitoso”, reciclo el código y comentarios de la entrada de 2021 y con solo cambiar la ruta del fichero de subtítulos ya nos vale todo el código. El csv con el texto de los subtítulos para 2021 lo tenéis en este enlace. Vamos al lío library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" Leemos el csv. Uso DT y así podéis ver todos los datos o buscar cosas, por ejemplo Ayuso o pandemia , monarquía o podemos

Cachitos. Segunda parte

Nada, esto es sólo para leernos con R los subtítulos del post anterior. library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" # Construims un data frame con los nombrs de los ficheros nombre_ficheros <- list.files(path = str_glue("{root_directory}{anno}_txt/")) %>% enframe() %>% rename(n_fichero = value) nombre_ficheros ## # A tibble: 1,384 × 2 ## name n_fichero ## <int> <chr> ## 1 1 00000001.jpg.subtitulo.tif.txt ## 2 2 00000002.jpg.subtitulo.tif.txt ## 3 3 00000003.jpg.subtitulo.tif.txt ## 4 4 00000004.

Cachitos. Tercera parte

Después del último post llega el momento de ver si se puede sacar algo interesante del texto. Ya aviso ( y avisé) de que no tengo mucha idea de análisis de texto, por lo que esto es sólo un pequeño ejercicio que he hecho. El csv con el texto de los subtítulos para 2020 lo tenéis en este enlace. Vamos al lío library(tidyverse) root_directory = "~/canadasreche@gmail.

Cachitos. Segunda parte

En el post anterior vimos como extraer 1 de cada n fotogramas de un video, recortar una zona en concreto y pasarle un software de reconocimiento óptico de caracteres para tener el texto. En esta parte vamos a ver como leer esos ficheros de texto y también una de las formas de quitar subtítulos duplicados. Para eso vamos a utilizar R. Vamos al lío. Ejecuto el script extract_subtitles.sh del post anterior de la siguiente forma.