Cómo aún ando medio “covitoso”, reciclo el código y comentarios de la entrada de 2021 y con solo cambiar la ruta del fichero de subtítulos ya nos vale todo el código.
El csv con el texto de los subtítulos para 2021 lo tenéis en este enlace.
Vamos al lío
library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" Leemos el csv. Uso DT y así podéis ver todos los datos o buscar cosas, por ejemplo Ayuso o pandemia , monarquía o podemos
Nada, esto es sólo para leernos con R los subtítulos del post anterior.
library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" # Construims un data frame con los nombrs de los ficheros nombre_ficheros <- list.files(path = str_glue("{root_directory}{anno}_txt/")) %>% enframe() %>% rename(n_fichero = value) nombre_ficheros ## # A tibble: 1,384 × 2 ## name n_fichero ## <int> <chr> ## 1 1 00000001.jpg.subtitulo.tif.txt ## 2 2 00000002.jpg.subtitulo.tif.txt ## 3 3 00000003.jpg.subtitulo.tif.txt ## 4 4 00000004.
Retomando la entrada de cachitos de la nochevieja de 2020
Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos.
Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante.
Ejemplo:
Y el texto extraído con tesseract
El cámara se arrima, pero sin tocar.... NW, SN 4 como el PSOE con la monarquía.
Después del último post llega el momento de ver si se puede sacar algo interesante del texto. Ya aviso ( y avisé) de que no tengo mucha idea de análisis de texto, por lo que esto es sólo un pequeño ejercicio que he hecho. El csv con el texto de los subtítulos para 2020 lo tenéis en este enlace.
Vamos al lío
library(tidyverse) root_directory = "~/canadasreche@gmail.
En el post anterior vimos como extraer 1 de cada n fotogramas de un video, recortar una zona en concreto y pasarle un software de reconocimiento óptico de caracteres para tener el texto. En esta parte vamos a ver como leer esos ficheros de texto y también una de las formas de quitar subtítulos duplicados. Para eso vamos a utilizar R. Vamos al lío.
Ejecuto el script extract_subtitles.sh del post anterior de la siguiente forma.
En las ya pasadas navidades se generó algo de polémica con el especial de cachitos nochevieja. Qué si los rótulos se metían mucho con la oposición, el rey y ciudadanos y muy poco con el gobierno. Así que me entró la curiosidad y pensé, ¿por qué no analizar los rótulos del cachitos nochevieja de 2020 y de paso del 2019? Pues me pusé manos a la obra. Lo primero de todo, dar las gracias a Raúl Vaquerizo y a Carlos Gil Bellosta por darme consejos y pasarme el enlace al blog de Waldo Jaquith en el que se basa esta primera entrada.