análisis · Muestrear no es pecado

Cachitos. Tercera parte

16 Jan 2022

análisis / ocr / textmining

Cómo aún ando medio “covitoso”, reciclo el código y comentarios de la entrada de 2021 y con solo cambiar la ruta del fichero de subtítulos ya nos vale todo el código. El csv con el texto de los subtítulos para 2021 lo tenéis en este enlace. Vamos al lío library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" Leemos el csv. Uso DT y así podéis ver todos los datos o buscar cosas, por ejemplo Ayuso o pandemia , monarquía o podemos

Cachitos. Segunda parte

10 Jan 2022

análisis / textmining / ocr

Nada, esto es sólo para leernos con R los subtítulos del post anterior. library(tidyverse) root_directory = "/media/hd1/canadasreche@gmail.com/public/proyecto_cachitos/" anno <- "2021" # Construims un data frame con los nombrs de los ficheros nombre_ficheros <- list.files(path = str_glue("{root_directory}{anno}_txt/")) %>% enframe() %>% rename(n_fichero = value) nombre_ficheros ## # A tibble: 1,384 × 2 ## name n_fichero ## <int> <chr> ## 1 1 00000001.jpg.subtitulo.tif.txt ## 2 2 00000002.jpg.subtitulo.tif.txt ## 3 3 00000003.jpg.subtitulo.tif.txt ## 4 4 00000004.

Cachitos 2021

08 Jan 2022

linux / ocr / análisis

Retomando la entrada de cachitos de la nochevieja de 2020 Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos. Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante. Ejemplo: Y el texto extraído con tesseract El cámara se arrima, pero sin tocar.... NW, SN 4 como el PSOE con la monarquía.

Cachitos. Tercera parte

26 Jan 2021

análisis / textmining / ocr

Después del último post llega el momento de ver si se puede sacar algo interesante del texto. Ya aviso ( y avisé) de que no tengo mucha idea de análisis de texto, por lo que esto es sólo un pequeño ejercicio que he hecho. El csv con el texto de los subtítulos para 2020 lo tenéis en este enlace. Vamos al lío library(tidyverse) root_directory = "~/canadasreche@gmail.

Cachitos. Segunda parte

13 Jan 2021

análisis / textmining / ocr

En el post anterior vimos como extraer 1 de cada n fotogramas de un video, recortar una zona en concreto y pasarle un software de reconocimiento óptico de caracteres para tener el texto. En esta parte vamos a ver como leer esos ficheros de texto y también una de las formas de quitar subtítulos duplicados. Para eso vamos a utilizar R. Vamos al lío. Ejecuto el script extract_subtitles.sh del post anterior de la siguiente forma.

Cachitos. Primera parte

11 Jan 2021

linux / ocr / análisis

En las ya pasadas navidades se generó algo de polémica con el especial de cachitos nochevieja. Qué si los rótulos se metían mucho con la oposición, el rey y ciudadanos y muy poco con el gobierno. Así que me entró la curiosidad y pensé, ¿por qué no analizar los rótulos del cachitos nochevieja de 2020 y de paso del 2019? Pues me pusé manos a la obra. Lo primero de todo, dar las gracias a Raúl Vaquerizo y a Carlos Gil Bellosta por darme consejos y pasarme el enlace al blog de Waldo Jaquith en el que se basa esta primera entrada.