Cachitos 2021

Retomando la entrada de cachitos de la nochevieja de 2020

Actualizo el script para bajar el video de la nochevieja de este año, extraer los fotogramas y tener los subtítulos.

Este año parece (o yo no me he enterado) que ha habido menos polémica. Pero como siempre, nos hemos reído bastante.

Ejemplo:

Y el texto extraído con tesseract

El cámara se arrima, pero sin tocar.... NW,
SN
4 como el PSOE con la monarquía. | aaa

Aquí os dejo el script para bajar el vídeo y extraer los subtítulos.

#!/bin/bash

root_directory=/home/jose/proyecto_cachitos
mkdir -p $root_directory
cd $root_directory

echo "First arg: $1"
mkdir -p video

cd video

ANNO=$1
echo $ANNO
suffix_video="_cachitos.mp4"
suffix_jpg_dir="_jpg"
suffix_txt_dir="_txt"

video_file=$ANNO$suffix_video
echo $video_file

if [ "$ANNO" == "2021" ] ;
then
    wget https://lote5-vod-hls-geoblockurl.akamaized.net/resources/TE_GLUCA/mp4/4/0/1641020001504.mp4 
    mv 1641020001504.mp4 $video_file
fi
 
if [ "$ANNO" == "2020" ] ;
then
    wget http://mediavod-lvlt.rtve.es/resources/TE_GLUCA/mp4/2/4/1609487028742.mp4
    mv 1609487028742.mp4 $video_file
fi

if [ "$ANNO" == "2019" ] ;
then
    wget https://rtvehlsvod2020a-fsly.vod-rtve.cross-media.es/resources/TE_GLUCA/mp4/0/9/1577860099590.mp4
    mv 1577860099590.mp4 $video_file
fi

# Pasar a jpg uno de cada 220 fotogramas

mplayer -vf framestep=200 -framedrop -nosound $video_file -speed 100 -vo jpeg:outdir=$ANNO$suffix_jpg_dir 
 
cd $ANNO$suffix_jpg_dir 
 
# Convertir a formato más pequño
find . -name '*.jpg' |  parallel -j 6 mogrify -resize 642x480 {}

# Seleccionar cacho dond estan subtitulos
find . -name '*.jpg' |  parallel -j 6 convert {} -crop 460x50+90+295 +repage -compress none -depth 8 {}.subtitulo.tif

# Poner en negativo para que el ocr funcione mejor
find . -name '*.tif' |  parallel -j 6 convert {} -negate -fx '.8*r+.8*g+0*b' -compress none -depth 8 {}

# Pasar el ocr con idioma en español
find . -name '*.tif' |  parallel -j 6 tesseract -l spa {} {}

# mover a directorio texto
mkdir -p $root_directory/$ANNO$suffix_txt_dir

mv *.txt $root_directory/$ANNO$suffix_txt_dir

cd $root_directory
 
comments powered by Disqus