Bonjour,
Je cherche à récupérer les sous-titres / scripts des JT des différentes chaîne TV.
Il y a plusieurs pistes pour récupérer les sous-titres :
- via les box des fournisseurs. Je n'ai rien trouvé sur ce sujet, même pas le format (texte, bitmap ?)
- via la TNT HD (DVB-T), il y a un article sur ce sujet ici. Le format est malheureusement du bitmap mais toujours avec la même police et l'OCR semble bien fonctionner. Je pense prendre une carte DVB-T usb à base du chipset Rtl2832U et tester cette piste. Une liste des cartes TNT est ici et un article sur la TNT sous Linux là
- reconnaissance vocale sur l'audio. Par exemple utiliser Julius et trouver un modèle en français. L'avantage étant qu'en l'absence de sous-titre, on a tout de même le script. Mais trouver un modèle pré-entraîné en français n'est pas forcément facile.
Auriez-vous :
- d'autres pistes à creuser
- plus d'infos sur celles listées ici ?
Merci.
# Sous-titres en texte ?
Posté par cg . Évalué à 3.
Il n'y a pas les sous-titre sous forme de texte, dans un flux séparé, par exemple ?
[^] # Re: Sous-titres en texte ?
Posté par Pascal Richier (site web personnel) . Évalué à 4.
Il y avait le télétexte mais en 2016, au passage à la TNT HD, ils ont arrêté d'après https://fr.wikipedia.org/wiki/T%C3%A9l%C3%A9texte.
# les sites de replay
Posté par palm123 (site web personnel) . Évalué à 5. Dernière modification le 22 janvier 2022 à 09:20.
si je fais, avec yt-dlp, vu que youtube-dl n'est plus mis à jour depuis 6 mois (pour le journal de ce soir ou d'autres)
yt-dlp --write-subs https://www.france.tv/france-2/journal-20h00/3018949-edition-du-vendredi-21-janvier-2022.html
j'obtiens entre autres choses des fichiers de sous-titres
edit : ajouter
--skip-download
pour éviter de télécharger la vidéoウィズコロナ
[^] # Re: les sites de replay
Posté par Pascal Richier (site web personnel) . Évalué à 1.
Effectivement ça fonctionne pour quelques JT, et c'est déjà super. Pour TF1 il semble qu'ils n'intègrent pas les sous-titres :(.
# As-tu vu cette dépêche ?
Posté par Guillaume Smet (site web personnel) . Évalué à 4.
Tu as probablement vu cette dépêche qui parle d'un sujet assez proche : https://linuxfr.org/news/compter-automatiquement-les-mots-prononces-sur-les-chaines-d-information-continue ?
[^] # Re: As-tu vu cette dépêche ?
Posté par Pascal Richier (site web personnel) . Évalué à 1.
Merci Guillaume, je n'avais pas vu ! C'est exactement ce que je cherche à faire.
# ccextractor
Posté par Anonyme . Évalué à 4. Dernière modification le 22 janvier 2022 à 18:59.
https://www.ccextractor.org/
libre, empaqueté chez debian, je ne sais pas chez les autres.
Je l'utilise pour extraire les sous-titres des videos de francetelevions
[^] # Re: ccextractor
Posté par Pascal Richier (site web personnel) . Évalué à 1.
Super projet, merci.
@peetah Tu confirmes que les chaînes française diffusent les sous-titres dans les flux DVB-T de la TNT ? J'avais lu qu'elles avaient arrêté en 2016 lors du passage en TNT HD.
[^] # Re: ccextractor
Posté par Anonyme . Évalué à 3. Dernière modification le 26 janvier 2022 à 13:04.
aucune idée: les videos diffusées et enregistrées via la freebox contiennent des sous titres que ffmpeg detecte mais ne sait pas interpréter à ma connaissance, et que ccextractor est capable d'extraire. Il y a peut être des contraintes techniques qui restreignent leur diffusion via la TNT
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.