À la recherche d'un logiciel de reconnaissance vocale, j'ai passé quelques heures à installer deepspeech. Bien sûr la documentation que j'ai trouvé sur internet ne parle que des modèles pré entraîné anglais.
La difficulté était donc de trouver des modèles français qui fonctionnent…
Voici un condensé des commandes que j'ai tapé dans le terminal pour avoir de la reconnaissance vocale en français.
Prérequis:
sudo apt install pyaudio portaudio19-dev
mkdir $HOME/tmp/
cd $HOME/tmp/
git clone git@github.com:mozilla/DeepSpeech-examples.git
wget https://github.com/common-voice/commonvoice-fr/releases/download/fr-v0.6/model_tensorflow_fr.tar.xz
tar -Jxvf model_tensorflow_fr.tar.xz
Installation deepspeech
virtualenv -p python3 deepspeech-venv
cd deepspeech-venv
source bin/activate
pip3 install deepspeech # or deepspeech-gpu
Copie des modèles fr
cp -r $HOME/tmp/model_tensorflow_fr models
Installation de mic_vad_streaming pour capter la vois et convertir en texte
cp -r $HOME/tmp/DeepSpeech-examples/mic_vad_streaming/ mic_vad_streaming
cd mic_vad_streaming
pip3 install -r requirements.txt
Lancement de mic_vad_streaming avec modèles fr
python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer
Le texte que j'ai lu :
bonjour linuxfr
voici les manipulations à faire pour essayer deepspeech en français
plus exactement on va essayer la voix vers le texte, le speech to text STT
savez vous s'il existe des modèles pré entraînées en français plus complet que ceux ci
Le texte qui ressort :
python3 mic_vad_streaming.py -m ../models/output_graph.pbmm -s ../models/kenlm.scorer
Initializing model…
Listening (ctrl-C to exit)…
Recognized: bonjour linux faire
Recognized: voici les manipulations à faire pour essayer dite
Recognized: en français
Recognized: plus exactement on va essayer la voix vers le texte
Recognized: le spec tout texte
Recognized: a vos il existe des modèles pré entraînées en français plus complet que ceux ci
En vrai ça marche pas mal… J'imagine qu'il faut vraiment construire des modèles/scorer français (*.pbmm et *.scorer) pour avoir plus de mots et de prononciation/timbre/caractéristique de voix qui soient reconnus.
CommonVoice est-il la clé pour de la reco vocale de qualité et libre ?
Et vraiment, si vous connaissez des modèles pré entraîné en français de meilleure qualité, je suis preneur.
# Quelques ajustements
Posté par harlock974 . Évalué à 3.
Bonjour rockn,
Merci pour le partage, ça faisait longtemps que j'avais envie d'essayer la reconnaissance vocale.
J'ai eu un peu de mal pour l'installation (pb de dépendances et autre). Voici ce qui a marché chez moi (Linux Mint 20.2) :
[^] # Re: Quelques ajustements
Posté par rockn (site web personnel) . Évalué à 1.
Merci pour ces ajustements :)
# Commentaire supprimé
Posté par Anonyme . Évalué à 3.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: convertir un fichier audio
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 2.
ffmpeg
etsox
entre autreslame
ouflac
en console. Gnac et free:ac aussi en mode graphique.“It is seldom that liberty of any kind is lost all at once.” ― David Hume
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 2. Dernière modification le 07 octobre 2021 à 08:57.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: convertir un fichier audio
Posté par rockn (site web personnel) . Évalué à 2.
Si je me réfère à la doc https://deepspeech.readthedocs.io/en/r0.9/
Il faudrait tester cette commande :
En adaptant les chemins du modèle et scorer.
J'ai pas encore essayé…
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 2.
Ce commentaire a été supprimé par l’équipe de modération.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.