Enregistrer les langues du monde village par village avec Lingua Libre

Lingua Libre est un site soutenu par l’association Wikimédia France. Il vise à faciliter l’enregistrement audio de prononciation de mots. En mars 2021, le site a souffert de l’incendie survenu dans le datacenter d’OVH à Strasbourg. Le site est revenu en ligne le 22 avril ; c’est l’occasion de présenter ce projet.

Sommaire

Lingua Libre, ça sert à quoi ?

Savez-vous comment se prononcent L'Haÿ-les-Roses ou Moon-sur-Elle ? Réponse, /laj lɛ ʁoz/ et /mɔ̃ syʁ‿ɛl/. Vous ne savez pas lire l’alphabet phonétique international ? Ce n’est pas grave, c’est là qu’intervient Lingua Libre. Cet outil permet d’importer une liste de mots à enregistrer, puis de les prononcer les uns après les autres (le logiciel s’occupera de passer au mot suivant dès qu’il détectera un blanc), et une fois l’enregistrement terminé, tous les fichiers seront automatiquement envoyés sur Wikimedia Commons pour ensuite pouvoir être réutilisés le plus largement possible. En particulier, un bot, nommé Lingua Libre Bot, tourne sur les Wiktionnaires francophone et occitanophone pour ajouter automatiquement les nouvelles prononciations enregistrées dans les entrées lexicographiques. Le bot tourne également sur Wikidata pour ajouter ces prononciations aux données lexicographiques.

Diversité linguistique

Plus dur, comment prononcez-vous Bruxelles : /bʁy.sɛl/ ou /bʁyk.sɛl/ ? Les deux se disent, mais les puristes préfèrent la première prononciation. Idem, pour Chamonix, Metz, etc. Lingua Libre a pour but de révéler la diversité linguistique du français au travers de la façon dont il est parlé. Et, oui ! Laccent parisien n’est qu’un accent parmi d’autres. Il est donc intéressant d’avoir des enregistrements du même mot du Nord, de l’Est ou encore du Sud-Ouest de la France, de Belgique, de Suisse, du Québec, du Cameroun, de Côte d’Ivoire, etc. On parle tous français, mais pas de la même façon.

Autres langues

Bien que le projet soit soutenu par Wikimédia France, il a une vocation internationale, comme tous les sites Wikimédia (Wikipédia, Wiktionnaire, Wikisource, Wikidata, etc.). Ainsi des mots dans toutes les langues et dialectes du monde peuvent-ils être enregistrés via Lingua Libre. Il est même prévu de pouvoir enregistrer des mots dans les différentes langues des signes en utilisant cette fois votre webcam au lieu de votre microphone.

Quelques statistiques

Comme le site utilise Wikibase pour stocker les enregistrements, il est possible de faire diverses requêtes SPARQL pour interroger les données. Au niveau des statistiques, les 400 000 enregistrements ont été dépassés en février 2021, soit deux ans et demi après le lancement du site (août 2018). Ces enregistrements ont été effectués dans 115 langues par un peu plus de 500 personnes. Les 500 000 enregistrements devraient être atteints en juillet 2021.

La majorité des enregistrements ont été effectués en français (un peu moins de 200 000), puis suivent le bengali (~ 50 000), l’espéranto (~ 30 000), le polonais (~ 25 000), l’ukrainien (~ 18 000), l’anglais, l’occitan, l’allemand, le marathi, le roumain.

Un peu d’histoire

La première version de Lingua Libre a vu le jour en 2016. Elle a été développée par Nicolas Vion, développeur qui avait précédemment développé Shtooka à partir de 2006. Shtooka est (était ?) un projet d’enregistrement similaire avec des enregistrements placés sous licence libre. Avant l’arrivée de Lingua Libre, une grande partie des enregistrements audio présents sur les entrées du Wiktionnaire avait été réalisée avec Shtooka.

Une seconde version de Lingua Libre est sortie à l’été 2018. À cette occasion, le site a été entièrement refondu. Il est depuis lors basé sur MediaWiki avec une Wikibase intégrée permettant de stocker les métadonnées sur tous les enregistrements et une connexion au site à partir des identifiants que l’on utilise sur les autres projets Wikimedia (Wiktionnaire, Wikipedia, Wikidata, etc.). Cette seconde version est l’œuvre d’0x010C, un Wikimédien.

En juin 2020, la charte graphique et l’interface utilisateur ont été profondément remaniées. L’idée de la refonte graphique était de fournir une identité propre au site Lingua Libre et ainsi de le différencier des autres sites Wikimédia.

En mars 2021, le site a été touché par l’incendie des datacenters d’OVH. Le site n’est revenu en ligne que le 22 avril, soit environ un mois et demi après l’incendie. Aucune donnée (enregistrements, page du site, etc.) n’a été perdue. Du côté technique, le site a été mis à jour avec la dernière version longue durée de Mediawiki (1.35).

Des initiatives similaires

Shtooka est le premier site d’enregistrement de prononciations à ma connaissance. Il avait fait l’objet d’une dépêche il y a plus de dix ans sur Linuxfr. Tout le contenu et les enregistrements sont sous licence libre. Comme indiqué précédemment, c’est l’ancêtre de Lingua Libre.
(NdM : l’occasion d’étiqueter tous les contenus parlant de shtooka et de retomber sur d’autres projets comme OpenSpell, Taboeba.org, etc.)
Forvo est probablement le site équivalent le plus connu. Ce site présente une ergonomie plus aboutie que Lingua Libre mais utilise une licence non libre.
Lingopolo est un site conçu pour apprendre les langues à partir d’enregistrements audio. Ce n’est donc pas un site d’enregistrement à proprement parler mais un site qui utilise des enregistrements audio. Les données ne sont pas libres (CC by-nc-sa).
Common Voice est une initiative de Mozilla qui vise à constituer une immense base de données d’enregistrements vocaux qui permet à n’importe qui de facilement et rapidement entraîner des applications interagissant avec la voix, potentiellement dans toutes les langues. Les données de Common Voice sont disponibles sous licence CC0. (NdM : l’étiquette common_voice a été mise sur les contenus concernés)

Un peu de technique

Les différentes requêtes web dans l’infrastructure de Lingua Libre

Le site s’appuie sur MediaWiki. Les enregistrements sont effectués via une extension Mediawiki spécialement développée pour le besoin de Lingua Libre, RecordWizard.

Il est nécessaire d’avoir un compte sur un site Wikimédia pour pouvoir contribuer à Lingua Libre ; la connexion s’effectue via l’extension OAuth. À noter qu’il est cependant possible de contribuer en « utilisant » le compte d’un autre utilisateur. Il a en effet été pensé dès le début du projet que la création de compte pouvait être un frein à la contribution. Un utilisateur enregistré a ainsi la possibilité de créer plusieurs locuteurs attachés à un même compte Wikimédia. Cela permet par exemple d’arriver dans un village reculé et de faire enregistrer des personnes peu à l’aise avec l’informatique ; elles n’ont qu’à prononcer les mots les uns après les autres. Sur Wikimedia Commons, les différents locuteurs seront visibles dans le nom du fichier (exemple).

Une fois la série de mots enregistrés, une entrée est créée dans la base de données Wikibase pour chaque prononciation. Les enregistrements sont par ailleurs automatiquement envoyés sur Wikimedia Commons pour pouvoir être réutilisés par la suite. Un robot, LinguaLibreBot, se charge ensuite d’aller déposer les fichiers audio nouvellement créés sur le Wiktionnaire francophone, le Wiktionnaire occitanophone et sur les lexèmes de Wikidata. D’autres sites Wikimedia seront pris en charge dans le futur.

Comment puis-je contribuer ?

Comme tous les projets libres, il est possible de contribuer de différentes façons sur Lingua Libre.

Enregistrer des prononciations

Accessible à tous et toutes, vous pouvez enregistrer des séries de mots afin d’ajouter dans la base de données votre accent. Il n’y a pas de « bonne » prononciation donc toutes les prononciations sont les bienvenues. Ce sont les personnes qui réutilisent vos enregistrements qui feront le tri suivant leurs critères.

Traduire des pages

Le site Lingua Libre est un wiki. Comme il a vocation à être accessible à tous et toutes, toutes les pages du site sont traduisibles. Donc si vous remarquez qu’une page n’est pas traduite dans la langue que vous parlez, n’hésitez pas.

À noter que les libellés des propriétés de la Wikibase sont également traduisibles.

Écrire des pages d’aide

Comme pour beaucoup d’autres projets libres, la documentation est le parent pauvre de Lingua Libre même si des efforts ont été réalisés dans ce sens. Donc si vous souhaitez contribuer en améliorant ou écrivant des pages d’aide, on vous accueillera les bras ouverts.

Corriger des bogues/ajouter des fonctionnalités

Historiquement, le site a été développé par un unique développeur. Le site est actuellement maintenu par une entreprise prestataire financée par Wikimédia France. À terme, il faudrait que Lingua Libre soit maintenu par un noyau solide de quelques développeurs capables de corriger rapidement des petits défauts. Les bogues plus compliqués pourront continuer à être pris en charge par Wikimédia France.

L’ensemble du code est visible sur Github. Les push requests sont régulièrement vérifiées et appliquées par l’administrateur systèmes et réseaux de Wikimédia France. Au niveau compétence technique, il y a de la CSS et du Javascript. MediaWiki est pour sa part écrit principalement en PHP. Les bogues et demande de fonctionnalités sont visibles sur Phabricator. Au niveau de la CSS, quelques bogues restent après le passage à la nouvelle charte graphique en juin 2020. Si vous voulez donner un coup de main, ça se passe ici.

Le futur ?

Lingua Libre est un site encore jeune mais qui est déjà pleinement fonctionnel. Le futur du site sera probablement conditionné d’une part au soutien financier apporté par l’association Wikimédia France et d’autre part par la constitution d’une communauté suffisamment nombreuse pour assurer à la fois la création de nombreuses prononciations et la maintenance technique du site. Pour le moment, cette communauté est surtout composée de contributeurs et contributrices de France accompagnée d’une participation de quelques personnes d’Inde. L’internationalisation de la communauté est également un enjeu majeur afin d’assurer une plus grande diversité des mots enregistrés.

Aller plus loin

Lingua Libre (199 clics)
Dépôt Github (32 clics)

# Le dernier enregistrement

Posté par SChauveau le 07 juin 2021 à 15:03. Évalué à 2.

Dans le tout dernier enregistrement daté de mars on entend "Ha Ha Hou C'est chaud!"
- [^] # Re: Le dernier enregistrement
  
  Posté par pamputt le 12 juin 2021 à 10:25. Évalué à 2.
  
  Euh, je ne comprends pas. De quel fichier est ce que tu parles ? Tu peux donner un lien ?
# Pangloss

Posté par Fab'Blab (site web personnel) le 08 juin 2021 à 09:40. Évalué à 2.

Tout le monde ne semble pas pouvoir y contribuer, mais un peu dans le même esprit il y a la collection Pangloss, portée par le CNRS. Les licences sont indiquées sur la page de chaque enregistrement. J’ai vu pas mal de CC BY-NC-ND 3.0, donc la réutilisation est limitée. En tout cas, bravo pour ce projet.
- [^] # Re: Pangloss
  
  Posté par pamputt le 12 juin 2021 à 10:27. Évalué à 2.
  
  Oui Pangloss est également très intéressant (j'ai oublié de le mentionner dans la dépêche). Je vous invite à écouter les histoires prononcées par quelqu'un proche de votre réunion d'origine et à vérifier que vous comprenez bien ce qui est dit. Si jamais, vous ne comprenez pas grand chose/rien, vous avez toujours la possibilité de cliquer sur la prononciation de Paris pour comprendre l'histoire et ensuite réessayer de suivre celle de votre région.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.