Nous avons mis en place cinq collections de ce type : russe, chinois, français, anglais et néerlandais (pour un total d'environ 30 000 mots).
Ces collections sont librement et facilement téléchargeables depuis notre serveur (sous licence Creative Commons BY).
De plus, l'interopérabilité, n'a pas été oubliée : le contenu de ces bases de données est utilisable par n'importe quel développeur grâce à la mise à disposition d'index XML.
Quelques outils logiciels, distribués sous licence GPL permettent d'ores et déjà de tirer parti de ce matériel audio :
- «Shtooka Explorer» permet la consultation de ces collections de façon locale ou via internet ;
- «Shtooka Recorder» permet l'enregistrement systématique de listes de mots ou expressions (il permet d'enregistrer un millier de mots en moins d'une heure).
Ces collections sonores ont plusieurs domaines d'utilisation. Une utilisation pédagogique : elles peuvent être utiles pour l'apprentissage du vocabulaire d'une langue étrangère, pour des exercices de dictée ou encore des exercices de compréhension ; ces collections peuvent servir à illustrer des dictionnaires électroniques ou encore être utile à la recherche en linguistique.
Les collections audio SWAC se présentent sous la forme d'ensembles de fichiers audio Ogg ou Flac contenant des informations supplémentaires (sur le locuteur, la collection, le mot, ...) dont le stockage est rendu possible par le système des tags Vorbis Comment.
Malheureusement, si la documentation officielle de Vorbis Comment propose une standardisation de noms de champs permettant de stocker des informations propres aux collections musicales (nom de l'artiste, nom du compositeur, nom de l'album) ces champs d'information ne peuvent être utilisés dans le cas de collections audio linguistiques.
Le système de dénomination des tags SWAC, dont nous proposons l'adoption, définit une quarantaine de champs dédiés à ce type de collection audio, avec, par exemple, un champ pour le code ISO 639-3 de la langue du mot prononcé, la langue maternelle du locuteur, la région et le pays d'origine du locuteur, le nom de la collection, etc...
Pour illustrer notre propos, nous avons préparé cinq collections sonores, pour un total d'environ 30 000 mots.
Cinq voix différentes ; cinq langues différentes : anglais, russe, chinois, français ainsi que néerlandais. Trois de ces collections ont été enregistrées par notre équipe et les lecteurs réguliers de Linuxfr en ont déjà été informés au cours de l'année 2006. Il s'agit des bases audio libres de mots français, russes et chinois. Des tags SWAC ont été ajouté à ces fichiers.
À ces collections viennent s'ajouter deux collections qui proviennent du projet Wiktionnaire (le dictionnaire du projet Mediawiki). Ces fichiers ont été rassemblés grâce à l'aide de techniciens de Mediawiki-Commons, triés, normalisés puis tagués (il a fallut extraire les informations à partir des noms de fichiers : mot prononcé, intonation, index permettant de distinguer différents homographes).
La collection en langue anglaise a depuis été enrichie de 50% de mots supplémentaires, grâce à l'utilisation par l'équipe du Wiktionnaire de notre outil d'enregistrement (Shtooka Recorder). Nous avons également ajouté un paquet « Conjugaisons » au paquet français (80 verbes ont été conjugués au présent, à l'imparfait ainsi qu'au futur. Le listing de ces enregistrements a été généré grâce au fichiers XML de définitions du logiciel Verbiste).
Ces collections sonores, sont librement et facilement téléchargeables depuis notre serveur dans (sous licence Creative Commons BY) différents formats (ogg, flac). De plus, des index au format XML, permettent un accès distant aux informations contenues dans ces fichiers. Il est donc possible, pour n'importe quel développeur d'utiliser ce matériel audio.
Il existe aujourd'hui une petite palette d'outils logiciels, distribués sous licence GPL, qui permettent de travailler avec les collections SWAC :
- «Shtooka Explorer» est une interface pour Windows et Linux (et bientôt Mac OS X) qui permet de consulter ces collections sonores de façon locale ou distante (il est donc possible de consulter l'ensembles des enregistrements hébergés sur notre serveur sans avoir à télécharger l'ensemble de ces collections) ;
- «Shtooka Recorder» est un outil qui permet l'enregistrement systématique de listes de mots ou expressions. Ces fichiers sont sauvegardés aux formats Wav, Ogg ou Flac et les informations sont encapsulées dans des tags SWAC (le portage linux de ce programme n'est pas encore achevé, mais celui-ci peut d'ores et déjà être utilisé avec à Wine) ;
- «Shtooka Scanner» est un programme en ligne de commande disponible pour Linux, Windows (distribué avec les deux logiciels précédents) qui permet d'extraire les tags contenus dans l'ensemble des fichiers audio Ogg et Flac d'un répertoire, et de générer un index texte. Cet index peut ensuite être utilisé par différents programmes. Cet outil est utilisé pour la gestion de notre serveur et la génération d'index XML, il est également utilisé par Shtooka Explorer pour l'exploration de collections sonores locales.
Vous pouvez aider notre projets de différentes façons :
- En nous aidant à développer de nouveaux outils pédagogiques tirant parti de ce matériel sonore (logiciels de dictée, d'apprentissage du vocabulaire) ;
- En utilisant nos outils et nous proposant des améliorations ;
- En nous aidant à créer les paquets d'installations ;
- En constituant de nouvelles listes, ou en prêtant votre voix pour l'enregistrement de nouvelles collections sonores ;
- En nous aidant à améliorer la cohérence des informations des collections déjà existantes ;
- Et de dizaines d'autres façons (traduction, graphisme, soutien financier etc...).
Aller plus loin
- Collections audio SWAC (228 clics)
- Shtooka Explorer (83 clics)
- Shtooka Recorder (57 clics)
- Vorbis Comment (55 clics)
# pochette d'album
Posté par wistiti68 . Évalué à -3.
Personnellement, ce manque est une des raisons principales pour lesquels ma collection reste encore en mp3 :-(
(l'autre étant que mon baladeur ne supporte pas l'ogg)
[^] # Re: pochette d'album
Posté par Lu (site web personnel) . Évalué à 4.
[^] # Re: pochette d'album
Posté par ome . Évalué à 1.
Normalement dans sa dernière version, le flac supporte les images. Cependant j'ai fait le test pour mon iAudio et ça a planté le firmware lorsque j'ai lancé la lecture. Soit c'est le baladeur qui ne le supporte pas, soit c'est le type d'image que j'ai ajouté au morceau musical qui n'est pas le bon (j'ai testé avec le type 1) ou alors c'est parce que je n'ai pas fourni une autre info nécessaire (cf lien 2). Je n'ai pas encore pris le temps pour tester plus amplement.
http://flac.sourceforge.net/documentation_tools_metaflac.htm(...)
http://flac.sourceforge.net/format.html#def_PICTURE
# Bravo
Posté par BohwaZ (site web personnel, Mastodon) . Évalué à 3.
Merci beaucoup et continuez !
« Je vois bien à quels excès peut conduire une démocratie d'opinion débridée, je le vis tous les jours. » (Nicolas Sarkozy)
[^] # Re: Bravo
Posté par zgnouf . Évalué à 6.
[^] # Re: Bravo
Posté par Opera . Évalué à 1.
Dommage que l'on ai pas plus d'info sur le port de shtooka recorder, comme par exemple si il reposera sur Jack, etc.
[^] # gstreamer
Posté par Eric Streit . Évalué à 1.
le shtooka recorder pou linux repose sur gstreamer/pygtk : il fonctionne et il reste quelques finitions avant publication.
d'autres outils en python/gtk (linux) sont en réécriture ...
voilà
Eric!
------
# shtooka-explorer
Posté par idodesuke . Évalué à 1.
mais:
Pourquoi avoir utilisé du Pascal pour shtooka-explorer_1.0_src.zip ???
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.