Avancées de la reconnaissance vocale en 2011

Posté par Benjamin Verhaeghe (site web personnel) le 27 mars 2011 à 19:11. Modéré par baud123. Licence CC By‑SA.

Étiquettes :

mar.

2011

Voici un sujet qui fait parler de lui, un rêve de l'informatique qui s'approche à grand pas, voire qui est déjà présent dans bien des applications ! Vous avez certainement en tête le fameux « Via Voice » édité par IBM ou son successeur « Dragon naturally Speaking » édité par Scansoft. Les plus accros d'entre vous n'auront pas hésité à installer la reconnaissance vocale prévue par défaut dans XP, Vista ou Seven.

Mais lors du passage au libre, que nous effectuons pour la plupart pour des raisons différentes, avec des approches philosophiques, économiques ou pratiques, nous sommes confrontés à la perte de plusieurs des logiciels et/ou fonctionnalités que nous avions adoptés précédemment (compatibilité de notre écosystème logiciel). Pour ceux d'entre nous qui avaient fait le choix de la reconnaissance vocale, cette fonctionnalité reste difficilement remplaçable dans le monde de GNU/Linux. Les logiciels propriétaires cités précédemment ne sont pas prévus pour fonctionner sous nos distributions, et la communauté ne semble pas encore prête à offrir une alternative efficace. Il existe cependant quelques projets similaires dont l'avancement ne peut être négligé :

tout d'abord la source de données audio qui aide à la mise en place de ces projets : Voxforge collecte les données audio dans différentes langues pour permettre l'implémentation de l'utilisation de ces données par des moteurs de moteurs de reconnaissance vocale Open Source ;
CMUSphinx est le plus célèbre d'entre eux. Il permet – dans le cadre de la recherche principalement – d'obtenir la transcription écrite de données orales. D'un langage de programmation assez simple, basé sur des phonèmes, il permet d'obtenir des résultats prometteurs pour le développement d'applications libres selon les 3 règles chères aux plus stricts d'entre nous ;
un premier développement a été effectué il y a quelques années déjà pour la communauté française, avec Perlbox, qui permet de piloter son ordinateur en français, basé sur CMUsphinx 2 ;
une approche plus récente, toujours basée sur le projet CMUsphinx, est proposée par EvalDictator, mais pas encore disponible en français.

Alors vous me direz, quoi de neuf ? Et bien Google s'est aussi lancé dans la course à la reconnaissance vocale. Cela ne date pas d'hier :

retranscription écrite des dialogue de vidéos en novembre 2008 ;
lancement d'applications et reconnaissance vocale d'un texte sous Android en août 2010 ;
maintenant, c'est au tour de Chrome 11 de bénéficier de ces compétences (peut être).

Quoique je ne sache pas énormément de chose sur les codes de reconnaissance de Google, CMUsphinx est développé en partie avec le Google summer code (voir leurs sites respectifs), ce qui me semble indiquer une utilisation possible de CMUsphinx dans la reconnaissance proposée par Google.

Est-ce que cela va changer la donne pour une meilleure prise en charge de la reconnaissance vocale et une « standardisation » de son utilisation ?
Il est déjà clair que la dictée vocale ne sera pas le seul élément à mettre en place à partir de telles possibilités. L'interactivité des pages HTML avec la voix serait déjà un plus indéniable.

En outre, si l'utilisation de cette capacité d'interprétation se généralise, nos connexions en upload vont dorénavant être sollicitées davantage (transmission de la voix sur les serveurs distants). Cela pourrait alors devenir un défi non seulement pour Google avec un traitement de données très important, mais aussi pour nos FAI qui verront alors davantage de personnes s'intéresser au débit montant. Le plus probable étant un délaissement de cette technologie par Google ou le calcul devra être effectué sur nos machines.

Aller plus loin

Voxforge (921 clics)
CMUSphinx (386 clics)
Perlbox (452 clics)
EvalDictator (409 clics)
Retranscription écrite des dialogue de vidéos (240 clics)
Lancement d'applications et reconnaissance vocale d'un texte sous android (259 clics)
Chrome 11 (266 clics)

# Troll

Posté par Sébastien Maccagnoni (site web personnel) le 27 mars 2011 à 20:45. Évalué à 0.

Les plus accros d'entre vous n'auront pas hésité à installer la reconnaissance vocale prévue par défaut dans XP, Vista ou Seven.

Je crois que sur LinuxFr, un accro n'a pas ces systèmes d'exploitation à portée de main...

Me trompé-je ?
- [^] # Re: Troll
  
  Posté par VictorAche le 27 mars 2011 à 22:04. Évalué à -2.
  
  Il les a testé de font en comble en tout cas, non ? Pour savoir ce qu'il choisi de laisser derrière lui, fier de ne pas être souillé.
  
  /troll
  
  "The trouble with quotes on the internet is that it’s difficult to discern whether or not they are genuine.” Abraham Lincoln
  - [^] # Re: Troll
    
    Posté par ǝpɐןƃu∀ nǝıɥʇʇɐW-ǝɹɹǝıԀ (site web personnel) le 28 mars 2011 à 09:53. Évalué à 3.
    
    Ou pas.
    
    Même des barbus, des plus intégristes, pourraient reconnaître d'éventuelles qualités techniques à des logiciels propriétaires auxquelles ils seraient confrontés[*]. Après tout ce sont souvent des individus très compétents qui sont recrutés par des grandes firmes puis amenés à travailler dans des équipes rendus efficaces par des méthodes de direction savamment élaborées ; le tout à grands frais. Si cela n'aboutissait pas, au moins de temps en temps, à des prouesses techniques il est évident que ces méthodes auraient étaient changées depuis belle lurette.
    
    Le débât ou troll n'est pas là. Plutôt, les sinistres rabatjoie du libre — pirates, troglodytes, terroristes, intégristes, mangeurs de petits enfants, et tout qualificatif dont on voudra les affubler — reprochent aux logiciels privateurs, s'il viennent à en user, … de les priver de certaines libertés essentielles. Il n'est donc pas nécessaire à ces huluberlus de tester Widows xxx ou consort pour le refuser. La seule évocation du Cluf suffit.
    
    [*] Cela arrive même fréquemment. Par exemple la FSF soutient souvent l'élaboration en libre de logiciels équivalents à certains best-seller privateurs. On citera Gnash, coreboot, etc.
    
    « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace
    - [^] # Re: Troll
      
      Posté par VictorAche le 28 mars 2011 à 23:30. Évalué à 1.
      
      Je crois qu'il y a mis-compréhension de mon bout de troll. Faut bien être conscient de ce que l'on choisit d'éviter. Je fais tourner des logiciels proprios de temps à autre - mais je ne bosse pas dessus.
      
      Je suis ni un barbu, ni un intégriste d'aucune sorte (quoique, pour la barbe...), mais il se trouve que si on ne sait pas ce qu'on laisse derrière nous en laissant les logiciels proprios, on ne sait pas ce qu'on va devoir faire pour rendre les logiciels libres intéressants (parce que les logiciels libres ne sont intéressants que parce que y'a des gens intéressés pour les développer, quel que soit le motif de leur intérêt).
      
      Le débat ou troll est très intéressant. Je me fiche de ne pas avoir mes libertés essentielles pendant quelques minutes, sinon j'aurais visité ni l'Iran, ni la Syrie, ni le Viet-Nam.
      
      "The trouble with quotes on the internet is that it’s difficult to discern whether or not they are genuine.” Abraham Lincoln
# Trolls

Posté par Xowap (site web personnel) le 27 mars 2011 à 20:59. Évalué à 8.

La reconnaissance vocale ? Qui se voit parler à son PC à longueur de journée ? Déjà que les interfaces graphiques ont tendance à être superflues, l'interface vocale j'y crois pas trop.

Quand à l'impact sur l'upload, pour mémoire les FAI proposent déjà tous des services téléphoniques qui fonctionnent par ADSL, et sans que cela s'en ressente sur le surf, donc à priori pas de problèmes de débit montant pour la voix.
- [^] # Re: Trolls
  
  Posté par Zenitram (site web personnel) le 27 mars 2011 à 23:31. Évalué à 9.
  
  La reconnaissance vocale ? Qui se voit parler à son PC à longueur de journée ? Déjà que les interfaces graphiques ont tendance à être superflues, l'interface vocale j'y crois pas trop.
  
  Tu te limites arbitrairement à un "PC". Sache que de nos jours, l'informatique n'est pas que dans un bureau, mais il peut aussi se retrouver dans un téléphone, un smartphone, un navigateur GPS, de la domotique... Autant de domaines ou la reconnaissance vocale a clairement son utilité potentielle (quand ça marchera, mieux que ce qu'il y a actuellement où le téléphone se trompe souvent de nom dans le correspondant à appeler), sans compter tout ce qu'on n'imagine pas (il n'y a pas si longtemps, l'estimation du nombre d'ordinateurs utiles dans le monde était de l'ordre de quelques unités... "les ordinateurs chez les gens, j'y crois pas trop" disaient les experts ;-) )
  - [^] # Re: Trolls
    
    Posté par Xavier Teyssier (site web personnel) le 28 mars 2011 à 11:17. Évalué à 3.
    
    En même temps, si le commentaire auquel tu réponds est intitulé Trolls, ce n'est probablement pas un hasard ;-)
    
    De mon côté, je me sers régulièrement de mon téléphone pour de la prise de note (descriptif de quelque chose que je viens de photographier, une idée géniale qui vient de germer et que je ne souhaite pas oublier, etc.). Écrire sur le clavier du téléphone est ultra lent, retranscrire le soir via un clavier ce que j'ai pu enregistrer oralement la journée est barbant. Vivement la reconnaissance vocale !
    - [^] # Re: Trolls
      
      Posté par Zenitram (site web personnel) le 28 mars 2011 à 13:40. Évalué à 3.
      
      En même temps, si le commentaire auquel tu réponds est intitulé Trolls, ce n'est probablement pas un hasard ;-)
      
      Je viens de m'en rendre compte, zut faut que je regarde plus les titres, je suis rentré dans le troll direct, je me suis fais avoir!
    - [^] # Re: Trolls
      
      Posté par Elfir3 le 29 mars 2011 à 09:35. Évalué à 2.
      
      Pareil, ça m'arrive souvent d'enregistrer un petit extrait d'une idée de composition musicale qui me passe par la tête, vivement la reconnaissance vocale !
# Fallait oser

Posté par defmonkey le 27 mars 2011 à 21:16. Évalué à 9.

Quoique je ne sache pas énormément de chose sur les codes de reconnaissance de Google, CMUsphinx est développé en partie avec le Google summer code (voir leurs sites respectifs), ce qui me semble indiquer une utilisation possible de CMUsphinx dans la reconnaissance proposée par Google.

Faire une dépêche avec des suppositions, je me permets de penser (dans mon milieu autorisé), que c'est franchement gonflé. Surtout qu'en fait, Google a embauché il y a de cela quelques années pas mal d'anciens de chez Nuance, qui est le n°1 de la reco vocale dans le milieu télécom (reco vocale indépendante du locuteur, contrairement aux outils de dictée vocale de type Dragon, qui nécésitent une phase d'apprentissage ou il faut parler 1 heure dans le micro à prononcer des phrases qui ne veulent rien dire).

Autrement dit, au lieu de pomper sur un projet open source qu'ils sponsorisent avec des étudiants (certes doués), ils embauchent les meilleurs. Il suffisait d'y penser.
- [^] # Re: Fallait oser
  
  Posté par Christophe Turbout le 28 mars 2011 à 11:14. Évalué à 1.
  
  reco vocale indépendante du locuteur, contrairement aux outils de dictée vocale de type Dragon, qui nécésitent une phase d'apprentissage ou il faut parler 1 heure dans le micro à prononcer des phrases qui ne veulent rien dire
  
  ça c'est une remarque pertinente ... les gens ont tendance à penser qu'avec les logiciels d'ibm (et leurs successeurs) la reconnaissance vocale est quelque chose de réglé ... en fait pas du tout ... les choix fait par ibm et consorts ne sont pas du tout applicables de façon générique ... certes ils fournissent un outil pratique pour un cas d'utilisation particulier : le mono-locuteur avec apprentissage ... hors cette phase d'apprentissage est pour le moins impossible dans beaucoup de cas où la reconnaissance vocale apporterait beaucoup ... et là pour le coup la reconnaissance multi-locuteurs sans apprentissage du locuteur (il y a le droit d'avoir de l'apprentissage d'une base de voix sinon je ne vois pas comment faire !) c'est loin d'être finalisé et ça reste un domaine de recherche ...
  - [^] # Re: Fallait oser
    
    Posté par bubar🦥 le 28 mars 2011 à 13:06. Évalué à 2.
    
    Ce qui est frappant (en dehors de la question plus générale, et de l'avenir possible) c'est que l'on cite toujours aujourd'hui ViaVoice comme une référence. Or, souvenez vous : ViaVoice ne supportait pas ntfs : il lui fallait une partition dédiée en fat. ViaVoice, c'est ancien, très ancien. Et pourtant niveau efficacité, il est encore reconnue aujourd'hui comme une référence. Pour ceux l'ayant pratiqué au quotidien, c'était un pur régal à l'utilisation.
    
    Ce qu'a apporté Natural Speaking à l'époque, c'est qu'avec lui il n'était pas besoin de passer par un phase d'apprentissage des différentiels de locutions de l'utilisateur. (phase pas désagréable, très rapide, et très efficace, dans ViaVoice). C'est un tout petit plus pour Natural Speaking. Et c'est plus parcequ'IBM a laché le marché que Natural Speaking s'est imposé.
    
    Aujourd'hui, il est quasiment impossible de trouver les sources (enfin, une partie) et l'embryon de portage de Via Voice sur linux (ainsi que le sdk) autrefois disponible sur le site d'IBM. Bref ViaVoice est mort depuis longtemps, et pourtant reste une référence technique majeure du domaine ! Etonnant ;-)
    - [^] # Re: Fallait oser
      
      Posté par bubar🦥 le 28 mars 2011 à 13:37. Évalué à 2.
      
      bémol sur le Naturall Speaking : l'absence de besoin de passer par une phase d'apprentissage était l'argument marketting de l'époque. En fait cette phase ne se faisait pas sur un texte complet de référence (à l'instar de ViaVoice) mais sur des mots clefs trouvés dans des textes nouvellement lus par l'utilisateur : la phase d'apprentissage avait donc lieu pendant les premières dictées. Vraiment peanuts comme plus.
- [^] # Re: Fallait oser
  
  Posté par batisteo le 28 mars 2011 à 17:07. Évalué à 1.
  
  J'ai testé pas plus tard que… ya quelques jours la reconnaissance vocale sous chromium 11+, et c'est assez bluffant effectivement. On peut trouver les limites si on les cherchent, mais quand même ça roxe pas mal.
  Pour tester : http://slides.html5rocks.com/#speech-input
  
  Ça serait cool si c'était libre…
  - [^] # Re: Fallait oser
    
    Posté par Zarmakuizz (site web personnel) le 28 mars 2011 à 23:15. Évalué à 2.
    
    la reconnaissance vocale sous chromium 11+
    
    Ça serait cool si c'était libre…
    
    L'AFUL avait raison ! Chrome et Chromium ne sont pas en faveur du libre !
    
    Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
# A rajouter dans la liste :

Posté par capslock le 27 mars 2011 à 21:55. Évalué à 6.

Simon :

http://www.simon-listens.org/

Nécessite une phase d'apprentissage, mais fonctionnel et adaptable.
- [^] # Re: A rajouter dans la liste :
  
  Posté par BAud (site web personnel) le 27 mars 2011 à 22:09. Évalué à 4.
  
  À une époque j'avais regardé Julius
  http://cookerspot.tuxfamily.org/wikka.php?wakka=ReconnaissanceVocaleJulius qui d'après la page sourceforge en anglais de Julius reste activement développé.
  
  J'avais une page synthétique de sujets afférents
  http://cookerspot.tuxfamily.org/wikka.php?wakka=ReconnaissanceVocale
  
  Simon se base sur julian/julius iirc.
  - [^] # Re: A rajouter dans la liste :
    
    Posté par wagnerf le 28 mars 2011 à 09:35. Évalué à 5.
    
    j'ai aussi un projet perso de reconnaissance vocale : Idi
    
    l'objectif est de reconnaitre uniquement les mots pour lesquels le programme est entrainé donc c'est moins général que des trucs comme dragon ou via voice, mais ça marche bien pour piloter l'ordi au micro.
    - [^] # Re: A rajouter dans la liste :
      
      Posté par BAud (site web personnel) le 28 mars 2011 à 11:20. Évalué à 3.
      
      Cela vaudrait peut-être le coup de faire une release sous forme de tar.gz, j'ai l'impression que tout est dans le dépôt bzr de idi accessible à partir de http://sourceforge.net/projects/idi/ ?
      - [^] # Re: A rajouter dans la liste :
        
        Posté par wagnerf le 28 mars 2011 à 15:21. Évalué à 2.
        
        Oui, c'est vrai. Je voulais finir d'écrire le manuel avant de faire une release et j'ai un peu de mal à trouver du temps. Peut etre pour les prochaines vacances.
# important pour les applications android en voiture

Posté par _NaSH_ le 27 mars 2011 à 22:36. Évalué à 10.

l'intérêt de la reconnaissance vocale sur des ordinateurs de bureau, ou des ordinateurs portable est, il est vrai, très limité, sauf pour les handicapés.

Cependant, il y a un usage, qui est relativement intéressant, c'est sur les terminaux android. le clavier dispose d'une touche "reconnaissance vocale", ce qui fait que chaque application peut y accéder.

Avec les téléphones qui deviennent des extension des autoradios ou des GPS, en voiture, cet avantage est indéniable. D'autant plus que bon nombre d'applications opensource, en profitent.

Pas plus tard qu'aujourd'hui, en voiture j'ai utilisé avec succès la reconnaissance vocale (non-prévue a la base) du client android du serveur de média subsonic. ca fonctionne très bien, et je pense l'utiliser souvent maintenant.

On sous-estime l'intérêt de la reconnaissance vocale, car on ne pensait pas qu'elle arriverai dans les voitures par le biais des téléphones et de leurs applications. Maintenant il arrive de voir des demandes de modification d'interface, pour des utilisation en voiture. Avoir une reconnaissance vocale opensource, pourrait faire partie de la logique d'indépendance de certaines applications face aux service google.

contrairement a l'état d'esprits de certains, je trouve qu'au contraire des avancées dans ce domaine ont tout intérêt à être regardé.
- [^] # Re: important pour les applications android en voiture
  
  Posté par yellowiscool le 27 mars 2011 à 23:10. Évalué à 2.
  
  Il y a à peu près une semaine, on s'amusait avec des potes avec la reconnaissance vocale d'Android. Le but était de dire quelque chose de simple, et que le portable donne le résultat le plus rigolo possible.
  
  Un peu comme google translate après plusieurs traductions.
  
  Envoyé depuis mon lapin.
  - [^] # Re: important pour les applications android en voiture
    
    Posté par zebra3 le 28 mars 2011 à 10:03. Évalué à 3.
    
    Avec un pote, on a fait la même chose avec celle de Seven.
    
    Sauf que c'était pas voulu, mais on a bien rigolé quand même.
    
    Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
- [^] # Re: important pour les applications android en voiture
  
  Posté par J Avd le 27 mars 2011 à 23:31. Évalué à 1.
  l'intérêt de la reconnaissance vocale sur des ordinateurs de bureau, ou des ordinateurs portable est, il est vrai, très limité
  
  Hum... Je me vois bien commander mon ordinateur à la voie :
  - lis mes mails
  - change de musique
  - éteint toi
  - (allume toi) vive les bios évolutifs
  - trouve le torrent VOSTFR de la série "machin"
  etc...
  
  "Gentoo" is an ancient african word, meaning "Read the F*ckin' Manual". "Gentoo" also means "I am what I am because you all are freaky n3rdz"
  - [^] # Re: important pour les applications android en voiture
    
    Posté par claudex le 28 mars 2011 à 08:12. Évalué à 3.
    
    change de musique
    
    Il faudra qu'il arrive à distinguer la commande de la musique (et il faudra faire attention à ne pas passer n'importe quoi comme musique).
    
    « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
    - [^] # Re: important pour les applications android en voiture
      
      Posté par matthieu bollot (site web personnel, Mastodon) le 28 mars 2011 à 09:31. Évalué à 1.
      
      Il y a choses bien faîtes à ce niveau, pour tout ce qui est atténuation de l'echo. En gros il supprime de la réception ce qu'il envoie. Après il me semble qu'il faut un peu de matos car en soft sous linux c'est un peu moisie.
  - [^] # Re: important pour les applications android en voiture
    
    Posté par Thierry Thomas (site web personnel, Mastodon) le 28 mars 2011 à 09:35. Évalué à 8.
    
    Hum... Je me vois bien commander mon ordinateur à la voie :
    
    On raconte que lors de la première présentation publique par IBM d'un système de reconnaissance vocale couplée à la commande du PC, quelqu'un dans la salle aurait crié « Format C: »...
- [^] # Re: important pour les applications android en voiture
  
  Posté par MarbolanGos (site web personnel) le 27 mars 2011 à 23:37. Évalué à 3.
  
  Je suis d'accord avec cette idée pour le GPS. J'ai fait moi aussi des tests très concluant. Nom de rue ville assez complexe trouvé sans problème et sans configuration préalable.
  Par contre pour dicter des messages ce n'est pas encore cela... Le système Android a du mal à distinguer par exemple je et jeux. Il faudrait comprendre le sens des phrases pour cela...
  - [^] # Re: important pour les applications android en voiture
    
    Posté par bubar🦥 le 28 mars 2011 à 13:31. Évalué à 2.
    
    C'est sûr ce point que ViaVoice était très fort : voir la correction automatique se faire au fur et à mesure que la diction apparaissait en texte.
- [^] # Re: important pour les applications android en voiture
  
  Posté par bubar🦥 le 28 mars 2011 à 13:32. Évalué à 2.
  
  Je rebondis ici sur le commentaire de Nash : l'intérêt de la reconnaissance vocale sur des ordinateurs de bureau, ou des ordinateurs portable est, il est vrai, très limité, sauf pour les handicapés Avant de se prononcer de manière si abrupte, il convient d'essayer. La reconnaissance vocale c'est du bonheur dès lors que tu as besoin de tes mains pour faire autre chose en même temps (si si il existe plein de gens capables de parler tout en écrivant), par exemple faire des schémas papier pendant la dictée du texte. Mais aussi, pour mme michue, lancer l'écoute de radio paradise sans se déplacer devant l'ordinateur, ou encore répondre à un mail pendant que tu fais la vaisselle. Bref on trouve une multitude de cas concrets où la reconnaissance vocale apporte un vrai plus à la vie quotidienne.
  
  Là où je te rejoins c'est sur l'embarqué : car selon moi c'est les ordinateurs qui n'étaient pas prêts à cette technologie, en fait. A partir du moment où "l'ordinateur" est un concept d'espace, plutôt spacieux, avec bureau, chaise, clavier, une telle technologie n'était que futile pour bon nombre de personnes (faut vraiment avoir besoin de dicter des textes très souvent, ou bien avoir envie d'un sacré confort tout en étant utilisateur assidu d'un ordi). Avec les nouveaux ordinateurs, effectivement la reconnaissance vocale va prendre une autre dimension.
  - [^] # Re: important pour les applications android en voiture
    
    Posté par bubar🦥 le 28 mars 2011 à 13:40. Évalué à 4.
    
    Touche d'humour.
    Dans 30 ans : "ho regarde il a un clavier, c'est un vrai, lui!"
    ;-)
  - [^] # Re: important pour les applications android en voiture
    
    Posté par Psychofox (Mastodon) le 28 mars 2011 à 14:53. Évalué à 4.
    
    Avant de se prononcer de manière si abrupte, il convient d'essayer. La reconnaissance vocale c'est du bonheur dès lors que tu as besoin de tes mains pour faire autre chose en même temps (si si il existe plein de gens capables de parler tout en écrivant), par exemple faire des schémas papier pendant la dictée du texte. Mais aussi, pour mme michue, lancer l'écoute de radio paradise sans se déplacer devant l'ordinateur, ou encore répondre à un mail pendant que tu fais la vaisselle. Bref on trouve une multitude de cas concrets où la reconnaissance vocale apporte un vrai plus à la vie quotidienne.
    
    Oui et non. La reconnaissance vocale, c'est le rêve de tout célibataire endurci. En vérité dès qu'il y'a plus d'une personne dans un même lieu, d'une part ça énerve les autres, d'autres part ça amène des quipropos ridicules. Un peu comme quand notre partenaire qui est dans la pièce d'à côté ne s'est pas rendu compte qu'on répond au téléphone et qui tente de comprendre notre conversation.
    
    Et la je ne parle même pas de son utilisation sur des terminaux mobiles et dans les lieux publiques...
    - [^] # Re: important pour les applications android en voiture
      
      Posté par bubar🦥 le 28 mars 2011 à 15:07. Évalué à 2.
      
      Tout à fait, mais cela n'enlève rien à sa pertinence. On est là dans un mode d'utilisation. C'est également pourquoi cela n'a pas réellement percer dans le monde de l'entreprise : où la mode était (et est tjs) aux open-space. L'inconfort et la pollution sonore engendrés par son utilisation réservait de facto son utilisation à ceux ayant un bureau privatif, parmis ceux en ayant besoin, et parmis ceux le souhaitant : bref, très peu de monde (ou alors à transformer tout open-space en eq à centre d'appels...!)
    - [^] # Re: important pour les applications android en voiture
      
      Posté par bubar🦥 le 28 mars 2011 à 15:13. Évalué à 2.
      
      Précision : ViaVoice était capable de faire le tri de manière correcte : lorsqu'une seconde personne parlait il ne se mettait pas à écrire cela et restait bien sur la voix du locateur, jusqu'à ce que celui ci le mette en pause ;-) En plus de cette différenciation de voix présentes, ViaVoice fonctionnait convenablement en environnement bruyant (écouter de la musique est possible pendant une dictée. C'était d'ailleurs conseillé lors de la phase d'apprentissage de reproduire la pollution sonore ambiante réelle afin qu'il le prenne en compte). Pour le reste, c'est une question de micro ;-)
    - [^] # Re: important pour les applications android en voiture
      
      Posté par Étienne le 28 mars 2011 à 17:31. Évalué à 8.
      
      La reconnaissance vocale c'est du bonheur dès lors que tu as besoin de tes mains pour faire autre chose en même temps [...], c'est le rêve de tout célibataire endurci.
      
      Comme tu dis : ça amène des quipropos ridicules
# Et la synthèse dans tout ça ?

Posté par vince74 le 28 mars 2011 à 11:05. Évalué à 2.

Quelqu'un sait ou en est la synthèse vocale, je suppose que ces 2 types de soft fonctionnent un peu de la même façon ?

J'ai cherché un soft récemment, ça avait pas l'air terrible, surtout en français.
J'avais vu espeak et festival.
- [^] # Re: Et la synthèse dans tout ça ?
  
  Posté par zebra3 le 28 mars 2011 à 12:09. Évalué à 2.
  
  Dans le libre je ne sais pas trop, mais dans le propriétaire il y a Vocaloid qui marche plutôt bien (il n'y a qu'à voir le phénomène de Miku Hatsune au Japon pour s'en apercevoir).
  
  Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
- [^] # Re: Et la synthèse dans tout ça ?
  
  Posté par bubar🦥 le 28 mars 2011 à 13:54. Évalué à 2.
  
  Les moteurs sont au point, clairement, depuis longtemps. En "synthèse pure" mon zx81 le faisait déjà parfaitement bien. Ensuite en "dictée de texte", il peux y avoir deux chemins : la synthèse pure ou l'assemblage de mots enregistrés. C'est sur ce dernier point que ça pêche : les "dictionnaires", les bases de mots enregistrées, en libre, ne sont pas légions. Là dessus le projet CMU Sphinx, dans les projets VoxForge, a fait un énorme travail (et c'est pourquoi c'est repris par d'autres moteurs), mais peu souvent intégré. C'est pourquoi aussi on se retrouve avec des gnome-speech ou des kde-jovie se limitant à la synthèse pure, avec une voix de robot venue tout droit du début des années 80.
  
  http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/
  - [^] # Re: Et la synthèse dans tout ça ?
    
    Posté par bubar🦥 le 28 mars 2011 à 14:25. Évalué à 2.
    
    A propos de modèle acoustique, une référence du domaine est réalisé par une boite française. Et a permis à TuxDroid d'avoir une diction sympa (nettement en deça de ce que proposait ViaVoice, sur la compréhension de la ponctuation, qui restait très basique dans la solution livrée avec TuxDroid)
    
    http://www.acapela-group.com
- [^] # Re: Et la synthèse dans tout ça ?
  
  Posté par Zarmakuizz (site web personnel) le 28 mars 2011 à 23:20. Évalué à 2.
  
  MBRola est sous licence libre, "libre" étant librement interprétable (aucun usage commercial ou militaire) :
  http://tcts.fpms.ac.be/synthesis/
  
  La voix est meilleure que pour espeak.
  
  Commentaire sous licence LPRAB - http://sam.zoy.org/lprab/
  - [^] # Re: Et la synthèse dans tout ça ?
    
    Posté par Zenitram (site web personnel) le 29 mars 2011 à 10:16. Évalué à 4.
    
    "libre" étant librement interprétable (aucun usage commercial ou militaire) :
    
    Donc non libre. Vraiment absolument rien à voir de près ou de loin avec le libre.
    - [^] # Re: Et la synthèse dans tout ça ?
      
      Posté par thoasm le 29 mars 2011 à 12:00. Évalué à 2.
      
      librement utilisable pour un usage personnel ?
      - [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par Zenitram (site web personnel) le 29 mars 2011 à 12:15. Évalué à 1.
        
        Avec chacun qui définit "libre" à sa sauce avant de l'utiliser, tu vas donc me laisser la liberté de dire que Windows est libre*?
        * libre de l'utiliser pour un usage personnel après l’avoir acheté.
        
        Bref, je voulais juste dire que si il y a interdiction commerciale et militaire, c'est doublement non libre dans le sens de la définition qu'on a ici du mot "libre", et que ça en fait un logiciel qui a le même intérêt par rapport au libre que Via Voice ou autre logiciel proprio si le libre a une quelconque importance pour la personne qui doit choisir (elle doit juste mettre "0" dans la ligne prix dans son tableau de prix, et mettre la même note au niveau libre pour tous les logiciels cités).
        
        Le libre, c'est la liberté de l'utiliser et de le distribuer sans faire de morale "pas bien" sur telle ou telle chose.
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par thoasm le 29 mars 2011 à 13:11. Évalué à 3.
        
        Le libre ne fait pas de morale. J'en connais qui ne seraient probablement pas du tout d'accord avec cette affirmation.
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par Elfir3 le 29 mars 2011 à 15:49. Évalué à 2.
        
        Libre à eux d'être d'accord ou non ...
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par thoasm le 29 mars 2011 à 16:15. Évalué à 2.
        
        Après s'être pris une remarque du style "t'utilise flash ? c'est mal" dans la gueule nul doute qu'ils ne croiront pas vraiment que le libre ne fait pas de morale ;)
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par Zenitram (site web personnel) le 29 mars 2011 à 16:20. Évalué à 1.
        
        Ne mélange pas le libre avec l'intégrisme de certains. Le libre ne fait pas de morale, seuls ce que disent les gens par dessus sont de la morale.
        
        L'exemple que tu cites est une pensée des gens qui n'a rien à voir avec le libre, mais l'opinion des gens qui le disent. Le libre dit juste "Adobe Flash Player n'est pas libre", sans dire que ce soit mal ou pas.
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par thoasm le 29 mars 2011 à 16:23. Évalué à 2.
        
        Va dire ça au fondateur du mouvement ...
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par Zenitram (site web personnel) le 29 mars 2011 à 16:34. Évalué à 0.
        
        Je m'en balance complet du fondateur du mouvement. Surtout, je me balance complet des tirades qu'il peut sortir, et regarde les faits, les résultats : la GPL, la définition du libre, n'a rien de moral, il ne dit pas que les autres c'est le mal, il dit "By contrast, the GNU General Public License is intended to guarantee your freedom to share and change all versions of a program".
        
        Si il veut y mettre de la morale, qu'il change les termes de la licence qu'il a créé, et on verra si il y a autant de monde qui l'utilise avec de la morale à l'intérieur...
        
        Et toujours est-il que mettre "commercial ou militaire interdit", ça reste non libre, y compris dans la morale ("The freedom to run the program, for any purpose (freedom 0).")
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par thoasm le 29 mars 2011 à 16:36. Évalué à 1.
        
        C'est toujours un plaisir de te faire tourner en bourrique /o\
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par Zenitram (site web personnel) le 29 mars 2011 à 16:40. Évalué à 2.
        
        Je t'en prie :)
        
        [^] # Re: Et la synthèse dans tout ça ?
        
        Posté par Thomas Debesse (site web personnel, Mastodon) le 29 mars 2011 à 18:23. Évalué à 2.
        
        Plus que de ne pas faire de morale "pas bien" sur telle ou telle chose, la vraie question est de ne pas externaliser le jugement moral au logiciel ou à la licence qui l'accompagne. Fondamentalement ce n'est pas le logiciel qui est libre, c'est l'homme qui est libre. C'est l'homme qui pose un acte moral. Celui qui doit dire "bien" ou "pas bien" ce n'est pas le logiciel, c'est celui qui utilise le logiciel.
        
        Le danger c'est d'externaliser et de transférer le jugement moral de l'homme vers l'outil qu'il utilise. Dans ce cas, c'est la liberté de l'homme qui est aliénée.
        
        L'outil est neutre, et doit rester neutre. On ne doit pas faire des couteaux qui coupent "sauf quand c'est mal", on fait des couteaux qui coupent. La première raison apparente est le fait qu'il est impossible de transférer le jugement moral efficacement (c'est pourquoi, par exemple, les filtres internet sont par nature inefficaces), cette inefficacité entraine donc une erreur morale qui serait causée par l'outil et non par l'homme, ce qui est inadmissible. La raison fondamentale c'est tout simplement que l'outil est au service de l'homme, et donc au service de la liberté. Le jugement moral est inséparable de la liberté, donc le transfèrt du jugement moral aliène la liberté de l'homme.
        
        Ainsi, un logiciel libre "pour tous les usages" sous forme de binaire dont on a perdu les sources est "plus libre" qu'un logiciel aux sources ouvertes "sauf si c'est commercial" : certes il échoue dans la proposition de libertés supplémentaires comme celle de transformer l'outil, mais il n'aliène pas une capacité fondamentale et nécessaire à la liberté, la capacité de l'homme à apprécier moralement l'acte qu'il pose en usant de cet outil : le libre arbitre.
        
        ce commentaire est sous licence cc by 4 et précédentes
# Ibm ViaVoice

Posté par collinm (site web personnel) le 28 mars 2011 à 11:10. Évalué à 3.

le logiciel était disponible gratuitement il y a quelques année
une version sous linux était même dispo

un sdk était disponible aussi

ce produit ne semble pu vraiment d'actualité pour ibm, il serait peut-être possible si c'est pas déjà fait de faire une pétition pour essayer qu'ibm mettre les sources disponible...

après tout c'est eux qui râlait après sun pour rendre java libre... bon après il n'a jamais mis sa jvm libre

www.solutions-norenda.com
# non voyant

Posté par concorde23 le 28 mars 2011 à 11:33. Évalué à 1.

il existe des utilisateurs de commande vocale: les non ou malvoyants , chacun parle de commander son ordi par la parole comme un gadjet, pour ces gens la, c'est indispensable.
Il n'existe que des logiciels très cher, je voulais juste rappeler l'existence de ces utilisateurs. Pas très gatés par le libre.
Cordialement

Jacques
- [^] # Re: non voyant
  
  Posté par yellowiscool le 28 mars 2011 à 11:42. Évalué à 3.
  
  On a inventé un truc aussi, ça s'appelle un clavier. Pas besoin de voir pour appuyer sur des boutons.
  
  Évidemment, il faut les indications sonores qui vont avec, mais pas besoin de reconnaissance vocale non plus.
  
  Envoyé depuis mon lapin.
  - [^] # Re: non voyant
    
    Posté par Troy McClure (site web personnel) le 28 mars 2011 à 13:46. Évalué à 2.
    
    et quand t'as pas de bras ?
    - [^] # Re: non voyant
      
      Posté par insert_coincoin le 28 mars 2011 à 13:50. Évalué à 9.
      
      pas de chocolat !
      
      ~~~~~~~>[]
  - [^] # Re: non voyant
    
    Posté par DLFP est mort le 29 mars 2011 à 10:38. Évalué à 3.
    
    Il y a des claviers avec des touches en braille. Moi même je tape avec un clavier classique et je le regarde jamais, les quelques picots posés sur les touches importantes me permettent de savoir où sont mes mains. S'il faut attendre le retour sonore de chaque touche ça doit être particulièrement lent par ailleurs !
    
    Le problème des (mal|non)-voyants c'est plus la lecture que l'écriture. Pour ça il y a aussi les afficheurs en braille, c'est cher mais il semblerait très efficace.
    
    DLFP >> PCInpact > Numerama >> LinuxFr.org
    - [^] # Re: non voyant
      
      Posté par yellowiscool le 29 mars 2011 à 21:59. Évalué à 3.
      
      C'est ce que je voulais dire.
      
      C'est clair qu'il ne faut pas annoncer chaque lettre tapée au clavier, ça risque de rendre fou.
      
      Envoyé depuis mon lapin.
- [^] # Re: non voyant
  
  Posté par vince74 le 28 mars 2011 à 11:45. Évalué à 1.
  
  Même sans parler d'handicapés :
  Par exemple pour lire ses mails il faut :
  Comprendre ce qu'est un menu et comment naviguer dedans (pour trouver l'appli mail), comprendre ce qu'est un logiciel, et la différence avec des données, les boutons et autres controles d'un logiciel ...
  
  C'est vrai que la plupart d'entre nous n'y pense même pas, mais je connais des retraités qui n'ont jamais touché un ordinateur de leur vie, et qui n'ont pas forcément envie de s'investir la dedans juste pour écrire 3 mails par an.
  Pour eux dire "Lire mail", "Ecrire mail", "Ouvrir internet", "Imprimer" leur faciliterait bien la vie...
  - [^] # Re: non voyant
    
    Posté par Thierry Thomas (site web personnel, Mastodon) le 28 mars 2011 à 14:26. Évalué à 4.
    
    je connais des retraités qui n'ont jamais touché un ordinateur de leur vie
    
    Pour eux => Web napperon
    
    http://www.erasme.org/Le-Web-napperon
# non voyant

Posté par concorde23 le 29 mars 2011 à 09:19. Évalué à -4.

Bonjour

Je vois l'intéret porté par libre aux handicapés, inutile de parler avec des personnes qui ne connaissent pas les problèmes et dont les réponses montrent clairement leur l'intéret pour la technique et non la finalité de l'objet.
Si je ne me trompe la synthése vocale permet aussi de lire et la, votre clavier il vous parle ?

Jacques
- [^] # Re: non voyant
  
  Posté par capslock le 29 mars 2011 à 18:26. Évalué à 2.
  
  Keep cool : Simon a été développé pour des handicapés (moteur en particulier) à la base.
  Il y a des gens dans le libre qui porte un intérêt aux problématiques des handicapés. Inutile de généraliser, surtout à partir d'une discution sur linuxfr...
# Voxforge vs. Shtooka

Posté par djano le 30 mars 2011 à 08:53. Évalué à 1.

Quelle est la différence entre Voxforge et Shtooka?

Est ce que Voxforge enregistre des phrases complètes, alors que Shtooka n'enregistre que la prononciation des mots?

Est ce qu'il pourrait y avoir des passerelles entre les deux projets?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.