Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.
Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...
Souhaitons longue vie à ce projet, il s'agit AMHA d'un gros manque sur le bureau linux.
article : http://google-code-updates.blogspot.com/2006/08/announcing-t(...)
page du projet sur SF :
http://www.sourceforge.net/projects/tesseract-ocr
# \o/
Posté par Rhadamante . Évalué à 3.
[^] # License: (None Listed)
Posté par Guillaume . Évalué à -1.
"open source" c'est un peu vague je trouve.
[^] # Re: License: (None Listed)
Posté par mickabouille . Évalué à 2.
Résultat : apache licence 2 pour l'essentiel, une dépendance (aspirin) qui est sous une licence de type "non-commercial", donc non libre.
# Un manque ?
Posté par Christophe Chailloleau-Leclerc . Évalué à 3.
[^] # Re: Un manque ?
Posté par Dring . Évalué à 5.
Bref, pour moi, il y a effectivement un manque, j'ai rien vu sous Linux qui approche ce que j'avais sous Windows il y a 10 ans.
# j'en connais...
Posté par Calim' Héros (site web personnel) . Évalué à 5.
[^] # Re: j'en connais...
Posté par Snark_Boojum . Évalué à 1.
et c'est très dur à numériser : un texte mathématique, c'est hautement compliqué, car par exemple :
* beaucoup plus de caractères que les lettres usuelles dans un texte
* avec des symboles de différentes tailles
* avec des choses en indice et en exposant
* avec des équations sur plusieurs "lignes" (parce qu'il y a une fraction, une limite, une sommation... les bornes d'une intégrale)
Bref, la numérisation ça n'intéresse pas forcément qu'un éditeur paresseux, ça peut aussi intéresser des institutions très bien mais financièrement limitées.
[^] # Re: j'en connais...
Posté par Calim' Héros (site web personnel) . Évalué à 5.
# pour de meilleurs CAPTCHA
Posté par herodiade . Évalué à 5.
Éspérons qu'il y ai des progrès sur les implems libres de CAPTCHA, parce que Sam Hocevar a déjà frappé fort : http://sam.zoy.org/pwntcha/
En tout cas, un bon OCR pourrai booster Wikisource (http://wikisource.org/wiki/Main_Page ), c'est une très bonne nouvelle !
# Mouais
Posté par Hrundi V. Bakshi . Évalué à 7.
Google libère un soft, y a du buzz, des grosses contributions, google embauche les 2 meilleurs contributeurs, puis crée une application lui permettant de vendre de nouvelles opportunités publicitaires.
C'est une très bonne stratégie. Google est une entreprise géniale, qui profite à fond de son image, mais je sais pas si elle pourra longtemps fonctionner comme ça.
Quand on essaye d'imaginer ce qui se passerait comme phénomène de rejet si une major proposerait à la communuaté de développer un logiciel de reconnaissance de musique, si une banque d'image demandait à une communauté de tagger les photos qu'il indexe, si uun publicitaire ouvrait un publicitaire-video, si MS distribuait un logiciel de photos ...
Pourtant, avec Google, tout marche.
Quand on y pense, et sans faire du pro-anti-google, on a vraiment l'impression que google a réussi son développement. Une sorte d'aura qui englobe tout, un peu hypnotisante.
[^] # Re: Mouais
Posté par ThesmallgamerS . Évalué à 3.
Ça le fait d'autant moins qu'ils sont des fervents supporter du libre, qu'ils ont libéré un nombre impressionant de projets qui manquaient voir manquent toujours sous GNU/Linux et qu'ils ont nombre de fois afficher leur volonté de ne pas obliger les utilisateurs a utiliser leur logiciel, au contraire de Microsoft.
Si on décide les utiliser, c'est après tout parce que ce sont les meilleurs et ça, c'est toute la philosophie OpenSource réduite en quelques mots. S'ils ne sont pas les meilleurs, on ne les utilise pas ou on en fait un clone libre.
[^] # Re: Mouais
Posté par Hrundi V. Bakshi . Évalué à 2.
J'ai dit google a pour stratégie de développement d'utiliser le libre comme catalyseur, et se fabrique une image "en rupture". Ca lui réussit plutôt bien, mais trop tirer sur la corde, ça lasse.
[^] # Re: Mouais
Posté par apom . Évalué à 2.
[^] # Re: Mouais
Posté par Snarky . Évalué à 5.
[^] # Re: Mouais
Posté par Sylvain Briole (site web personnel) . Évalué à 2.
France :
http://www.google.fr/support/jobs/bin/topic.py?loc_id=1112&a(...)
Francais hors de France :
http://www.google.fr/support/jobs/bin/topic.py?jobslg=fr
International :
http://www.google.com/intl/en/jobs/international.html
[^] # Re: Mouais
Posté par metcox . Évalué à 1.
c'est nouveau, c'est tout chaud : http://images.google.com/imagelabeler/
publicitaire-video
c'est un peu plus vieux : http://video.google.com/
logiciel de photos
plus récent : http://picasa.google.com/
De ta liste il reste : logiciel de reconnaissance de musique
et ça si google le fait je veux bien le lien :)
[^] # Re: Mouais
Posté par WH (site web personnel) . Évalué à 2.
http://www.musipedia.org/
[^] # Re: Mouais
Posté par metcox . Évalué à 2.
La base de données est enrichie par des contributeurs à la manière de wikipedia, et semble reposer sur des logiciels libres.
merci pour ce lien :)
[^] # Re: Mouais
Posté par Nicolas Schoonbroodt . Évalué à 2.
Tu embauches les 2 meilleurs contributeurs, puis tu crées une application te permettant de vendre de nouvelles opportunités publicitaires.
# Google books
Posté par golum . Évalué à 2.
Peut-être qu'il ne donne pas entière satisfaction.
Alors les gars, retroussez vos manches vous disposez d'un jeu de test gigantesque.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.