Bonjour,
Si l'installation d'un scanner USB (du moins celui que j'ai testé : HP Scanjet 4300C) comme le paramétrage de Sane, ne posent de problème sous Linux, j'éprouve un peu de mal à trouver un logiciel d'OCR...
Jusqu'à maintenant, j'ai testé gocr et clara sans résultat probant.
Le premier me donne des résultats désastreux (même à partir d'un scan de texte typographié) et autant saisir à la main le texte scanné. D'ailleurs, existe-t-il pour gocr des possibilités d'apprentissage ? (j'en doute sachant que ça reste encore une version de développement)
Le second m'a paru im-bit-table et reste limité pour ce qui est des formats en entrée (n'accepte pas le format PNM de sane, seulement PBM et PGM je crois). Par ailleurs, clara ne parait pas pouvoir (en première approche) "OCRizer" une quelconque image sans passer par une phase d'apprentissage.
J'ai sans doute survolé ces deux logiciels mais j'avoue que la documentation trouvée reste bien maigre et exclusivement amglo-saxone.
Connaissez-vous des liens intéressants les concernant ?
D'autres logiciels libres d'OCR ?
Des équivalents commerciaux (au pire) "user-friendly" ?
Note aux admins : Excellent ce "Des journaux similaires ont été postés!" lors de la création d'un journal : BRAVO !
# Coïncidence !
Posté par Christophe GRAND (site web personnel) . Évalué à 2.
Ma problématique est différente : il s'agit de reconnaître du texte dans des images basses résolutions (un site où des images étaient utilisées à la place du texte et dont à présent il faut changer la charte :-<).
Pour le moment j'ai testé ocrad et gocr. J'ai de meilleurs résultats avec gocr mais avec le paramètre "-l 160" et des images en niveaux de gris (mercie ImageMagick).
Si quelqu'un a des retours d'expériences de ce type (ocr ligne de commande), je suis preneur.
# ça manque
Posté par ccomb (site web personnel) . Évalué à 4.
Si quelqu'un connait un projet en cours pour faire un bon moteur au GPL d'OCR, merci de l'indiquer.
C'est dommage, car l'OCR peut utiliser des réseaux neuronaux et c'est (je trouve) le domaine le plus interessant de l'informatique.
En tout cas gocr est aussi une bibliothèque servant de surcouche à n'importe quel moteur d'OCR, qui devrait donc simplifier la vie d'éventuels créateurs de moteurs en les laissant se concentrer sur les algos. Pour ceux qui s'interessent aux réseaux neuronaux, il y a ça : http://www-ra.informatik.uni-tuebingen.de/SNNS/(...)
# pas de pbs avec gorc
Posté par sn00py . Évalué à 2.
Le pricipal inconvéniant à gorc, c'est qu'il n'utilise pas de dictionnaire en interne, il a donc du mal à différencier certaine lettre tel que 'I' (i majuscule)
ou 'l' (L minuscule) , voir même 't'
Il apprait donc que beaucoup de mots sont incorrect, mais deux méthode combinés permettent de corriger ça assez rapidement :
1) Utiliser un script sed qui, en fonction de la langue, remplace les choses très improbable. Par exemple en français, le mot 'll' (deux L minsucule) est très peu probable, le mot correct est surement 'Il' (i majuscule, L minuscule).
Ce soit être en fonction de la langue car par exemple, en anglais, l'interprétation ci-dessus est inversé ( you'll <=> you will)
2) utiliser un dictionnaire tel que aspell ou ispell.
Pour automatiser tout ça, rien ne vaut un petit script. Le boulo de l'utilisateur consistera ensuite à taper une fois chaque lettre, puis à piloter ispell pour finir les dernières corrections.
Note pour gorc: il y a un paramêtre important qui définit une estimation de la taille des caractères, en bidouillant ce paramètre, on améliore nettement les résultats. Mais je ne peut donner de méthode pour optimser ce paramêtre :-(
[^] # Re: pas de pbs avec gorc
Posté par o°Oo°Oo°o°O°Oo°Oo°Oo°Oo°o°O°O o° . Évalué à 0.
J'ai comme un doute... ;-)
nouille, couille, femelle, voyelle, chamelle, pelle, selle, anticonstitutionnellement, gilles, elle, prunelle, castillan, mouiller, faillite, ailleurs, nouvelle, collège, syllabe, querelle, allemand, ville, réelle, traditionnellement, meilleur, belle, vieillard, quelle, pareille, partielle, oreille, celle, telle, paille, naturellement, bouteille, actuellement, actuelle, vieille, allonge, casuelle, personnelle, illusion, corneille, jumelles, famille, solennelle, rappelle, tellement, nulle, bruxelles, sexuelle, cellule, allaiter, allogame, pollinisation, ombellifère, aquarelle, feuille, rouille, brouillard, cagouille, caille, antilles, colle, vectorielle, collier, défourailler, vérouiller, habiller, échelle, polluant, allonger, barbouiller, folliculine, football, handball, quadriller, gaspillage, mille, million, milliard, salle, mollusque, maille, maillot, occasionnellement, superficielle, taille, travailleur, phallus, tatillon, vrille, excellent, parcelle, quille, embellir, roller, rougaille, échantillon, aller, écailles, laquelle, griller, vanille, alliage, camomille, etc.
[^] # Re: pas de pbs avec gorc
Posté par dany . Évalué à 1.
[^] # Re: pas de pbs avec gorc
Posté par Nicolas Schoonbroodt . Évalué à 3.
# Projet
Posté par matiphas . Évalué à 2.
Pour info, dans le linux mag, il y a un article tres interessant d'introduction a la reconnaissance des gestes et des formes, avec une bonne bibliographie (decidement cette serie d'article orientee AI est vraiment bien).
Christophe (touf) si ca te tente de te lancer la dedans, fais moi signe.
Perso ca m'interesse a mort.
Je pense qu'une bonne idee de base serait de recuperer le code de gocr et clara, et ensuite essayer de construire une API a partir de la.
Je pensais a une architecture de moteur pouvant faire le lien entre
- soit une interface specifique
- soit entre different programmes d'acquisition (sane/kooka...) et differents editeurs/traitements de texte
Pour info, algorithmiquement : gocr travaille sur la reconnaissance de particularites typographiques, clara se focalise sur l'apprentissage.
D'autres programmes peuvent etre tres interessants a regarder car n'etant pas tres eloignes du probleme (conversion bitmap vers vectoriel) : autotrace & potrace.
[^] # Re: Projet
Posté par matiphas . Évalué à 5.
gocr : http://jocr.sourceforge.net/links.html(...)
clara : http://www.claraocr.org/(...)
ocrad : http://www.gnu.org/software/ocrad/ocrad.html(...)
Une revue de deux ocr sous linux :
http://www.linuxworld.com/story/32641.htm(...)
Une page de reference (liens et docs):
http://www.linux-ocr.ekitap.gen.tr/(...)
Une FAQ:
http://www.cfar.umd.edu/~kia/ocr-faq.html(...)
et pele-mele (progs et docs) :
http://sourceforge.net/projects/lince/(...)
http://sourceforge.net/projects/kognition/(...)
http://sourceforge.net/projects/phpocr/(...)
http://sourceforge.net/projects/nocr/(...)
http://kuto.sourceforge.net/(...)
http://lem.eui.upm.es/ocre.html(...)
http://www.math.nwu.edu/~mlerma/locr/(...)
http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html(...)
http://documents.cfar.umd.edu/(...)
http://www.arrakis.es/~evaquero/ocr.html(...)
http://www.softwareprojects4u.com/ocr/(...)
ftp://ftp.csc.calpoly.edu/pub/ocr/(...)
http://dkc.mse.jhu.edu/gamera/(...)
http://www.pattern-lab.de/index_e.html(...)
[^] # Re: Projet
Posté par ccomb (site web personnel) . Évalué à 2.
J'ai recopié tous ces liens sur mon wiki, il faudrait les explorer, en ajouter d'autres, et en extraire des infos à classer par catégories (API, algos, idées...)
http://ccomb.free.fr/wiki/wakka.php?wiki=OpCaRe(...)
[^] # Re: Projet
Posté par lampapiertramol (site web personnel) . Évalué à 0.
[^] # Re: Projet
Posté par Raphaël G. (site web personnel) . Évalué à 0.
donc je pense que de toute façon si y en a un qui veut s'ammuser a faire un bot de vote automatique il peut l'avoir fait en deux trois mouvements...
Et ce qu'on lui fille les liens ou non...
# Et kooka?
Posté par ghunt (site web personnel) . Évalué à 2.
http://www.kde.org/apps/kooka/(...)
J'ai survolé à l'époque ... ça avait pas l'air trop mal.
Mais il faut installer des truc KDE
# commercial, pas libre et cher, mais efficace...
Posté par Nicolas Bernard (site web personnel) . Évalué à 2.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.