Journal [PUB] Sortie de MALODOS 1.0

10
7
avr.
2011

Bonjour a tous,
Comme je l'avais déjà signalé dans un ancien journal, je développe en ce moment un logiciel de GED(http://fr.wikipedia.org/wiki/Gestion_%C3%A9lectronique_des_documents) (Gestion Électronique de Document).
Après quelques itérations le logiciel me semble à présent mûr pour une utilisation réelle. Le code source, sous licence GNU GPL 3 est disponible ici ainsi qu'une ébauche de documentation ici

Je commence à présent à l'utiliser de et je n'ai pas encore trouvé de gros bugs (quelques détails quand même) (…)

GNU ddrescue 1.14 et GNU Ocrad 0.21

Posté par  . Modéré par baud123.
26
14
jan.
2011
GNU
GNU ddrescue est un logiciel permettant de copier le contenu d'un fichier ou d'un disque vers une autre destination, tout en essayant au passage de résoudre les problèmes d'intégrité de données lorsqu'il rencontre des erreurs de lecture. Il permet notamment d'essayer de récupérer des données d'un disque dur défaillant ou d'un CD-ROM abîmé. La version 1.14 est sortie ce 12 janvier, apportant notamment les améliorations suivantes sous forme d'options :
  • -R, --reverse qui inverse le sens de la copie ;
  • -E, --max-error-rate qui arrête ddrescue lorsque la taille des erreurs augmente trop rapidement.


GNU Ocrad est un projet plus jeune, du même auteur que ddrescue, de logiciel et de bibliothèque de reconnaissance optique de caractères basé sur une méthode particulière d'extraction. Il a pour objectif de permettre de récupérer du texte dans toutes les langues connues en UTF-8 depuis une image, tout en sachant repérer les blocs et colonnes typiques des textes imprimés. La version 0.21 est sortie ce 11 janvier, améliorant sensiblement la qualité et la documentation de l'outil.

Journal Scanners sous Linux : coma dépassé ?

Posté par  .
17
26
avr.
2009
J'ai eu l'occasion d'étudier un peu l'état des scanners ces derniers temps.

Le projet SANE = dernière mise à jour : février 2008. Il n'y a donc plus d'améliorations à faire ?

Le projet scanbuttond (gestion des boutons du scanner) = en léthargie depuis 2007. Mon vieux scanner basé sur Avision, qui devrait fonctionner avec, n'est pas reconnu par ce démon.

L'intégration correcte de Tesseract (OCR à peu près utilisable) dans les distributions : à faire.

J'ai vu ici même (…)

Forum général.général Tests sur tesseract (OCR Open Source

Posté par  (site web personnel) .
0
18
juil.
2008
Bonsoir,

Souhaitant évaluer l'existant en matière d'OCR Open Source, j'ai procédé au test de tesseract via pytesser.

Résultat ici: http://www.robertviseur.be/news-20080717.php

Pas vraiment concluant, en fait. Il faut vraiment des grosses lettres bien espacées pour avoir une reconnaissance correcte...

Bref, je voudrais avoir votre avis sur ce test: est-ce que la technologie n'est vraiment pas au point, est-ce que je m'y prends mal, est-ce que tesseract est bien pour d'autres usages, etc?

Merci pour votre feedback!

Journal Numérisation des documents administratifs avec métadonnées

Posté par  (site web personnel) .
Étiquettes :
0
7
avr.
2008
Salut,

Etant donné que je suis un bordélique irrécupérable mais que j'aimerais quand même ne pas perdre certains documents importants (fiches de salaires, contrats, factures, ...), je suis en train de réfléchir de la meilleure manière de numériser tout ça.

Au boulot, on a une imprimante/photocopieuse qui peut scanner des documents directement en PDF, c'est déjà un bon début.

Maintenant je me pose plusieurs questions :

- Les PDFs générés sont dans une vieille version du format, ne vaut-il pas (…)

GNOME Scan 0.6 : vulgariser la numérisation

Posté par  . Modéré par Florent Zara.
0
11
mar.
2008
Gnome
Alors que GNOME print et maintenant GtkPrint offrent une solution efficace pour l'impression, simple tant pour le développeur que pour l'utilisateur, GNOME manque toujours cruellement d'une solution de numérisation en phase avec ses impératifs d'ergonomie, de simplicité, d'accessibilité et de modularité. Gnome Scan ambitionne de combler ce besoin et je vous propose d'en savoir (beaucoup) plus en lisant la suite de cet article.

État des lieux de la reconnaissance de caractères libre (OCR)

Posté par  . Modéré par Nÿco.
0
25
mai
2007
Technologie
Un contributeur bénévole à Mandriva, Austin Acton, a pris le temps de tester toutes les solutions libres d'OCR (ou ROC pour Reconnaissance Optique de Caractères) disponibles, dans un article en anglais.

Pour les francophones, en voici une synthèse, l'article étant plus complet (avec à la clé, graphiques de comparaison et copies d'écran de chaque produit testé).

Les tests ont porté sur la phrase "The quick brown Métis jumped over the fluffy Finance Manager" permettant de tester quelques pièges classiques pour la reconnaissance, ainsi que les accents, le tout décliné :
  • en différentes polices, de différentes tailles
  • avec des scans en noir et blanc ainsi que nuances de gris
  • le tout à différentes résolutions (ce qui entre en ligne de compte plus qu'on ne pourrait le croire)

Reconnaissance optique de caractères avec OCRopus

Posté par  . Modéré par Mouns.
0
18
mai
2007
Technologie
Voilà un projet qu'il est nécessaire de mettre en lumière. OCRopus est un système d'analyse de document comprenant analyse de mise-en-page modulaire, reconnaissance optique de caractères modulaire tout cela en tenant compte de la langue.

OCRopus est né de deux projets de recherche : un lecteur d'écriture manuelle à haute performance développé dans le milieu des années 90 et utilisé par le US Census bureau et un projet d'analyse de mise-en-page de document à haute performance (évidemment) du team IUPR (Image Understanding and Pattern Recognition). Le projet a été lancé le 11 avril 2007 et est sponsorisé par Google. Il est mené par le professeur Thomas Breuel du centre de recherche allemand sur l'intelligence artificielle accompagné par des post-doctorants et des thésards.

Actuellement, le projet se base uniquement sur le moteur tesseract mais la conception modulaire du projet ouvre les portes à d'autres moteurs de reconnaissance optique de caractères tel hOCR.

Le projet compte sur les contributions de la communauté du logiciel libre pour implémenter le support de nouvelles langues, pour créer une application Gnome, intégrer la reconnaissance dans l'infrastructure de recherche du bureau Gnome, développer des outils divers et créer de nouveaux moteurs, etc.

Tesseract-OCR

Posté par  . Modéré par j.
0
7
oct.
2006
Technologie
Moteur de reconnaissance optique de caractères, Tesseract-OCR a été libéré en août 2006.

Historiquement, Tesseract a été créé en 1985 par Hewlett Packard et abandonné 10 ans plus tard. Conscient du potentiel de ce logiciel, il a récemment été décidé de le rendre disponible pour tout le monde en le publiant sous licence Apache v2.

Tesseract-OCR est loin d'être aussi performant que les logiciels propriétaires actuellement sur le marché, mais devient de fait le meilleur moteur de reconnaissance de caractères libre.

Journal Google et logiciel OCR Open Source

Posté par  (site web personnel) .
0
5
sept.
2006
Google a annoncé aujourd'hui avoir ouvert le code du logiciel Tesseract.
Celui ci est un logiciel de reconnaissance de caractères développé par HP entre 1985 et 1995. Ils ont corrigé quelques petits bugs avant de faire l'annonce.

Selon l'article, il s'agissait du meilleur logiciel d'OCR à son époque. Reste que c'était il y a 10 ans ... Depuis les logiciels d'OCR ont progressé, arrivent a détecter différents blocs de texte, les images etc...

Souhaitons longue vie à ce projet, il (…)

OCR sous Linux : comparatif

Posté par  . Modéré par Nÿco.
Étiquettes :
0
8
mar.
2003
Technologie
La reconnaissance optique de caractère (OCR en version anglaise) est un domaine méconnu du monde Linuxien. Pourtant il existe des solutions pour ceux qui veulent éviter la corvée de retaper les documents qu'ils désirent intégrer. Le site LinuxWorld a réalisé un essai comparatif de trois solutions: GOCR et Kooka (basé sur GOCR) qui sont libres et OCR Workshop qui est une solution propiriétaire.