Bonjour a tous,
Comme je l'avais déjà signalé dans un ancien journal, je développe en ce moment un logiciel de GED(http://fr.wikipedia.org/wiki/Gestion_%C3%A9lectronique_des_documents) (Gestion Électronique de Document).
Après quelques itérations le logiciel me semble à présent mûr pour une utilisation réelle. Le code source, sous licence GNU GPL 3 est disponible ici
ainsi qu'une ébauche de documentation ici
Je commence à présent à l'utiliser de et je n'ai pas encore trouvé de gros bugs (quelques détails quand même)
Par contre il manque encore cruellement d'une recherche plain texte, qui sera l'objet de la suite de mes développements, avec quelques petites améliorations que j'ai en tête.
Tous les retours, rapports de bugs, etc... sont les bienvenues, si le cœur vous en dit.
Merci, vous pouvez éteindre votre ordinateur.
# Bonne idée, je vais tester
Posté par marahi . Évalué à 2.
Je suis nul en Python mais j'ai en tête deux solutions pour la recherche plain texte :
rechercher dans le texte avec PDFMiner (licene MIT/X compatible GPL). Apparemment ça marche fichier par fichier.
utiliser un moteur d'indexation comme Xapian (moteur sous GPL qui fait tourner le logiciel de desktop search Recoll), qui s'interface avec Python. Problème, Xapian est écrit en C++ et ça va peut-être affecter la portabilité de l'application.
Bonne continuation pour le logiciel.
[^] # Re: Bonne idée, je vais tester
Posté par david guez (site web personnel) . Évalué à 2.
Merci pour les liens, je ne connaissais pas ces bibliothèques.
A première vue, comme le but "fondamentale" du logiciel est de scanner des feuilles et de les enregistrer (certes en pdf), les PDF en questions ne contiennent en fait qu'une image, et je ne pense pas qu'ils possèdent un contenu textuel récupérable via ces logiciels (mais j'ai juste jeté un coup d'œil, je me trompes peut-être).
Je pensait plutôt me diriger vers une solution d'OCR comme tesseract qui possède un binding python (pytesser). La solution me convient à moitié, parce qu'il me faudra à priori faire l'OCR en passant par des fichiers images temporaires, mais ça à l'air jouable. Bref, je suis encore ouvert à d'autres solutions et ça vaut le coup que je regarde plus attentivement ce dont tu me parles. by
Ceci n'est pas une signature
[^] # Re: Bonne idée, je vais tester
Posté par marahi . Évalué à 1.
Pour l'avoir testé lors d'un projet pro, Tesseract n'est pas très fiable en OCR de texte français, même après installation des dictionnaires. Mais tu auras peut-être plus de chance que moi. Mais il y a d'autres moteurs OCR à essayer.
[^] # Re: Bonne idée, je vais tester
Posté par david guez (site web personnel) . Évalué à 1.
Des noms des noms... idéalement il me faudrait un truc portable sur windows aussi, mais de toutes façons, je suis complètement preneur
Ceci n'est pas une signature
[^] # Re: Bonne idée, je vais tester
Posté par marahi . Évalué à 2.
Voici les deux moteurs libres multiplateforme que je connais (pas testé)
GOCR : ils ont un binaire pour Windows. Par contre, pas de binding pour Python, c'est soit en front-end via la ligne de commande soit en module Python/C à faire soi-même via l'API.
Cuneiform idem, pas de binding pour Python. Et c'est d'origine russe, la doc est partiellement ... bah en russe.
PS : Tesseract conseille de scanner en 300dpi, ça pourrait avoir un effet sur la qualité de l'OCRisation, à tester.
[^] # Re: Bonne idée, je vais tester
Posté par Galou (site web personnel) . Évalué à 1.
D'après un collègue qui a testé GOCR, Tesseract et Cuneiform, c'est avec Cuneiform qu'on obtient les meilleurs résultats.
Cependant, j'ai essayé de m'en servir et le manque de documentation ne m'a pas permis d'aller très loin avec. J'ai donc utilisé Tesseract qui n'est pas non plus un exemple en terme de documentation.
[^] # Re: Bonne idée, je vais tester
Posté par david guez (site web personnel) . Évalué à 1.
Oui tous ces projets semblent cruellement manquer de contributeurs. Ça me passionnerais d'en être mais je craint de n'être pas du tout a la hauteur (encore que, il faudrait que je prenne en compte le fait que je suis un pur génie).
En tout cas merci pour les liens, ca me donneras au moins de quoi faire quelques tests.
Ceci n'est pas une signature
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.