Journal [PUB] Sortie de MALODOS 1.0

Posté par david guez (site web personnel) le 07 avril 2011 à 18:28. Licence CC By‑SA.

Étiquettes :

avr.

2011

Bonjour a tous,
Comme je l'avais déjà signalé dans un ancien journal, je développe en ce moment un logiciel de GED(http://fr.wikipedia.org/wiki/Gestion_%C3%A9lectronique_des_documents) (Gestion Électronique de Document).
Après quelques itérations le logiciel me semble à présent mûr pour une utilisation réelle. Le code source, sous licence GNU GPL 3 est disponible ici ainsi qu'une ébauche de documentation ici

Je commence à présent à l'utiliser de et je n'ai pas encore trouvé de gros bugs (quelques détails quand même)
Par contre il manque encore cruellement d'une recherche plain texte, qui sera l'objet de la suite de mes développements, avec quelques petites améliorations que j'ai en tête.

Tous les retours, rapports de bugs, etc... sont les bienvenues, si le cœur vous en dit.

Merci, vous pouvez éteindre votre ordinateur.

# Bonne idée, je vais tester

Posté par marahi le 07 avril 2011 à 20:47. Évalué à 2.
Je suis nul en Python mais j'ai en tête deux solutions pour la recherche plain texte :
- rechercher dans le texte avec PDFMiner (licene MIT/X compatible GPL). Apparemment ça marche fichier par fichier.
- utiliser un moteur d'indexation comme Xapian (moteur sous GPL qui fait tourner le logiciel de desktop search Recoll), qui s'interface avec Python. Problème, Xapian est écrit en C++ et ça va peut-être affecter la portabilité de l'application.
Bonne continuation pour le logiciel.
- [^] # Re: Bonne idée, je vais tester
  
  Posté par david guez (site web personnel) le 07 avril 2011 à 22:18. Évalué à 2.
  
  Merci pour les liens, je ne connaissais pas ces bibliothèques.
  A première vue, comme le but "fondamentale" du logiciel est de scanner des feuilles et de les enregistrer (certes en pdf), les PDF en questions ne contiennent en fait qu'une image, et je ne pense pas qu'ils possèdent un contenu textuel récupérable via ces logiciels (mais j'ai juste jeté un coup d'œil, je me trompes peut-être).
  Je pensait plutôt me diriger vers une solution d'OCR comme tesseract qui possède un binding python (pytesser). La solution me convient à moitié, parce qu'il me faudra à priori faire l'OCR en passant par des fichiers images temporaires, mais ça à l'air jouable. Bref, je suis encore ouvert à d'autres solutions et ça vaut le coup que je regarde plus attentivement ce dont tu me parles. by
  
  Ceci n'est pas une signature
  - [^] # Re: Bonne idée, je vais tester
    
    Posté par marahi le 08 avril 2011 à 22:39. Évalué à 1.
    
    Pour l'avoir testé lors d'un projet pro, Tesseract n'est pas très fiable en OCR de texte français, même après installation des dictionnaires. Mais tu auras peut-être plus de chance que moi. Mais il y a d'autres moteurs OCR à essayer.
    - [^] # Re: Bonne idée, je vais tester
      
      Posté par david guez (site web personnel) le 09 avril 2011 à 21:51. Évalué à 1.
      
      Des noms des noms... idéalement il me faudrait un truc portable sur windows aussi, mais de toutes façons, je suis complètement preneur
      
      Ceci n'est pas une signature
      - [^] # Re: Bonne idée, je vais tester
        
        Posté par marahi le 11 avril 2011 à 13:03. Évalué à 2.
        
        Voici les deux moteurs libres multiplateforme que je connais (pas testé)
        
        GOCR : ils ont un binaire pour Windows. Par contre, pas de binding pour Python, c'est soit en front-end via la ligne de commande soit en module Python/C à faire soi-même via l'API.
        
        Cuneiform idem, pas de binding pour Python. Et c'est d'origine russe, la doc est partiellement ... bah en russe.
        
        PS : Tesseract conseille de scanner en 300dpi, ça pourrait avoir un effet sur la qualité de l'OCRisation, à tester.
        
        [^] # Re: Bonne idée, je vais tester
        
        Posté par Galou (site web personnel) le 12 avril 2011 à 11:14. Évalué à 1.
        
        D'après un collègue qui a testé GOCR, Tesseract et Cuneiform, c'est avec Cuneiform qu'on obtient les meilleurs résultats.
        
        Cependant, j'ai essayé de m'en servir et le manque de documentation ne m'a pas permis d'aller très loin avec. J'ai donc utilisé Tesseract qui n'est pas non plus un exemple en terme de documentation.
        
        [^] # Re: Bonne idée, je vais tester
        
        Posté par david guez (site web personnel) le 12 avril 2011 à 12:49. Évalué à 1.
        
        Oui tous ces projets semblent cruellement manquer de contributeurs. Ça me passionnerais d'en être mais je craint de n'être pas du tout a la hauteur (encore que, il faudrait que je prenne en compte le fait que je suis un pur génie).
        En tout cas merci pour les liens, ca me donneras au moins de quoi faire quelques tests.
        
        Ceci n'est pas une signature

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.