Bonjour, je suis à la recherche d'un outil (logiciel, librairie) pour extraire les données de factures pour import dans Dolibarr. Je cherche une solution qui n'oblige pas à déterminer des zones de traitement OCR. Je vous remercie de votre aide sur ce sujet. Hélène
# re
Posté par zedS . Évalué à 4. Dernière modification le 23 octobre 2019 à 07:06.
Bonjour,
J'ai fais une demande similaire il y a peu : https://linuxfr.org/forums/general-cherche-logiciel/posts/ocr-sur-des-factures-en-pdf-et-tableau
J'utilise toujours pdf2json actuellement avec un template prédéfini pour chaque fournisseur, pas encore mis en place Tabula.
Pour avoir essayer un peu l'ocr et l'extraction d'informations, je ne vois pas comment faire sans "template" par fournisseur. Si tu trouves je suis preneur :)
[^] # Re: re
Posté par zedS . Évalué à 2.
Je me réponds à moi même !
Je n'avais pas vu le dernier commentaire de rycks à mon post du forum, il y a l'air d'y avoir déjà plein de template. J'essaye de tester ça ce matin.
# Comment faire sans déterminer les zones
Posté par beleys (site web personnel) . Évalué à 1.
Je travaille avec ces magnifiques outil d'extraction de données (mais avec un logiciel propriétaire). Par contre, je n'ai pas le choix et je dois obligatoirement données des zones à récupérer. Fonctionnel mais ne supportant pas beaucoup une mise à jour du template d'impression.
Comment fonctionne les outils sans zonage ? Pour moi sans zone, oblige à avoir des pdfs générées sous forme de formulaire .. Avez vous d'autres méthodes ?
[^] # Re: Comment faire sans déterminer les zones
Posté par zedS . Évalué à 2.
Je me suis remis à bosser sur l'import de factures pdf (pour le crm Dolibarr).
En résume :
J'ai testé invoice2data indiqué par Ricks dans un précédent post.
L'outils est vraiment sympa, plein de fournisseur français sont déjà présent (ovh, ldlc …) mais le problème c'est que ça ne récupére que les infos générales de la facture (numéro, montant total, titre …) mais rien concernant le détail de la facture (les lignes produits).
Tout est à base d'expression régulière, les lignes sont capturés une à une en chaine sans distinction de colonne. Je ne suis pas arrivé à obtenir quelque chose de correct.
Je me suis donc penché sur Tabula qui gère vraiment très bien les tableaux. J'utilise tabula-java (https://github.com/tabulapdf/tabula-java) qui me permet de l'appeler directement depuis ma page web.
Comme toi je définis pour chaque fournisseur un template :
- définition des zones à analyser
- map des colonnes du produit
- map des champs généraux
….
A l'arrivé ça marche plutôt bien, il me récupére toutes les infos, les produits et le code derrière n'est pas trop compliqué.
ps: tabula détecte automatiquement les tableaux mais c'est vraiment très aléatoire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.