Bonjour à tous,
Au boulot on manipule pas mal de fichiers PDF qui proviennent de l'extérieur et bien souvent se sont des tableaux (commandes clients) qu'on re-intègre dans notre ERP. Dans le meilleur des cas se sont des pdf textes dans le pire se sont des scan d'une serviette de table en papier feuille contenant une liste de référence et une quantité.
Comme se sont des documents externes je n'ai pas le contrôle sur la mise en forme et mon service ADV me demande de lui trouver une solution pour convertir tout ce petit monde en fichier Excel pour pouvoir les importer au lieu de saisir des lignes et des lignes.
Avant d'aller chercher les omnipage et acrobat DC je regarde du côte de l'open source mais sans grand succès. Est-ce que vous en connaissez qui fasse la conversion et l'OCR ?
Merci d'avance.
# tabulapdf
Posté par rycks . Évalué à 4. Dernière modification le 19 avril 2021 à 13:41.
Hello,
voilà le couteau suisse des imports de tableaux https://github.com/tabulapdf/tabula-java et https://tabula.technology/
eric.linuxfr@sud-ouest.org
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 2.
Je suis déjà tombé sur tabula mais c'est une librairie ou alors à usage en mode CLI, je suis pas certain que mes collègues de l'ADV vont être content de taper de la ligne de commande. On boss dans l'outillage par dans l'info ;)
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par NeoX . Évalué à 7.
si c'est des commandes, avec la ligne de commande tu fais un script d'import qui prend les PDF dans un dossier, les convertis soit en Excel, soit en commande dans l'ERP directement
inotify pour détecter un nouveau document dans le dossier, tabula pour le convertir vers un autre dossier, cp/mv pour déplacer le PDF deja convertit dans un dossier d'archivage
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 3.
Ok je peux arriver à faire un truc dans le genre.
J'ai tester la version avec le webgui https://github.com/tabulapdf/tabula cela pourrait faire le boulot mais il manque l'export directement au format xls ou xlsx (c'est pas libre mais j'ai pas le choix). Il fait bien l'export en csv mais comme Excel est un peu con il ouvre bien le csv mais ne propose pas de choisir le séparateur comme dans LibreOffice du coup tout apparaît dans une colonne. Même si l'opération n'est pas compliqué, mais multiplié par le nombre de commandes à traiter par jour c'est du temps de perdu pour des "problèmes" qui relève de l'informatique et non de l'ADV (ils ont bien assez à faire avec les clients).
C'est dommage car la notion de template est pas mal, je pourrais créer des modèles au fur et à mesure que les clients nous envois des fichiers et l'opérateur aurait juste à choisir le bon template suivant le fichier pour avec une conversion adapté.
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par zedS . Évalué à 2.
Je l'utilise pour la saisie automatique des factures fournisseurs (les principaux).
J'ai créé plusieurs template suivant les fournisseur et intégré le tout dans mon CRM Web :
- Je choisi le fournisseur/template et le fichier pdf à envoyer
- ça mouline : tabula en ligne de commande puis pdf en jpg
- Aperçu du tableau extrait et du pdf en image pour vérification
- Validation
[^] # Re: tabulapdf
Posté par rycks . Évalué à 5. Dernière modification le 19 avril 2021 à 14:40.
En ce cas t'es passé à côté des deux dernières lignes de la doc
Donc non ce n'est pas que de la ligne de commande, une gui web (dont l'ergonomie est ce qu'elle est) est offerte avec :-)
C'est vrai qu'avec une capture d'écran comme celle-ci sur leur site web ça "changerait la perception" de ce superbe outil …
eric.linuxfr@sud-ouest.org
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 3.
Yep j'étais passé à côté
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par rycks . Évalué à 3.
Et un petit tour dans le code source pour remplacer le format d'export CSV pour mettre des points virgules à la place des virgules et xls devrait être content non ?
Ou alors un appel en ligne de commande à piper pour transformer le csv en xls …
eric.linuxfr@sud-ouest.org
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 2. Dernière modification le 19 avril 2021 à 14:51.
Le séparateur n'est pas le problème.
Lors du double clic sur un fichier csv, Excel l'ouvre mais sans demander le choix du séparateur, ni le format des colonnes et l'affiche directement. Résultat toutes les valeurs sont dans la première colonne sans tenir compte d'un quelconque séparateur et en l'état n'est pas exploitable rapidement.
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par rycks . Évalué à 2.
hmmmm à mon avis y a un loup sur logiciel … ça fait longtemps que je n'ai pas vraiment utilisé ce soft mais je ne me souviens pas avoir déjà vu ce comportement sauf si le fichier est .txt … de mémoire … oui les extensions, ce bidule qui date d'un autre siècle pour définir le type de données contenues dans le fichier
au pire si .csv ne suffit pas essaye de le truander en mettant .xls pour voir ?
(rq :ptain linuxfr est en train de tourner vinaigre)
eric.linuxfr@sud-ouest.org
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 2.
De mémoire l'ouverture directement d'un CSV dans Excel a ce comportement depuis Office 97 :)
Malheureusement Windows, Office et autres utilisent encore l'extension pour identifier un type de fichier donc même un renommage par nomfic.xls ne marche pas. Je viens de tester au pour Excel le fichier est endommagé car il attend un xls et je lui propose un csv…
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par tisaac (Mastodon) . Évalué à 3.
Mon Excel m'offre en général (y compris me semble-t-il pour les CSV) quel caractère utiliser comme séparateur + possibilité de définir le type de variable par colonne.
Surtout, ne pas tout prendre au sérieux !
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 2.
La seul fois où Excel me le propose c'est lorsque "j'importe" un csv (Données > Autres sources) dans Excel mais pas au double clic depuis l'explorateur et pas lorsque je fais fichier > ouvrir
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par Jean-Baptiste Faure . Évalué à 4.
Dans ce cas tu peux faire la conversion csv -> xslx avec LibreOffice dans ton script et tes utilisateurs n'y verront que du feu.
[^] # Re: tabulapdf
Posté par Philippe M (site web personnel) . Évalué à 2.
J'ai continué à tester le mode web et c'est bien pratique. Je pensais partir sur cette version pour le proposer aux utilisateurs du coup pas vraiment de moyen d'intercaler libreoffice au milieu :(
Born to Kill EndUser !
[^] # Re: tabulapdf
Posté par NeoX . Évalué à 3.
peut-être que ton boulot d'informaticien n'est pas de proposer tabulapdf à tes utilisateurs
mais de faire en sorte que la conversion PDF -> xls aillent au bout sans eux
comme évoqué plus haut, les CSV peuvent se retravailler, voire s'injecter dans la base de l'ERP directement, peut-être sous forme de DEVIS, et là ce serait l'ADV qui contrôle le devis, et valide en commande.
et là, tu feras vraiment gagner du temps à ton ADV
car sinon, tant qu'à prendre du temps à l'ADV rien de mieux que l'ouverture du PDF par l'ADV et la saisie dans l'ERP directement.
pas besoin de leur demander de passer par un outil intermédiaire qui cherche à sortir l'info du PDF avec plus ou moins de réussite, pour que l'ADV contrôle en comparant avec le PDF pour ensuite avoir un csv/xls qu'il va devoir importer dans l'ERP
[^] # Re: tabulapdf
Posté par LeBouquetin (site web personnel, Mastodon) . Évalué à 2.
Si le problème est d'avoir une interface utilisateur qui fait le job en appelant les outils en séquence et que tu as un budget (pas forcément énorme) au lieu d'y passer du temps, on (Algoo) peut te faire un outil qui fasse le job.
On développe des applications web python/javascript ainsi que des outils graphiques en python/tk ou python/qt (avec ou sans installeur).
De ce que je comprends, il faut une interface qui permet de sélectionner un fichier, qui enchaîne les commande et restitue un fichier, ça ne va pas chercher très loin en terme de complexité de dév (donc de coût).
#tracim pour la collaboration d'équipe __ #galae pour la messagerie email __ dirigeant @ algoo
# Encore des gens qui croient que l'info c'est magique ...
Posté par totof2000 . Évalué à 3. Dernière modification le 19 avril 2021 à 23:03.
Pour les scans, mis à part de l'OCR ya pas grand choix …. J'ai bossé dans ma mission précédente avec des gens qui ont mis en place une API en python permettant de faire ce genre de truc. Par contre en terme de consommation ressource c'est pas neutre.
https://towardsdatascience.com/how-to-extract-text-from-images-using-tesseract-ocr-engine-and-python-22934125fdd5?gi=626c6d729b93
https://www.geeksforgeeks.org/python-reading-contents-of-pdf-using-ocr-optical-character-recognition/
Après faut bien que le service ADV soit conscient que tout ne passera pas forcément. Mais tu pourras peut-être faire du PDF scanné => Texte => tableur (il y a des libs python qui permettent égalemeznt de le faire).
[^] # Re: Encore des gens qui croient que l'info c'est magique ...
Posté par Philippe M (site web personnel) . Évalué à 2.
Merci pour les liens.
J'ai bien sûr abordé le sujet que l'OCR n'est pas magique et qu'il y aura des loupés. Mais d'après la responsable ADV c'est à cause du manque d'outils informatiques que son service est débordé. Donc pas de problème si elle me prend à rebrousse poil elle va en avoir de l'outil informatique mais après c'est elle qui devra justifier la dépense temps humain du service info et licence logiciel (si c'est pas de l'open source) auprès de ma direction… Moi j'ai fais mon taff : répondre à une demande d'outils pour les utilisateurs.
Oui je suis en mode énervé ce matin ;)
Born to Kill EndUser !
[^] # Re: Encore des gens qui croient que l'info c'est magique ...
Posté par totof2000 . Évalué à 1.
Ya des jours comme ça, mais faut pas …. Perso je comprend leur besoin, si j'étais à leur place ça me saoulerait de faire de la saisie en permanence. Mais peut-être que la bonne solution c'est d'employer une personne pour faire ça ?
[^] # Re: Encore des gens qui croient que l'info c'est magique ...
Posté par Philippe M (site web personnel) . Évalué à 3.
Je les comprends aussi pour l'avoir fait. C'est franchement abrutissant et je pense que mourir bêtement empaler sur le levier de vitesse serait plus fun.
Comme souvent c'est la manière de demander…
Born to Kill EndUser !
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.