Salut Nal,
Je vais avoir besoin de régulièrement scanner des documents pour les transformer en texte sur un ordi Linux.
Je suis donc à la recherche d’une solution qui me permette de facilement scanner et faire de l’OCR. J’aimerais que le résultat soit transmis sous forme de texte brut.
Cependant, je me rends compte que beaucoup de solutions utilisent le cloud or cette solution doit pouvoir fonctionner avec une connexion Internet très intermittente. Par contre, la création d’un réseau local est tout à fait envisageable.
La solution idéale serait pour moi un scanner qui sauve dans sa mémoire les textes scannés. Je peux ensuite y accéder à ma guise via une connexion USB mass storage.
Mais je n’ai rien trouvé de tel.
Du coup, y’a-t-il des conseils pour une solution qui fasse cela (sous Linux, bien entendu, et sans drivers propriétaires)
# pdfsandwich
Posté par Emeric . Évalué à 5.
De mon côté, pour extraire un document sur forme de texte j'utilise pdfsandwich avec le procédé suivant :
scanner => fichier PDF (bitmap) => pdfsandwich => fichier PDF (bitmap+txt) => pdftotext => fichier texte
après je ne sais pas si c'est la solution la plus efficace, donc je suis aussi intéressé par d'autres retours…
[^] # Re: pdfsandwich
Posté par Nicolas Boulay (site web personnel) . Évalué à 3.
pdfsandwich permet de mixer txt et document original ? Il permet la recherche par exemple ?
"La première sécurité est la liberté"
[^] # Re: pdfsandwich
Posté par Emeric . Évalué à 1.
Je pense que oui
# https://github.com/tesseract-ocr/tesseract ?
Posté par yeKcim (site web personnel) . Évalué à 10.
Personnellement j’utilise tesseract dans un script nautilus pour l’ocr depuis une image ou un pdf : https://github.com/yeKcim/my_nautilus_scripts/tree/master/ocr%20pics%7Cpdf je ne crois pas que tesseract utilise le réseau (?) Mais ça ne répond probablement pas à ton besoin puisque ça ne s’occupe pas de la partie scan…
[^] # Re: https://github.com/tesseract-ocr/tesseract ?
Posté par HL . Évalué à 1.
J'ai l'impression que le point fort de Tesseract par rapport à GOCR est sa prise en charge d'autres systèmes d'écriture que l'alphabet latin.
# gscan2pdf
Posté par Laurent J (site web personnel, Mastodon) . Évalué à 5.
Il y gscan2pdf qui permet de scanner et de faire de l'OCR avec notament Tessaract. Par contre le sortie c'est du PDF ou Djvu. Pas de texte brut. Donc faudra convertir le pdf en texte brut (ce qui doit certainement se faire..)
[^] # Re: gscan2pdf
Posté par Funix (site web personnel, Mastodon) . Évalué à 3.
j'ai eu à utiliser tesseract par le passé et il génère du .txt si on le souhaite, c'est le mode que j'utilisais avant de le réimporter dans un traitement de texte (libreoffice)
https://www.funix.org mettez un manchot dans votre PC
[^] # Re: gscan2pdf
Posté par dark_moule . Évalué à 1.
J'ai souvent des tableaux en PDF qui ont été scannés.
Est-il possible d'exporter les données dans un format csv avec des séparateurs ? L'objectif est bien sûr de réimporter les données sans trop de resaisies
[^] # Re: gscan2pdf
Posté par Jean-Baptiste Faure . Évalué à 2.
Peut-être avec ceci : https://tabula.technology/
[^] # Re: gscan2pdf
Posté par dark_moule . Évalué à 0.
Merci pour l'info mais Tabula ne fonctionne pas avec des fichiers images.
Peut-être à combiner avec des outils cités dans les commentaires… Dommage qu'il n'y ait pas une solution clé en main simple à utiliser. Le cloud est quand-même bien plus simple !
[^] # Re: gscan2pdf
Posté par orfenor . Évalué à 2.
Okular, le visualiseur pdf de kde peut recréer le tableau si on l'aide (Outils > Sélection de tableau).
Il y a des OCR parfaitement capable de le faire sous winwin depuis au moins 25 ans. Je n'ai jamais essayé sous Linux, mais pourquoi ne serait-ce pas possible ? en ouvrant la doc de Tesseract, je vois un exemple de sortie CSV.
Enfin il y a un outil conçu pour les journalistes, qui doivent récupérer des tableaux de partout. Il est certainement dans mes marque-pages mais là je ne trouve pas. Linuxfr a publié un article dessus il y a 5 ou 6 ans.
# OCRmyPDF & paperless-ng
Posté par crak_en . Évalué à 3. Dernière modification le 02 mars 2021 à 12:37.
Si la sortie en texte brute n'est pas essentielle :
Une solution simple en locale : https://github.com/jbarlow83/OCRmyPDF
Une solution LAN plus riche en fonctionnalités : https://github.com/jonaswinkler/paperless-ng
[^] # Re: OCRmyPDF & paperless-ng
Posté par Olivier Esver (site web personnel) . Évalué à 2. Dernière modification le 03 mars 2021 à 12:34.
Je viens de tester OCRmyPDF sur tes conseils et ça marche plutôt bien : j'ai pu faire une recherche sur le pdf, et trouver les pages qui m'intéressent.
Le paquets est disponible sur ma distrib en plus \o/
Voici les commandes pour les feignasses :
sudo apt install ocrmypdf tesseract-ocr-fra
ocrmypdf Manuel.pdf Manuel-ocr.pdf
S'il y a un problème, il y a une solution; s'il n'y a pas de solution, c'est qu'il n'y a pas de problème.
# SANE + ArgyllCMS + gImageReader + Tesseract OCR + noteshrink | ImageMagick
Posté par Boa Treize (site web personnel) . Évalué à 10.
Je me suis organisé autour de ces outils (avec des scripts pour automatiser tout ce qui peut l'être) :
scanimage
(SANE) (gros fichier bien lourd)cctiff
d'ArgyllCMS (optionnel)gImageReader
(version Qt dans mon cas) pour piloter la reconnaissance de caractèresnoteshrink
pour produire des PNG 300 dpi tout petits (300 à 400 KiB pour un A4)convert
d'ImageMagick pour réduire les scans en JPEG de 150 dpiQuelques remarques complémentaires :
Sinon, il y a Paperwork (https://openpaper.work/fr/) qui fait tout ce boulot de manière très automatisée (et donc très productive), à condition que les principes de travail de l'auteur te conviennent.
[^] # Re: SANE + ArgyllCMS + gImageReader + Tesseract OCR + noteshrink | ImageMagick
Posté par orfenor . Évalué à 6.
Pour redresser à la main, je préfère OCRFeeder (qui utilise unpaper pour ça) et surtout ScanTailor — Advanced ou legacy.
# Processus simple et rapide.
Posté par orfenor . Évalué à 10. Dernière modification le 02 mars 2021 à 15:39.
Ah zut, je viens de m'intéresser longuememnt à la question et j'ai un brouillon de dépêche à finir.
Que cherches-tu vraiment ? Parce que la sortie en texte brut, c'est la fonction de base des OCR.
Le processus est très simple : un scan de bonne qualité -> OCR -> relecture.
C'est le premier point qui est compliqué : pour obtenir une bonne image il faut la retoucher. J'utilise un processus plus simple que Boa Treize, avec des outils conçus exprès pour ça. Le site de Tesseract contient une page merveilleuse avec des outils pour améliorer la qualité du scan que j'ai presque tous essayés. Il y a des scripts et des outils graphiques.
Si tu as beaucoup de scans à faire, installe OpenCamera sur ton smartphone, pouse-le sur une pile de bouquins et lance le mode rafale. Tu dois pouvoir tourner à 20 pages minutes. Ensuite il te faudra le script de dewarping indiqué sur la page de tesseract.
NB : le meilleur OCR actuel sous Windows c'est ReadIris. Il fait beaucoup moins de petites erreurs que Tesseract qui est le meilleur OCR libre actuel (IMHO).
[^] # Re: Processus simple et rapide.
Posté par ploum (site web personnel, Mastodon) . Évalué à 2.
J’aimerais justement éviter le smartphone. Y’a des scanners particuliers à conseiller ? J’aimerais également éviter les scanners plats. Un scanner dans lequel j’enfile les pages me conviendrait très bien.
Mes livres CC By-SA : https://ploum.net/livres.html
[^] # Re: Processus simple et rapide.
Posté par orfenor . Évalué à 7. Dernière modification le 03 mars 2021 à 15:26.
La solution smartphone est beaucoup plus efficace qu'un chargeur si on l'utilise avec OpenCamera et le script de page_dewarp, regarde la photo c'est parlant.
Les scanners avec chargeurs de documents sont pour la plupart des chargeurs de bureau. Je n'ai eu sous la main que des Brother et des Ricoh (plus ses marques dérivées : NRG, Nashuatec, etc.), ils fonctionnent bien sous Linux avec des pilotes propriétaires. Mes modèles ont 10, 15 et 20 ans, et sont tous de la récup. Le pilote Brother a le bon goût de n'être qu'un petit binaire appuyé sur Sane. Il se script donc très facilement.
Attention, les chargeurs ont la réputation d'abîmer les documents. Pour ma part, je viens de numériser sans aucun problème un livre des années 50, malgré son papier cassant (178 scans).
Les scans avec le chargeur, déjà très propres, ont été améliorés avec Noteshrink, ImageMagick et unpaper. Il y a des optimisations minuscules qui ont de gros effet sur Tesseract, en particulier la taille optimisée des majuscules, le bord blanc autour de la page et le redressement («deskewing»)dont a parlé BoaTreize. Tout ça est fait par un petit script Perl que je peux t'envoyer.
Et continues de poser des questions, ça va me faire le texte de la dépêche ! :-)
[^] # Re: Processus simple et rapide.
Posté par GG (site web personnel) . Évalué à 2.
et ne pas oublier d'y inclure le script Perl! (s'il vous plaît)
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
[^] # Re: Processus simple et rapide.
Posté par orfenor . Évalué à 4. Dernière modification le 03 mars 2021 à 23:31.
Ce script sert juste à lancer les différents outils. Rien d'extraordinaire. Il est un peu inutilement compliqué dans le but de me faire réapprendre Perl, plus pratiqué depuis 5 ans. Les commentaires mélangent anglais et français.
[^] # Re: Processus simple et rapide.
Posté par orfenor . Évalué à 2.
Les scans portaient tous le nom du livre (ou du chapitre) plus le numéro de la page impaire (quand on découd les cahiers de reliure, on obtient des feuilles imprimées recto-verso avec à gauche une page paire et a droite une impaire). La fonction orderedList met les noms dans un hash avec le numéro de page impaire en index.
«13ème apôtre» dans les commentaires est le titre du livre, pas une instrucion secrête!
# Le cloud?
Posté par GG (site web personnel) . Évalué à 10.
Je ne comprends même pas que l'on puise envisager d'envoyer des documents scannés sur du cloud qu'on ne maîtrise pas.
Il existe plusieurs solutions, dont paperwork-gtk (et il y en a d'autres), ça reste en local, ça fonctionne très bien.
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
[^] # Re: Le cloud?
Posté par ploum (site web personnel, Mastodon) . Évalué à 7.
Parce qu’on est sur linuxfr. Mais regarde sur un site moins libriste : https://old.reddit.com/r/typewriters/comments/lvz8sz/whats_your_strategy_to_digitize_your_typewriting/
J’ai demandé explicitement pas de cloud mais une partie des commentaires s’enthousiasme néanmoins pour Google Drive. Un outil qui se connecte à un cloud proprio, c’est la norme aujourd’hui.
Mes livres CC By-SA : https://ploum.net/livres.html
[^] # Re: Le cloud?
Posté par sebas . Évalué à 3.
… et ils ne se posent pas de questions sur le fait que si google (ou équivalent) scanne si vite et si bien ce qu'on envoie sur son cloud, c'est parce que ça lui permet de pomper le contenu du pdf… !? (alors que l'image seule ne lui sert pas à grand-chose, pour le
flicageciblage de la population)[^] # Re: Le cloud?
Posté par ploum (site web personnel, Mastodon) . Évalué à 8.
Ben je sais pas toi mais approximativement 99,9% des personnes dans ma ville possède dans la poche une balise GPS qui permet à Google ou Apple de suivre leur moindre faits et gestes. La majorité d’entre eux communiquent via des systèmes qui permet à Facebook de surveiller toutes leurs communications et leurs habitudes. Et pour ceux qui n’utilisent pas Apple Pay ou Google Pay, leurs habitudes de consommation sont observées grâce à un accord de partage de données entre Mastercard et Google. Une fois au travail, l’immense majorité des documents et des échanges professionnels transite, en clair, par Google et/ou Microsoft.
Du coup, hein, quand tu dois scanner trois brols, je pense que c’est le cadet de tes soucis de savoir que Google peut accéder aux documents.
Mes livres CC By-SA : https://ploum.net/livres.html
[^] # Re: Le cloud?
Posté par AlexTérieur . Évalué à 2.
Le développeur de Paperwork faisait des journaux/dépêches ici il y a quelques temps. N'est-il plus dans les parages ?
[^] # Re: Le cloud?
Posté par cg . Évalué à 10.
Moi non plus je ne comprend pas. Voici toute de même une petite histoire d'horreur sur le sujet.
On a une imprimante multifonction au boulot. Le scanner se configure simplement : on met son mail dans un raccourci une première fois et voilà. Ensuite on met ses docs dans le scanner, on tape sur le raccourci "Jean-Doux" et zou, on a les docs dans sa boîte mail.
Et puis un jour, je vois qu'on ne peut créer que 10 (ou 12) comptes pour les scans. Ne comprenant pas bien d'où vient cette limite, je m'intéresse de plus près à la chaîne technique entre le scanner et ma mailbox. Donc je scanne un truc, et je regarde les en-têtes de mail reçus de la part du scanner.
Et là, horreur ! Je découvre que l'imprimante envoie les documents à un webservice hébergé sur AWS (aux États-Unis d'après l'IP), qui me le renvoie ensuite en PDF par mail. Me voilà doublement contrarié : je voulais justement couper l'accès à Internet à cette imprimante, mais la fonction scanner ne peux pas fonctionner sans, et aussi je pense à tous ces contrats et NDAs qui sont passés par chez Amazon ! Les bras m'en tombent.
Le calme revenu, je cherche ensuite comment indiquer à l'imprimante de bien vouloir utiliser mon serveur SMTP. J'ai du mal voir, ce n'est pas possible autrement. En effet, c'est possible, mais juste pour recevoir les messages d'erreur ou les logs, pas pour recevoir les scans !
Au final, je contourne le problème : il y a un mode dans lequel l'imprimante peut déposer les PDFs sur un serveur SFTP interne installé pour l'occasion. Et donc ce serveur SFTP transfère les docs déposés par mail (avec quelques modifs à ftpmail fourni dans proftpd). Tout reste dans mon réseau interne, ouf !
Tout ça pour dire que "le cloud" c'est tellement trop pratique que même du matériel "pro" va considérer que ce n'est pas un problème ou une question d'envoyer tes documents (parfois des choses très confidentielles) à l'autre bout du monde. Et va le proposer comme option par défaut. Bien sûr la doc n'en fait mention nulle part.
[^] # Re: Le cloud?
Posté par xavier Granveaux . Évalué à 4.
Pour ma part, je trouve ce retour d'expérience effarant … et à partager au max si c'est confirmé.
Toujours dans le cas où c'est techniquement vrai, je pense qu'on ne risquerait pas de diffamation à donner le nom de la marque/modèle exact en cause, afin d'attirer la vigilance du public un brin sensibilisé qui parcours ce site ?
Merci d'avance, car je suis très curieux de connaitre le modèle à fuir absolument …
[^] # Re: Le cloud?
Posté par cg . Évalué à 2.
J'ai revérifié tout à l'heure. La doc (qui recouvre 3-4 modèles proches) dit qu'on peut envoyer les scans directement à son serveur SMTP (petit moment de solitude là :-/). Sauf qu'on peut pas sur ce modèle précis, une erreur dans la doc sans doute (ça va, je suis pas encore sénile :D).
J'ai aussi retrouvé les refs vers le webservice et ses CGU, qui sont relativement raisonnables (par-rapport à un revendeur de publicité), mais posent quand même problème quand on scanne un NDA.
La doc qui dit comment envoyer le scan vers un mail, mais qui ne fonctionne pas.
La doc qui dit comment utiliser le webservice aux US, et ses conditions d'utilisation.
Le point le plus gênant dans cette histoire c'est qu'il est très difficile de savoir tout ça avant l'achat.
En gros la logique classique de l'imprimante d'entreprise, à savoir "l'imprimante sait chercher les adresses mails dans mon LDAP et envoyer un mail sur le serveur mail de mon choix" n'est pas supportée.
Pour nuancer, je dirais que pour des gens qui utilisent Google Drive, Dropbox ou poser leur fichier sur un partage Sharepoint, SMB ou FTP, oui c'est super, ils peuvent envoyer les scans direct dedans.
Bref, au prochain achat d'imprimante, je serais très vigilant.
[^] # Re: Le cloud?
Posté par Yves (site web personnel) . Évalué à 1.
Paperwork est en effet très bien. Les documents scannés sont enregistrés sous forme d'images, avec à côté un fichier contenant les mots scannés et leurs positions. Il ne doit pas être trop compliqué, si le document d'origine est un texte, de coller ensuite les mots bout-à-bout en fonction de leurs coordonnées…
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.