Paperwork est un programme de gestion de documents personnels (papiers et PDF) conçu par un flemmard pour les flemmards. Il s’agit d’une interface graphique conçue avec une idée en tête : « scan & forget » (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d’humain.
Cette nouvelle version inclut principalement des optimisations et quelques corrections de bogues. Une version pour Windows est également disponible. Plus de détails se trouvent en seconde partie.
Les principaux changements sont :
- optimisation de la vitesse de rendu des documents ;
- la liste des documents n’affiche plus que les cent premiers documents par défaut pour éviter des problèmes de performance avec GTK+ ;
- importation de fichiers : affiche désormais le nombre d’images, de fichiers PDF, de documents et de pages qui ont été importés ;
- commande
paperwork-shell scan
: quitte immédiatement après la numérisation ; - exportation de documents : ne bloque plus l’interface graphique et affiche la progression de l’exportation ;
- met aussi en évidence les mots similaires aux mots clefs cherchés et non plus juste les correspondances exactes ;
-
paperwork-shell
: ajout de diverses commandes (search
,dump
,switch_workdir
,rescan
,show
,import
,delete_doc
,guess_labels
,add_label
,remove_label
etrename
) ; - diverses corrections de bogues.
Paperwork est diffusé sous licence GPL v3 ou plus.
Aller plus loin
- Paperwork 1.1 (3603 clics)
- FAQ (361 clics)
- DLFP : Paperwork 1.0 (1115 clics)
- Annonce sur Google Groups (122 clics)
- Vidéo de démonstration (695 clics)
- Dépôt GitHub (663 clics)
- Journal des modifications complet (193 clics)
# fusionner documents
Posté par Ecran Plat (site web personnel) . Évalué à 5.
Bonjour, j'ai un multifonction qui me crache des pdf.
Le problème c'est qu'il n'est pas recto-verso, peut on dans un document importer plusieurs pdf ? Mon scanner n'est pas compatible sane donc je passe par le scan to mail. Jusqu’à maintenant j'utilise pdftk pour fusionner mes pdf.
Autrement bon programme est super bonne idée, ça permet de tout scanner.
[^] # Re: fusionner documents
Posté par Jérôme Flesch (site web personnel) . Évalué à 6. Dernière modification le 01 février 2017 à 11:49.
Paperwork considère que 1 PDF = 1 document. Et paperwork a pour principe de ne jamais modifier les PDFs qu'on lui donne.
Sinon, il est possible d'importer des images (1 image = 1 page). Mais dans ce cas, Paperwork ne permet d'importer qu'une seule image à la fois pour le moment.
Actuellement, ce n'est donc malheureusement pas possible tel quel. Dans ton cas, je pense que le plus simple serait de scripter la fusion des pages recto avec les pages verso en utilisant des outils en ligne de commande. Bon ok, pour l'aspect intuitif et user-friendly, on repassera …
[^] # Re: fusionner documents
Posté par Ecran Plat (site web personnel) . Évalué à 3.
Merci pour la réponse,
je vais continuer comme avant avec pdftk, c'est simple.
Autrement paperwok à l'air bien foutu j'ai fait quelques testes dessus.
Je vais l'adopter.
[^] # Re: fusionner documents
Posté par Axone . Évalué à 7.
Pour info, il y a également pdfshuffler pour manipuler des pdf avec une gui.
[^] # Re: fusionner documents
Posté par Ecran Plat (site web personnel) . Évalué à 3.
Merci,
c'est génial et simple, comme ça le recto verset je met la pile dans le chargeur, puis je la retourne et de nouveau dans le chargeur, après c'est simple et dans paperwork
# scanner
Posté par harkonen . Évalué à 5.
Si quelqu'un peut conseiller un scanner usb pas trop cher et qui fonctionne sous Linux/Fedora, d'avance merci.
[^] # Re: scanner
Posté par TNorth . Évalué à 2.
Dispo d'occasion, il y a le Fujitsu fi-6230 qui a l'avantage d'avoir un "document feeder" et qui est très bien supporté par sane (et marche sous Fedora out of the box).
Sinon j'ai de bonnes expériences avec le HP 8200 (probablement plus vendu non plus).
[^] # Re: scanner
Posté par Jérôme Flesch (site web personnel) . Évalué à 4. Dernière modification le 01 février 2017 à 19:28.
Personnellement, j'ai une préférence pour les scanners/imprimantes HP. Matériellement ils sont moyens. Les drivers sont acceptables mais sans plus. Mais HP fournit des pilotes Linux open-source, donc tu branches en USB et ça marche.
Il y a juste parfois un
apt install hplip
à faire. Au pire, si le matériel est trop récent, il faut faire une installation manuelle pas-hyper-compliquée des pilotes HP.À ma connaissance ils font systématiquement des pilotes Linux open-source, mais je ne suis pas 100% certain.
[^] # Re: scanner
Posté par gouttegd . Évalué à 3.
Perso j’ai un Canon CanoScan LiDE 25 que je trouve très pratique. Compact, alimenté par le port USB, fonctionne out-of-the-box sous Slackware Linux (donc ce serait très étonnant qu’il ne fonctionne pas avec n’importe quelle autre distro).
Je crois que je l’avais payé une quarantaine d’euros, il doit y avoir six ou sept ans de ça.
[^] # Re: scanner
Posté par Christophe "CHiPs" PETIT (site web personnel) . Évalué à 1.
J'ai acheté ce genre de choses en vide-greniers la dernière fois : 1€ pour 2 scanners !
Au moins un des deux fonctionne, je n'ai pas testé l'autre…
[^] # Re: scanner
Posté par GG (site web personnel) . Évalué à 2.
Ça fonctionne généralement très bien sous Linux.
Par contre sous Windows… je n'ai jamais réussi. Même avec les drivers fournis par les différents constructeurs (techniquement, c'est la coque et la marque qui change, il y a peu de modèles différents au niveau électronique).
Ces scanners sont pratiques, mais un peu trop lents. Pour une page ou deux de temps en temps c'est acceptable, et ça fait le travail.
Il faut bien penser à fermer le couvercle pour éviter les lumières parasites, parce que c'est un unique capteur avec un éclairage successifs dans les 3 couleurs.
On trouve parfois ce genre de scanner dans les poubelles.
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
[^] # Re: scanner
Posté par xcomcmdr . Évalué à 2. Dernière modification le 14 février 2017 à 16:02.
CanoScan LiDE 25 ? Ce scanner ne fonctionne pas au delà de Windows XP. Le constructeur n'a jamais fait de pilotes pour Vista et ultérieurs.
Il faut dire qu'il est compatible USB 1.1 (qu'il utilise pour l'alimentation et le transfert de données), et date du tout début des années 2000.
À l'époque, il était bien plus rapide et pratique que le scanner précédent qui marchait avec une carte ISA. Mais de nos jours, il est un peu trop lent.
"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
[^] # Re: scanner
Posté par GG (site web personnel) . Évalué à 1. Dernière modification le 18 février 2017 à 17:43.
On est bien d'accord. A l'époque (vers la fin de XP), j'avais essayé de le faire fonctionner sur un XP. Même avec les drivers officiels sans succès.
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
[^] # Re: scanner
Posté par xcomcmdr . Évalué à 2.
Il fonctionne très bien sous Windows XP. L'installation des drivers officiels se fait en deux clics.
O_o
"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
[^] # Re: scanner
Posté par nullard3d . Évalué à 1.
Canon LiDE 220 : sans souci avec Sane sans blob proprio dans les diverses Debian & Ubuntu récentes. Actuellement en vente dans les 85€.
D'autres pistes par là : https://github.com/kkaempf/sane-backends/blob/master/backend/genesys.conf.in
[^] # Re: scanner
Posté par Nicky . Évalué à 1.
Epson GT-7000, modèle ancien, mais a toujours bien été reconnu et a fonctionné "out of the box" avec diverses distributions Linux et Xsane.
[^] # Re: scanner
Posté par Ant . Évalué à 1.
J'ai une petite imprimante multi-fonctions brother, la DCP 375CW, qui scanne jusqu'à 300 dpi.
Brother fournit les drivers rpm ou deb nécessaires pour l'installation. Je l'ai installée sans problème sur ma mageia avec les rpm. Les fonctionnalités sont à première vue quasi identiques sous linux et windows, à part le niveau d'encre, qui n'est pas visible sous linux.
Ce qui est assez bien fichu, c'est que quelques fonctions sont assurées par des scripts shells lancés depuis le PC. J'ai pu ainsi les customiser en ajoutant le nettoyage des scans avec unpaper et l'ajout de texte dans les PDF avec l'OCR Tesseract.
Ce qu'il faut savoir c'est que pour que l'OCR soit assez fiable, il faut une résolution de scan de 300 dpi minimum.
C'est là que la qualité du scanner intervient : s'il ne scanne pas correctement à 300 dpi, l'OCR ne marche pas bien et du coup l'indexation ne sera pas bonne. Mon imprimante scanne correctement à 200 dpi, mais ce n'est pas parfait, certains mots ou chiffres ne sont parfois pas bien détectés. A 300 dpi (son max), le résultat est un peu meilleur, mais parfois certains mots qui étaient bien reconnus à 200 dpi présentent cette fois des erreurs (ce qui arrive si l'original n'est pas très net). A part cela, le scan est trop long avec mon imprimante à 300 dpi, je reste à 200, ce qui donne des résultats acceptables, mais pas complétement fiables.
[^] # Re: scanner
Posté par Jérôme Flesch (site web personnel) . Évalué à 4. Dernière modification le 06 février 2017 à 14:56.
Ayant moi-même une Brother MFC (pour tester Paperwork principalement), pour ma part, j'aurais plutôt tendance à les déconseiller. Même si ça semble être du très bon matériel, logiciellement ça pêche :
[^] # Re: scanner
Posté par Ant . Évalué à 2.
Effectivement, les drivers Brother sont propriétaires, ce qui est moins bien que du libre je te l'accorde.
Cela étant, Brother fournit des drivers linux pour l'ensemble de la gamme (à ce que j'ai pu voir) imprimantes + scanners (y compris scanners pros), et en plus les met à jour après publication, ce qui me semble assez notable et permet de penser qu'ils ne vont pas en abandonner le support de suite. Mon imprimante a 6 ans et fonctionne toujours, avec ma distribution la plus récente. J'ai tendance à penser que si dans 5 ans elle n'est plus prise en charge par Brother, il y a de fortes chances que j'ai changé d'imprimante entretemps.
En ce qui me concerne, je n'ai jamais eu à me plaindre de leurs drivers, mais je note ce point.
Je ne savais pas que HP faisait des pilotes libres. J'avais une imprimante HP auparavant et j'ai abandonné cette marque à cause des consommables hors de prix et des cartouches compatibles non compatibles (cela peut avoir changé depuis).
# Bravo et merci
Posté par cougar (site web personnel) . Évalué à 4.
Je m'y suis mis il y a quelques mois pour toute ma paperasserie personnelle et j'en suis très satisfait. J'ai paramètre le répertoire pour être synchronisé sur mon Nextcloud et hop, une petite redondance pour ne rien perdre en cas d'incident avec le PC. Continuez ! C'est vraiment un utilitaire pratique !
[^] # Re: Bravo et merci
Posté par KiKouN . Évalué à 8.
Idem. Ça a changé la vie de ma femme maintenant que c'est moi qui gère l'archivage de la paperasse.
# ppa ?
Posté par greee . Évalué à 0.
Existe t-il un ppa ? (pour les personnes sous Ubuntu, parce que git c'est pas très end-user-friendly…)
[^] # Re: ppa ?
Posté par claudex . Évalué à 5.
Le logiciel est disponible via pip. Et il y a une doc d'installation. Pas besoin de git.
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
# Mageia
Posté par pamputt . Évalué à 2.
Bonjour. Je ne connais vraiment pas bien python donc ça peut sembler basique mais je n'ai pas réussi à installer paperwork sur Mageia 5 64-bits. J'ai suivi la page d'installation de Fedora car c'est le système qui doit être le plus proche.
J'ai donc réussi à faire
python3 -m pip install paperwork
mais après, paperwork-shell chkdeps paperwork_backend, me donne
[WARN] Unknown distribution. Can't suggest packages to install
WARNING: Missing dependencies:
- Poppler (python module: gi.repository.Poppler)
et paperwork-shell chkdeps paperwork donne
[WARN] Unknown distribution. Can't suggest packages to install
[ERROR] Unable to import paperwork: No module named 'paperwork'
Bref, tapez "paperwork" ne fonctionne pas.
Une idée de comment faire pour l'installer sur Mageia 5 ?
[^] # Re: Mageia
Posté par jice (site web personnel) . Évalué à 1.
J'avais laissé un commentaire dans le journal précédent : https://linuxfr.org/news/paperwork-1-0#comment-1681463
Mais comme je dis j'avais peut-être des dépendances déjà installées par ailleurs…
[^] # Re: Mageia
Posté par BAud (site web personnel) . Évalué à 3.
Tu indiques :
mais au vu de l'erreur :
il manque sans doute poppler et python-poppler
http://madb.mageia.org/package/show/arch/x86_64/application/0/name/python-pypoppler
http://madb.mageia.org/package/show/arch/x86_64/application/0/name/poppler
[^] # Re: Mageia
Posté par pamputt . Évalué à 2.
J'ai un peu avancé. J'ai installé les paquets que tu as indiqué mais sans faire disparaitre le message. J'ai aussi installé tesseract, ainsi que les paquets devel. Mais à la fin j'ai toujours ça
$paperwork-shell chkdeps paperwork_backend
[WARN] Unknown distribution. Can't suggest packages to install
WARNING: Missing dependencies:
- Poppler (python module: gi.repository.Poppler)
$ paperwork-shell chkdeps paperwork
[WARN] Unknown distribution. Can't suggest packages to install
WARNING: Missing dependencies:
- Gnome symbolic icons (/usr/share/icons/gnome/(…)/go-previous-symbolic.svg (python module: (none))
$ paperwork
Traceback (most recent call last):
File "/usr/bin/paperwork", line 3, in
from paperwork.paperwork import main
File "/usr/lib/python3.4/site-packages/paperwork/paperwork.py", line 29, in
gi.require_version('Poppler', '0.18')
File "/usr/lib64/python3.4/site-packages/gi/init.py", line 100, in require_version
raise ValueError('Namespace %s not available' % namespace)
ValueError: Namespace Poppler not available
[^] # Re: Mageia
Posté par Jérôme Flesch (site web personnel) . Évalué à 3. Dernière modification le 04 février 2017 à 14:47.
Pour info, le nom du paquet manquant ici, dans Debian/Ubuntu, c'est
gir1.2-poppler-0.18
.Gnome a introduit les GIR (GObject Introspection Repositories) pour pouvoir générer automatiquement les bindings pour chaque langage à la volée, rendant les paquets comme
python-poppler
obsolètes.Si un utilisateur de Mageia aurait le temps de compléter paperwork-shell avec les listes de paquets Mageia, ça serait cool :
https://github.com/jflesch/paperwork-backend/blob/unstable/src/paperwork/backend/shell_cmd.py#L22
https://github.com/jflesch/paperwork-backend/blob/unstable/src/paperwork/backend/deps.py
https://github.com/jflesch/paperwork/blob/unstable/src/paperwork/deps.py
[^] # Re: Mageia
Posté par BAud (site web personnel) . Évalué à 2.
Il y a :
(le nommage des bibliothèques est différent entre i586 et x86_64, ce qui permet de les faire cohabiter sur le même système si besoin).
J'ai parcouru ta gestion des dépendances et sans doute retrouvé la plupart des paquets que tu essaies de lister, sauf que tu ne sembles pas différencier une installation sur x86_64 et i586 ? (vu que sur Mageia, le nom des paquets de bibliothèques change)
[^] # Re: Mageia
Posté par pamputt . Évalué à 3.
En installant lib64poppler-gir0.18, ça fonctionne. Merci à tous les deux pour votre aide.
# DjVu
Posté par 🚲 Tanguy Ortolo (site web personnel) . Évalué à 10. Dernière modification le 06 février 2017 à 13:08.
Salut,
J'ai une suggestion de fonctionnalité : une prise en charge du format DjVu, qui est parfaitement adapté pour les documents numérisé, et qui peut également être OCRisé.
Par exemple, mon cas d'usage pour le DjVu est le suivant. Je souhaite à numériser mes documents avec une qualité suffisante pour qu'une fois réimprimés, un humain ne se rende pas spontanément compte qu'il s'agit d'une copie¹, même s'il pourra toujours le remarquer en l'examinant attentivement. Dans la mesure où nous ne décelons plus facilement les points à partir de 300 dpi, il faut pour cela numériser à 600 dpi. Essayez de stocker ça sous la forme d'un PDF, et vous obtiendrez quelque chose de très lourd, avec en prime une compression avec perte. Essayez cela en DjVu, et vous obtiendrez quelque chose de moins de 100 kio.
Pour info, DjVu est vraiment faire pour cela, avec plusieurs niveaux d'optimisation :
Pour produire un document DjVu à partir d'images (TIFF dans mon cas), j'utilise didjvu, puis ocrodjvu avec tesseract pour y ajouter une couche de texte par OCR. Les documents DjVu peuvent être lus avec Evince, donc probablement avec le bibliothèque Poppler.
Notes :
[^] # Re: DjVu
Posté par mosfet . Évalué à 2.
Merci pour ton commentaire car je ne connaissais pas ce format d'image et je suis concerné en ce moment car je préfère archiver des documents de manière numérique plutôt qu'au format papier dans des classeurs.
J'ai même la fâcheuse manie de détruire le document papier une fois numérisé.
Comme tu dis un problème se pose lorsqu'on te demande des originaux et ta solution parait pertinente.
Dernièrement j'ai arrêté de stocker un pdf mais je passe par un jpeg avec un facteur de qualité de 97, au final je n'ai pas trop regardé la perte de qualité mais dans tous les cas ça prends moins de place.
Mon dernier souci est la pérennité de mes documents car tout est stocké sur mon NAS mais si je me le fais voler un jour ca va me faire très mal. IL faudrait que je sauvegarde mes données sur un disque dur externe caché quelque part ou alors que je stocke dans un nuage mais rien que la notion de nuage ne m'inspire pas confiance.
[^] # Re: DjVu
Posté par 🚲 Tanguy Ortolo (site web personnel) . Évalué à 5.
Avant même de regarder la qualité de la compression, il faut déjà s'occuper de la finesse de la numérisation. Si c'est du 100 ou 150 dpi, ça va se voir tout de suite, parce que ce sera pixelisé façon fax. En 200 dpi, ça se verra mais pas forcément immédiatement. En 300 dpi, ça se verra en étant un peu attentif. Et en 600 dpi, ce sera invisible sauf à vraiment chercher très attentivement, et encore. En supposant une impression à 300 dpi.
[^] # Re: DjVu
Posté par Ant . Évalué à 2.
En parlant de ta note, concernant les documents refusés car s'agissant de copies.
S'il s'agit de documents d'un notaire, je peux comprendre.
Pour le reste, je suis étonné. J'avais demandé à mon banquier ce qu'il faisait des tonnes de papiers qu'il me faisait signer (conventions, crédits, etc…). Il m'a dit que c'était scanné en central et archivé mais que les originaux une fois archivés ne sortaient plus des archives. Ils ne travaillaient qu'avec les versions numériques. Du coup je fais pareil, je jette quasiment tout après scan.
[^] # Re: DjVu
Posté par GG (site web personnel) . Évalué à 3.
Il te dit que c'est archivé. Pas détruit.
Tu peux aussi archiver, pour le jour où tu devras fournir l'original.
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
[^] # Re: DjVu
Posté par Jérôme Flesch (site web personnel) . Évalué à 5.
Je serais plus que content d'utiliser le format DjVu pour les scans au lieu de ma bouillabaisse à base de JPEG+hOCR.
Le problème, c'est qu'à l'heure actuelle, à ma connaissance, il n'y aucune libraire C ou Python libre pour générer des fichiers DjVu.
La dernière fois que j'ai regardé, DjvuLibre ne proposait qu'une librairie pour la lecture de fichiers DjVu, et des outils en ligne de commande pour leur génération. Je dois déjà faire des fork()+exec() pour Tesseract, et ça m'embête déjà bien. Je refuse de faire des fork()+exec() pour générer les fichiers DjVu.
[^] # Re: DjVu
Posté par 🚲 Tanguy Ortolo (site web personnel) . Évalué à 4.
Paperwork n'est-il pas en Python ? Parce qu'il y a des bindings Python pour DjVuLibre.
Pour Tesseract, apparemment il y a une libtesseract, mais je ne sais pas ce que ça vaut.
Dans ce cas, tu pourrais prendre en charge le DjVu en lecture, pour importer des fichiers réalisés extérieurement.
[^] # Re: DjVu
Posté par sebas . Évalué à 2.
Je génère mes djvu avec OCR avec la commande
djvubind --tesseract-option="-l fra"
(il traite les fichiers dans le répertoire courant, ou on lui donne le nom d'un répertoire en paramètre)
Donc si tu fais un fork pour tessaract, tu peux peut-être le faire pour djvubind qui lui prendra en charge tessaract, ça ne fait pas un fork en plus.
# Correction traduction
Posté par xcomcmdr . Évalué à 3.
FTFY.
"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.