Paperwork 1.1

Posté par  (site web personnel) . Édité par Davy Defaud, ZeroHeure, palm123 et Nils Ratusznik. Modéré par claudex. Licence CC By‑SA.
Étiquettes :
70
1
fév.
2017
Bureautique

Paperwork est un programme de gestion de documents personnels (papiers et PDF) conçu par un flemmard pour les flemmards. Il s’agit d’une interface graphique conçue avec une idée en tête : « scan & forget » (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d’humain.

Cette nouvelle version inclut principalement des optimisations et quelques corrections de bogues. Une version pour Windows est également disponible. Plus de détails se trouvent en seconde partie.

Capture d’écran de la fenêtre principale

Les principaux changements sont :

  • optimisation de la vitesse de rendu des documents ;
  • la liste des documents n’affiche plus que les cent premiers documents par défaut pour éviter des problèmes de performance avec GTK+ ;
  • importation de fichiers : affiche désormais le nombre d’images, de fichiers PDF, de documents et de pages qui ont été importés ;
  • commande paperwork-shell scan : quitte immédiatement après la numérisation ;
  • exportation de documents : ne bloque plus l’interface graphique et affiche la progression de l’exportation ;
  • met aussi en évidence les mots similaires aux mots clefs cherchés et non plus juste les correspondances exactes ;
  • paperwork-shell : ajout de diverses commandes (search, dump, switch_workdir, rescan, show, import, delete_doc, guess_labels, add_label, remove_label et rename) ;
  • diverses corrections de bogues.

Paperwork est diffusé sous licence GPL v3 ou plus.

Aller plus loin

  • # fusionner documents

    Posté par  (site web personnel) . Évalué à 5.

    Bonjour, j'ai un multifonction qui me crache des pdf.
    Le problème c'est qu'il n'est pas recto-verso, peut on dans un document importer plusieurs pdf ? Mon scanner n'est pas compatible sane donc je passe par le scan to mail. Jusqu’à maintenant j'utilise pdftk pour fusionner mes pdf.

    Autrement bon programme est super bonne idée, ça permet de tout scanner.

  • # scanner

    Posté par  . Évalué à 5.

    Si quelqu'un peut conseiller un scanner usb pas trop cher et qui fonctionne sous Linux/Fedora, d'avance merci.

    • [^] # Re: scanner

      Posté par  . Évalué à 2.

      Dispo d'occasion, il y a le Fujitsu fi-6230 qui a l'avantage d'avoir un "document feeder" et qui est très bien supporté par sane (et marche sous Fedora out of the box).

      Sinon j'ai de bonnes expériences avec le HP 8200 (probablement plus vendu non plus).

    • [^] # Re: scanner

      Posté par  (site web personnel) . Évalué à 4. Dernière modification le 01 février 2017 à 19:28.

      Personnellement, j'ai une préférence pour les scanners/imprimantes HP. Matériellement ils sont moyens. Les drivers sont acceptables mais sans plus. Mais HP fournit des pilotes Linux open-source, donc tu branches en USB et ça marche.
      Il y a juste parfois un apt install hplip à faire. Au pire, si le matériel est trop récent, il faut faire une installation manuelle pas-hyper-compliquée des pilotes HP.

      À ma connaissance ils font systématiquement des pilotes Linux open-source, mais je ne suis pas 100% certain.

    • [^] # Re: scanner

      Posté par  . Évalué à 3.

      Perso j’ai un Canon CanoScan LiDE 25 que je trouve très pratique. Compact, alimenté par le port USB, fonctionne out-of-the-box sous Slackware Linux (donc ce serait très étonnant qu’il ne fonctionne pas avec n’importe quelle autre distro).

      Je crois que je l’avais payé une quarantaine d’euros, il doit y avoir six ou sept ans de ça.

      • [^] # Re: scanner

        Posté par  (site web personnel) . Évalué à 1.

        J'ai acheté ce genre de choses en vide-greniers la dernière fois : 1€ pour 2 scanners !

        Au moins un des deux fonctionne, je n'ai pas testé l'autre…

      • [^] # Re: scanner

        Posté par  (site web personnel) . Évalué à 2.

        Ça fonctionne généralement très bien sous Linux.
        Par contre sous Windows… je n'ai jamais réussi. Même avec les drivers fournis par les différents constructeurs (techniquement, c'est la coque et la marque qui change, il y a peu de modèles différents au niveau électronique).

        Ces scanners sont pratiques, mais un peu trop lents. Pour une page ou deux de temps en temps c'est acceptable, et ça fait le travail.
        Il faut bien penser à fermer le couvercle pour éviter les lumières parasites, parce que c'est un unique capteur avec un éclairage successifs dans les 3 couleurs.

        On trouve parfois ce genre de scanner dans les poubelles.

        Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

        • [^] # Re: scanner

          Posté par  . Évalué à 2. Dernière modification le 14 février 2017 à 16:02.

          CanoScan LiDE 25 ? Ce scanner ne fonctionne pas au delà de Windows XP. Le constructeur n'a jamais fait de pilotes pour Vista et ultérieurs.

          Il faut dire qu'il est compatible USB 1.1 (qu'il utilise pour l'alimentation et le transfert de données), et date du tout début des années 2000.

          À l'époque, il était bien plus rapide et pratique que le scanner précédent qui marchait avec une carte ISA. Mais de nos jours, il est un peu trop lent.

          "Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)

          • [^] # Re: scanner

            Posté par  (site web personnel) . Évalué à 1. Dernière modification le 18 février 2017 à 17:43.

            On est bien d'accord. A l'époque (vers la fin de XP), j'avais essayé de le faire fonctionner sur un XP. Même avec les drivers officiels sans succès.

            Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

            • [^] # Re: scanner

              Posté par  . Évalué à 2.

              Il fonctionne très bien sous Windows XP. L'installation des drivers officiels se fait en deux clics.

              O_o

              "Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)

    • [^] # Re: scanner

      Posté par  . Évalué à 1.

      Canon LiDE 220 : sans souci avec Sane sans blob proprio dans les diverses Debian & Ubuntu récentes. Actuellement en vente dans les 85€.
      D'autres pistes par là : https://github.com/kkaempf/sane-backends/blob/master/backend/genesys.conf.in

      • [^] # Re: scanner

        Posté par  . Évalué à 1.

        Epson GT-7000, modèle ancien, mais a toujours bien été reconnu et a fonctionné "out of the box" avec diverses distributions Linux et Xsane.

    • [^] # Re: scanner

      Posté par  . Évalué à 1.

      J'ai une petite imprimante multi-fonctions brother, la DCP 375CW, qui scanne jusqu'à 300 dpi.
      Brother fournit les drivers rpm ou deb nécessaires pour l'installation. Je l'ai installée sans problème sur ma mageia avec les rpm. Les fonctionnalités sont à première vue quasi identiques sous linux et windows, à part le niveau d'encre, qui n'est pas visible sous linux.
      Ce qui est assez bien fichu, c'est que quelques fonctions sont assurées par des scripts shells lancés depuis le PC. J'ai pu ainsi les customiser en ajoutant le nettoyage des scans avec unpaper et l'ajout de texte dans les PDF avec l'OCR Tesseract.
      Ce qu'il faut savoir c'est que pour que l'OCR soit assez fiable, il faut une résolution de scan de 300 dpi minimum.
      C'est là que la qualité du scanner intervient : s'il ne scanne pas correctement à 300 dpi, l'OCR ne marche pas bien et du coup l'indexation ne sera pas bonne. Mon imprimante scanne correctement à 200 dpi, mais ce n'est pas parfait, certains mots ou chiffres ne sont parfois pas bien détectés. A 300 dpi (son max), le résultat est un peu meilleur, mais parfois certains mots qui étaient bien reconnus à 200 dpi présentent cette fois des erreurs (ce qui arrive si l'original n'est pas très net). A part cela, le scan est trop long avec mon imprimante à 300 dpi, je reste à 200, ce qui donne des résultats acceptables, mais pas complétement fiables.

      • [^] # Re: scanner

        Posté par  (site web personnel) . Évalué à 4. Dernière modification le 06 février 2017 à 14:56.

        Ayant moi-même une Brother MFC (pour tester Paperwork principalement), pour ma part, j'aurais plutôt tendance à les déconseiller. Même si ça semble être du très bon matériel, logiciellement ça pêche :

        • En fonction de la distribution, l'installateur et les pilotes Brother marchent plus ou moins bien: Pas de problème avec Ubuntu Gnome 16.10, mais je n'ai pas réussi à les faire marcher sur Debian sid.
        • Sauf erreur de ma part, les drivers Brother sont entièrement propriétaires. Pour l'instant ils fonctionnent, mais le jour où Brother en aura marre de les maintenir, ça va devenir de plus en plus compliqué de les utiliser avec une distribution à jour. Jusqu'au moment où ce ne sera plus possible, et la seule option sera de racheter une imprimante …
        • [^] # Re: scanner

          Posté par  . Évalué à 2.

          Effectivement, les drivers Brother sont propriétaires, ce qui est moins bien que du libre je te l'accorde.
          Cela étant, Brother fournit des drivers linux pour l'ensemble de la gamme (à ce que j'ai pu voir) imprimantes + scanners (y compris scanners pros), et en plus les met à jour après publication, ce qui me semble assez notable et permet de penser qu'ils ne vont pas en abandonner le support de suite. Mon imprimante a 6 ans et fonctionne toujours, avec ma distribution la plus récente. J'ai tendance à penser que si dans 5 ans elle n'est plus prise en charge par Brother, il y a de fortes chances que j'ai changé d'imprimante entretemps.
          En ce qui me concerne, je n'ai jamais eu à me plaindre de leurs drivers, mais je note ce point.
          Je ne savais pas que HP faisait des pilotes libres. J'avais une imprimante HP auparavant et j'ai abandonné cette marque à cause des consommables hors de prix et des cartouches compatibles non compatibles (cela peut avoir changé depuis).

  • # Bravo et merci

    Posté par  (site web personnel) . Évalué à 4.

    Je m'y suis mis il y a quelques mois pour toute ma paperasserie personnelle et j'en suis très satisfait. J'ai paramètre le répertoire pour être synchronisé sur mon Nextcloud et hop, une petite redondance pour ne rien perdre en cas d'incident avec le PC. Continuez ! C'est vraiment un utilitaire pratique !

    • [^] # Re: Bravo et merci

      Posté par  . Évalué à 8.

      Idem. Ça a changé la vie de ma femme maintenant que c'est moi qui gère l'archivage de la paperasse.

  • # ppa ?

    Posté par  . Évalué à 0.

    Existe t-il un ppa ? (pour les personnes sous Ubuntu, parce que git c'est pas très end-user-friendly…)

    • [^] # Re: ppa ?

      Posté par  . Évalué à 5.

      Le logiciel est disponible via pip. Et il y a une doc d'installation. Pas besoin de git.

      « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

  • # Mageia

    Posté par  . Évalué à 2.

    Bonjour. Je ne connais vraiment pas bien python donc ça peut sembler basique mais je n'ai pas réussi à installer paperwork sur Mageia 5 64-bits. J'ai suivi la page d'installation de Fedora car c'est le système qui doit être le plus proche.
    J'ai donc réussi à faire
    python3 -m pip install paperwork
    mais après, paperwork-shell chkdeps paperwork_backend, me donne

    [WARN] Unknown distribution. Can't suggest packages to install

    WARNING: Missing dependencies:
    - Poppler (python module: gi.repository.Poppler)

    et paperwork-shell chkdeps paperwork donne

    [WARN] Unknown distribution. Can't suggest packages to install
    [ERROR] Unable to import paperwork: No module named 'paperwork'

    Bref, tapez "paperwork" ne fonctionne pas.
    Une idée de comment faire pour l'installer sur Mageia 5 ?

  • # DjVu

    Posté par  (site web personnel) . Évalué à 10. Dernière modification le 06 février 2017 à 13:08.

    Salut,

    J'ai une suggestion de fonctionnalité : une prise en charge du format DjVu, qui est parfaitement adapté pour les documents numérisé, et qui peut également être OCRisé.

    Par exemple, mon cas d'usage pour le DjVu est le suivant. Je souhaite à numériser mes documents avec une qualité suffisante pour qu'une fois réimprimés, un humain ne se rende pas spontanément compte qu'il s'agit d'une copie¹, même s'il pourra toujours le remarquer en l'examinant attentivement. Dans la mesure où nous ne décelons plus facilement les points à partir de 300 dpi, il faut pour cela numériser à 600 dpi. Essayez de stocker ça sous la forme d'un PDF, et vous obtiendrez quelque chose de très lourd, avec en prime une compression avec perte. Essayez cela en DjVu, et vous obtiendrez quelque chose de moins de 100 kio.

    Pour info, DjVu est vraiment faire pour cela, avec plusieurs niveaux d'optimisation :

    • le document est séparé en arrière-plan (image en couleur) et premier plan (texte bitonal) ;
    • l'arrière-plan est codé avec une compression par ondelettes ;
    • le premier-plan est codé à la façon du JBIG, avec notamment une reconnaissance des formes répétées (la même lettre à plusieurs endroits de la page).

    Pour produire un document DjVu à partir d'images (TIFF dans mon cas), j'utilise didjvu, puis ocrodjvu avec tesseract pour y ajouter une couche de texte par OCR. Les documents DjVu peuvent être lus avec Evince, donc probablement avec le bibliothèque Poppler.

    Notes :

    1. Il ne s'agit pas de faire un faux ou de prétendre qu'il s'agit d'un original. Simplement, lorsqu'on me demande sans plus de précision un document dont je n'ai qu'un exemplaire, il est évidemment hors de question de fournir l'original, aussi je fournis donc une copie, sans précision à ce sujet. Il est arrivé qu'on me refuse un dossier parce qu'en le voyant, mon interlocuteur avait rapidement remarqué qu'il s'agissait d'une copie : dans ce cas, avec une meilleure qualité, on peut augmenter les chances qu'il accepte un tel dossier.
    • [^] # Re: DjVu

      Posté par  . Évalué à 2.

      Merci pour ton commentaire car je ne connaissais pas ce format d'image et je suis concerné en ce moment car je préfère archiver des documents de manière numérique plutôt qu'au format papier dans des classeurs.
      J'ai même la fâcheuse manie de détruire le document papier une fois numérisé.
      Comme tu dis un problème se pose lorsqu'on te demande des originaux et ta solution parait pertinente.
      Dernièrement j'ai arrêté de stocker un pdf mais je passe par un jpeg avec un facteur de qualité de 97, au final je n'ai pas trop regardé la perte de qualité mais dans tous les cas ça prends moins de place.
      Mon dernier souci est la pérennité de mes documents car tout est stocké sur mon NAS mais si je me le fais voler un jour ca va me faire très mal. IL faudrait que je sauvegarde mes données sur un disque dur externe caché quelque part ou alors que je stocke dans un nuage mais rien que la notion de nuage ne m'inspire pas confiance.

      • [^] # Re: DjVu

        Posté par  (site web personnel) . Évalué à 5.

        Comme tu dis un problème se pose lorsqu'on te demande des originaux et ta solution parait pertinente.
        Dernièrement j'ai arrêté de stocker un pdf mais je passe par un jpeg avec un facteur de qualité de 97, au final je n'ai pas trop regardé la perte de qualité mais dans tous les cas ça prends moins de place.

        Avant même de regarder la qualité de la compression, il faut déjà s'occuper de la finesse de la numérisation. Si c'est du 100 ou 150 dpi, ça va se voir tout de suite, parce que ce sera pixelisé façon fax. En 200 dpi, ça se verra mais pas forcément immédiatement. En 300 dpi, ça se verra en étant un peu attentif. Et en 600 dpi, ce sera invisible sauf à vraiment chercher très attentivement, et encore. En supposant une impression à 300 dpi.

    • [^] # Re: DjVu

      Posté par  . Évalué à 2.

      En parlant de ta note, concernant les documents refusés car s'agissant de copies.
      S'il s'agit de documents d'un notaire, je peux comprendre.
      Pour le reste, je suis étonné. J'avais demandé à mon banquier ce qu'il faisait des tonnes de papiers qu'il me faisait signer (conventions, crédits, etc…). Il m'a dit que c'était scanné en central et archivé mais que les originaux une fois archivés ne sortaient plus des archives. Ils ne travaillaient qu'avec les versions numériques. Du coup je fais pareil, je jette quasiment tout après scan.

      • [^] # Re: DjVu

        Posté par  (site web personnel) . Évalué à 3.

        Il te dit que c'est archivé. Pas détruit.
        Tu peux aussi archiver, pour le jour où tu devras fournir l'original.

        Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

    • [^] # Re: DjVu

      Posté par  (site web personnel) . Évalué à 5.

      Je serais plus que content d'utiliser le format DjVu pour les scans au lieu de ma bouillabaisse à base de JPEG+hOCR.
      Le problème, c'est qu'à l'heure actuelle, à ma connaissance, il n'y aucune libraire C ou Python libre pour générer des fichiers DjVu.

      La dernière fois que j'ai regardé, DjvuLibre ne proposait qu'une librairie pour la lecture de fichiers DjVu, et des outils en ligne de commande pour leur génération. Je dois déjà faire des fork()+exec() pour Tesseract, et ça m'embête déjà bien. Je refuse de faire des fork()+exec() pour générer les fichiers DjVu.

      • [^] # Re: DjVu

        Posté par  (site web personnel) . Évalué à 4.

        Paperwork n'est-il pas en Python ? Parce qu'il y a des bindings Python pour DjVuLibre.

        Pour Tesseract, apparemment il y a une libtesseract, mais je ne sais pas ce que ça vaut.

        Dans ce cas, tu pourrais prendre en charge le DjVu en lecture, pour importer des fichiers réalisés extérieurement.

      • [^] # Re: DjVu

        Posté par  . Évalué à 2.

        Je dois déjà faire des fork()+exec() pour Tesseract, et ça m'embête déjà bien. Je refuse de faire des fork()+exec() pour générer les fichiers DjVu.

        Je génère mes djvu avec OCR avec la commande
        djvubind --tesseract-option="-l fra"
        (il traite les fichiers dans le répertoire courant, ou on lui donne le nom d'un répertoire en paramètre)

        Donc si tu fais un fork pour tessaract, tu peux peut-être le faire pour djvubind qui lui prendra en charge tessaract, ça ne fait pas un fork en plus.

  • # Correction traduction

    Posté par  . Évalué à 3.

    « scan & forget » (« numériser & oublier »).

    FTFY.

    "Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.