Paperwork 1.1

Posté par Jérôme Flesch (site web personnel) le 01 février 2017 à 08:37. Édité par Davy Defaud, ZeroHeure, palm123 et Nils Ratusznik. Modéré par claudex. Licence CC By‑SA.

Étiquettes :

fév.

2017

Paperwork est un programme de gestion de documents personnels (papiers et PDF) conçu par un flemmard pour les flemmards. Il s’agit d’une interface graphique conçue avec une idée en tête : « scan & forget » (« numériser et puis voilà fini »). Lire, trier et indexer les papiers est un travail de machine, pas d’humain.

Cette nouvelle version inclut principalement des optimisations et quelques corrections de bogues. Une version pour Windows est également disponible. Plus de détails se trouvent en seconde partie.

Capture d’écran de la fenêtre principale

Les principaux changements sont :

optimisation de la vitesse de rendu des documents ;
la liste des documents n’affiche plus que les cent premiers documents par défaut pour éviter des problèmes de performance avec GTK+ ;
importation de fichiers : affiche désormais le nombre d’images, de fichiers PDF, de documents et de pages qui ont été importés ;
commande paperwork-shell scan : quitte immédiatement après la numérisation ;
exportation de documents : ne bloque plus l’interface graphique et affiche la progression de l’exportation ;
met aussi en évidence les mots similaires aux mots clefs cherchés et non plus juste les correspondances exactes ;
paperwork-shell : ajout de diverses commandes (search, dump, switch_workdir, rescan, show, import, delete_doc, guess_labels, add_label, remove_label et rename) ;
diverses corrections de bogues.

Paperwork est diffusé sous licence GPL v3 ou plus.

Aller plus loin

Paperwork 1.1 (3606 clics)
FAQ (362 clics)
DLFP : Paperwork 1.0 (1118 clics)
Annonce sur Google Groups (122 clics)
Vidéo de démonstration (696 clics)
Dépôt GitHub (665 clics)
Journal des modifications complet (193 clics)

# fusionner documents

Posté par Ecran Plat (site web personnel) le 01 février 2017 à 11:30. Évalué à 5.

Bonjour, j'ai un multifonction qui me crache des pdf.
Le problème c'est qu'il n'est pas recto-verso, peut on dans un document importer plusieurs pdf ? Mon scanner n'est pas compatible sane donc je passe par le scan to mail. Jusqu’à maintenant j'utilise pdftk pour fusionner mes pdf.

Autrement bon programme est super bonne idée, ça permet de tout scanner.
- [^] # Re: fusionner documents
  
  Posté par Jérôme Flesch (site web personnel) le 01 février 2017 à 11:49. Évalué à 6. Dernière modification le 01 février 2017 à 11:49.
  
  Paperwork considère que 1 PDF = 1 document. Et paperwork a pour principe de ne jamais modifier les PDFs qu'on lui donne.
  
  Sinon, il est possible d'importer des images (1 image = 1 page). Mais dans ce cas, Paperwork ne permet d'importer qu'une seule image à la fois pour le moment.
  
  Actuellement, ce n'est donc malheureusement pas possible tel quel. Dans ton cas, je pense que le plus simple serait de scripter la fusion des pages recto avec les pages verso en utilisant des outils en ligne de commande. Bon ok, pour l'aspect intuitif et user-friendly, on repassera …
  - [^] # Re: fusionner documents
    
    Posté par Ecran Plat (site web personnel) le 01 février 2017 à 13:17. Évalué à 3.
    
    Merci pour la réponse,
    je vais continuer comme avant avec pdftk, c'est simple.
    
    Autrement paperwok à l'air bien foutu j'ai fait quelques testes dessus.
    Je vais l'adopter.
    - [^] # Re: fusionner documents
      
      Posté par Axone le 01 février 2017 à 22:00. Évalué à 7.
      
      Pour info, il y a également pdfshuffler pour manipuler des pdf avec une gui.
      - [^] # Re: fusionner documents
        
        Posté par Ecran Plat (site web personnel) le 02 février 2017 à 15:24. Évalué à 3.
        
        Merci,
        c'est génial et simple, comme ça le recto verset je met la pile dans le chargeur, puis je la retourne et de nouveau dans le chargeur, après c'est simple et dans paperwork
# scanner

Posté par harkonen le 01 février 2017 à 14:00. Évalué à 5.

Si quelqu'un peut conseiller un scanner usb pas trop cher et qui fonctionne sous Linux/Fedora, d'avance merci.
- [^] # Re: scanner
  
  Posté par TNorth le 01 février 2017 à 15:38. Évalué à 2.
  
  Dispo d'occasion, il y a le Fujitsu fi-6230 qui a l'avantage d'avoir un "document feeder" et qui est très bien supporté par sane (et marche sous Fedora out of the box).
  
  Sinon j'ai de bonnes expériences avec le HP 8200 (probablement plus vendu non plus).
- [^] # Re: scanner
  
  Posté par Jérôme Flesch (site web personnel) le 01 février 2017 à 19:26. Évalué à 4. Dernière modification le 01 février 2017 à 19:28.
  
  Personnellement, j'ai une préférence pour les scanners/imprimantes HP. Matériellement ils sont moyens. Les drivers sont acceptables mais sans plus. Mais HP fournit des pilotes Linux open-source, donc tu branches en USB et ça marche.
  Il y a juste parfois un apt install hplip à faire. Au pire, si le matériel est trop récent, il faut faire une installation manuelle pas-hyper-compliquée des pilotes HP.
  
  À ma connaissance ils font systématiquement des pilotes Linux open-source, mais je ne suis pas 100% certain.
- [^] # Re: scanner
  
  Posté par gouttegd le 01 février 2017 à 21:11. Évalué à 3.
  
  Perso j’ai un Canon CanoScan LiDE 25 que je trouve très pratique. Compact, alimenté par le port USB, fonctionne out-of-the-box sous Slackware Linux (donc ce serait très étonnant qu’il ne fonctionne pas avec n’importe quelle autre distro).
  
  Je crois que je l’avais payé une quarantaine d’euros, il doit y avoir six ou sept ans de ça.
  - [^] # Re: scanner
    
    Posté par Christophe "CHiPs" PETIT (site web personnel) le 02 février 2017 à 17:47. Évalué à 1.
    
    J'ai acheté ce genre de choses en vide-greniers la dernière fois : 1€ pour 2 scanners !
    
    Au moins un des deux fonctionne, je n'ai pas testé l'autre…
  - [^] # Re: scanner
    
    Posté par GG (site web personnel) le 03 février 2017 à 10:16. Évalué à 2.
    
    Ça fonctionne généralement très bien sous Linux.
    Par contre sous Windows… je n'ai jamais réussi. Même avec les drivers fournis par les différents constructeurs (techniquement, c'est la coque et la marque qui change, il y a peu de modèles différents au niveau électronique).
    
    Ces scanners sont pratiques, mais un peu trop lents. Pour une page ou deux de temps en temps c'est acceptable, et ça fait le travail.
    Il faut bien penser à fermer le couvercle pour éviter les lumières parasites, parce que c'est un unique capteur avec un éclairage successifs dans les 3 couleurs.
    
    On trouve parfois ce genre de scanner dans les poubelles.
    
    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
    - [^] # Re: scanner
      
      Posté par xcomcmdr le 14 février 2017 à 16:00. Évalué à 2. Dernière modification le 14 février 2017 à 16:02.
      
      CanoScan LiDE 25 ? Ce scanner ne fonctionne pas au delà de Windows XP. Le constructeur n'a jamais fait de pilotes pour Vista et ultérieurs.
      
      Il faut dire qu'il est compatible USB 1.1 (qu'il utilise pour l'alimentation et le transfert de données), et date du tout début des années 2000.
      
      À l'époque, il était bien plus rapide et pratique que le scanner précédent qui marchait avec une carte ISA. Mais de nos jours, il est un peu trop lent.
      
      "Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
      - [^] # Re: scanner
        
        Posté par GG (site web personnel) le 18 février 2017 à 17:42. Évalué à 1. Dernière modification le 18 février 2017 à 17:43.
        
        On est bien d'accord. A l'époque (vers la fin de XP), j'avais essayé de le faire fonctionner sur un XP. Même avec les drivers officiels sans succès.
        
        Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
        
        [^] # Re: scanner
        
        Posté par xcomcmdr le 18 février 2017 à 19:06. Évalué à 2.
        
        Il fonctionne très bien sous Windows XP. L'installation des drivers officiels se fait en deux clics.
        
        O_o
        
        "Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)
- [^] # Re: scanner
  
  Posté par nullard3d le 02 février 2017 à 00:38. Évalué à 1.
  
  Canon LiDE 220 : sans souci avec Sane sans blob proprio dans les diverses Debian & Ubuntu récentes. Actuellement en vente dans les 85€.
  D'autres pistes par là : https://github.com/kkaempf/sane-backends/blob/master/backend/genesys.conf.in
  - [^] # Re: scanner
    
    Posté par Nicky le 02 février 2017 à 13:08. Évalué à 1.
    
    Epson GT-7000, modèle ancien, mais a toujours bien été reconnu et a fonctionné "out of the box" avec diverses distributions Linux et Xsane.
- [^] # Re: scanner
  
  Posté par Ant le 05 février 2017 à 22:18. Évalué à 1.
  
  J'ai une petite imprimante multi-fonctions brother, la DCP 375CW, qui scanne jusqu'à 300 dpi.
  Brother fournit les drivers rpm ou deb nécessaires pour l'installation. Je l'ai installée sans problème sur ma mageia avec les rpm. Les fonctionnalités sont à première vue quasi identiques sous linux et windows, à part le niveau d'encre, qui n'est pas visible sous linux.
  Ce qui est assez bien fichu, c'est que quelques fonctions sont assurées par des scripts shells lancés depuis le PC. J'ai pu ainsi les customiser en ajoutant le nettoyage des scans avec unpaper et l'ajout de texte dans les PDF avec l'OCR Tesseract.
  Ce qu'il faut savoir c'est que pour que l'OCR soit assez fiable, il faut une résolution de scan de 300 dpi minimum.
  C'est là que la qualité du scanner intervient : s'il ne scanne pas correctement à 300 dpi, l'OCR ne marche pas bien et du coup l'indexation ne sera pas bonne. Mon imprimante scanne correctement à 200 dpi, mais ce n'est pas parfait, certains mots ou chiffres ne sont parfois pas bien détectés. A 300 dpi (son max), le résultat est un peu meilleur, mais parfois certains mots qui étaient bien reconnus à 200 dpi présentent cette fois des erreurs (ce qui arrive si l'original n'est pas très net). A part cela, le scan est trop long avec mon imprimante à 300 dpi, je reste à 200, ce qui donne des résultats acceptables, mais pas complétement fiables.
  - [^] # Re: scanner
    
    Posté par Jérôme Flesch (site web personnel) le 06 février 2017 à 14:55. Évalué à 4. Dernière modification le 06 février 2017 à 14:56.
    Ayant moi-même une Brother MFC (pour tester Paperwork principalement), pour ma part, j'aurais plutôt tendance à les déconseiller. Même si ça semble être du très bon matériel, logiciellement ça pêche :
    - En fonction de la distribution, l'installateur et les pilotes Brother marchent plus ou moins bien: Pas de problème avec Ubuntu Gnome 16.10, mais je n'ai pas réussi à les faire marcher sur Debian sid.
    - Sauf erreur de ma part, les drivers Brother sont entièrement propriétaires. Pour l'instant ils fonctionnent, mais le jour où Brother en aura marre de les maintenir, ça va devenir de plus en plus compliqué de les utiliser avec une distribution à jour. Jusqu'au moment où ce ne sera plus possible, et la seule option sera de racheter une imprimante …
    - [^] # Re: scanner
      
      Posté par Ant le 06 février 2017 à 16:41. Évalué à 2.
      
      Effectivement, les drivers Brother sont propriétaires, ce qui est moins bien que du libre je te l'accorde.
      Cela étant, Brother fournit des drivers linux pour l'ensemble de la gamme (à ce que j'ai pu voir) imprimantes + scanners (y compris scanners pros), et en plus les met à jour après publication, ce qui me semble assez notable et permet de penser qu'ils ne vont pas en abandonner le support de suite. Mon imprimante a 6 ans et fonctionne toujours, avec ma distribution la plus récente. J'ai tendance à penser que si dans 5 ans elle n'est plus prise en charge par Brother, il y a de fortes chances que j'ai changé d'imprimante entretemps.
      En ce qui me concerne, je n'ai jamais eu à me plaindre de leurs drivers, mais je note ce point.
      Je ne savais pas que HP faisait des pilotes libres. J'avais une imprimante HP auparavant et j'ai abandonné cette marque à cause des consommables hors de prix et des cartouches compatibles non compatibles (cela peut avoir changé depuis).
# Bravo et merci

Posté par cougar (site web personnel) le 01 février 2017 à 17:58. Évalué à 4.

Je m'y suis mis il y a quelques mois pour toute ma paperasserie personnelle et j'en suis très satisfait. J'ai paramètre le répertoire pour être synchronisé sur mon Nextcloud et hop, une petite redondance pour ne rien perdre en cas d'incident avec le PC. Continuez ! C'est vraiment un utilitaire pratique !
- [^] # Re: Bravo et merci
  
  Posté par KiKouN le 01 février 2017 à 20:45. Évalué à 8.
  
  Idem. Ça a changé la vie de ma femme maintenant que c'est moi qui gère l'archivage de la paperasse.
# ppa ?

Posté par greee le 02 février 2017 à 14:52. Évalué à 0.

Existe t-il un ppa ? (pour les personnes sous Ubuntu, parce que git c'est pas très end-user-friendly…)
- [^] # Re: ppa ?
  
  Posté par claudex le 03 février 2017 à 09:49. Évalué à 5.
  
  Le logiciel est disponible via pip. Et il y a une doc d'installation. Pas besoin de git.
  
  « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
# Mageia

Posté par pamputt le 02 février 2017 à 21:22. Évalué à 2.

Bonjour. Je ne connais vraiment pas bien python donc ça peut sembler basique mais je n'ai pas réussi à installer paperwork sur Mageia 5 64-bits. J'ai suivi la page d'installation de Fedora car c'est le système qui doit être le plus proche.
J'ai donc réussi à faire
python3 -m pip install paperwork
mais après, paperwork-shell chkdeps paperwork_backend, me donne

[WARN] Unknown distribution. Can't suggest packages to install

WARNING: Missing dependencies:
- Poppler (python module: gi.repository.Poppler)

et paperwork-shell chkdeps paperwork donne

[WARN] Unknown distribution. Can't suggest packages to install
[ERROR] Unable to import paperwork: No module named 'paperwork'

Bref, tapez "paperwork" ne fonctionne pas.
Une idée de comment faire pour l'installer sur Mageia 5 ?
- [^] # Re: Mageia
  
  Posté par jice (site web personnel) le 03 février 2017 à 09:13. Évalué à 1.
  
  J'avais laissé un commentaire dans le journal précédent : https://linuxfr.org/news/paperwork-1-0#comment-1681463
  Mais comme je dis j'avais peut-être des dépendances déjà installées par ailleurs…
  - [^] # Re: Mageia
    
    Posté par BAud (site web personnel) le 03 février 2017 à 10:47. Évalué à 3.
    
    Tu indiques :
    
    j'ai dû installer qqs packages de dev:
    $ urpmi python-dev lib64python3-devel lib64tiff-devel liblcms2-devel
    
    mais au vu de l'erreur :
    
    WARNING: Missing dependencies:
    - Poppler (python module: gi.repository.Poppler)
    
    il manque sans doute poppler et python-poppler
    http://madb.mageia.org/package/show/arch/x86_64/application/0/name/python-pypoppler
    http://madb.mageia.org/package/show/arch/x86_64/application/0/name/poppler
    - [^] # Re: Mageia
      
      Posté par pamputt le 03 février 2017 à 18:03. Évalué à 2.
      
      J'ai un peu avancé. J'ai installé les paquets que tu as indiqué mais sans faire disparaitre le message. J'ai aussi installé tesseract, ainsi que les paquets devel. Mais à la fin j'ai toujours ça
      
      $paperwork-shell chkdeps paperwork_backend
      [WARN] Unknown distribution. Can't suggest packages to install
      
      WARNING: Missing dependencies:
      - Poppler (python module: gi.repository.Poppler)
      
      $ paperwork-shell chkdeps paperwork
      [WARN] Unknown distribution. Can't suggest packages to install
      
      WARNING: Missing dependencies:
      - Gnome symbolic icons (/usr/share/icons/gnome/(…)/go-previous-symbolic.svg (python module: (none))
      
      $ paperwork
      Traceback (most recent call last):
      File "/usr/bin/paperwork", line 3, in
      from paperwork.paperwork import main
      File "/usr/lib/python3.4/site-packages/paperwork/paperwork.py", line 29, in
      gi.require_version('Poppler', '0.18')
      File "/usr/lib64/python3.4/site-packages/gi/init.py", line 100, in require_version
      raise ValueError('Namespace %s not available' % namespace)
      ValueError: Namespace Poppler not available
      - [^] # Re: Mageia
        
        Posté par Jérôme Flesch (site web personnel) le 04 février 2017 à 14:47. Évalué à 3. Dernière modification le 04 février 2017 à 14:47.
        
        Pour info, le nom du paquet manquant ici, dans Debian/Ubuntu, c'est gir1.2-poppler-0.18.
        Gnome a introduit les GIR (GObject Introspection Repositories) pour pouvoir générer automatiquement les bindings pour chaque langage à la volée, rendant les paquets comme python-poppler obsolètes.
        
        Si un utilisateur de Mageia aurait le temps de compléter paperwork-shell avec les listes de paquets Mageia, ça serait cool :
        https://github.com/jflesch/paperwork-backend/blob/unstable/src/paperwork/backend/shell_cmd.py#L22
        https://github.com/jflesch/paperwork-backend/blob/unstable/src/paperwork/backend/deps.py
        https://github.com/jflesch/paperwork/blob/unstable/src/paperwork/deps.py
        
        [^] # Re: Mageia
        
        Posté par BAud (site web personnel) le 04 février 2017 à 16:50. Évalué à 2.
        
        Il y a :
        
        en i586 : http://madb.mageia.org/package/show/application/0/name/libpoppler-gir0.18 en i586.
        
        en x86_64 : http://madb.mageia.org/package/show/arch/x86_64/application/0/name/lib64poppler-gir0.18
        
        (le nommage des bibliothèques est différent entre i586 et x86_64, ce qui permet de les faire cohabiter sur le même système si besoin).
        
        J'ai parcouru ta gestion des dépendances et sans doute retrouvé la plupart des paquets que tu essaies de lister, sauf que tu ne sembles pas différencier une installation sur x86_64 et i586 ? (vu que sur Mageia, le nom des paquets de bibliothèques change)
        
        [^] # Re: Mageia
        
        Posté par pamputt le 04 février 2017 à 21:37. Évalué à 3.
        
        En installant lib64poppler-gir0.18, ça fonctionne. Merci à tous les deux pour votre aide.
# DjVu

Posté par 🚲 Tanguy Ortolo (site web personnel) le 06 février 2017 à 13:07. Évalué à 10. Dernière modification le 06 février 2017 à 13:08.
Salut,

J'ai une suggestion de fonctionnalité : une prise en charge du format DjVu, qui est parfaitement adapté pour les documents numérisé, et qui peut également être OCRisé.

Par exemple, mon cas d'usage pour le DjVu est le suivant. Je souhaite à numériser mes documents avec une qualité suffisante pour qu'une fois réimprimés, un humain ne se rende pas spontanément compte qu'il s'agit d'une copie¹, même s'il pourra toujours le remarquer en l'examinant attentivement. Dans la mesure où nous ne décelons plus facilement les points à partir de 300 dpi, il faut pour cela numériser à 600 dpi. Essayez de stocker ça sous la forme d'un PDF, et vous obtiendrez quelque chose de très lourd, avec en prime une compression avec perte. Essayez cela en DjVu, et vous obtiendrez quelque chose de moins de 100 kio.

Pour info, DjVu est vraiment faire pour cela, avec plusieurs niveaux d'optimisation :
- le document est séparé en arrière-plan (image en couleur) et premier plan (texte bitonal) ;
- l'arrière-plan est codé avec une compression par ondelettes ;
- le premier-plan est codé à la façon du JBIG, avec notamment une reconnaissance des formes répétées (la même lettre à plusieurs endroits de la page).
Pour produire un document DjVu à partir d'images (TIFF dans mon cas), j'utilise didjvu, puis ocrodjvu avec tesseract pour y ajouter une couche de texte par OCR. Les documents DjVu peuvent être lus avec Evince, donc probablement avec le bibliothèque Poppler.

Notes :
1. Il ne s'agit pas de faire un faux ou de prétendre qu'il s'agit d'un original. Simplement, lorsqu'on me demande sans plus de précision un document dont je n'ai qu'un exemplaire, il est évidemment hors de question de fournir l'original, aussi je fournis donc une copie, sans précision à ce sujet. Il est arrivé qu'on me refuse un dossier parce qu'en le voyant, mon interlocuteur avait rapidement remarqué qu'il s'agissait d'une copie : dans ce cas, avec une meilleure qualité, on peut augmenter les chances qu'il accepte un tel dossier.
- [^] # Re: DjVu
  
  Posté par mosfet le 06 février 2017 à 14:41. Évalué à 2.
  
  Merci pour ton commentaire car je ne connaissais pas ce format d'image et je suis concerné en ce moment car je préfère archiver des documents de manière numérique plutôt qu'au format papier dans des classeurs.
  J'ai même la fâcheuse manie de détruire le document papier une fois numérisé.
  Comme tu dis un problème se pose lorsqu'on te demande des originaux et ta solution parait pertinente.
  Dernièrement j'ai arrêté de stocker un pdf mais je passe par un jpeg avec un facteur de qualité de 97, au final je n'ai pas trop regardé la perte de qualité mais dans tous les cas ça prends moins de place.
  Mon dernier souci est la pérennité de mes documents car tout est stocké sur mon NAS mais si je me le fais voler un jour ca va me faire très mal. IL faudrait que je sauvegarde mes données sur un disque dur externe caché quelque part ou alors que je stocke dans un nuage mais rien que la notion de nuage ne m'inspire pas confiance.
  - [^] # Re: DjVu
    
    Posté par 🚲 Tanguy Ortolo (site web personnel) le 06 février 2017 à 15:42. Évalué à 5.
    
    Comme tu dis un problème se pose lorsqu'on te demande des originaux et ta solution parait pertinente.
    Dernièrement j'ai arrêté de stocker un pdf mais je passe par un jpeg avec un facteur de qualité de 97, au final je n'ai pas trop regardé la perte de qualité mais dans tous les cas ça prends moins de place.
    
    Avant même de regarder la qualité de la compression, il faut déjà s'occuper de la finesse de la numérisation. Si c'est du 100 ou 150 dpi, ça va se voir tout de suite, parce que ce sera pixelisé façon fax. En 200 dpi, ça se verra mais pas forcément immédiatement. En 300 dpi, ça se verra en étant un peu attentif. Et en 600 dpi, ce sera invisible sauf à vraiment chercher très attentivement, et encore. En supposant une impression à 300 dpi.
- [^] # Re: DjVu
  
  Posté par Ant le 06 février 2017 à 14:56. Évalué à 2.
  
  En parlant de ta note, concernant les documents refusés car s'agissant de copies.
  S'il s'agit de documents d'un notaire, je peux comprendre.
  Pour le reste, je suis étonné. J'avais demandé à mon banquier ce qu'il faisait des tonnes de papiers qu'il me faisait signer (conventions, crédits, etc…). Il m'a dit que c'était scanné en central et archivé mais que les originaux une fois archivés ne sortaient plus des archives. Ils ne travaillaient qu'avec les versions numériques. Du coup je fais pareil, je jette quasiment tout après scan.
  - [^] # Re: DjVu
    
    Posté par GG (site web personnel) le 18 février 2017 à 18:15. Évalué à 3.
    
    Il te dit que c'est archivé. Pas détruit.
    Tu peux aussi archiver, pour le jour où tu devras fournir l'original.
    
    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
- [^] # Re: DjVu
  
  Posté par Jérôme Flesch (site web personnel) le 06 février 2017 à 15:07. Évalué à 5.
  
  Je serais plus que content d'utiliser le format DjVu pour les scans au lieu de ma bouillabaisse à base de JPEG+hOCR.
  Le problème, c'est qu'à l'heure actuelle, à ma connaissance, il n'y aucune libraire C ou Python libre pour générer des fichiers DjVu.
  
  La dernière fois que j'ai regardé, DjvuLibre ne proposait qu'une librairie pour la lecture de fichiers DjVu, et des outils en ligne de commande pour leur génération. Je dois déjà faire des fork()+exec() pour Tesseract, et ça m'embête déjà bien. Je refuse de faire des fork()+exec() pour générer les fichiers DjVu.
  - [^] # Re: DjVu
    
    Posté par 🚲 Tanguy Ortolo (site web personnel) le 06 février 2017 à 15:58. Évalué à 4.
    
    Paperwork n'est-il pas en Python ? Parce qu'il y a des bindings Python pour DjVuLibre.
    
    Pour Tesseract, apparemment il y a une libtesseract, mais je ne sais pas ce que ça vaut.
    
    Dans ce cas, tu pourrais prendre en charge le DjVu en lecture, pour importer des fichiers réalisés extérieurement.
  - [^] # Re: DjVu
    
    Posté par sebas le 14 février 2017 à 21:49. Évalué à 2.
    
    Je dois déjà faire des fork()+exec() pour Tesseract, et ça m'embête déjà bien. Je refuse de faire des fork()+exec() pour générer les fichiers DjVu.
    
    Je génère mes djvu avec OCR avec la commande
    djvubind --tesseract-option="-l fra"
    (il traite les fichiers dans le répertoire courant, ou on lui donne le nom d'un répertoire en paramètre)
    
    Donc si tu fais un fork pour tessaract, tu peux peut-être le faire pour djvubind qui lui prendra en charge tessaract, ça ne fait pas un fork en plus.
# Correction traduction

Posté par xcomcmdr le 14 février 2017 à 15:56. Évalué à 3.

« scan & forget » (« numériser & oublier »).

FTFY.

"Quand certains râlent contre systemd, d'autres s'attaquent aux vrais problèmes." (merci Sinma !)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.