Forum général.cherche-logiciel Correcteur format html automatique pour hocr2pdf qui fait des segmentation fault un peu partout

Posté par dafp le 20 novembre 2013 à 17:15. Licence CC By‑SA.

Étiquettes :

nov.

2013

Bonjour,
je
tente d'utiliser hocr2pdf, et ça marche … et des fois non. J'ai
plusieurs SEGMENTATION FAULT - ça dépend des fichiers.
Je pense que cela viens du fait que certains fichier reçu par tesseract
sont mal écrit en HTML. J'aimerai que ça soit, mais ça a pas l'air
d'être tout le temps : mauvais fichier = segmentation fault. Des fois
j'ai des avertissements sur le format, mais ça marche.

…

Merci d'avance.

# tesseract => text => pdf

Posté par NeoX le 20 novembre 2013 à 17:25. Évalué à 2.

et en changeant la sortie de tesseract pour passer par du texte ca ne serait pas mieux ?
- [^] # Re: tesseract => text => pdf
  
  Posté par dafp le 20 novembre 2013 à 17:30. Évalué à 0.
  
  Pourquoi un fichier serait pas bon?
  Je fais:
  $ tesseract fichier fichier.hocr -l fra hocr
  $ hocr2pdf -i fichier -o fichier.pdf < fichier.hocr.html
  et c'est au hocr2pdf que PARFOIS il y a un 'segmentation fault'.
  - [^] # Re: tesseract => text => pdf
    
    Posté par dafp le 20 novembre 2013 à 17:37. Évalué à 0.
    
    HA! Du texte et pas du html. Oui mais, avec du texte ça sera pas mis en forme.
    - [^] # Re: tesseract => text => pdf
      
      Posté par dafp le 20 novembre 2013 à 17:42. Évalué à 0.
      
      Avec
      du texte, y parait y avoir moins de segmentation fault, mais il en
      subsiste, et assez souvent.
      Ne serait-ce pas à cause de certains caractères? Car souvent tesseract
      indique un problème d'unclosed tag : '<|>|…'. Peut-être cela
      vient de là et hocr2pdf plante à cause de certains caractères?
- [^] # Re: tesseract => text => pdf
  
  Posté par dafp le 20 novembre 2013 à 18:05. Évalué à 1.
  
  Résolu.
  Faut installer CORRECTEMENT tesseract. Y a encore des erreurs (de
  tesseract) sur les fichiers anciennement concerné par le segmentation
  fault. Mais pas d'erreurs fatal et les images pdf marchent.
  
  Comme quoi c'est pas toujours ce que l'on pense.
  
  Résolu.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# tesseract => text => pdf

[^] # Re: tesseract => text => pdf

[^] # Re: tesseract => text => pdf

[^] # Re: tesseract => text => pdf

[^] # Re: tesseract => text => pdf