Bonjour,
je
tente d'utiliser hocr2pdf, et ça marche … et des fois non. J'ai
plusieurs SEGMENTATION FAULT - ça dépend des fichiers.
Je pense que cela viens du fait que certains fichier reçu par tesseract
sont mal écrit en HTML. J'aimerai que ça soit, mais ça a pas l'air
d'être tout le temps : mauvais fichier = segmentation fault. Des fois
j'ai des avertissements sur le format, mais ça marche.
…
Merci d'avance.
# tesseract => text => pdf
Posté par NeoX . Évalué à 2.
et en changeant la sortie de tesseract pour passer par du texte ca ne serait pas mieux ?
[^] # Re: tesseract => text => pdf
Posté par dafp . Évalué à 0.
Pourquoi un fichier serait pas bon?
Je fais:
$ tesseract fichier fichier.hocr -l fra hocr
$ hocr2pdf -i fichier -o fichier.pdf < fichier.hocr.html
et c'est au hocr2pdf que PARFOIS il y a un 'segmentation fault'.
[^] # Re: tesseract => text => pdf
Posté par dafp . Évalué à 0.
HA! Du texte et pas du html. Oui mais, avec du texte ça sera pas mis en forme.
[^] # Re: tesseract => text => pdf
Posté par dafp . Évalué à 0.
Avec
du texte, y parait y avoir moins de segmentation fault, mais il en
subsiste, et assez souvent.
Ne serait-ce pas à cause de certains caractères? Car souvent tesseract
indique un problème d'unclosed tag : '<|>|…'. Peut-être cela
vient de là et hocr2pdf plante à cause de certains caractères?
[^] # Re: tesseract => text => pdf
Posté par dafp . Évalué à 1.
Résolu.
Faut installer CORRECTEMENT tesseract. Y a encore des erreurs (de
tesseract) sur les fichiers anciennement concerné par le segmentation
fault. Mais pas d'erreurs fatal et les images pdf marchent.
Comme quoi c'est pas toujours ce que l'on pense.
Résolu.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.