Journal Evince et reconnaissance de caractères

Posté par Antoine le 30 juin 2006 à 19:44.

Étiquettes : aucune

juin

2006

Messieurs-dames,

J'ai un petit doute concernant Evince et j'aimerais en savoir plus...

On m'a envoyé un document pdf, réalisé à partir d'un texte dactylographié et numérisé.

Or, surprise, avec Evince, je peux sélectionner des portions de texte (et, par exemple, les coller dans un autre document).

Il est aussi capable de reconnaître certaines lettres dans du texte manuscrit.

Ce qui me fait dire qu'Evince est capable de reconnaître les caractères.

Quelqu'un pour infirmer/confirmer ?

# .

Posté par fork_bomb le 30 juin 2006 à 19:47. Évalué à 4.

Le souvenir est vague, mais il me semble qu'un des transformateurs pdf (distiller ?) permet de faire une ocr approximative pour indexer le document
# Ca dépent du générateur de pdf

Posté par py (site web personnel) le 30 juin 2006 à 20:33. Évalué à 7.

Adobe Acrobat Professional (et je suppose Adobe Distiller) propose la reconnaissance optique des caractères lors de la numérisation d'un document. Cela peut expliquer le comportement d'Evince.
Normalement, le nom du logiciel qui a généré le fichier pdf est inscrit dans les propriétés de ce document.
- [^] # Re: Ca dépent du générateur de pdf
  
  Posté par Antoine le 01 juillet 2006 à 08:49. Évalué à 1.
  
  Dans les propriétés du doc, je trouve "Adobe PDF Library 5.0.4".
  
  Moi qui pensais avoir trouvé une fonction génial d'Evince... ;-)
# Un fichier pdf a deux couches je crois

Posté par Snark_Boojum le 03 juillet 2006 à 11:38. Évalué à 2.

Il y a la couche visible, et une couche texte brute (en général obtenue par reconnaissance de caractères).

La couche du dessous est là justement pour pouvoir faire du copier-coller, il me semble.

Ou alors je confonds avec djvu :-)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# .

# Ca dépent du générateur de pdf

[^] # Re: Ca dépent du générateur de pdf

# Un fichier pdf a deux couches je crois