Bonjour,
je cherche un software pour créer une base de donnée des PDF, en les indexant par texte.
Est-ce que l'utilisation de pdftext peut faire ça, ou est-il possible d'utiliser une librairie comme pyPDF pour extraire le contenu texte d'un pdf ?
Cdt.
# extract ?
Posté par BeberKing (site web personnel) . Évalué à 3.
extract permet de lire les métadonnées de beaucoup de format, y compris les pdf. Après il faut voir s'il permet aussi de récupérer assez de texte pour ton indexation.
# Malodos
Posté par François Chaix (site web personnel) . Évalué à 1.
Il est possible que ceci : https://linuxfr.org/users/davguez/journaux/pub-malodos-1-3 t’intéresse…
En plus c’est écrit par un linuxfrien. Gage de qualité ? peut-être…
La lumière pense voyager plus vite que quoi que ce soit d'autre, mais c'est faux. Peu importe à quelle vitesse voyage la lumière, l'obscurité arrive toujours la première, et elle l'attend.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.