Ils sont tous dans un même répertoire dans lequel il n'y a qu'eux. Je veux donc un truc simple (exit htdig car il faudrait que j'écrive une page HTML lieant tout les PDF).
echo "{html}{head}{title}Mes bow pdf{/title}{/head}{body}{ul}" > index.html
for PDF in *.pdf
do
echo "{li}{a href=\"$PDF\"}$PDF{/a}{/li}>" >> index.html
done
echo "{/body}{/html}">> index.html
Il faut juste remplacer les {} par des < > (car linuxfr ne veut pas que je postes des tags htmls dans mon commentaire).
[perlfect en lui même c'est apres la tete de chat.]
C'est ecrit en Perl, plutot pas mal écrit même. J'ai relu vite fait le code pas vu de gros trous de secus. Tu peux indexer via http ou en local (donc pas besoin qu'une page html pointe vers les liens). Indexage des doc/rtf/pdf/ps enfin ce que tu veux tant que tu as un filtre pour passer ca en texte. Et ca tien plutot bien la route (l'indexage de 3/4 Go de textes prend dans le petit quart d'heure et 150 Mo de RAM bien que l'on puisse diminuer la RAM au detriment du temps CPU qui explose).
# Re: Indéxer des PDF.
Posté par CopainJack (site web personnel, Mastodon) . Évalué à 4.
echo "{html}{head}{title}Mes bow pdf{/title}{/head}{body}{ul}" > index.html
for PDF in *.pdf
do
echo "{li}{a href=\"$PDF\"}$PDF{/a}{/li}>" >> index.html
done
echo "{/body}{/html}">> index.html
Il faut juste remplacer les {} par des < > (car linuxfr ne veut pas que je postes des tags htmls dans mon commentaire).
[^] # oops
Posté par CopainJack (site web personnel, Mastodon) . Évalué à 1.
echo "{/ul}{/body}{/html}">> index.html
# Re: Indéxer des PDF.
Posté par ckyl . Évalué à 2.
http://www.perlfect.com/freescripts/search/(...)
C'est un peu modifié (couplé a un moteur d'indexage perso) mais ca donne ca :
http://www.madchat.org/search/?miaou=scheduler&cat=(...)
http://www.madchat.org/search/?miaou=ule&cat=(...)
[perlfect en lui même c'est apres la tete de chat.]
C'est ecrit en Perl, plutot pas mal écrit même. J'ai relu vite fait le code pas vu de gros trous de secus. Tu peux indexer via http ou en local (donc pas besoin qu'une page html pointe vers les liens). Indexage des doc/rtf/pdf/ps enfin ce que tu veux tant que tu as un filtre pour passer ca en texte. Et ca tien plutot bien la route (l'indexage de 3/4 Go de textes prend dans le petit quart d'heure et 150 Mo de RAM bien que l'on puisse diminuer la RAM au detriment du temps CPU qui explose).
Vala
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.