Mon petit journal,
Je cherche une façon en local d'indexer des documents word et html afin de permettre à des utilisateurs via une interface html de retrouver tel ou tel documents via une requete style la page de google (affiche les premiere ligne du doc).
J'ai penser à htdig mais sa conf n'ai pas assez permissive et adaptée à ce que je recherche....
Qq'un a des idées pour réaliser un tel traitement facilement (moteur et intégration web) tout cela dans le libre bien entendu !
Merci mon journal !!!!
# Re: wanted : indexation !
Posté par Olivier Grisel (site web personnel) . Évalué à 1.
http://www.nuxeo.org/cps(...)
http://www.cps-project.org/(...)
http://www.nuxeo.org/cps/cps_install(...) (Installation des modules de conversion)
[^] # Re: wanted : indexation !
Posté par pas_moi . Évalué à 1.
Ensuite, il faut un peu de développement mais on se retrouve alors avec un outils bien plus simple et léger qu'un CPS ou autre Plone/CMF. Par ce que, si c'est pour entendre ensuite que Zope c'est lourd, désolé mais ce sont surtout les solutions développées sur Zope qui ont tendance à devenir lourdes.
# Re: wanted : indexation !
Posté par Anonyme . Évalué à 1.
J'ose espérer que tu ne viens pas sur ce site pour demander de l'aide pour diffuser des documents avec ce format...
---
Vous m'avez envoyé un attachement au format Microsoft Word, format
propriétaire et tenu secret, ce qui fait que je ne peux le lire. Si
vous me l'envoyez au format texte brut, HTML ou PDF, je serai alors en
mesure d'en prendre connaissance.
La diffusion de documents au format Word est néfaste pour vous et pour
les autres. Vous ne pouvez être sûr de la manière dont ils seront
affichés si quelqu'un les regarde avec une version différente de
Microsoft Word; ils peuvent même ne pas fonctionner du tout.
Recevoir des fichiers joints au format Word vous est néfaste :
ils peuvent servir de vecteurs à la propagation de virus (voir
http://www.symantec.com/avcenter/venc/data/acro.html(...)).
Envoyer des documents Word vous est néfaste, parce que ces documents
incorporent normalement des informations cachées sur leur auteur,
permettant à ceux qui le savent de se pencher dans les activés de
ceci-ci (peut-être les vôtres). Le texte que vous croyez avoir effacé
pouvant être encore présent, pour votre plus grand embarras. Voir
http://www.microsystems.com/Shares_Well.htm(...) pour plus d'information.
Mais par dessus tout, envoyer aux gens des documents Microsoft Word
les force à utiliser des logiciels de cette entreprise et leur interdit
tout autre choix.
Il est aisé de convertir le fichier en HTML depuis Microsoft Word :
Ouvrez le document, cliquez sur 'Fichier', puis 'Enregistrer
sous', et dans la boîte de dialogue 'Enregistrer au format' au
bas de la boîte, choisissez 'Document HTML' ou 'Page Web'. Puis
choisissez 'Enregistrer'.
Vous pouvez alors attacher le nouveau document HTML à la place du
document Microsoft Word.
Convertir en texte brut se fait quasiment de la même manière : au lieu
de 'Document HTML', choisissez 'Texte seulement' dans
'Enregistrer au format'.
Vous pouvez alors attacher le nouveau texte à la place du
document Microsoft Word.
Un programme de conversion au format pdf peut aussi être disponible sur votre o
rdinateur :
Sélectionnez 'Fichier' puis 'Imprimer'. Parcourez les différentes
imprimantes disponibles et sélectionnez le 'Convertisseur
pdf'. Cliquez sur le bouton 'Imprimer' et, quand la boîte de
dialogue vous le demande, entrez un nom pour le ficher pdf.
Vous pouvez alors attacher le nouveau document PDF à la place du
document Microsoft Word.
D'avance merci,
[^] # Re: wanted : indexation !
Posté par tdaubign . Évalué à 1.
Ensuite de même indexer nos page tml, et hop réalsier un petit site php avec une option de recherche sur les indexation, et ouvrir des résultats avec des liens qui ouvrent les pages html cherchées ou les doc word voulus....
Cps m a l air interessant mais semble faire trop de trucs par rapport à ce que je veux et donc semble être un peu lourd ! Et pis assez compliqué !
Je cherche à installer cela sur une debian.....
Merci mon journal si tu as d autres idées !
[^] # Re: wanted : indexation !
Posté par Ramso . Évalué à 3.
[^] # Re: wanted : indexation !
Posté par pas_moi . Évalué à 1.
Le gros pb, c'est que les NuxDocument sont stockés dans la base de données de Zope (la ZODB) alors que là, le fichiers sont déjà sur le un disque dur. Ça n'est pas très compliqué de faire des importations de masse, mais la ZODB n'est vraiment pas faite pour contenir beaucoup de gros objets (un fichier Word, c'est rarement léger) donc il serait sûrement nécessaire de faire un petit développement pour obtenir un NuxDocument modifié se chargeant d'envoyer les informations d'indexation au moteur de Zope et gardant (en plus du commentaire) un URL vers le fichier au lieu du fichier lui même... si ça se trouve, ça a déjà été développé vu que ça me paraît être une demande assez classique!
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 1.
Ce commentaire a été supprimé par l’équipe de modération.
# Re: wanted : indexation !
Posté par Benjamin (site web personnel) . Évalué à 1.
A travailler, mais ca devrait assez bien répondre comme "moteur de base d'indexation et de recherche" ...
# Re: wanted : indexation !
Posté par Rénald Casagraude . Évalué à 1.
R.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.