Journal wanted : indexation !

Posté par tdaubign le 28 octobre 2003 à 22:59.

Étiquettes : aucune

oct.

2003

Mon petit journal,

Je cherche une façon en local d'indexer des documents word et html afin de permettre à des utilisateurs via une interface html de retrouver tel ou tel documents via une requete style la page de google (affiche les premiere ligne du doc).

J'ai penser à htdig mais sa conf n'ai pas assez permissive et adaptée à ce que je recherche....

Qq'un a des idées pour réaliser un tel traitement facilement (moteur et intégration web) tout cela dans le libre bien entendu !

Merci mon journal !!!!

# Re: wanted : indexation !

Posté par Olivier Grisel (site web personnel) le 28 octobre 2003 à 23:50. Évalué à 1.

Il me semble que Zope + CPS est capable de réaliser cela par défaut. CPS convertit les documents word en html grace a un outil externe appele WvWare. Pour plus de détails :

http://www.nuxeo.org/cps(...)
http://www.cps-project.org/(...)
http://www.nuxeo.org/cps/cps_install(...) (Installation des modules de conversion)
- [^] # Re: wanted : indexation !
  
  Posté par pas_moi le 29 octobre 2003 à 09:44. Évalué à 1.
  
  Sans aller jusqu'à CPS, il est possible de reprendre le composant Zope utile à cette tache: NuxDocument. Il gère, à l'aide d'outils standards de Zope, l'indexation de fichiers MSOffice, PDF, HTML et sûrement d'autres formats puisque ça se gère par plug-ins (ça fait un moment que je ne m'y suis pas penché).
  
  Ensuite, il faut un peu de développement mais on se retrouve alors avec un outils bien plus simple et léger qu'un CPS ou autre Plone/CMF. Par ce que, si c'est pour entendre ensuite que Zope c'est lourd, désolé mais ce sont surtout les solutions développées sur Zope qui ont tendance à devenir lourdes.
# Re: wanted : indexation !

Posté par Anonyme le 29 octobre 2003 à 00:55. Évalué à 1.

Il y'a bien sur la solution de la conversion de ces documents doc (évoqué dans le commentaire précédent).

J'ose espérer que tu ne viens pas sur ce site pour demander de l'aide pour diffuser des documents avec ce format...

---
Vous m'avez envoyé un attachement au format Microsoft Word, format
propriétaire et tenu secret, ce qui fait que je ne peux le lire. Si
vous me l'envoyez au format texte brut, HTML ou PDF, je serai alors en
mesure d'en prendre connaissance.

La diffusion de documents au format Word est néfaste pour vous et pour
les autres. Vous ne pouvez être sûr de la manière dont ils seront
affichés si quelqu'un les regarde avec une version différente de
Microsoft Word; ils peuvent même ne pas fonctionner du tout.

Recevoir des fichiers joints au format Word vous est néfaste :
ils peuvent servir de vecteurs à la propagation de virus (voir
http://www.symantec.com/avcenter/venc/data/acro.html(...)).

Envoyer des documents Word vous est néfaste, parce que ces documents
incorporent normalement des informations cachées sur leur auteur,
permettant à ceux qui le savent de se pencher dans les activés de
ceci-ci (peut-être les vôtres). Le texte que vous croyez avoir effacé
pouvant être encore présent, pour votre plus grand embarras. Voir
http://www.microsystems.com/Shares_Well.htm(...) pour plus d'information.

Mais par dessus tout, envoyer aux gens des documents Microsoft Word
les force à utiliser des logiciels de cette entreprise et leur interdit
tout autre choix.

Il est aisé de convertir le fichier en HTML depuis Microsoft Word :
Ouvrez le document, cliquez sur 'Fichier', puis 'Enregistrer
sous', et dans la boîte de dialogue 'Enregistrer au format' au
bas de la boîte, choisissez 'Document HTML' ou 'Page Web'. Puis
choisissez 'Enregistrer'.
Vous pouvez alors attacher le nouveau document HTML à la place du
document Microsoft Word.

Convertir en texte brut se fait quasiment de la même manière : au lieu
de 'Document HTML', choisissez 'Texte seulement' dans
'Enregistrer au format'.
Vous pouvez alors attacher le nouveau texte à la place du
document Microsoft Word.

Un programme de conversion au format pdf peut aussi être disponible sur votre o
rdinateur :
Sélectionnez 'Fichier' puis 'Imprimer'. Parcourez les différentes
imprimantes disponibles et sélectionnez le 'Convertisseur
pdf'. Cliquez sur le bouton 'Imprimer' et, quand la boîte de
dialogue vous le demande, entrez un nom pour le ficher pdf.
Vous pouvez alors attacher le nouveau document PDF à la place du
document Microsoft Word.

D'avance merci,
- [^] # Re: wanted : indexation !
  
  Posté par tdaubign le 29 octobre 2003 à 08:26. Évalué à 1.
  
  Notre base de doc word est énorme et est inchangeable (désolé, je sais c mal mais c pas moi qui ait choisi !) .... Cependant, ce que je pensais faire était d'extraire les liens vers ces documents plus un bref descriptif toutes les nuits en faisant une recherche sur la partition montée comportant ces documents, puis indexer ces documents après une conversion c pas grave, pour pouvoir réaliser une recherche par mot clé à l'intérieur même des docs (en gros les transformer en fichier texte ou html)....
  Ensuite de même indexer nos page tml, et hop réalsier un petit site php avec une option de recherche sur les indexation, et ouvrir des résultats avec des liens qui ouvrent les pages html cherchées ou les doc word voulus....
  
  Cps m a l air interessant mais semble faire trop de trucs par rapport à ce que je veux et donc semble être un peu lourd ! Et pis assez compliqué !
  
  Je cherche à installer cela sur une debian.....
  
  Merci mon journal si tu as d autres idées !
  - [^] # Re: wanted : indexation !
    
    Posté par Ramso le 29 octobre 2003 à 09:29. Évalué à 3.
    
    sinon tu peux utiliser Zope + le produit NuxDocument
    - [^] # Re: wanted : indexation !
      
      Posté par pas_moi le 29 octobre 2003 à 10:07. Évalué à 1.
      
      Je vote pour... c'est d'ailleurs pour ce genre de tâche que j'ai été amené à utiliser NuxDocument. Il m'avait alors été possible d'étendre les objets NuxDocument pour leur ajouter un commentaire (lui aussi indexé).
      
      Le gros pb, c'est que les NuxDocument sont stockés dans la base de données de Zope (la ZODB) alors que là, le fichiers sont déjà sur le un disque dur. Ça n'est pas très compliqué de faire des importations de masse, mais la ZODB n'est vraiment pas faite pour contenir beaucoup de gros objets (un fichier Word, c'est rarement léger) donc il serait sûrement nécessaire de faire un petit développement pour obtenir un NuxDocument modifié se chargeant d'envoyer les informations d'indexation au moteur de Zope et gardant (en plus du commentaire) un URL vers le fichier au lieu du fichier lui même... si ça se trouve, ça a déjà été développé vu que ça me paraît être une demande assez classique!
  - [^] # Commentaire supprimé
    
    Posté par Anonyme le 29 octobre 2003 à 11:51. Évalué à 1.
    
    Ce commentaire a été supprimé par l’équipe de modération.
# Re: wanted : indexation !

Posté par Benjamin (site web personnel) le 29 octobre 2003 à 10:50. Évalué à 1.

swish-e
A travailler, mais ca devrait assez bien répondre comme "moteur de base d'indexation et de recherche" ...
# Re: wanted : indexation !

Posté par Rénald Casagraude le 29 octobre 2003 à 14:23. Évalué à 1.

mnogosearch ?

R.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.