Sortie de Datafari 5.3, moteur de recherche open source pour entreprise

Posté par  . Édité par Ysabeau 🧶, Benoît Sibaud et Pierre Jarillon. Modéré par Benoît Sibaud. Licence CC By‑SA.
19
5
oct.
2022
Base de données

Nous sommes heureux de vous annoncer la mise à disposition de Datafari 5.3. Pas mal de changements depuis la version 5.0 sur laquelle nous avions communiqué, on en fait la liste un peu plus bas.

Pour rappel, Datafari est une solution de recherche pour entreprise, sous licence Apache v2. Où que les connaissances se trouvent et sous quelque format que ce soit, elle permet aux employés de retrouver les données utiles. Plus concrètement, il s’agit de récupérer et d’indexer les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et de permettre de chercher aussi bien l’intérieur des documents que leurs métadonnées. On parle également de fédération des connaissances et des savoirs au sein d’une organisation. Pour cette dépêche, on se concentre sur la version libre et open source (mais il y a aussi d’autres nouveautés sur la version entreprise propriétaire).

Page de resultats de recherche dans Datafari

Les nouveautés et changements principaux par rapport à la 5.0 version Communautaire Open Source :

  1. isolation d’Apache Tika dans son propre serveur ;
  2. connecteurs pour indexer Jira et Confluence ;
  3. option graphique pour redémarrer Datafari ;
  4. connecteur simplifié pour indexer les BDD ;
  5. passage à DatafariUI, notre nouvelle IHM en React ;
  6. optimisation des ressources matérielles par le passage à Apache Zeppelin pour l’analyse des données ;
  7. des correctifs un peu partout.

Comment démarrer ?

Pour voir à quoi ça ressemble, nous avons téléversé une courte vidéo de démonstration. Pour démarrer tout de suite, le mieux est d’aller lire le quick start guide. Nous mettons gratuitement à disposition notre documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement.

Pour rappel, on trouvera ci-dessous les principales fonctionnalités de Datafari en tant que moteur de recherche.

Que peut‐on faire avec Datafari ?

Datafari est un moteur de recherche pour entreprise : membres de la famille des outils de gestion des connaissances, les solutions de recherche fédèrent les connaissances en analysant et indexant tous les documents d’une organisation, aussi bien leur contenu que leurs métadonnées. Pour cela, le moteur de recherche doit être multi‐sources, multi‐formats, et gérer la sécurité. En outre, il faut permettre l’administration de l’outil.

Dans la version libre, on peut, côté admin :

  1. administrer les connecteurs aux sources de données vers de nombreuses sources (nous utilisons Apache ManifoldCF avec tous ses connecteurs) dont Sharepoint, Confluence, Alfresco et les partages de fichiers ;
  2. gérer l’algorithme de pertinence qui classe les documents pour leur affichage suite à une requête ;
  3. mettre en avant des documents pour des requêtes identifiées ;
  4. créer des utilisateurs et leur assigner des rôles ;
  5. voir des statistiques d’usage de l’outil ;
  6. créer l’équivalent de Google AdWords (appelés promoliens) ;
  7. gérer des synonymes ;
  8. plein d’autres choses accessibles depuis la documentation Confluence.

Côté utilisateur, on peut :

  1. chercher de façon simple ou avancée ;
  2. prévisualiser les résultats ;
  3. bénéficier de la correction orthographique et de l’auto‐complétion ;
  4. choisir et utiliser des facettes pour filtrer les résultats ;
  5. mettre des résultats dans un panier de favoris ;
  6. créer des alertes par courriel quand des documents modifiés ou nouveaux correspondent à une requête.

Et ensuite ?

Pour 2023, nous passerons à Datafari 6 avec Solr 9, qui permettra de démarrer des travaux de R&D sur la recherche vectorielle en natif. En parallèle, nous travaillons à l’intégration de modules d’extractions d’entités à la phase d’indexation.

Des commentaires ?

Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez-en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ha et si vous l'utilisez déjà, n’hésitez pas à en parler sur le web !

Aller plus loin

  • # Et la license est... Apache-2.0

    Posté par  . Évalué à 6.

    Ne trouvant pas mention de la license de ce projet libre, je suis allé à la pêche aux infos. Datafari est sous license Apache-2.0. Les téléchargements sont fournis en paquets Debian, image Docker et image pour machine virtuelle. Y'en a qui font les choses bien!

  • # test ?

    Posté par  (site web personnel) . Évalué à 2.

    Quelqu'un a déjà fait un test ? Par exemple sur le contenu de linuxfr ?

    On voit bien l’intérêt de ce genre d'outil, mais j'ai toujours été déçu par la qualité des résultats retournée. On est d'habitude loin d'un moteur de recherche classique.

    "La première sécurité est la liberté"

    • [^] # Re: test ?

      Posté par  . Évalué à 4.

      Il faut faire attention au fait que Datafari fait partie de la famille des moteurs de recherche pour entreprise: à ce titre, sa spécialité n'est pas d'être un des meilleurs moteur de recherche web (il y a des projets comme Apache Nutch pour cela, et des crawlers comme Norconex ou scrappy), mais d'être multisources et multiformats: cela veut dire pouvoir tout aussi bien indexer des contenus drupal que nuxeo, xwiki, partages de fichiers, bases de données etc, et des fichiers de types libre office, MS office, zip, pdf … C'est un défi à part entière de gérer tout ca en même temps, et c'est là-dessus que se spécialise Datafari, pas dans l'optimisation du crawl web (même si c'est bien sûr tout à fait possible et certains le font, mais ca nécessite de la customisation pour que le résultat soit plaisant). J'espère avoir été plus clair !

      • [^] # Re: test ?

        Posté par  (site web personnel) . Évalué à 3.

        J'imagine bien que le défi pour lire plein de format est complexe pour construire l'index. Mais ensuite, pour répondre à une demande que l'on index du html ou du word, la qualité de résultat attendu est la même.

        Je pense à un autre truc : comme gérez-vous les droits d'accès ? Souvent, on a le droit de lire un document mais on n'a pas l'accès qu'il faut demander. Est-ce que le moteur index aussi ce qui est protégé ?

        "La première sécurité est la liberté"

        • [^] # Re: test ?

          Posté par  . Évalué à 6.

          "La qualité de résultat attendu est la même" => en fait non, cela dépend des process métiers qui nécessitent l'usage de l'outil de recherche.

          Il y a deux aspects à concilier pour un algorithme de calcul de la pertinence des résultats, c'est la précision et le rappel (resp. combien de documents sont corrects parmi ceux retournés, et combien de documents le moteur a réussi à trouver parmi tous ceux qui sont pertinents).

          Certains comme les juristes sont souvent plutôt orientés sur le rappel: ils peuvent vouloir voir tous les documents pertinents pour une enquête, même s'il faut regarder des pages et des pages de résultats; d'autres comme les opérateurs de maintenance vont être orientés plus sur la précision: ils veulent la dernière version du document technique du matériel à maintenir. En dehors du monde de l'entreprise, les internautes sur le web sont plutôt orientés sur la précision: le premier résultat est celui qu'on va sans doute vouloir regarder, les autres c'est moins grave.

          On ne peut pas "automatiquement" concilier les deux, cela va se faire en fonction du contexte. Dans notre cas on préconfigure Datafari pour être au milieu du guet.
          Et pour les outils qui se spécialisent sur du pur web, ils peuvent aussi bénéficier du calcul du cross référencement (type pagerank), qui n'existe pas dans les corpus intranet types partages de fichiers.

          Pour ce qui est de la sécurité, on ne la propose pas dans la version open source mais dans la version Entreprise (et on pense le faire bien, c'est qui fait que Datafari est utilisé dans le nucléaire ou la défense par exemple). A noter cependant que nous n'avons mis aucun bloqueur technique pour empêcher la communauté de rajouter une telle fonctionnalité, il faut par contre apprendre comment Datafari fonctionne.

          • [^] # Re: test ?

            Posté par  . Évalué à 4.

            nous n'avons mis aucun bloqueur technique pour empêcher la communauté de rajouter une telle fonctionnalité

            Ça m'interpelle. Depuis tant d'années, vous auriez pu décider de fermer un peu les choses, mais vous demeurez très ouverts. C'est une conviction forte ?

            • [^] # Re: test ?

              Posté par  . Évalué à 3.

              Bonne question. La conviction, oui elle est forte, notamment parce que Datafari n'existerait pas sans le partage des briques que nous utilisons. Tout le défi réside dans l'équilibre à trouver entre le partage des connaissances et les rentrées financières. On rêve toujours d'une boule de cristal qui nous indique où mettre le curseur, mais on ne l'a pas trouvée… Du coup pour l'instant, nous avons cette approche freemium qui permet au public d'utiliser Datafari avec déjà pas mal de fonctionnalités, mais qui devient payant (ou nécessite du dev) pour des fonctionnalités plus "business", comme pour la gestion des contrôles d'accès ou le SSO.

  • # typo

    Posté par  . Évalué à 2.

    s/vréer/créer/ ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.