Scrutari, moteur de recherche pour sites gentils

Posté par  . Édité par ZeroHeure, patrick_g et Davy Defaud. Modéré par patrick_g. Licence CC By‑SA.
29
26
jan.
2018
Internet

Scrutari est un moteur de recherche destiné à effectuer des recherches sur un nombre précis de sites (les sites « abonnés »). Sa particularité est de baser sa recherche sur les méta‐données transmises par les sites abonnés et non sur les documents des sites eux‐mêmes (pages HTML, fichier PDF, etc.), contrairement aux moteurs de recherche classiques.
logo Scrutari

Le projet s’est développé d’abord autour de besoins pratiques, initialement autour de la fondation Charles‐Léopold Mayer. En 2008, il a été relancé par la Coredem, dont le but est de rassembler des sites ressource autour des questions de développement, notamment international, qui ont décidé de partager leurs ressources documentaires et d’en faciliter l’accès à partir d’un même espace virtuel et via le moteur de recherche commun Scrutari.

Plus d’informations dans la suite de la dépêche.

Fonctionnement

Le projet Scrutari se décompose en trois éléments distincts : le serveur, le client et les données transmises.

Scrutari, côté serveur

Le serveur, sous licence GPL v3, est écrit en Java et repose sur Apache Tomcat. C’est lui qui met à jour et stocke les moteurs Scrutari. Il se configure via un fichier XML qui permet de préciser les caractéristiques de l’instance.

Le détail se trouve ici, un exemple de l’installation .

ScrutariData, côté flux

Le format ScrutariData s’apparente à celui des flux RSS à ceci près qu’il peut parcourir l’ensemble des ressources d’un site, et pas seulement les dernières nouveautés. Sa spécificité tient à sa proximité avec le milieu de la documentation : il s’intéresse à la notion de corpus qui se compose d’un ensemble de fiches (où l’on va aller chercher nos documents) ; les fiches sont indexées selon des mots‐clés regroupés en thésaurus.

Les méta‐données récupérées comprennent la date, l’auteur, le titre, etc., mais d’autres données peuvent l’être comme la langue du document.

Le format repose sur XML et suit le format DTD ci‐après : http://www.scrutari.net/dokuwiki/scrutaridata:dtd.

ScrutariJS, côté client

L’interrogation du serveur Scrutari se fait principalement en JSON. À ce titre, il est possible d’imaginer de nombreux langages permettant de construire des requêtes. Un développement a été fait en JavaScript, qui permet aussi son intégration plus poussée dans des systèmes de gestion de contenu, comme SPIP.

L’exemple de la Coredem et de Ritimo

La Coredem, pilotée par Ritimo (Réseau d’information et de documentation pour la solidarité et le développement durable), a deux axes de développement principaux : rassembler des contenus qui portent des approches semblables sur l’analyse du monde et s’émanciper en partie d’outils moins sympathiques, comme le moteur de recherche Google, pour affirmer une cohérence entre outils utilisés et valeurs portées.

L’ensemble des ressources choisies par les membres est accessible par le biais de Scrutari, qui peut donc être décliné comme ici sous la forme d’une page de recherche classique.

Recherche Coredem avec Scrutari

Le moteur permet donc de parcourir un ensemble de sites présentant une cohérence thématique, et de rediriger ensuite vers chacun des sites.

Une mutualisation des ressources

L’aspect mutualisation est un élément important de notre démarche : ensemble, nous, petits sites Web avec une visibilité limitée, que ce soit par les moteurs de recherche reposant sur la popularité ou par les réseaux sociaux, nous permettons un accès plus large à nos visiteurs sur des sites choisis, tout en gardant les axes privilégiés de chacun.

La scrutarisation des ressources d’un site permet d’obtenir une automatisation importante, tout en permettant une intervention manuelle de sélection en amont. Elle constitue ainsi une voie médiane entre le référencement d’une liste de sites favoris et la mise en avant d’articles précis.

Une mise en avant de ressources « dossiers »

Contrairement aux flux RSS, ce n’est donc pas tant un outil de l’actualité qu’un outil de recherche dans un catalogue. En tant que tel, il permet de remettre en avant des dossiers importants, des productions plus conséquentes qui, autrement, sont rapidement noyés sous les actualités, phénomène encore plus marqué sur les principaux réseaux sociaux.

Un accès direct à des ressources enfouies

Une utilisation originale du moteur Scrutari nous a permis aussi d’exploiter facilement le contenu des ressources enfouies strictement documentaires du réseau Ritimo depuis PMB. Cette utilisation nous permet d’interroger rapidement et hors du catalogue de PMB, directement depuis le site Web, l’ensemble des ressources physiques présentes dans les centres documentaires.

En termes de nouveautés 2017

Un gros travail d’organisation et de documentation du code a eu lieu en 2017, tant sur le moteur Scrutari que sur le client JavaScript ScrutariJs.

Le client pour SPIP est opérationnel : https://framagit.org/Scrutari/scrutari_client.

Une page pilote pour « la recherche à la Google » existe autour de la Coredem : https://framagit.org/Scrutari/portail-coredem.

Aller plus loin

  • # intéressant, mais pas sûr de tout comprendre

    Posté par  . Évalué à 10.

    Ce projet à l'air intéressant, mais je ne suis pas certain d'avoir vraiment compris le truc.

    En gros, plutôt que d'avoir un acteur externe, indépendant, qui scan le site et essaie de savoir de quoi parlent quelles pages, le site indique lui-même les sujets dont ses contenus traitent à un serveur qui compulse le tout?
    Si c'est ça, je pense que l'approche est intéressante, il est possible que les résultats de recherche soient du coup bien meilleurs que ceux de… peu importe le moteur, surtout quand on cherche des documents sur des termes «générique» (je n'ai pas d'exemple en tête tout de suite, mais je suis persuadé que tout le monde ici comprend de quoi je parle) ou utilisant des caractères spéciaux.

    Par contre, j'imagine que ça implique un travail humain non négligeable, du coup, pour créer ces informations à envoyer? Et du coup, même si ça me semble approprié pour certains contenus (articles, journaux, tutoriels, docs techniques), pour du contenu genre ce message, je doute que ça puisse marcher (je ne dis pas que ce commentaire à une grosse valeur ajoutée, mais ça m'arrive ici d'en lire pour lesquels c'est le cas)?

    Du coup, ça peut être intéressant pour faire des sortes de «ring», un peu comme ce que l'on avait il y a… une 10aine d'années? sur certains sites, mais en plus efficaces?

    PS: le «gentil», ça fait moralisateur, et franchement, je suis pas sûr que ce soit très pertinent…

    • [^] # Re: intéressant, mais pas sûr de tout comprendre

      Posté par  . Évalué à 3.

      PS: le «gentil», ça fait moralisateur, et franchement, je suis pas sûr que ce soit très pertinent…

      Eh oh! comment faut-il rédiger une dépêche si chacun y cherche la petite bête qui lui déplaît ? C'est pénible les remarques sur le vocabulaire trop ceci ou trop cela. L'auteur a un ton, laisse-le lui.

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

      • [^] # Re: intéressant, mais pas sûr de tout comprendre

        Posté par  (Mastodon) . Évalué à 10. Dernière modification le 26 janvier 2018 à 14:12.

        Ça va, une petite remarque sur le forme à la fin d'un bon commentaire sur le fond, pas la peine non plus de se défouler sur lui.

        Et en plus j'avoue avoir moi aussi tiqué sur ce "gentil".

        En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

    • [^] # Re: intéressant, mais pas sûr de tout comprendre

      Posté par  . Évalué à 3.

      PS: le «gentil», ça fait moralisateur, et franchement, je suis pas sûr que ce soit très pertinent…

      On peut le voir comme opposé de menteur/escroc/…, c'est pertinent dans la mesure où le moteur ne se base que sur les déclaration du site.

      Les vrais naviguent en -42

      • [^] # Re: intéressant, mais pas sûr de tout comprendre

        Posté par  (site web personnel) . Évalué à 1.

        Tout à fait d'accord sur la pertinence. Peut-être qu'« honnête » aurait donné lieu à moins de controverses ?

        Debian Consultant @ DEBAMAX

        • [^] # Re: intéressant, mais pas sûr de tout comprendre

          Posté par  (Mastodon) . Évalué à 5.

          J'aurai plutôt dit pour site "volontaire".

          • [^] # Re: intéressant, mais pas sûr de tout comprendre

            Posté par  . Évalué à 4.

            Il suffit de voir la charte de l'association Coredem:

            https://www.coredem.info/article44.html

            Il est évident qu'il y a un fort engagement politique, de gauche en particulier avec tout plein de nov-langue genre
            "Le décloisonnement des acteurs, des points de vue et des idéaux participe à la construction de sociétés durables, plurielles et solidaires."

            Par ailleurs, ils semblent être liée au FPH qui annonce le but "La Fondation Charles Léopold Mayer pour le Progrès de l’Homme (fph) est une fondation de droit suisse. Elle veut contribuer à l’émergence d’une communauté mondiale et intervient dans les champs de la gouvernance, de l’éthique et des modes de vie durables."

            Bref autant dire que si t'es pas dans le délire de la "gouvernance mondiale", mais plutôt "souveraineté Française", je suppose que tu n'es pas dans le camp des "gentils".
            D'où le biais moralisateur de la dépêche ;)

            • [^] # Re: intéressant, mais pas sûr de tout comprendre

              Posté par  . Évalué à 2.

              de gauche en particulier avec tout plein de nov-langue genre :

              C'est pas vraiment de gauche la novlangue, ça fait bien dix ans qu'un rouge comme Frank Lepage dénonce les glissements sémantiques. Ici, c'est très probablement du langage soutenu destiné aux institutions et aux financeurs parce que malheureusement t'es pas pris au sérieux quand t'écris comme tu parles, surtout si t'es un gaucho alter-mondialiste.

              Par contre pour en revenir au principe de "ring", séparer le bon grain de l'ivraie et créer un réseau de confiance est un énorme risque de biais de confirmation comme on peut déjà le trouver chez les complotistes ou chez les SJW de Twitter.
              Parce que tout n'es pas "gentil" dans ce milieu alternatif (exemples dont on a déjà discuté sur le site : les semences "paysannes", le "bio") et un certain nombre de courants relèvent davantage de la croyance et l'empirisme plutôt que d'une démarche rationnelle comme le mouvement Colibri de Pierre Rabhi ou bien la pensée permaculturelle.

              • [^] # Re: intéressant, mais pas sûr de tout comprendre

                Posté par  . Évalué à 1.

                Bonjour à tous,

                Merci de vos retours, j'avoue que je ne pensais pas que ma rime pauvre sur "gentil" (avec une vague allusion au don't be evil de Google) susciterait de commentaires.

                Il me semble que le biais de confirmation ou la nature politique du regroupement dépendent uniquement du choix qui est fait autour des sites choisis et des infos sélectionnées.

                On peut effectivement reproduire un mécanisme qui rappelle les rings, en faisant des sélections thématiques, c'est un peu l'idée ici : https://www.coredem.info/rubrique70.html.

                Concernant la part de travail manuel, il y a un travail à faire pour cibler le site et les informations qu'on souhaite y récupérer. Le but n'est pas de récupérer l'ensemble des informations produites mais plutôt de récupérer des ressources qui vont s'insérer sous un angle précis. On peut imaginer des ressources plus ciblées, ou plus larges, que le cas de la Coredem.

                Florian

  • # coquilles

    Posté par  (site web personnel) . Évalué à 3.

    sur les documents des site

    -> des sites

    A ce titre

    -> À ce titre

    https://librazik.tuxfamily.org - http://linuxmao.org - https://liberapay.com/trebmuh

    • [^] # Re: coquilles

      Posté par  . Évalué à 3.

      Corrigé, merci.

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

  • # Linked Data (RDF)?

    Posté par  . Évalué à 6.

    Une remarque pas très informée dont le but n'est pas de troller mais d'ouvrir une discussion: le projet a l'air d'ignorer complètement les développements autour du Linked Data (RDF & co.) et de réinventer la roue… non?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.