Journal De la difficulté de trouver un moteur de recherche pertinent pour un site institutionnel du libre

Posté par  . Licence CC By‑SA.
32
11
jan.
2018

Sommaire

Avant de me lancer dans ce journal, j'ai commencé par effectuer une petite recherche "moteur de recherche" sur linuxfr. Il y a quelques pages de résultats. Je ne les ai pas tous consultés mais dans les premiers beaucoup sont vraiment vieux.

Et je suis même tombé sur cet article de 2012 indiquant que le moteur de recherche du site sera désormais interne et basé sur Elasticsearch, une initiative qui semble avoir fait long feu puisqu'aujourd'hui c'est duckduckgo qui est utilisé pour la recherche.

De fait, lorsqu'on gère un site de type wiki/forum en rapport avec le monde du libre, la problématique du moteur de recherche interne au site est un serpent de mer qui revient souvent et n'est jamais résolu de manière satisfaisante. Le fait que nombre de sites existants soient basés sur Google ou sur Duckduckgo pourtant critiquables à bien des égards en est une preuve tangible.

Etat des lieux

Si on regarde le paysage actuel des moteurs de recherche (au sens où le grand public l'entend), on peut les catégoriser en trois grandes catégories:

  • Les façades, qui délèguent la recherche effective à un autre moteur et qui améliorent simplement le rendu, ou la confidentialité, ou l'impact écologique, etc. Exemples: startpage, ecosia
  • Les méta-moteurs sont des façades qui agrègent ouvertement les résultats de plusieurs autres moteurs. Exemple: Duckduckgo.
  • Les indexateurs qui font vraiment le boulot effectif d'indexer le web et de permettre de rechercher des pages, en plus de faire le boulot des autres. Exemple: Google, Bing.

Les moteurs de la dernière catégorie sont peu nombreux car cela suppose une bonne équipe d'ingénieurs dédiés à leur maintenance, une ferme de serveurs conséquente et performante, et un budget important (j'ai lu quelque part qu'il fallait un budget minimum de 100 millions d'euros pour espérer proposer une alternative crédible à l'existant en terme de rapidité de recherche, nombre de pages indexées, pertinence des résultats). Pour faire simple il y a:

  • Google
  • Bing
  • Yahoo
  • Baidu
  • Yandex

Soit trois américains, un chinois, un russe, auxquels on pourrait ajouter pour être complet quelques concurrents moins connus de nos jours (merci Wikipédia): Ask.com, YaCy, Gigablast; et quelques hybrides qui reposent partiellement sur une indexation qui leur est propre tout en utilisant Google ou Bing pour "améliorer" leurs résultats, c'est le cas de Qwant (cocorico!)

Critères de comparaison

Alors quand on discute du problème avec les gens, qui nous reprochent de faire usage du grand méchant Google, on a régulièrement droit à la réaction "oh ben moi j'utilise telle alternative qui marche bien". Certes. Mais ça n'aide malheureusement pas. Car si un particulier peut faire à sa sauce en fonction de ses goûts et de ses compétences informatiques (certains se font même un moteur perso), et changer immédiatement lorsque quelque chose se passe mal, un webadmin du libre pour sa part recherche une solution robuste, pérenne et respectueuse des valeurs auxquelles il adhère. Et subitement ça devient plus difficile de trouver chaussure à sa botte.

Alors voici les critères que je vous propose pour comparer différentes alternatives:

  • type: si c'est un vrai moteur (bing, google), un meta-moteur (duckduckgo, framasoft), une façade (qwant, ecosia)
  • financement: comment c'est financé (revenu publicitaires? Dons des internautes?)
  • organisation: Si derrière il y a une entreprise qui gagne des sous où un organisme non lucratif
  • tracking des utilisateurs: S'il y a des trackers sur la page d'accueil
  • vie privée: S'il y a une politique de respect de la vie privée qui est mise en oeuvre
  • pérennité/robustesse: Depuis combien de temps ça existe, est-ce qu'il y a une volonté d'avoir 100% d'uptime, est-ce que le développement est actif
  • bande passante: poids moyen de la page d'accueil et d'une page de résultat
  • rapidité: temps de réponse moyen
  • pertinence: qualité des résultats (comparativement à google)
  • accessible: C'est un point de détail, mais tous les moteurs ne sont pas égaux au niveau de l'accessibilité pour les personnes souffrant d'un handicap.
  • écolo: surconsommation d'énergie comparativement à google

Au niveau de chaque critère, on peut distinguer en plus entre ce qui est de l'ordre du vœu pieux et de la réalité. Par exemple Duckduckgo dit respecter la vie privée. Mais aucun moyen d'en être sûr, à plus forte raison lorsqu'il y a une société derrière qui tire une partie de ses revenus de la publicité.

A propos de l'impact écologique..

Le dernier point est probablement celui auquel on pense le moins. Pourtant à l'heure où on (devrait) lutte(r) tous azimuts contre le réchauffement climatique, il y a un enjeu majeur autour des actions citoyennes. Certains (pseudo) experts vont jusqu'à chiffrer le gain d'énergie à espérer au niveau national si le fond blanc de google était remplacé par un fond plus foncé avec un contraste plus important. Et puis il y a aussi des alternatives qu'on ne sait pas trop comment prendre. Ainsi Ecosia, qui renvoie les résultats google, mais en affichant ses propres publicités et qui dit qu'une partie de ses revenus publicitaires servent à planter des arbres. Mais sans garantir (à ma connaissance) que les arbres plantés compensent au moins le surcout énergétique représenté par ses serveurs, qui s'ajoute au coût déjà important d'une recherche Google.

J'avais d'ailleurs fait une recherche assez poussée il y a quelque temps sur le cout énergétique d'une recherche Google. Certains sites indiquent que la moindre recherche dépense autant d'énergie qu'il en faut pour faire chauffer une tasse de thé. Une thèse dont Google s'est défendu, assurant qu'il fallait 70 fois moins d'énergie que la quantité décriée. Ça reste néanmoins un impact mesurable et observable.

Classification des critères

Dans la mesure où à ma connaissance il n'y a pas aujourd'hui de compromis parfait, il importe de déterminer parmi les critères quels sont ceux qui sont vraiment important et quels sont ceux qui le sont moins. Et une fois de plus il importe de distinguer entre mon approche et celle du public.

En effet, à titre personnel je peux accepter que mon moteur soit un peu plus lent si il respecte ma vie privée. Et que de temps en temps il soit hors ligne (auquel cas je peux changer temporairement et facilement). Par contre, les attentes que je perçois au niveau du grand public (et pour ne pas être trop souvent dérangé par une indisponibilité du moteur), il y a en premier lieu la rapidité, la disponibilité et la pertinence des résultats. Ce qui fait de Google le choix logique par défaut.

Les autres critères viennent après, en fonction de la sensibilité des personnes et des communautés

Conclusion

J'espère avoir fait le tour des contraintes qui se posent aujourd'hui autour du choix d'un moteur de recherche pour un site web. Il n'y a à ma connaissance pas d'alternative parfaite au grand méchant Google, mais je ne désespère pas de trouver.

Je pense que l'idéal serait un moteur de recherche interne (et ce serait aussi plus écolo), mais il semblerait que ce soit vraiment complexe à mettre en œuvre (je serai d'ailleurs curieux de savoir pourquoi ça a été abandonné sur linuxfr).

J'espère qu'il y aura des pistes intéressantes qui seront évoquées en commentaire de ce journal

  • # AB

    Posté par  (site web personnel) . Évalué à 3.

    il y a des idées intéressantes mais ça mériterait d'être plus précis.
    pour DDG, c'est pas vraiment un meta-moteur (il suffit de chercher un peu: https://duckduckgo.com/duckduckbot).

    Par exemple Duckduckgo dit respecter la vie privée. Mais aucun moyen d'en être sûr
    DDG communique et il y a de nombreux sujets dessus (encore une fois, il suffit de chercher). A part quelques soucis bien lointain, il n'y a pas grand chose à reprocher (sauf l'infra).

    sur le coté écolo, à moins de faire des comptes au pifomètre, je ne vois pas comment on pourrait avoir des éléments de comparaisons fiable.

    https://framasphere.org/posts/5d1fcbc0d87101356b4a423d69c21395

    • [^] # Re: AB

      Posté par  . Évalué à 5.

      J'ai un peu fouillé le site de DDG, je n'ai pas trouvé d'explication sur la manière dont ils calculent leurs résultats. Ceci posé sur wikipédia, ils le qualifient de méta-moteur. Après, peut être l'information est-elle périmée ou incomplète: la présence d'un bot d'indexation montre qu'ils sont à minima hybrides.

      A titre personnel j'en veux beaucoup à Google qui ne recherche pas ce que je lui demande, mais ce qu'il pense que je voulais demander. Ce qui est parfois bon mais souvent faux. Hélas j'ai expérimenté le même problème avec DDG. Par exemple l'autre jour je recherchais timpape, ce vieux jeux PC des années 90 permettant d'étudier la cause et l'effet avec des chats qui font peur à des souris qui courent dans des roues, activant des dynamo, etc etc. Malgrès l'usage de guillemets censés délimiter une expression exacte, google comme ddg me renvoie des résultats pour "Tim Pape". Et lorsqu'en programmation je recherche une expression introduisant des symboles c'est encore pire, la plupart d'entre eux sont tout bonnement ignorés. Il y a le moteur de recherche symbolhound pour cette problématique mais ce n'est pas toujours extraordinaire.

      Le coté écolo est dur à prendre en compte mais ce n'est pas une raison pour ne pas en parler surtout quand on voit toutes les allégations trompeuses des rares qui en parlent.

      • [^] # Re: AB

        Posté par  . Évalué à 4.

        la présence d'un bot d'indexation montre qu'ils sont à minima hybrides.

        Si être hybride c'est utiliser le résultat des autres en plus de son propre bot, alors je doute qu'il reste des moteurs "purs". Par exemple, il me semble bien que google exploite les résultats d'une recherche wikipedia pour affiner les choses.

        Il y a le moteur de recherche symbolhound pour cette problématique mais ce n'est pas toujours extraordinaire.

        Oh bon sang, ça, ça peut m'aider! J'ai le même problème que toi, par rapport à l'interprétation de mes recherches, et ça me gonfle sévère.

      • [^] # Re: AB

        Posté par  . Évalué à 5.

        Je ne sais pas si ta recherche a finit par porter ses fruits, mais ton jeu c'est : The incredible machine.

        The_Incredible_Machine
        The incredible Machine sur GOG

        • [^] # Re: AB

          Posté par  . Évalué à 1.

          J'avais laissé tomber. Merci!

          • [^] # Re: AB

            Posté par  . Évalué à 2.

            Les chats qui courent après les souris, toute ma jeunesse…
            Et Sam et Max, Jill of the jungle, AOE2,…

            • [^] # Re: AB

              Posté par  (Mastodon) . Évalué à 3.

              oh, Jill of the Jungle !
              Merci de me ramener 20 ans en arrière ^

              Yth…

            • [^] # Re: AB

              Posté par  . Évalué à 2.

              "Sam et Max" c'était écrit en Python ?

              ok ok ---> []

  • # Écologie, écologie, ... Faut mesurer avant

    Posté par  (site web personnel) . Évalué à 10.

    Tu parles beaucoup d'écologie sur le sujet. Bien que ce soit en soit pertinent, je trouve que tu en parles beaucoup sans mesurer réellement le sujet.

    Certains (pseudo) experts vont jusqu'à chiffrer le gain d'énergie à espérer au niveau national si le fond blanc de google était remplacé par un fond plus foncé avec un contraste plus important.

    Sur les écrans LCD c'est dans l'ensemble faux. Et ces écrans sont majoritaires. Cela est vrai pour les tubes cathodiques ou les écrans LED. Mais ceux-ci sont plus minoritaires bien que les écrans LED s'installent de plus en plus que ce soit pour la TV, les ordinateurs ou les téléphones portables et tablettes.

    Et rien n'empêche en soi de rendre la page de Google en noir sans utiliser un site alternatif.

    Ainsi Ecosia, qui renvoie les résultats google, mais en affichant ses propres publicités et qui dit qu'une partie de ses revenus publicitaires servent à planter des arbres.

    Mais techniquement Google investit aussi dans des énergies renouvelables, qu'est-ce qui est le mieux ? Le plus rentable d'un point de vue efficacité / écologie ? Difficile à dire sans mesures précises des émissions et des compensations dans les deux cas.

    Mais sans garantir (à ma connaissance) que les arbres plantés compensent au moins le surcout énergétique représenté par ses serveurs, qui s'ajoute au coût déjà important d'une recherche Google.

    Ce qu'il faut en effet mesurer précisément.
    Il ne faut pas oublier dans le coût que Google a des serveurs un peu partout dans le monde, évitant des allers-retours qui font la moitié du globe (et qui donc font consommer les équipements réseaux intermédiaires). C'est souvent moins le cas de ce genre de prestataires écolos.

    J'avais d'ailleurs fait une recherche assez poussée il y a quelque temps sur le cout énergétique d'une recherche Google. Certains sites indiquent que la moindre recherche dépense autant d'énergie qu'il en faut pour faire chauffer une tasse de thé. Une thèse dont Google s'est défendu, assurant qu'il fallait 70 fois moins d'énergie que la quantité décriée. Ça reste néanmoins un impact mesurable et observable.

    C'est un sujet déjà discuté ici et qui est assez complexe.
    Le soucis est qu'un moteur de recherches a des coûts fixes (énergétiquement et financièrement) énormes. Que Google reçoive 100 000 ou 1 000 000 de requêtes, le gros de l'infrastructure sera le même (car il faudra parser tout le web de toute façon et avoir déjà une armée d'ordinateurs pour tenir la charge). Les requêtes supplémentaires ne vont pas significativement augmenter le coût énergétiques de Google car le plus gros est déjà pris en charge.

    Donc en fait plus Google reçoit de requête, plus le coût énergétique par requête sera basse grâce à la dilution des parties fixes.

    Du coup ces calculs dépendent de ce qu'ils prennent en compte, la requête elle même ou aussi toute l'infrastructure derrière (dont la partie indexage des pages mais aussi des FAI et équipements réseaux entre le client et les serveurs de Google).

    En tout cas une requête = énergie d'une tasse de thé, c'est assez énorme, physiquement ça semble assez délirant.

    il y a en premier lieu la rapidité, la disponibilité et la pertinence des résultats. Ce qui fait de Google le choix logique par défaut.

    Tous les pays n'ont pas Google en situation d'hyper dominance. Bing et Yahoo! fonctionnent très bien et aux USA ils sont très présents. Bref, Google n'est pas forcément le choix logique, d'autres moteurs de recherches ont aussi de bons atouts.

    Je pense que l'idéal serait un moteur de recherche interne (et ce serait aussi plus écolo)

    En quoi ce serait plus écolo que le moteur de recherche soit interne ? Comme Google (et d'autres) parsent tout le Web, techniquement linuxfr.org sera pris en charge par Google que linuxfr l'utilise ou non. Alors que linuxfr devrait dans ce cas créer son propre index ce qui n'est pas gratuit en ressources et il faudrait démontrer que linuxfr exploite mieux son serveur (et donc l'énergie consommé par ce dernier) que Google ce qui n'est pas gagné.

    • [^] # Re: Écologie, écologie, ... Faut mesurer avant

      Posté par  . Évalué à 4.

      Sur le plan de la qualité des résultat, google va aussi calculer le ranking du résultat avec des informations que le moteur interne n’a pas (sauf s’il se démerde pour associer un rang régulièrement avec un service externe), genre la manière dont le reste du monde référence tes pages.

      Il risque donc fort d’être plus pertinent pour l’utilisateur.

      Ça me fait penser qu’on pourrait ptete penser à un service de récupération d’un « rang » des pages web qu’un site pourrait importer pour son moteur interne. Ça existe un moteur de recherche « libre » ou pas avec une API qui étant donné un lien quelconque te donne un score d’indexation ?

    • [^] # Re: Écologie, écologie, ... Faut mesurer avant

      Posté par  . Évalué à 3.

      Merci pour cette réponse qui éclaire ma réflexion. L'écologie est un sujet complexe et il semble effectivement difficile de comparer les moteurs de recherche en se basant sur leur empreinte carbone faute de données quantifiables et vérifiables. Néanmoins il m'aurait paru anormal de ne pas en parler dans un journal qui se veut une ouverture exhaustive sur les critères de choix d'un moteur de recherche.

      A plus forte raison quand il s'agit du moteur d'un site qui prône certaines valeurs en rapport avec le développement durable, fût-ce un développement avant tout logiciel.

      C'est vrai qu'un moteur interne représente un surcoût de serveur comparativement à l'utilisation d'un moteur existant. D'un autre coté il présente divers avantages (en se limitant à l'aspect écologique): suivant la taille et l'affluence du site, il se peut très bien que la vm du moteur tienne sur un serveur existant pour un surcout énergétique mineur. Par ailleurs en terme de requêtes on économise le coût de la redirection vers le moteur externe

      J'ai parlé de Google comme choix par défaut car c'est à ma connaissance celui qui a la plus grosse base d'indexation, en plus d'être celui auquel les français sont les plus habitués, comparativement à Yahoo et Bing qui n'offrent rien de plus sur les autres critères

    • [^] # Re: Écologie, écologie, ... Faut mesurer avant

      Posté par  . Évalué à 1.

      Mouais… La réflexion écologique la-dedans me parait tellement surfaite… Rappelez-moi quels sont les mots clés les plus recherchés en ce moment ? Me souviens qu'il y a quelques années c'était "Pamela" et "Anderson", alors bon. Expliquez-moi à quoi cela sert-il de réfléchir à l'impact écologique des moteurs quand dans le même temps on inonde toujours plus la planète de bidules électroniques ? Jusque dans les écoles : tbi, tablette, etc, le tout avec 2, 3, voire 4 ans de durée de vie. Vous ne trouvez pas que c'est quand même de l'enculage de mouche toutes ces questions ?

      Aller je retourne à mon jardin en attendant l’effondrement.

      • [^] # Re: Écologie, écologie, ... Faut mesurer avant

        Posté par  . Évalué à 0.

        Donc si je vous suis bien, sous prétexte qu'il y a des tas de domaines qui s'essuient les pieds sur l'écologie, ça donne une excuse pour s'en moquer totalement et dans tous les domaines?

        Je ne suis pas d'accord, il faut une prise de conscience collective et il faut que les gens arrêtent de se plaindre que c'est la faute des gouvernements, des multinationales (bref de tout le monde sauf eux) si la planète va mal, et qu'ils fassent chacun leur petit geste. Car la plupart des gouvernements brossent leur électorat dans le sens du poil, donc si la population devient écolo, les gouvernements le seront et les lois également.

        La vérité c'est que dans tous les domaines de l'activité humaine il peut (et il devrait) y avoir une réflexion écologique.

        • [^] # Re: Écologie, écologie, ... Faut mesurer avant

          Posté par  . Évalué à 1.

          Donc si je vous suis bien

          Pas vraiment en fait…

          ça donne une excuse pour s'en moquer totalement et dans tous les domaines?

          Absolument pas. Où ai-je écrit cela ?

          il faut une prise de conscience collective et il faut que les gens arrêtent de se plaindre que c'est la faute des gouvernements, des multinationales (bref de tout le monde sauf eux) si la planète va mal, et qu'ils fassent chacun leur petit geste.

          Entièrement d'accord ! Réfléchir aux gestes donc. Pas sûr que le premier à faire soit d'utiliser un moteur plutôt qu'un autre pour des questions d'énergies. Enfin je dis ça sauf miracle hein, si vous m'en trouver en blue économie, cicuit fermé, pas de déchets, recyclable à vie, faut pas se priver. J'aspire à adhérer à toutes ces théories (merci Idriss Aberkane de me les avoir fait découvrir). Dommage que cette satanée physique nous embête autant !

          La vérité c'est que dans tous les domaines de l'activité humaine il peut (et il devrait) y avoir une réflexion écologique.

          Encore d'accord tant que ce n'est pas du green washing. Vous voyez qu'on est d'accord finalement ?

  • # qwant ?

    Posté par  (site web personnel) . Évalué à 7.

    Je ne crois pas que qwant soit une façade. Il a ses propres moteurs aujourd'hui, il me semble.

    "La première sécurité est la liberté"

    • [^] # Re: qwant ?

      Posté par  (Mastodon) . Évalué à 9.

      Ce n'est clairement pas une façade pure.
      Les résultats sont différents d'une recherche identique avec Google ou Bing.

      Et je ne sais pas si je suis trop habitué à Google ou si le moteur de Qwant est moins bien fait, mais il a tendance à sortir des résultats très pertinent sur une partie des mots-clefs recherchés, en essayant moins que par exemple Google à fournir des résultats valides sur tout les mots fournis.

      C'est peut-être ma façon de l'utiliser, de lui parler, ou mon habitude d'utiliser Google et de savoir quel genre de résultat il va sortir. Mais en tout cas j'ai du mal avec Qwant à cibler plus précisément une recherche, comme de restreindre une recherche assez générique à des résultats concernant Linux uniquement, voire spécifiquement Slackware, par exemple. Qwant va sortir des résultats pertinents en excluant le mot-clef qu'il juge le moins pertinent - ici Slackware, forcément il y a moins de résultats juste pour ça - résultat ça peut être complètement inutile.

      Mais je l'utilise en ce moment comme moteur principal avec Google en béquille quand j'ai ce comportement.

      Yth.

      • [^] # Re: qwant ?

        Posté par  (site web personnel) . Évalué à 5.

        Tu sembles oublié que google t'identifie et connais toutes tes requêtes passés. La différence avec Google concerne les mots ambigües, google sait que tu es informaticiens, et va deviner le sens réel du mot que tu as mis.

        J'avoue avoir du mal avec google qui ne tient plus compte des mots clef après le 4ième ou 5 ième, il faut parfois changer l'ordre des mots pour trouver ce que l'on veut.

        A l'inverse Qwant creuse moins les site web, et parfois, je dois retourner sur google pour les trucs hyper précis.

        "La première sécurité est la liberté"

    • [^] # Re: qwant ?

      Posté par  (site web personnel) . Évalué à 6.

      Je ne crois pas que qwant soit une façade. Il a ses propres moteurs aujourd'hui, il me semble.

      En effet. Et ils utilisent Elasticsearch d'ailleurs…

      Chez elastic (disclaimer: je suis un employé de cette boite), nous avons:

      1. Elasticsearch à déployer soit même
      2. Elasticsearch as a service avec cloud.elastic.co
      3. Swiftype search as a service (replacement de Google Search Appliance et Google Site Search)

      Evidemment toutes ces solutions ont un coût:

      1. Le coût d'hébergement, de gestion et de maintien en condition opérationnel
      2. Le coût du service
      3. Le coût du service

      Developer | Evangelist at elastic

      • [^] # Re: qwant ?

        Posté par  (site web personnel) . Évalué à 7.

        Qwant est devenu le moteur de recherche par défaut sur l'ordinateur de salon, à l'initiative de mon épouse qui avait entendu une émission sur France Culture consacrée à ce moteur de recherche.

        Je l'utilise au quotidien donc et globalement je trouve les informations dont j'ai besoin mais mes ados ne se servent de ce moteur que pour un seul mot clé: google. J'ai cherché à comprendre pourquoi et d'après eux sel ce moteur renverrait des informations pertinentes. Je ne suis pas parvenu à comprendre si cette appréciation était subjective, lié à une éducation numérique largement liée à l'usage de ce moteur de recherche, une plus grade efficacité de ce moteur où si finalement mes enfants parlaient avec Google une langue commune développée avec le temps, une sorte de sous ensemble du français.

        Ce que j'apprécie chez Qwant c'est la présentation de résultats entre liens web, actualités et réseaux sociaux, une politique de non recoupement des données personnelles affichées (que je n'ai jamais vérifié ni prise en défaut) et une alternative à un géant technologique dont la puissance donne le vertige.

        Ce que j'apprécie chez Google que j'utilise depuis 1999-2000: il a rendu le web utilisable en indexant de manière intelligente l'information une peu comme un gps dans une région vaste et inconnue.

        • [^] # Re: qwant ?

          Posté par  (site web personnel) . Évalué à 5.

          Avec google, tu dois pouvoir retrouver un site avec un mot, car il se souvient que tu as cliqué dessus la dernier fois. Avec qwant, il faut se souvenir de tous les mots clefs utilisés.

          "La première sécurité est la liberté"

          • [^] # Re: qwant ?

            Posté par  (site web personnel) . Évalué à 5.

            Ca c'est clairement ce que je déteste, l'historique de mes recherches est un livre ouvert sur mon intimité, mes préoccupations, mes intérêts et mes opinions.

            • [^] # Re: qwant ?

              Posté par  . Évalué à 7.

              Bah oui, mais en même temps, le moteur te renvoie plus rapidement des résultats plus pertinents à des requêtes moins longues et moins complexes…

              C'est un peu comme si ta femme était amnésique et que tous les matins tu devais lui dire "Bonjour madame, vous êtes amnésique, je suis votre mari, on se tutoie, et le matin c'est toi qui fais le café pendant que je change la couche du petit dernier". Ta vie privée est préservée, mais dans l'absolu ce n'est pas forcément malsain de laisser les tiers se rappeler d'informations personnelles si ça t'évite de leur refaire le topo depuis le début à chaque fois que tu as une question…

              Par exemple, quand tu appelles la sécu pour la 12e fois, et que tu t'aperçois qu'il faut que tu racontes encore toute ton histoire depuis le début, ça te gênerait pas qu'ils conservent quelque part un historique de ton problème…

              • [^] # Re: qwant ?

                Posté par  (site web personnel) . Évalué à 9. Dernière modification le 12 janvier 2018 à 18:17.

                oui mais en fait non. il suffit souvent d'ajouter un ou 2 mots clefs, c'est tout.

                Que Google soit le premier au courant que tu as une maladie ou que tu viens de te faire virer (en cherchant des infos légal), c'est un peu dingue.

                Et tu le sens venir le jour ou la police (ou les services secrets à la limite de légalité) va faire des requêtes à Google sur l'historique des recherche, au lieu de demander au FAI ?

                "La première sécurité est la liberté"

                • [^] # Re: qwant ?

                  Posté par  . Évalué à 5. Dernière modification le 12 janvier 2018 à 21:31.

                  Et tu le sens venir le jour ou la police (ou les services secrets à la limite de légalité) va faire des requêtes à Google sur l'historique des recherche, au lieu de demander au FAI ?

                  Ils se privent pas de déjà faire les deux :) https://fr.wikipedia.org/wiki/Edward_Snowden

                  Dans cette histoire il s’agissait des USA mais la France n’est vraiment pas en reste question surveillance électronique des populations.

                  Je dis pas que Google France accorde un accès privilégié (secret et illégal) aux services de police, ça je n’en sais rien. Par contre un juge peux déjà légalement faire une requête et Google de l’accepter, ils répondent déjà à toutes les sollicitations de légalité sur le contenu… donc il peut y avoir un certain degré d’automatisation de cet échange…

                  On commence déjà à et finira d’être surveillé par des robots…

                • [^] # Re: qwant ?

                  Posté par  . Évalué à 4.

                  Et tu le sens venir le jour ou la police (ou les services secrets à la limite de légalité) va faire des requêtes à Google sur l'historique des recherche, au lieu de demander au FAI ?

                  Dans l'absolu, je ne vois pas vraiment ce que ça change. En cas de perquisition, par exemple, les services de police peuvent accéder à ton historique de navigation. Si tu fais attention (navigation privée, destruction des cookies), tu ne laisses pas de trace sur ta machine, et relativement peu sur Google (si tu ne t'identifies pas chez eux, par exemple). Tu peux aussi à tout moment accéder à tes historiques Googe/Youtube etc et les supprimer (il faut espérer qu'ils le font, mais quel intéret de ne pas le faire?).

                  En plus, si l'info c'est que tu viens de te faire virer, je ne pense pas que la police ait besoin de Google pour le savoir. Si la police enquête sur toi, ils vont aller poser des questions à tes voisins, à tes collègues, à ta famille… C'est peut-être pas si mal qu'ils apprennent ce qu'ils ont à apprendre par Google que par des gens que tu connais.

                  • [^] # Re: qwant ?

                    Posté par  (site web personnel) . Évalué à 3. Dernière modification le 16 janvier 2018 à 11:54.

                    Tu es a coté du truc. Si la police va voir Google, tu ne sais pas qu'elle enquête sur toi.

                    Comme tu le dis si tu prends tes précautions, il n'y a rien dans ton historique perso. Par contre, le FAI a tous les sites que tu visites, Et google toutes tes requêtes passées.

                    Si tu es un opposant politique, la DCRI peut savoir beaucoup de choses sur toi de cette façon.

                    "La première sécurité est la liberté"

                    • [^] # Re: qwant ?

                      Posté par  . Évalué à 1.

                      Tu es a coté du truc. Si la police va voir Google, tu ne sais pas qu'elle enquête sur toi.

                      Si elle va voir ton employeur, tes voisins, ton épicier, il n'y a pas non plus de raison que tu saches qu'elle enquête sur toi, sauf si quelqu'un te le dit.

                      Par contre, le FAI a tous les sites que tu visites

                      Ton opérateur de téléphone a tous les numéros que tu as appelés, ton fournisseur d'électricité a ta consommation, ton garagiste a le kilométrage de ta voiture… La qualité et la granularité de l'information varie, bien sûr, mais à l'heure actuelle, les appareils de toutes sortes stockent beaucoup d'informations. Note quand même que ces informations sont détruites après un certain temps (ce qui élimine l'argument type "et si les fascistes prenaient le pouvoir"), et qu'elles ne peuvent être communiquée aux autorités que dans des cadres légaux bien définis. La constitution te donne un certain nombre de libertés, mais les autorités judiciaires ont aussi un certain nombre de droits. Aucune raison de focaliser sur les données, le fait même qu'il soit légal pour n'importe qui (y compris un détective privé) de te suivre dans la rue, de noter tous tes faits et gestes dès que tu sors de chez toi, pour une période de temps indéterminée, devrait déja te faire sauter au plafond (personnellement, ça me gêne beaucoup plus que l'accès à mon historique Google par les autorités).

                      Et google toutes tes requêtes passées.

                      Si tu ne t'identifies pas? Je ne pense pas, du moins, ils ont peut-être moyen de t'identifier par des moyens publicitaires ou par des algorithmes, mais je ne vois pas comment on peut associer cette pseudo-identité à toi dans le cadre d'une procédure judiciaire.

                      Google a probablement une liste récente de requêtes par adresse IP, et éventuellement une trace publicitaire quelconque qui peut associer plusieurs adresses IP, mais rien qui leur permet de t'identifier réellement.

                      Si tu es un opposant politique, la DCRI peut savoir beaucoup de choses sur toi de cette façon.

                      À moins qu'elle soit branchée directement chez Google, tout ça passe quand même par des requêtes explicites et laisse des traces ; ça nécessite des interventions humaines, et ça limite quand même la possibilité d'une surveillance généralisée. Ça ne résoud pas le problème pour les activistes politiques et les personnalités de premier plan, mais j'imagine mal que la DGSI reçoive en temps réel tes recherches Google parce que tu as un jour dit du mal du président…

                      • [^] # Re: qwant ?

                        Posté par  (site web personnel) . Évalué à 4. Dernière modification le 17 janvier 2018 à 09:52.

                        Si elle va voir ton employeur, tes voisins, ton épicier, il n'y a pas non plus de raison que tu saches qu'elle enquête sur toi, sauf si quelqu'un te le dit.

                        Vous plaisantez ? Il est improbable selon vous que un voisin ou votre famille vous informe d'une enquète ?! C'est infiniment moins discret que d'aller voir Google. J'ai l'impression que vous n'avez jamais entendu parler des "gag order" au USA. Ce genre de procédure pourrait très bien arrivé en France.

                        Aucune raison de focaliser sur les données, le fait même qu'il soit légal pour n'importe qui (y compris un détective privé) de te suivre dans la rue, de noter tous tes faits et gestes dès que tu sors de chez toi, pour une période de temps indéterminée, devrait déja te faire sauter au plafond (personnellement, ça me gêne beaucoup plus que l'accès à mon historique Google par les autorités).

                        Vous plaisantez ? Avez-vous une idée du cout de suivre une personne h24 ? Combien couterait à l'état de suivre 10000 personnes ? N'avez-vous pas entendu parler du fait que la DCRI avait du mal à surveiller 1000 jihadistes suspectés ? (6 personnes à plein temps par surveillé).

                        Un terme a même été inventé pour justement faire la différence avec une enquête : la surveillance de masse.

                        Si tu ne t'identifies pas? Je ne pense pas,

                        Bien sûr qu'il identifie chaque personne. Les personnes authentifiées couplées avec leur service qui sont présent partout (font, pub, trackers). Les empreintes de chaque navigateur est quasiment unique.

                        Ça ne résoud pas le problème pour les activistes politiques et les personnalités de premier plan, mais j'imagine mal que la DGSI reçoive en temps réel tes recherches Google parce que tu as un jour dit du mal du président…

                        Pourquoi rajouter la contrainte du temps réel ? Je n'ai jamais parler de ça, et c'est en rien nécessaire pour être dangereux. Snowden avait dénoncé ce genre de connexions comme celle avec le video chat de yahoo. Cela pourrait revenir. C'est tellement probable, que les ingénieurs qui définissent les normes d'internet, sont en train de passer à des précautions, comme fournir le minime d'informations nécessaires, et la généralisation de la cryptographie.

                        "La première sécurité est la liberté"

                        • [^] # Re: qwant ?

                          Posté par  . Évalué à 3.

                          J'ai l'impression que vous n'avez jamais entendu parler des "gag order" au USA. Ce genre de procédure pourrait très bien arrivé en France.

                          Votre raisonnement me semble extrêmement confus. La seule différence entre une enquête traditionnelle et une requête administrative pour accéder à vos données chez un tiers ne tient qu'à la probabilité que vous soyez mis au courant par le tiers en question, c'est très douteux. Quelle est la probabilité que votre employeur vous informe qu'il a été interrogé par la police? Quelle est la probabilité que votre épicier le fasse? Quel est l'intérêt qu'un voisin vous dise "au fait, la police est venue me poser des questions sur vous?". La possibilité existe, mais si vous pensez que la défense de votre vie privée tient à la possibilité qu'un tiers vous mette au courant, ça me semble très très fragile.

                          Un terme a même été inventé pour justement faire la différence avec une enquête : la surveillance de masse.

                          On ne peut pas argumenter si on nage dans le n'importe quoi. Une enquête est sous contrôle d'un juge (judiciaire ou administratif), les requêtes sont nominatives est individuellement justifiées. Si la police veut avoir accès à la base de données d'une entreprise privée (là encore, rien de spécifique aux FAI ou aux GAFAM, l'accès aux "fadettes" des portables, ou même avant, à vos factures de téléphone fixe, étaient exactement du même registre), elle ne peut le faire que par une procédure encadrée.

                          La "surveillance de masse" se rapproche plus de l'histoire des boites noires chez les FAI. On en avait déja discuté ici, cette possibilité n'existe que pour les FAI et les hébergeurs de contenu, elle exclut les moteurs de recherche et les intermédiaires. Le contexte reste très flou, mais rien n'indique que les infos remontées soient nominatives (les boîtes noires, a priori, n'ont pas accès aux bases de données de l'entreprise). J'imagine que le système est basé sur la détection de patterns "suspects", qui doivent pouvoir donner lieu, sur une base individuelle, à l'ouverture d'enquêtes.

                          Avez-vous une idée du cout de suivre une personne h24

                          Je ne comprends même pas l'argument. Les droits de l'homme ne dépendent heureusement pas du coût de leur violation… Si la torture était horriblement chère, est-ce qu'elle deviendrait tolérable pour autant?

                          Sans compter que techniquement, avec la vidéosurveillance généralisée, l'utilisation de balises radio, etc., il est tout à fait possible de diminuer drastiquement le coût de la surveillance. Je vous accorde que j'ai déja entendu l'idée de préserver la vie privée par la diminution volontaire de la productivité des services de police (paperasse, interdiction d'utilisation de méthodes informatiques, interdiction de recours à des appareils de mesure, etc), et je trouve cette idée profondément stupide.

                          Bien sûr qu'il identifie chaque personne.

                          Non, ça n'a aucune valeur légale, c'est une information basée sur des probabilités et il est inimaginable que les services de l'état puissent avoir accès d'une manière ou d'une autre à une telle information, et surtout pas de manière générale.

                          Pourquoi rajouter la contrainte du temps réel ? Je n'ai jamais parler de ça, et c'est en rien nécessaire pour être dangereux

                          Les données sont forcément effacées/résumées/archivées après quelques semaines ou quelques mois (il suffit de faire un simple calcul du coût de stockage). On peut fantasmer autant qu'on veut sur le budget de la NSA, mais il est par exemple physiquement impossible de stocker la trace GPS récupérée par des applications pour smartphone sur des centaines de millions de personnes sur plusieurs mois/années, et il est encore moins possible de les analyser.

                          • [^] # Re: qwant ?

                            Posté par  (site web personnel) . Évalué à 3.

                            Une enquête est sous contrôle d'un juge (judiciaire ou administratif),

                            Non, justement, cela n'est pas vrai pour les enquêtes administratives, qui ne sont pas justement sous le contrôle d'un juge.

                            Sans compter que techniquement, avec la vidéosurveillance généralisée, l'utilisation de balises radio, etc., il est tout à fait possible de diminuer drastiquement le coût de la surveillance.

                            Non justement. C'est le bien le problème de la DCRI pour le suivi des jihadistes. Pour certain, il ne faisait que de la surveillance électronique et ont raté le principal.

                            Non, ça n'a aucune valeur légale, c'est une information basée sur des probabilités et il est inimaginable que les services de l'état puissent avoir accès d'une manière ou d'une autre à une telle information, et surtout pas de manière générale.

                            Qu'est-ce qui n'a pas valeurs légal ? L'Etat peut réclamer n'importe quoi ou presque pour faire avancer une enquête.

                            Les données sont forcément effacées/résumées/archivées après quelques semaines ou quelques mois (il suffit de faire un simple calcul du coût de stockage).

                            C'est 2 ans de rétention pour les FAI il me semble.

                            On peut fantasmer autant qu'on veut sur le budget de la NSA, mais il est par exemple physiquement impossible de stocker la trace GPS récupérée par des applications pour smartphone sur des centaines de millions de personnes sur plusieurs mois/années, et il est encore moins possible de les analyser.

                            C'est pourtant ce que fait très précisément une petite boite de pub à Paris.
                            https://www.numerama.com/politique/282934-enquete-comment-les-apps-figaro-lequipe-ou-closer-participent-au-pistage-de-10-millions-de-francais.html

                            "La première sécurité est la liberté"

                            • [^] # Re: qwant ?

                              Posté par  . Évalué à 1.

                              C'est pourtant ce que fait très précisément une petite boite de pub à Paris.

                              Fais le calcul, ils sont limite. Ils prétendent pister 10M personnes toutes les 3 minutes, soit 1013 coordonnées GPS par mois (plus de 50k coordonnées par seconde). La quantité de données n'est pas très claire, mais il faut au moins récupérer un ID unique, des méta-données (application qui envoie les données…), plus les coordonnées en tant que telles. Combien de temps tu peux tenir le coup si tu veux stocker (et garder très accessibles pour répondre en direct aux requêtes des publicitaires) des dizaines Mo de données par seconde? Tu te fais livrer un semi-remorque de disques durs toutes les semaines? Tes coûts de stockage deviennent très substantiels., et ça s'accumule au cours du temps, jusqu'à ce que tu ne puisses plus tout garder. Avec 1 Go / minute, tu es aux alentours de 5k€ le premier mois, 10k€ le 2e mois, etc. Ça te fait 390k€/(Go min) à la fin de la première année, juste pour le stockage dans un cloud (donc on ne parle pas de traitement des données, ni de bande passante). C'est évidemment un ordre de grandeur, tu peux compresser, archiver, faire ce que tu veux, mais ton coût va exploser avec la durée de rétention. Et au final, si une entreprise privée stocke 100Go de données sur toi, il faut qu'elle les valorise au minimum à hauteur de ce coût ; il y a forcément une limite commerciale à ça (ne serait-ce que ton pouvoir d'achat), ou alors, toutes ces boites crament l'argent des investisseur et vont couler. Tu peux tourner le raisonnement dans tous les sens, si tu dépenses l'équivalent de 100€ par mois pour la marge des entreprises à qui tu achètes des trucs (hors matière premières et salaires), dans le monde les entreprises ne pourront pas stocker des données te concernant pour plus que ce montant, à moins de vivre dans une bulle d'investissement qui va forcément exploser un jour.

                              Pour les services de l'État, tu ne peux pas suivre le même raisonnement, mais je vois mal comment dissimuler les sommes énormes nécessaire à un tel stockage pour des services secrets, par exemple.

                              De même, pour les FAI, c'est évident que seuls quelques logs de connexion ne peuvent être conservés sur 2 ans (je ne pense même pas que ça soit possible de garder toutes les requêtes).

                              • [^] # Re: qwant ?

                                Posté par  . Évalué à 4.

                                Je n'ai pas du tout le même calcul que toi.

                                1 personne sur 1 an = 175200 mesures
                                Admettons que ça prenne 100 octets pour chaque mesure (identifiant sur 4 octets, x sur 4 octets, y sur 4 octets, z sur 4 octets, soit 16 octets. Le reste sont les index, les trous dans la base, etc). Comme c'est en RAID 6, il faut doubler la taille disque, et comme c'est sauvegardé en 2 endroits différents (avec déduplication) en RAID 6 aussi, il faut encore fois 3.
                                --> 100 Mo par an et par personne. Soit 3 € HT de stockage

                                En étant moins bourrin, on n'a pas 60 % d'espace de stockage dédié aux index, on ne stocke pas les positions quasi-identiques (par exemple on stocke l'identifiant, et X=0 pour dire que la personne est à peu près au même endroit), on utilise ZFS au lieu de RAID 6 avec 4 disques (ou on utilise RAID 6 avec 8 disques), etc. Et on arrive à moins de 1 € par an et par personne.

                                Après, c'est pour des publicitaires, donc ils n'ont pas besoin de conserver autre chose qu'un emplacement géographique approximatif, donc facile de diviser par 10 les besoins de stockage. Et pas besoin d'avoir un historique sur 2 ans.
                                Je pense plutôt à 10 centimes par an et par personne. Ça fait tout de même 2 M€ pour stocker 2 ans, mais ça doit passer crème à côté du prix de revente de ces informations.

      • [^] # Re: qwant ?

        Posté par  (site web personnel) . Évalué à 5.

        Tu peux expliquer à quoi sert le produit ? J'en entend parler tout le temps d'une façon, où il est évident que tout le monde en censé savoir ce qu'il fait.

        "La première sécurité est la liberté"

        • [^] # Re: qwant ?

          Posté par  . Évalué à 5.

          Pour le résumer en quelques mots, Elasticsearch est un peu comme une base de données documentaire avec un index sur toutes les colonnes. On y stocke des documents au format JSON sans contrainte sur la présence de champs présents dans d'autres documents. Et un moteur de recherche basé sur Apache Lucene permet d'y faire des recherches intelligentes.

          Ce produit est donc très apprécié des gens qui veulent mettre en place un moteur de recherche, qu'il s'agisse de rechercher des pages web, des documents pdf (par exemple dans le cadre d'un système de facturation d'entreprise) ou des traces logicielles (la stack Logstash/Elasticsearch/Kibana est un grand classique pour monitorer une appli en production).

          C'est basé sur du java et les développeurs ont tendance à tomber dans le travers classique de dire aux gens qui se plaignent des fuites de mémoire qu'ils n'ont qu'à mettre plus de RAM. Mais ça fait un moment que je n'y ai pas mis le nez donc ça s'est peut être bonifié depuis..

  • # Moins de n

    Posté par  . Évalué à 4.

    Je pense que vous avez une typo, ce n'est pas Yancy mais YaCy.

  • # Algolia

    Posté par  (site web personnel) . Évalué à 2.

    Sur l'état des lieux il en manque un et pas des moindres : Algolia. Certe le coté cloud peut rebuter pour le libre, mais :

    • Ça n'exploite pas tes données à d'autres fins
    • C'est toi qui défini ce que tu veux indexer
    • C'est français

    Accessoirement, c'est aussi performant, pertinent et rapide.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.