Les enchères en temps réel, un danger pour la vie privée mais aussi pour la sécurité européenne

40
7
avr.
2024
Justice

Les enchères en temps réel, ou Real-Time Bidding (RTB), sont une technologie publicitaire omniprésente sur les sites web et applications mobiles commerciaux. Selon un rapport publié en novembre dernier, cette technologie soulève de sérieuses préoccupations en matière de confidentialité, car elle permet la diffusion de données sensibles sur les utilisateurs à un grand nombre d’entités, sans garanties de sécurité adéquates. Le système RTB expose les utilisateurs à des risques potentiels de la part d’acteurs étatiques et non étatiques malveillants.

La technologie RTB permet à des entités étrangères et à des acteurs non étatiques d’accéder à des informations confidentielles sur le personnel sensible et les dirigeants clés en Europe. Ces données peuvent être obtenues directement via l’exploitation de plateformes de demande (DSP) ou indirectement à partir d’autres entités. De plus, les entreprises de RTB transmettent souvent ces données personnelles en Russie et en Chine, où les lois locales permettent aux agences de sécurité d’y accéder. La large diffusion des données RTB auprès de multiples entreprises au sein de l’UE augmente également le risque d’accès par des acteurs indésirables.

Les données RTB contiennent souvent des informations personnelles telles que la localisation, les horodatages et d’autres identifiants, ce qui facilite l’identification des individus. Cela peut inclure des informations sensibles sur leur situation financière, leur santé, leurs préférences sexuelles et leurs activités en ligne et hors ligne. Même les personnes utilisant des appareils sécurisés à des fins professionnelles ne sont pas à l’abri, car leurs données circulent toujours via le RTB à partir de leurs appareils personnels, de ceux de leurs familles ou de leurs contacts.

Détails et exemples

La menace posée par le RTB est très réelle, comme le démontrent les exemples suivants :

  • Aux USA, un groupe conservateur catholique a utilisé des données RTB d’une application de rencontre pour révéler que des prêtres catholiques n’étaient pas célibataires, ce qui a conduit l’un d’eux à démissionner lorsque ses visites sur des applications et lieux gays ont été rendues publiques.
  • Les données RTB peuvent indiquer une variété de problèmes de santé, tels que la dépression, les douleurs chroniques, la toxicomanie ou les troubles anxieux.
  • Les acteurs malveillants peuvent utiliser les données RTB pour identifier les enfants, les collègues et les trajets quotidiens d’une cible.
  • La situation financière d’une personne peut être exposée, et donc une vulnérabilité potentielle à la corruption.
  • Les opinions politiques et les affiliations peuvent être déduites à partir des données RTB, ciblant potentiellement des individus pour de l’exploitation ou de la manipulation, comme on l’a vu avec le scandale « Facebook-Cambridge Analytica » il y a quelques années.

Solutions proposées

Face à ces menaces, nous recommandons les actions suivantes :

  1. La Commission européenne devrait solliciter le Conseil européen de la protection des données pour examiner la crise de sécurité du RTB. Les autorités de protection des données devraient appliquer le « principe de sécurité » du RGPD, en exigeant que IAB TechLab et Google, en tant que contrôleurs de données, modifient leurs normes RTB pour interdire l’inclusion de données personnelles. Toutes les données d’identification et de liaison doivent être supprimées.
  2. L’Agence européenne pour la cybersécurité (ENISA) devrait émettre une alerte aux États membres et aux institutions de l’Union, recommandant le blocage des publicités pour réduire la collecte de données par des tiers.
  3. Le Service européen pour l’action extérieure (SEAE), le groupe de coopération NIS et l’ENISA devraient évaluer conjointement l’impact du RTB sur la sécurité de l’Union européenne.
  4. Si nécessaire, la Commission européenne devrait envisager des mesures juridiques pour introduire une certitude et une harmonisation dans la gestion de cette menace pour la sécurité commune.

Aller plus loin

  • # Ça manque d'explications techniques

    Posté par  . Évalué à 10. Dernière modification le 07 avril 2024 à 19:08.

    Je m'intéresse aux RTB pour des raisons professionnelles et je ne parvient pas à vulgariser ce billet à mes proches. Ça manque d'explications techniques pour qu'on puisse faire comprendre le danger à des gens peu informés :

    • Ce n'est pas facile de comprendre par quels mécanismes les données personnelles arrivent dans les données RTB.
    • De même, on devine qu'il y a des croisements de données, "ce qui facilite l’identification des individu", mais comment les données autres que les RTB sont-elles obtenues et liées aux RTB ?
    • Enfin, est-ce qu'il est possible de garder l'intéret des enchères sur la pub si on "interdit l’inclusion de données personnelles" et qu'on enlève "Toutes les données d’identification et de liaison" ? Car pour ceux qui ne savent pas les RTB permettent de cibler très précisément le public, d'un point de vue commercial c'est leur grand intéret. Je me demande si cette proposition ne revient pas à les interdire ?

    Les questions sont un peu naïves, mais je crois que la mobilisation est essentielle et pour ça il faut pouvoir bien comprendre pour vulgariser.

    • [^] # Re: Ça manque d'explications techniques

      Posté par  (site web personnel) . Évalué à 10.

      Je ne suis pas un spécialiste du sujet, j'ai découvert qu'il était beaucoup plus préoccupant que ce que je pensais initialement en lisant le rapport (après que mon attention ait été attirée par un message de Gael Duval, le fondateur de /e/OS et Murena, qui s'intéresse de près à ces sujets).

      Je conseille la lecture du rapport (PDF d'une vingtaine de pages, avec des illustrations et des exemples concrets qui aident à comprendre): https://www.iccl.ie/wp-content/uploads/2023/11/Europes-hidden-security-crisis.pdf

      Outre le rapport, il y a une centaine de références qui peuvent donner plus de détails techniques.

      Le rapport donne également quelques pistes pour diminuer l'impact sécuritaire du système (p. 18: "Neutralising RTB’s security threat"). Je ne suis pas sûr que ça suffise, mais c'est déjà un premier pas.

      "There's no such thing as can't. You always have a choice." - Ken Gor

      • [^] # Re: Ça manque d'explications techniques

        Posté par  . Évalué à 2.

        "the RTB security threat can be easily neutralised by enforcing data protection law on the responsible standards setters."

        On est vraiment dans l'idéologie technocratique Européenne: l'idée que ce genre de choses peut être réglé par la loi. Personnellement, je pense que c'est absurde. D'une part parce que c'est théoriquement très compliqué (parce qu'Internet est un réseau mondial et décentralisé), et qu'en pratique ça ne fonctionne pas (ça pourrit la vie des entreprises qui doivent suivre des milliers de pages de protocoles obscurs, ça pourrit la vie des utilisateurs qui doivent prendre des décisions incompréhensibles sur les cookies, et les acteurs du milieu trouvent des parades techniques qui rendent la protection inopérante).

        Bien sûr, la loi doit exister pour pouvoir menacer les grands industriels du secteur de poursuites, mais toute parade efficace doit être technique: il faut "juste" mettre en place des moyens pour que ces données personnelles ne soient pas envoyées. C'est en grande partie au navigateur et/ou au système d'exploitation de le faire; pendant des dizaines d'années on s'est focalisé sur le respect des standards et des normes dans les navigateurs, sans même réaliser qu'en respectant les normes, les navigateurs obéissaient aveuglement au concepteur de la page web visitée, et plus du tout à l'utilisateur du navigateur. Aucun logiciel ne devrait permettre ça, et il n'y a d'ailleurs qu'avec les navigateurs que ça n'est pas considéré comme un bug. Il existe des extensions qui permettent de simuler ce qu'un navigateur devrait faire, mais c'est absurde que ça n'est pas depuis le début inclus dans le principe même du fonctionnement d'un navigateur.

        • [^] # Re: Ça manque d'explications techniques

          Posté par  . Évalué à 2.

          À mon avis, tu fais fausse route, cf mon commentaire expliquant le mécanisme des RTB un peu plus bas. La loi veut s'occuper de la façon dont sont collectées et retransmises les données, c'est à dire de ce que font les GAFAM :
          Si j'ai bien compris, le navigateur n'intervient pas tellement là-dedans, ton adresse IP donnant suffisamment d'informations. Quant à la loi, elle ne concernerait que très peu d'acteurs, grosso modo les GAFAM : il s'agit de réguler ce qu'ils font lors de la collecte et transmission de nos données «identifiantes» pour les RTB.

          Tu fais fausse route aussi parce qu'il ne s'agit pas d'empêcher un business juteux, ni d'interdire de tracer les citoyens de l'UE, mais d'interdire l'accès aux données par des pays ennemis.

          • [^] # Re: Ça manque d'explications techniques

            Posté par  . Évalué à 1. Dernière modification le 02 mai 2024 à 22:19.

            L'adresse IP elle n'est pas suffisante, notamment parce que quand tu te promènes ton adresse change.

            Les cookies sont une des causes, car ils sont ce qui permet à une société d'identifier que la requète faite par 129.194.23.12 et 2h plus tard par 121.192.42.12 sont en fait de la même personne

            Et qui stocke et envoie les cookies… le browser.

            Ensuite, si la collecte se fait du côté serveur avec les sites qui revendent les infos, ben cela devient tout de suite bcp plus dur à stopper

            • [^] # Re: Ça manque d'explications techniques

              Posté par  . Évalué à 4. Dernière modification le 02 mai 2024 à 22:45.

              Les cookies, les traqueurs, et les centaines d'informations "gratuites" généreusement données par le navigateur (OS, version, extensions, etc etc). Les navigateurs sont de vraies pies bavardes, ils balancent tout sans qu'on ne leur demande rien, exécutent tout les scripts, stockent tous les cookies, recrachent les cookies sur demande…

              Pour l'IP, c'est assez inévitable, sauf à demander aux FAI de fournir un VPN par défaut quand tu passes par le port 80. Pour le reste, ça ne dépend quasiment que du navgigateur, qui pourrait très bien répondre un truc vague ou randomisé.

              Je viens de vérifier sur https://www.whatismybrowser.com/fr. Alors que j'ai plein d'extensions classiques (ublock, adblock, ghostery, + options de vie privée activées dans Firefox), il balance quand même son état civil au grand complet: "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:126.0) Gecko/20100101 Firefox/126.0", ainsi que ma zone GMT, mon nombre de CPU, et les specs de ma carte graphique. Entre ça et la zone géographique qui peut être déduite de mon IP, ça suffit certainement à m'identifier avec une très forte probabilité.

              J'ai l'impression que c'est déja très difficile pour quelqu'un du métier de maintenir un peu d'anonymat, parce que 1) on n'est pas protégés par la loi, 2) on n'est pas protégés par les FAI, 3) on n'est pas protégés par nos propres logiciels, même libres, et 4) en face, il y a des gens très ingénieux qui ont beaucoup de moyens, et pas beaucoup de scrupules. Pour le quidam moyen, c'est totalement impossible, parce qu'il va en plus rajouter une couche de naïveté (créer des comptes avec son vrai état civil sur tous les réseaux sociaux qui vont le traquer partout, accepter tous les cookies et tous les traitements de données…).

              Au final, est-ce que ça sert même à quelque chose de faire attention? La combinaison d'extensions et d'options spécifiques, l'utilisation de Tor ou d'un VPN, peut rendre un internaute "méfiant" identifiable entre 1000, la moindre interaction avec un Gafam ou avec un site commercial qui utilise une technologie issue des Gafam va faire fuiter des informations et rendre le recoupage possible… À part un faux sentiment de sécurité, ça n'apporte peut-être pas grand chose.

              • [^] # Re: Ça manque d'explications techniques

                Posté par  (site web personnel) . Évalué à 2. Dernière modification le 03 mai 2024 à 00:55.

                Je viens de vérifier sur https://www.whatismybrowser.com/fr […] mon nombre de CPU, et les specs de ma carte graphique

                O_o Ah oui, ça apparaît tout en bas /o\

                pour répondre à tes autres interrogations, tu as : https://www.amiunique.org/fr/fingerprint
                (dans mon cas : oui /o\) et ça met en évidence les points t'identifiant (en rouge) et les points communs (en vert, te noyant dans la masse)

                (re-)trouvé via https://www.cnil.fr/fr/nouvelles-methodes-de-tracage-en-ligne-quelles-solutions-pour-se-proteger

                • [^] # Re: Ça manque d'explications techniques

                  Posté par  . Évalué à 3.

                  Ah oui. Bon, rien qu'avec l'identifiant du navigateur je suis unique :-S Et avec la carte graphique je suis 0.05%.

                  Après, est-ce que ça ne veut pas dire qu'il n'y a aucun moyen d'être noyé dans la masse, et que par conséquent ça ne sert à rien de vouloir cacher quoi que ce soit? Rien que le fait de cacher quelque chose te rend unique (par exemple, l'activation du "do not track" est très identifiante).

                  • [^] # Re: Ça manque d'explications techniques

                    Posté par  (site web personnel) . Évalué à 3.

                    pour te rassurer (ou pas) :

                    • le fait que tu sois unique cette fois-ci ne signifie que tu seras le même la prochaine fois : tu peux changer de navigateur, le mettre à jour, changer d'ordi…
                    • il faudrait trouver un invariant dans le temps te discriminant (ok, ta carte graphique peut-être…)

                    2576301 empreintes de tout temps : ce n'est pas très représentatif (déjà on serait à 25% de Linux, donc un peu sur-représentés dans leur corpus…)

                    l'activation du "do not track" est très identifiante

                    ah ? moi cela m'affiche 9 - Utilisation du Do Not Track 65.26 % => pas très discriminant

            • [^] # Re: Ça manque d'explications techniques

              Posté par  . Évalué à 2.

              Oui tu a raison pour l'IP, j'ai "arrondi" pour ne pas lister tout ce qui pouvait intervenir.
              La collecte n'est pas faite par les serveurs du site web, mais par les scripts des GAFAM (en majorité).

              • [^] # Re: Ça manque d'explications techniques

                Posté par  . Évalué à 3.

                D'une manière générale, un navigateur devrait partir du principe que le web est un environnement hostile. Toute fuite de données au-delà de ce qui est strictement nécessaire (et explicitement autorisé) devrait être considérée comme une faille de sécurité majeure, et on devrait avoir une confiance totale en notre navigateur pour nous protéger.

                Après, serveur tiers ou scripts des GAFAM, ça ne change pas grand chose : tous ceux-là sont complices, ils se délèguent le boulot en fonction de contraintes techniques mais ça ne devrait pas changer grand chose pour nous.

  • # Remarque formelle

    Posté par  (site web personnel) . Évalué à 6. Dernière modification le 08 avril 2024 à 13:14.

    Merci c'est intéressant.
    Par contre je ne comprends pas, à la lecture, qui écrit : au début je pensais que c'était l'auteur, puis on finit par "nous" (Solutions proposées).
    Est-ce une traduction etc ?

  • # Efficacité des bloqueurs de pub ?

    Posté par  . Évalué à 7.

    Je me demande, en voyant cela, à quel point les envois de données vers les RTB sont réduits (ou non) par l'usage d'un bloqueur de pub style uBlock Origin. Est-ce que ça change sensiblement la donne ? Est-ce que ça arrive trop tard ou passe à côté ?

    Pour moi, en tant qu'usager lambda d'internet, c'est un des rares leviers que je vois pour contrer cette effusion de données personnelles…

    • [^] # Re: Efficacité des bloqueurs de pub ?

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      et efficacité de Privacy Badger également ?

      • [^] # Re: Efficacité des bloqueurs de pub ?

        Posté par  (site web personnel) . Évalué à 4.

        Et le mode renforcé de Firefox ?

        • [^] # Re: Efficacité des bloqueurs de pub ?

          Posté par  . Évalué à 9.

          Bloquer la pub n'a aucune efficacité sur les RTB, parce que les RTB ne sont pas la pub, mais le système de vente de pub qui permet de faire apparaître la pub qui t'es personnellement destinée. C'est l'empreinte digitale (!) qu'on laisse à chaque page web qui, comme dans un fichier de police, permet de relier ce que tu fais sur le web en retraçant toute ta vie.

          Bloquer les traceurs avec uBlock Origin ou Privacy Badger diminue l'empreinte mais donne un paramètre : on bloque, ce qui est très bien détecté (au passage, notez qu'il ne faut pas utiliser Privacy Badger avec uBlock, cf le wiki de uBlock). L'extension Decentraleyes est intéressante aussi puisque son travail est presque invisible.

          Bref, tout ça n'est pas suffisant.

          Pour le mode renforcé de Firefox je ne sais pas.

          • [^] # Re: Efficacité des bloqueurs de pub ?

            Posté par  (site web personnel) . Évalué à 8.

            Et sinon, à défaut de savoir parer assez efficacement à la collecte de données, il est aussi possible de fausser complètement le profilage avec une extension comme AdNauseam.

            « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

          • [^] # Re: Efficacité des bloqueurs de pub ?

            Posté par  . Évalué à 4.

            Sur spyPhone robotisé, personalDNSFfilter peut-il aider ?
            Je l'utilise personnellement, depuis son installation, j'ai moins (voire plus du tout) de pub dans mes apps, mais est-ce qu'il bloque seulement le retour des pubs et pas le départ des données ?
            (Pour info, ça fait un mini VPN en local et insère un DNS menteur.)

          • [^] # Re: Efficacité des bloqueurs de pub ?

            Posté par  . Évalué à 3.

            Donc en gros, dans le principe, pour lutter contre ce tracage, il faut lutter contre les générations de fingerprints de navigateurs webs ?

            Emacs le fait depuis 30 ans, et sans pubs ni télémétrie.

  • # C'est quoi les RTB

    Posté par  . Évalué à 10.

    Désolé je en comprend rien à ce billet, peut on m'expliquer ce qu'est un RTB ?

    Ca parle d'enchères ( e-bay ?) puis dans les exemples il y a une appli de rencontre.
    Je ne connais pas du tout ce terme, donc ce billet m'est complètement incompréhensible.

    Si quelqu'un a la gentillesse de m'expliquer ?

    • [^] # Re: C'est quoi les RTB

      Posté par  . Évalué à -7.

      Les 3 premières lignes de la dépêche définissent les RTB. Faut arrêter de lire en diagonale…

      La pub sur les moteurs de recherche est un exemple de RTB : les mots clés sont attribués aux enchères. Sauf que c'est fait en temps réel par un algo. L'acheteur fait une offre, l'enchère, pour faire apparaître son lien sur les résultats de recherche quand certains mots-clés sont tapés, un algo lui attribue des affichages en fonction du prix et de paramètres de ciblage. Or ces paramètres sont tellement précis qu'on arrive à remonter jusqu'à l'identité des personnes.

    • [^] # Re: C'est quoi les RTB

      Posté par  . Évalué à 10.

      J'étais un peu perdu mais je trouve la page wikipédia en français éclairante.

      Les emplacements d'affichage de pub dans les pages web sont vendus en live (juste au moment où la page est affichée) au meilleur offrant en publiant une offre accompagnée de toutes sortes d'info sur le profil de l'utilisateur du navigateur. Cette offre est dispachée par des sociétés qui la relaie toujours instantanément à leurs clients qui choisissent de faire une proposition de prix en fonction des infos du profil. Et c'est celui qui fait la meilleure offre qui remporte l'emplacement d'affichage pour sa pub. Et donc le profil est lu (et pourquoi pas stockée, analysée, etc…) par un nombre invraisemblable d'acteurs du système.

      • [^] # Re: C'est quoi les RTB

        Posté par  . Évalué à 2. Dernière modification le 02 mai 2024 à 12:12.

        Il y a toujours un truc qui m'a étonné : ce genre de mécanismes demande beaucoup de moyens hardware (bande passante, stockage), ce qui n'est pas gratuit. Si par exemple des dizaines de Go de données personnelles sont stockées chez des centaines d'opérateurs et d'agences de pub, ça représente plusieurs dollars par profil tous les ans. Ces "vrais" dollars doivent être récupérés par l'activité commerciale (en gros, chaque personne doit acheter assez d'objets dont une partie du prix va servir à rémunérer toute la chaine de publicitaires). Et j'ai du mal à comprendre comment le système peut boucler.

        Par exemple, pour quelqu'un qui n'achèterait jamais rien en ligne, ça serait de la pure perte. Ces profils existent; ça peut être des gens qui ne le font pas par principe, d'autres parce qu'ils ne savent pas le faire (retraités, etc). Stocker, transmettre, analyser les données de ces profils représentent donc une perte sèche, et doit être compensée sur les autres.

        Je ne sais pas quel est le panier moyen annuel des achats en ligne, mais ça doit tourner entre 1k€ et 10k€ (peut-être moins). Les objets + transport ont un vrai coût, il y a les marges des vendeurs, la TVA, bref, ce qui peut être consacré à la pub ne peut pas être plus d'une petite fraction de ça. Comment ça peut boucler? Comment une agence de pub US peut récupérer plusieurs dizaines de $ par an sur les achats d'un consommateur européen? Il n'y aurait pas un effet de bulle dans le secteur quand même, une valorisation des données personnelles qui serait supérieure à ce qu'elles peuvent générer en vrai argent?

        • [^] # Re: C'est quoi les RTB

          Posté par  . Évalué à 4.

          Trouvé une partie des chiffres: c'est 4000€/français par an; le marché de la pub en ligne c'est 9 milliards par an, soit environ 150€/français. Ça semble cohérent avec le panier. Par contre, ça ne me semble pas cohérent avec le hardware nécessaire pour partager, analyser, et stocker les données personnelles dans toute la hiérarchie des acteurs du domaine. Ça n'exclut donc pas la possibilité d'une bulle (ou le fait que les acteurs du secteurs mentent sur la quantité et la fraicheur des données sur chaque profil: si 99% du flux part direct dans /dev/null, alors on peut en effet limiter la taille de l'infrastructure dédiée au traitement).

          • [^] # Re: C'est quoi les RTB

            Posté par  (site web personnel) . Évalué à 2.

            C. Doctorow dans ses billets sur le sujet fait la même analyse que vous : un bulle créée par la puissance de persuasion des géants de la tech sur les milieux financiers ; pouvoir en partie lié à des connaissances anémiques des réalités plébéiennes de ces derniers, en partie aussi lié à la crainte de rater le καιρός, et enfin également à un besoin éthologique « d'investir ».

            « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

            • [^] # Re: C'est quoi les RTB

              Posté par  . Évalué à 3. Dernière modification le 02 mai 2024 à 16:50.

              Après, l'économie moderne est bizarre, et elle semble pourvoir tourner longtemps sans que les bulles n'éclatent. Il peut exister un énorme marché très dynamique de la vente, analyse, personnalisation des données entre un énorme écosystème de nouvelles entreprises pleines du cash des investisseurs.

              Le plus inquiétant serait que la collecte, le stockage, et l'analyse des données soient financées par d'autres sources que la publicité (agences d'État, agences de renseignement privées, assurances?). C'est une hypothèse alternative à la bulle, non? Ou, de manière moins parano peut-être, on peut imaginer que c'est un pari sur l'avenir réalisé par les entreprises qui achètent les données au-dessus de leur rentabilité économique publicitaire.

        • [^] # Re: C'est quoi les RTB

          Posté par  . Évalué à 1. Dernière modification le 02 mai 2024 à 22:22.

          Pourquoi auraient t'ils besoin de dizaines de Go par personne ?

          Si tu parles de dizaines de Go en total pour la population, c'est genre absolument rien du tout niveau coût.

          • [^] # Re: C'est quoi les RTB

            Posté par  . Évalué à 5. Dernière modification le 03 mai 2024 à 09:35.

            Pourquoi auraient t'ils besoin de dizaines de Go par personne ?

            Parce que c'est la quantité de données qui est récupérée. Regarde par exemple l'histoire de la voiture qui envoie tes données de conduite à un data broker qui les revend aux assurances. Apparemment, les données, ça n'est pas des statistiques résumées, c'est la totalité des itinéraires et les interactions avec les commandes de la voiture (freinages, accélérations, etc). Idem si on prend les trackers : quand on ouvre une seule page web d'un journal par exemple, il y a des centaines de trackers qui récupèrent chacun des informations de connexion (qui, quand, où, identifiants Facebook/Twitter/Google, d'où tu viens, quelles pubs s'affichent, combien de temps tu restes sur la page, les caractéristiques de l'appareil, etc). Et ça, des dizaines, des centaines de fois par jour. Et après, tout ça circule librement entre de multiples acteurs ("Les données sont partagées avec nos 437 partenaires commerciaux", etc). Donc soit tout ça part dans /dev/null (mais alors, pourquoi bouffer toute cette bande passante?), soit ça part dans des algos complexes de traitement de données pour ne garder que les statistiques résumées (mais tu remplaces le stockage par du CPU, et pourquoi acheter autant de données aussi chères si au final tu ne gardes que quelques kb par personne?), soit tout ça c'est dupliqué, archivé, sans être traité, au cas où ça aurait une valeur commerciale dans le futur (une sorte de pari sur l'avenir).

            Au final, soit ces données ne sont en fait pas vraiment utilisées (ou seulement très partiellement), soit elles sont utilisées mais sur-valorisées (une forme de bulle), soit elles sont valorisées pour autre chose que la pub (et c'est un peu inquiétant). Mais en tout cas, je ne suis pas convaincu par le narratif actuel, qui veut que tout ça est soigneusement récupéré, croisé, archivé, et revendu à des fins publicitaires pour le ciblage, parce que je ne comprends pas comment tu boucles ça économiquement : il y a juste trop de données par personne et trop de gens sur terre. C'est possible techniquement, mais économiquement, j'ai l'impression que l'ordre de grandeur ne colle pas.

    • [^] # Re: C'est quoi les RTB

      Posté par  . Évalué à 6.

      il y a aussi le dossier de la cnil
      https://linc.cnil.fr/les-encheres-en-temps-reel-rtb-un-systeme-complexe

      je me souviens aussi d'une vidéo mais je n'ai plus le lien, c'était il y a quelques années, une conférence peut-être lors des jdll

  • # Comment se passe la diffusion de données sensibles utilisées pour les RTB ?

    Posté par  . Évalué à 10. Dernière modification le 08 avril 2024 à 22:19.

    C'est expliqué au début du rapport. Il y a un mécanisme en arborescence.

    Comprenez d'abord que la pub sur internet repose sur un ciblage très très précis des personnes, via leur personnalité, leurs dépenses, leurs goûts, leur position géographique exacte, etc. (vous pouvez constater la précision du ciblage en jouant à tester l'achat de pub sur Google Ads). C'est plus que sensible, on peut facilement identifier des personnes. Cette précision pose problème, car le système des RTB diffuse les informations de ciblage auprès de multiples acteurs.

    Quand on visite une page web ou qu'on ouvre une application sur un smartphone, la diffusion est pour ainsi dire instantanée, puisque la pub qui nous correspond s'affiche aussitôt.

    Une plateforme de coordination (SSP) envoie les infos qui nous cible (voir mon premier paragraphe) à une ou deux plateformes d'échange publicitaire, lesquelles à leur tour diffuse toutes ces infos à des agence de pub (DSP), lesquelles gèrent les enchères pour leurs clients. Il y a quelques milliers de DSP.

    Ces DSP posent problème : rien de plus facile que de se déclarer agence de pub et d'acheter les données RTB, pour les collecter et les agréger.

    Notez que les premiers maillons de la chaîne appartiennent généralement aux GAFAM.

    • [^] # Re: Comment se passe la diffusion de données sensibles utilisées pour les RTB ?

      Posté par  . Évalué à 6.

      Citons le rapport :

      Sans compter les données d'Amazon et Meta …

      … a person in France will have had their online activity and location exposed 340 times a day on average.

      (c'est moi qui souligne). Et encore on n'intéresse personne, les anglais c'est 462 fois par jour.

    • [^] # Re: Comment se passe la diffusion de données sensibles utilisées pour les RTB ?

      Posté par  . Évalué à 2.

      Ces DSP posent problème : rien de plus facile que de se déclarer agence de pub et d'acheter les données RTB, pour les collecter et les agréger.

      La question, c'est pourquoi tu voudrais faire ça. Ça va te coûter très cher : il faut acheter les données, acheter ou développer les logiciels pour traiter les données, payer la bande passante, le stockage, le CPU des serveurs…

      Par exemple, l'exemple de "bid request" proposé par Google (https://developers.google.com/authorized-buyers/rtb/request-guide#example-bid-request) fait > 3500 caractères. Tu as entre 80 et 1000ms pour envoyer ta réponse; il te faut donc une infrastructure costaude derrière si tu veux traiter un volume conséquent. Imagine que ton plan caché est de "traquer" la population française. Même si tu ne récupères qu'une requête par français et par mois, ça te fait déja 8 Go de données à traiter par jour, 3To par an. C'est déja limite pour une infrastructure personnelle hébergée dans ton garage (et tu n'as qu'un bid request par personne et par mois!).

      Apparemment, il y aurait dans les 40000 requêtes Google par seconde, donc dans les 5 Po de données "bid-request" par an. Ça n'est pas un problème technique insurmontable : pour 200k€/an, tu dois pouvoir stocker ces données, c'est largement à la portée d'une grosse boîte. Mais qu'est-ce que tu en fais, concrètement, pour en tirer des revenus? Tu les vends? À qui? À des gens qui vont les revendre aussi? Mais pourquoi ils les achèteraient, ils peuvent aussi les obtenir auprès de Google. Tu n'es pas tout seul, des milliers, des dizaines de milliers d'acteurs font la même chose, récupèrent les mêmes données, font le même type d'analyse, et essayent de les revendre aux mêmes entreprises. Au bout du compte, il faut bien que quelqu'un arrive à tirer du vrai argent de tout ce système, pour rentabiliser les centaines ou les milliers de Po de disques, les millions de CPU, la bande passante…

      Au final, Google dit "achetez ces données, c'est cool", les intermédiaires disent "on collecte des Po de données, passez par nous". Bien sur, les commerçants achètent de la pub ciblée, mais ils ne vont pas non plus dépenser 90% de leur CA en pub. Rien n'est plus facile que de récupérer ces données, mais les rentabiliser, ça n'a pas l'air si facile que ça.

      • [^] # Re: Comment se passe la diffusion de données sensibles utilisées pour les RTB ?

        Posté par  . Évalué à 2.

        Ceux qui achètent ça sont les agences de pub. En tant que commerçant c'est à elles que j'achète la pub, ces agences la gèrent ensuite pour moi sur les différents réseaux. Ça ne me coûte pas très cher, le budget est insignifiant. C'est très rentable pour tout le monde.

        Exemple sur un garage auto, une PME locale donc, qui voudrait annoncer sur son public. Avec les RTB on peut cibler sur les rues, l'âge des gens, leurs voitures et le budget réparations auto. Le tout pour 200 à 300 euros. Ce faible coût fait que tout le monde fait de la pub et que les agences sont très rentables.

      • [^] # Re: Comment se passe la diffusion de données sensibles utilisées pour les RTB ?

        Posté par  (site web personnel) . Évalué à 2.

        Ça n'est pas un problème technique insurmontable : pour 200k€/an, tu dois pouvoir stocker ces données, c'est largement à la portée d'une grosse boîte

        ça se voit que tu as pas du discuter à ton travail pour savoir si tu peux prendre un café en plus en conférence parce que c'est hors budget.

  • # Souveraineté

    Posté par  (site web personnel) . Évalué à 1.

    Malgré le tag « capitalisme de surveillance », il me semble comprendre — à la lecture du texte et du travail de l’auteur — que la promotion du logiciel libre et la protection des données personnelles sont censées servir à la sauvegarde de la souveraineté et des intérêts économiques et stratégiques européens. Je pensais que le Libre était fondamentalement socialiste et internationaliste.

    Je doute également que les entreprises et états européens soient essentiellement exempts de malveillance.

    (Je demande d’excuser cette réponse qui est peut-être hors de propos, mais je devais partager ce sentiment.)

    Debug the Web together.

    • [^] # Re: Souveraineté

      Posté par  . Évalué à 2.

      Il s'agit d'un rapport sur la traçabilité des personnes via le système de publicité. On est capable de les identifier et localiser très précisément. C'est une brèche de sécurité pour certains hauts-fonctionnaires, ambassadeurs, responsables gouvernementaux, officiers supérieurs, journalistes, lanceurs d'alerte, etc.

      Dans le film La Mort dans la peau (Jason Bourne), la CIA/NSA hacke des caméras, des micros, des relais téléphonique pour faire ça. Avec les RTB, c'est encore plus simple.

  • # Les exemples (ou plutôt, leur manque)

    Posté par  (site web personnel) . Évalué à 6.

    La dépêche manque grandement de sources, et en général, je trouve ça toujours louche . Donc j'ai voulu aller voir les exemples moi même, car depuis l'affaire Jessica Burgess (ou l'histoire de Target avec une jeune fille enceinte), je sais que c'est pas la précision qui étouffe les gens qui s'affolent sur le sujet.

    Sauf que sur 5 exemples, il y a 2 exemples qu'on peut examiner, et 3 qui sont des hypothèses, hypothèses basé sur les labels fournis par les agence de pub elles mêmes (genre, même pas les descriptions, juste le nom des labels, c'est digne du niveau de trouver une constante "NSA_KEY" dans un binaire et se dire que ça veut dire que le monde entier est piraté). Et on ne sait pas en fait d’où viennent les descriptions ou comment c'est rempli en premier lieu.

    Sur les 2, on a un exemple qui n'a rien à voir avec la choucroute, celui de Cambridge Analytica, qui n'a rien à voir avec le RTB vu que CA a récolté les infos par eux même, et que blamer Facebook pour la victoire de Donald Trump, c'est une forme de techno-absolutisme qui chie sur toutes les analyses politiques du monde. Techno-absolutiste, parce que finalement, ça positionne la tech comme toute puissante, et ça ignore tout le reste (à savoir la politique, les conditions économiques). En fait, ça positionne l'humain comme facilement manipulable face à notre pouvoir (et ce n'est pas un "nous" de modestie, c'est "nous" en tant que membre des gens qui maîtrisons plus ou moins la technique), c'est quand même assez égocentrique.

    Donc plutôt que de parler de l'idéologie problématique de ce premier exemple, parlons du second, qui a le bon goût lui d'avoir un minimum d'info pour trouver des choses (je ne vais pas questionner le pourquoi il n'y a qu'un exemple vérifiable, mais j'y pense fort).

    En cherchant 30 secondes, je tombe sur un article, qui indique pour commencer, un prix, 4 millions de dollars US, soit 3.7 millions d'euros. L'article dit aussi que l'info a été envoyé à "des douzaines d’évêchés" (sans doute 38 évêchés, vu qu'il y en a 38 aux USAs).

    Mais là oû l'exemple me dérange, c'est que Jeffrey Burrill, le prêtre qui a démissionné n'a pas été ciblé par ce groupe, mais par un autre un ou deux ans plus tôt. Et si on cherche un petit peu plus, on peut voir par exemple qu'il y a un tendance de fond de la part des croyants de ne plus faire confiance aux évêques et aux prêtres suite à divers scandales notamment de pédophilie). C'est ce qu'explique le journaliste qui a couvert ça quand il dit:

    So this is kind of reflecting this trend in the Catholic Church where laypeople are really saying, look; we can't trust the bishops to take control of things, to clean things up, whether that's the clergy sex abuse issue - which this group does connect to gay priests in particular - or just celibacy and traditional values.

    Je traduit:

    Ça reflète plus ou moins la tendance dans l'église Catholique ou les laïcs (NdT: au sens "hors du clergé") disent "écoutez, on peut pas faire confiance à la hiérarchie pour reprendre les choses en main, que ça soit les scandales d'abus sexuel - que ce groupe impute aux les prêtres gays en particulier - ou le célibat et les valeurs traditionnels"

    Mais surtout, on voit que l'impact a été assez limité, car d’après le journaliste, les évêques ne savaient pas trop quoi faire. L'église fait face à une crise des vocations depuis quelques années, et a du mal à recruter. Et il faut bien voir que pendant longtemps (comprendre, plusieurs siècles), l'église était une voie royale pour les homosexuels masculins, en offrant une profession respectable, dans un milieu homosocial (au sens sociologique du terme) et en évitant l'obligation de se marier à une femme et de fonder une famille.

    C'est le point à la base d'au moins 2 ouvrages sur le sujet en français, Des soutanes et des hommes: Enquête sur la masculinité des prêtres catholiques de Jocelyn Tricou, et Sodoma de Frédéric Martel.

    C'est tellement courant que même sans avoir à sortir des ouvrages académiques, je peux trouver un exemple dans mon entourage. Il y a quelques mois, une collègue nouvellement arrivé raconte à la pause du midi qu'elle recoit parfois des messages bizarres pour des rencontres gays sur son tel pro. Après recherche, on a vu que son numéro appartenait avant à un prêtre en France, puis que le prêtre venait de partir à la retraite. Moi, j'ai mon numéro depuis 10 ans, et j'ai pas exactement ce genre de chose, donc je suppose que l'ancien proprio s'est inscrit quelque part. Et sans doute pas pour juste voir comment ça marche.

    Pour en revenir sur le sujet, les applis qui permettent de trouver ce genre d'info, c'est des applis de rencontre comme Grindr, Jack'd ou Scruff. Grindr, pour les gens qui ne connaissent pas, c'est une appli de rencontre qui vise principalement les hommes qui veulent voir d'autres hommes, avec une fonction de géolocalisation. Je schématise, mais tu veux tirer un coup, tu lances l'appli, tu vois qui est à coté, et paf, tu discutes. Alors bien sur, il n'y a pas que ça, des gens tentent aussi des choses plus longue durée, mais ça reste quand même connu pour ça. L'appli affiche des publicités vu que comme pour les films en streaming, les jeux et le logiciel libre, tout le monde veut le service pour une satisfaction immédiate, mais personne ne veut payer pour.

    Le fonctionnement même de l'appli fait que tu peux géolocaliser les gens, et que tu sais qui tu géolocalises, indépendamment des pubs. Donc sauf à verrouiller complètement les téléphones des gens pour interdire de changer sa position, quelqu'un peut simplement se mettre à coté de l'église et voir qui a l'application en attendant.

    Donc si on considère qu'il y a un risque d'outer les gens, alors un correctif serait d'interdire de donner une fausse position, et je suis sur que tout le monde ici est d'accord pour verrouiller plus les téléphones, bien sur, et on sait bien que les DRMs sont efficaces.

    Mais ça n'est pas une des propositions concrètes qui a été listé, donc regardons ce qui s'applique, comme par exemple la proposition 1. En dehors de l'inanité de modifier RTB en tant que norme quand la norme ne dit rien sur ça et que le probléme vient du label donné aux données (comme on peut le voir dans la note 102 du pdf du rapport) donc un champ libre hors de la norme, il y a surtout la question de ce que ça voudrait dire en pratique pour Grindr.

    L'orientation sexuelle est clairement une donnée personnelle (art 9 du RGPD), mais pour le cas qui nous intéressent, ça n'a rien à voir avec le traitement de données personnelles tel que c'est fait actuellement. Si tu affiches des pubs sur Grindr, tu sais quel public tu cibles, pas besoin de données. Le seul moyen d'éviter d'afficher des pubs à un public gay dans tout les cas, ça serait une interdiction totale de montrer des pubs dans Grindr. Mais dans ce cas, ça serait pas que dans Grindr, mais aussi dans Têtu (en redressement judiciaire jusqu’à il y a pas si longtemps), dans Jeanne Magazine (qui va fermer d’après les rumeurs), au festival Chéries-chéris, etc.

    Je suis sur que ça porte un nom, le fait de cibler spécifiquement une communauté pour lui interdire quelque chose, mais ça m'échappe. Ça commence par un dis, discrétion, distinction ? Ça va sans doute me revenir.

    Et surtout, c'est quoi le rapport entre ça et la sécurité européenne ?

    On est plus pendant la Guerre froide, la lavender scare n'est plus vraiment à l'ordre du jour (comme on le voit avec le groupe au Colorado qui a claqué 4 millions d'US$ pour finalement avoir aucun impact visible, autre que celui qu'on lui donne).

    Je comprends bien que les questions d'orientation sexuelle soit un peu une force multiplicatrice pour le RGPD via son article 9, mais franchement, ça me laisse le même arrière goût d’instrumentalisation que quand la Quadrature fait le même genre de choses.

    En conclusion, je me permet de pointer le jugement C-446/21 de la CJUE qui est exactement sur ce sujet. Je suis sur que quelqu'un ici a quelques millions d'euros à filer à NOYB après avoir revendu sa boite.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.