Journal Le tatouage numérique des dictionnaires

Posté par  (site web personnel) .
Étiquettes : aucune
0
26
août
2005
Le tatouage numérique des dictionnaires

Dans la radieuse époque ou nous vivons la gestion des droits numériques est le sujet brûlant par excellence. Comme la copie et la circulation de l'information se fait maintenant à un coût quasi-nul il faut absolument que les gentilles entreprises qui vivaient de cette rareté de l'information protègent leur valeur ajoutée des méchants pirates. Presque tous les moyens sont bons pour lutter contre cette appropriation éhontée car l'alternative, qui fait froid dans le dos, serait un monde ou l'information circulerait librement entre les gens !
Une de ces méthodes est le watermarking (apposition d'un filigrane numérique), technique permettant de "tatouer" invisiblement un fichier électronique pour y introduire des informations utiles à la gestion du copyright.
Ainsi un producteur de contenu peut tatouer invisiblement une image, une vidéo ou une musique lors de leur création afin de prouver devant la justice que des fichiers circulant librement sur le net relèvent en fait du droit d'auteur et ont été lâchement piratés.
En réalité si l'on en croit l'excellent hebdomadaire étasunien The New Yorker cette pratique est assez ancienne dans le monde des encyclopédies et des dictionnaires. Savez-vous par exemple qui est Lillian Mountweazel ? Si vous consultez la page 1850 de la New Columbia Encyclopedia vous apprendrez que cette personne, née en 1942, est une conceptrice de fontaines qui est devenue une photographe célèbre (notamment pour sa série sur les boites aux lettre américaines de campagnes) et qu'elle est morte dans une explosion en 1973.
En réalité cette personne n'a jamais existé ! Il s'agit juste d'un piège pour repérer les malotrus qui s'aviseraient de copier sans vergogne le contenu de cette encyclopédie dans leurs propres produits. Comme l'explique un des éditeurs "It was an old tradition in encyclopedias to put in a fake entry to protect your copyright". En réalité il s'agit bel et bien de watermarking avant l'heure !
Immédiatement une pensée germe dans votre esprit : Nom d'un chien mais alors si je cherche bien dans mon Petit Robert je vais trouver un mot qui n'existe pas ou le nom d'une personne imaginaire ?
C'est exactement ce que s'est demandé le journaliste Henry Alford du New Yorker et c'est ce qui l'a conduit à une enquête sherlockhomesque pour découvrir l'intrus vicieux parasitant son New Oxford American Dictionary.

L'article en question (en anglais of course) avec la dénonciation du mot coupable :
http://www.newyorker.com/printables/talk/050829ta_talk_alford(...)
  • # viens là toi !

    Posté par  (site web personnel, Mastodon) . Évalué à 10.

    c'est vraiment dommage qu'on ne puisse pas noté les journaux, en vlà un de très bonne qualité !

    viens là, viens là que je te plusse (réponds à ce commentaire) !!!!

    M.
    • [^] # Re: viens là toi !

      Posté par  . Évalué à 2.

      Il ose pas se montrer, le p'tit salopard...

      Mais j'ai trouvé où il se cache : http://linuxfr.org/~patrick_g/(...) et plus particulièrement dans la petite boîte de la colonne de gauche, intitulée " Derniers commentaire(s) :"

      A l'attaque!!!

      /me, tout content de lancer la première anti-caballe (qui n'existe pas)

      "Il faut" (Ezekiel 18:4) "forniquer" (Corinthiens 6:9, 10) "avec des chiens" (Thessaloniciens 1:6-9) "morts" (Timothée 3:1-10).

    • [^] # Re: viens là toi !

      Posté par  . Évalué à 0.

      En plus les commentaires (sauf celui-ci) sont généralement de bonne qualité.
  • # Et après ...

    Posté par  . Évalué à 10.

    Il viennent critiquer la qualité de Wikipédia ...

    Il y a des gens qui ne manque pas de culot quand même ...

    Damien
  • # Avec la monnaie aussi

    Posté par  (site web personnel) . Évalué à 8.

    je crois que cette technique est utilisée pour repérer des billets de banque volés, d'insérer des faux billets ou des billets marqués qui seront embarqués par les voleurs.
  • # Partage

    Posté par  . Évalué à 10.

    Ce qui est tatoué est à moué...





    Pas taper, je suis déjà dehors.....
  • # criminel

    Posté par  . Évalué à 5.

    En incluant des informations fausses en le sachant pertinement, ils trahissent ceux qui ont payé pour utiliser leur encyclopédie. Est-ce qu'ils ne sont pas soumis à des risques d'attaque en justice? Y compris avec des trucs du genre "nous ne garantissonbs pas l'exactitude de ce qu'on écrit"? Parce que là, c'est carrément malhonnête!
    • [^] # Re: criminel

      Posté par  . Évalué à 10.

      > criminel

      Ouais, faut pas exagérer non plus, il n'y a pas mort d'homme !

      Ils garantissent que toutes les définitions sont exactes, mais s'il y en a une en trop, normalement c'est une définition que tu n'auras jamais besoin d'aller chercher, et pour cause.
      Alors à moins que tu n'apprennes l'encyclopédie par coeur, ça ne gêne personne. Pis c'est plutôt pittoresque comme détail. Moi en tout cas je trouve ça drôle :)
      • [^] # Re: criminel

        Posté par  (site web personnel) . Évalué à 10.

        >> Alors à moins que tu n'apprennes l'encyclopédie par coeur, ça ne gêne personne.

        Il m'arrive souvent d'ouvrir une encyclopédie pour chercher un truc et de rester ensuite des heures à lire des articles, sauter de page en page, de définition et définition...en faisant ceci (hypertexte à la gutemberg quoi) je m'expose à lire un truc complètement faux.
        Maintenant t'a parfaitement raison de relativiser : le fake concernera un petit truc obscur sans importance noyé dans un océan d'informations donc rien de grave.
        C'est juste symptomatique de la société dans laquelle nous vivons. Je suis prêt à parier ma chemise qu'il n'y a pas le moindre watermarking dans mon autre encyclopédie (Larousse; édition du XIX siècle).
  • # Rien ne se perd, rien ne se créé...

    Posté par  (site web personnel) . Évalué à 10.

    tout se vend!

    J'ai le souvenir que quelques temps après l'arrivée du Minitel, des sociétés françaises ont mis au point des programmes sous Dos qui s'interfaçaient avec l'aide d'un modem (9600 bd à l'époque) au contenu de l'annuaire.
    Celà permettait de se constituer à moindre coût des fichiers de prospects (on pouvait utiliser les critères de recherche habituels du Minitel: région, activité,..) pour lancer des campagnes marketing ou autre.
    France Telecom qui vendait plusieurs centimes chacune des adresses, n'avait trouvé comme solution pour débusquer les fraudeurs que l'insertion de fausses coordonnées dans son annuaire en ligne (pas dans celui qu'elle vendait évidemment). Ainsi lorsqu'une publicité arrivait à l'une de ces adresses, FT savait contre qui se retourner.
    Je ne sais pas ce qu'il en est aujourd'hui (20 ans + tard), mais le traffic de fichiers de données n'a jamais mieux marché. :-(
    • [^] # Re: Rien ne se perd, rien ne se créé...

      Posté par  . Évalué à 1.

      oui, ca s'appelle un pot de miel !
    • [^] # Re: Rien ne se perd, rien ne se créé...

      Posté par  . Évalué à 2.

      Celà permettait de se constituer à moindre coût des fichiers de prospects
      Je crois qu'une application courante est l'annuaire inversé.
      Les fraudeurs profitaient que les 3 premières minutes de consultation de l'annuaire électronique étaient gratuites pour récupérer tout le fichier par petits bouts.
      l'insertion de fausses coordonnées dans son annuaire en ligne
      Quest-ce qui ce passe si un des faux abonnés est l'homonyme d'une vraie personne ? On peut se tromper et être accusé de spam ...
    • [^] # Re: Rien ne se perd, rien ne se créé...

      Posté par  (site web personnel) . Évalué à 2.

      Je crois me rappeller que quelqu'un avait fait un commentaire sur ce site en expliquant que quand il devait donner son adresse dans un formulaire, il la modifiait un peu (genre rajouter une lettre pour le numéro de boîte au lettre,...). Après quand tu reçois du spam, tu peux voir d'où ils tiennent ton adresse.

      pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

      • [^] # Re: Rien ne se perd, rien ne se créé...

        Posté par  (site web personnel) . Évalué à 2.

        Ca aurait tout aussi bien pu être moi. Avec mes propres noms de domaines, j'ai plusieurs dizaines (centaines peut-être) d'adresses email. Je les créé à la volée justement pour savoir qui refourgue mes adresses à qui. Hélas (si je puis dire) mon filtre spamassassin est tellement bien règlé que je n'ai guère plus d'on ou deux spams par mois qui passe à travers. Il faudrait que je fasse un script qui m'affiche les adresses de destination des spams avant de les effacer.

        Sinon lorsque j'avais ouvert un compte chez Wanadoo en 1997 pour les bêta-test de l'ADSL, ils avaient commis une faute dans mon nom en y mettant 2 'r'. Faute aussitôt corrigée mais compte non effacé. Je n'ai jamais utilisé cette adresse email et pourtant je reçois plein de spam dessus. Alors la question que je me suis toujours posée: est-ce Wanadoo qui a revendu cette adresse ou bien un de leurs employés qui a décidé d'arrondir ses fins de mois? Je n'aurait sans doute jamais la réponse! :-(
        • [^] # Re: Rien ne se perd, rien ne se créé...

          Posté par  (site web personnel) . Évalué à 2.

          Je parlais des adresse "physiques" mais effectivement de plus en plus de gens font ça pour leur adresse e-mail aussi (il me semble d'ailleurs que c'est ce que propose SpamGourmet). Et là au moins si tu reçois du spam à une adresse tu peux toujours l'abandonner.

          pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

  • # Les cartes aussi...

    Posté par  (site web personnel) . Évalué à 3.

    De même, les cartographes ajoutaient autrefois (et encore de nos jours?) un petit détail inventé dans un coin...
    • [^] # Re: Les cartes aussi...

      Posté par  . Évalué à 5.

      Ouais, genre un dragon ou un serpent de mer...

      ~~'°'~~>[]¹

      ¹ : c'est censé représenter un petit bonhomme qui se noie avant d'arriver à la porte...
    • [^] # Re: Les cartes aussi...

      Posté par  . Évalué à 1.

      Ils le font toujours. Prends une carte Michelin, ou un atlas, et fais la photocopie d'une page. Petit jeu : effacer toutes les informations non utiles à la fonction de la copie.
      Entre les symboles de copyrights, les lieux d'intérêt restreints (sites Michelin, Renault et autres) et autres détails, impossible de faire une contrefaçon sans risquer de se faire prendre. Sans compter le positionnement des noms des villes, voire le tracé des routes par forcément exact.
  • # Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

    Posté par  . Évalué à 1.

    J'ai appris que certains mots étaient volontairement omis de certains dictionnaires. Dans ma grande naïveté, je pensais que les dictionnaires étaient faits pour me donner la définition des mots que je connaissais pas. Je ne parle même pas des mots dont le faible usage les chassent du dictionnaire.
    • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

      Posté par  . Évalué à 2.

      J'ai appris que certains mots étaient volontairement omis de certains dictionnaires.

      Des noms!
      • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

        Posté par  . Évalué à 1.

        Je me rapelle avoir cherché l'orthographe de "Godemichet" dans le Larousse (version 1996) et il n'y était pas (alors que http://fr.wikipedia.org/wiki/Godemichet(...) ).

        Il y a aussi dans les manquant:
        - "Poppers" ( http://fr.wikipedia.org/wiki/Poppers(...) )
        - "Fis-fucking" ( http://fr.wikipedia.org/wiki/Fist-fucking(...) )
        - "Anulingus" ( http://fr.wikipedia.org/wiki/Anulingus(...) )

        Ce ne devrait pas être la liste exhaustive, mais j'ai trouvé scandaleux que ces mots soient abscents. Je ne sais pas si le petit robert fait mieux son boulot.
        • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

          Posté par  . Évalué à 6.

          En même temps, les trois quarts des mots que tu cites ne sont pas français (poppers et fist-fucking sont anglais et anulingus latin). De plus, et essentiellement, leur usage est fort peu fréquent et limite argotique (c.-à-d. spécialisé et sociologiquement limité).

          Ensuite, il faut savoir de quel dictionnaire l'on parle, car le « Petit Larouse illustré » p.ex. ne s'est jamais voulu complet et ne l'est sûrement pas. Ce type de dictionnaires est fait un usage courant et, surtout, scolaire.

          Enfin, même si Larousse a une optique encyclopédique¹ (dans la façon dont sont choisies, présentées et rédigées les entrées), on ne peut pas les comparer à une encyclopédie. Celle-ci fusse-t-elle libre.

          ¹ : J'ai d'ailleurs pu comparer les articles d'une encyclopédie Quillet de 1933-1934 avec ceux d'un dictionnaire encyclopédique Bordas de 1964 et ceux d'un Petit Larousse 1990. Ceux du Larousse sont un résumé de ceux du Bordas qui sont un résumé de ceux de la Quillet. Quand je parle de résumé, j'entends par là que les phrases sont les mêmes, les seules différences sont des phrases raccourcies ou omises.
        • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

          Posté par  . Évalué à 2.

          le probleme est de savoir si c'est un oubli volontaire ou pas , ous simplement le fait que ses mots n'étaient pas encore entrer dans le dictionnaire
          d'ailleurs dans mon dictionnaire de 1900 il n'y a pas ses mots
        • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

          Posté par  (site web personnel) . Évalué à 5.

          Euh .. la présence d'un texte wikipédia n'est pas un réel argument pour qualifier le manque dans le dictionnaire j'espère ?
          Il va falloir arrêter de sortir des liens wikipédia partout. Ce qui est sur wikipedia c'est juste ce que les gens ont bien voulu y mettre. Ca n'a rien ni d'officiel ni d'objectif, ni même forcément de "vrai" ou de vérifié. Le fait qu'un mot soit présent ne veux pas dire qu'il s'agit d'un mot français.


          Pour info ce mot n'existe pas dans le dico de l'académie française. Ce n'est pas une censure, c'est juste que ce mot n'est pas officiellement français (comme beaucoup de mots très familiers ou argotiques, surtout dans les domaines "peu respectables" comme le sexe).
          Certes des dicos mettent aussi des mots non avalisés par l'académie mais ça reste tout de même à leur appréciation.

          > Ce ne devrait pas être la liste exhaustive, mais j'ai trouvé scandaleux que ces mots
          > soient abscents.

          Note humoristique à ne pas prendre au sérieux : C'est sur qu'avec une phrase se terminant sur cette orthographe te rend très crédible quand tu cherches à critiques ceux qui font les dictionnaires.
          • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

            Posté par  . Évalué à 2.

            Ce ne devrait pas être la liste exhaustive, mais j'ai trouvé scandaleux que ces mots
            soient abscents.


            s/abscents/absent/

            Euh .. la présence d'un texte wikipédia n'est pas un réel argument pour qualifier le manque dans le dictionnaire j'espère ?
            Il va falloir arrêter de sortir des liens wikipédia partout. Ce qui est sur wikipedia c'est juste ce que les gens ont bien voulu y mettre. Ca n'a rien ni d'officiel ni d'objectif, ni même forcément de "vrai" ou de vérifié. Le fait qu'un mot soit présent ne veux pas dire qu'il s'agit d'un mot français.


            La puissance de wikipédia est justement que la censure y a moins sa place. Mais s'il y a un dictionnaire français en ligne et librement accessible, merci de me le faire connaitre Pour les mots, l'objectif d'un dico est de donner leur orthographe et une courte définition et peut-être l'alternative officielle. poppers et fist-fucking sont peut-être d'origine anglaise, mais l'académie ne nous a pas encore gratifié de remplaçants genre vasoshoot ou manuenculatage. Pour godemichet, son apocope date de 1862, donc les dictionnaires avaient le temps de se mettre à jour. Pour anulingus, vu que cunilinugus y est, ça ne devrait pas posé problème. Je suis d'accord que c'est pas un mot hypercourant, mais je l'ai entendu dans "Sex in the city" :-)


            Pour info ce mot n'existe pas dans le dico de l'académie française. Ce n'est pas une censure, c'est juste que ce mot n'est pas officiellement français (comme beaucoup de mots très familiers ou argotiques, surtout dans les domaines "peu respectables" comme le sexe).


            Il me semble que l'académie en est à la lettre "P" dans sa révision et qu'ils ne traitent que quelques lettres (voire 1) par année, donc comme dictionnaire à jour, on repassera.

            Quant à la respectabilité du sexe, on est pas encore chez les puritains.
            • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

              Posté par  (site web personnel) . Évalué à 2.

              > Mais s'il y a un dictionnaire français en ligne et librement accessible, merci de me le faire connaitre

              Il y a le dictionnaire de l'académie française dans sa neuvième version (ils en sont à la lettre N) : http://atilf.atilf.fr/academie9.htm(...)

              Sinon tu as le TLFi (trésor de la langue française informatisé), basé sur la version précédente de l'académie : http://atilf.atilf.fr/dendien/scripts/tlfiv4/showps.exe?p=combi.htm(...)


              > Il me semble que l'académie en est à la lettre "P" dans sa révision et qu'ils ne
              > traitent que quelques lettres (voire 1) par année, donc comme dictionnaire à jour,
              > on repassera.

              Je pensais que c'était N, mais je peux me tromper.

              Mais bon, comme tu le dis tu citais godemichet et dans wikipedia on parle d'apparition vers 1862 : les dicos ont eu le temps de se mettre à jour.
              Si j'en crois 1 lettre par an et la lettre P cette année, ça veut dire qu'il y a eu 5 éditions de la lettre G depuis. Si le mot n'est pas entré, ce n'est à priori pas à cause de la latence de l'académie.

              > La puissance de wikipédia est justement que la censure y a moins sa place.

              La censure, mais il y a aussi moins de vérification et surtout le résultat est le résultat d'un consensus faible de la part de la minorité qui a participé à l'élaboration. C'est très loin d'être une source fiable ou avec le même niveau de vérification/étude qu'une encyclopédie classique.
            • [^] # Re: Il ferait mieux de ne pas censurer les mots plutôt que d'en enlever

              Posté par  (site web personnel) . Évalué à 2.

              > Il me semble que l'académie en est à la lettre "P" dans sa révision et qu'ils ne traitent que quelques lettres (voire 1) par année, donc comme dictionnaire à jour, on repassera.

              Cf http://academie-francaise.fr/dictionnaire/index.html(...)

              Ils en sont à la lettre « O » (à « onglette »). Et on voit le temps passé par lettre grae aux publications au JO.
  • # Dans les pages jaunes c'est pareil ...

    Posté par  (site web personnel) . Évalué à 5.

    Ayant travaillé à une époque pour une firme faisant des pages jaunes, j'avais pu remarqué le même genre de comportement pour les pages jaunes FT en ligne par rapport aux bases qu'ils nous fournissaient ...

    Des entrées en plus, en moins etc. donc visiblement toutes fakes mais justes là pour détecter les copilleurs ...

    Il y avait par exemple le SEUL tabac que l'on avait mis en base, un tabac imaginaire, à Bastia, qui servait d'une part pour les tests du moteur de recherche (on cherchait un tabac à Bastia toutes les minutes) mais aussi pour détecter les copilleurs de NOTRE base de données ...

    PS: Les débits de tabac sont interdits de publicité dans les pages jaunes.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.