Journal AOL Exhibition

Posté par  .
Étiquettes : aucune
0
9
août
2006
Hello Journal

Comme vous le savez peut-être, AOL a fait une bourde (de plus ?) en publiant des logs couvrant 0,33% des requêtes faites sur 3 mois de cette année.

C'est effrayant de voir à quel point les données collectées peuvent être sensibles...
Sinon, je voulais juste faire le lien entre linux et les utilisateurs d'AOL ! Pour cela, rien ne vaut un bon :
grep linux user-ct-test-collection-01.txt

Il y a plein de résultats bien sûr dont plein de sites de spammeurs qui contiennent linux dans l'url... peut-être pour mieux se ranker ? (Je mets pas les url, vous me croyez hein...). J'ai été voir l'un deux, c'est une page de parking "classique", avec un tux !!! (si, si...)
Les gens qui visitent ces sites y arrivent par exemple avec "making love to fuck in women" ou " free submitted amature videos". Il y en a des kilos... A vue de nez, plus de 80% des requêtes qui greppent linux (dans l'url du site pour ceux qui ne suivent pas).

Petite déception personnelle : la seule requête contenant ocaml est du même style :
user-ct-test-collection-04.txt:4940583 videocamlive 2006-05-09 08:47:44

Sinon, les requêtes linux des utilisateurs ont l'air mieux rédigées que l'ensemble des requêtes... C'est pas scientifique, c'est juste une impression...
"ibm 760el laptop floppy drive will not read floppy disk"
"using a slave drive with a password protected file" (il voulait dire partition ?)
"linksys adapter disconnects after hibernation"

Mais pas toutes :
[ Utilisateur / Requête / Date / Rang du site visité / Url du site visité ]
5031621 can i connect to aol useing linux 2006-03-20 23:13:49
5031621 can i connect to aol using linux 2006-03-20 23:14:36 1 http://yolinux.com
5031621 how do i connect aol with linux 2006-03-21 17:35:01 1 http://yolinux.com
5031621 how do i connect aol with linux 2006-03-21 17:35:01 2 http://yolinux.com
5031621 how do i connect aol with linux 2006-03-21 21:09:08 3 http://www-jerry.oit.duke.edu
5031621 aol for linux 2006-03-25 23:28:02 1 http://yolinux.com
5031621 linux 2006-04-19 13:10:43
5031621 how do i add a modom to a linux system 2006-04-19 13:11:25
5031621 how do i add a modem to a linux system 2006-04-19 13:13:55 2 http://www.aboutdebian.com
5031621 linuxmodoms.com 2006-04-19 21:11:18
5031621 linux games 2006-04-26 21:29:56 1 http://www.linuxgames.com

Allez, courage ;)

Un article sur une personne retrouvée à partir de ses requêtes :
http://www.nytimes.com/2006/08/09/technology/09aol.html?ei=5(...)

Pour la base, je ne sais pas si je peux vous mettre un lien ici, vous la trouverez sur bt (AOL l'a retirée).

Bon mining !
  • # find the terrorist

    Posté par  (site web personnel) . Évalué à 4.

    Anyone who wants to play NSA can start datamining for terrorists. Let us know if you find anything.
    http://www.schneier.com/blog/archives/2006/08/aol_releases_m(...)

    pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

    • [^] # Re: find the terrorist

      Posté par  . Évalué à 3.

      mmh à 2 liens d'ici on peut consulter la base sans en disposer sur son disque. C'est vrai que ca peut donner des choses amusantes:

      21544897 how to smoke crack
      22928798 oooh fish you dont know how lucky you are to see the world through your fish eye eyes but someday ill get a fish-eye lens and ill be just like you

      mais un truc qui me fait doucement sourire, c'est que ces logs anonymisés des recherches AOL ne sont rien de plus ni de moins que :
      http://linuxfr.org/~plagiats/6919.html

      Et à l'époque (2003), tout le monde m'a remonté les bretelles avec des :
      C'est pas vraiment un flicage, puisqu'on ne sait pas que c'est toi. ou Ca n'est pas nominatif, ni lié à une adresse IP, bref : anonyme.

      Pas nominatif, pas d'ip... ca s'applique aux logs d'AOL ! Ben alors les moules ?
      • [^] # Re: find the terrorist

        Posté par  (site web personnel) . Évalué à 3.

        mais un truc qui me fait doucement sourire, c'est que ces logs anonymisés des recherches AOL ne sont rien de plus ni de moins que :
        http://linuxfr.org/~plagiats/6919.html
        Bien plus quand même. Un identifiant est associé à chaque utilisateur alors que dans le cas de Lycos Voyeur, tu n'as que des requètes et rien qui permette de les lier entre elles.

        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

      • [^] # Re: find the terrorist

        Posté par  . Évalué à 2.

        Marrant... et ça marche toujours trois ans après.
        Ceci dit, AOL c'est bien pire, pas une requête mais l'ensemble à partir du login.
        Par exemple, on trouve des gens dont les requêtes sur leur nom jouxtent les classicos du porno !

        Au fait, tu disais dans ton journal il y a trois qu'ils filtraient. Marche pô :

        "Les mots clés tapés sur Lycos en ce moment même

        boytemper |spiceyou
        chargeur batterie |www.footjoy.fr
        rose blanche |changer disques freins (commentaire perso: tu vas galérer !)
        sex scenes |comptes prévisionnels
        tchat |gets right
        comptes prévisionnels |dragon
        comptes prévisionnels |www.footjoy.fr
        super vw nat's 2006 |tapisautomobile.com
        camion de transport en vrac |spiral soundtrack
        porno |changer disques freins
        sexe kehl |sex scenes
        vacances |domenech
        www.msn.com |teste
        changer disques freins |doujin
        dragon |rose blanche"
        • [^] # Re: find the terrorist

          Posté par  . Évalué à 2.

          Au fait, tu disais dans ton journal il y a trois qu'ils filtraient.
          Oui, je m'étonnais que ma phrase (avec une belle faute à "public") n'appaisse pas dans Lycos Voyeur (je me souviens avoir testé plusieurs fois, ca me semblait possible puisque la requête contient "Lycos"...).

          Avec le recul, je pense qu'elle m'a simplement échapé. Je viens de ré-éssayer, elle apparait dans les résultats. Et on nous demande toujours pas notre avis.
          • [^] # Re: find the terrorist

            Posté par  . Évalué à 2.

            Je préfère qu'on ne compte pas les fautes, parce que dans ma phrase, il manque des mots...

            -
            Ok, je -> [ ]
  • # Pour les datamineurs fous :

    Posté par  . Évalué à 2.

    Une petite interface de recherche sur la base....


    http://aolsearchdatabase.com/

    Pas sur que ca reste en ligne longtemps...
    • [^] # Re: Pour les datamineurs fous :

      Posté par  . Évalué à 1.

      Je crois qu'il n'y a pas toute la base, il suffit de taper linux et tu ne trouve que 11 hit c'est louche!!!
      • [^] # Re: Pour les datamineurs fous :

        Posté par  . Évalué à 2.

        grep linux *.txt | wc -l
        2914

        -
        Et à peine mieux :
        (ce code est bien sûr GPL, même si je songe fortement à le breveter : "caractérisé en ce que un compteur initialisé au préalable de l'éxécution d'une boucle effectuant une ou plusieurs expressions régulières" )

        check.pl :
        #!/usr/bin/perl
        my $count = 0;
        while ($_=<>) {
        s/(.+)http.+/$1/;
        if (/linux/) { $count++ }
        }
        print "$count\n";

        cat user-ct-test-collection-*.txt | ./check.pl
        495
        • [^] # Re: Pour les datamineurs fous :

          Posté par  (site web personnel) . Évalué à 3.

          $ zcat user-ct-test-collection-* | perl -F'/\t/' -ane'print if $F[1] =~ /linux/' | wc -l
          501

          pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

      • [^] # Re: Pour les datamineurs fous :

        Posté par  (site web personnel) . Évalué à 2.

        Ca doit être l'interface web qui déconne, moi j'en vois 501 (2914 si on compte aussi ceux qui ont « linux » dans l'url cliqué).
        Par ailleurs :
        ClickURL - if the user clicked on a search result, the domain portion of the URL in the clicked result is listed.
        Pourtant il y en a certains (au moins un) où on a l'url complet :
        user-ct-test-collection-03.txt.gz:3520999 acheter des ordinateurs 2006-04-07 12:33:40 1 https://linuxfr.org/2004/05/13/15986.html


        Sinon à force de grep(1)er, on tombe sur des trucs marrants.
        6959321 privacy issues 2006-03-16 19:55:34 2 http://www.cdt.org
        6959321 identity theft interesting facts 2006-03-16 23:44:35 6 http://slashdot.org
        4246170 get laid locals 2006-05-04 17:51:55 15 http://linuxfromscratch.org
        3520999 paintings of paul gaughin 2006-03-01 20:33:49 27 http://www.montanawatercolorsociety.org
        3520999 where have you been where are you now where are you going 2006-03-01 20:35:27
        3520999 gaughin tu vas ou 2006-03-01 20:37:46 2 http://jardindemuse.over-blog.net
        3520999 ma vie sociale 2006-04-01 21:08:24

        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

  • # Du cote de chez Google.

    Posté par  . Évalué à 4.

    On a une version anonyme, mais qui parfois se montre interessante.

    Ainsi, on peut avoir la repartition geographique des gens qui recherchent tel ou tel mot.

    Par exemple:

    http://www.google.com/trends?q=sex&ctab=1&sa=N
    • [^] # Re: Du cote de chez Google.

      Posté par  . Évalué à 2.

      Ce qui est troublant c'est que le hit parad des pays ou on cherche des trucs holé holé ne contient que des pays qui répriment très sévèrement par la loi et moralement ce type de pratique !!!

      Il me semble qu'il y a une grande hypocrisie la dedant
    • [^] # Re: Du cote de chez Google.

      Posté par  . Évalué à 4.

      Excellent, on peut même comparer deux termes avec une virgule.

      DISCLAIMER
      Attention, le lien ci dessous est dangereux. Il est trollifère, il pourrait faire partie d'un journal dont on n'ose pas imaginer le titre.
      Interdit à certaines personnes sensibles.

      http://www.google.com/trends?q=ubuntu%2C+debian&ctab=1&a(...)
      • [^] # Les modes, ca va, ca vient ...

        Posté par  . Évalué à 3.

        Plus intéressant encore, plus trollifère encore :

        http://www.google.com/trends?q=ubuntu%2C+debian+%2C+mandrake(...)
        • [^] # Re: Les modes, ca va, ca vient ...

          Posté par  . Évalué à 2.

          Ça peut vraiment être intéressant, sans pour autant être trollifère.

          L'exemple, la vie de Munich en Allemage.
          http://www.google.com/trends?q=ubuntu,+debian+,+mandrake+,+m(...)

          On y remarque un pic énorme de recherche sur Debian écrasant les autres distros sur une courte période.

          Il y a fort à parier que l'on peut corréler ce pic avec les velléités de Munich de migrer son parc informatique sous une solution libre (en l'occurence sur base Debian, si je ne me trompe.).

          0. Assume good faith 1. Be kind to other people 2. Express yourself 4. Apply rule 0

          • [^] # Re: Les modes, ca va, ca vient ...

            Posté par  . Évalué à 1.

            Je suis vraiment désolé mais bon voilà quoi :

            http://www.google.com/trends?q=ubuntu%2C+debian+%2C+mandrake(...)

            Alors peut-être est-ce pour des problèmes de sécu mais rien est gagné ...
            • [^] # Re: Les modes, ca va, ca vient ...

              Posté par  . Évalué à 3.

              Je ne tiens à démontrer rien du tout, je propose.

              Cela dit, ton lien n'apporte rien à ce que j'avance, et pour plusieurs raisons.

              Tout d'abord, tu effectues une recherche globale pour Windows, alors que tu sépares plusieurs distros Linux.
              => Biais

              Deuxièmement, sachant que les systèmes d'exploitation Windows sont les plus utilisés par le commun des mortels, il ne me semble pas du tout illogique que le nombre de recherche concernant un "windows" soit passablement plus nombreuses, toutes versions confondues, que les recherches concernant quelques distributions Linux appelées par leur petit nom.

              Et enfin, pour en revenir à ce que je proposais, ce serait vachement bizzare que seuls les gens de Munich se posent tout d'un coup un question sur la sécurté de Debian et pas d'autre distributions et ce, sans relation avec la volonté affichée[1] de la ville de Munich de migrer son parc informatique.


              [1] http://us.ixquick.com/do/metasearch.pl?cat=web&cmd=proce(...)

              0. Assume good faith 1. Be kind to other people 2. Express yourself 4. Apply rule 0

              • [^] # Re: Les modes, ca va, ca vient ...

                Posté par  . Évalué à 1.

                C'était surtout pour montrer la tendance

                C'est vrai que c'est plus juste si on regarde ca :

                http://www.google.com/trends?q=windows%2C+linux

                On voit que, en générale, le nombre de recherche baisse avec la même pente (pas dans les même proportions, à moins que l'échelle soit en log...)

                Donc : on ne peut rien conclure si ce n'est que ca baisse

                Notons quand même une meilleur régularité pour linux

                Bon aller j'arrete, par ce que sinon, on va me dire que je vais à l'encontre de ma signature
        • [^] # Re: Les modes, ca va, ca vient ...

          Posté par  (site web personnel, Mastodon) . Évalué à 1.

          Mode ?

          Le méga pic vers la fin ce serait dû à ca :

          Ubuntu Security Notice - gdm vulnerability (USN-293-1)
          Help Net Security - Jun 9 2006

          Dans ton exemple, les principales recherche sont des en rapport à une vulnérabilité, pas sûr que celui qui ai le plus de recherche puisse être "fier" :/
          • [^] # Re: Les modes, ca va, ca vient ...

            Posté par  . Évalué à 2.

            En fait apparemment personne à vu ce que je voulais faire remarquer : deux distributions réputées "pour débutants" comme ubuntu ou mandrake/mandriva montent, descendent, tandis que dans le même temps debian reste à peu prêt stable ^^


            Moins trollesque, plus sérieux donc, que ce soit pour des failles ou pour d'autres raisons, c'est quand même un bon indiquateur de popularité de la distro : il n'y aurait pas de recherches, même sur les failles, si il n'y avait que deux utilisateurs.
            • [^] # Re: Les modes, ca va, ca vient ...

              Posté par  (site web personnel) . Évalué à 3.

              En fait apparemment personne à vu ce que je voulais faire remarquer : deux distributions réputées "pour débutants" comme ubuntu ou mandrake/mandriva montent, descendent, tandis que dans le même temps debian reste à peu prêt stable ^^

              Ben j'ai vu ca du tout :-)

              Les distribs qui sont en train de chuter sont Mandr{ake|iva} (beaucoup) et Debian (un peu), seule Ubuntu ne fait que grimper.

              Ensuite, là ou on pourrait penser en premier lieu que Ubuntu a pris dans les requetes de Debian, et Mandriva dans celle de Mandrake, on se rend finalement compte qu'en fait c'est surtout Ubuntu qui a pris celles de Mandr{ake|iva}. Regardez bien les 2 courbes qui se croisent c'est assez flagrant.
          • [^] # Re: Les modes, ca va, ca vient ...

            Posté par  . Évalué à 2.

            Je ne pense pas qu'il y ait de corrélation forte entre les éléments des news et les milliers de requêtes faites par les utilisateurs !
            Enfin, elle doit exister, mais elle doit être quand même infiniment plus faible pour le nom d'une distribution linux que le pic lié au décès d'une célébrité par ex.
            Par contre, si tu cherches des arguments, il reste le fait que souvent, on tape le nom de sa distrib préférée suivi de son problème !
  • # C'est fou

    Posté par  . Évalué à 5.

    Voilà l'histoire reconstituée d'un couple :
    http://www.chryde.net/blog/2006/08/le_web_regorge_.html

    Mais le mieux, c'est que il y a des sites, des wikis... qui naturellement font appel à l'intelligence collective pour lever les plus beaus lièvres. Et ça marche plutôt bien...

    Par exemple http://blog.outer-court.com/archive/2006-08-08-n53.html

    (les sites à forte audience geekesque comme techcrunch, slashdot et bientôt linusquèfère sont plein de liens.)

    C'est fou. Je me demande si les personnes identifiées vont porter plainte contre AOL.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.