Hello Journal
Comme vous le savez peut-être, AOL a fait une bourde (de plus ?) en publiant des logs couvrant 0,33% des requêtes faites sur 3 mois de cette année.
C'est effrayant de voir à quel point les données collectées peuvent être sensibles...
Sinon, je voulais juste faire le lien entre linux et les utilisateurs d'AOL ! Pour cela, rien ne vaut un bon :
grep linux user-ct-test-collection-01.txt
Il y a plein de résultats bien sûr dont plein de sites de spammeurs qui contiennent linux dans l'url... peut-être pour mieux se ranker ? (Je mets pas les url, vous me croyez hein...). J'ai été voir l'un deux, c'est une page de parking "classique", avec un tux !!! (si, si...)
Les gens qui visitent ces sites y arrivent par exemple avec "making love to fuck in women" ou " free submitted amature videos". Il y en a des kilos... A vue de nez, plus de 80% des requêtes qui greppent linux (dans l'url du site pour ceux qui ne suivent pas).
Petite déception personnelle : la seule requête contenant ocaml est du même style :
user-ct-test-collection-04.txt:4940583 videocamlive 2006-05-09 08:47:44
Sinon, les requêtes linux des utilisateurs ont l'air mieux rédigées que l'ensemble des requêtes... C'est pas scientifique, c'est juste une impression...
"ibm 760el laptop floppy drive will not read floppy disk"
"using a slave drive with a password protected file" (il voulait dire partition ?)
"linksys adapter disconnects after hibernation"
Mais pas toutes :
[ Utilisateur / Requête / Date / Rang du site visité / Url du site visité ]
5031621 can i connect to aol useing linux 2006-03-20 23:13:49
5031621 can i connect to aol using linux 2006-03-20 23:14:36 1 http://yolinux.com
5031621 how do i connect aol with linux 2006-03-21 17:35:01 1 http://yolinux.com
5031621 how do i connect aol with linux 2006-03-21 17:35:01 2 http://yolinux.com
5031621 how do i connect aol with linux 2006-03-21 21:09:08 3 http://www-jerry.oit.duke.edu
5031621 aol for linux 2006-03-25 23:28:02 1 http://yolinux.com
5031621 linux 2006-04-19 13:10:43
5031621 how do i add a modom to a linux system 2006-04-19 13:11:25
5031621 how do i add a modem to a linux system 2006-04-19 13:13:55 2 http://www.aboutdebian.com
5031621 linuxmodoms.com 2006-04-19 21:11:18
5031621 linux games 2006-04-26 21:29:56 1 http://www.linuxgames.com
Allez, courage ;)
Un article sur une personne retrouvée à partir de ses requêtes :
http://www.nytimes.com/2006/08/09/technology/09aol.html?ei=5(...)
Pour la base, je ne sais pas si je peux vous mettre un lien ici, vous la trouverez sur bt (AOL l'a retirée).
Bon mining !
# find the terrorist
Posté par Krunch (site web personnel) . Évalué à 4.
pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
[^] # Re: find the terrorist
Posté par plagiats . Évalué à 3.
21544897 how to smoke crack
22928798 oooh fish you dont know how lucky you are to see the world through your fish eye eyes but someday ill get a fish-eye lens and ill be just like you
mais un truc qui me fait doucement sourire, c'est que ces logs anonymisés des recherches AOL ne sont rien de plus ni de moins que :
http://linuxfr.org/~plagiats/6919.html
Et à l'époque (2003), tout le monde m'a remonté les bretelles avec des :
C'est pas vraiment un flicage, puisqu'on ne sait pas que c'est toi. ou Ca n'est pas nominatif, ni lié à une adresse IP, bref : anonyme.
Pas nominatif, pas d'ip... ca s'applique aux logs d'AOL ! Ben alors les moules ?
[^] # Re: find the terrorist
Posté par Krunch (site web personnel) . Évalué à 3.
pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
[^] # Re: find the terrorist
Posté par plagiats . Évalué à 3.
http://blog.outer-court.com/archive/2006-08-07-n22.html (en références aux recherches incluant les adresses e-mails et les noms complets)
il n'y a pas besoin d'avoir des identifiants pour que tu n'ais pas envie que tes recherches soient publiés aux yeux de tous.
[^] # Re: find the terrorist
Posté par |-| . Évalué à 2.
Ceci dit, AOL c'est bien pire, pas une requête mais l'ensemble à partir du login.
Par exemple, on trouve des gens dont les requêtes sur leur nom jouxtent les classicos du porno !
Au fait, tu disais dans ton journal il y a trois qu'ils filtraient. Marche pô :
"Les mots clés tapés sur Lycos en ce moment même
boytemper |spiceyou
chargeur batterie |www.footjoy.fr
rose blanche |changer disques freins (commentaire perso: tu vas galérer !)
sex scenes |comptes prévisionnels
tchat |gets right
comptes prévisionnels |dragon
comptes prévisionnels |www.footjoy.fr
super vw nat's 2006 |tapisautomobile.com
camion de transport en vrac |spiral soundtrack
porno |changer disques freins
sexe kehl |sex scenes
vacances |domenech
www.msn.com |teste
changer disques freins |doujin
dragon |rose blanche"
[^] # Re: find the terrorist
Posté par plagiats . Évalué à 2.
Oui, je m'étonnais que ma phrase (avec une belle faute à "public") n'appaisse pas dans Lycos Voyeur (je me souviens avoir testé plusieurs fois, ca me semblait possible puisque la requête contient "Lycos"...).
Avec le recul, je pense qu'elle m'a simplement échapé. Je viens de ré-éssayer, elle apparait dans les résultats. Et on nous demande toujours pas notre avis.
[^] # Re: find the terrorist
Posté par |-| . Évalué à 2.
-
Ok, je -> [ ]
# Pour les datamineurs fous :
Posté par Ju. . Évalué à 2.
http://aolsearchdatabase.com/
Pas sur que ca reste en ligne longtemps...
[^] # Re: Pour les datamineurs fous :
Posté par Joc M . Évalué à 1.
[^] # Re: Pour les datamineurs fous :
Posté par |-| . Évalué à 2.
2914
-
Et à peine mieux :
(ce code est bien sûr GPL, même si je songe fortement à le breveter : "caractérisé en ce que un compteur initialisé au préalable de l'éxécution d'une boucle effectuant une ou plusieurs expressions régulières" )
check.pl :
#!/usr/bin/perl
my $count = 0;
while ($_=<>) {
s/(.+)http.+/$1/;
if (/linux/) { $count++ }
}
print "$count\n";
cat user-ct-test-collection-*.txt | ./check.pl
495
[^] # Re: Pour les datamineurs fous :
Posté par Krunch (site web personnel) . Évalué à 3.
501
pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
[^] # Re: Pour les datamineurs fous :
Posté par Krunch (site web personnel) . Évalué à 2.
Par ailleurs : Pourtant il y en a certains (au moins un) où on a l'url complet :
Sinon à force de grep(1)er, on tombe sur des trucs marrants.
pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
# Du cote de chez Google.
Posté par farib . Évalué à 4.
Ainsi, on peut avoir la repartition geographique des gens qui recherchent tel ou tel mot.
Par exemple:
http://www.google.com/trends?q=sex&ctab=1&sa=N
[^] # Re: Du cote de chez Google.
Posté par Joc M . Évalué à 2.
Il me semble qu'il y a une grande hypocrisie la dedant
[^] # Re: Du cote de chez Google.
Posté par |-| . Évalué à 4.
DISCLAIMER
Attention, le lien ci dessous est dangereux. Il est trollifère, il pourrait faire partie d'un journal dont on n'ose pas imaginer le titre.
Interdit à certaines personnes sensibles.
http://www.google.com/trends?q=ubuntu%2C+debian&ctab=1&a(...)
[^] # Les modes, ca va, ca vient ...
Posté par Thomas Douillard . Évalué à 3.
http://www.google.com/trends?q=ubuntu%2C+debian+%2C+mandrake(...)
[^] # Re: Les modes, ca va, ca vient ...
Posté par esdeem . Évalué à 2.
L'exemple, la vie de Munich en Allemage.
http://www.google.com/trends?q=ubuntu,+debian+,+mandrake+,+m(...)
On y remarque un pic énorme de recherche sur Debian écrasant les autres distros sur une courte période.
Il y a fort à parier que l'on peut corréler ce pic avec les velléités de Munich de migrer son parc informatique sous une solution libre (en l'occurence sur base Debian, si je ne me trompe.).
0. Assume good faith 1. Be kind to other people 2. Express yourself 4. Apply rule 0
[^] # Re: Les modes, ca va, ca vient ...
Posté par Joc M . Évalué à 1.
http://www.google.com/trends?q=ubuntu%2C+debian+%2C+mandrake(...)
Alors peut-être est-ce pour des problèmes de sécu mais rien est gagné ...
[^] # Re: Les modes, ca va, ca vient ...
Posté par esdeem . Évalué à 3.
Cela dit, ton lien n'apporte rien à ce que j'avance, et pour plusieurs raisons.
Tout d'abord, tu effectues une recherche globale pour Windows, alors que tu sépares plusieurs distros Linux.
=> Biais
Deuxièmement, sachant que les systèmes d'exploitation Windows sont les plus utilisés par le commun des mortels, il ne me semble pas du tout illogique que le nombre de recherche concernant un "windows" soit passablement plus nombreuses, toutes versions confondues, que les recherches concernant quelques distributions Linux appelées par leur petit nom.
Et enfin, pour en revenir à ce que je proposais, ce serait vachement bizzare que seuls les gens de Munich se posent tout d'un coup un question sur la sécurté de Debian et pas d'autre distributions et ce, sans relation avec la volonté affichée[1] de la ville de Munich de migrer son parc informatique.
[1] http://us.ixquick.com/do/metasearch.pl?cat=web&cmd=proce(...)
0. Assume good faith 1. Be kind to other people 2. Express yourself 4. Apply rule 0
[^] # Re: Les modes, ca va, ca vient ...
Posté par Joc M . Évalué à 1.
C'est vrai que c'est plus juste si on regarde ca :
http://www.google.com/trends?q=windows%2C+linux
On voit que, en générale, le nombre de recherche baisse avec la même pente (pas dans les même proportions, à moins que l'échelle soit en log...)
Donc : on ne peut rien conclure si ce n'est que ca baisse
Notons quand même une meilleur régularité pour linux
Bon aller j'arrete, par ce que sinon, on va me dire que je vais à l'encontre de ma signature
[^] # Re: Les modes, ca va, ca vient ...
Posté par matthieu bollot (site web personnel, Mastodon) . Évalué à 1.
Le méga pic vers la fin ce serait dû à ca :
Ubuntu Security Notice - gdm vulnerability (USN-293-1)
Help Net Security - Jun 9 2006
Dans ton exemple, les principales recherche sont des en rapport à une vulnérabilité, pas sûr que celui qui ai le plus de recherche puisse être "fier" :/
[^] # Re: Les modes, ca va, ca vient ...
Posté par Thomas Douillard . Évalué à 2.
Moins trollesque, plus sérieux donc, que ce soit pour des failles ou pour d'autres raisons, c'est quand même un bon indiquateur de popularité de la distro : il n'y aurait pas de recherches, même sur les failles, si il n'y avait que deux utilisateurs.
[^] # Re: Les modes, ca va, ca vient ...
Posté par chl (site web personnel) . Évalué à 3.
Ben j'ai vu ca du tout :-)
Les distribs qui sont en train de chuter sont Mandr{ake|iva} (beaucoup) et Debian (un peu), seule Ubuntu ne fait que grimper.
Ensuite, là ou on pourrait penser en premier lieu que Ubuntu a pris dans les requetes de Debian, et Mandriva dans celle de Mandrake, on se rend finalement compte qu'en fait c'est surtout Ubuntu qui a pris celles de Mandr{ake|iva}. Regardez bien les 2 courbes qui se croisent c'est assez flagrant.
[^] # Re: Les modes, ca va, ca vient ...
Posté par |-| . Évalué à 2.
Enfin, elle doit exister, mais elle doit être quand même infiniment plus faible pour le nom d'une distribution linux que le pic lié au décès d'une célébrité par ex.
Par contre, si tu cherches des arguments, il reste le fait que souvent, on tape le nom de sa distrib préférée suivi de son problème !
# C'est fou
Posté par Hrundi V. Bakshi . Évalué à 5.
http://www.chryde.net/blog/2006/08/le_web_regorge_.html
Mais le mieux, c'est que il y a des sites, des wikis... qui naturellement font appel à l'intelligence collective pour lever les plus beaus lièvres. Et ça marche plutôt bien...
Par exemple http://blog.outer-court.com/archive/2006-08-08-n53.html
(les sites à forte audience geekesque comme techcrunch, slashdot et bientôt linusquèfère sont plein de liens.)
C'est fou. Je me demande si les personnes identifiées vont porter plainte contre AOL.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.