il a été fait une recherche sur les site militaires americains et les fichiers Word et on a vu apparaître des documents plutôt sensibles dans la réponse de la requête. La faute ne revient pas à Google de trop bien faire son travail mais plutôt à quelques webmestres qui ne font pas bien le leur.
Aller plus loin
- L'article sur ledevoir.com(quebec) (3 clics)
- google (2 clics)
# MDR !!!
Posté par Jaimé Ragnagna (site web personnel) . Évalué à 10.
Mais d'ailleurs, ne peut on pas considerer ca comme du piratage informatique ?
Le googlebot (enfin le truc qui recense toutes les pages/liens d'un site), est-il passible de DMCA pour avoir accéder a des documents qui ne lui appartenaient pas ?
Enfin, ca me fait encore bien rire tout ca ...
[^] # Re: MDR !!!
Posté par Ramón Perez (site web personnel) . Évalué à -1.
[^] # Re: MDR !!!
Posté par Jerome Demeyer . Évalué à 10.
Si il vous vient l'envie d'en mettre un chez vous, la syntaxe est on ne peut plus simple :
User-agent: *
Disallow: /private
Disallow: /phps/list
ca se traduit par :
pour tous les robots,
interdiction d'aller dans le répertoire /private
interdiction de choper toutes les URL du genre /phps/list* (comme listusers.php, etc)
Ce n'est pas sensé vous garantir une confidentialité des données, mais plutôt d'éviter les erreurs 404 d'être indexées...
vite et mieux, comment faire un robots.txt ? http://www.robotstxt.org/wc/norobots.html
c'est standard, ya une RFC ? http://www.robotstxt.org/wc/norobots-rfc.html
[^] # Re: MDR !!!
Posté par Guillaume Thomassin . Évalué à 10.
Non le robots.txt ne l'empeche pas forcement. C'est juste une indication que tu donnes au robot. Apres libre a lui de respecter tes volontes ou pas. Mais bon je pense que le googlebot est suffisament civilise pour le respecter.
--
Chuchi
[^] # Piratage informatique
Posté par Jerome . Évalué à 10.
Un mec se promène dans la rue fait tomber un papier secret défense et le mec qui le trouve est accusé d'espionage.
Non, sérieusement les webmaster ont pas bien fait leur boulot. J'ai fait mon service militaire, et aucune machine n'est connectée sur le réseaux internet et sur internet.
Ils ne sont pas bêtes. Maintenant c'est peut-être intentionel, un mec qui laisse trainer des documents confidentiels c'est peut-être voulu pour une cause mystérieuse :
- récupération d'infos
- espionage ...
Bon je regarde trops les films d'espions ...
[^] # Re: Piratage informatique
Posté par elanfou . Évalué à 2.
Tu voulai pas plutot dire sur le réseau intranet et sur internet ?
[^] # Re: Piratage informatique
Posté par Jerome . Évalué à 0.
Ils utilisent la même sécurité que n'importe qu'elle entreprise. Pas de machine qui peut accéder à deux réseaux différents.
Ou alors cette machine se trouve dans une pièce avec un badge ou un pitbull à l'intérieur.
Mais le problème c'est que les mecs qui s'occupent du réseaux ils y connaissent rien, donc les conneries elle proviennent d'incompétences informatiques.
Et dire que c'est eux qui doivent nous protéger...
# Google m'a sauver ;-)
Posté par jojolapin . Évalué à 10.
Une nuit, vers 3-4 heures du matin alors que j'aurai déjà dû être couché depuis longtemps, j'ai entrepris d'effacer qques répertoires inutiles sur mon ftp de free (mes pages persos).
Après avoir appuyé pendant cinq bonnes minutes sur OK de façon continue (pour confirmer les suppressions), quelle n'a pas été mon horreur que de découvrir, en appuyant sur le bouton pour remonter aux répertoires au dessus, que j'étais...dans le répertoire racine !!! J'avais tout effacé !!!
Evidemment, loi de Murphy oblige, je n'avais aucune sauvegarde.
Et c'est là qu'intervint mon copain google, qui m'a permis de récupérer tout le texte dans son cache.
Voilà, c'était le 3615 mavie, j'espère que vous avez aimé.
Sinon, pour apporter de la valeur ajoutée à ce post, il est plutôt étonnant que des documents word soient dans son cache, alors qu'il n'est censé indexer que le html (ainsi que des thumbnails dans google image, et les pdf, dans lequel il permet une recherche dans le texte, je ne sais d'ailleurs pas trop comment il fait la conversion...).
Google va-t-il devenir un lieu de téléchargement de virus macro words ;-) ?
[^] # Re: Google m'a sauver ;-)
Posté par Rin Jin (site web personnel) . Évalué à 5.
Ils ont essayé de rajouter les .doc (et quelque autres) dans les critéres de recherche. Ils ont donc indexé tout ce qu'il pouvait trouver à ces formats, notamment des documents qui n'étaient pas sencés être accessible au grand public. Ce qui m'étonne justement c'est que ceux qui les avaient mis en ligne n'ai pas pensé que ces fichiers, jusqu'à présent inaccessible au moteur de recherche classique, puissent être lu alors qu'il était sur une zone "publique" du web. A moins qu'ils ne veuillent rendre la tache plus facile aux script-kiddies?
[^] # Re: Google m'a sauver ;-)
Posté par un nain_connu . Évalué à 10.
[100% - toto@world:~] $ pdftotext
pdftotext version 0.92
Copyright 1996-2000 Derek B. Noonburg
Usage: pdftotext [options] <PDF-file> [<text-file>]
[^] # Re: Google m'a sauver ;-)
Posté par Ramón Perez (site web personnel) . Évalué à 10.
J_Random_Hacker@foobar:~> antiword
antiword: Command not found.
Si vous êtes dans le cas de J. Random Hacker, téléchargez vite antiword ici :
http://www.winfield.demon.nl/(...)">http://www.winfield.demon.nl/(...(...))">http://www.winfield.demon.nl/(...(...(...)))
[^] # Re: Google m'a sauver ;-)
Posté par Tony Flow . Évalué à 10.
Maintenant, bien que la fonction de cache soit justifiée pour des documents inaccessibles pour des raisons techniques (lien cassé, serveur down...), elle devient plus génante dans le cas de documents volontairement retirés du web.
Alors que faut-il faire pour éviter ce désagrément ... arreter de tout mettre en cache, ou tant pis pour l'imprudent qui a mis quelque chose en ligne (apres tout, n'importe qui a pu le télécharger et le diffuser) ?
[^] # Re: Google m'a sauver ;-)
Posté par William Steve Applegate (site web personnel) . Évalué à 9.
(désolé, j'ai la flemme ; en bref, tu peux demander à Google de virer les pages cachées qu'ils ont indexé depuis ton site. Et comme ce sont des gens plutôt honnêtes - c'est suffisamment rare pour que je tienne à le signaler -, il le font. Encore que je n'aie pas eu moi-même l'occasion de tester...)
Envoyé depuis mon PDP 11/70
[^] # Re: Google m'a sauver ;-)
Posté par Tony Flow . Évalué à 7.
Ils répertorient toutes les pages, mais aussi les images, les pdf... archivent les groupes de discussion, gardent tout ça en cache, proposent des traductions, permettent des recherches avancées, spécialisées (google.fr/linux), par thèmes, regroupent les résultats par domaines...
C'est simple et léger, c'est pas envahi par la pub, ca tourne sur un joli cluster linux (si je ne m'abuse) et ils ont l'air honnetes et pensent à tout :)
Bon ok, vous allez penser que j'en fait beaucoup, mais toujours moins qu'eux. Est-ce que j'en oublis encore ??
PS: on peut retrouver les memes soucis de cache avec http://web.archive.org/(...) (une news vient de paraitre). Normalement ils doivent pouvoir supprimer des pages archivées si on leur demande...
# DMOZ
Posté par Anonyme . Évalué à 1.
http://dmoz.fr(...)">http://dmoz.fr(...(...))">http://dmoz.fr(...(...(...)))
ou
http://dmoz.org(...)">http://dmoz.org(...(...))">http://dmoz.org(...(...(...)))
enregistrez y votre site
faite un lien vers cet annuaire
utilisez le et conseillez le...
[^] # Re: DMOZ
Posté par Anonyme . Évalué à -2.
http://www.planetelibre.org/(...(...))
[^] # Re: DMOZ
Posté par Anonyme . Évalué à 9. Dernière modification le 05 décembre 2021 à 17:42.
J'avais écris un petit truc à propos de DMOZ.
C'est très mal rédigé, certaines parties du contenu sont discutables, mais il y reste l'idée principale
NdM: lien cassé retiré lors de l'anonymisation
Pour synthétiser, DMOZ, c'est « open mon chien », terme à la mode pour se faire exploiter pour pas un sou.
L'idée de l'informatique libre, c'est de donner et recevoir, de partager. Dans DMOZ, tu donnes, mais tu n'as aucune certitude sur le devenir de ton travail.
Lorsque tu produit quelque chose en GPL, t'es assuré que ce sera réexploité par quelqu'un qui produit aussi du logiciel libre. Dans le cas de DMOZ, tu n'es assuré de rien. Tu n'as aucune assurance, tout appartient à Netscape/AOL et compagnie.
En gros, tu fais le boulot des employés de yahoo mais gratuitement. Tu ne dispose pas de ton travail, tu le donne.
Rien à voir avec du libre dans lequel la notion de partage est essentielle. La, ton travail pourra être revendu le lendemain par Netscape/AOL, mais toi tu ne peux revendre ce travail. Tout ce que tu fais ne t'appartient pas, il appartient à AOL.
Et sur le plan technique, ça reste une grosse administrations où finalement tu ne controles pas grand chose en tant que simple éditeurs… Tu fais ce qu'on te dis, et ça s'arrete là.
J'ai testé, j'ai pas aimé, et je ne vous le conseille pas. Par ailleurs, je ne trouve pas ça si efficace que ça en terme de moteur de recherche.
Lorsque c'est apparu, google n'existait pas vraiment comme il existe aujourd'hui.
Et c'est vrai qu'avec altavista et ses copains, faire une recherche passait des heures, parce que ces moteurs affichaient en premier des sites commerciaux (généralement dépourvu de tout contenu autre que publicitaires), n'affichaient que les sites très institutionneles, affichaient 300000 fois les mêmes pages.
Maintenant face à google…
[^] # Re: DMOZ
Posté par Anonyme . Évalué à 1.
néanmoins, DMOZ reste le seul moteur indépendant de la pub car meme google ne nous a pas épargné une certaine partialité
[^] # Re: DMOZ
Posté par Stéphane Salès . Évalué à 2.
par exemple ?
[^] # Re: DMOZ
Posté par kadreg . Évalué à 1.
[^] # Re: DMOZ
Posté par Anonyme . Évalué à 0.
http://dmoz.org/socialcontract.html(...)
je le trouve plutot rassurant...
# ... et aussi les databases styles MSaccess
Posté par Anonyme . Évalué à 2.
soit quelques bases de données de Carte Bleue par exemple .
# question (peut être) idiote...
Posté par Anonyme . Évalué à 3.
Je croyais que le moteur indexait en suivant les liens...
Merci de me répondre
un newbie :)
[^] # Re: question (peut être) idiote...
Posté par Anonyme . Évalué à 6.
(Dites-moi si j'ai faux sur la suite)
En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.
Alors, les pages indexées sont soit la page donnée par le webmaster, soit une page/une image/un document word, pdf/obiwan kenobi référencé dans la dite page (par un lien <a href=...>, <img src=...>, etc.)
Donc, AMHA, il est IMPOSSIBLE que google tombe sur un document qui ne soit pas référencé quelque part. S'il est référencé, c'est qu'il n'était pas caché. S'il n'était pas caché, c'est que ce n'est pas une surprise qu'il apparaisse sur google...
PS: Une solution pour tomber sur des documents au pif sans qu'ils soient référencés, c'est de faire des "attaques" au dictionnaire (ou même brute force) pour trouver des documents, mais ça se verrait dans les logs des serveurs web... et de manière assez flagrante)
GET /bilan.doc
GET /document1.doc
GET /moteur à propulsion photonique.doc
...
[^] # Re: question (peut être) idiote...
Posté par arno . Évalué à 0.
Bin je veux pas te contredire, mais je vais quand même le faire ;-)...
Je n'ai jamais indexé ma page web (non, ce n'est pas un site, c'est une page), et pourtant, tous le jours je vois des gens qui ont fait une recherche sur google arriver sur celle-ci grâce à google !
[^] # Re: question (peut être) idiote...
Posté par Anonyme . Évalué à 5.
Les moteurs de recherche, ils ne se limitent pas en ne suivant pas les liens qui "sortent" d'un site ;)
(Exemple: le robot de google parcours linuxfr, tombe sur ton url dans un commentaire, et paf, t'es référencé...)
[^] # Re: question (peut être) idiote...
Posté par kadreg . Évalué à 4.
Non (en fait pas tout a fait), a partir d'une page passée demandé a indexer sur google, le robot va suivre les liens des différentes pages tant qu'il en trouve. Mais le chemin à suivre pour arriver à un document peut etre completement tordu (une mailing liste donne l'addresse d'un document, cette mailing liste est stockée dans un coin, etc ...).
Surtout que sur de nombreux site, il arrive que l'on fasse des échanges en mettant ça dans un répertoire du site ouaib, et en prévenant par mail de l'existance du fichier. Mais en faisant ça, il n'y a plus aucune sécurité sur le fichier, et on risque des surprises.
[^] # Re: question (peut être) idiote...
Posté par Anonyme . Évalué à 3.
Effectivement, le facteur mailing list aggrave la chose...
Mais quoiqu'il arrive, ça ne change rien au fait que les liens existaient déjà quelque part.
Le "scandale" qui a été diffusé partout (des documents top secrets non référencés qu'on trouve avec google) me parait faux... on pouvait déjà tomber dessus avant, mais indirectement, c'est tout...
[^] # Re: question (peut être) idiote...
Posté par kadreg . Évalué à 4.
[^] # Re: question (peut être) idiote...
Posté par kadreg . Évalué à 2.
D'ailleurs, sur google, on peut trouver les pages ayant des liens vers une page :
http://www.google.com/advanced_search(...(...))
(en bas)
[^] # Re: question (peut être) idiote...
Posté par Gaétan RYCKEBOER . Évalué à 0.
Si t'as pas de index.html, le contenu de la page est listé, non ?
Donc, il est indexable... !
[^] # Re: question (peut être) idiote...
Posté par Anonyme . Évalué à 0.
En fait, j'ai pas compris ce que tu voulais dire...
[^] # Re: Réponse mal placée
Posté par Ze Bouleur fou . Évalué à 0.
C'est bien cela ?
[^] # Re: question (peut être) idiote...
Posté par Anonyme . Évalué à 8.
des url de sites qui ne référencent pas mon site, étrange
mais bon je me dis que c'est un problème du navigateur, ou alors
une bidouille de l'utilisateur.
Beaucoup de sites mettent leur stats complètes en ligne
donc on peut imaginer que certains de ces fichiers word sont indéxés
avec ce système, d'autre part, Word s'ouvre dans IE pour la lecture
on peut imaginer aussi que ces documents word pointent vers des sites
et boum, je t'envoie le REFERER par la même occasion, etc ...
NioTo
[^] # Re: question (peut être) idiote...
Posté par Anonyme . Évalué à -1.
'tain, c'est pas con ; j'y avais pas pensé...
<troll_de_base>Et hop, un truc de plus à reprocher à Microsoft...</troll_de_base>
[^] # Re: question (peut être) idiote...
Posté par GCN (site web personnel) . Évalué à 8.
Maintenant tu consultes le site, et à un moment tu décides d'aller voir ailleurs. Tu tapes (par ex) http://www.google.com(...(...)) dans la zone de MSIE réservée à cet usage et tu files sur Google.
Pour Google, le REFERER sera http://linuxfr.org(...(...)) (alors que tu n'as pas cliqué sur un lien menant evrs Google).
Je suppose que ce phénomène doit exister avec d'autres browsers. De même que je ne sais pas si toutes les versions de MSIE font ça. Voila peut-être une explication.
[^] # Re: question (peut être) idiote...
Posté par Robert Palmer (site web personnel) . Évalué à 3.
Me trompe-je ?
Pensez à l'environnement avant d'imprimer ce commentaire - Please consider the environment before printing this comment
[^] # Re: question (peut être) idiote...
Posté par GCN (site web personnel) . Évalué à 6.
Bref, je sais que ça parait bizarre mais c'est ce que j'avais constaté. Comme je le dis plus haut, peut-être que les versions récentes de ce browser n'ont pas ce bug (à l'époque, si je me souviens bien, il s'agissait d'un MSIE 4 si mes souvenirs sont bons).
[^] # Re: question (peut être) idiote...
Posté par Robert Palmer (site web personnel) . Évalué à 3.
La page de la CNIL que tu cites est là : http://www.cnil.fr/traces/traces.htm(...(...))
C'est plutôt destiné au "grand public", mais les explications sont très claires
Pensez à l'environnement avant d'imprimer ce commentaire - Please consider the environment before printing this comment
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.