Google est fantastique

Posté par furai (site web personnel) le 08 novembre 2001 à 13:30. Modéré par Fabien Penso.

Étiquettes :

nov.

2001

Google est bien connu des internautes en recherche de liens. Il semblerait qu'il fasse trop bien son travail ou que les serveurs contiennent des fichiers qui ne devraient pas être accessible:
il a été fait une recherche sur les site militaires americains et les fichiers Word et on a vu apparaître des documents plutôt sensibles dans la réponse de la requête. La faute ne revient pas à Google de trop bien faire son travail mais plutôt à quelques webmestres qui ne font pas bien le leur.

Aller plus loin

L'article sur ledevoir.com(quebec) (3 clics)
google (2 clics)

# MDR !!!

Posté par Jaimé Ragnagna (site web personnel) le 08 novembre 2001 à 14:10. Évalué à 10.

C'est quand meme marrant ...

Mais d'ailleurs, ne peut on pas considerer ca comme du piratage informatique ?

Le googlebot (enfin le truc qui recense toutes les pages/liens d'un site), est-il passible de DMCA pour avoir accéder a des documents qui ne lui appartenaient pas ?

Enfin, ca me fait encore bien rire tout ca ...
- [^] # Re: MDR !!!
  
  Posté par Ramón Perez (site web personnel) le 08 novembre 2001 à 16:13. Évalué à -1.
  
  Blacklistons le google-bot !
  - [^] # Re: MDR !!!
    
    Posté par Jerome Demeyer le 08 novembre 2001 à 17:19. Évalué à 10.
    
    c'est marrant, je croyais que le /robots.txt permettait d'éviter que les moteurs de recherche n'aillent fouiller un peu trop loin... ils ne connaissent pas ça dans l'armée ?
    
    Si il vous vient l'envie d'en mettre un chez vous, la syntaxe est on ne peut plus simple :
    
    User-agent: * Disallow: /private Disallow: /phps/list
    
    ca se traduit par :
    
    pour tous les robots,
    
    interdiction d'aller dans le répertoire /private
    
    interdiction de choper toutes les URL du genre /phps/list* (comme listusers.php, etc)
    
    Ce n'est pas sensé vous garantir une confidentialité des données, mais plutôt d'éviter les erreurs 404 d'être indexées...
    
    vite et mieux, comment faire un robots.txt ? http://www.robotstxt.org/wc/norobots.html
    
    c'est standard, ya une RFC ? http://www.robotstxt.org/wc/norobots-rfc.html
    - [^] # Re: MDR !!!
      
      Posté par Guillaume Thomassin le 08 novembre 2001 à 17:52. Évalué à 10.
      
      c'est marrant, je croyais que le /robots.txt permettait d'éviter que les moteurs de recherche n'aillent fouiller un peu trop loin... ils ne connaissent pas ça dans l'armée ?
      
      Non le robots.txt ne l'empeche pas forcement. C'est juste une indication que tu donnes au robot. Apres libre a lui de respecter tes volontes ou pas. Mais bon je pense que le googlebot est suffisament civilise pour le respecter.
      
      --
      
      Chuchi
- [^] # Piratage informatique
  
  Posté par Jerome le 09 novembre 2001 à 00:17. Évalué à 10.
  
  Ce serais rigolo si c'était considéré comme du piratage informatique.
  
  Un mec se promène dans la rue fait tomber un papier secret défense et le mec qui le trouve est accusé d'espionage.
  
  Non, sérieusement les webmaster ont pas bien fait leur boulot. J'ai fait mon service militaire, et aucune machine n'est connectée sur le réseaux internet et sur internet.
  
  Ils ne sont pas bêtes. Maintenant c'est peut-être intentionel, un mec qui laisse trainer des documents confidentiels c'est peut-être voulu pour une cause mystérieuse :
  
  - récupération d'infos
  
  - espionage ...
  
  Bon je regarde trops les films d'espions ...
  - [^] # Re: Piratage informatique
    
    Posté par elanfou le 09 novembre 2001 à 10:16. Évalué à 2.
    
    Non, sérieusement les webmaster ont pas bien fait leur boulot. J'ai fait mon service militaire, et aucune machine n'est connectée sur le réseaux internet et sur internet.
    
    Tu voulai pas plutot dire sur le réseau intranet et sur internet ?
    - [^] # Re: Piratage informatique
      
      Posté par Jerome le 11 novembre 2001 à 23:18. Évalué à 0.
      
      Oui, oui c'est ça, mon clavier n'écrit pas ce que je pense des fois.
      
      Ils utilisent la même sécurité que n'importe qu'elle entreprise. Pas de machine qui peut accéder à deux réseaux différents.
      Ou alors cette machine se trouve dans une pièce avec un badge ou un pitbull à l'intérieur.
      
      Mais le problème c'est que les mecs qui s'occupent du réseaux ils y connaissent rien, donc les conneries elle proviennent d'incompétences informatiques.
      Et dire que c'est eux qui doivent nous protéger...
# Google m'a sauver ;-)

Posté par jojolapin le 08 novembre 2001 à 14:14. Évalué à 10.

Moi ce moteur m'a sauvé la vie.

Une nuit, vers 3-4 heures du matin alors que j'aurai déjà dû être couché depuis longtemps, j'ai entrepris d'effacer qques répertoires inutiles sur mon ftp de free (mes pages persos).

Après avoir appuyé pendant cinq bonnes minutes sur OK de façon continue (pour confirmer les suppressions), quelle n'a pas été mon horreur que de découvrir, en appuyant sur le bouton pour remonter aux répertoires au dessus, que j'étais...dans le répertoire racine !!! J'avais tout effacé !!!

Evidemment, loi de Murphy oblige, je n'avais aucune sauvegarde.

Et c'est là qu'intervint mon copain google, qui m'a permis de récupérer tout le texte dans son cache.

Voilà, c'était le 3615 mavie, j'espère que vous avez aimé.

Sinon, pour apporter de la valeur ajoutée à ce post, il est plutôt étonnant que des documents word soient dans son cache, alors qu'il n'est censé indexer que le html (ainsi que des thumbnails dans google image, et les pdf, dans lequel il permet une recherche dans le texte, je ne sais d'ailleurs pas trop comment il fait la conversion...).

Google va-t-il devenir un lieu de téléchargement de virus macro words ;-) ?
- [^] # Re: Google m'a sauver ;-)
  
  Posté par Rin Jin (site web personnel) le 08 novembre 2001 à 15:54. Évalué à 5.
  
  Sinon, pour apporter de la valeur ajoutée à ce post, il est plutôt étonnant que des documents word soient dans son cache, alors qu'il n'est censé indexer que le html
  
  Ils ont essayé de rajouter les .doc (et quelque autres) dans les critéres de recherche. Ils ont donc indexé tout ce qu'il pouvait trouver à ces formats, notamment des documents qui n'étaient pas sencés être accessible au grand public. Ce qui m'étonne justement c'est que ceux qui les avaient mis en ligne n'ai pas pensé que ces fichiers, jusqu'à présent inaccessible au moteur de recherche classique, puissent être lu alors qu'il était sur une zone "publique" du web. A moins qu'ils ne veuillent rendre la tache plus facile aux script-kiddies?
- [^] # Re: Google m'a sauver ;-)
  
  Posté par un nain_connu le 08 novembre 2001 à 15:56. Évalué à 10.
  
  Il existe un outil répondant au doux nom de pdftotext qui converti les fichiers PDF en texte...
  
  [100% - toto@world:~] $ pdftotext pdftotext version 0.92 Copyright 1996-2000 Derek B. Noonburg Usage: pdftotext [options] <PDF-file> [<text-file>]
  - [^] # Re: Google m'a sauver ;-)
    
    Posté par Ramón Perez (site web personnel) le 08 novembre 2001 à 16:19. Évalué à 10.
    
    Et de même, un outil répondant au nom de antiword qui convertit les fichiers .doc en fichiers texte :
    
    J_Random_Hacker@foobar:~> antiword antiword: Command not found.
    
    Si vous êtes dans le cas de J. Random Hacker, téléchargez vite antiword ici :
    
    http://www.winfield.demon.nl/(...)">http://www.winfield.demon.nl/(...(...))">http://www.winfield.demon.nl/(...(...(...)))
- [^] # Re: Google m'a sauver ;-)
  
  Posté par Tony Flow le 08 novembre 2001 à 16:33. Évalué à 10.
  
  C'est vrai que la fonction de cache peut etre très utile. Moi je la trouve d'ailleurs stupéfiante ! Quand on sait tout ce que Google référence... c'est dingue de chercher à dupliquer tout le web !
  
  Maintenant, bien que la fonction de cache soit justifiée pour des documents inaccessibles pour des raisons techniques (lien cassé, serveur down...), elle devient plus génante dans le cas de documents volontairement retirés du web.
  
  Alors que faut-il faire pour éviter ce désagrément ... arreter de tout mettre en cache, ou tant pis pour l'imprudent qui a mis quelque chose en ligne (apres tout, n'importe qui a pu le télécharger et le diffuser) ?
  - [^] # Re: Google m'a sauver ;-)
    
    Posté par William Steve Applegate (site web personnel) le 08 novembre 2001 à 20:23. Évalué à 9.
    
    http://www.google.fr/intl/fr/remove.html#uncache(...(...))
    
    (désolé, j'ai la flemme ; en bref, tu peux demander à Google de virer les pages cachées qu'ils ont indexé depuis ton site. Et comme ce sont des gens plutôt honnêtes - c'est suffisamment rare pour que je tienne à le signaler -, il le font. Encore que je n'aie pas eu moi-même l'occasion de tester...)
    Envoyé depuis mon PDP 11/70
    - [^] # Re: Google m'a sauver ;-)
      
      Posté par Tony Flow le 09 novembre 2001 à 17:28. Évalué à 7.
      
      Bah alors ya vraiment rien a redire, ils assurent bien chez google !
      
      Ils répertorient toutes les pages, mais aussi les images, les pdf... archivent les groupes de discussion, gardent tout ça en cache, proposent des traductions, permettent des recherches avancées, spécialisées (google.fr/linux), par thèmes, regroupent les résultats par domaines...
      
      C'est simple et léger, c'est pas envahi par la pub, ca tourne sur un joli cluster linux (si je ne m'abuse) et ils ont l'air honnetes et pensent à tout :)
      
      Bon ok, vous allez penser que j'en fait beaucoup, mais toujours moins qu'eux. Est-ce que j'en oublis encore ??
      
      PS: on peut retrouver les memes soucis de cache avec http://web.archive.org/(...) (une news vient de paraitre). Normalement ils doivent pouvoir supprimer des pages archivées si on leur demande...
# DMOZ

Posté par Anonyme le 08 novembre 2001 à 15:55. Évalué à 1.

au passage... n'oublions pas dmoz

http://dmoz.fr(...)">http://dmoz.fr(...(...))">http://dmoz.fr(...(...(...)))

ou

http://dmoz.org(...)">http://dmoz.org(...(...))">http://dmoz.org(...(...(...)))

enregistrez y votre site

faite un lien vers cet annuaire

utilisez le et conseillez le...
- [^] # Re: DMOZ
  
  Posté par Anonyme le 08 novembre 2001 à 16:33. Évalué à -2.
  
  Comme annuaire il y a aussi PlaneteLibre, pour referencer votre site francophone
  
  http://www.planetelibre.org/(...(...))
- [^] # Re: DMOZ
  
  Posté par Anonyme le 09 novembre 2001 à 01:27. Évalué à 9. Dernière modification le 05 décembre 2021 à 17:42.
  
  J'avais écris un petit truc à propos de DMOZ.
  
  C'est très mal rédigé, certaines parties du contenu sont discutables, mais il y reste l'idée principale
  
  NdM: lien cassé retiré lors de l'anonymisation
  
  Pour synthétiser, DMOZ, c'est « open mon chien », terme à la mode pour se faire exploiter pour pas un sou.
  
  L'idée de l'informatique libre, c'est de donner et recevoir, de partager. Dans DMOZ, tu donnes, mais tu n'as aucune certitude sur le devenir de ton travail.
  
  Lorsque tu produit quelque chose en GPL, t'es assuré que ce sera réexploité par quelqu'un qui produit aussi du logiciel libre. Dans le cas de DMOZ, tu n'es assuré de rien. Tu n'as aucune assurance, tout appartient à Netscape/AOL et compagnie.
  
  En gros, tu fais le boulot des employés de yahoo mais gratuitement. Tu ne dispose pas de ton travail, tu le donne.
  
  Rien à voir avec du libre dans lequel la notion de partage est essentielle. La, ton travail pourra être revendu le lendemain par Netscape/AOL, mais toi tu ne peux revendre ce travail. Tout ce que tu fais ne t'appartient pas, il appartient à AOL.
  
  Et sur le plan technique, ça reste une grosse administrations où finalement tu ne controles pas grand chose en tant que simple éditeurs… Tu fais ce qu'on te dis, et ça s'arrete là.
  
  J'ai testé, j'ai pas aimé, et je ne vous le conseille pas. Par ailleurs, je ne trouve pas ça si efficace que ça en terme de moteur de recherche.
  
  Lorsque c'est apparu, google n'existait pas vraiment comme il existe aujourd'hui.
  
  Et c'est vrai qu'avec altavista et ses copains, faire une recherche passait des heures, parce que ces moteurs affichaient en premier des sites commerciaux (généralement dépourvu de tout contenu autre que publicitaires), n'affichaient que les sites très institutionneles, affichaient 300000 fois les mêmes pages.
  
  Maintenant face à google…
  - [^] # Re: DMOZ
    
    Posté par Anonyme le 09 novembre 2001 à 10:25. Évalué à 1.
    
    très étrange ce que tu dis parce que, par exemple, j'avais lu via Slashdot que DMOZ avait adopté le contrat social de Debian...
    
    néanmoins, DMOZ reste le seul moteur indépendant de la pub car meme google ne nous a pas épargné une certaine partialité
    - [^] # Re: DMOZ
      
      Posté par Stéphane Salès le 09 novembre 2001 à 17:36. Évalué à 2.
      
      "meme google ne nous a pas épargné une certaine partialité"
      par exemple ?
      - [^] # Re: DMOZ
        
        Posté par kadreg le 10 novembre 2001 à 12:30. Évalué à 1.
        
        Fait une recherche sur "XML". Tu verras deux liens qui apparaissent par la pub. Néanmoins, ca reste clairement défini comme "sponsored links".
  - [^] # Re: DMOZ
    
    Posté par Anonyme le 10 novembre 2001 à 13:05. Évalué à 0.
    
    en mai dernier ils ont adopté un contrat social dérivé de celui de Debian
    
    http://dmoz.org/socialcontract.html(...)
    
    je le trouve plutot rassurant...
# ... et aussi les databases styles MSaccess

Posté par Anonyme le 08 novembre 2001 à 16:11. Évalué à 2.

en plus des fichiers word et pdf ....

soit quelques bases de données de Carte Bleue par exemple .
# question (peut être) idiote...

Posté par Anonyme le 08 novembre 2001 à 16:41. Évalué à 3.

Comment google fait-il donc pour indexer les fichiers placés dans un répertoire dont le listage a été refusé (par un index.html, par un a-x sur le répertoire....) et qui n'est pas indiqué par un lien ?

Je croyais que le moteur indexait en suivant les liens...

Merci de me répondre

un newbie :)
- [^] # Re: question (peut être) idiote...
  
  Posté par Anonyme le 08 novembre 2001 à 16:58. Évalué à 6.
  
  C'est exactement ce qui me fait penser que c'est un hoax...
  
  (Dites-moi si j'ai faux sur la suite)
  
  En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.
  
  Alors, les pages indexées sont soit la page donnée par le webmaster, soit une page/une image/un document word, pdf/obiwan kenobi référencé dans la dite page (par un lien <a href=...>, <img src=...>, etc.)
  
  Donc, AMHA, il est IMPOSSIBLE que google tombe sur un document qui ne soit pas référencé quelque part. S'il est référencé, c'est qu'il n'était pas caché. S'il n'était pas caché, c'est que ce n'est pas une surprise qu'il apparaisse sur google...
  
  PS: Une solution pour tomber sur des documents au pif sans qu'ils soient référencés, c'est de faire des "attaques" au dictionnaire (ou même brute force) pour trouver des documents, mais ça se verrait dans les logs des serveurs web... et de manière assez flagrante)
  
  GET /bilan.doc
  
  GET /document1.doc
  
  GET /moteur à propulsion photonique.doc
  
  ...
  - [^] # Re: question (peut être) idiote...
    
    Posté par arno le 08 novembre 2001 à 17:34. Évalué à 0.
    
    En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.
    
    Bin je veux pas te contredire, mais je vais quand même le faire ;-)...
    
    Je n'ai jamais indexé ma page web (non, ce n'est pas un site, c'est une page), et pourtant, tous le jours je vois des gens qui ont fait une recherche sur google arriver sur celle-ci grâce à google !
    - [^] # Re: question (peut être) idiote...
      
      Posté par Anonyme le 08 novembre 2001 à 18:01. Évalué à 5.
      
      Ton site doit être référencé dans un lien depuis une page qui elle, est référencée par un moteur de recherche...
      
      Les moteurs de recherche, ils ne se limitent pas en ne suivant pas les liens qui "sortent" d'un site ;)
      
      (Exemple: le robot de google parcours linuxfr, tombe sur ton url dans un commentaire, et paf, t'es référencé...)
  - [^] # Re: question (peut être) idiote...
    
    Posté par kadreg le 08 novembre 2001 à 17:53. Évalué à 4.
    
    En général, l'indexage de pages web ne se fait pas au hasard. Les webmasters donnent aux moteurs de recherche l'adresse de leur site, et le robot se charge de l'indexer.
    
    Non (en fait pas tout a fait), a partir d'une page passée demandé a indexer sur google, le robot va suivre les liens des différentes pages tant qu'il en trouve. Mais le chemin à suivre pour arriver à un document peut etre completement tordu (une mailing liste donne l'addresse d'un document, cette mailing liste est stockée dans un coin, etc ...).
    
    Surtout que sur de nombreux site, il arrive que l'on fasse des échanges en mettant ça dans un répertoire du site ouaib, et en prévenant par mail de l'existance du fichier. Mais en faisant ça, il n'y a plus aucune sécurité sur le fichier, et on risque des surprises.
    - [^] # Re: question (peut être) idiote...
      
      Posté par Anonyme le 08 novembre 2001 à 18:10. Évalué à 3.
      
      En fait, je m'ai mal exprimé, cf. mon post un tout petit peu plus haut, le robot suit absolument tous les liens qu'il trouve.
      
      Effectivement, le facteur mailing list aggrave la chose...
      
      Mais quoiqu'il arrive, ça ne change rien au fait que les liens existaient déjà quelque part.
      
      Le "scandale" qui a été diffusé partout (des documents top secrets non référencés qu'on trouve avec google) me parait faux... on pouvait déjà tomber dessus avant, mais indirectement, c'est tout...
      - [^] # Re: question (peut être) idiote...
        
        Posté par kadreg le 08 novembre 2001 à 18:13. Évalué à 4.
        
        ah oui, on est donc d'accord : le scandale, c'est pas google, c'est les admins incompétents :)
      - [^] # Re: question (peut être) idiote...
        
        Posté par kadreg le 08 novembre 2001 à 18:30. Évalué à 2.
        
        Mais quoiqu'il arrive, ça ne change rien au fait que les liens existaient déjà quelque part.
        
        D'ailleurs, sur google, on peut trouver les pages ayant des liens vers une page :
        
        http://www.google.com/advanced_search(...(...))
        
        (en bas)
  - [^] # Re: question (peut être) idiote...
    
    Posté par Gaétan RYCKEBOER le 08 novembre 2001 à 19:24. Évalué à 0.
    
    Beuh...
    
    Si t'as pas de index.html, le contenu de la page est listé, non ?
    
    Donc, il est indexable... !
    - [^] # Re: question (peut être) idiote...
      
      Posté par Anonyme le 08 novembre 2001 à 19:29. Évalué à 0.
      
      Si t'as pas de index.html, le contenu du répertoire est listé (si le serveur est configuré pour), mais dans la logique du robot, c'est une page quand même...
      
      En fait, j'ai pas compris ce que tu voulais dire...
      - [^] # Re: Réponse mal placée
        
        Posté par Ze Bouleur fou le 09 novembre 2001 à 10:03. Évalué à 0.
        
        Je crois qu'il répond à la question du haut, et abonde de ce fait dans ton sens.
        
        C'est bien cela ?
- [^] # Re: question (peut être) idiote...
  
  Posté par Anonyme le 08 novembre 2001 à 17:41. Évalué à 8.
  
  Moi, des fois j'ai dans le referer de mes logs Apache
  
  des url de sites qui ne référencent pas mon site, étrange
  
  mais bon je me dis que c'est un problème du navigateur, ou alors
  
  une bidouille de l'utilisateur.
  
  Beaucoup de sites mettent leur stats complètes en ligne
  
  donc on peut imaginer que certains de ces fichiers word sont indéxés
  
  avec ce système, d'autre part, Word s'ouvre dans IE pour la lecture
  
  on peut imaginer aussi que ces documents word pointent vers des sites
  
  et boum, je t'envoie le REFERER par la même occasion, etc ...
  
  NioTo
  - [^] # Re: question (peut être) idiote...
    
    Posté par Anonyme le 08 novembre 2001 à 18:27. Évalué à -1.
    
    et boum, je t'envoie le REFERER par la même occasion, etc ...
    
    'tain, c'est pas con ; j'y avais pas pensé...
    
    <troll_de_base>Et hop, un truc de plus à reprocher à Microsoft...</troll_de_base>
  - [^] # Re: question (peut être) idiote...
    
    Posté par GCN (site web personnel) le 08 novembre 2001 à 18:32. Évalué à 8.
    
    J'ai deja constaté la chose suivante (avec MSIE). Supposons que tu lances IE, tu vas sur: http://linuxfr.org(...(...)) . OK.
    
    Maintenant tu consultes le site, et à un moment tu décides d'aller voir ailleurs. Tu tapes (par ex) http://www.google.com(...(...)) dans la zone de MSIE réservée à cet usage et tu files sur Google.
    
    Pour Google, le REFERER sera http://linuxfr.org(...(...)) (alors que tu n'as pas cliqué sur un lien menant evrs Google).
    
    Je suppose que ce phénomène doit exister avec d'autres browsers. De même que je ne sais pas si toutes les versions de MSIE font ça. Voila peut-être une explication.
    - [^] # Re: question (peut être) idiote...
      
      Posté par Robert Palmer (site web personnel) le 08 novembre 2001 à 20:48. Évalué à 3.
      
      Hein ?! Il me semblait que quand on tapait directement dans la barre d'adresse il n'y avait PAS de referer. C'est comme si on partait d'un bookmark.
      
      Me trompe-je ?
      Pensez à l'environnement avant d'imprimer ce commentaire - Please consider the environment before printing this comment
      - [^] # Re: question (peut être) idiote...
        
        Posté par GCN (site web personnel) le 08 novembre 2001 à 21:08. Évalué à 6.
        
        Ben ouais, ça peut paraitre étrange. Peut-être s'agit-il aussi d'un bug d'IE (ce serati étonnant ça :). Mais j'avais constaté ça y'a quelqus temps deja en allant sur le site de la CNIL dans la rubrique qui explique qu'on laisse des traces partout ou on va sur le net.
        
        Bref, je sais que ça parait bizarre mais c'est ce que j'avais constaté. Comme je le dis plus haut, peut-être que les versions récentes de ce browser n'ont pas ce bug (à l'époque, si je me souviens bien, il s'agissait d'un MSIE 4 si mes souvenirs sont bons).
        
        [^] # Re: question (peut être) idiote...
        
        Posté par Robert Palmer (site web personnel) le 08 novembre 2001 à 21:27. Évalué à 3.
        
        Sacré Microsoft... Bon apparemment avec IE 5 il n'y a plus ce problème.
        
        La page de la CNIL que tu cites est là : http://www.cnil.fr/traces/traces.htm(...(...))
        
        C'est plutôt destiné au "grand public", mais les explications sont très claires
        Pensez à l'environnement avant d'imprimer ce commentaire - Please consider the environment before printing this comment

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.