Journal souriez, c'est archivé (long)

Posté par  .
Étiquettes : aucune
0
22
juin
2004
Il faut lire le Figaro. au moins les titres sur leur site web. sinon, on rate ce genre de perles :

http://www.lefigaro.fr/eco-medias/20040621.FIG0306.html(...)


sous couvert du rôle historique de l'INA et de la BNF, et aussi avec l'excuse de devoir satisfaire une directive européenne, nos chères têtes pensantes veulent archiver l'ensemble du web français, y compris sites de forums, pages personnelles, et autres weblogs...

ah, c'est obligatoire, au sens obligation, dépot légal, pas juste du bon sentiment pour se rappeler à quoi ressemblait l'Internet d'avant. et ça inclut aussi apparement les forums "semi-privés" où il faut s'inscrire pour participer, éventuellement seulement sur invitation.


Je cite des gros bouts :

"des millions de pages Web sont vouées à apparaître et disparaître tous les jours, entraînant une destruction de matière problématique à plus d'un égard, tant du point de vue juridique que culturel."

oui, on sait, merci. mais repérez bien le mot "juridique" à coté de "culturel". "juridique", c'est pour faire quoi ? les possibilités sont larges, très larges, bonnes comme mauvaises, et les possibilités de bavures et autres boulettes sont inquiétantes (usurpations d'identité...). par contre, la mythomanie de certaines personnes sera parfaitement documentée, sur le long terme, ça interessera les psychiatres (hein, Jean-Paul ?).


"La Commission européenne a en effet sommé l'ensemble des pays de l'Union de rendre l'archivage des sites Web obligatoire."

Bruxelles est vraiment très pratique pour faire adopter n'importe quoi, et pour annuler les promesses électorales intenables et autres mesures démagogiques, populaires mais qu'on a pas l'intention de tenir. mais bref, rien de nouveau ici.


"La France, qui a pris du retard sur ce dossier, a décidé d'inclure cette question au sein du projet de loi sur les droits d'auteur, projet qui sera présenté à l'Assemblée nationale avant l'été, ou au plus tard, en septembre."

chic, on nous parle d'un projet de loi totalement inconnu, et qui passe discrètement pendant les vacances :) rien de nouveau ici non plus.


il y a une certaine séparation du travail de prévu entre la BNF et l'INA, l'INA allant s'occuper des sites riches en sons et video, la BNF en gros de tout le reste.

l'INA ira donc archiver les sites proposant des clips sonores et video, depuis des vendeurs de media culturels en ligne jusqu'aux grands bazars que sont rigoler.com et autres humour.com, ou plus sérieusement des bibliothèque de clips proposés par des sites d'information (tf1.fr, diverses agences de presse, sites spécialisés)

juste une question, comment archiver les sites diffusant du son ou de la video en streaming ? ça se fait, mais au point de vue logistique, ça risque d'être coton, surtout sans collaboration active de l'éditeur du site. mais puisque ça sera obligatoire, peu importe si ce n'est pas facile ou si ça coûte des ressources...

je n'ai même pas parlé des webradios amateurs (plus petits que Bide et Musique, pour donner une idée) et autres webcams plus ou moins diverses, donnant sur l'aquarium et sur des chambres d'étudiant(e)s bourré(e)s.

bon, je suis de mauvaise fois, ils ne vont pas s'embêter avec le streaming, ils seront déjà assez embêtés avec les animations en Flash qui ne marchent plus plus parce qu'une vérification sur l'ip ou le nom de domaine du serveur est faite :)



ensuite on a une confession amusante, en fait on ne sait pas combien il y a de sites en France, ni qui ils sont. c'est bête, il n'y a pas de "registre légal et obligatoire pour les sites Internet."

on tremble rien qu'à l'évocation de cette super bonne idée, d'ailleurs. pourquoi pas une redevance pour financer cet annuaire, et en fait l'INA et la BNF en passant ? autant se baser sur le dépot des noms de domaine, ils l'évoquent juste après. autant ne pas laisser ces choses importantes et sérieuses que sont les noms de domaine et l'hébergement de serveurs Web - instruments de publication incontrolée ! - entre les mains d'informaticiens alcooliques drogués et pirates, vous comprenez.



enfin ils sont contents de préciser que l'archivage ne concernera pas... "ce qui relève de la sphère privée, comme les e-mails". merci, merci. mais pages persos, forums et weblogs sont cités comme étant concernés.


et puis, la cerise sur le gateau : ils utiliseront un robot (comme Google ou iarchive, classique) et surtout, surtout, comme ça ne suffira pas, accrochez-vous :

"En revanche, les éditeurs de sites sécurisés ou protégés par un mot de passe ne pourront pas couper à l'obligation de faire parvenir à qui de droit une copie de leurs sites."

mais bien sûr... que la BNF s'arrange avec Le Monde ou Libé pour archiver les parties "payantes" de leurs sites car celles correspondant à une plus-value éditoriale et commerciale, pourquoi pas... ces quotidiens sont payants et soumis au dépot légal, pas de contradiction ici.

que la BNF exige une copie des forums de type "il faut être inscrit pour lire les commentaires comme pour poster", je commence déjà à tiquer. faudra-t'il plus tard demander un permis de création d'un forum, comme il faut actuellement des autorisations pour éditer des revues (passage au Journal Officiel), puis même des commissions paritaires ?


enfin certains sites mèlent allègrement des nouvelles de type journaux, des forums, et des sections nettement privées, comme des systèmes de webmail, ou de messagerie privée d'une personne vers une autre (et pas vers le "public"). comment faire le tri ? pensons aux sites de rencontre avec coordonnées des participants, profil détaillés avec par exemple goûts sexuels précis et pour finir toutes les conversations dès qu'elles viseront un "public", c'est à dire pas juste une ou deux personnes en particulier.

vous voyez votre magnifique prose sur Spray, Meetic, et autres sites comme match.com ? hop, archivée ! les commentaires de votre Team de Quake ou Counter Strike à propos de l'équipe concurrente, avec des mots d'oiseaux et des 'lol' toutes les trois lignes ? hop, archivés, les générations futures vont bien se marrer.

je me marre. ah, il faudra aussi leur envoyer aussi toute la production de Caramail et Voila, les salons publics au moins, et toute la production passée, présente et à venir des newsgroups Usenet, tous les sites de petites annonces en tout genre, les sites d'enchères à la eBay...

je ne dis pas que ce n'est pas déjà archivé en partie ici ou là, hein. mais rationnaliser tout ça et rendre obligatoire la chose, ouhla...


ensuite, deux questions importantes, "qui va financer tout ça" et "comment rendre ce contenu lisible dans quelques années". sans réponse, d'ailleurs.

une dernière interrogation, intéressante, "comment rendre ces archives infalsifiables" devrait en rejoindre une autre sur la confidentialité de certaines informations, comme la liste des objets vendus par Stéphane "Zorglub38" François sur eBay, qui risque d'interesser beaucoup les marketeux...


il y a quelques jours, une loi italienne est passée, qui entend imposer que chaque document échangé par Internet dans leur beau pays soit en gros accompagné d'un certificat contenant informations de copyright et licence d'utilisation. sans trop se préoccuper de la différence entre une image transmise par mail et la même sur un site web. principalement parce que cette mesure n'avait pas beaucoup de sens, je m'en étais assez moqué, ce n'est pas applicable, ah ah ah, sacrés Italiens, sacré Berlusconi, tout ça.


là, comme cette notion d'archivage, de dépot de site Web n'est pas entendue comme facultative par Bruxelles, la notion de publication sur un site web, directement (en gérant le site) ou indirectement (en y postant des articles, messages ou commentaires comme la plupart des simples mortels ici) est à reéxaminer. pour eux comme pour moi...


Faudra-t'il bientot demander une autorisation officielle pour tenir un site Web à titre personnel, ou pour avoir des forums dessus ? la CNIL impose déjà que quasiment tout site français leur soit déclaré, puisqu'ils considèrent les ips des fichiers logs du serveur comme des données nomminatives. avoir un annuaire officiel de tous les sites français (ce qui reste imprécis) au sens coordonnées de l'hébergeur et de l'éditeur me semble les titiller de plus en plus, également.

on me répondra peut être qu'il me suffira de mettre mes pages chez un hébergeur de pages perso qui assurera toutes ces taches ingrates à ma place - déclarations et archivage automatique de mon contenu pour la postérité - mais mon sentiment de fond demeure, la publication d'informations sur un site, même juste mes photos des chutes du Niagara, devient d'un coup moins innocent qu'avant.
  • # WayBackMachine

    Posté par  . Évalué à 4.

    Il existe déjà une sorte de bibliothèque pour les sites Internet à cette adresse :

    http://web.archive.org/collections/web.html(...)

    Tu inscris le nom du site et hop tu obtiens son archive, c'est pas mal du tout... a tester

    Pour DLPF on remonte quand meme au 25 janvier 1999...
    http://web.archive.org/web/*/http://linuxfr.org(...)
    • [^] # Re: WayBackMachine

      Posté par  . Évalué à 3.

      oui, oui, et ça a même plus d'une fois servi de backup à un webmaster imprévoyant :)

      mais là, même si il y a des bons côtés (on peut espérer qu'un juge leur accordera foi pour prouver l'antériorité d'écrits ou d'oeuvres sur de vilains copieurs), le coté lourdingue et systématique de la chose m'inquiète.
    • [^] # Re: WayBackMachine

      Posté par  . Évalué à 3.

      D'ailleurs, elle est passée où cette petite page humoristique http://web.archive.org/web/19990125084624/anti-ms.linuxfr.org/(...) ?

      "dlfp, c'était mieux avant"... Y avait une page anti-bilou
  • # La plus grande archive du monde de...

    Posté par  (site web personnel) . Évalué à 4.

    sites de cul.
    Ba oui, va y en avoir du cul a la BNF maintenant et en paquet, c'est les video-club et les sex-shop qui vont faire la gueule :)
  • # contenu commercial

    Posté par  . Évalué à 1.

    Pourquoi tu réagis comme ça pour le contenu payant des sites ? Le contenu culturel est tout aussi payant et rémunérateur pour leurs producteurs/éditeurs.
    • [^] # Re: contenu commercial

      Posté par  . Évalué à 2.

      peux-tu préciser ? je ne vois pas ce que j'ai pu dire contre le contenu commercial ou payant.

      je signalais ici qu'ils veulent archiver tout contenu "français" publié et potentiellement affiché à des internautes, la partie "publique" ou "gratuit" de sites comme la partie "abonnés", "payante", que tout abonné pourra consulter après authentification.

      et en cela ils se placent un cran au dessus de systèmes comme archive.org et autres simples moteurs de recherches qui seront bloqués par tout systèmes de mots de passe : il faudra donc que ces sites leur fournissent d'une manière ou d'une autre cette partie à accès limité. c'est un problème technique posé par une obligation légale.


      sinon, il est évident que même si la BNF archivait demain tout le web français, il est hors de question que ce contenu soit aussitot mis à disposition en l'état, sous la forme d'URLs de la forme :

      http://webarchive.bnf.nfr.abonnes.lemonde.fr/url_a_la_con_qui_ne_ma(...)

      l'INA a toutes les émissions de télévision diffusées en France en stock, elle ne les place pas pour autant à disposition sur son site web.
  • # fo pas être parano non plus

    Posté par  . Évalué à -2.

    le dépôt légal est de toute façon obligatoire pour toute parution (périodique ou pas) si je ne me trompe pas.

    Donc par exemple tous les zines qui sortent t'es censé en retrouver une bonne parti à la BNF ....

    C'est une sorte d'extension au web ...

    Et je suppose qu'ils ne vonts pas se mettre à tous archiver car déjà qu'ils ont des soucis de place. Ils vont faire un choix pour ne garder que les sites les plus intéréssant ou remarquable.

    Et sans doute pas tous les forums où ils ne s'échangent que des propos complètement creux... à moins qu'ils soient réprésentatifs de l'époque ou autre chose ...

    Il serait temps que tu réalise que le net n'est pas un endroit ou tu es anonyme.

    Pour te sentir moins espionné change de pseudo plus souvent.

    Tu sais comment tout ça ca finiras un jour: http://62.212.109.174/pika/dtc.php?texte=Olivier(...)

    comme pour tout le monde :-)
  • # Archivage des sites dynamiques !?

    Posté par  . Évalué à 3.

    Je vois mal ce qu'ils vont pouvoir faire pour les sites dont le contenu est massivement dynamique, qu'ils utilisent du php, des servlets ou autre. A moins d'archiver le code (y compris la partie purement applicative) et la (les) base(s) de données qui alimente(nt) les pages ? Ca me parait quand même assez insurmontable comme tâche.

    Et quid des extranets d'entreprise qui nécessitent "login/mot de passe" pour accéder à des données confidentielles de toutes natures (commercial, marketing, ressources humaines...) ?
    • [^] # Re: Archivage des sites dynamiques !?

      Posté par  (site web personnel) . Évalué à 1.

      Il ne peuvent pas archiver le code si le logiciel est propriétaire et payant, à moin de s'aquitter de la licence...
      Et si il archive des logiciels libres ils devront fournir le code source ;-)
  • # Autre perle

    Posté par  (site web personnel) . Évalué à 7.

    Rien que ce passage là me fait dire que ces gens ne savent pas de quoi ils parlent :

    Autre problème à résoudre : celui de faire en sorte qu'une page Web reste lisible 5 ou 10 ans après sa création, lorsque son langage de programmation sera, très probablement, complètement dépassé.


    Déjà, le HTML ça a plus de 10 ans et ont sait toujours très bien lire les pages qui ont cet âge préhistorique.
    Le HTML est un langage ouvert et documenté, il n'y aura jamais aucun souci pour écrire un moteur pour l'interpréter et assurer le rendu.
    Et au pire, l'archiviste de la BNF gardera un Mozilla dans un coin...


    Sinon pour le reste, archiver le web est à mon sens complètement vain. Par sa nature même le web est mouvant et ce serait vraiment perdre du temps et de l'argent que de se lancer dans une telle tâche.

    On tente ici d'appliquer les techniques d'archivage adaptées aux médias persistents (qui une fois diffusés ne changent pas) à un média qui ne se fige jamais. Ca revient à s'obstiner à remplir un gouffre sans fond...


    A la limite la démarche d'archive.org me paraît mieux correspondre à la nécessité historique, car archive.org prend des instantanés à des intervales très espacés et on se rend mieux compte de grandes évolutions du Web.
    Ils ont compris (faute de moyens ?) qu'il vallait mieux suivre l'histoire du Web lui-même que l'histoire du contenu du Web.

    Pensez à l'environnement avant d'imprimer ce commentaire - Please consider the environment before printing this comment

  • # la sphère privée?

    Posté par  . Évalué à 2.

    enfin ils sont contents de préciser que l'archivage ne concernera pas... "ce qui relève de la sphère privée, comme les e-mails". merci, merci. mais pages persos, forums et weblogs sont cités comme étant concernés.


    Tiens... je pensais que finalement, en France, lemail n'était plus considéré comme privé (après votre LEN)

    Sinon, il est impensable, ce projet... comment vous décidez qu'un site est francais, et non belge ou autre? Par exemple, j'ai un .be hébergé chez un hébergeur francais, qui l'archive?
    De plus, c'est un forum (principalement) en partie avec des régions totalement accessible, des régions accesible sur simple inscriptions, des régions plus dures d'acces, et des régions tres dures d'accès... ils veulent avoir acces à quoi exactement? Parce que la partie la plus dure d'accès, on est 4 à être dessus... ca ne relève pas de la sphère privée?

    Ce genre de projet ne traduit-il pas encore l'incompétence (point de vue internet/informatique, au moins) des "responsables" ?
  • # Une solution

    Posté par  . Évalué à 10.

    Je vais mettre en place sur mon site une page ifiny.cgi.
    Avec une boucle inifinie sur un echo random(). Quand ils ont finis d'archiver toutes les variantes de cette page, ils me passent un coup de fil et je leur envoit les logins/mot de passe pour le reste.

    Kha
  • # Presque d'accord

    Posté par  . Évalué à 1.

    Totalement d'accord avec ton post dans l'ensemble, sauf: > enfin ils sont contents de préciser que l'archivage ne concernera > pas... "ce qui relève de la sphère privée, comme les e-mails". merci, > merci. mais pages persos, forums et weblogs sont cités comme > étant concernés. Une page perso, un forum, un weblog, sauf si c'est protégé par login / mot de passe, ça ne relève PAS de la sphère privée. L'auteur à choisi de mettre ces données accessibles au public, après il faut assumer. C'est comme ci tu publie un article "moi/ma vie" dans Libé et qu'après tu viens dire que tu ne veux pas qu'il soit archivé parce que c'est ta sphère privée. Ben non. Par contre d'accord pour les emails. Et ils devraient aussi faire distinction site libre d'accès / site protégé par mot de passe. A+
    • [^] # Re: Presque d'accord

      Posté par  . Évalué à 2.

      je ne conteste pas du tout que des pages persos ou de particuliers (interprétation libre de "publications à compte d'auteur"), forums et weblog deviennent des "documents publics" une fois mis en ligne. c'est presque la définition de publier. idem pour des CVs mis en ligne.


      je stigmatisais juste la façon dont ils parlaient des courriers e-mail, dont je me demande d'ailleurs bien ce qu'ils avaient vraiment en tête. des webmail de type Yahoo et Hotmail ?


      concernant les sites en libre accès ou protégés par mot de passe, si on en croit l'article, ils veulent garder trace des deux :

      "En revanche, les éditeurs de sites sécurisés ou protégés par un mot de passe ne pourront pas couper à l'obligation de faire parvenir à qui de droit une copie de leurs sites."
      • [^] # Re: Presque d'accord

        Posté par  . Évalué à 2.

        c'est complètement con, si c'est sécurisé, y'a bien une raison ...
        • [^] # Re: Presque d'accord

          Posté par  . Évalué à 2.

          et ils se placent au dessus de cette raison, comme ça, ça ne les concerne plus...
  • #

    Posté par  . Évalué à 2.

    Hé ils se réveillent eux, ça existe depuis des lustres, c'est http://web.archive.org/(...) . Alors plutôt que de vouloir réinventer la roue pour des raisons plus que douteuses ça serait bien de filer des dons à ce projet qui en a toujours besoin. Surtout avec déjà 1 peda-octet de données (un million de giga octets) qui grandit de 20 tera-octets par mois...
  • # Peine perdu?

    Posté par  (site web personnel) . Évalué à 1.

    Je me souvient d'un reportage a la TV (peut etre game one mais pas sur) ou ils disaient que si la nasa commencais a sauvegarder (numeriquement) toute ces archives mainenant, le temps d'arriver a la fin, avec la durées de vie des supports actuels, il perdraient les premier truc archivés par destructions des dit support et que c'est pour que la caummunauté les sauve qu'ils en ouvraient une partie au publique, pour qu'elles se trouvent sur le reseau.

    Et bien il faut bien dire qu'au rithme ou le reseau croit, la BNF et l'INA risque bien d'avoir des problemes de sauvegardes de leurs données numériques...
  • # L'archivage du web, une idee a la mode... et interessante !

    Posté par  . Évalué à 2.

    C'est vrai que je n'ai pas lu l'article du figaro. Ceci dit, la question de l'archivage du web n'est pa si "idiote" que ca, et meme sacrement a la mode.
    Je profite de ce journal pour venir apporter qq precisions sur l'archivage du web, ce qu'il en est actuellement et ce que l'INA projette de faire (je n'en ai qu'une vague idee - je ne suis pas de l'INA).

    Pour commencer, regarder du cote du projet WebFountain d'IBM... La on voit que, d'une certaine maniere, on n'en est pas si loin que ca. Outre les divers pb d'ordre moraux que cela pourrait poser (bien que dans ce cas, le web est crawler, donc apres tout, ou est le pb ?), on voit que les applications, elles, sont vraiment interessantes.

    En effet, on a voulu faire croire que internet etait un systeme d'information. Or il est tout sauf ca. C'est pour ca que les bibliotheques (donc la BF entre autre), on un vrai pb avec le web : comment referencer l'information ? Aujourd'hui ils proposent de vague liste de sites, souvent mal mise a jour car tout est fait a la main...

    Un projet tel que webFountain est donc d'avoir une vue exhaustive du web (ce qui est enorme ! Aujourd'hui les moteurs de recherches couvrent moins de 1% du web !) Et d'utiliser la geographie du web pour montrer la pertinance des documents, et naviguer dans ceux-ci. En effet, si on regarde la maniere dont les sites se references, on voit clairement des communautes apparaitre, plus ou moins organisees et leur rapport avec d'autres communautes plus ou moins proches.

    Pour en revenir au sujet, les bibliotheques et l'INA aimerait pouvoir "archiver" le web de maniere coherente et intelligente. Pour ca des projets sont lances dans lesquels des crawler parcourent le web, et permettent d'obtenir cette geographie pour proposer des outils performants de navigation et de recherche. L'idee a retenir, est qu'il serait interessant d'obtenir une cartographie du web pour s'y deplacer.

    Apres je ne sais pas comment c'est presenter exactement dans l'article, et apparement ce n'est pas du tout ca ni dans les moyens, ni dans le but, mais l'archivage du web est vraiment une question d'actualite, et pas denuee de sens. Au contraire, il faut en passer par la pour pouvoir proposer de nouveaux
    outils. Les navigateurs et les moteurs existant actuellements, en fait, ca vaut strictement rien. Mais on a que ca pour l'instant.

    Je ne sais pas si l'idee que je voulais faire passer est passee comme je voulais. Mais bon, je peux toujours essayer d'y apporter des precisions (je ne suis pas un specialiste non plus).
  • # DLFP le 25 janvier 1999

    Posté par  . Évalué à 1.

    http://web.archive.org/web/19990125090628/http://linuxfr.org/(...)

    Ca a quand même bien évolué ;)

    Encore bravo pour tout le travail qui a été effectué jusqu'à aujourd'hui :)
  • # Libé s'y colle aussi

    Posté par  . Évalué à 3.

    http://www.liberation.fr/page.php?Article=217481(...)

    cette fois c'est une interview, ça cause archivage, dépot légal et c'est un peu plus riche et vivant - ou, disons, moins théorique et nébuleux, que l'article du Figaro.


    Il y a toujours la volonté affichée d'avoir un dépot légal du contenu diffusé par Internet, mais en même temps le président de la BNF dit bien qu'ils n'ont pas encore les moyens techniques comme financiers de faire cela.

    Ils mentionnent aussi déjà travailler intelligement avec une centaine de sites "pilotes", dont on peut espérer que les interlocuteurs pourront les déniaiser sur la problématique complexe de la capture de sites webs, pour que ces archives soient un minimum fonctionnelles. j'ai déjà parlé de sites avec des bouts en Flash, par exemple, mais il y a des tas d'autres complications...

    la fin de l'article cite enfin en liens :

    "Expérimentations sur le dépôt légal Internet à la BnF"

    http://www.bnf.fr/pages/infopro/depotleg/dli_intro.htm(...)

    et le projet de loi parlant entre autre de ce fameux dépôt légal, mis à jour (chapitre 4) :

    http://www.assemblee-nationale.fr/12/projets/pl1206.asp(...)

    que je cite ici :

    "Les logiciels et les bases de données sont soumis à l'obligation de dépôt légal dès lors qu'ils sont mis à disposition d'un public par la diffusion d'un support matériel quelle que soit la nature de ce support.

    Sont également soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature faisant l'objet d'une communication publique en ligne."

    enfin, un poil plus bas (article 25 modifiant l'article 6 de la loi mise à jour), on aperçoit plusieurs mesures visant à empêcher le propriétaire ou l'auteur du site d'interdire à la BNF ou autres organismes dépositaires d'archiver et de laisser consulter ensuite tout document publié par Internet.


    lecture interessante, et mon propos de base "ce n'est pas juste une bête capture par robots" reste valable.
    • [^] # Re: Libé s'y colle aussi

      Posté par  . Évalué à 1.

      si je comprends bien la modif de l'article 25, ça donne le pouvoir à quiconque dument accrédité (sic !) d'avoir accès à toutes les bases de données présentent en france, non ?
  • # Bouchot

    Posté par  . Évalué à 1.

    Ah ! Depuis le temps qu'on attendait un archivage de la tribune ! ;-)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.