A l'April nous maintenons hébergées des vieilleries et nous essayons d'éviter de contribuer au web jetable. Pour certains sites, il n'y a rien à faire : c'est une bonne vieille page html ou une génération statique. Pour d'autres, une fois que la maintenance de l'appli web n'est plus sérieusement envisageable, nous passons par un miroirstatique. Et quand c'est utile, les contenus sont migrés d'une application à l'autre.
Bien sûr, les technos hypes ne sont pas toujours les plus faciles à maintenir (coucou wss et/ou les constructions d'interfaces à base de requêtes asynchrones).
En fait, j'ai quand même du mal à comprendre pourquoi c'est un problème. Ça me semble assez normal et assez sain que le web soit maintenu, que les pages obsolètes soient détruites ou remplacées.
Déja, il y a tout à ce qui touche aux informations personnelles. Pages professionnelles, réseaux sociaux, pages de profil sur tel ou tel site. Ça me semble complètement normal que si je décide de fermer mon compte Linuxfr, le lien vers mon profil soit cassé, ainsi que le lien vers ce que j'ai posté, mes commentaires, etc. Si je change de boîte, c'est assez sain que ma page disparaisse, plutôt que d'être remplacée par le gars qui a pris ma place. Je ne souhaite pas que ces pages soient archivées, je souhaite qu'elles disparaissent. Bien sûr, ça fait disparaitre de l'information, mais il ne s'agit pas d'informations d'État civil, les générations futures n'ont pas le droit de savoir ça.
Ensuite, il y a toutes les informations obsolètes, qui pourraient tromper le visiteur. Les modèles et les marques qui ne sont plus commercialisées, les sites des entreprises qui ont disparu, le programme des spectacles qui ont déja eu lieu, etc. Laisser trainer ces pages, c'est prendre le risque que quelqu'un d'inattentif ne comprenne pas que l'information est obsolète. J'irais même jusqu'à dire que c'est le principal problème du web actuel : on y trouve énormément d'informations qui sont obsolètes. Ça va de comment installer un driver sur Ubuntu 3.10 (99 chances sur 100 que ça ne marche plus), à comment résilier un abonnement à Free en 2008 (idem). Souvent, la date de publication est difficile à trouver, quand elle n'est pas absente, et on peut perdre beaucoup de temps à comprendre que l'information qu'on a péniblement trouvée n'est plus pertinente depuis longtemps.
Enfin, il y a la question de la pertinence de garder en fonctionnement des services qui ne sont plus maintenus depuis des années. L'électricité, la bande passante, le renouvellement du matériel coûte de l'argent et des ressources naturelles, pour un service rendu quasi-nul. Même en cas de traffic réduit, les moteurs de recherche vont toujours aller indexer ces pages, les robots vont parcourir l'arborescence du site, essayer d'envoyer du spam aux mailto:…
Bref, même si on peut être ponctuellement agacés par un lien brisé vers une information qui aurait pu potentiellement nous intéresser, il me semble souhaitable que le web disparaisse. Ça ne veut pas dire qu'il n'est pas nécessaire d'archiver certaines choses, mais ça me semble au contraire très sain que le ménage soit fait.
Posté par raphj .
Évalué à 6.
Dernière modification le 12 juin 2024 à 17:42.
En fait, j'ai quand même du mal à comprendre pourquoi c'est un problème
C'est la pensée derrière le document Cool URIs don't change (datant de 1998, qui n'a pas changé d'URL :-)).
Souvent, un lien disparait non pas par une action volontaire de maintenance pour retirer les trucs obsolètes, mais parce que le travail de maintenance (justement) et de redirections n'est pas fait quand un site est mise à jour, un CMS remplacé par un autre, etc.
Et même quand une information est obsolète, il n'est pas vraiment souhaitable qu'elle disparaisse : elle peu servir dans un cadre spécifique et/ou historique et donc au lieu de retirer purement et simplement l'info, tu peux la marquer comme obsolète.
Globalement, un lien cassé, c'est souvent de l'information / la connaissance perdue, et c'est rarement une bonne chose.
À bien sûr arbitrer avec les choses que tu mentionnes.
les informations sont pour moi importantes et surtout font partie de la tracabilité !
savoir qu'une news de linuxfr évoquant un sujet de 2001 me permettra de mieux ocmprendre l'informatique de cette époque, et surtout d'en référer dans une autre situation :
regarde, la preuve, il y a dix/vingt/trente ans, telle entreprise ou telle entité utilisait tel logiciel !
sans la référence via la page web, ca va être coton !
donc oui, pour moi il y a clairement un problème (il m'est arrivé d'aller récup' des contacts dans mon journal d'appels, datant d'il y a plus de huit ans pour retrouver une personne dans une situation spécifique), et même un très gros problème!
les informations sont pour moi importantes et surtout font partie de la tracabilité !
On ne peut pas dans un monde fini stocker des quantités de données infinis. Il n'y a pas de décorrélation possible entre la matérialité des choses et la donnée.
On a réussi à vivre des milliers d'années en ne gardant que des informations parcellaires, je crois que notre génération saura en faire autant.
Je dirais que là où c'est gênant c'est par exemple pour les articles de presse. Il y a plein de medias qui ont changé de CMS 20x en 10ans (oui j'exagère) donc tous les liens générés dynamiquement de l'époque sont pétés. Ça ne veut même pas dire que l'article n'existe plus en base de donnée mais si tu avais gardé des liens, tout est pété et on ne peut pas dire que les moteurs de recherche aident toujours beaucoup.
Du coup si tu veux les retrouver t'es à aller chercher des bases type ProQuest dédiés à la recherche qui coûtent bonbon.
Pour certaines choses c'est la puissance publique qui s'occupe de faire le travail d'archivage (INA & BnF). Ça va beaucoup plus loin (ça survis à la disparition du journal) et si on considère que c'est d'un intérêt publique autant le faire bien.
Il serait même possible par exemple d'obliger les organismes de presse en ligne de fournir une version à l'entité en question à la BnF.
En France, il y a déjà le dépôt légal qui oblige les éditeurs, entreprises, créateurs… dans un certain nombre de domaines (livre, périodique, gravure, photographie, film, télévision, disques audio et vidéo, bases de données, logiciel, production radiodiffusée et télédiffusée, site web…) à fournir une copie à la BNF.
Mais ça ne concerne que ce qui est diffusé en France. La BNF ne pourra rien faire face à la disparition du web chinois. Et pour le coup, j'imagine qu'un grand nombre de pays n'ont pas d'équivalent à la BNF ou l'INA et n'ont pas non plus de notion de dépôt légal, voir les moyens financiers et les compétences humaines pour le mettre en œuvre. Archiver tout ce contenu au fil des siècles, c'est une entreprise pharaonique qui ne s'arrête jamais.
Et ? On ne va pas archiver l'ensemble des données du web. La production de données est exponentielle (j'avais lu un truc, il y a bien trop longtemps pour que je puisse en retrouver la trace) que l'histoire de l'humanité jusqu'au 20ème siècle pouvait tenir dans quelques Tios. Maintenant le rythme est de plus en plus effréné, on passe notre temps à s'outiller pour. Non seulement on ne va pas tout garder mais en plus, la durée de rétention va aller en se réduisant.
C'est inhérent au dématérialisé, ça n'est pas une question de pratique. La pérennité du dématérialisé demande un effort continue et a un coût croissant. Il est utopiste d'imaginer garder par principe.
Ce qu'il est possible de faire c'est de hiérarchiser les données et de sauvegarder celles pour les quels cela paraît pertinent. A chacun (personnellement ou de manière regroupée - soit en état soit en organisation comme archive.org -) de faire le travail qui leur semble pertinent. Encore une fois on va perdre des données, discute quelques minutes avec un historien et il te trouvera pleins d'exemples de cas où la perte est complètement définitive.
C'est peut être frustrant mais pour moi c'est du même niveau que c'est frustrant de devoir contourner une montagne alors qu'on a les moyens technique de la traverser.
Sans compter qu'il y a des moyens de garder trace de tout un tas de trucs pour les historiens, sans pour autant garder les pages en ligne… La discussion de départ, ça n'est pas "les archives du web ne sont plus disponibles pour les historiens" mais "les liens sont cassés".
Attention c'est potentiellement pour masquer une activité genre spam, jeux en ligne, etc. Ça fournit un contenu légitime en apparence. Il y a ça derrière des domaines de feu- Mandriva.
Genre le lien en haut à droite 1payday.loans en page d'accueil (ça pourrait être plus vicieux en n'étant que pour les gens d'un pays, d'une langue, etc.). Et le nom en copyright a été changé…
Je me suis toujours demandé si ce genre de truc est automatisé. Parce que récupérer un domaine lambda, qui n'a eu qu'une fréquentation minimale, puis le remettre en ligne et le transformer pour ajouter des liens vers son scam, ça représente tout de même du travail, du temps… Autant pour les domaines de Mandriva, ça a pu avoir un public et la probabilité que qqun aille dessus puis se fasse rediriger vers une demande de prêt est non-nulle (et encore, ça reste une niche…) mais pour un blog perso… Je doute que ça ramène un quelconque retour sur investissement.
# D'autres font des efforts
Posté par Pol' uX (site web personnel) . Évalué à 5.
A l'April nous maintenons hébergées des vieilleries et nous essayons d'éviter de contribuer au web jetable. Pour certains sites, il n'y a rien à faire : c'est une bonne vieille page html ou une génération statique. Pour d'autres, une fois que la maintenance de l'appli web n'est plus sérieusement envisageable, nous passons par un miroir statique. Et quand c'est utile, les contenus sont migrés d'une application à l'autre.
Bien sûr, les technos hypes ne sont pas toujours les plus faciles à maintenir (coucou wss et/ou les constructions d'interfaces à base de requêtes asynchrones).
Adhérer à l'April, ça vous tente ?
# Un problème?
Posté par arnaudus . Évalué à 10.
En fait, j'ai quand même du mal à comprendre pourquoi c'est un problème. Ça me semble assez normal et assez sain que le web soit maintenu, que les pages obsolètes soient détruites ou remplacées.
Déja, il y a tout à ce qui touche aux informations personnelles. Pages professionnelles, réseaux sociaux, pages de profil sur tel ou tel site. Ça me semble complètement normal que si je décide de fermer mon compte Linuxfr, le lien vers mon profil soit cassé, ainsi que le lien vers ce que j'ai posté, mes commentaires, etc. Si je change de boîte, c'est assez sain que ma page disparaisse, plutôt que d'être remplacée par le gars qui a pris ma place. Je ne souhaite pas que ces pages soient archivées, je souhaite qu'elles disparaissent. Bien sûr, ça fait disparaitre de l'information, mais il ne s'agit pas d'informations d'État civil, les générations futures n'ont pas le droit de savoir ça.
Ensuite, il y a toutes les informations obsolètes, qui pourraient tromper le visiteur. Les modèles et les marques qui ne sont plus commercialisées, les sites des entreprises qui ont disparu, le programme des spectacles qui ont déja eu lieu, etc. Laisser trainer ces pages, c'est prendre le risque que quelqu'un d'inattentif ne comprenne pas que l'information est obsolète. J'irais même jusqu'à dire que c'est le principal problème du web actuel : on y trouve énormément d'informations qui sont obsolètes. Ça va de comment installer un driver sur Ubuntu 3.10 (99 chances sur 100 que ça ne marche plus), à comment résilier un abonnement à Free en 2008 (idem). Souvent, la date de publication est difficile à trouver, quand elle n'est pas absente, et on peut perdre beaucoup de temps à comprendre que l'information qu'on a péniblement trouvée n'est plus pertinente depuis longtemps.
Enfin, il y a la question de la pertinence de garder en fonctionnement des services qui ne sont plus maintenus depuis des années. L'électricité, la bande passante, le renouvellement du matériel coûte de l'argent et des ressources naturelles, pour un service rendu quasi-nul. Même en cas de traffic réduit, les moteurs de recherche vont toujours aller indexer ces pages, les robots vont parcourir l'arborescence du site, essayer d'envoyer du spam aux mailto:…
Bref, même si on peut être ponctuellement agacés par un lien brisé vers une information qui aurait pu potentiellement nous intéresser, il me semble souhaitable que le web disparaisse. Ça ne veut pas dire qu'il n'est pas nécessaire d'archiver certaines choses, mais ça me semble au contraire très sain que le ménage soit fait.
[^] # Re: Un problème?
Posté par raphj . Évalué à 6. Dernière modification le 12 juin 2024 à 17:42.
C'est la pensée derrière le document Cool URIs don't change (datant de 1998, qui n'a pas changé d'URL :-)).
Souvent, un lien disparait non pas par une action volontaire de maintenance pour retirer les trucs obsolètes, mais parce que le travail de maintenance (justement) et de redirections n'est pas fait quand un site est mise à jour, un CMS remplacé par un autre, etc.
Et même quand une information est obsolète, il n'est pas vraiment souhaitable qu'elle disparaisse : elle peu servir dans un cadre spécifique et/ou historique et donc au lieu de retirer purement et simplement l'info, tu peux la marquer comme obsolète.
Globalement, un lien cassé, c'est souvent de l'information / la connaissance perdue, et c'est rarement une bonne chose.
À bien sûr arbitrer avec les choses que tu mentionnes.
[^] # Re: Un problème? Oui, absolument !
Posté par tkr . Évalué à 5.
oui, un problème !
les informations sont pour moi importantes et surtout font partie de la tracabilité !
savoir qu'une news de linuxfr évoquant un sujet de 2001 me permettra de mieux ocmprendre l'informatique de cette époque, et surtout d'en référer dans une autre situation :
regarde, la preuve, il y a dix/vingt/trente ans, telle entreprise ou telle entité utilisait tel logiciel !
sans la référence via la page web, ca va être coton !
donc oui, pour moi il y a clairement un problème (il m'est arrivé d'aller récup' des contacts dans mon journal d'appels, datant d'il y a plus de huit ans pour retrouver une personne dans une situation spécifique), et même un très gros problème!
[^] # Re: Un problème? Oui, absolument !
Posté par Pol' uX (site web personnel) . Évalué à 2.
À l'époque, les gens écrivaient des mots machine en actionnant des boutons poussoirs.
Adhérer à l'April, ça vous tente ?
[^] # Re: Un problème? Oui, absolument !
Posté par barmic 🦦 . Évalué à 6.
On ne peut pas dans un monde fini stocker des quantités de données infinis. Il n'y a pas de décorrélation possible entre la matérialité des choses et la donnée.
On a réussi à vivre des milliers d'années en ne gardant que des informations parcellaires, je crois que notre génération saura en faire autant.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Un problème? Oui, absolument !
Posté par vmagnin (site web personnel) . Évalué à 2.
Oui, la mémoire c'est aussi l'oubli.
[^] # Re: Un problème?
Posté par Psychofox (Mastodon) . Évalué à 5.
Je dirais que là où c'est gênant c'est par exemple pour les articles de presse. Il y a plein de medias qui ont changé de CMS 20x en 10ans (oui j'exagère) donc tous les liens générés dynamiquement de l'époque sont pétés. Ça ne veut même pas dire que l'article n'existe plus en base de donnée mais si tu avais gardé des liens, tout est pété et on ne peut pas dire que les moteurs de recherche aident toujours beaucoup.
Du coup si tu veux les retrouver t'es à aller chercher des bases type ProQuest dédiés à la recherche qui coûtent bonbon.
[^] # Re: Un problème?
Posté par barmic 🦦 . Évalué à 2.
Pour certaines choses c'est la puissance publique qui s'occupe de faire le travail d'archivage (INA & BnF). Ça va beaucoup plus loin (ça survis à la disparition du journal) et si on considère que c'est d'un intérêt publique autant le faire bien.
Il serait même possible par exemple d'obliger les organismes de presse en ligne de fournir une version à l'entité en question à la BnF.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Un problème?
Posté par Okki (site web personnel, Mastodon) . Évalué à 4.
En France, il y a déjà le dépôt légal qui oblige les éditeurs, entreprises, créateurs… dans un certain nombre de domaines (livre, périodique, gravure, photographie, film, télévision, disques audio et vidéo, bases de données, logiciel, production radiodiffusée et télédiffusée, site web…) à fournir une copie à la BNF.
Mais ça ne concerne que ce qui est diffusé en France. La BNF ne pourra rien faire face à la disparition du web chinois. Et pour le coup, j'imagine qu'un grand nombre de pays n'ont pas d'équivalent à la BNF ou l'INA et n'ont pas non plus de notion de dépôt légal, voir les moyens financiers et les compétences humaines pour le mettre en œuvre. Archiver tout ce contenu au fil des siècles, c'est une entreprise pharaonique qui ne s'arrête jamais.
[^] # Re: Un problème?
Posté par barmic 🦦 . Évalué à 2.
Et ? On ne va pas archiver l'ensemble des données du web. La production de données est exponentielle (j'avais lu un truc, il y a bien trop longtemps pour que je puisse en retrouver la trace) que l'histoire de l'humanité jusqu'au 20ème siècle pouvait tenir dans quelques Tios. Maintenant le rythme est de plus en plus effréné, on passe notre temps à s'outiller pour. Non seulement on ne va pas tout garder mais en plus, la durée de rétention va aller en se réduisant.
C'est inhérent au dématérialisé, ça n'est pas une question de pratique. La pérennité du dématérialisé demande un effort continue et a un coût croissant. Il est utopiste d'imaginer garder par principe.
Ce qu'il est possible de faire c'est de hiérarchiser les données et de sauvegarder celles pour les quels cela paraît pertinent. A chacun (personnellement ou de manière regroupée - soit en état soit en organisation comme archive.org -) de faire le travail qui leur semble pertinent. Encore une fois on va perdre des données, discute quelques minutes avec un historien et il te trouvera pleins d'exemples de cas où la perte est complètement définitive.
C'est peut être frustrant mais pour moi c'est du même niveau que c'est frustrant de devoir contourner une montagne alors qu'on a les moyens technique de la traverser.
https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll
[^] # Re: Un problème?
Posté par arnaudus . Évalué à 3.
Sans compter qu'il y a des moyens de garder trace de tout un tas de trucs pour les historiens, sans pour autant garder les pages en ligne… La discussion de départ, ça n'est pas "les archives du web ne sont plus disponibles pour les historiens" mais "les liens sont cassés".
# Fantôme du passé
Posté par Claude SIMON (site web personnel) . Évalué à 2.
Il y a quelques années, j'avais un site avec le nom de domaine epeios.org, dont voici un aperçu grâce à la Wayback machine : https://web.archive.org/web/19991127075721/http://www.epeios.org/.
Suite à je ne sais plus quelles circonstances, j'ai perdu l'usage du nom de domaine (dernière version de mon site : https://web.archive.org/web/20051228034619/http://www.epeios.org/).
Mais il n'a pas été perdu pour tout le monde :
- https://web.archive.org/web/20100904083706/http://www.epeios.org/ ;
- https://web.archive.org/web/20140622142023/http://www.epeios.org/ ;
- https://web.archive.org/web/20171115164952/http://www.epeios.org/.
Et puis, tout à coup : https://web.archive.org/web/20211128225450/http://www.epeios.org/ !
Quelqu'un s'est « amusé » à remettre mon site en ligne (promis, ce n'est pas moi) !
Il y en a d'autres à qui c'est arrivé ?
Pour nous émanciper des géants du numérique : Zelbinium !
[^] # Re: Fantôme du passé
Posté par Benoît Sibaud (site web personnel) . Évalué à 5.
Attention c'est potentiellement pour masquer une activité genre spam, jeux en ligne, etc. Ça fournit un contenu légitime en apparence. Il y a ça derrière des domaines de feu- Mandriva.
[^] # Re: Fantôme du passé
Posté par Benoît Sibaud (site web personnel) . Évalué à 4. Dernière modification le 16 juin 2024 à 16:52.
Genre le lien en haut à droite
1payday.loans
en page d'accueil (ça pourrait être plus vicieux en n'étant que pour les gens d'un pays, d'une langue, etc.). Et le nom en copyright a été changé…[^] # Re: Fantôme du passé
Posté par Faya . Évalué à 3.
Je me suis toujours demandé si ce genre de truc est automatisé. Parce que récupérer un domaine lambda, qui n'a eu qu'une fréquentation minimale, puis le remettre en ligne et le transformer pour ajouter des liens vers son scam, ça représente tout de même du travail, du temps… Autant pour les domaines de Mandriva, ça a pu avoir un public et la probabilité que qqun aille dessus puis se fasse rediriger vers une demande de prêt est non-nulle (et encore, ça reste une niche…) mais pour un blog perso… Je doute que ça ramène un quelconque retour sur investissement.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.