Règles de pérennité des comptes LinuxFr.org, données à caractère personnel et effet un an

36
3
juin
2024
LinuxFr.org

En février 2023, nous annoncions la mise en place d’une durée de conservation des données à caractère personnel (DCP) sur LinuxFr.org, avec à partir du 28 juin 2023 :

  • fermeture des comptes inactifs pendant trois ans et suppression de leurs données conservées inutiles au service ;
  • suppression des données associées inutiles au service pour les comptes fermés depuis plus d’un an.

L’aide du site explique :

Depuis le 31 mai 2023, une information de date de dernière activité est associée à chaque compte. Ajoutons que depuis septembre 2023 l’accès à cette information est aussi réduite au besoin du service (on peut connaître l’info de son propre compte ; les admins ont seulement besoin de savoir si la dernière activité date de moins d’un mois, d’un an, trois ans ou plus, en raison des règles précitées).

Nous voici donc un an après, et cette partie de la règle s’applique donc pour la première fois. Nous détaillerons les effets dans la seconde partie de la dépêche.

Sommaire

Script de minimisation des données et semaine normale

La suppression des données inutiles au service repose actuellement sur un script de minimisation externe, lancé manuellement. Une des raisons de l’aspect manuel est notamment le fait que l’on n’avait pas encore passé la première année, qui marque un seuil comme nous le verrons plus tard.

La précédente exécution du script ayant eu lieu le 19 mai 2024 à 11h (Paris), voyons ce que ça donne sur 12 jours et quelques heures :

Started at vendredi 31 mai 2024, 22:19:15 (UTC+0200)
Dry run mode
13 inactive accounts never used to purge
0 users to minimize
0 accounts to minimize because inactive and not seen since 1 year
0 active accounts not seen since 3 years to inactivate and minimize
12 users without comments/contents to purge
12 accounts to purge
6 logs to purge
12 friendly_id_slugs to purge
0 taggings to purge
0 oauth_access_grants for an oauth_application to purge
0 oauth_access_tokens for an oauth_application to purge
0 oauth_applications to purge
0 oauth_access_grants to purge
0 oauth_access_tokens to purge
0 deleted comments to minimize
0 comments from non-public contents to purge
0 taggings from non-public contents to purge
0 wiki_versions from non-public wiki_pages to purge
0 slugs from non-public wiki_pages to purge
0 non-public wiki_pages to purge
0 slugs from non-public trackers to purge
0 non-public trackers to purge
0 slugs from non-public posts to purge
0 non-public posts to purge
0 poll_answers to from non-public polls to purge
0 slugs from non-public polls to purge
0 non-public polls to purge
0 slugs from non-public bookmarks to purge
0 non-public bookmarks to purge
0 slugs from non-public diaries to purge
0 diaries converted into non-public news to purge
0 non-public diaries to purge
1 news_versions from non-public news to purge
10 paragraphs from non-public news to purge
0 links from non-public news to purge
1 slugs from non-public news to purge
1 non-public news to purge
1 non-public contents to purge

En fonctionnement pré-« 1 an », on a seulement quelques comptes créés mais jamais utilisés à nettoyer (ainsi que tout ce qui y est associé, donc les comptes « accounts », les individus « users », les logs associés « logs » s’il y en a, les raccourcis pour les adresses du site « slugs ») et les contenus, commentaires et étiquetages associés non publics donc non visibles qui ne sont plus nécessaires. On parle donc d’une poignée de comptes et autres par semaine.

Effet « 1 an »

Quelques heures plus tard, le résultat n’est plus du tout le même :

Started at Sat Jun 1 10:55:34 CEST 2024
Dry run mode
15 inactive accounts never used to purge
250 users to minimize
2616 accounts to minimize because inactive and not seen since 1 year
0 active accounts not seen since 3 years to inactivate and minimize
1412 users without comments/contents to purge
1412 accounts to purge
2285 logs to purge
1412 friendly_id_slugs to purge
6 taggings to purge
0 oauth_access_grants for an oauth_application to purge
0 oauth_access_tokens for an oauth_application to purge
0 oauth_applications to purge
15 oauth_access_grants to purge
47 oauth_access_tokens to purge
147 deleted comments to minimize
98 comments from non-public contents to purge
288 taggings from non-public contents to purge
0 wiki_versions from non-public wiki_pages to purge
0 slugs from non-public wiki_pages to purge
0 non-public wiki_pages to purge
0 slugs from non-public trackers to purge
0 non-public trackers to purge
166 slugs from non-public posts to purge
165 non-public posts to purge
10 poll_answers to from non-public polls to purge
2 slugs from non-public polls to purge
2 non-public polls to purge
46 slugs from non-public bookmarks to purge
46 non-public bookmarks to purge
27 slugs from non-public diaries to purge
0 diaries converted into non-public news to purge
27 non-public diaries to purge
139 news_versions from non-public news to purge
1278 paragraphs from non-public news to purge
33 links from non-public news to purge
66 slugs from non-public news to purge
61 non-public news to purge
301 non-public contents to purge

On a certes gagné 2 comptes jamais utilisés de plus à nettoyer, mais surtout on va minimiser plusieurs milliers de comptes et supprimer ou minimiser des centaines de contenus, commentaires et étiquetages. C’est le moment où la main ne doit pas trembler et où l’on doit avoir confiance dans le script de nettoyage et dans nos sauvegardes de la base de données, parce qu’il va falloir l’exécuter pour de vrai, et pas juste en mode « dry run » ou répétition, test à vide.

En pratique, quelques soucis très mineurs rencontrés sur la grosse transaction faite en base de données : un problème d’ordre de suppression et l’impossibilité de mettre une chaîne vide pour l’adresse de courriel, car il y a un index dessus qui demande l’unicité (une adresse .invalid propre à chaque compte sera donc utilisée).

Après l’exécution, si on relance le script, on se retrouve juste avec le nombre de comptes encore ouverts mais sans activité depuis un an :

Started at Sat Jun 1 13:30:16 CEST 2024
Dry run mode
0    inactive accounts never used to purge
0    users to minimize
905  accounts to minimize because inactive and not seen since 1 year
(…)

Ça change quoi ?

Regardons les statistiques des comptes avant et après le nettoyage « 1 an » (les évolutions ont été mises en visibilité avec un point rouge) :

Avant/après sur les statistiques des comptes

Interprétation : il s’agit des états des comptes par ordre d’identifiant en base de données (temporellement dans l’ordre de création), regroupés par paquets de 10 000 consécutifs. Quasiment pas de modification sur les comptes très anciens (il y en a beaucoup moins), et les changements se concentrent sur les comptes des dernières années. On a moins de comptes fermés après (on a pu en purger) et donc plus de comptes purgés (c’est-à-dire d’identifiants qui ne sont plus utilisés en base). Et le reste des changements correspond aux visites nominales du site.

On peut comparer les statistiques juste avant :

53667 utilisatrices et utilisateurs ayant ou ayant eu des comptes (et encore présents en base de données)
33216 comptes
2205 comptes utilisés sur le site au cours des trois derniers mois avec 20.2 jours de moyenne sans visite et 25.3 jours d’écart‑type
10 comptes en attente
2809 comptes fermés

Et les actuelles (au moment de la rédaction de cet article) :

51943 utilisatrices et utilisateurs ayant ou ayant eu des comptes (et encore présents en base de données)
31492 comptes
2208 comptes utilisés sur le site au cours des trois derniers mois avec 20.0 jours de moyenne sans visite et 25.3 jours d’écart‑type
1 compte en attente
1089 comptes fermés

Nous avons aussi réoptimisé les tables de la base de données (enfin on a dit à la base d’optimiser ce qu’elle pouvait avec un OPTIMIZE TABLE quoi). Ça devrait avoir entre une absence d’effet et un effet imperceptible sur les performances, a priori.

Et côté sauvegarde, on est passé d’un dump compressé gzip de 2 088 253 834 octets avant à 2 086 608 391 octets après, soit un gain faramineux de 0,08 %, bref rien.

Et après ?

Une fois « 1 an » passé, on aura chaque semaine les quelques comptes créés mais jamais utilisés à nettoyer, ainsi que les quelques contenus, commentaires et étiquetages associés non publics non nécessaires. Mais aussi les comptes qui auront atteint l’année d’inactivité dans la semaine courante (probablement une ou deux dizaines). Et ce jusqu’aux « 3 ans ».

À partir des « 3 ans », on va commencer à fermer des comptes et il y aura encore plus de données concernées chaque semaine.

Et ensuite on aura atteint le rythme nominal de fermeture de comptes et de minimisation de données associées.

Rendez-vous pour les « 3 ans » en juin 2026 donc.

Aller plus loin

  • # Le web disparait?

    Posté par  (site web personnel) . Évalué à 2 (+0/-0).

    Bonjour,

    est ce que l'on pourrait avoir des détails sur

    supprimer ou minimiser des centaines de contenus, commentaires et étiquetages

    Merci

    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

    • [^] # Re: Le web disparait?

      Posté par  . Évalué à 4 (+2/-0).

      Je pense que c'est ce qui est décrit ici (le lien est en haut de la dépêche) :

      https://linuxfr.org/aide#aide-donneesinutiles

      https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

    • [^] # Re: Le web disparait?

      Posté par  (site web personnel) . Évalué à 10 (+8/-0). Dernière modification le 04 juin 2024 à 10:30.

      Il s'agit de contenus / commentaires / étiquetages non publics (non publiés ou dépubliés depuis) : des dépêches refusées, des contenus dépubliés pour spam ou doublon ou à la demande de la personne l'ayant écrit, des commentaires dépubliés pour injure ou spam, etc. ça ne fait pas disparaître des contenus / commentaires / étiquetages publics.

      Extraits du script (le mot clé est "non-public" ici):

      98 comments from non-public contents to purge
      288 taggings from non-public contents to purge
      165 non-public posts to purge
      2 non-public polls to purge
      46 non-public bookmarks to purge
      27 non-public diaries to purge
      139 news_versions from non-public news to purge
      1278 paragraphs from non-public news to purge
      33 links from non-public news to purge
      61 non-public news to purge
      301 non-public contents to purge
      
  • # Bravo

    Posté par  . Évalué à 9 (+8/-1).

    Bravo pour ce travail de limiter les données personnelles du site. On voit que ça n'apporte pas grand chose techniquement (ça réduit très peu la place occupée), que l'opération peut faire peur (il peut toujours y avoir une erreur surtout quand on supprime des données), mais c'est un travail pour faire avancer les bonnes pratiques en ce qui concerne les gestion des données personnelles. Félicitation

    Et si un jour la base se fait voler vous serez plus confiant sur le fait de ne pas en avoir trop gardé.

    https://linuxfr.org/users/barmic/journaux/y-en-a-marre-de-ce-gros-troll

  • # Avertissement

    Posté par  . Évalué à 3 (+1/-0). Dernière modification le 04 juin 2024 à 12:50.

    fermeture des comptes inactifs pendant trois ans et suppression de leurs données conservées inutiles au service ;

    Est-ce qu'un mail est envoyé aux titulaires de comptes inactifs avant suppression ? Pour leur laisser l'occasion de "pérenniser" leur compte s'ils le souhaitent.

    • [^] # Re: Avertissement

      Posté par  (site web personnel) . Évalué à 3 (+0/-0). Dernière modification le 04 juin 2024 à 16:03.

      J'avais répondu dans les commentaires de la dépêche il y a un an :

      Idéalement non, le monde du courriel est suffisamment détérioré pour que ça soit pénible d'envoyer des milliers de courriel sans être classé spammeur, en devant gérer les erreurs variées, etc. La première application va concerner des comptes particulièrement anciens (certains auront plus de 10 ans d'inactivité par exemple).

      En tout cas il faudrait distiller lentement pour l'envoi initial. Pour la version nominale, ça serait probablement une bonne idée. Inconvénients: classement potentiel comme spammeur, réveil de spammeurs et pénibles, plus de boulot. Avantages: garder des vieux comptes jusqu'à la prochaine fois.

      • [^] # Re: Avertissement

        Posté par  . Évalué à 2 (+0/-0).

        La situation aurait pu évoluer en un an. Je serais toujours ennuyé de voir mon compte supprimé sans préavis.

        • [^] # Re: Avertissement

          Posté par  . Évalué à 0 (+1/-2).

          S'il y a un besoin d'automatisation, tu peux peut-être le faire de ton côté ? Un rappel au bout de 2 ans et demi pour ta dernière connexion.

      • [^] # Re: Avertissement

        Posté par  . Évalué à 2 (+0/-0).

        Si cette mesure avait été prise il y a 5 ans, mon compte aurait déjà été supprimé. J'ai eu plusieurs, et je vais encore en avoir, périodes sans me connecter de plus de 3 mois, après tout.
        Le mail aurai permis potentiellement de mitiger ces suppressions, même si ce n'est pas certain.

        En fait, j'utilise principalement le site sans m'identifier, et pour être franc, je ne crois pas que ma fréquence de connexion va augmenter (les contenus sont de plus en plus détachés de ce qui m'intéressait initialement, de plus en plus de "bullshit politique", non je ne détaillerais pas ce que j'appelle ainsi).
        La raison principale que j'aurai de me connecter, c'est de pouvoir lire les commentaires négatifs sans devoir ouvrir un nouvel onglet à chaque fois, en fait. Sauf que ça ne vaut pas le coup.
        Garder les cookies? Ma foi: «le monde du courriel est suffisamment détérioré» s'applique encore plus aux navigateurs, je n'ai aucune confiance en eux pour ne pas partager les cookies d'une manière ou d'une autre, que ce soit un bug ou une feature, peu m'importe.

        D'ailleurs, si le monde du mail est si mauvais que ça, j'imagine qu'il n'est plus obligatoire d'avoir une adresse mail pour s'inscrire? Ca serai aller dans la continuité de cette logique, après tout.

        Peut-être que je suis le seul dans ce cas, qui sait? Ou peut-être n'est-ce pas important, puisqu'après tout je me détache lentement de toute façon.

        • [^] # Re: Avertissement

          Posté par  . Évalué à 2 (+0/-0).

          périodes sans me connecter de plus de 3 mois

          C'est 3 ans.

          En fait, j'utilise principalement le site sans m'identifier

          Si tu ne vois pas d'intérêt à te connecter, quel est l'intérêt d'avoir un compte ? Perdre le compte serait sans conséquences. Mais sans vouloir jouer les stalker, ça m'a interpellé dc j'ai regardé : il me semble voir ce pseudo freem assez régulièrement quand même, et de fait tu as posté 2 fois plus de commentaires que moi avec un compte de 4 ans plus jeune. On pourrait dire que tu es un "régulier", non ?

          • [^] # Re: Avertissement

            Posté par  (site web personnel) . Évalué à 2 (+0/-0).

            Ou pulsar.

            Adhérer à l'April, ça vous tente ?

          • [^] # Re: Avertissement

            Posté par  . Évalué à 2 (+0/-0). Dernière modification le 13 juin 2024 à 23:11.

            C'est 3 ans.

            Oh, my bad.

            Si tu ne vois pas d'intérêt à te connecter, quel est l'intérêt d'avoir un compte ?

            Je ne m'identifie maintenant que si j'ai envie de réagir via un commentaire, ou un lien à poster. Je suppose qu'il pourrait m'arriver encore d'émettre un journal bookmark de temps en temps, aussi, vu que je trouve les liens relativement pénibles.

            On pourrait dire que tu es un "régulier", non ?

            J'ai été très régulier et présent pendant une période, oui.
            J'ai aussi publié quelques journaux (qui n'ont jamais soulevé les foules, certes).
            Ça serait amusant de voir un graph d'activité, je pense qu'il serait assez chaotique dans mon cas.

            Par exemple, ces dernières semaines je me connecte plus souvent, parce que comme je m'ennuie j'ai plus facilement envie de répondre à des trucs divers ou variés ici, mais ça n'a pas été le cas du tout pendant plusieurs mois (au jugé).
            Typiquement, je n'aurais pas pris la peine de connecter pour répondre sur le sujet de l'«exclusion» générée par le «flood» d'images XKCD récemment, si je n'étais pas dans une phase de ma vie ou je m'emmerde comme un rat mort: ça n'en vaut clairement pas le coup, normalement, je suis l'un des préceptes que mes parents m'ont inculqué depuis ma tendre enfance: on répond aux … par le silence (et régulièrement, je suis le …, aussi, hein!). Mais quand on s'emmerde, le silence est quand même moins drôle, donc… (oui, je sais, pas bien, j'en suis conscient, et dis en toute honnêteté la vérité malgré tout)

  • # Questions

    Posté par  . Évalué à 2 (+2/-0).

    Bonjour, désolé je ne suis pas sûr de bien voir toutes les conséquences. Deux questions.

    1. Être connecté sur cette période est suffisant pour ne pas se faire supprimer, même si on ne publie rien (c'est le last_seen_at ?) ?
    2. Si un compte avec du contenu publié est supprimé, est-ce que son pseudo est conservé ? Par exemple si j'ai l'intention de lire les articles d'un pseudo dans le futur par manque de temps dans le présent, le lien entre eux ne va pas disparaître ? On verra toujours son flux atom ?

    Merci.

    • [^] # Re: Questions

      Posté par  (site web personnel) . Évalué à 4 (+1/-0).

      Deux très bonnes questions et merci de les avoir posées.

      1. Oui il suffit de se connecter sur le site (donc de fait de le visiter de manière authentifiée) pour que la date de dernière visite (le last_seen_at dans le code) soit mise à jour
      2. Si un compte a du contenu publié, alors il sera minimisé s'il est inactif, il ne sera pas purgé. Son slug, la partie visible dans les hyperliens du compte, par exemple le "damiend" de "/users/damiend", sera conservé (et donc tous les liens vers les contenus et commentaires du compte). Bref ça ne changera rien. On pourrait même dire que ça présente un inconvénient : actuellement rien dans le flux ne dira que le compte ne publiera plus jamais.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.