• # Contenus non publics

    Posté par  (site web personnel) . Évalué à 3 (+0/-0). Dernière modification le 29 janvier 2023 à 20:18.

    Supprimer les contenus non publics datant de plus d'un an (et les étiquetages associés s'il y en a, et les commentaires associés s'il y en a)

    • 139 pages wiki non publiques supprimées (datant de mai 2012 à avril 2020) -> 139 tuples de wiki_pages, 139 de nodes, 139 de friendly_id_slugs, 247 de wiki_versions et 26 de comments
    • 40 entrées de suivi non publiques (datant de juillet 2021 à octobre 2019) -> 40 tuples de trackers, 40 de nodes, 64 de friendly_id_slugs et 10 de comments
    • 106 sondages non publics et hors modération (date d'avril 2012 à juillet 2021) -> 106 tuples de polls, 106 de nodes, 110 de friendly_id_slugs, 662 de poll_answers et 2 de comments
    • 894 entrées de forums non publiques (jusqu'au 28 janvier 2022)-> 894 posts, 894 nodes, 933 friendly_id_slugs, 382 comments
    • 171 journaux non publics (jusqu'au 28 janvier 2022)-> 171 diaries, 171 nodes, 172 friendly_id_slugs, 1509 comments
    • 170 liens non publics (jusqu'au 28 janvier 2022) -> 170 bookmarks, 170 nodes, 170 friendly_id_slugs et 61 comments
    • 1627 dépêches non publiques rejetées ou supprimées (jusqu'au 28 janvier 2022) -> 1627 news, 1627 nodes, 2250 friendly_id_slugs, 18509 news_versions, 15468 paragraphs, 1952 links
    • [^] # Re: Contenus non publics

      Posté par  (site web personnel, Mastodon) . Évalué à 3 (+0/-0).

      Ça mériterait un journal pour nous expliquer ce que sont ces contenus non publics (je ne pensais pas la chose possible) et les apports du nettoyage de quart de siècle.

      “It is seldom that liberty of any kind is lost all at once.” ― David Hume

      • [^] # Re: Contenus non publics

        Posté par  (site web personnel) . Évalué à 4 (+0/-0).

        Chaque rétrospective de quinzaine (exemple) indique les commentaires et contenus masqués :

        1472 commentaires publiés (dont 3 masqués depuis) ;
        778 étiquettes posées ;
        63 comptes ouverts (dont 16 fermés depuis) ;
        45 entrées de forum publiées (dont 5 masquées depuis) ;
        98 liens publiés (dont 2 masqués depuis) ;
        19 dépêches publiées ;
        17 journaux publiés (dont 1 masqué depuis) ;
        1 entrée nouvelle, 1 corrigée et 0 invalide dans le système de suivi ;
        1 sondage publié ;
        0 page wiki publiée (dont 0 masquée depuis).

        Les comptes non confirmés (validation du lien reçu par courriel) / jamais utilisés sont supprimés automatiquement.
        Les comptes fermés le sont soit par les personnes ayant les comptes, soit par les admins (spam de très loin en premier, abus, illégalité manifeste, demande des personnes ayant les comptes, etc.). Ils restent en base.
        Les contenus (dépêches, journaux, forums, sondages, pages wiki, suivi, liens) et les commentaires peuvent être masqués/dépubliés par les admins (spam, abus, illégalité manifeste, demande des personnes pour virer un doublon ou retirer un propos, purge de compte demandée, etc.). À part dans le cas de la purge, qui a lieu en base, les contenus et commentaires dépubliés restent en base.
        Les étiquettes peuvent être masquées par les admins (mauvais nom, doublon, spam, etc.). Ces étiquettes restent en base.

        L'opération de ce ticket consistait à supprimer ce qui était invisible sauf pour les admins, et qui avait plus d'un an, pour alléger la base, pour virer l'inutile. Pourquoi garder un an ? Pour avoir un peu de recul sur les spammeurs et les problèmes passés au besoin, pour republier au besoin ce qui aurait été dépublié par erreur / à tort, etc.

        L'effacement automatique au bout d'un an de l'invisible serait à implémenter.
        Et les questions plus compliquées/longues arrivent ensuite :

        • mettre en place une fermeture des comptes inactifs après une durée (règle à définir, communiquer et implémenter). Objectifs: minimisation des données personnelles conservées, alléger la base
        • mettre en place une suppression des comptes fermés après une durée (règle à définir, communiquer et implémenter). Objectifs: minimisation des données personnelles conservées, alléger la base :
          • associés à aucun contenu/commentaire public : cas facile
          • associés à un ou plus contenu/commentaire public : arbitrage minimisation des données personnelles (RGPD) et droit d'auteur (conserver le pseudo ou nom de la personne)
        • définir pour chaque donnée personnelle ce qui arrive suivant les cas
        • [^] # Re: Contenus non publics

          Posté par  (site web personnel, Mastodon) . Évalué à 3 (+0/-0).

          Et les comptes confirmés mais pas actifs ou plus actifs depuis un certain temps, ils sont supprimés aussi ?

          « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

          • [^] # Re: Contenus non publics

            Posté par  (site web personnel) . Évalué à 3 (+0/-0).

            C'est ce que je décris dans mon dernière paragraphe notamment. Actuellement, non, rien n'est fait automagiquement.

            • [^] # Re: Contenus non publics

              Posté par  (site web personnel, Mastodon) . Évalué à 4 (+0/-0).

              Je n'avais pas percuté.

              On pourrait dire dix ans par exemple pour les comptes inactifs. C'est le délai de prescription courant de pas mal de documents :-) qui fait qu'on doit virer des bases de données clients (donc commerciales), les clients qui n'ont pas été actifs (pour lesquels on n'a pas fait de facture). C'est un délai comme un autre. Mais on peut faire moins.

              « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

              • [^] # Re: Contenus non publics

                Posté par  (site web personnel) . Évalué à 4 (+0/-0).

                10 ans c'est probablement trop long vu notre nécessité/besoin et ce que demande le RGPD. On n'a certes pas de données hypersensibles, mais pas grand chose ne justifie de les garder super longtemps non plus. Six ou sept ans serait un max a priori. Mais pour LinuxFr il faudrait plutôt choisir entre 1 an ou 3 ans ou 5 ans.

                Mon idée serait de lancer une dépêche sous peu indiquant les changements envisagés, et de les appliquer à partir de la date anniversaire des 25 ans du site (fin juin donc), ce qui laisserait le temps aux gens qui le souhaitent de réagir, utiliser leur compte, fermer leur compte, etc.

            • [^] # Re: Contenus non publics

              Posté par  (site web personnel, Mastodon) . Évalué à 2 (+0/-0).

              Merci beaucoup pour ces réponses détaillées.
              C'est passionnant (et pas mal chronophage non ?)

              “It is seldom that liberty of any kind is lost all at once.” ― David Hume

              • [^] # Re: Contenus non publics

                Posté par  (site web personnel) . Évalué à 3 (+0/-0).

                Chronophage de répondre aux questions ? D'une part ça montre un intérêt, sur des tâches qui pourraient être faites dans l'indifférence complète, donc on ne va pas se plaindre d'avoir des questions :). C'est même plutôt bon pour la motivation je dirais. D'autre part ça aide à préparer la suite en réfléchissant au sujet et en mettant par écrit, pédagogiquement si possible. Plus d'autres aspects comme le fait de pouvoir partager avec d'autres personnes de l'équipe qui débuteraient ou connaîtraient moins le sujet, ou bien le fait que même tout seul je peux retrouver un vieux commentaire à moi et comprendre/redécouvrir ce que j'avais fait, quels étaient les chiffres de l'époque, etc.

  • # Commentaires non publics datant de plus d'un an

    Posté par  (site web personnel) . Évalué à 3 (+0/-0).

    Les titre et corps des commentaires de plus d'un an ont été purgés (ce qui ne change rien en apparence pour tous ceux qui ne sont pas dans l'administration du site, mais qui allège la base de données). 14338 commentaires concernés.

  • # Durée des optimisations de tables

    Posté par  (site web personnel) . Évalué à 3 (+0/-0).

    wiki_pages (0.51 sec)
    nodes (9.01 sec)
    friendly_id_slugs (6.10 sec)
    wiki_versions (1.41 sec)
    comments (19 min 30.00 sec)
    trackers (0.70 sec)
    polls (0.35 sec)
    poll_answers (0.35 sec)
    posts (15.73 sec)
    diaries (26.85 sec)
    bookmarks (0.51 sec)
    news (19.61 sec)
    news_versions (17 min 59.50 sec)
    paragraphs (30.03 sec)
    links (2.30 sec)
    
  • # Total ?

    Posté par  (site web personnel) . Évalué à 3 (+0/-0).

    Quel est le poids total du site en Gio ?

    • [^] # Re: Total ?

      Posté par  (site web personnel) . Évalué à 5 (+0/-0).

      (pour les contenus en base de données mariadb ou redis, hors fichiers d'images, caches, logs, etc)

      avant le nettoyage :

      ls -l --si
      -rw------- 1 root root 2,0G janv. 29 05:27 mariadb.dump.gz
      -rw------- 1 root root  20M janv. 29 05:27 redis.rdb.gz

      après le nettoyage :

      -rw------- 1 root root 1,9G janv. 30 03:25 mariadb.dump.gz
      -rw------- 1 root root  20M janv. 30 03:25 redis.rdb.gz

      (8,9 GiB pour mariadb.dump hors compression gzip)

      data_length + index_length : 12.85 GiB selon MariaDB

      +----------------------+------------+---------+
      | Table                | Size (MiB) | Rows    |
      +----------------------+------------+---------+
      | news_versions        |    8969.06 |  383245 |
      | comments             |    3219.47 | 1888308 |
      | diaries              |     271.13 |   39730 |
      | paragraphs           |     190.19 |  220226 |
      | news                 |     169.41 |   27263 |
      | posts                |     165.66 |   39876 |
      | friendly_id_slugs    |      29.11 |  181798 |
      | nodes                |      27.13 |  115099 |
      | wiki_versions        |      26.66 |    2201 |
      | taggings             |      26.50 |  154177 |
      | accounts             |      18.13 |   33400 |
      | oauth_access_tokens  |      14.52 |    7473 |
      | links                |      12.03 |   85217 |
      | trackers             |       5.83 |    1987 |
      | users                |       5.03 |   53852 |
      | wiki_pages           |       2.53 |     154 |
      | tags                 |       2.30 |   14096 |
      | bookmarks            |       2.03 |    5625 |
      | logs                 |       1.78 |   12028 |
      | oauth_access_grants  |       0.56 |    1576 |
      | poll_answers         |       0.47 |    4080 |
      | polls                |       0.31 |     469 |
      | pages                |       0.17 |      13 |
      | oauth_applications   |       0.05 |      20 |
      | sections             |       0.05 |      99 |
      | forums               |       0.03 |      39 |
      | friend_sites         |       0.03 |      13 |
      | banners              |       0.02 |      14 |
      | responses            |       0.02 |      12 |
      | schema_migrations    |       0.02 |      74 |
      | categories           |       0.02 |      31 |
      +----------------------+------------+---------+
      

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.