À propos des étiquettes sur le site LinuxFr.org

Posté par  (site web personnel) . Édité par vmagnin, Florent Zara, Ysabeau 🧶 et Julien Jorge. Modéré par Ysabeau 🧶. Licence CC By‑SA.
45
2
fév.
2022
LinuxFr.org

Il existe déjà des statistiques sur les étiquettes sur le site LinuxFr.org (commentée dans chaque rétrospective annuelle) ; à l’exception de la prochaine phrase, je vais m’efforcer de ne parler que de choses qui n’y figurent pas déjà. La base de données contient actuellement environ 13 500 étiquettes, dont environ 11 600 étiquettes publiques, pour un total d’environ 123 000 étiquetages sur des contenus publiés.

Citation sans rapport : Il a d’ailleurs écrit lui-même qu’aucune étiquette ayant cours dans le monde occidental ne saurait lui convenir. (source)

Commençons par quelques informations en vrac :

  • les étiquettes sont assez peu visibles sur le site si vous utilisez un navigateur sur mobile. Cela pourrait être un problème pour leur évolution.
  • La capacité à bloquer l’étiquetage n’est pas encore codée et c’est bien dommage vu certains comportements (injures en étiquettes, étiquettes problématiques, etc.).
  • Les étiquettes dites « sémantiques » ne sont pas encore en place.
  • Concernant l’accentuation impôts et impots sont une seule et même étiquette, et la forme affichée est celle saisie au premier étiquetage (hors intervention en base de données pour corriger donc).
  • La taille d’une étiquette est limitée à 64 caractères.
  • Les tirets sont à utiliser pour les mots composés comme auto-hébergement ou parce que cela fait partie d’un nom comme COVID-19.
  • Les soulignés sont à utiliser pour remplacer les espaces et associer des mots, par exemple les noms de personnes comme linus_torvalds ou les concepts comme réseau_social ou jeu_libre.
  • Une modération de l’étiquetage est faite par l’équipe du site, notamment pour bien choisir les étiquettes, supprimer les doublons, regrouper les concepts, etc. Citation sans rapport : Sous des étiquettes opposées, sache reconnaître la même pensée, et sous des étiquettes semblables des conduites opposées. (source). Un des premiers choix à faire est singulier ou pluriel (jeu ou jeux ?), le choix par défaut étant le singulier. Mais d’autres questions peuvent se poser : genre, traduction ou franglais, acronyme, mettre ou non le second prénom d’une personne, mot régional ou national, etc.
  • Il existe un script tag_me.sh qui permet d’étiqueter massivement (mais manuellement) en donnant une étiquette et une recherche associée (par exemple étiquette lennart_poettering et toutes les combinaisons justes ou erronées qui ont pu être saisies sur le prénom, le nom ou les deux).
  • Le recours à ce script se fait dans des situations variées : nécrologies pour retrouver les mentions de la personne disparue (ou l’événement ou le projet disparu), version majeure d’un logiciel, recherche sur un projet qui donne de maigres résultats alors que l’on sait qu’il existe plein de contenus sur le sujet, modération suite à un signalement de doublon ou de faute, constat qu’un événement a été étiqueté en 2020 et en 2022 mais pas en 2021, etc.
  • En bas de page, on trouve un affichage des « étiquettes (tags) populaires » (en ce moment libreoffice, fosdem, lennart_poettering, onlyoffice, wallabag, police_de_caractères, académie_française, police_institution, ada, complotisme, agenda_du_libre, rust), influencé un peu par les étiquetages des visiteurs et beaucoup par les étiquetages massifs.

Sommaire

Rajoutons quelques statistiques pour faire bon poids.

Sur le nombre d’étiquetages

Étiquetages pour une étiquette donnée Nombre d’étiquettes publiques concernées
entre 1 et 9 9919
entre 10 et 99 1524
entre 100 et 999 171
1000 et plus 4

L’échelle en semi-log décimal montre que c’est tout de même bien tassé. Les quatre plus fréquemment utilisées sont des cas très particuliers (il s’agit de l’ajout initial lors de la mise en place des étiquettes en 2011, vu que l’on parle de noms de sections comme l'étiquette info_locales qui comprend notamment l'ancienne section lug, l'étiquette logiciel associée aux sorties de versions, l'étiquette sécurité initialement basée sur la section sécurité, et l'étiquette linux basée notamment sur la section noyau.

Avec une échelle en puissance de deux pour mieux distinguer :

Étiquetages pour une étiquette donnée Nombre d’étiquettes publiques concernées
2048 et plus 2
entre 1024 et 2047 1
entre 512 et 1023 16
entre 256 et 511 34
entre 128 et 255 78
entre 64 et 127 155
entre 32 et 63 332
entre 16 et 31 505
entre 8 et 15 926
entre 4 et 7 1539
entre 2 et 3 2697
1 5333

Le groupe « un seul étiquetage » où 5333 étiquettes n’ont été utilisées qu’une seule fois est composé soit des étiquettes vraiment peu utiles, soit des étiquettes à usage très ponctuel, comme un identifiant de faille CVE par exemple, soit des fautes de frappe qui auraient échappé à notre vigilance.

Sur l’ancienneté des étiquettes ayant un seul étiquetage

Année de création d’une étiquette publique à un seul étiquetage Étiquetages
2011 361
2012 625
2013 505
2014 545
2015 456
2016 432
2017 416
2018 468
2019 410
2020 578
2021 463
2022 74

On génère à peu près régulièrement des étiquettes publiques à un seul étiquetage. Cela n’est pas forcément bien ou mal d’avoir des étiquettes à un seul étiquetage (bref ça dépend des cas), mais en tout cas c’est plus ou moins régulier.

Sur les personnes qui étiquettent

Poser une étiquette nécessite d’avoir un compte sur le site.

Nombre de comptes concernés Étiquetages Commentaire
1 plus de 16384 ne cherchez pas c’est moi
2 entre 8192 et 16383 dont le cas spécial anonyme
0 entre 4096 et 8191
2 entre 2048 et 4095
4 entre 1024 et 2047
11 entre 512 et 1023
20 entre 256 et 511
53 entre 128 et 255
94 entre 64 et 127
177 entre 32 et 63
307 entre 16 et 31
538 entre 8 et 15
1053 entre 4 et 7
963 entre 2 et 3
653 1

Un nuage d’étiquettes entièrement en Markdown

sécurité · CINÉMA · KERNEL · windows · OPEN_SOURCE · PYTHON · eucd · vidéo · licence · réseau · sauvegarde · edward_snowden · HUMEUR · linux · kde · fedora · virtualisation · javascript · réseau_social · LIBRE · systemd · logiciel_libre · conférence · jeu_libre · BRONSONISATION · DISTRIBUTION · tutoriel · suse · XMPP · richard_stallman · SCO · red_hat · CLOUD · presse · photo · code · test · LINUXFR · open_hardware · TROLL · · MICROSOFT · OPENSUSE · dmca · raspberry_pi · smartphone · WEB · sortie_version · gimp · FOSDEM · ANDROID · LIVRE · COVID-19 · apple · PHP · GNOME · LINUS_TORVALDS · rtfm · FIREFOX · SPAM · diy · WIKIPEDIA · INFOS_LOCALES · openstreetmap · MOZILLA · java · REVUE_DE_PRESSE · git · ÉTHIQUE · VIE_PRIVÉE · sciences · GOOGLE · HADOPI · shell · éducation · FRANGLAIS · NOYAU_LINUX · XFCE · LOGICIEL · internet · musique · POLITIQUE · debian · programmation · DÉVELOPPEUR · AGENDA_DU_LIBRE · BSD · vote_électronique · brevets · auto-hébergement · JEU · podcast · rmll · JEU_VIDÉO · DADVSI · libreoffice · JEUX_LINUX · UBUNTU · blender · INTERVIEW

Un tel nuage montre un peu ses limites actuelles :

  • le poids de l’étiquetage initial basé sur les sections de l’époque (2011 en l'occurrence) est fort,
  • les ré-étiquetages massifs influencent beaucoup les résultats, et ne sont pas forcément représentatifs des publications sur le site (sauf à tout ré-étiqueter massivement),
  • kernel ne devrait pas apparaître (mais cela représente un très gros ré-étiquetage) :
$ bin/tag_me.sh noyau_linux kernel
Searching for contents containing “kernel” with tag.id 6082

https://linuxfr.org/users/trs80/journaux/ouverture-de-mon-journal
   (1285 autres liens vers des journaux)
https://linuxfr.org/wiki/linuxfr-org
   (8 autres liens vers des pages wiki)
https://linuxfr.org/suivi/archives
   (8 autres liens vers des entrées du suivi)
https://linuxfr.org/forums/linux-general/posts/passage-a-cooker-maj-kernel
   (1796 autres liens vers des entrées de forum)
https://linuxfr.org/sondages/le-kernel-26
   (8 autres liens vers des sondages)
https://linuxfr.org/news/kernel-cousin-pour-la-liste-debian-devel
   (692 autres liens vers des dépêches)

donc potentiellement 3800 étiquetages de plus pour noyau_linux,

  • les ré-étiquetages massifs sont aussi influencés par leur difficulté : trouver les variantes de Poettering pour l’étiquette lennart_poettering ou de Torvalds pour l’étiquette linus_torvalds est « facile ». Rechercher des occurrences de « C » dans du français pour le langage C, c’est très pénible. Ou séparer Linux, le noyau, de « Linux » le système d’exploitation par exemple.
  • # Socle interministériel des logiciels libres et Wikidata

    Posté par  . Évalué à 1.

    Bonjour Nal,

    Le SILL utilise une étiquette Wikidata par entrée et cela facilite la consolidation régulière des informations.

    Exemple avec 7-Zip (code Wikidata Q215051)

    On peut à chaque mise à jour de la base de données chercher tous les systèmes d’exploitation correspondants en utilisant le service d’interrogation SparQL de Wikidata :

    `SELECT ?app ?appLabel ?osLabel
    WHERE {
     ?app (p:P31/ps:P31/wdt:P279) wd:Q7397.
     ?app rdfs:label "7-Zip"@fr.
     ?app wdt:P306 ?os.
    OPTIONAL {?os rdfs:label ?osLabel filter (lang(?osLabel) = "fr")}.

    SERVICE wikibase:label {
    bd:serviceParam wikibase:language "fr".
    }
    }`
    exécuter la requête

    Beaucoup exploitable qu’un simple intitulé… parfois homonyme.

    À+
    R1

  • # Popularité

    Posté par  (site web personnel) . Évalué à 5. Dernière modification le 02 février 2022 à 22:09.

    A noter que la popularité de l'étiquette ne dit rien de la popularité du concept sous-jacent
    Ex facile : lennart_poettering
    L'explication tient au fait que le sens du mot popularité n'est pas le même (Lennart Poettering est "populaire" au sens de son étiquette mais l'est-il en tant que lui-même ? Controversé semble le qualificatif le plus appoprié)
    Je n'y avais jamais pensé

  • # Utilité des étiquettes ?

    Posté par  . Évalué à 5.

    Mais au final, à quoi servent elles réellement ?

    Pour ma part, j'imagine que l'intérêt de étiquettes serait de rechercher des articles en fonction d'une combinaison de celles-ci (par exemple "python" et "vidéo" sans "vlc"). Mais on ne peut apparemment toujours pas faire cet usage.
    Rechercher seulement sur un terme sans pouvoir affiner ramène trop de déchets.

    Au final, je ne vois pas trop d'autres usages qui pourrait être fait des étiquettes et donc je me questionne sur leur intérêt.

    Donc je questionne sans troller : qui se sert des étiquettes et pour quel usage typique ?

    • [^] # Re: Utilité des étiquettes ?

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      Les tags servent d'abord à catégoriser (comme faire des répertoires, mais conceptuellement moins contraignant que l'arborescence) ; la recherche est annexe.

      “It is seldom that liberty of any kind is lost all at once.” ― David Hume

      • [^] # Re: Utilité des étiquettes ?

        Posté par  . Évalué à 4.

        "Catégoriser d'abord", ça j'ai compris. C'est la suite qui me questionne : Pour en tirer quel usage ? Et par qui ?

        • [^] # Re: Utilité des étiquettes ?

          Posté par  (site web personnel) . Évalué à 3. Dernière modification le 03 février 2022 à 22:25.

          bin l'idée c'est de pousser plus loin la catégorisation des contenus

          Pour les nuages de mots-clés, tu as des exemples sur https://fr.wikipedia.org/wiki/Nuage_de_mots-cl%C3%A9s

          • l'idée c'est de faire varier la taille de police de caractère selon le nombre d’occurrences
          • cela permet de mettre en valeur les sujets ayant de la popularité (et donc plus que 10 tags…)

          Cela devrait permettre de la navigation transverse dans les contenus, ce à quoi je faisais allusion dans cette entrée de suivi : https://linuxfr.org/suivi/navigation-par-tags-connexes mais bon, pas encore implémenté (l'idée c'est de « zoomer » en ajoutant des tags pour réduire l'espace de navigation : par exemple tags "logiciel + jeu_libre").

          Ah bah, tiens, ya même une page wiki tags ;-) et même pour la sémantique tags-et-semantique

          Bon après tu peux approfondir du côté de Web_sémantique mais tu vas apprendre plein de nouveaux termes, genre taxonomie (en gros c'est des catégories) :-)

        • [^] # Re: Utilité des étiquettes ?

          Posté par  (site web personnel, Mastodon) . Évalué à 2.

          Perso, pour reprendre ton exemple, j'ai envie de lire que ce qui est étiqueté Ada ou OCaml (enfin commencer par ça car je lis tout au final, ou alors comme dans un autre commentaire j'ai besoin de lister les publications connexes sur la thématique). Mais je n'ai pas encore eu le besoin, comme toi, d'en combiner plusieurs ou d'en exclure : même le merdier m'intéresse.

          “It is seldom that liberty of any kind is lost all at once.” ― David Hume

    • [^] # Re: Utilité des étiquettes ?

      Posté par  (site web personnel, Mastodon) . Évalué à 7.

      Je m'en sers souvent (enfin, tout est relatif, je n'écris pas des nouvelles dépêches tous les jours) lors de la rédaction d'une dépêche sur une conférence, une sortie de version de logiciel, … pour retrouver les dépêches ou journaux parlant des éditions/versions précédentes ou d'autres choses liées à l'objet en question (et souvent j'insère ensuite des liens vers les contenus intéressants dans le nouvel article).

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.