Il existe déjà des statistiques sur les étiquettes sur le site LinuxFr.org (commentée dans chaque rétrospective annuelle) ; à l’exception de la prochaine phrase, je vais m’efforcer de ne parler que de choses qui n’y figurent pas déjà. La base de données contient actuellement environ 13 500 étiquettes, dont environ 11 600 étiquettes publiques, pour un total d’environ 123 000 étiquetages sur des contenus publiés.
Citation sans rapport : Il a d’ailleurs écrit lui-même qu’aucune étiquette ayant cours dans le monde occidental ne saurait lui convenir. (source)
Commençons par quelques informations en vrac :
- les étiquettes sont assez peu visibles sur le site si vous utilisez un navigateur sur mobile. Cela pourrait être un problème pour leur évolution.
- La capacité à bloquer l’étiquetage n’est pas encore codée et c’est bien dommage vu certains comportements (injures en étiquettes, étiquettes problématiques, etc.).
- Les étiquettes dites « sémantiques » ne sont pas encore en place.
- Concernant l’accentuation impôts et impots sont une seule et même étiquette, et la forme affichée est celle saisie au premier étiquetage (hors intervention en base de données pour corriger donc).
- La taille d’une étiquette est limitée à 64 caractères.
- Les tirets sont à utiliser pour les mots composés comme auto-hébergement ou parce que cela fait partie d’un nom comme COVID-19.
- Les soulignés sont à utiliser pour remplacer les espaces et associer des mots, par exemple les noms de personnes comme linus_torvalds ou les concepts comme réseau_social ou jeu_libre.
- Une modération de l’étiquetage est faite par l’équipe du site, notamment pour bien choisir les étiquettes, supprimer les doublons, regrouper les concepts, etc. Citation sans rapport : Sous des étiquettes opposées, sache reconnaître la même pensée, et sous des étiquettes semblables des conduites opposées. (source). Un des premiers choix à faire est singulier ou pluriel (jeu ou jeux ?), le choix par défaut étant le singulier. Mais d’autres questions peuvent se poser : genre, traduction ou franglais, acronyme, mettre ou non le second prénom d’une personne, mot régional ou national, etc.
- Il existe un script
tag_me.sh
qui permet d’étiqueter massivement (mais manuellement) en donnant une étiquette et une recherche associée (par exemple étiquette lennart_poettering et toutes les combinaisons justes ou erronées qui ont pu être saisies sur le prénom, le nom ou les deux). - Le recours à ce script se fait dans des situations variées : nécrologies pour retrouver les mentions de la personne disparue (ou l’événement ou le projet disparu), version majeure d’un logiciel, recherche sur un projet qui donne de maigres résultats alors que l’on sait qu’il existe plein de contenus sur le sujet, modération suite à un signalement de doublon ou de faute, constat qu’un événement a été étiqueté en 2020 et en 2022 mais pas en 2021, etc.
- En bas de page, on trouve un affichage des « étiquettes (tags) populaires » (en ce moment libreoffice, fosdem, lennart_poettering, onlyoffice, wallabag, police_de_caractères, académie_française, police_institution, ada, complotisme, agenda_du_libre, rust), influencé un peu par les étiquetages des visiteurs et beaucoup par les étiquetages massifs.
Sommaire
- Sur le nombre d’étiquetages
- Sur l’ancienneté des étiquettes ayant un seul étiquetage
- Sur les personnes qui étiquettent
- Un nuage d’étiquettes entièrement en Markdown
Rajoutons quelques statistiques pour faire bon poids.
Sur le nombre d’étiquetages
Étiquetages pour une étiquette donnée | Nombre d’étiquettes publiques concernées |
---|---|
entre 1 et 9 | 9919 |
entre 10 et 99 | 1524 |
entre 100 et 999 | 171 |
1000 et plus | 4 |
L’échelle en semi-log décimal montre que c’est tout de même bien tassé. Les quatre plus fréquemment utilisées sont des cas très particuliers (il s’agit de l’ajout initial lors de la mise en place des étiquettes en 2011, vu que l’on parle de noms de sections comme l'étiquette info_locales qui comprend notamment l'ancienne section lug, l'étiquette logiciel associée aux sorties de versions, l'étiquette sécurité initialement basée sur la section sécurité, et l'étiquette linux basée notamment sur la section noyau.
Avec une échelle en puissance de deux pour mieux distinguer :
Étiquetages pour une étiquette donnée | Nombre d’étiquettes publiques concernées |
---|---|
2048 et plus | 2 |
entre 1024 et 2047 | 1 |
entre 512 et 1023 | 16 |
entre 256 et 511 | 34 |
entre 128 et 255 | 78 |
entre 64 et 127 | 155 |
entre 32 et 63 | 332 |
entre 16 et 31 | 505 |
entre 8 et 15 | 926 |
entre 4 et 7 | 1539 |
entre 2 et 3 | 2697 |
1 | 5333 |
Le groupe « un seul étiquetage » où 5333 étiquettes n’ont été utilisées qu’une seule fois est composé soit des étiquettes vraiment peu utiles, soit des étiquettes à usage très ponctuel, comme un identifiant de faille CVE par exemple, soit des fautes de frappe qui auraient échappé à notre vigilance.
Sur l’ancienneté des étiquettes ayant un seul étiquetage
Année de création d’une étiquette publique à un seul étiquetage | Étiquetages |
---|---|
2011 | 361 |
2012 | 625 |
2013 | 505 |
2014 | 545 |
2015 | 456 |
2016 | 432 |
2017 | 416 |
2018 | 468 |
2019 | 410 |
2020 | 578 |
2021 | 463 |
2022 | 74 |
On génère à peu près régulièrement des étiquettes publiques à un seul étiquetage. Cela n’est pas forcément bien ou mal d’avoir des étiquettes à un seul étiquetage (bref ça dépend des cas), mais en tout cas c’est plus ou moins régulier.
Sur les personnes qui étiquettent
Poser une étiquette nécessite d’avoir un compte sur le site.
Nombre de comptes concernés | Étiquetages | Commentaire |
---|---|---|
1 | plus de 16384 | ne cherchez pas c’est moi |
2 | entre 8192 et 16383 | dont le cas spécial anonyme |
0 | entre 4096 et 8191 | |
2 | entre 2048 et 4095 | |
4 | entre 1024 et 2047 | |
11 | entre 512 et 1023 | |
20 | entre 256 et 511 | |
53 | entre 128 et 255 | |
94 | entre 64 et 127 | |
177 | entre 32 et 63 | |
307 | entre 16 et 31 | |
538 | entre 8 et 15 | |
1053 | entre 4 et 7 | |
963 | entre 2 et 3 | |
653 | 1 |
Un nuage d’étiquettes entièrement en Markdown
sécurité · CINÉMA · KERNEL · windows · OPEN_SOURCE · PYTHON · eucd · vidéo · licence · réseau · sauvegarde · edward_snowden · HUMEUR · linux · kde · fedora · virtualisation · javascript · réseau_social · LIBRE · systemd · logiciel_libre · conférence · jeu_libre · BRONSONISATION · DISTRIBUTION · tutoriel · suse · XMPP · richard_stallman · SCO · red_hat · CLOUD · presse · photo · code · test · LINUXFR · open_hardware · TROLL · · MICROSOFT · OPENSUSE · dmca · raspberry_pi · smartphone · WEB · sortie_version · gimp · FOSDEM · ANDROID · LIVRE · COVID-19 · apple · PHP · GNOME · LINUS_TORVALDS · rtfm · FIREFOX · SPAM · diy · WIKIPEDIA · INFOS_LOCALES · openstreetmap · MOZILLA · java · REVUE_DE_PRESSE · git · ÉTHIQUE · VIE_PRIVÉE · sciences · GOOGLE · HADOPI · shell · éducation · FRANGLAIS · NOYAU_LINUX · XFCE · LOGICIEL · internet · musique · POLITIQUE · debian · programmation · DÉVELOPPEUR · AGENDA_DU_LIBRE · BSD · vote_électronique · brevets · auto-hébergement · JEU · podcast · rmll · JEU_VIDÉO · DADVSI · libreoffice · JEUX_LINUX · UBUNTU · blender · INTERVIEW
Un tel nuage montre un peu ses limites actuelles :
- le poids de l’étiquetage initial basé sur les sections de l’époque (2011 en l'occurrence) est fort,
- les ré-étiquetages massifs influencent beaucoup les résultats, et ne sont pas forcément représentatifs des publications sur le site (sauf à tout ré-étiqueter massivement),
- kernel ne devrait pas apparaître (mais cela représente un très gros ré-étiquetage) :
$ bin/tag_me.sh noyau_linux kernel
Searching for contents containing “kernel” with tag.id 6082
https://linuxfr.org/users/trs80/journaux/ouverture-de-mon-journal
(… 1285 autres liens vers des journaux)
https://linuxfr.org/wiki/linuxfr-org
(… 8 autres liens vers des pages wiki)
https://linuxfr.org/suivi/archives
(… 8 autres liens vers des entrées du suivi)
https://linuxfr.org/forums/linux-general/posts/passage-a-cooker-maj-kernel
(… 1796 autres liens vers des entrées de forum)
https://linuxfr.org/sondages/le-kernel-26
(… 8 autres liens vers des sondages)
https://linuxfr.org/news/kernel-cousin-pour-la-liste-debian-devel
(… 692 autres liens vers des dépêches)
donc potentiellement 3800 étiquetages de plus pour noyau_linux,
- les ré-étiquetages massifs sont aussi influencés par leur difficulté : trouver les variantes de Poettering pour l’étiquette lennart_poettering ou de Torvalds pour l’étiquette linus_torvalds est « facile ». Rechercher des occurrences de « C » dans du français pour le langage C, c’est très pénible. Ou séparer Linux, le noyau, de « Linux » le système d’exploitation par exemple.
# Socle interministériel des logiciels libres et Wikidata
Posté par eleg . Évalué à 1.
Bonjour Nal,
Le SILL utilise une étiquette Wikidata par entrée et cela facilite la consolidation régulière des informations.
Exemple avec 7-Zip (code Wikidata Q215051)
On peut à chaque mise à jour de la base de données chercher tous les systèmes d’exploitation correspondants en utilisant le service d’interrogation SparQL de Wikidata :
`SELECT ?app ?appLabel ?osLabel
WHERE {
?app (p:P31/ps:P31/wdt:P279) wd:Q7397.
?app rdfs:label "7-Zip"@fr.
?app wdt:P306 ?os.
OPTIONAL {?os rdfs:label ?osLabel filter (lang(?osLabel) = "fr")}.
SERVICE wikibase:label {
bd:serviceParam wikibase:language "fr".
}
}`
exécuter la requête
Beaucoup exploitable qu’un simple intitulé… parfois homonyme.
À+
R1
[^] # Re: Socle interministériel des logiciels libres et Wikidata
Posté par Benoît Sibaud (site web personnel) . Évalué à 4.
Cf la dépêche
[^] # Re: Socle interministériel des logiciels libres et Wikidata
Posté par Thomas Douillard . Évalué à 1.
Soit dit en passant sur le sujet des étiquettes sémantiques et de l’orthographe, les urls sont indépendantes de l’orthographe. Sur Wikidata on peut d’ailleurs changer le libellé en français sans changer ce à quoi réfère l’élément. Donc ça résout en partie le problème du choix d’une étiquette dans un champ lexical donné.
# Popularité
Posté par antistress (site web personnel) . Évalué à 5. Dernière modification le 02 février 2022 à 22:09.
A noter que la popularité de l'étiquette ne dit rien de la popularité du concept sous-jacent
Ex facile : lennart_poettering
L'explication tient au fait que le sens du mot popularité n'est pas le même (Lennart Poettering est "populaire" au sens de son étiquette mais l'est-il en tant que lui-même ? Controversé semble le qualificatif le plus appoprié)
Je n'y avais jamais pensé
# Utilité des étiquettes ?
Posté par Axone . Évalué à 5.
Mais au final, à quoi servent elles réellement ?
Pour ma part, j'imagine que l'intérêt de étiquettes serait de rechercher des articles en fonction d'une combinaison de celles-ci (par exemple "python" et "vidéo" sans "vlc"). Mais on ne peut apparemment toujours pas faire cet usage.
Rechercher seulement sur un terme sans pouvoir affiner ramène trop de déchets.
Au final, je ne vois pas trop d'autres usages qui pourrait être fait des étiquettes et donc je me questionne sur leur intérêt.
Donc je questionne sans troller : qui se sert des étiquettes et pour quel usage typique ?
[^] # Re: Utilité des étiquettes ?
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 3.
Les tags servent d'abord à catégoriser (comme faire des répertoires, mais conceptuellement moins contraignant que l'arborescence) ; la recherche est annexe.
“It is seldom that liberty of any kind is lost all at once.” ― David Hume
[^] # Re: Utilité des étiquettes ?
Posté par Axone . Évalué à 4.
"Catégoriser d'abord", ça j'ai compris. C'est la suite qui me questionne : Pour en tirer quel usage ? Et par qui ?
[^] # Re: Utilité des étiquettes ?
Posté par BAud (site web personnel) . Évalué à 3. Dernière modification le 03 février 2022 à 22:25.
bin l'idée c'est de pousser plus loin la catégorisation des contenus
Pour les nuages de mots-clés, tu as des exemples sur https://fr.wikipedia.org/wiki/Nuage_de_mots-cl%C3%A9s
Cela devrait permettre de la navigation transverse dans les contenus, ce à quoi je faisais allusion dans cette entrée de suivi : https://linuxfr.org/suivi/navigation-par-tags-connexes mais bon, pas encore implémenté (l'idée c'est de « zoomer » en ajoutant des tags pour réduire l'espace de navigation : par exemple tags "logiciel + jeu_libre").
Ah bah, tiens, ya même une page wiki tags ;-) et même pour la sémantique tags-et-semantique
Bon après tu peux approfondir du côté de Web_sémantique mais tu vas apprendre plein de nouveaux termes, genre taxonomie (en gros c'est des catégories) :-)
[^] # Re: Utilité des étiquettes ?
Posté par Gil Cot ✔ (site web personnel, Mastodon) . Évalué à 2.
Perso, pour reprendre ton exemple, j'ai envie de lire que ce qui est étiqueté Ada ou OCaml (enfin commencer par ça car je lis tout au final, ou alors comme dans un autre commentaire j'ai besoin de lister les publications connexes sur la thématique). Mais je n'ai pas encore eu le besoin, comme toi, d'en combiner plusieurs ou d'en exclure : même le merdier m'intéresse.
“It is seldom that liberty of any kind is lost all at once.” ― David Hume
[^] # Re: Utilité des étiquettes ?
Posté par pulkomandy (site web personnel, Mastodon) . Évalué à 7.
Je m'en sers souvent (enfin, tout est relatif, je n'écris pas des nouvelles dépêches tous les jours) lors de la rédaction d'une dépêche sur une conférence, une sortie de version de logiciel, … pour retrouver les dépêches ou journaux parlant des éditions/versions précédentes ou d'autres choses liées à l'objet en question (et souvent j'insère ensuite des liens vers les contenus intéressants dans le nouvel article).
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.