Wikidata est une base de connaissances, structurée, multilingue et libre. C’est un projet frère de Wikipédia, développé par Wikimedia Deutschland et hébergé par la Wikimedia Foundation. Le but est de centraliser les connaissances sourcées et utiles aux projets Wikimedia. Le projet fête son quatrième anniversaire le 29 octobre 2016.
Une base reposant sur des standards ouverts
Wikidata utilise le logiciel libre MediaWiki, avec l’extension Wikibase pour gérer ses données. Toutefois, pour tirer pleinement parti des données liées, les données sont répliquées dans un triplestore Blazegraph, dont les caractéristiques sont développées ci‐dessous (un triplestore est une base de données spécialement conçue pour le stockage et la récupération de données RDF).
RDF
Les données sont stockées au format RDF, développé par le W3C. Chaque information a la forme d’un triplet élément-propriété-valeur. Par exemple, l’élément noyau Linux a une propriété créateur dont la valeur est Linus Torvalds. Wikidata étant une base multilingue, chaque élément et chaque propriété possèdent un identifiant unique (Q14579 pour le noyau Linux) et des libellés dans chaque langue (noyau Linux en français, Linux kernel en anglais, etc.). La valeur d’un triplet peut être une donnée simple (une date, un nombre, etc.) ou un autre élément (dans l’exemple précédent, Linus Torvalds est l’élément Q34253), ce qui permet de lier les éléments entre eux.
SPARQL
Le langage de requêtes SPARQL, également développé par le W3C, permet d’interroger les bases RDF et donc Wikidata. Une interface, avec auto‐complétion et de nombreux exemples, est disponible. La requête suivante liste les logiciels libres les plus récents :
SELECT ?item ?itemLabel ?date
WHERE {
?item wdt:P31 wd:Q341 .
?item wdt:P571 ?date .
SERVICE wikibase:label { bd:serviceParam wikibase:language "fr,en" }
}
ORDER BY DESC(?date)
LIMIT 10
Le langage SPARQL ressemble au langage SQL des bases relationnelles. La clause SELECT
permet de sélectionner les champs à retourner : ici, l’identifiant d’un élément, son libellé et une date. La clause WHERE
permet de filtrer les éléments retournés. Ici, on ne retourne que les éléments dont la propriété nature de l’élément (P31) est un logiciel libre (Q341) et qui ont une propriété date de création (P571) renseignée. Le service wikibase:label
permet de récupérer automatiquement les libellés des éléments, d’abord en français, puis en anglais s’ils n’existent pas en français. La clause ORDER BY
permet de trier les résultats, ici par date de création. Enfin, la clause LIMIT
permet de limiter le nombre de résultats, ici à 10.
Des données dans le domaine public
Les données de Wikidata sont sous licence Creative Commons CC0, ce qui fait qu’elles sont réutilisables par tous sans contrainte. Par exemple, le projet libre inventaire.io, reposant notamment sur Wikidata, permet de lister les livres de sa bibliothèque et garder une trace des emprunts.
Un projet en développement
Wikidata est un projet jeune et encore largement en développement. Deux chantiers en cours sont l’intégration du Wiktionnaire (un dictionnaire collaboratif) et de Wikimedia Commons (une banque de fichiers libres) dans Wikidata, pour tirer parti des données structurées. L’intérêt est, par exemple, d’avoir des métadonnées fiables et avec une structure commune pour tous les fichiers de Commons, ce qui n’est pas le cas actuellement.
Des rencontres ont lieu un peu partout dans le monde jusqu’au 5 novembre pour fêter le quatrième anniversaire du projet.
Aller plus loin
- Site de Wikidata (588 clics)
- Liste des évènements organisés pour l’anniversaire (102 clics)
# Licence
Posté par pamputt . Évalué à 10.
Bonjour, la licence de Wikidata est CC0 alors que la licence des différentes projets Wikimedia d'où proviennent en partie les infos de Wikidata (date et lieu de naissance, etc.) sont sous licence CC by-sa. Donc a priori, il n'est pas possible de récupéré des infos des projet Wikimedia (Wikipedia et autres) pour les introduire dans Wikidata. Cela signifie-t-il qu'une partie des infos de Wikidata devraient être retirées si on n'a pas l'accord explicite de l'auteur qui a ajouté l'info sur le projet Wikimedia correspondant ?
[^] # Re: Licence
Posté par maxlath . Évalué à 1.
C'est toujours un peu flou (en tout cas pour moi) la licence d'un import de donnée, mais dans la pratique du moins, non, il n'y a pas besoin d'autorisation, pas plus que l'on demande aux sources externes (journaux, blogs, etc) pour importer des données factuelles. Par contre, il est important d'ajouter la source en référence, mais c'est plus pour une question de traçabilité de l'information.
[^] # Re: Licence
Posté par Fabimaru (site web personnel) . Évalué à 2.
Sans être un expert, il me semble bien que ça dépend de la source de données. Dans l'Union Européenne, si les données sont organisées en base de données, alors elles sont protégées par la directive de Protection juridique des bases de données. Ainsi, on ne peut pas allègrement copier des coordonnées entre Google Maps, Wikidata et OpenStreetMap.
Pour les pays hors-UE, ça doit aussi dépendre de chaque législation.
Pour ce qui est de l'import depuis les sites de la fondation en licence CC by-sa, je me demande si l'interprétation suivante est valide: les données proprement dites sont factuelles donc pourraient être importées, et comme le « propriétaire » de la base de données source est le même que celle de destination (la fondation), il n'y aurait pas de problème vis-à-vis de la directive européenne ci-dessus. Mais ça veut dire qu'un contributeur aux sites Wikimedia sous CC by-sa qui ne voudrait pas que les données soient dans le domaine public ne devrait pas contribuer.
[^] # Re: Licence
Posté par windu.2b . Évalué à 2.
Mais alors, comment gérer le cas d'un contributeur qui n'aurait pas voulu que ses contributions soient recopiées dans un projet sous licence CC0, si ledit projet n'existait pas encore (ex : un contributeur il y a plus de 4 ans) ?
[^] # Re: Licence
Posté par Jehan (site web personnel, Mastodon) . Évalué à 6.
Tu ne peux pas vraiment mettre du droit d'auteur sur des faits. Sinon le premier journal qui sort une info en a l'exclusivité et devrait toucher des droits d'auteur sur toute redite de l'info.
Le droit d'auteur s'applique sur des œuvres de l'esprit, des choses "créatives". Ainsi tu pourras avoir du droit d'auteur sur un texte complet en français, avec des tournures de phrases, des figures de réthoriques, des blagues peut-être même. En gros, oui si tu copies un paragraphe complet de Wikipedia (voire même une phrase un peu élaborée qui n'est pas juste «La terre est une planète du système solaire»), oui probablement le droit d'auteur prend effet. Quand tu extrais les données pures par contre, alors tu ne peux pas prétendre de droits d'auteur dessus (heureusement, déjà la situation du droit d'auteur n'est pas heureuse. Imaginez si on pouvait bloquer une info juste parce qu'on est le premier à la dire!).
Comme en plus Wikidata ne cherche qu'à rassembler des infos pures dans toute leur splendeur, y a vraiment rien à craindre de ce côté là. C'est uniquement Wikipédia qui doit faire attention à paraphraser ses sources propriétaires et ne surtout pas faire de copier-coller d'articles.
Film d'animation libre en CC by-sa/Art Libre, fait avec GIMP et autre logiciels libres: ZeMarmot [ http://film.zemarmot.net ]
[^] # Re: Licence
Posté par pamputt . Évalué à 3.
De ce que je comprends ce que tu dis est vrai sauf qu'il existe par ailleurs un droit d'auteur sur les bases de données. Ainsi le fait de regrouper telle ou telle information ensemble est-il protégé par ce droit.
Donc ta réponse même si elle peut répondre pour le cas de Wikipédia ne sera probablement pas exportable au cas du Wiktionnaire lorsqu'il sera intégré. En effet, le Larousse ou le Petit Robert sont protégés par le droit d'auteur aussi bien pour la formulation des définitions aussi bien que pour la liste des mots qu'ils ont choisi de décrire. Un exemple plus parlant est la protection d'un dictionnaire multilingue par exemple anglais-français. Un tel dictionnaire ne fait que donner une liste de mots et les mots correspondant dans l'autre langue. Or de tel dictionnaire sont protégés par le droit d'auteur ou le droit des bases de données.
[^] # Re: Licence
Posté par Thomas Douillard . Évalué à 4.
Tu n'as pas l'air de connaître le droit des bases de données - une base de donnée ayant juridiquement une définition très très large … genre Une base de données se définit comme " un recueil d'œuvres, de données ou d'autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen " conformément à l'article L. 112-3 du C.P.I. d'après http://www.caprioli-avocats.com/publications/43-propriete-intelectuelle/52-le-regime-juridique-des-bases-de-donnees
Ce qui fait que les infoboîtes sont potentiellement largement qualifiées. Donc on ne peut peut être pas mettre du droit d'auteur en tant que tel, mais les BDD ont un régime spécifique : Cette seconde protection spécifique sui generis a été instituée afin d'assurer une meilleure défense des investissements " substantiels " réalisés par les producteurs qui rassemblent, sélectionnent, organisent les données contenues dans une base mais dont l'action ne pouvait être protégée par le droit d'auteur.
De mémoire, ce qui est protégé c'est la compilation de ces données là, et le fait que Wikipédia ait des critères pour choisir ces articles admissible définit le périmètre de cette base, en quelque sorte. Ce qui est protégé c'est pas le fait en tant que tel mais d'avoir choisi précisément cette combinaison de faits là … genre les GR sont protégés parce que ça définit un choix de sentier qui définit une rando précisément choisie, me semble-t-il.
La loi prévoit que le producteur de bases de données a le droit d’interdire l’extraction ou la réutilisation par la mise à la disposition du public de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu de sa base : on est pile dedans. On appréciera la formulation ultra souple qui fait que la part l'interprétation m'a l'air totalement gigantesque.
Après faudrait que quelqu'un ait l'idée de se plaindre dans la communauté … (vu comment certains ont une haute idée de la francophonie et sont pas très content de voir le côté de partage international sur Wikidata, c'est pas nécessairement totalement exclu celà dit …)
[^] # Re: Licence
Posté par claudex . Évalué à 5.
Attention qu'il y a des exceptions. Par exemple, la base de données des fuseaux horaire (tzdata) ne semble pas être copyrightable https://www.eff.org/press/releases/eff-wins-protection-time-zone-database
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
# Plus de détails!
Posté par djano . Évalué à 6.
Bonjour, merci pour ce rapide aperçu de wikidata. Je ne savais pas que c'était stocké en RDF et que l'on pouvait faire des requêtes avec SPARQL!
Quelle est le degré d'adoption de wikidata par les différentes langues de wikipedia? Quelles langues l'ont le plus adopté et que font-elles avec? Y-a-t-il des rétrospectives annuelles sur l'avancement du projet?
En quoi consiste exactement les chantiers sur le wiktionnaire et wikimedia commons? Avez-vous plus de détails?
[^] # Re: Plus de détails!
Posté par Thomas Douillard . Évalué à 10.
Ce n'est pas stocké en RDF en vrai - en tout cas sur le modèle d'édition, qui doit être du json (je crois). Le RDF c'est juste un format d'export généré à partir des données, et synchronisé avec le format de stockage et d'édition de Wikidata. Mais faire des requêtes SPARQL est très pratique et puissant : il existe déjà des tonnes de requêtes sur la page d'exemple
Le degré d'adoption est variable, les choses progressent constamment mais pas forcément extrêmement vite. La communauté francophone vient par exemple de prendre une décision concernant l'utilisation des données de Wikidata : (certaines personnes assez actives sont très hostiles aux déploiements massif par les robots, y compris d'infobox Wikidata - des déploiement massifs ont eu lieux et ça a entraîné de grosses polémiques communautaires qui ont abouti à ce résultat après au moins un an de tractations et de requêtes aux administrateurs …)
Mais il y a pleins de projets autour de Wikidata. cool wd pour la complétude des données wikicite squid et reasonator histropedia pour faire des frises chronologique, de la génération de brouillon d'articles minimaux avec Wikidata (déjà déployé sur certaines petites Wikipédia avec ArticlePlaceholder exemple - du coup c'est marrant, je sais du tout dans quelle langue est écrite cette Wikipédia, mais je vois les infos en français avec ma config :) , mix'n'match pour faire la correspondance entre Wikidata et d'autre BDD et j'en passe …
Le chantier commons est relativement simple sur le papier : il s'agit de permettre de décrire les fichiers multimédia de Commons avec des données structurées et plus avec le fatra de templates et de catégorie existant : les données exif des photos, les choses décrites par les photos … et de permettre de réutiliser les entités et les propriétés Wikidata pour faire ça. À terme, ça permettra surement de retrouver un fichier commons avec SPARQL par exemple avec les critères qu'on veut. Il existe(ait?) déjà une version préliminaire : l'annonce (mais ça a l'air down).
Le chantier sur le wiktionnaire est dans la même veine : il s'agit de structure les informations sur les termes à la manière de Wikidata grâce à un modèle de données adapté - les propositions et la page du projet - et de pouvoir utiliser les propriétés Wikidata pour décrire le sens des mots par exemple, de lier un terme a ses variations lexicales, de stocker les synonymes de manière structurées … J'ai cru comprendre que la première étape serait la gestion des interwikis automatiques pour les termes qui s'écrivent de la même manière dans différentes langues. Bref, c'est très prometteur …
Le grand absent actuellement - mais c'est aussi en cours - est la génération automatique de liste à partir des données de Wikidata sur les wikis. Mais il existe quand même un robot de Magnus Manske qui fait le job. La communauté francophone n'aime pas trop par contre dans l'espace principal, ça fait polémique. D'un autre côté l'équipe de développement peine à savoir ce qu'elle (la communauté) veut sur ce plan, c'est un peu dommage.
[^] # Exemple d'infoboîte
Posté par Thomas Douillard . Évalué à 8.
(j'ai raté la deadline pour modifier mon commentaire)
Un exemple de développement ambitieux pour Wikipédia autour de Wikidata : le module "course cyclistes" qui est développé sur le wiki de Wikidata en lua et déjà déployé sur plusieurs wikipédia pour gérer les résultats de courses cyclistes. Ça facilite la propagation des résultats vu que les éditeurs n'ont qu'à renseigner les infos sur Wikidata pour qu'elles apparaîssent sur les différentes éditions linguistiques de Wikipédia …
[^] # Re: Exemple d'infoboîte
Posté par djano . Évalué à 5.
Ouah merci pour toutes ces infos! Je vois que tu suis bien le travail fait dans ce domaine.
reasonator est impressionnant quand on connait l'onterface par defaut de wikidata qui est austere.
wikidata games est un outil bien fait. L'interface permet de rapidement contribuer sur des taches simples mais tres precises. Ca facilite la contribution en minimisant le temps passe a le faire, et ca reduit les erreurs puisqu'il y a un but unique a atteindre sans aucune distraction. Chapeau bas!
Je suis un peu decu du vote contre les modifications automatiques par des robots :( Je suppose qu'il y a eu quelques robots fous qui ont modifies les articles n'importe comment? Ce serait surement mieux d'avoir des interfaces qui permettent de modifier les articles en masse, mais qui laissent un humain valider les modifications avant de les committer a la base de donnees.
Vu la masse de donnees a manipuler dans tous les projets wikipedia, pour moi, la seule maniere de maintenir les articles/donnees et de le faire automatiquement. Ce n'est pas faisable pour un humain de tout modifier a la main.
Je suis un fervent partisan de cette approche: http://autoRefactor.org , mais en contrepartie, ceux faisant l'automatisation doivent etre tres meticuleux et averse au risque pour eviter de faire plus de bien que de mal.
Si je n'avais pas deja un projet sur lequel je travaille, je serai tres tente pour automatiser des taches sur les projets wikimedia.
Wikidata est un projet vraiment excitant quand je pense a l'impact qu'il pourrait avoir.
Le module "course cyclistes" est vraiment un exemple de la force de wikidata a mon sens.
On edite dans un lieu unique (wikidata) et tous les wikis peuvent beneficier automatiquement des nouvelles donnees!
Je trouve l'adoption de wikidata un peu lente quand je pense a ces benefices que tous les wikis pourraient en retirer. Ceci dit je pense que les resistances vont s'estomper avec le temps et ces decisions seront reconsiderees lorsque l'on se rendra compte de l'interet de passer par wikidata. Ca permet de reduire la charge de travail pour les humains sur des sujets fastidieux, et de leur permettre de travailler sur des choses plus interessantes.
[^] # Re: Exemple d'infoboîte
Posté par Thomas Douillard . Évalué à 3.
Non il y a eu des robots qui ont simplement inséré des infoboîtes sur des articles qui n'en avaient pas. Ce qui a posé problème semble-t-il avec ces déploiements c'est à la fois une certaine hostilité générale de certains (Wikidata projet global, ressenti comme complexe, projet externe à Wikipédia en français) et d'autre part la difficulté du fait de contrôler que les infos dans l'article correspondent bien exactement aux informations de l'infobox. Certains tiennent absolument à un contrôle manuel.
Le truc bête avec cette approche c'est que comme l'erreur éventuelle - ou parfois une "incohérence" due au fait que Wikidata est plus précise que Wikipédia sur un lieux ou vice-versa - finalement une information erronée de Wikipédia qu'un lecteur de passage pourrait remarquer et signaler en remarquant que l'infobox est contradictoire avec l'article risque de ne pas l'être - signalée - et de rester telle quelle sur Wikipédia plus longtemps que si on avait bêtement tout déployé puis ensuite cherché à consolider.
[^] # Re: Exemple d'infoboîte
Posté par djano . Évalué à 1.
Et oui… sniff!
# Des cadeaux par milliers !
Posté par Thomas Douillard . Évalué à 9.
Bon d'accord, pas par milliers, mais des cadeaux quand même :
http://osdir.com/ml/general/2016-10/msg40849.html
Traduction du mail
# Traduction en espagnol
Posté par Sylvain Lesage (site web personnel) . Évalué à 3.
Merci pour l'article, je l'ai traduit à l'espagnol (merci de signaler tout problème) :
https://blog.agetic.gob.bo/?p=432
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.