Wikidata fête ses 4 ans

Ce billet, par Envel Le Hir, Davy Defaud, M5oul et ZeroHeure, a été initialement publié le 29 octobre 2016 sur DLFP sous licence CC BY-SA, dans une version légèrement différente.

Wikidata est une base de connaissances, structurée, multilingue et libre. C’est un projet frère de Wikipédia, développé par Wikimedia Deutschland et hébergé par la Wikimedia Foundation. Le but est de centraliser les connaissances sourcées et utiles aux projets Wikimedia. Le projet fête son quatrième anniversaire le 29 octobre 2016.

Des rencontres ont lieu un peu partout dans le monde jusqu’au 5 novembre pour fêter cet évènement.

Une base reposant sur des standards ouverts

Wikidata utilise le logiciel libre MediaWiki, avec l’extension Wikibase pour gérer ses données. Toutefois, pour tirer pleinement parti des données liées, les données sont répliquées dans un triplestore Blazegraph, dont les caractéristiques sont développées ci‐dessous.

RDF

Les données sont stockées au format RDF, développé par le W3C. Chaque information a la forme d’un triplet élément-propriété-valeur. Par exemple, l’élément noyau Linux a une propriété créateur dont la valeur est Linus Torvalds. Wikidata étant une base multilingue, chaque élément et chaque propriété possèdent un identifiant unique (Q14579 pour le noyau Linux) et des libellés dans chaque langue (noyau Linux en français, Linux kernel en anglais, etc.). La valeur d’un triplet peut être une donnée simple (une date, un nombre, etc.) ou un autre élément (dans l’exemple précédent, Linus Torvalds est l’élément Q34253), ce qui permet de lier les éléments entre eux.

SPARQL

Le langage de requêtes SPARQL, également développé par le W3C, permet d’interroger les bases RDF et donc Wikidata. Une interface, avec auto‐complétion et de nombreux exemples, est disponible. La requête suivante liste les logiciels libres les plus récents :

SELECT ?item ?itemLabel ?date
WHERE {
  ?item wdt:P31 wd:Q341 .
  ?item wdt:P571 ?date .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr,en" }
}
ORDER BY DESC(?date)
LIMIT 30

Essayez‐la !

Le langage SPARQL ressemble au langage SQL des bases relationnelles. La clause SELECT permet de sélectionner les champs à retourner : ici, l’identifiant d’un élément, son libellé et une date. La clause WHERE permet de filtrer les éléments retournés. Ici, on ne retourne que les éléments dont la propriété nature de l’élément (P31) est un logiciel libre (Q341) et qui ont une propriété date de création (P571) renseignée. Le service wikibase:label permet de récupérer automatiquement les libellés des éléments, d’abord en français, puis en anglais s’ils n’existent pas en français. La clause ORDER BY permet de trier les résultats, ici par date de création. Enfin, la clause LIMIT permet de limiter le nombre de résultats, ici à 30.

Des données dans le domaine public

Les données de Wikidata sont sous licence Creative Commons CC0, ce qui fait qu’elles sont réutilisables par tous sans contrainte. Par exemple, le projet libre inventaire.io, reposant notamment sur Wikidata, permet de lister les livres de sa bibliothèque et de garder une trace des emprunts.

Un projet en développement

Wikidata est un projet jeune et encore largement en développement. Deux chantiers en cours sont l’intégration du Wiktionnaire (un dictionnaire collaboratif) et de Wikimedia Commons (une banque de fichiers libres) dans Wikidata, pour tirer parti des données structurées. L’intérêt est, par exemple, d’avoir des métadonnées fiables et avec une structure commune pour tous les fichiers de Wikimedia Commons, ce qui n’est pas le cas actuellement.