Alignement du vocabulaire OLAC des jeux vidéo avec Wikidata

Cet article est une traduction libre de l’article Linking the OLAC Video Game Vocabulary with Wikidata, écrit par Tracy Hoffmann (diggr Team) et Peter Chan (Stanford University Libraries), et publié le 29 janvier 2019 sous licence CC BY 4.0.


Wikidata est une base de connaissances collaborative sous licence libre que chacun peut modifier. Depuis sa création en 2012, c’est devenu une base de connaissances et une infrastructure largement utilisées. Dans ce billet, nous décrivons pourquoi et comment nous importons le vocabulaire OLAC des jeux vidéo dans Wikidata.

Motivation

L’OLAC Inc. (Online Audiovisual Catalogers, catalogueurs en ligne de l’audiovisuel) est une organisation américaine pour les catalogueurs intéressés par tout type de documents non imprimés. Elle a présenté l’OLAC Video Game Genre Vocabulary (vocabulaire OLAC des genres du jeu vidéo) en 2018 pour aider au catalogage des jeux vidéo. Le groupe de travail CAMMS/SAC/GFIS/Video game de l’OLAC a fait des recherches sur plus de 200 termes de genres du jeu vidéo dont l’inclusion dans le vocabulaire final a été envisagée. La liste des 66 termes approuvés dans le vocabulaire OLAC des genres du jeu vidéo, leurs recommandations d’utilisation, ainsi que les entrées MARC correspondantes pour ces termes peuvent être trouvées sur le site web de l’OLAC, dans la catégorie Cataloging Resources : OLAC video game genre vocabulary. Cet ensemble de vocabulaire maîtrisé pour le jeu vidéo est soutenu par la bibliothèque du Congrès et devrait être utilisé par tous les catalogueurs des bibliothèques aux États-Unis. En l’ajoutant dans Wikidata, nous allons le mettre en visibilité d’une plus large audience, et également faciliterons le maillage des jeux vidéo.

Première partie : proposition de la propriété dans Wikidata

Pour lier les termes du vocabulaire avec les items Wikidata existants, il nous fallait une propriété définie comme identifiant externe. Les propriétés sont proposées et discutées dans une rubrique spécifique. Un modèle avec des informations sur le vocabulaire et quelques exemples a dû être renseigné. Ensuite, nous avons attendu avec curiosité les retours de la communauté, dans le but d’aboutir à un consensus. Après 7 jours, la proposition de la propriété avait 8 soutiens. C’était donc un résultat clair qui a abouti à la création de la propriété vocabulaire OLAC du jeu vidéo (P6352).

Deuxième partie : import et alignement

Le vocabulaire OLAC des genres du jeu vidéo est disponible dans l’Open Metadata Registry. Après téléchargement, puis nettoyage et préparation des données avec Open Refine, les données ont été transformées au format CSV requis pour l’import. Ainsi, on a :

Avec ceci, un catalogue Mix’n’match a été créé. « Mix’n’match peut lister les entrées de bases de données externes et permet aux utilisateurs de les relier à des items Wikidata » (source). Après un import réussi, les données ont pu être alignées via l’interface du navigateur. Dans le cas où il n’y avait aucun candidat possible, de nouveaux items Wikidata ont été créés.

L’alignement des 66 termes a été rapide mais, comme l’alignement d’un vocabulaire est rarement sans ambiguïté, il y a encore beaucoup de choses à améliorer. Certains problèmes ont déjà été identifiés et sont discutés au sein de la communauté Wikidata.

Appel à participation

Il y a des groupes thématiques dans Wikidata. L’un d’eux est le groupe de travail sur les jeux vidéo. Ce wiki-projet est le lieu pour entrer en contact avec la communauté du jeu vidéo dans Wikidata. Dans les pages de discussions, des questions, des propositions ou des sources peuvent être publiées. Jusqu’à présent, beaucoup de choses ont été accompli par quelques contributeurs très ambitieux de ce groupe : plus de 50 identifiants externes pour les jeux et 10 pour les matériels et les logiciels liés au jeu vidéo ont été créés, reliant de nombreuses bases de données spécialisées. Mais il reste encore beaucoup à faire. Par exemple, d’autres catalogues Mix’n’match attendent encore d’être alignés.

Wikidata est une ressource formidable pour les informations sur les jeux vidéo, en particulier de manière grandissante pour la recherche sur les jeux vidéo car de plus en plus de données y sont agrégées et modélisées. La participation active de la communauté scientifique est très appréciée et aidera à rendre Wikidata encore plus utile pour les chercheurs.

Si vous avez des idées de donation de données ou d’alignement avec d’autres bases de données externes, n’hésitez pas à nous contacter ou à entrer directement en contact avec la communauté Wikidata.

Cet autre article sur les jeux vidéo dans Wikidata pourrait vous intéresser : Wikidata and the sum of all video games − 2018 edition (la traduction en français est disponible ici : Wikidata et la somme de tous les jeux vidéo — Édition 2018).

A Dataiku DSS plugin to query SPARQL endpoints

Dataiku Data Science Studio (Dataiku DSS) is a collaborative data science software. The free edition is powerful enough to work on small data sets and to let you save a lot of time in analysis.

While you can already connect to SPARQL endpoints using the HTTP connector, it’s not straightforward nor convenient because you have to encode your query in the URL. This is why I made a simple plugin that allows you to seamlessly query SPARQL endpoints, by only having to specify the URL of the endpoint and your query. At the moment, the plugin works for SELECT statements only. The plugin is available on Github under free license (AGPLv3).

Installation

The first step is to add the plugin to your Dataiku DSS instance. Go to Administration > Plugins and then to the Advanced tab. Afterwards, you can either:

As the plugin has dependencies, you will be asked to create a dedicated code environment. Select Managed by DSS (recommended), let Use Conda unchecked, select PYTHON27 (the plugin also works with more modern versions of Python, but as of Dataiku DSS 5.x, this is the easiest setup), and click on CREATE. This step can take a few dozens of seconds.

You may have to reload the tab in your web browser (by pressing F5) to see the newly installed plugin.

Usage

Go to the Flow of your project, click on the button +DATASET, and then click on Plugin SPARQL in the Plugins part.

On the next screen, specify the URL of the SPARQL endpoint you want to call, and your query.

Click on TEST & GET SCHEMA. The query is executed and you will have a preview of the data:

Choose a name for your dataset and click on CREATE.

That’s all, you can now use the data in your Dataiku DSS project 🙂

Under the hood

Dataiku provides a nice tutorial on how to write a DSS plugin.

Connector

The connector is basically a simple Python class. It relies on the SPARQL wrapper from RDFlib, and specifically from the class SPARQLWrapper2, to query the SPARQL endpoint and yield the results to Dataiku DSS.

Code environment

As the connector has a dependency, the plugin contains the definition of a code environment, which holds the list of packages required to work. This avoids the need to install the dependencies by hand, and ensures that the plugin will run in the proper environment.

Example

Let’s get all articles about Wikidata, in Wikidata. The URL of the Wikidata SPARQL endpoint is:

https://query.wikidata.org/sparql

The query:

SELECT ?item ?itemLabel ?year WHERE {
  hint:Query hint:optimizer "None" .
  ?item wdt:P921 wd:Q2013 ; wdt:P31/wdt:P279* wd:Q191067 ; wdt:P577 ?date .
  BIND(YEAR(?date) AS ?year) .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . }
}

By following the Usage section of this post, you can retrieve the data. Then, you can display a chart with the evolution over time of the number of articles about Wikidata:

A more advanced example should be available soon.

Wikidata et la somme de tous les jeux vidéo — Édition 2018

Ce billet est une traduction libre de l’article Wikidata and the sum of all video games − 2018 edition, écrit par Jean-Frédéric et publié le 1er janvier 2019 sous licence CC BY 4.0.


Toute ressemblance avec un fructueux projet Wikidata en cours est purement fortuite.

Au cours des 12 derniers mois, j’ai concentré mes contributions Wikidata sur le thème des jeux vidéo, thème qui m’avait amené à contribuer à Wikipédia il y a plus de 10 ans.

Dans ce billet, je commencerai par un bref aperçu de l’état actuel du sujet sur Wikidata et de certaines de mes contributions l’année dernière. Je décrirai ensuite certains défis que j’ai rencontré et mes projets pour 2019.

Vue d’ensemble

Il y a actuellement 35 000 éléments jeu vidéo (Q7889) dans Wikidata (Q2013). Dans le même temps, il y a près de 48 000 entrées dans la Media Art Database (Q54760023), 49 000 dans l’Online Games-Datenbank (Q60315954), plus de 66 000 dans Giant Bomb (Q1657282), plus de 186 000 dans MobyGames (Q612975), plus de 190 000 dans l’Internet Game Database (Q20056333). Ces chiffres sont à prendre avec des pincettes car les enregistrements de ces bases de données peuvent ne pas correspondre exactement à un élément Wikidata. Néanmoins, ils soulignent à quel point nous sommes loin, dans Wikidata, d’une couverture exhaustive du sujet.

En utilisant un peu SPARQL, on peut aussi voir jusqu’à quel point ces 35 000 éléments sont correctement renseignés : 9000 n’ont pas de plateforme (P400), 9500 n’ont pas de date de publication (P577), 13 000 n’ont pas de genre (P136), 16 000 n’ont pas d’éditeur (P123), 17 000 n’ont pas de développeur (P178). Et quelque chose qui me touche encore plus : 14 000 n’ont aucun identifiant externe (et 16 000 aucun identifiant en rapport avec les jeux vidéo).

Tout ça pour dire : il y a beaucoup à faire 🙂

Quelques contributions en 2018

Liens vers des bases de données externes

Mon but ultime est de lier Wikidata avec le plus de bases de données sur les jeux vidéo. Pour commencer, quelques chiffres sur mes réalisations en 2018 :

Mais pourquoi est-ce que je fais ça ?

Communauté et gestion de projet

Avec l’aide de l’expert en SPARQL @WikidataFacts, j’ai construit un tableau de bord Listeria pour tracer les nouveaux items sur les jeux vidéo. Je le surveille régulièrement pour m’assurer que ces items ont les propriétés de base et quelques identifiants externes.

A la demande de mon collègue FR, j’ai créé une liste Listeria de jeux vidéo qui ont des articles sur de nombreuses Wikipédia, mais pas en français. C’est un moyen classique mais puissant, permettant aux wikipédiens de s’appuyer sur Wikidata pour leur travail. Il est maintenant utilisé pour créer des articles prioritaires sur la Wikipédia francophone.

Plateformes et matériel

Tout en travaillant sur les jeux, je me suis aventuré dans le sujet des plateformes et du matériel. Inspiré par l’outil platform_mapping de diggr, j’ai utilisé Mix’n’match pour aligner 5 bases de données externes avec Wikidata. En essayant de clarifier l’ontologie, j’ai créé les items pour modèle de console de jeu vidéo (Q56682555) et modèle d’ordinateur (Q55990535), et réorganisé de nombreuses plateformes en utilisant la propriété sous-classe de (P279). J’ai également travaillé sur les contrôleurs de jeu, à la fois sur Wikidata et sur Wikimedia Commons.

Contacts

En 2018, j’ai établi des contacts intéressants avec des parties tierces intéressées par Wikidata, à la fois dans et à l’extérieur du monde académique : l’équipe du projet diggr (coucou Tracy !), l’équipe d’IGDB et récemment avec les bibliothèques de l’université Standford, même si je n’ai malheureusement pas eu le temps de les suivre correctement.

Les choses qui manquent

En un an de travail sur ce sujet, j’ai rencontré de nombreux défis. Je vais en détailler quelques-uns ici.

Il nous manque un vocabulaire fondamental pour décrire les choses :

Cependant, toutes ces problématiques sont éclipsées par une seule : le modèle de données pour le jeu vidéo. Nous avons en quelque sorte hérité de celui de Wikipédia (ou de son absence), où un article peut compiler des connaissances sur différents éléments (portages, remakes, etc.). De la même façon que le projet Livres a décidé d’utiliser le modèle FRBR (Q16388), nous devrions utiliser un modèle de données plus sophistiqué, éclairé par les recherches universitaires actuelles. L’article Un modèle conceptuel pour les jeux vidéo et les médias interactifs (Q50180436) est une lecture utile, différenciant les jeux, les éditions et les publications locales.

Le lecteur intéressé pourra jeter un œil à d’autres de mes propres réflexions, ainsi qu’à celles de Tracy sur le sujet.

Ma feuille de route pour 2019

C’est le moment de fixer des objectifs trop ambitieux pour l’année à venir ! Que devrais-je faire en 2019 ?

Je vais m’efforcer d’automatiser certaines opérations typiques de gestion des identificateurs. Il s’agira notamment de :

En 2018, mon projet secondaire était au sujet des plateformes et du matériel. En 2019, je m’aventurerai peut-être dans le sourçage et les métadonnées bibliographiques, par exemple en créant des items pour tous les numéros des principaux magazines de jeux vidéo et en indexant leurs critiques.

Je vais essayer de toucher les wikipédiens et d’en impliquer plus dans le fonctionnement de Wikidata. Nous ne sommes pas si nombreux à travailler sur ce sujet dans Wikidata et toute aide supplémentaire nous serait utile. De plus, les décisions prises sur Wikidata (par exemple sur la modélisation des données) auront un impact sur la réutilisation des données dans Wikipédia.

J’ai précédemment mentionné les contacts que j’ai établis au cours de l’année. Je continuerai à cultiver ces relations, en espérant impliquer davantage d’organisations et d’institutions, en nouant des réseaux de coopération et en permettant des dons et l’édition de données à grande échelle.

Enfin, je piloterai les discussions sur le modèle de données sur les jeux vidéo, en impliquant les différents acteurs (wikipédiens, chercheurs universitaires, responsables de bases de données) dans les échanges.

Venez, ça va être sympa !


Vous pouvez prolonger votre lecture sur le sujet avec l’article Alignement du vocabulaire OLAC des jeux vidéo avec Wikidata.