10.1 Données ouvertes

L’“Open Data” ou données ouvertes est un phénomène en pleine expansion. Vous y serez certainement confrontés dans votre carrière. Autant bien comprendre de quoi il s’agit et rendre vos données accessibles et publiques de la meilleure façon qui soit. Cette dernière partie est une brève introduction en la matière, qui devrait vous permettre de bien démarrer.

10.1.1 Gestion des données

Lors de la préparation d’une expérience, vous devez réfléchir à un plan d’expérience. Vous avez donc défini le protocole de votre ou de vos expériences, le nombre de réplicats… Vous devez cependant intégrer à votre réflexion un plan de gestion de vos données. Dans ce plan, vous aurez à définir comment l’acquisition, la description et le partage de vos données seront réalisés.

10.1.1.1 Principe FAIR

Pour assurer une gestion cohérente des données, il faut respecter le plus possible l’acronyme en anglais FAIR : Findable, Accessible, Interoperable, Reusable (Wilkinson et al. 2016).

Acronyme en anglais Acronyme en français Description
Findable Facile à trouver Les données sont associées à un code unique et persistant pour les retrouver
Accessible Accessible Les données et les métadonnées sont récupérables par un humain ou une machine
Interoperable Interopérable Les données et les métadonnées doivent respecter les standards internationaux
Reusable Réutilisable Les données doivent être réutilisables grâce à des métadonnées riches et une licence le permettant
10.1.1.1.1 Facile à trouver (Findable)

Vos données et vos métadonnées doivent être faciles à trouver. C’est évidemment la base car on imagine que, si vous vous donnez la peine de les partager, c’est pour qu’elles soient réutilisées par d’autres. Vous devez donc fournir un identifiant unique et permanent. Il existe de nombreux identifiants comme ISBN, ISSN, DOI…

Dans le cadre des travaux scientifiques, Le “Digital Object Identifier” (DOI) est la méthode standardisée conseillée. Vous avez déjà été confronté à des DOI. Par exemple, le DOI suivant https://doi.org/10.1038/sdata.2016.18 fait référence à l’article The FAIR Guiding Principles for scientific data management and stewardship. Ce code est unique et persistant. Ce code va toujours renvoyer vers cet article de la revue Scientific Data. Imaginons que cette revue disparaît, le DOI sera toujours accessible, mais il pourrait bien pointer vers une autre URL dans ce cas. Ainsi, la publication pourra être retrouvée facilement ailleurs sur Internet grâce à ce DOI.

Le DOI ne couvre pas que les articles scientifiques, il est également utilisé pour les données. Par exemple, le DOI suivant https://doi.org/10.5281/zenodo.3711592 fait référence aux données intitulées Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands publié sur Zenodo, un site spécialisé dans le partage de données ouvertes. Nous reviendrons dans les sections suivantes sur Zenodo.

10.1.1.1.2 Accessible (Accessible)

Les données et les métadonnées que vous collectez doivent de plus en plus souvent être rendues disponibles. Certaines revues scientifiques requièrent la mise à disposition des données. Les recherches financées par des fonds publics (nationaux, européen…) imposent également la mise à disposition des données. Dans certains cas, les données elles-mêmes ne doivent pas forcément être disponibles pour tous (restrictions). Par contre, la plupart du temps, les métadonnées doivent l’être. Il est, de plus, important de préciser la procédure permettant d’obtenir les données ou les métadonnées dans les publications ou les rapports. Cela vous oblige à régler cette question, avant de publier.

Il parait presque logique et évident de mettre à disposition ses données pour en faire profiter le monde académique ou industriel dans son ensemble lorsque la recherche a été financée sur fonds publics26. La recherche va progresser plus rapidement si les chercheurs collaborent. Un scientifique seul dans son laboratoire ne peut pas espérer progresser plus rapidement que dix scientifiques qui collaborent, utilisent et réutilisent les données.

Il ne s’agit cependant pas de rendre ses données publiques de manière inconditionnelle. Vous pouvez légitimement souhaiter que l’origine des données soit explicitement citée, ou bien, étant issues d’une recherche sur fonds publics, vous pourriez considérer qu’il n’est pas acceptable que quelqu’un en fasse ensuite une utilisation commerciale. Vous devrez donc spécifier les droits d’utilisation de vos données. Pour ce faire, vous allez associer une licence à vos données et métadonnées.

Vous avez peut-être déjà entendu parler des licences Creative Commons. Il est de plus en plus courant de voir apparaître ce genre d’information sur des sites web, avec des sigles comme CC0, CC-by, ou encore CC-by-sa.

Vous êtes peut-être plus familier avec les logos ci-dessous :

Licence Creative Commons

Licence Creative Commons

Licence Creative Commons

Licence Creative Commons.

Que se cache-t-il derrière ces logos ? Nous allons détailler ensemble ces abréviations. Nous pouvons résumer cela de manière simple en nous posant quatre questions :

  • Voulez-vous que l’œuvre vous soit attribuée ?
  • Autorisez-vous les utilisations commerciales de votre œuvre ?
  • Acceptez-vous que d’autres transforment, adaptent ou élaborent sur base de votre œuvre ?
  • Souhaitez-vous autoriser le partage des adaptations de votre œuvre sous la même licence ?

Ces quatre questions proviennent de l’outil mis à disposition sur le site Creative Commons pour définir la licence la plus adaptée pour vous.

Dans le cadre de données issues d’une recherche scientifique, vous devez tenir compte l’avis de vos supérieurs hiérarchiques, de votre institution et de la ou des institutions qui financent le travail. La bonne pratique est donc de discuter avec l’ensemble des acteurs pour décider de la licence à employer, le plus tôt possible, c’est-à-dire, déjà lors de l’élaboration du projet de recherche.

Repartons de notre jeu de données sur le COVID-19 : Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands. Nous pouvons voir que les auteurs ont décidé d’employer la licence.

Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International.

Dans ce cas, vous pouvez donc réutiliser et adapter ces données, y compris à des fins commerciales à condition de citer expressément leur origine. Il suffit de veiller à citer les auteurs de l’œuvre originale et d’ailleurs, la citation à inclure vous est proposée sur le site pour vous y aider. Comme citer ses sources est une pratique courante, et même obligatoire, en science ce type de licence est très peu contraignante au-delà des bonnes pratiques déjà en cours. Il existe également des licences plus spécifiques aux bases de données, de la moins contraignante à la plus contraignante PDDL, ODC-by et ODbL. Cette liste étant loin d’être exhaustive.

À vous de jouer !
h5p
10.1.1.1.3 Interopérable (Interoperable)

Les données doivent être utilisables, compréhensibles et combinables avec d’autres données. Le choix du format des données est important dans la mesure où un standard ouvert et complètement documenté permet et permettra à l’avenir la lecture de ces données à partir de différents logiciels. Les formats fermés liés à des logiciels commerciaux restreignent l’utilisation, car d’une part, il faut posséder le logiciel (éventuellement payant) correspondant, et d’autre part, si le logiciel en question disparaît, le format pourrait ne plus être lisible du tout. À éviter à tout prix, donc.

À vous de jouer !
h5p
10.1.1.1.4 Réutilisable (Reusable)

Il est indispensable de fournir des métadonnées complètes et suffisamment informatives pour comprendre ce que les données représentent, d’où elles proviennent et comment elles ont été collectées, afin que leur réutilisation soit conforme à ce qu’elles représentent. Une licence claire doit indiquer sous quelles conditions les données peuvent légalement être réutilisées, nous l’avons déjà vu. Contrairement à ce que dicte la logique, des données auxquelles aucune licence n’est associée ne sont pas facilement réutilisables, car sans bases légales explicites via la licence, l’interdiction prévaut généralement. Dans tous les cas, le droit d’auteur existe aussi pour vous protéger et éviter qu’autrui ne s’approprie votre œuvre.

En Résumé :

  • Données inutilisables = données seules

  • Données utilisables = données + contexte

Le contexte c’est :

  • un code unique et persistant associé aux données,
  • une description du projet lié aux données,
  • des métadonnées complètes et détaillées (y compris un dictionnaire des données27),
  • la licence explicitant comment les données peuvent ou ne peuvent pas être réutilisées

Dans le cadre de vos futures recherches, un outil comme Zenodo est très intéressant pour vous aider à publier vos données sur Internet tout en suivant au mieux le principe FAIR.

À vous de jouer !
h5p

10.1.1.2 DMP

Des outils spécialisés ont été développés pour vous permettre de planifier correctement la gestion de vos données durant leur cycle de vie, tout en respectant les principes FAIR. Il s’agit des plans de gestion des données (ou Data Management Plan, DMP). L’Université de Mons dispose d’un DMP qu’elle partage avec d’autres universités belges. Lorsque vous allez concevoir un projet de recherche, n’oubliez pas d’élaborer votre plan de gestion des données en même temps. Voici une check-list pour un plan de gestion des données efficace http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf.

10.1.2 Utilisation de données ouvertes

Il existe de nombreux sites qui distribuent des données ouvertes (on parle de “dataverses”). Nous avons déjà évoqué Zenodo. D’autres sites semblables sont également disponibles tels que Dryad, FigShare ou Harvard Dataverse. D’autres sites sont plus spécialisés dans un certain type de données. La liste complète serait très longue, mais à titre d’illustration : INSDC un exemple de banque de données ADN, OBIS un exemple de base de données sur la biodiversité (marine), ou Copernicus un exemple de base de données climatiques. Enfin, des portails liés à des institutions existent aussi comme le Portail européen de données et le Portail belge de données

Pour déterminer la qualité des données mises à disposition, voici une check-list très utile. Vous devez être capable de trouver facilement :

  • Le contexte des données
  • Le code unique et persistant qui pointe vers les données
  • La licence sous laquelle les données sont distribuables
  • Le format des données
  • La qualité des données (ont-elles été qualifiées, c’est-à-dire, vérifiées ?)

À nouveau, vous vous rendez compte que nous revenons à notre principe FAIR expliqué plus haut. Reprenons notre exemple sur le Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands et appliquons notre check-list.

  • Le contexte des données

Une description des données est directement accessible. Les noms des auteurs sont spécifiés. La date de publication est indiquée et les données sont versionnées. Le 18 novembre 2020, la version était v2020.11.17. Les données sont également associées à un dépôt GitHub qui contient du code pour les représenter graphiquement : J535D165/CoronaWatchNL. Même si ce dépôt est archivé depuis avril 2021, il reste disponible (dernière vérification faite en mars 2024).

  • Un code unique et persistant

Ces données ont un DOI : DOI. Plus précisément, chaque version de ce jeu de données a un DOI propre.

  • La licence

Les données sont mises à disposition avec la licence Creative Commons Attribution 4.0 International

  • Le format des données

Les données sont distribuées au format CSV. Ce format est un standard très employé et bien documenté (standard RFC 4180). À peu près tous les logiciels existants qui traitent des données sont capables de lire ce format. Il n’est pas propriétaire. Il est donc à la fois interopérable et réutilisable facilement.

  • La qualité des données

Ce dernier critère est le plus difficile à déterminer. Une première chose à vérifier concerne les métadonnées. Est-ce que chaque variable est bien documentée ? Si nous fouillons à ce niveau, nous constaterons que les auteurs peuvent encore améliorer les choses à ce niveau. Toutefois, le nom des variables dans le tableau principal reste tout à fait compréhensible. Il n’y a pas d’information concernant la qualification des données (la qualification des données indique si elles ont été simplement encodées, ou si elles ont été vérifiées ensuite, ainsi que le niveau de cette vérification).

Comme vous venez de le constater, Zenodo, de par la façon dont il présente les jeux de données ouverts sur son site, permet de remplir très simplement cette check-list. Il aide donc les auteurs de données ouvertes à rendre leurs œuvres accessibles tout en respectant au maximum les principes FAIR.

Pour en savoir plus

Références

Wilkinson, Mark D, Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship.” Scientific Data 3 (1): 160018. https://doi.org/10.1038/sdata.2016.18.

  1. Cette pratique n’est pourtant pas encore très courante. De plus, voyez toujours avec vos agents en valorisation de la recherche et vos juristes ce qu’il est souhaitable de faire avant de divulguer quoi que ce soit. Certaines données peuvent faire l’objet d’une valorisation industrielle et vous pourriez aussi vous orienter vers un brevet. Dans ce cas, il ne faut pas divulguer les données tout de suite. Enfin, pour les données à caractère personnel, vous êtes contraint en Europe par le RGPD (Règlement Général pour la Protection des Données) qui ne vous permet pas de faire n’importe quoi avec des données à caractère personnel.↩︎

  2. Vous avez déjà rédigé un dictionnaire des données lorsque vous avez planifié vos mesures concernant la biométrie humaine l’an dernier au cours de science des données biologiques I.↩︎