10.1 Données ouvertes
L’“Open Data” ou données ouvertes est un phénomène en pleine expansion. Vous y serez certainement confrontés dans votre carrière. Autant bien comprendre de quoi il s’agit et rendre vos données accessibles et publiques de la meilleure façon qui soit. Cette dernière partie est une brève introduction en la matière, qui devrait vous permettre de bien démarrer.
10.1.1 Gestion des données
Lors de la préparation d’une expérience, vous devez réfléchir à un plan d’expérience. Vous avez donc défini des protocoles de votre ou de vos expérience, le nombre de répliquas… Vous devez cependant intégrer à votre réflexion un plan de gestion de vos données. Dans ce plan, vous aurez à définir comment l’acquisition, la description et le partage de vos données seront réalisés.
10.1.1.1 Principe FAIR
Pour assurer une gestion cohérente des données, il faut respecter le plus possible l’acronyme en anglais FAIR : Findable, Accessible, Interoperable, Reusable (Wilkinson et al. 2016).
Acronyme en anglais | Acronyme en français | Description |
---|---|---|
Findable | Facile à trouver | Les données sont assiciées à un code unique et persistant pour les retrouver |
Accessible | Accessible | Les données et les métadonnées sont récupérables par un humain ou une machine |
Interoperable | Interopérable | Les données et les métadonnées doivent respecter les standards internationaux |
Reusable | Réutilisable | Les données doivent être réutilisables grâce à des métadonnées riches et une licence le permettant |
10.1.1.1.1 Facile à trouver (Findable)
Vos données et vos métadonnées doivent être faciles à trouver. C’est évidemment la base car on imagine que, si vous vous donnez la peine de les partager, c’est pour qu’elles soient réutilisées par d’autres. Vous devez donc fournir un identifiant unique et permanent. Il existe de nombreux identifiants comme ISBN, ISSN, DOI…
Dans le cadre des travaux scientifiques, Le “Digital Object Identifier” (DOI) est la méthode standardisée conseillée. Vous avez déjà été confronté à des DOI. Par exemple, le DOI suivant https://doi.org/10.1038/sdata.2016.18 fait référence à l’article The FAIR Guiding Principles for scientific data management and stewardship. Ce code est unique et persistant. Ce code va toujours renvoyer vers cet article de la revue Scientific Data. Imaginons que la revue Scientific Data disparaissent, le DOI sera toujours accessible, mais il pourrait bien pointer vers une autre URL si le site web de la revue venait à disparaître. Ainsi, la publication pourra être retrouvée facilement ailleurs sur Internet grâce à ce DOI.
Le DOI ne couvre pas que les articles scientifiques, il est également utilisé pour les données. Par exemple, le DOI suivant https://doi.org/10.5281/zenodo.3711592 fait référence aux données intitulées Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands publié sur Zenodo, un site spécialisé dans le partage de données ouvertes. Nous reviendrons dans les sections suivantes sur Zenodo.
10.1.1.1.2 Accessible (Accessible)
Les données et les métadonnées que vous collectez doivent de plus en plus souvent être rendues disponibles. Certaines revues scientifiques requièrent la mise à disposition des données. Les recherches financées par des fonds publics (nationaux, européen…) requièrent également la mise à disposition des données. Dans certains cas, les données elles-même ne doivent pas forcément être disponibles pour tous (restrictions). Par contre, la plupart du temps, les métadonnées doivent l’être. Il est, de plus, important de préciser la procédure permettant d’obtenir les données ou les métadonnées dans les publications ou les rapports. Cela vous oblige à régler cette question, avant de publier.
Il parait presque logique et évident de mettre à disposition ses données afin d’en faire profiter la monde académique ou industriel dans son ensemble lorsque la recherche a été financée sur fonds publics24. La recherche va progresser plus rapidement si les chercheurs collaborent. Un scientifique seul dans son laboratoire ne peut pas espérer progresser plus rapidement que 20 scientifiques qui collaborent, utilisent et réutilisent les données.
Il ne s’agit cependant pas de rendre ses données publiques de manière inconditionnelle. Vous pouvez légitimement souhaiter que l’origine des données soit explicitement citée, ou bien, étant issues d’une recherche sur fonds publics, vous pourriez considérer qu’il n’est pas acceptable que quelqu’un en fasse ensuite une utilisation commerciale. Vous devrez donc spécifier les droits d’utilisation de vos données. Vous devez donc associer une licence à vos données et métadonnées.
Vous avez peut-être déjà entendu parler des licences Creative Commons. Il est de plus en plus courant de voir apparaître ce genre d’information sur des sites web, avec des sigles comme CC0, CC-by, ou encore CC-by-sa.
Vous êtes peut-être plus familier avec les logos ci-dessous :
Que se cache-t-il derrière ces logos ? Nous allons détailler ensemble ces abréviations. Nous pouvons résumer cela de manière simple en nous posant deux questions :
- Souhaitez-vous autoriser le partage des adaptations de votre œuvre ?
- Oui
- Non
- Oui, sous condition de partage dans les mêmes conditions.
- Autorisez-vous les utilisations commerciales de votre œuvre ?
- Oui
- Non
Ces deux questions proviennent de l’outil mis à disposition sur le site Creative Commons pour définir la licence la plus adaptée pour vous.
Dans le cadre de données issues d’une recherche scientifique, vous devez tenir compte l’avis de vos supérieurs hiérarchiques, de votre institution et de la ou des institutions qui financent le travail. La bonne pratique est donc de discuter avec l’ensemble des acteurs pour décider de la bonne licence à employer, le plus tôt possible, c’est-à-dire, déjà lors de l’élaboration du projet de recherche.
Repartons de notre jeu de données sur la COVID-19 : Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands. Nous pouvons voir que les auteurs ont décidé d’employer la licence
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International.
Dans ce cas, vous pouvez donc réutiliser et adapter ces données, y compris à des fins commerciales à condition de citer expressément leur origine. Il suffit de veiller à citer les auteurs de l’œuvre originale et d’ailleurs, la citation à inclure vous est proposée sur le cite pour vous y aider. Comme citer ses sources est une pratique courante, et même obligatoire, en science ce type de licence est très peu contraignante.
Il existe également des licences plus spécifiques aux bases de données, de la moins contraignante à la plus contraignante PDDL , ODC-by et ODbL. Cette liste étant loin d’être exhaustive.
10.1.1.1.3 Interopérable (Interoperable)
Les données doivent être utilisables, compréhensibles et combinables avec d’autres données. Le choix du format des données est important dans la mesure où un standard ouvert et complètement documenté permet et permettra à l’avenir la lecture de ces données à partir d’un grand nombre de logiciels différents. Les formats fermés liés à des logiciels commerciaux restreignent l’utilisation car, d’une part, il faut posséder le logiciel (éventuellement payant) correspondant, et d’autre part, si le logiciel en question disparaît à l’avenir, le format pourrait ne plus être lisible du tout. À éviter à tout prix, donc.
10.1.1.1.4 Réutilisable (Reusable)
Il est indispensable de fournir des métadonnées complètes et suffisamment informatives pour comprendre ce que les données représentent, d’où elles proviennent et comment elles ont été collectées, afin que leur réutilisation soit conforme à ce qu’elles représentent. Une licence claire doit indiquer sous quelles conditions les données peuvent légalement être réutilisées, nous l’avons déjà vu. Contrairement à ce que dicte la logique, des données auxquelles aucune licence n’est associée ne sont pas facilement réutilisables, car sans bases légales explicites via la licence, l’interdiction prévaut généralement. Dans tous les cas, le droit d’auteur existe aussi pour vous protéger et éviter qu’autrui ne s’approprie votre œuvre.
Vous avez certainement le sentiment que ces quatre principes se mélangent un peu. En effet, ils insistent avec des petites nuances sur des concepts particuliers. Mais ces quatre propriétés se combinent pour rendre vos données réellement “ouvertes”.
En Résumé :
Données inutilisables = données seules
Données utilisables = données + contexte
Le contexte c’est :
- un code unique et persistant associé aux données,
- une description du projet lié aux données,
- des métadonnées complètes et détaillées (y compris un dictionnaire des données25),
- la licence explicitant comment les données peuvent ou ne peuvent pas être réutilisées
Dans le cadre de vos futures recherches, un outil comme Zenodo est très intéressant pour vous aider à publier vos données sur Internet tout en suivant au mieux le principe FAIR.
10.1.1.2 DMP
Des outils spécialisés ont été développés pour vous permettre de planifier correctement la gestion de vos données durant leur cycle de vie, tout en respectant les principes FAIR. Il s’agit des plans de gestion des données (ou Data Management Plan, DMP). L’Université de Mons dispose d’un DMP qu’elle partage avec d’autres universités belges.
Lorsque vous allez concevoir un projet de recherche, n’oubliez pas d’élaborer votre plan de gestion des données en même temps. Voici une check-list pour un plan de gestion des données efficaces http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf
10.1.2 Utilisation de données ouvertes
Il existe de nombreux sites qui distribuent des données ouvertes (“dataverses”). Nous avons déjà évoqué Zenodo. D’autres sites semblables sont également disponibles tels que Dryad, FigShare ou Harvard Dataverse. D’autres sites sont plus spécialisés dans un certain type de données. La liste serait très longue, mais à titre d’illustration : INSDC, un exemple de banque de données ADN, OBIS, un exemple de base de données sur le biodiversité (marine), ou Copernicus un exemple de base de données climatiques. Enfin, des portails liés à des institutions existent aussi comme le Portail européen de données et le Portail belge de données …
Afin de déterminer la qualité des données mises à disposition, voici une check-list très utile. Vous devez être capable de trouver facilement :
- Contexte des données
- Code unique et persistant des données
- Licence des données
- Format des données
- Qualité des données
À nouveau, vous vous rendez compte que nous revenons à notre principe FAIR expliqué plus haut. Prenons notre exemple sur le Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands et appliquons notre check-list.
- Le contexte des données
Une description des données est directement accessible. Les noms des auteurs sont spécifiés. La date de publication est indiquée et les données sont versionnées. Le 18 novembre 2020, la version était v2020.11.17
. Les données sont également associées à un dépôt GitHub qui les traite : J535D165/CoronaWatchNL. Même si ce dépôt est archivé depuis avril 2021, il reste disponible en mars 2023.
- Un code unique et persistant
Ces données ont un DOI : . Plus précisément, chaque version de ce jeu de données a un DOI propre.
- La licence
Les données sont mises à disposition avec la licence Creative Commons Attribution 4.0 International
- le format des données
Les données sont proposées sous le format .csv
. Ce format est un standard très employé et bien documenté (standard RFC 4180). À peu près tous les logiciels existants qui traitent de données sont capables de lire ce format. Il n’est pas propriétaire. Il est donc à la fois interopérable et réutilisable facilement.
- La qualité des données
Ce dernier critère est le plus difficile à déterminer. Une première chose à vérifier concerne les métadonnées. Est-ce que chaque variable est bien documentée ? Si nous fouillons à ce niveau, nous constaterons que les auteurs peuvent encore améliorer les choses à ce niveau. Toutefois, le nom des variables dans le tableau principal reste tout à fait compréhensible. Il n’y a pas d’information concernant la qualification de la données (la qualification des données indique si elles ont été simplement encodées, ou si elles ont été vérifiées ensuite, ainsi que le niveau de cette vérification).
Comme vous venez de le voir Zenodo, de par la façon dont il présente les jeux de données ouverts sur son site, permet de remplir très simplement cette check-list. Il aide donc les auteurs de données ouvertes à rendre leurs œuvres accessibles tout en respectant au maximum les principes FAIR
Pour en savoir plus
Aide sur l’interprétation et le choix des licences, en anglais.
Choisir la bonne licence Open Source, en anglais.
Guide sur les licences Open Data, en anglais.
Une autre présentation du Principe FAIR expliqué en français.
Article scientifique sur le FAIR plan : The FAIR Guiding Principles for scientific data management and stewardship
L’outil institutionnel de l’Université de Mons afin de réaliser un plan de gestion de données est disponible DMPonline.be
Références
Cette pratique n’est pourtant pas encore très courante. De plus, voyez toujours avec vos valorisateurs de la recherche et vos juristes ce qu’il est souhaitable de faire avant de divulguer quoi que ce soit. Certaines données peuvent faire l’objet d’une valorisation industrielle et vous pourriez aussi vous orienter vers un brevet. Dans ce cas, il ne faut pas divulguer les donnes tout de suite. Enfin, pour les données à caractère personnel, vous êtes contraint en Europe par le RGPD (Règlement Général pour la Protection des Données) qui ne vous permet pas de faire n’importe quoi averc les données à caractère personnel.↩︎
Vous avez déjà rédigé un dictionnaire des données lorsque vous avez planifié vos mesures concernant la biométrie humaine l’an dernier au cours de science des données biologiques I.↩︎