8.3 Open Data
L’“Open Data” ou données ouvertes est un phénomène en pleine expansion. Vous y serez certainement confrontés dans votre carrière. Autant bien comprendre de quoi il s’agit et rendre vos données accessibles et publiques de la meilleure façon qui soit. Cette dernière partie est une brève introduction en la matière, qui devrait vous permettre de bien démarrer.
8.3.1 Gestion des données
Lors de la préparation d’une expérience, vous devez réfléchir à un plan d’expérience. Vous avez donc défini des protocoles d’expérience, le nombre de réplicas,… Vous devez cependant intégrer à votre réflexion, un plan de gestion de vos données. Dans ce plan, vous aurez à définir l’acquisition, la description ou encore le partage des données.
8.3.1.1 Principe FAIR
Pour assurer une gestion cohérente des données scientifiques, il faut respecter le plus possible l’acronyme en anglais FAIR : Findable, Accessible, Interoperable, Reusable (Wilkinson et al. 2016).
Acronyme en anglais | Acronyme en français | Description |
---|---|---|
Findable | Facile à trouver | Les données ont besoin d’un code unique et persistant pour les retrouver |
Accessible | Accessible | Les données et surtout les métadonnées avec une license sont mises à disposition. |
Interoperable | Intéropérable | Les données et les métadonnées doivent respecter les standards internationaux |
Reusable | Réutilisable | Les données doivent être réutilisable grâce à des métadonnées riches et des licenses claires |
8.3.1.1.1 Facile à retrouver (Findable)
Vos données et vos métadonnées détaillées doivent être facile à retrouver. Vous devez donc fournir un identifiant unique et permanent. Il existe de nombreux identifiants comme ISBN, ISSN, DOI, …
Dans le cadre de la recherche scientifique, Le Digital Object Identifier (DOI) est la méthode standardisée conseillée. Vous avez déjà été confronté à des DOI. Par exemple, le DOI suivant https://doi.org/10.1038/sdata.2016.18 fait référence à l’article The FAIR Guiding Principles for scientific data management and stewardship. Ce code est unique et persistant. Ce code va toujours renvoyer vers cet article de la revue Scientific Data. Imaginons que la revue Scientific Data disparaissent, le DOI sera toujours associé à cet article. Ainsi, la publication pourra être retrouvée ailleurs sur Internet grâce à ce DOI.
Le DOI ne couvre pas que les articles scientifiques, il est également utilisé pour les données. Par exemple, le DOI suivant https://doi.org/10.5281/zenodo.3711592 fait référence au données intitulé. Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands publié par Zenodo. Nous reviendrons dans les sections suivantes sur zenodo.
8.3.1.1.2 Accessible (Accessible)
Les données et les métadonnées que vous collectez doivent de plus en plus souvent être rendue disponible. Certaines revues scientifiques requièrent la mise à disposition des données. Les recherches financées par des fonds publics (nationaux, Européen,…) requièrent également la mise à disposition des données. Les données ne doivent pas être disponible à tous. Par contre les métadonnées doivent l’être. Il est, de plus, important de préciser la procédure afin d’obtenir les données.
Il parait presque logique et évident de mettre à disposition ces données afin d’en faire profiter la recherche académique dans son ensemble. La recherche va progresser plus rapidement si les chercheurs collaborent. Un scientifique seul dans son laboratoire ne peut pas espérer progresser plus rapidement que 20 scientifiques qui collaborent et utilisent les données.
Il ne s’agit cependant pas de donner ces données sans aucune sécurité. En effet, il serait frustrant de travailler très dur sur un sujet précis et qu’un autre scientifique vole le fruit de ces nombreuses heures de travail et publie un article avant vous. Il existe une solution pour spécifier les droits d’utilisation de vos données. Vous devez associer une licence à vos données et métadonnées.
Vous avez très certainement déjà entendu parlé des licences Creative Commons. Il est de plus en plus courant de voir apparaitre ce genre d’information sur des sites web comme CC0, CC-by, ou encore CC-by-sa.
Vous êtes peut être plus familié avec les logos ci-dessous :
Que se cache-t’il derrière ces logos ? Nous allons détailler ensemble ces abréviations. Nous pouvons résumer cela de manière simple en se posant deux questions :
- Souhaitez-vous autoriser le partage des adaptations de votre œuvre ?
- Oui
- Non
- Oui, sous condition de partage dans les mêmes conditions.
- Autorisez-vous les utilisations commerciales de votre œuvre ?
- Oui
- Non
Ces deux questions proviennent de l’outil mis à disposition sur le site creative commons https://creativecommons.org/choose/ pour définir la licence la plus adaptée pour vous.
Dans le cadre de la recherche, tout n’est pas si simple. Vous devez tenir compte l’avis de vos supérieurs hiérarchiques, de votre institution et de la ou des institutions qui financent le travail. La bonne pratique est donc de discuter avec l’ensemble des acteurs pour décider de la bonne licence à employer, le plus tôt possible, c’est-à-dire, déjà lors de l’élaboration du projet de recherche.
Repartons de notre jeu de données sur le COVID-19 : Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands. Nous pouvons voir que l’auteur a décidé d’employer la licence
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International.
Il est donc autorisé d’adapter l’œuvre et de l’utiliser à des fins commerciales. Il s’agit d’une licence très peu contraignantes. Il suffit simplement de créditer l’auteur de l’oœuvre originale.
Il existe également des licences plus spécifiques aux bases de données, de la moins contraignante à la plus contraingante PDDL , ODC-by et ODbL
8.3.1.1.3 Intéropérable (Interoperable)
Les données sont associées à des métadonnées riches. Sur base des métadonnées, les données doivent être utilisable, compréhensible et combinable avec d’autres données. Ce principe est difficile à mettre en place et requiert donc une réflexion approfondie.
8.3.1.1.4 Réutilisable (Reusable)
Les données doivent autant que possible être associées à des métadonnées riches avec une licence claire afin de pouvoir être réutilisées, nous l’avons déjà vu.
Vous avez certainement le sentiment que ces quatre principes se mélangent un peu. En effet, ils insistent avec des petites nuances sur des concepts particuliers.
En Résumé :
\[Données \ inutilisables = données \ seules\]
\[Données \ utilisables = données + contexte\]
Le contexte c’est :
- un code unique et persistant associé aux données et au contexte,
- une description du projet associée aux données,
- des metodonnées riches (y compris un dictionnaire des données24),
- la licence associée aux données?
Dans le cadre de vos futures recherches, un outil comme Zenodo est très intéressant pour publier vos donnes sur l’Internet tout en suivant au mieux le principe FAIR
8.3.1.2 DMP
Afin de respecter ces principes FAIR, des outils ont été développés. Il s’agit des plans de gestion des données (ou Data Management Plan, DMP). L’Université de Mons dispose d’un DMP. Cet outil est partagé par l’ensemble des universités de Belgique.
Lorsque vous allez concevoir un plan d’expérience, n’oubliez pas de concevoir votre plan de gestion des données en même temps. Voici une checklist pour un plan de gestion des données efficaces http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf
A vous de jouer !
- Réalisez la fin du projet spécifique lié au module 08.
8.3.2 Utilisation de données ouvertes (Open Data)
Il existe de nombreux sites qui regroupent un ensemble de données que nous allons appeler Open Data. Nous avons parlé précédemment de Zenodo mais de nombreuses bases de données sont également disponibles comme le Portail européen de données, Portail belge de données, …
Afin de connaitre la qualité des données voici une checklist très utile pour appréhender des données ouvertes. Vous devez être capable de trouver facilement :
- But des données
- Code unique et persistant des données
- Licence des données
- Format des données
- Qualité des données
A nouveau, vous vous rendez compte que nous revenons à notre principe FAIR expliqué plus haut. Prenons notre exemple sur le Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands et appliquons notre checklist.
- Le but des données
Une description des données est proposée. Le nom de l’auteur est spécifié. Il est également précisé la date de publication avec la version des données. Le 16 mars 2020, la version est v2020.3.16
. Les données sont également associées à un dépôt Github qui les traitent : J535D165/CoronaWatchNL
- Un code unique et persistant
- La licence
Les données sont mise à disposition avec la licence Creative Commons Attribution 4.0 International
- le format
Les données sont proposées sous le format csv
. Ce format est un standard très employé. Il est à privilégier par rapport au format .xls
ou .xlsx
. Il est à la fois interopérable et réutilisable facilement.
- La qualité
Ce dernier critère est le plus difficile à déterminer. Une première chose à vérifier concerne les métadonnées associées à chaque variable. Nous pouvons voir que l’auteur peut encore améliorer les métadonnées associées à ses données. Le nom des variables reste cependant tout à fait compréhensible.
Comme vous venez de le voir, Zenodo de part sa structuration permet de remplir très simplement cette checklist.
Pour en savoir plus
Des stockages spécifiques ont été mis en place pour les données scientifiques comme Zenodo (dépot des données hebergé par le CERN), Dataverse, ou encore Figshare
Le Principe FAIR expliqué par l’Observatoire Global du Saint-Laurent.
Article scientifique sur le FAIR plan : The FAIR Guiding Principles for scientific data management and stewardship
L’outil institutionnel de l’Université de Mons afin de réaliser un plan de gestion de données est disponible DMPonline.be
Références
Wilkinson, Mark D, Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. “The FAIR Guiding Principles for scientific data management and stewardship.” Scientific Data 3 (1): 160018. https://doi.org/10.1038/sdata.2016.18.
Vous avez déjà rédigé un dictionnaire des données lorsque vous avez plannifié vos mesures concernant la biométrie humaine l’an dernier au cours de science des données biologiques I.↩︎