8.3 Données ouvertes

L’“Open Data” ou données ouvertes est un phénomène en pleine expansion. Vous y serez certainement confrontés dans votre carrière. Autant bien comprendre de quoi il s’agit et rendre vos données accessibles et publiques de la meilleure façon qui soit. Cette dernière partie est une brève introduction en la matière, qui devrait vous permettre de bien démarrer.

8.3.1 Gestion des données

Lors de la préparation d’une expérience, vous devez réfléchir à un plan d’expérience. Vous avez donc défini des protocoles d’expérience, le nombre de répliquas,… Vous devez cependant intégrer à votre réflexion, un plan de gestion de vos données. Dans ce plan, vous aurez à définir l’acquisition, la description ou encore le partage des données.

8.3.1.1 Principe FAIR

Pour assurer une gestion cohérente des données scientifiques, il faut respecter le plus possible l’acronyme en anglais FAIR : Findable, Accessible, Interoperable, Reusable (Wilkinson et al. 2016).

Acronyme en anglais Acronyme en français Description
Findable Facile à trouver Les données ont besoin d’un code unique et persistant pour les retrouver
Accessible Accessible Les données et surtout les métadonnées avec une licence sont mises à disposition.
Interoperable Intéropérable Les données et les métadonnées doivent respecter les standards internationaux
Reusable Réutilisable Les données doivent être réutilisable grâce à des métadonnées riches et des licences claires
8.3.1.1.1 Facile à retrouver (Findable)

Vos données et vos métadonnées détaillées doivent être facile à retrouver. Vous devez donc fournir un identifiant unique et permanent. Il existe de nombreux identifiants comme ISBN, ISSN, DOI, …

Dans le cadre de la recherche scientifique, Le Digital Object Identifier (DOI) est la méthode standardisée conseillée. Vous avez déjà été confronté à des DOI. Par exemple, le DOI suivant https://doi.org/10.1038/sdata.2016.18 fait référence à l’article The FAIR Guiding Principles for scientific data management and stewardship. Ce code est unique et persistant. Ce code va toujours renvoyer vers cet article de la revue Scientific Data. Imaginons que la revue Scientific Data disparaissent, le DOI sera toujours associé à cet article. Ainsi, la publication pourra être retrouvée ailleurs sur Internet grâce à ce DOI.

Le DOI ne couvre pas que les articles scientifiques, il est également utilisé pour les données. Par exemple, le DOI suivant https://doi.org/10.5281/zenodo.3711592 fait référence au données intitulé. Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands publié par Zenodo. Nous reviendrons dans les sections suivantes sur zenodo.

8.3.1.1.2 Accessible (Accessible)

Les données et les métadonnées que vous collectez doivent de plus en plus souvent être rendue disponible. Certaines revues scientifiques requièrent la mise à disposition des données. Les recherches financées par des fonds publics (nationaux, Européen,…) requièrent également la mise à disposition des données. Les données ne doivent pas être disponible à tous. Par contre les métadonnées doivent l’être. Il est, de plus, important de préciser la procédure afin d’obtenir les données.

Il parait presque logique et évident de mettre à disposition ces données afin d’en faire profiter la recherche académique dans son ensemble. La recherche va progresser plus rapidement si les chercheurs collaborent. Un scientifique seul dans son laboratoire ne peut pas espérer progresser plus rapidement que 20 scientifiques qui collaborent et utilisent les données.

Il ne s’agit cependant pas de donner ces données sans aucune sécurité. En effet, il serait frustrant de travailler très dur sur un sujet précis et qu’un autre scientifique vole le fruit de ces nombreuses heures de travail et publie un article avant vous. Il existe une solution pour spécifier les droits d’utilisation de vos données. Vous devez associer une licence à vos données et métadonnées.

Vous avez très certainement déjà entendu parlé des licences Creative Commons. Il est de plus en plus courant de voir apparaître ce genre d’information sur des sites web comme CC0, CC-by, ou encore CC-by-sa.

Vous êtes peut être plus familié avec les logos ci-dessous :

Licence Creative Commons

Licence Creative Commons

Licence Creative Commons

Licence Creative Commons.

Que se cache-t-il derrière ces logos ? Nous allons détailler ensemble ces abréviations. Nous pouvons résumer cela de manière simple en se posant deux questions :

  • Souhaitez-vous autoriser le partage des adaptations de votre œuvre ?
    • Oui
    • Non
    • Oui, sous condition de partage dans les mêmes conditions.
  • Autorisez-vous les utilisations commerciales de votre œuvre ?
    • Oui
    • Non

Ces deux questions proviennent de l’outil mis à disposition sur le site Creative Commons https://creativecommons.org/choose/ pour définir la licence la plus adaptée pour vous.

Dans le cadre de la recherche, tout n’est pas si simple. Vous devez tenir compte l’avis de vos supérieurs hiérarchiques, de votre institution et de la ou des institutions qui financent le travail. La bonne pratique est donc de discuter avec l’ensemble des acteurs pour décider de la bonne licence à employer, le plus tôt possible, c’est-à-dire, déjà lors de l’élaboration du projet de recherche.

Repartons de notre jeu de données sur la COVID-19 : Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands. Nous pouvons voir que l’auteur a décidé d’employer la licence

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International.

Il est donc autorisé d’adapter l’œuvre et de l’utiliser à des fins commerciales. Il s’agit d’une licence très peu contraignantes. Il suffit simplement de créditer l’auteur de l’œuvre originale.

Il existe également des licences plus spécifiques aux bases de données, de la moins contraignante à la plus contraignante PDDL , ODC-by et ODbL

À vous de jouer !
h5p
8.3.1.1.3 Intéropérable (Interoperable)

Les données sont associées à des métadonnées riches. Sur base des métadonnées, les données doivent être utilisable, compréhensible et combinable avec d’autres données. Le choix du format des données est également important Ce principe est difficile à mettre en place et requiert donc une réflexion approfondie.

À vous de jouer !
h5p
8.3.1.1.4 Réutilisable (Reusable)

Les données doivent autant que possible être associées à des métadonnées riches avec une licence claire afin de pouvoir être réutilisées, nous l’avons déjà vu.

Vous avez certainement le sentiment que ces quatre principes se mélangent un peu. En effet, ils insistent avec des petites nuances sur des concepts particuliers.

En Résumé :

\[Données \ inutilisables = données \ seules\]

\[Données \ utilisables = données + contexte\]

Le contexte c’est :

  • un code unique et persistant associé aux données et au contexte,
  • une description du projet associée aux données,
  • des métadonnées riches (y compris un dictionnaire des données24),
  • la licence associée aux données

Dans le cadre de vos futures recherches, un outil comme Zenodo est très intéressant pour publier vos donnes sur l’Internet tout en suivant au mieux le principe FAIR.

À vous de jouer !
h5p

8.3.1.2 DMP

Afin de respecter ces principes FAIR, des outils ont été développés. Il s’agit des plans de gestion des données (ou Data Management Plan, DMP). L’Université de Mons dispose d’un DMP. Cet outil est partagé par l’ensemble des universités de Belgique.

Lorsque vous allez concevoir un plan d’expérience, n’oubliez pas de concevoir votre plan de gestion des données en même temps. Voici une check-list pour un plan de gestion des données efficaces http://www.dcc.ac.uk/sites/default/files/documents/resource/DMP_Checklist_2013.pdf

8.3.2 Utilisation de données ouvertes

Il existe de nombreux sites qui regroupent un ensemble de données ouvertes. Nous avons parlé précédemment de Zenodo mais de nombreuses bases de données sont également disponibles comme le Portail européen de données, Portail belge de données, …

Afin de connaître la qualité des données voici une check-list très utile pour appréhender des données ouvertes. Vous devez être capable de trouver facilement :

  • But des données
  • Code unique et persistant des données
  • Licence des données
  • Format des données
  • Qualité des données

A nouveau, vous vous rendez compte que nous revenons à notre principe FAIR expliqué plus haut. Prenons notre exemple sur le Dataset: Number of diagnoses with coronavirus disease (COVID-19) in The Netherlands et appliquons notre check-list.

  • Le but des données

Une description des données est proposée. Le nom de l’auteur est spécifié. Il est également précisé la date de publication avec la version des données. Le 16 mars 2020, la version est v2020.3.16. Les données sont également associées à un dépôt GitHub qui les traitent : J535D165/CoronaWatchNL

  • Un code unique et persistant

Ces données ont un DOI : DOI

  • La licence

Les données sont mise à disposition avec la licence Creative Commons Attribution 4.0 International

  • le format

Les données sont proposées sous le format csv. Ce format est un standard très employé. Il est à privilégier par rapport au format .xls ou .xlsx. Il est à la fois interopérable et réutilisable facilement.

  • La qualité

Ce dernier critère est le plus difficile à déterminer. Une première chose à vérifier concerne les métadonnées associées à chaque variable. Nous pouvons voir que l’auteur peut encore améliorer les métadonnées associées à ses données. Le nom des variables reste cependant tout à fait compréhensible.

Comme vous venez de le voir, Zenodo de part sa structuration permet de remplir très simplement cette check-list.

Pour en savoir plus

Références

Wilkinson, Mark D, Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship.” Scientific Data 3 (1): 160018. https://doi.org/10.1038/sdata.2016.18.