6.3 Acquisition de données

Dans le module 5, vous avez pris connaissance des types de variable et venez d’apprendre comment encoder différents types de tableaux de données et de leur associer les indispensables métadonnées. Cependant, la première étape avant d’acquérir des données est de planifier correctement son expérience. La Science des Données est intimement liée à la démarche scientifique et intervient dans toutes les étapes depuis la caractérisation de la question et le planning de l’expérience jusqu’à la diffusion des résultats. Plus en détail, cela correspond à :

  • Définir une question (objectif)
  • Réaliser une recherche bibliographique sur la thématique
  • Définir le protocole de l’expérience à partir de l’objectif
    • Définir la population étudiée et l’échantillonnage
    • Définir les variables à mesurer
      • Définir les unités des mesures
      • Définir la précision des mesures
      • Définir les instruments de mesure nécessaires
  • Définir les conventions d’encodage
    • Codifier l’identification des individus
    • Définir les niveaux des variables facteurs et leurs labels
  • Acquérir et encoder les données
  • Traiter les données
    • Importer des données
    • Remanier des données
    • Visualiser et décrire des données
    • Analyser les données (traitements statistiques, modélisation…).
  • Produire des supports de présentation répondant à la question de départ et diffuser l’information dans la communauté scientifique

Nous traitons ici des premières étapes qui visent à acquérir les données.

6.3.1 Précision et exactitude

Les erreurs de mesures sont inévitables lors de l’acquisition de nos données. Cependant, il est possible de les minimiser en choisissant un instrument plus précis (precise en anglais) et plus exact (accurate en anglais). Ces deux notions sont différentes, mais complémentaires.

À vous de jouer !
h5p

6.3.2 Codification des données

Afin d’éviter que divers collaborateurs encodent différemment la même information, vous allez devoir préciser très clairement comment encoder les différentes variables de votre jeu de données. Par exemple pour une variable genre, est-ce que vous indiquez homme ou femme, ou h / f, ou encore H / F ?

De même, vous allez devoir attribuer un code unique à chaque individu mesuré. Enfin, vous devez vous assurer que toutes les mesures sont réalisées de la même manière et avec des instruments qui, s’ils sont différents, seront cependant intercalibrés. Comment faire ? Réfléchissez à cette question sur base d’une mesure de la masse des individus à l’aide de pèse-personnes différents !

6.3.3 Respect de la vie privée

Lors d’expérience sur des personnes, le respect de la vie privée doit être pris en compte25. Le nom et le prénom, ou toute autre information permettant de retrouver les individus étudiés (adresse mail, numéro de sécurité sociale, etc.) ne peuvent pas apparaître dans la base de données consolidée. En outre, il vous faudra un accord explicite des personnes que vous voulez mesurer, et il faudra leur expliquer ce que vous faites, et comment les données seront ensuite utilisées. Une question se pose : comment pouvoir revenir vers les enregistrements liés à un individu en particulier (en cas d’erreur d’encodage, par exemple) si les informations relatives directement à ces individus ne sont pas consignées dans le tableau final ? Réfléchissez à la façon dont vous vous y prendriez avant de lire la suite…

Voici un petit tableau qui correspond à ce que vous ne pourrez pas faire (nom et prénom explicitement mentionnés dans le tableau) :

(biometry_marvel <- dtx_rows(
  ~id,                ~gender, ~weight, ~height,
   "Banner Bruce",        "M",      95,    1.91,
   "Stark Tonny",         "M",      80,    1.79,
   "Fury Nicholas",       "M",      82,    1.93,
   "Romanoff Natasha",    "F",      53,    1.70
))
# # A data.table: 4 x 4
#   id               gender weight height
#   <chr>            <chr>   <dbl>  <dbl>
# 1 Banner Bruce     M          95   1.91
# 2 Stark Tonny      M          80   1.79
# 3 Fury Nicholas    M          82   1.93
# 4 Romanoff Natasha F          53   1.7

Vous devez fournir un code permettant de garder l’anonymat des sondés à l’ensemble des personnes étudiées vis-à-vis des analystes qui vont utiliser ces données. Cependant, le code doit permettre au chercheur ayant pris ces mesures de les retrouver dans son cahier de laboratoire, si besoin. Une façon de procéder consiste à attribuer un numéro au hasard par tirage dans une urne à chacune des personnes chargées des mesures. Ensuite, chaque expérimentateur attribue lui-même un second numéro aux différentes personnes qu’il mesure. Prenons par exemple le scientifique n°24 (seul lui sait qu’il porte ce numéro). Il attribue un code de 1 à n sous forme d’une lettre de l’alphabet à chaque personne étudiée. En combinant le code secret de l’expérimentateur et le code individu, cela donne un identifiant unique de la forme 24_A, 24_B, etc. Il pourra alors encoder sa partie comme suit :

(biometry_marvel1 <- dtx_rows(
    ~id, ~gender, ~weight, ~height,
 "24_A",     "M",      95,    1.91,
 "24_B",     "M",      80,    1.79,
 "24_C",     "M",      82,    1.93,
 "24_D",     "F",      53,    1.70
))
# # A data.table: 4 x 4
#   id    gender weight height
#   <chr> <chr>   <dbl>  <dbl>
# 1 24_A  M          95   1.91
# 2 24_B  M          80   1.79
# 3 24_C  M          82   1.93
# 4 24_D  F          53   1.7

Il garde néanmoins les correspondances dans son carnet de laboratoire, au cas où il faudrait faire des vérifications ou revenir à la donnée originale.

(biometrie_correspondance <- dtx(
  name = biometry_marvel$id,
  id   = biometry_marvel1$id
))
# # A data.table: 4 x 2
#   name             id   
#   <chr>            <chr>
# 1 Banner Bruce     24_A 
# 2 Stark Tonny      24_B 
# 3 Fury Nicholas    24_C 
# 4 Romanoff Natasha 24_D

À partir des données du tableau général consolidé, personne à part lui ne peut revenir sur ces données d’origine et mettre un nom sur les individus mesurés. Et lui-même n’a pas la possibilité de déterminer qui se cache derrière les autres identifiants tels 03_A, 12_C, 21_B, etc.

Vous allez maintenant encoder et analyser vos données relatives à l’étude de l’obésité.

Réalisez en groupe le travail A05Ga_biometry, partie II.

Travail en groupe de 4 pour les étudiants inscrits au cours de Science des Données Biologiques I : visualisation à l’UMONS à terminer avant le 2022-12-16 23:59:59.

Initiez votre projet GitHub Classroom

Voyez les explications dans le fichier README.md, partie II.


  1. En Europe, les données numériques concernant les personnes sont soumises à des règles strictes édictées dans le Règlement Général pour la Protection des Données ou RGPD en abrégé, en vigueur depuis le 25 mai 2018. Vous devez vous assurer de respecter ce règlement lors de la collecte et de l’utilisation de données relatives à des personnes. Pour les autres types de données, le droit d’auteur ou des copyrights peuvent aussi limiter votre champ d’action. Renseignez-vous !↩︎