Vue générale du cours

Cet ouvrage est le premier d’une série de trois volumes traitant de la science des données biologiques. L’écriture de cette suite de livres a débuté au cours de l’année académique 2018-2019. Pour l’année académique 2024-2025, ceci est le support du cours de Science des données I : visualisation et inférence au second Bachelier en Biologie en Faculté des Sciences de l’Université de Mons (UMONS), et dont le responsable est Philippe Grosjean.

La matière est divisée en dix modules représentant chacun six heures de travail en présentiel. Chaque module nécessitera environ dix heures (variable en fonction de votre rythme et de votre technique d’apprentissage, disons entre six et douze heures) de travail à domicile. Une séance introductive de deux heures est programmée en début d’année pour installer les logiciels (SciViews Box, R, RStudio), et se familiariser avec eux, ainsi que pour expliquer la façon dont les séances vont se dérouler.

Les cinq premiers modules au premier quadrimestre vous font découvrir les logiciels nécessaires pour effectuer les exercices de ce cours : R, RStudio, git, GitHub. Ils sont également consacrés à l’importation, le remaniement et la visualisation de données biologiques.

Les cinq modules suivants au second quadrimestre s’attaquent à l’inférence statistique, c’est-à-dire, l’art de tirer des conclusions sur l’observation d’un phénomène biologique au travers d’un échantillon, en présence d’incertitude, de variation entre individus et d’erreur de mesure qui sont impossible à éviter en biologie. Il s’agit ici d’utiliser de manière correcte les tests d’hypothèses statistiques et de réaliser des analyses de données reproductibles.