Vue générale des cours

Cet ouvrage interactif est le troisième volume d’une série de trois ouvrages traitant de la science des données biologiques. L’écriture de cette suite de livres a débuté au cours de l’année académique 2018-2019. Pour l’année académique 2024-2025, cet ouvrage interactif est le support des cours suivants :

  • Science des données III : exploration et prédiction (SDD III) aux premiers Masters BBMC (Biochimie, Biologie Moléculaire et Cellulaire) et BOE (Biologie des Organismes et Écologie) en Faculté des Sciences de l’Université de Mons, et dont le responsable est Philippe Grosjean

  • Science des données III (SDD III) aux premiers Masters BBMC (Biochimie, Biologie Moléculaire et Cellulaire) en Faculté des Sciences de l’Université Libre de Bruxelles sur le campus de Charleroi, et dont le responsable est Philippe Grosjean

  • Science des données IV : recherche reproductible (SDD IV) cours à option donné aux deuxièmes années des mêmes Masters, et dont le responsable est également Philippe Grosjean

La matière est divisée en cinq modules de six heures chacun en présentiel pour SDD III, et cinq modules également pour SDD IV. Chaque module nécessite environ dix heures (variable, en fonction de votre rythme et de votre technique d’apprentissage entre huit et douze heures) de travail à domicile. Cette matière fait suite aux deux premiers cours dont les contenus sont considérés comme assimilés (voir cours SDD I et cours SDD II).

SDD III : exploration et prédiction

Les trois premiers modules de ce cours se concentrent sur les techniques de classification supervisée, encore appelées apprentissage machine (machine learning en anglais) qui prennent de plus en plus d’importance de nos jours dans tous les domaines, y compris la biologie. Ces techniques utilisent des algorithmes d’apprentissage à la base de l’intelligence artificielle et du “deep learning”.

Ensuite, deux modules sont consacrés à des données particulières avec des dépendances temporelles (les séries dites “spatio-temporelles” ou chronologiques). L’étude de phénomènes qui évoluent dans le temps est courante en biologie, et l’analyse de telles données nécessite l’utilisation de techniques statistiques adaptées que nous aborderons dans cette partie.

SDD IV : recherche reproductible

Ce cours à option vient terminer la formation en science de données biologiques en approfondissant la gestion du code et des projets et en s’intéressant à un “écosystème logiciel” plus large avec les bases de données et le calcul sur le cloud. Le premier module est consacré à une initiation à l’analyse de données spatialisées et à la réalisation de cartes avec R. Il s’agit d’un aspect important pour beaucoup de biologistes, en particulier ceux qui travaillent sur le terrain. Le second module permet de se familiariser avec des données particulières comme les dates, les données circulaires et le texte (y compris les expressions régulières). Le troisième module vise à s’organiser pour gérer au mieux un gros projet. Les deux modules suivants abordent successivement la modularisation du code, son optimisation et son test, la gestion de bases de données, et enfin, l’utilisation de packages R, de calcul en parallèle et sur le cloud. Un projet mettant en œuvre ces techniques plus avancées est également réalisé par les étudiants qui ont choisi de suivre ce cours.