Vue générale des cours
Cet ouvrage interactif est le troisième volume d’une série de trois ouvrages traitant de la science des données biologiques. L’écriture de cette suite de livres a débuté au cours de l’année académique 2018-2019. Pour l’année académique 2020-2021, cet ouvrage interactif est le support des cours suivants :
Science des données III : exploration et prédiction aux premiers Masters BBMC (Biochimie, Biologie Moléculaire et Cellulaire) et BOE (Biologie des Organismes et Écologie) en Faculté des Sciences de l’Université de Mons, et dont le responsable est Philippe Grosjean
Science des données IV : pratique cours à option donné aux deuxièmes années des mêmes Masters, et dont le responsable est Philippe Grosjean
Science des données V : recherche reproductible cours à option donné aux deuxièmes années des mêmes Masters, et dont le responsable est également Philippe Grosjean
La matière est divisée en six modules de 6h chacun en présentiel pour SDD III, deux modules plus une grosse partie de travail autour d’un projet en SDD IV, et enfin quatre modules en SDD V. Chaque module nécessitera environ un tiers de ce temps (voir plus, en fonction de votre rythme et de votre technique d’apprentissage) en travail à domicile. Cette matière fait suite au deux premiers cours dont les contenus sont considérés comme assimilés (voir cours SDD I et cours SDD II).
SDD III : exploration et prédiction
Les trois premiers modules de ce cours se concentrent sur les techniques de classification supervisée, encore appelées apprentissage machine (machine learning en anglais) qui prennent de plus en plus d’importance de nos jours dans tous les domaines, y compris la biologie. Ces techniques utilisent des algorithmes d’apprentissage à la base de l’intelligence artificielle et du “deep learning”.
Ensuite, deux modules sont consacrés à des données particulières avec dépendance temporelles (les séries dites “spatio-temporelles” ou chronologiques). L’étude de phénomènes qui évoluent dans le temps est courant en biologie, et l’analyse de telles données nécessite l’utilisation de techniques statistiques adaptées que nous aborderons dans cette partie.
Enfin, un dernier module sera consacré à une initiation à l’analyse de données spatialisées et à la réalisation de cartes avec R. Ici aussi, il s’agit d’un aspect important pour beaucoup de biologistes, en particuliers ceux qui travaillent sur le terrain.
SDD IV : pratique
Ce cours à option apporte quelques compléments via deux modules supplémentaires. Nous y abordons des données particulières comme les dates, les données circulaires et le texte (y compris les expressions régulières). Le second module vise à s’organiser pour gérer au mieux un gros projet. D’ailleurs, les étudiants ont à réaliser un projet de plus grande envergure que ce qu’ils ont fait jusqu’ici, sur base des analyses qu’ils ont à réaliser par ailleurs dans le cadre de leur mémoire de fin d’étude, ou sur des données similaires.
SDD V : recherche reproductible
Ce cours à option vient terminer la formation en science de données biologiques en approfondissant la gestion du code et des projets et en s’intéressant à un “écosystème logiciel” plus large avec les bases de données et le calcul sur le cloud. Quatre modules abordent successivement la modularisation du code, son optimisation et test, la gestion de bases de données, et enfin, l’utilisation de packages R, de calcul en parallèle et sur le cloud. Un projet mettant en œuvre ces techniques plus avancées est également réalisé par les étudiants qui ont choisi de suivre ce cours. Le cours SDD IV est co-requis. Il n’est donc pas possible de le choisir sans avoir assimilé les notions de SDD IV auquel il est la suite logique dans un perfectionnement des techniques.