Vue générale du cours

Cet ouvrage interactif est le second volume d’une série de trois ouvrages traitant de la science des données biologiques. L’écriture de cette suite de livres a débuté au cours de l’année académique 2018-2019. Pour l’année académique 2024-2025, ceci est le support du cours de Science des données II : analyse et modélisation au troisième Bachelier en Biologie en Faculté des Sciences de l’Université de Mons (UMONS), et dont le responsable est Philippe Grosjean

La matière est divisée en dix modules de six heures chacun en présentiel. Il nécessite environ huit heures (variable, en fonction de votre rythme et de votre technique d’apprentissage entre six et dix heures) en travail à domicile. Cette matière fait suite au premier cours dont le contenu est considéré comme assimilé (voir cours SDD I).

Les cinq premiers modules du cours sont consacrés à la modélisation, plus particulièrement à la régression, un domaine particulièrement important de la science des données qui étend les concepts déjà vu au cours SDD I d’analyse de variance et de corrélation entre deux variables. Ces cinq modules formeront aussi un socle sur lequel nous pourrons élaborer les techniques d’apprentissage machine (classification supervisée), et puis ensuite l’apprentissage profond à la base de l’intelligence artificielle qui seront abordées plus tard dans le cours SDD III. Cette partie est dense, mais ultra importante !

Les cinq modules suivants s’intéresseront à l’exploration des données, encore appelée analyse des données qui vise à découvrir des caractéristiques intéressantes dans de très gros jeux de données. Ces techniques sont d’autant plus utiles que les données volumineuses deviennent de plus en plus courantes en biologie.