Vue générale du cours

Cet ouvrage interactif est le second volume d’une série de trois ouvrages traitant de la science des données biologiques. L’écriture de cette suite de livres a débuté au cours de l’année académique 2018-2019. Pour l’année académique 2020-2021, ceci est le support des cours suivants :

Science des données II : analyse et modélisation au troisième Bachelier en Biologie en Faculté des Sciences de l’Université de Mons, et dont le responsable est Philippe Grosjean
Bio-informatique et science des données II au troisième bachelier en Biologie en Faculté des Sciences à Charleroi en co-diplomation entre l’Université de Mons (UMONS) et l’Université Libre de Bruxelles (ULB), et dont le responsable est Raphaël Conotte

La matière est divisée en 8 modules de 6h chacun en présentiel. Il nécessitera environ un tiers de ce temps (voir plus, en fonction de votre rythme et de votre technique d’apprentissage) en travail à domicile. Cette matière fait suite au premier cours dont le contenu est considéré comme assimilé (voir cours SDD I).

Les quatre premiers modules du cours sont consacrés à la modélisation, un domaine particulièrement important de la science des données qui étend les concepts déjà vu au cours SDD I d’analyse de variance et de corrélation entre deux variables. Ces quatre modules formeront aussi un socle sur lequel nous pourrons élaborer les techniques d’apprentissage machine (classification supervisée), et puis ensuite l’apprentissage profond à la base de l’intelligence artificielle qui seront abordées plus tard dans le cours SDD III. Cette partie est dense, mais ultra importante !

Enfin, les quatre modules suivants s’intéresseront à l’exploration des données, encore appelée analyse des données qui vise à découvrir des caractéristiques intéressantes dans des très gros jeux de données. Ces techniques sont d’autant plus utiles que les données volumineuses deviennent de plus en plus courantes en biologie.