Science des données biologiques III
Préambule
Vue générale des cours
SDD III : exploration et prédiction
SDD IV : pratique
SDD V : recherche reproductible
Matériel pédagogique
Approche pédagogique
Classe inversée & pédagogie active
Quatre niveaux d’exercices
Plan du cours
Issues
(PART) SDD III : exploration et prédiction
1
Classification supervisée I
1.1
Principes de base
1.1.1
Conditions d’application
1.2
Mesure de performances
1.2.1
Matrice de confusion
1.2.2
Métriques de performance
1.3
Analyse discriminante linéaire
1.3.1
Manchots antarctiques
1.4
Récapitulatif des exercices
2
Classification supervisée II
2.1
Validation croisée
2.1.1
Application sur les manchots
2.2
Différents algorithmes
2.2.1
Indiens diabétiques
2.3
K plus proches voisins
2.3.1
Pima avec k-NN
2.4
Quantification vectorielle
2.4.1
Pima avec LVQ
2.5
Partitionnement récursif
2.5.1
Pima avec rpart
2.6
Forêt alétoire
2.6.1
Pima avec forêt aléatoire
2.7
Optimisation et métriques
2.8
Récapitulatif des exercices
3
Classification supervisée III
3.1
Métriques et proportions
3.1.1
Proportions en apprentissage
3.1.2
Probabilités
a priori
3.2
Courbes ROC
3.3
Machine à vecteurs supports
3.3.1
Approche par noyau
3.3.2
SVM multiclasses
3.3.3
SVM et Pima
3.4
Réseaux de neurones artificiels
3.4.1
Pima avec réseau de neurones
3.4.2
Apprentissage profond
3.5
Challenge
3.6
Récapitulatif des exercices
4
Séries chronologiques I
4.1
Observations dépendantes du temps
4.1.1
Lynx
4.1.2
CO
2
à Hawaï
4.1.3
EEG
4.1.4
Plancton méditerranéen
4.2
Qu’est-ce qu’une série chronologique ?
4.2.1
Séries régulières
4.2.2
Séries à trous
4.2.3
Séries irrégulières
4.3
Manipulation et description
4.3.1
Statistiques glissantes
4.3.2
Manipulations de
ts
4.4
Analyse de séries
4.4.1
Autocorrélation, autocovariance, cross-corrélation et cross-covariance
4.4.2
Analyse spectrale
4.4.3
Tendance générale
4.4.4
Tendance locale
4.5
Récapitulatif des exercices
5
Séries chronologiques II
5.1
Décomposition de séries
5.1.1
Fonction générale de décomposition
5.2
Filtrage d’une série
5.2.1
Moyennes mobiles
5.2.2
Médianes mobiles
5.2.3
Filtrage par différences
5.2.4
Filtrage par les valeurs propres
5.3
Régressions et séries
5.3.1
Estimation de la tendance par régression
5.4
Décomposition par LOESS
5.5
Régularisation
5.5.1
Application pratique
5.6
Récapitulatif des exercices
6
Statistiques spatiales
6.1
Réalisation de cartes
6.1.1
Échelle et orientation
6.1.2
Importation de “shapefiles”
6.1.3
Systèmes de coordonnées
6.2
Annotation de carte
6.2.1
Labels et textes
6.2.2
Couches supplémentaires
sf
6.2.3
Variables supplémentaires
6.3
Les couches “raster”
6.3.1
Modèle terrain du Maroc
6.4
Cartes avec {tmap} et autres
6.4.1
Graphiques de base R
6.4.2
Utilisation de {tmap}
6.4.3
Cartes interactives
6.4.4
Édition interactive
6.5
Interpolation spatiale
6.5.1
Où pleut-il au Maroc ?
6.5.2
Interpolation avec DIP
6.5.3
Krigeage ordinaire
6.5.4
Krigeage universel
6.5.5
Interpolation avec AURELHY
6.6
Récapitulatif des exercices
(PART) SDD IV : pratique
7
Données particulières
7.1
Dates
7.1.1
Conversion d’une chaîne de caractères en date
7.1.2
Temps biologique
7.2
Données textuelles
7.2.1
Encodages
7.2.2
Manipulation de texte
7.2.3
Expression régulière
7.2.4
Variables facteurs
7.3
Variables circulaires
7.3.1
Hirondelles
7.4
Récapitulatif des exercices
8
Projets
8.1
Structurer un projet
8.1.1
Qualités d’un bon projet
8.1.2
Structure conseillée
8.2
Données
8.2.1
Données brutes
8.2.2
Données retravaillées
8.3
Carnet de notes
8.4
Documents de synthèse
8.5
Astuces
8.5.1
Exclusion du dépôt Git
8.5.2
Bibliographie
8.6
Votre projet
8.7
Récapitulatif des exercices
(PART) SDD V : recherche reproductible
9
Modularisation
9.1
Les fonctions
9.1.1
Nom de la fonction et de ses arguments
9.2
Documenter sa fonction
10
Optimisation & test
11
Bases de données
12
Packages et cloud
13
Le package
13.1
Création d’un package
13.1.1
Nom d’un package
(APPENDIX) Appendices
14
Langage R
14.1
Introduction au langage de R
14.1.1
Lancer R
14.1.2
Premières commandes
14.1.3
Variables et assignation
14.1.4
Quitter R et sauvegarder les variables, notion de workspace
14.1.5
Obtenir de l’aide dans R
14.2
Les packages
14.3
Petite demo
14.4
Bases du langage R
14.4.1
Quelques notions sur les variables
14.4.2
Le data frame
14.4.3
Distributions statistiques
14.4.4
Deux exemples d’analyses dans R
14.4.5
Scripts et fonctions personnalisées
Références
Site Web du cours
Site Github Du cours
Publié avec bookdown
Science des données biologiques III
Module 11
Bases de données
…