Science des données biologiques III
Préambule
Vue générale des cours
SDD III : exploration et prédiction
SDD IV : pratique
SDD V : recherche reproductible
Matériel pédagogique
I SDD III : exploration et prédiction
1
Classification supervisée I
1.1
Principes de base
1.1.1
Conditions d’application
1.2
Mesure de performances
1.2.1
Matrice de confusion
1.2.2
Métriques de performance
1.3
Analyse discriminante linéaire
1.3.1
Manchots antarctiques
1.4
Récapitulatif des exercices
2
Classification supervisée II
2.1
Validation croisée
2.1.1
Application sur les manchots
2.2
Différents algorithmes
2.2.1
Indiens diabétiques
2.3
K plus proches voisins
2.3.1
Pima avec k-NN
2.4
Quantification vectorielle
2.4.1
Pima avec LVQ
2.5
Partitionnement récursif
2.5.1
Pima avec rpart
2.6
Forêt alétoire
2.6.1
Pima avec forêt aléatoire
2.7
Récapitulatif des exercices
3
Classification supervisée III
3.1
Métriques et proportions
3.1.1
Proportions en apprentissage
3.1.2
Probabilités
a priori
3.2
Courbes ROC
3.3
Machine à vecteurs supports
3.3.1
Approche par noyau
3.3.2
SVM multiclasses
3.3.3
SVM et Pima
3.4
Réseaux de neurones artificiels
3.4.1
Pima avec réseau de neurones
3.4.2
Apprentissage profond
3.5
Challenge
3.6
Récapitulatif des exercices
4
Séries chronologiques I
4.1
Observations dépendantes du temps
4.1.1
Lynx
4.1.2
CO
2
à Hawaï
4.1.3
EEG
4.1.4
Plancton méditerranéen
4.2
Qu’est-ce qu’une série chronologique ?
4.2.1
Séries régulières
4.2.2
Séries à trous
4.2.3
Séries irrégulières
4.3
Manipulation et description
4.3.1
Statistiques glissantes
4.3.2
Manipulations de
ts
4.4
Analyse de séries
4.4.1
Autocorrélation, autocovariance, cross-corrélation et cross-covariance
4.4.2
Analyse spectrale
4.4.3
Tendance générale
4.4.4
Tendance locale
4.5
Récapitulatif des exercices
5
Séries chronologiques II
5.1
Décomposition de séries
5.1.1
Fonction générale de décomposition
5.2
Filtrage d’une série
5.2.1
Moyennes mobiles
5.2.2
Médianes mobiles
5.2.3
Filtrage par différences
5.2.4
Filtrage par les valeurs propres
5.3
Régressions et séries
5.3.1
Estimation de la tendance par régression
5.4
Décomposition par LOESS
5.5
Régularisation
5.5.1
Application pratique
5.6
Récapitulatif des exercices
6
Statistiques spatiales
6.1
Réalisation de cartes
6.1.1
Échelle et orientation
6.1.2
Importation de “shapefiles”
6.1.3
Systèmes de coordonnées
6.2
Annotation de cartes
6.2.1
Labels et textes
6.2.2
Couches supplémentaires
sf
6.2.3
Variables supplémentaires
6.3
Les couches “raster”
6.3.1
Modèle terrain du Maroc
6.4
Cartes avec {tmap} et autres
6.4.1
Graphiques de base R
6.4.2
Utilisation de {tmap}
6.4.3
Cartes interactives
6.4.4
Edition interactive
6.5
Interpolation spatiale
6.5.1
Où pleut-il au Maroc ?
6.5.2
Interpolation avec DIP
6.5.3
Krigeage ordinaire
6.5.4
Krigeage universel
6.5.5
Interpolation avec AURELHY
6.6
Récapitulatif des exercices
II SDD IV : pratique
7
Données particulières
7.1
Dates
7.1.1
Conversion d’une chaine de caractères en date
7.1.2
Temps biologique
7.2
Données textuelles
7.2.1
Encodages
7.2.2
Manipulation de texte
7.2.3
Expression régulière
7.2.4
Variables facteurs
7.3
Variables circulaires
7.3.1
Hirondelles
7.4
Récapitulatif des exercices
8
Projets
8.1
Structurer un projet
8.1.1
Qualités d’un bon projet
8.1.2
Structure conseillée
8.2
Données
8.2.1
Données brutes
8.2.2
Données retravaillées
8.3
Carnet de notes
8.4
Documents de synthèse
8.5
Astuces
8.5.1
Exclusion du dépôt Git
8.5.2
Bibliographie
8.6
Récapitulatif des exercices
III SDD V : recherche reproductible
9
Modularisation
9.1
Les fonctions
9.1.1
Nom de la fonction et de ses arguments
9.2
Documenter sa fonction
10
Optimisation & test
11
Bases de données
12
Packages et cloud
13
Le package
13.1
Création d’un package
13.1.1
Nom d’un package
Appendices
A
Langage R
A.1
Introduction au langage de R
A.1.1
Lancer R
A.1.2
Premières commandes
A.1.3
Variables et assignation
A.1.4
Quitter R et sauvegarder les variables, notion de workspace
A.1.5
Obtenir de l’aide dans R
A.2
Les packages
A.3
Petite demo
A.4
Bases du langage R
A.4.1
Quelques notions sur les variables
A.4.2
Le data frame
A.4.3
Distributions statistiques
A.4.4
Deux exemples d’analyses dans R
A.4.5
Scripts et fonctions personnalisées
Références
Site Web du cours
Site Github Du cours
Publié avec bookdown
Science des données biologiques III
2.7
Récapitulatif des exercices
Dans ce second module, vous aviez à réaliser les exercices suivants :
Validation croisée
Utilisation de la validation croisée
Utilisation de la quantification vectorielle
Utilisation de la forêt aléatoire