Science des données biologiques III
Préambule
Vue générale des cours
SDD III : exploration et prédiction
SDD IV : recherche reproductible
Matériel pédagogique
Approche pédagogique
Classe inversée & pédagogie active
Quatre niveaux d’exercices
Plan du cours
Issues
I SDD III : exploration et prédiction
1
Classification supervisée I
1.1
Principes de base
1.1.1
Conditions d’application
1.2
Mesure de performances
1.2.1
Matrice de confusion
1.2.2
Métriques de performance
1.3
Analyse discriminante linéaire
1.3.1
Manchots antarctiques
1.4
Récapitulatif des exercices
2
Classification supervisée II
2.1
Validation croisée
2.1.1
Application sur les manchots
2.2
Différents algorithmes
2.2.1
Indiens diabétiques
2.3
K plus proches voisins
2.3.1
Pima avec k-NN
2.4
Quantification vectorielle
2.4.1
Pima avec LVQ
2.5
Partitionnement récursif
2.5.1
Pima avec rpart
2.6
Forêt aléatoire
2.6.1
Pima avec forêt aléatoire
2.7
Optimisation et métriques
2.8
Récapitulatif des exercices
3
Classification supervisée III
3.1
Métriques et proportions
3.1.1
Proportions en apprentissage
3.1.2
Probabilités
a priori
3.2
Courbes ROC
3.3
Machine à vecteurs supports
3.3.1
Approche par noyau
3.3.2
SVM multiclasses
3.3.3
SVM et Pima
3.4
Réseaux de neurones artificiels
3.4.1
Pima avec réseau de neurones
3.4.2
Apprentissage profond
3.5
Challenge
3.6
Récapitulatif des exercices
4
Séries chronologiques I
4.1
Observations dépendantes du temps
4.1.1
Lynx
4.1.2
CO
2
à Hawaï
4.1.3
EEG
4.1.4
Plancton méditerranéen
4.2
Qu’est-ce qu’une série chronologique ?
4.2.1
Séries régulières
4.2.2
Séries à trous
4.2.3
Séries irrégulières
4.3
Manipulation et description
4.3.1
Statistiques glissantes
4.3.2
Manipulations de
ts
4.4
Analyse de séries
4.4.1
Autocorrélation, autocovariance, cross-corrélation et cross-covariance
4.4.2
Analyse spectrale
4.4.3
Tendance générale
4.4.4
Tendance locale
4.5
Récapitulatif des exercices
5
Séries chronologiques II
5.1
Décomposition de séries
5.1.1
Fonction générale de décomposition
5.2
Filtrage d’une série
5.2.1
Moyennes mobiles
5.2.2
Médianes mobiles
5.2.3
Filtrage par différences
5.2.4
Filtrage par les valeurs propres
5.3
Régressions et séries
5.3.1
Estimation de la tendance par régression
5.4
Décomposition par LOESS
5.5
Régularisation
5.5.1
Application pratique
5.6
Récapitulatif des exercices
6
Statistiques spatiales
6.1
Réalisation de cartes
6.1.1
Échelle et orientation
6.1.2
Importation de “shapefiles”
6.1.3
Systèmes de coordonnées
6.2
Annotation de carte
6.2.1
Labels et textes
6.2.2
Couches supplémentaires
sf
6.2.3
Variables supplémentaires
6.3
Les couches “raster”
6.3.1
Modèle terrain du Maroc
6.4
Cartes avec {tmap} et autres
6.4.1
Graphiques de base R
6.4.2
Utilisation de {tmap}
6.4.3
Cartes interactives
6.4.4
Édition interactive
6.5
Interpolation spatiale
6.5.1
Où pleut-il au Maroc ?
6.5.2
Interpolation avec DIP
6.5.3
Krigeage ordinaire
6.5.4
Krigeage universel
6.5.5
Interpolation avec AURELHY
6.6
Récapitulatif des exercices
II SDD IV : recherche reproductible
7
Données particulières
7.1
Dates
7.1.1
Conversion d’une chaîne de caractères en date
7.1.2
Temps biologique
7.2
Données textuelles
7.2.1
Encodage
7.2.2
Manipulation de texte
7.2.3
Expression régulière
7.2.4
Variables facteurs
7.3
Variables circulaires
7.3.1
Hirondelles
7.4
Récapitulatif des exercices
8
Projets
8.1
Structurer un projet
8.1.1
Qualités d’un bon projet
8.1.2
Structure conseillée
8.2
Données
8.2.1
Données brutes et retravaillées
8.2.2
Format des données
8.3
Carnet de notes
8.4
Documents de synthèse
8.5
Astuces
8.5.1
Exclusion de fichiers du dépôt git
8.5.2
Bibliographie
8.6
Votre projet
8.7
Récapitulatif des exercices
9
Modularisation
9.1
Les fonctions
9.1.1
Nom de la fonction et de ses arguments
9.2
Documenter sa fonction
10
Optimisation & test
11
Bases de données
12
Packages et cloud
13
Le package
13.1
Création d’un package
13.1.1
Nom d’un package
Appendices
A
Langage R
A.1
Introduction au langage de R
A.1.1
Lancer R
A.1.2
Premières commandes
A.1.3
Variables et assignation
A.1.4
Quitter R et sauvegarder les variables, notion de workspace
A.1.5
Obtenir de l’aide dans R
A.2
Les packages
A.3
Petite démo
A.4
Bases du langage R
A.4.1
Quelques notions sur les variables
A.4.2
Le data frame
A.4.3
Distributions statistiques
A.4.4
Deux exemples d’analyses dans R
A.4.5
Scripts et fonctions personnalisées
Références
Site Web du cours
Site Github Du cours
Publié avec bookdown
Science des données biologiques III
Module 11
Bases de données
…