Science des données biologiques II
Préambule
Vue générale du cours
Matériel pédagogique
I SDD II: modélisation
1
Régression linéaire I
1.1
Modèle
1.1.1
Pourquoi modéliser ?
1.1.2
Quand modéliser ?
1.1.3
Entraînement et confirmation
1.2
Régression linéaire simple
1.2.1
Quantifier l’ajustement d’un modèle
1.2.2
La fonction
lm()
1.2.3
Résumé avec
summary()
1.3
Outils de diagnostic
1.3.1
Analyse des résidus
1.3.2
Enveloppe de confiance
1.3.3
Extraire les données d’un modèle
1.4
Récapitulatif des exercices
2
Régression linéaire II
2.1
Outils de diagnostic (suite)
2.1.1
Résumé avec
summary()
(suite)
2.1.2
Comparaison de régressions
2.2
Régression linéaire multiple
2.3
Régression linéaire polynomiale
2.4
RMSE & critère d’Akaike
2.5
Récapitulatif des exercices
3
Modèle linéaire
3.1
Variables numériques ou facteurs
3.2
ANOVA et régression linéaire
3.2.1
Modèle linéaire commun
3.2.2
Réencodage des variables de l’ANOVA
3.3
Matrice de contraste
3.3.1
Contraste orthogonaux
3.3.2
Autres matrices de contrastes courantes
3.4
ANCOVA
3.4.1
Bébés à la naissance
3.5
Modèle linéaire généralisé
3.5.1
Exemple
3.6
Récapitulatif des exercices
4
Régression non linéaire
4.1
Rendement photosynthétique
4.2
Principe
4.2.1
Fonction objective
4.2.2
Calcul itératif
4.2.3
Pièges et difficultés
4.2.4
Modèles ‘selfStart’ dans R
4.3
Modèles courants en biologie
4.3.1
Modèle de Michaelis-Menten
4.3.2
Modèles de croissance
4.3.3
Courbe exponentielle
4.3.4
Courbe logistique
4.3.5
Modèle de Gompertz
4.3.6
Modèles de von Bertalanffy
4.3.7
Modèle de Richards
4.3.8
Modèle de Weibull
4.3.9
Modèle Preece-Baines 1
4.3.10
Modèle de Tanaka
4.4
Choix du modèle
4.5
Récapitulatif des exercices
II SDD II: analyse
5
Classification hiérarchique
5.1
Analyse de données
5.2
Distance entre individus
5.2.1
Matrice de distances
5.2.2
Indices de (dis)similarité
5.2.3
Utilisation des indices
5.2.4
Propriétés des indices
5.3
Regroupement avec CAH
5.3.1
Dendrogramme
5.3.2
Séparer les groupes
5.3.3
Étude complète
5.4
Récapitulatif des exercices
6
K-moyenne, MDS & SOM
6.1
K-moyennes
6.1.1
Exemple simple
6.1.2
Classification du zooplancton
6.2
Positionnement multidimensionnel (MDS)
6.2.1
MDS simplifiée sous SciViews::R
6.2.2
MDS métrique ou PCoA
6.2.3
MDS non métrique
6.3
Cartes auto-adaptatives (SOM)
6.3.1
SOM sur le zooplancton
6.3.2
Interprétation d’un SOM
6.4
Récapitulatif des exercices
7
ACP & AFC
7.1
Analyse en composantes principales
7.1.1
ACP dans SciViews::R
7.1.2
Indiens diabétiques
7.1.3
Biométrie d’oursin
7.1.4
Visualisation de données quantitatives
7.1.5
ACP : mécanisme
7.1.6
Calcul matriciel ACP
7.2
Analyse factorielle des correspondances
7.2.1
AFC dans SciViews::R
7.2.2
Enquête sur la science
7.2.3
Des acariens sinon rien
7.2.4
Principe de l’AFC
7.3
Accès aux bases de données
7.3.1
Installation de SQLite
7.3.2
Base de données en mémoire
7.3.3
Base de données dans un fichier
7.3.4
Driver ODBC dans RStudio
7.3.5
Utilisation de DB Browser
7.3.6
Utilisation de {dplyr}
7.4
Récapitulatif des exercices
8
AFM, biodiversité et Open Data
8.1
Analyse factorielle multiple (AFM)
8.1.1
AFM dans SciViews::R
8.1.2
Plancton en Méditerranée
8.1.3
AFM avec données mixtes
8.2
Indices de biodiversité
8.2.1
Diversité alpha
8.2.2
Diversité beta
8.3
Données ouvertes
8.3.1
Gestion des données
8.3.2
Utilisation de données ouvertes
8.4
Récapitulatif des exercices
III SDD II: bioinformatique
9
Bioinformatique I
10
Bioinformatique II
11
Bioinformatique III
12
Bioinformatique IV
Appendices
A
Installation de la SciViews Box
A.1
Migration des projets
A.2
Configuration
A.2.1
Compte GitHub dans RStudio
Références
Site Web du cours
Site Github du cours
Publié avec bookdown
Science des données biologiques II
Module 9
Bioinformatique I
…