Références

Grosjean, Philippe. 2001. “Growth Model of the Reared Sea Urchin Paracentrotus Lividus (Lamarck, 1816).” PhD thesis, ULB. http://go.sciviews.org/thesis_PhG.
Platt, T., C. L. Gallegos, and W. G. Harrison. 1980. “Photoinhibition of Photosynthesis in Natural Assemblages of Marine Phytoplankton.” Journal of Marine Research 38: 687–701.
Sen, A., and M. Srivastava. 1990. “Regression Analysis, Theory, Methods and Applications,” 347 pp.
Verzani, John. 2005. Using r for Introductory Statistics. Boca Raton, Florida: Chapman; Hall/CRC. https://www.crcpress.com/Using-R-for-Introductory-Statistics/Verzani/p/book/9781466590731.
Walz, Heinz. 2018. Saturation Pulse Analysis.” In DIVING-PAM-II: Underwater Chlorophyll Fluorometer Manual, edited by Heinz Walz GmbH, 49:81–94. February. https://walz.com/downloads/manuals/diving-pam-II/DIVING_PAM_II_02.pdf.
Wilkinson, Mark D, Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship.” Scientific Data 3 (1): 160018. https://doi.org/10.1038/sdata.2016.18.

  1. En biologie, le vivant peut être étudié essentiellement de deux manières complémentaires : par l’observation du monde qui nous entoure sans interférer, ou le moins possible, et par l’expérimentation où le biologiste fixe alors très précisément les conditions dans lesquelles il étudie ses organismes cibles. Les deux approches se prêtent à la modélisation mais seule l’expérimentation permet d’inférer avec certitude la causalité.↩︎

  2. Utiliser le carré des résidus a aussi d’autres propriétés statistiques intéressantes qui rapprochent ce calcul de la variance (somme de la distance au carré à la moyenne pour une seule variables numérique).↩︎

  3. Lors de la paramétrisation du modèle, pensez à arrondir la valeur des paramètres à un nombre de chiffres significatifs raisonnables. Inutile de garder 5, ou même 3 chiffres derrière la virgule si vous n’avez que quelques dizaines d’observations pour ajuster votre modèle.↩︎

  4. La corrélation entre les prédicteurs dans un modèle linéaire multiple est un gros problème et doit être évité le plus possible. Cela s’appelle la colinéarité ou encore multicolinéarité. Ainsi, il est toujours préférable de choisir un ensemble de variables indépendantes peu corrélées entre elles dans un même modèle, mais ce n’est pas toujours possible.↩︎

  5. Concrètement, un cas aussi simple se traite habituellement à l’aide d’un test t de Student, mais pour notre démonstration, nous allons considérer ici utiliser une ANOVA à un facteur plutôt.↩︎

  6. Attention : le fait d’utiliser une matrice de contraste qui restreint ceux utilisés dans le modèle est indépendant des tests post hoc de comparaisons multiples, qui restent utilisables par après. Les comparaisons deux à deux des médicaments restent donc accessibles, mais ils ne sont tout simplement pas mis en évidence dans le modèle de base.↩︎

  7. Pour rappel, on utilise le signe + pour indiquer un modèle sans interactions et un signe *pour spécifier un modèle complet avec interactions entre les variables.↩︎

  8. Techniquement, l’ERT nécessite d’effectuer des mesures après stabilisation de la photosynthèse, ce qui prend plusieurs minutes. Donc, une courbe rapide est discutable de ce point de vue mais reste un outil utile en écophysiologie où la comparaison de différentes RLCs indique une changement de capacité photosynthétique de la plante.↩︎

  9. Il faut faire attention ici, cela peut aussi signifier que nous n’avons pas assez de points après le plateau pour pouvoir estimer correctement \(\beta\) !↩︎

  10. Il est également possible de l’utiliser avec curve() pour un graphique de base dans R.↩︎

  11. Un modèle ‘selfStart’ est disponible pour cette fonction dans le package {vegan}, voir ?vegan::SSarrhenius().↩︎

  12. Le nombre de paires uniques et distinctes (pas j, j ou k, k) possibles parmi n items est \(n(n-1)/2\), soit ici pour 1262 éléments nous avons 795.691 paires.↩︎

  13. Les techniques complémentaires de classification supervisées seront abordées dans le cours de Science des Données Biologiques III l’an prochain.↩︎

  14. En pratique, différents algorithmes avec diverses optimisations existent. Le plus récent et le plus sophistiqué est celui de Hartigan-Wong. Il est utilisé par défaut par la fonction kmeans(). En pratique, il y a peu de raison d’en changer.↩︎

  15. Utilisez l’aide en ligne de ?kmeans pour connaître les arguments. Seul centers = est changé en k = dans k_means(), mais avec centers = aussi accepté.↩︎

  16. De manière générale, éviter de rajouter des données calculées dans le jeu de données initial. Cela peut amener à des erreurs particulièrement délicates si vous relancer ensuite l’analyse sur ce tableau.↩︎

  17. Chaque métrique de distance offre un éclairage différent sur les données. Elles agissent comme autant de filtres différents à votre disposition pour explorer vos données multivariées.↩︎

  18. Attention : la variable transparency, contrairement à ce que son nom pourrait suggérer n’est pas une mesure de la transparence de l’objet, mais de l’aspect plus ou moins régulier et lisse de sa silhouette.↩︎

  19. Nous avons choisi ici encore une autre palette de couleurs provenant du package {RColorBrewer}, voir ici.↩︎

  20. Attention : les valeurs sur les axes ne sont pas à interpréter quantitativement. Elles ne portent pas une information utile ici.↩︎

  21. OMS = Organisation Mondiale de la Santé, voir ici.↩︎

  22. Si vous êtes intéressé par l’ACM et le codage disjonctif complet, voyez cette vidéo.↩︎

  23. Les ACP sont définies au signe près. or une inversion de signe dans une dimension a pour effet de faire apparaître les graphiques en miroir.↩︎

  24. Vous avez déjà rédigé un dictionnaire des données lorsque vous avez planifié vos mesures concernant la biométrie humaine l’an dernier au cours de science des données biologiques I.↩︎

  25. Si vous utilisez un autre clavier que celui configuré par défaut, la procédure via le panneau de configuration de la SciViews Box reste disponible.↩︎