Science des données biologiques

11.5 Effet aléatoire

Jusqu’à présent, nous avons considéré que nous échantillonnons toutes les modalités qui nous intéressent pour les variables facteurs explicatives. Il se peut que les modalités soient trop nombreuses et que nous ne puissons n’en étudier qu’une petite fraction. Nous avons deux possibilités.

Soit nous choisissons aléatoirement quelques modalités, et nous les étudions systématiquement pour les différentes modalités de l’autre variable. Nous nous ramenons à un modèle à facteurs fixes mais nous ne pouvons donner une réponse que pour les modalités échantillonnées (restriction de la population statistique étudiée).
Soit, nous échantillonnons aléatoirement dans la population à chaque mesure. Donc, entre les différentes mesures, il s’agit de cas différents.

Considérez le plan d’expérience classique en agronomie de l’étude de quatre variétés de blé différentes notées ici A, B, C, et D. Nous voulons déterminer quelle variété est la plus productive dans une région donnée constituée de centaines de fermes susceptibles de cultiver ce blé. Nous n’allons pas pouvoir effectuer des tests dans toutes les fermes. Donc, nous allons échantillonner quelques fermes au hasard. Si nous tirons au sort trois fermes, notée X, Y et Z, dans la région considérée, et que nous testons nos quatre variétés de blé dans ces trois fermes, et seulement celles-là, nous revenons vers un modèle à facteur fixe comme antérieurement. Malheureusement, le résultat ne sera pas extrapolable aux autres fermes. Si, par contre, nous tirons trois fermes au hasard pour chaque variété (et donc, chaque variété a été testée potentiellement dans des fermes différentes), nous avons ce qu’on appelle un facteur aléatoire pour l’effet ferme. Un modèle sans interactions avec un effet aléatoire s’écrit :

\[y_{ijk} = \mu + \tau1_j + \tau2_k + \epsilon_i \mathrm{\ avec\ } \tau2_k \sim N(0, \sigma_{\tau2}) \mathrm{\ et\ } \epsilon_i \sim N(0, \sigma) \]

L’équation du modèle n’a pas changé, mais nous avons maintenant un terme aléatoire supplémentaire, \(\tau2_k\) dont il faudra tenir compte dans les calculs. Les hypothèses nulle et alternative pour ce facteur s’écrivent également différemment. Nous n’indiquons plus quelles moyennes de toutes les modalités sont égales (il peut éventuellement y en avoir une infinité possibles), mais que l’écart type de la distribution vaut zéro sour \(H_0\) :

\(H_0: \sigma_{\tau2} = 0\)
\(H_1: \sigma_{\tau2} \neq 0\)

Dans R, la fonction lm() utilisée jusqu’ici ne prend pas en compte les facteurs aléatoires. Nous devons utiliser la fonction aov() par exemple à condition que le plan d’expérience soit bien balancé.

Pour une ANOVA à un facteur aléatoire, nous utiliserons (un facteur aléatoire s’annonce à l’intérieur de la fonction Error()) :

aov(data = df, y ~ Error(fact1))

Pour une ANOVA à deux facteurs croisés sans interactions, et un facteur aléatoire comme dans le cas de notre blé testé dans des fermes tirées à chaque fois au hasard, nous utiliserons :

aov(data = df, y ~ fact1 + fact2 + Error(fact2))

Suite à faire…

En cas de rejet de H_0 pour un facteur aléatoire, il n’existe pas de test “post hoc”. Ce genre de test ne signifie pas grand chose dans ce cas, puisque le facteur est aléatoire et que chaque modalité étudiée est considére comme une réalisation au hasard issue de la distribution normale.