11.3 Modèle croisé complet

Le modèle ANOVA que nous venons de faire s’appelle un modèle croisé parce que les mesures sont effectuées pour chaque combinaison des niveaux des deux variables facteurs explicatives, et ce, de manière indépendante (les observations d’un niveau ne sont pas dépendantes de celles d’un autre niveau)⁵².

crabs2 %>.%
  count(., species, sex)

# # A tibble: 4 x 3
#   species sex       n
#   <fct>   <fct> <int>
# 1 B       F        50
# 2 B       M        50
# 3 O       F        50
# 4 O       M        50

Le modèle croisé sans interactions que nous avions utilisés est cependant incomplet puisque, pour considérer tous les cas possibles, il faut aussi considérer que ces interactions puissent exister et les inclure directement dans le modèle. Le modèle complet s’écrit comme ceci :

\[y_{ijk} = \mu + \tau1_j + \tau2_k + \tau1\tau2_{jk} + \epsilon_i \mathrm{\ avec\ } \epsilon \sim N(0, \sigma)\]

avec le nouveau terme \(\tau1\tau2_{jk}\) qui correspond à la distance entre la k^ème moyenne générale (la moyenne quel que soit j) et la moyenne particulière pour les observations des populations particulières à k et j simultanément. Ce modèle permet ainsi que chaque moyenne \(\bar{y}_{jk}\) puisse différer librement, et donc, autorise les interactions. Toujours considérant les trois variables y, fact1 et fact2, ce modèle s’écrit dans R comme suit :

\[y \sim fact1 + fact2 + fact1:fact2\]

Avec \(fact1:fact2\) étant le terme d’interactions. On peut aussi le simplifier en utilisant * à la place de + entre les deux variables facteurs, ce qui signifie implicitement de tenir également compte des interactions :

\[y \sim fact1 * fact2\]

Cette fois-ci, la décomposition de la variable se fait en quatre étapes : (1) depuis la moyenne générale µ vers les j^èmes moyennes pour fact1, ensuite (2) de ces moyennes vers les k^èmes moyennes pour fact2, puis (3) de ces dernières vers la moyenne particulière pour le sous-groupe jk, et enfin (4) les résidus \(\epsilon_i\) pour chaque observation. Voyons ce que donne ce modèle complet sur nos données crabs2. Un “snippets” est utilisable (two-way ANOVA (complete model)).

anova(anova. <- lm(data = crabs2, aspect5 ~ species * sex))

# Analysis of Variance Table
# 
# Response: aspect5
#              Df     Sum Sq    Mean Sq  F value    Pr(>F)    
# species       1 0.00002753 0.00002753  17.0913 5.279e-05 ***
# sex           1 0.00069935 0.00069935 434.1610 < 2.2e-16 ***
# species:sex   1 0.00000052 0.00000052   0.3236    0.5701    
# Residuals   196 0.00031572 0.00000161                       
# ---
# Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Notre analyse confirme qu’il n’y a pas d’interactions. La valeur P (0,57) en regard du terme species:sex correspondant est très largement supérieure à \(\alpha\) de 5%. Notez aussi que les tests relatifs à species et sex donnent des valeurs différentes de notre modèle sans interactions. Les différences entre les deux seront d’autant plus importantes que les interactions sont fortes. Les conclusions restent les mêmes que précédemment, et ici, nous démontrons par un test d’hypothèse que les interactions ne sont pas significatives. Naturellement, la description des données, les vérifications (homoscédasticité, distribution normale ou quasi-normale des résidus) et les analyses “post-hoc” en cas de rejet de \(H_0\) sont à réaliser ici aussi. Nous les avons déjà faites plus haut à peu de choses prêt (les résultats seront ici très proches de ceux du modèle sans interactions, puisque ces dernières sont négligeables).

Faites attention à un piège fréquent lorsque vous avez des mesures multiples sur les mêmes individus. Par exemple, si vous étudiez trois populations avec disons, cinq répliquas par population et que vous dénombrez des cellules marquées sur dix coupes histologiques réalisées chaque fois dans un organe du même individu, vous aurez 3x5x10 = 150 mesures, mais vous ne pouvez pas utiliser une ANOVA à deux facteurs croisés car les 150 observations ne sont pas indépendantes les unes des autres. Vous n’avez jamais mesuré que 15 individus au total. Si vous analysez ces données comme si vous en aviez mesuré 150, votre analyse sera incorrecte. Il s’agit ici d’une erreur qui s’appelle la pseudo-réplication. Vous devrez utiliser d’autres modèles comme le modèle à facteurs hiérarchisés (voir section suivante) ou le modèle à mesures répétées (voir encore après).

Conditions d’application

Les conditions d’application sont les mêmes que pour l’ANOVA à deux facteurs sans interactions, sauf qu’ici, les interactions sont bien évidemment permises.

À vous de jouer !

Effectuez maintenant les exercices du tutoriel A11La_anova2 (L’ANOVA à 2 facteurs).

BioDataScience1::run("A11La_anova2")

Pour en savoir plus

Un blog en français qui explique l’ANOVA à deux facteurs de manière plus détaillée qu’ici. Ensuite la résolution de leur exemple dans R. Enfin, des suggestions pour annoter un graphique et indiquer quelles sont les différences qui sont significatives dessus.

À vous de jouer !

Réalisez le travail A11Ia_anova2, partie I.

Travail individuel pour les étudiants inscrits au cours de Science des Données Biologiques I : inférence à l’UMONS à terminer avant le 2022-05-09 23:59:59.

Initiez votre projet GitHub Classroom

Voyez les explications dans le fichier README.md, partie I.