3.2 ANOVA et régression linéaire

Avez-vous remarqué une ressemblance particulière entre la régression linéaire que nous avons réalisé précédement et l’analyse de variance (ANOVA) ? Les plus observateurs auront mis en avant que la fonction de base dans R est la même dans les deux cas : lm(). Cette fonction est donc capable de traiter aussi bien des variables réponses qualitatives que quantitatives, et effectue alors une ANOVA dans un cas ou une régression linéaire dans l’autre.

Par ailleurs, nous avons vu que l’ANOVA et la régression linéaire se représentent par des modèles semblables :

\(y = \mu + \tau_i + \epsilon\) pour l’ANOVA et
\(y = \beta_1 + \beta_2 x + \epsilon\) pour la régression linéaire, avec
\(\epsilon \sim \mathcal{N}(0, \sigma)\) dans les deux cas.

Donc, nous retrouvons bien au niveau du modèle mathématique sous-jacent la différence principale entre les deux qui réside dans le type de variable indépendante (ou explicative) :

Variable qualitative pour l’ANOVA,
Variable quantitative pour la régression linéaire.

Le calcul est, en réalité, identique en interne. Il est donc possible de généraliser ces deux approches en une seule appelée modèle linéaire, mais à condition d’utiliser une astuce pour modifier nos modèles afin qu’ils soient intercompatibles.

3.2.1 Modèle linéaire commun

Le nœud du problème revient donc à transformer nos modèles mathématiques pour qu’ils puissent être fusionnés en un seul. Comment homogénéiser ces deux modèles ?

\(y = \mu + \tau_i + \epsilon\) pour l’ANOVA et
\(y = \beta_1 + \beta_2 x + \epsilon\) pour la régression linéaire.

Avant de poursuivre, réfléchisser un peu par vous-même. Quelles sont les différences qu’il faut contourner ? Est-il possible d’effectuer une ou plusieurs transformations des variables pour qu’elles se comportent de manière similaire dans les deux cas ?

3.2.2 Réencodage des variables de l’ANOVA

Considérons dans un premier temps, un cas très simple : une ANOVA à un facteur avec une variable indépendante qualitative (factor) à deux niveaux⁵. Nous pouvons écrire :

\[ y = \mu + \tau_1 I_1 + \tau_2 I_2 + \epsilon \]

avec \(I_i\), une variable dite indicatrice créée de toute pièce qui prend la valeur 1 lorsque le niveau correspond à i, et 0 dans tous les autres cas. Vous pouvez vérifier par vous-même que l’équation ci-dessus fonctionnera exactement de la même manière que le modèle utilisé jusqu’ici pour l’ANOVA. En effet, poiur un individu de la population 1, \(I_1\) vaut 1 et \(\tau_1\) est utilisé, alors que comme \(I_2\) vaut 0, \(\tau_2\) est annulé dans l’équation car \(\tau_2 I_2\) vaut également 0. Et c’est exactement l’inverse qui se produit pour un individu de la population 2, de sorte que c’est \(\tau_2\) qui est utilisé cette fois-ci.

Notez que notre nouvelle formulation, à l’aide de variables indicatrices ressemble fortement à la régression linéaire. La seule différence par rapport à cette dernière est que nos variables \(I_i\) ne peuvent prendre que des valeurs 0 ou 1 (en tous cas, pour l’instant), alors que les \(x_i\) dans la régression linéaire multiple sont des variables quantitatives qui peuvent prendre une infinité de valeurs différentes (nombres réels).

Nouys pouvons encore réécrire notre équation comme suit pour qu’elle se rapproche encore plus de celle de la régression linéaire simple. Passons par l’introduction de deux termes identiques \(\tau_1 I_2\) additionné et soustrait, ce qui revient au même qu’en leur absence :

\[ y = \mu + \tau_1 I_1 + \tau_1 I_2 - \tau_1 I_2 + \tau_2 I_2 + \epsilon \]

En considérant \(\beta_2 = \tau_2 - \tau_1\), cela donne :

\[ y = \mu + \tau_1 I_1 + \tau_1 I_2 + \beta_2 I_2 + \epsilon \]

En considérant \(\beta_1 = \mu + \tau_1 = \mu + \tau_1 I_1 + \tau_1 I_2\) (car quelle que soit la population à laquelle notre individu appartient, il n’y a jamais qu’une seule des deux valeurs \(I_1\) ou \(I_2\) non nulle et dans tous les cas le résultat est donc égal à \(\tau_1\)), on obtient :

\[ y = \beta_1 + \beta_2 I_2 + \epsilon \]

Cette dernière formulation est strictement équivalente au modèle de la régression linéaire simple dans laquelle la variable \(x\) a simplement été remplacée par notre variable indicatrice \(I_2\). Ceci se généralise pour une variable indépendante à \(k\) niveaux, avec \(k - 1\) variables indicatrices au final.

En prenant soin de réencoder le modèle de l’ANOVA relatif aux variables indépendantes qualitatives, nous pouvons à présent mélanger les termes des deux modèles en un seul : notre fameux modèle linéaire. Nous aurons donc, quelque chose du genre (avec les \(x_i\) correspondant aux variables quantitatives et les \(I_j\) des variables indicatrices pour les différents niveaux des variables qualitatives) :

\[ y = \beta_1 + \beta_2 x_1 + \beta_3 x_2 + ... + \beta_n I_1 + \beta_{n+1} I_2 ... + \epsilon \]

Concrètement, un cas aussi simple se traite habituellement à l’aide d’un test t de Student, mais pour notre démonstration, nous allons considérer ici utiliser une ANOVA à un facteur plutôt.↩