3.1 Variables numériques ou facteurs
L’ANOVA analyse une variable dépendante numérique en fonction d’une ou plusieurs variables indépendantes qualitatives. Ces variables sont dites “facteurs” non ordonnés (objets de classe factor
), ou “facteurs” ordonnés (objets de classe ordered
) dans R.
La régression linéaire analyse une variable dépendante numérique en fonction d’une ou plusieurs variables indépendantes numérique (quantitatives) également. Ce sont des objets de classe numeric
(ou éventuellement integer
, mais assimilé à numeric
concrètement) dans R.
Donc, la principale différence entre ANOVA et régression linéaire telles que nous les avnos abordés jusqu’ici réside dans la nature de la ou des variables indépendantes, c’est-à-dire, leur type. Pour rappel, il existe deux grandes catégories de variables : quantitatives et qualitatives, et deux sous-catégories pour chacune d’elle. Cela donne quatyre types principaux de variables, formant plus de 90% des cas rencontrés :
variables quantitatives continues représentables par des nombres réels (
numeric
dans R),variables quantitatives discrètes pour des dénombrements d’événements finis par exemple, et représentables par des nombres entiers (
integer
dans R),variables qualitatives ordonnées pour des variables prenant un petit nombre de valeurs, mais pouvant être ordonnées de la plus petite à la plus grande (
ordered
dans R),variables qualitatives non ordonnées prenant également un petit nombre de valeurs possibles, mais sans ordre particulier (
factor
dans R).
Par la suite, un encodage correct des variables sera indispensable afin de distinguer correctement ces différentes situations. En effet, R considèrera automatiquement comment mener l’analyse en fonction de la classe des variables fournies. Donc, si la classe est incorrecte, l’analyse le sera aussi ! Si vous avez des doutes concernant les types de variables, relisez la section type de variables avant de continuer ici.