3.1 Variables numériques ou facteurs
L’ANOVA analyse une variable dépendante numérique en fonction d’une ou plusieurs variables indépendantes qualitatives. Ces variables sont dites “facteurs” non ordonnés (objets de classe factor), ou “facteurs” ordonnés (objets de classe ordered) dans R.
La régression linéaire analyse une variable dépendante numérique en fonction d’une ou plusieurs variables indépendantes numériques (quantitatives) également. Ce sont des objets de classe numeric (ou éventuellement integer, mais assimilé à numeric concrètement) dans R.
Donc, la principale différence entre ANOVA et régression linéaire telles que nous les avons abordés jusqu’ici réside dans la nature de la ou des variables indépendantes, c’est-à-dire, leur classe dans R (factor ou ordered versus numeric (double) ou integer. Pour rappel, il existe deux grandes catégories de variables : quantitatives et qualitatives, et deux sous-catégories pour chacune d’elles. Cela donne quatre types principaux de variables, formant la majorité des cas rencontrés :
variables quantitatives continues représentables par des nombres réels (numeric dans R, encore appelé double),
variables quantitatives discrètes pour des dénombrements d’évènements finis par exemple, et représentables par des nombres entiers (integer dans R),
variables qualitatives ordonnées pour des variables prenant un petit nombre de valeurs, mais pouvant être ordonnées de la plus petite à la plus grande (ordered dans R),
variables qualitatives non ordonnées prenant également un petit nombre de valeurs possibles, mais sans ordre particulier (factor dans R).