2.4 RMSE & critère d’Akaike

Le R2 (ajusté) n’est pas la seule mesure de la qualité d’ajustement d’un modèle. Il existe d’autres indicateurs. Par exemple, l’erreur quadratique moyenne, (root mean square error, ou RMSE en anglais) est la racine carrée de la moyenne des résidus au carré. Elle représente en quelque sorte la distance “typique” des résidus. Comme cette distance est exprimée dans les mêmes unités que l’axe y, cette mesure est particulièrement parlante. Nous pouvons l’obtenir par exemple comme ceci :

rmse(trees_lm, trees)
# [1] 0.1166409

Cela signifie que l’on peut s’attendre à ce que, en moyenne, les valeurs prédites de volume de bois s’écartent (dans un sens ou dans l’autre) de 0,12 m3 de la valeur effectivement observée. Évidemment, plus un modèle est bon, plus le RMSE est faible, contrairement au R2 qui lui doit être élevé.

À vous de jouer !
h5p

Si le R2 comme le RMSE sont utiles pour quantifier la qualité d’ajustement d’une régression, ces métriques sont peu adaptées pour la comparaison de modèles entre eux. En effet, nous avons vu que, plus le modèle est complexe, mieux il s’ajuste dans les données. Le R2 ajusté tente de remédier partiellement à ce problème, mais cette métrique reste peu fiable pour comparer des modèles très différents. Le critère d’Akaike, du nom du statisticien japonais qui l’a conçu, est une métrique plus adaptée à de telles comparaisons. Elle se base au départ sur encore une autre mesure de la qualité d’ajustement d’un modèle : la log-vraisemblance. Les explications relatives à cette mesure sont obligatoirement complexes d’un point de vue mathématique et nous vous proposons ici d’en retenir la définition sur un plan purement conceptuel. Un estimateur de maximum de vraisemblance est une mesure qui permet d’inférer le meilleur ajustement possible d’une loi de probabilité par rapport à des données. Dans le cas de la régression par les moindres carrés, la distribution de probabilité à ajuster est celle des résidus (pour rappel, il s’agit d’une distribution Normale de moyenne nulle et de variance constante \(\sigma^2\)). La log-vraisemblance, pour des raisons purement techniques, est souvent préféré au maximum de vraisemblance. Il s’agit du logarithme de sa valeur.

Donc, plus la log-vraisemblance est grande, mieux les données sont compatibles avec le modèle probabiliste considéré. Pour un même jeu de données, ces valeurs sont comparables entre elles… même pour des modèles très différents. Mais cela ne règle pas la question de la complexité du modèle. C’est ici qu’Akaike entre en piste. Il propose le critère suivant :

\[ \operatorname{AIC} = -2 \cdot \operatorname{log-vraisemblance} + 2 \cdot \textrm{npar} \]

  • \(\textrm{npar}\) est le nombre de paramètres à estimer dans le modèle. Donc, nous prenons comme point de départ moins deux fois la log-vraisemblance, une valeur a priori à minimiser, mais nous lui ajoutons le second terme de pénalisation en fonction de la complexité du modèle valant deux fois le nombre de paramètres du modèle. Notons d’ailleurs que le coefficient multiplicateur deux est modifiable. Si nous voulons un modèle le moins complexe possible, nous pourrions très bien multiplier par trois ou quatre pour pénaliser encore plus. Et si nous voulons être moins restrictifs, nous pouvons aussi diminuer ce facteur multiplicatif. Dans la pratique, le facteur deux est quand même très majoritairement adapté par les praticiens, mais la possibilité de changer l’impact de complexité du modèle est incluse dans le calcul de facto.

Dès lors que ce critère peut être calculé (et R le fait pour pratiquement tous les modèles), une comparaison est possible en vue de retenir le, ou un des modèles qui a l’AIC le plus faible. N’oubliez toutefois pas de comparer visuellement les différents modèles et d’interpréter les graphiques d’analyse des résidus respectifs en plus des valeurs d’AIC. C’est l’ensemble de ces outils qui vous orientent vers le meilleur modèle, pas l’AIC seul !

Calculons maintenant les critères d’Akaike pour nos six modèles trees_lm à trees_lm6

AIC(trees_lm) # Linéaire diamètre
# [1] -39.24246
AIC(trees_lm3) # Multiple diamètre et hauteur
# [1] -43.82811
AIC(trees_lm4) # Polynomial d'ordre 2 diamètre
# [1] -53.50964
AIC(trees_lm5) # Diamètre^2
# [1] -50.15027
AIC(trees_lm6) # Multiple et polynomial
# [1] -67.4391

D’après ce critère, le modèle linéaire est le moins bon, et le dernier modèle le plus complexe serait le meilleur. Notez toutefois que la différence est relativement minime (en regard du gain total) entre le modèle polynomial complet trees_lm4 et la version simplifiée au seul terme diamètre2 en trees_lm5, ce qui donne à penser que cette simplification est justifiée.

À vous de jouer !
h5p

Dans l’hypothèse où nous déciderions de conserver le modèle trees_lm6, en voici l’analyse des résidus qui est bonne dans l’ensemble :

chart$residuals(trees_lm6)

Naturellement, même si c’est le cas ici, ce n’est pas le modèle le plus complexe qui “gagne” toujours. Même ici, nous pourrions nous demander si le modèle polynomial utilisant uniquement le diamètre ne serait pas plus intéressant en pratique, car son ajustement est tout de même relativement bon (même si son critère d’Akaike est nettement moins en sa faveur), mais d’un point de vue pratique, il nous dispense de devoir mesurer la hauteur des arbres pour prédire le volume de bois. Ce n’est peut-être pas négligeable comme gain, pour une erreur de prédiction légèrement plus élevée si on compare les valeurs de RMSE.

rmse(trees_lm6, trees) # Multiple et polynomial
# [1] 0.06939391
rmse(trees_lm4, trees) # Polynomial ordre 2 diamètre
# [1] 0.08972287

L’erreur moyenne d’estimation du volume de bois passe de 0,07 m3 pour le modèle le plus complexe trees_lm6 utilisant à la fois le diamètre et la hauteur à 0,09 m3 pour trees_lm4. C’est à l’exploitant qu’il appartient de déterminer si le gain de précision vaut la peine de devoir effectuer deux mesures au lieu d’une seule. Mais au moins, nous sommes capables maintenant de lui proposer des alternatives viables, et d’en quantifier les effets respectifs.

Différentes méthodes d’ajustement par xkcd.
Différentes méthodes d’ajustement par xkcd.
À vous de jouer !

Effectuez maintenant les exercices du tutoriel B02Lb_reg_poly (Régression linéaire polynomiale).

BioDataScience2::run("B02Lb_reg_poly")

Réalisez le travail B02Ia_achatina.

Travail individuel pour les étudiants inscrits au cours de Science des Données Biologiques II à l’UMONS (Q1 : modélisation) à terminer avant le 2023-10-30 23:59:59.

Initiez votre projet GitHub Classroom

Voyez les explications dans le fichier README.md.