1.1 Modèle

Qu’est-ce qu’un “modèle” en science des données et en statistique ? Il s’agit d’une représentation simplifiée sous forme mathématique du mécanisme responsable de la distribution des observations.

Rassurez-vous, dans ce module, le côté mathématique du problème sera volontairement peu développé pour laisser une large place à une compréhension intuitive du modèle. Les seules notions clés à connaître ici concernent l’équation qui définit une droite quelconque dans le plan \(xy\) :

\[y = a \ x + b\]

Cette équation comporte :

deux variables \(x\) et \(y\) qui sont matérialisées par les axes des abscisses et des ordonnées dans le plan \(xy\). Ces variables prennent des valeurs bien définies pour les observations réalisées sur chaque individu du jeu de données.
deux paramètres \(a\) et \(b\), respectivement la pente de la droite (\(a\)) et son ordonnée à l’origine (\(b\)). Écrit de la sorte, \(a\) et \(b\) peuvent prendre n’importe quelle valeur et l’équation définit de manière générale toutes les droites possibles dans le plan \(xy\). Paramétrer ou paramétriser le modèle consiste à définir une et une seule droite en fixant les valeurs de \(a\) et de \(b\). Par exemple, si je décide de fixer \(a = 0.35\) et \(b = -1.23\), mon équation définit maintenant une droite bien précise dans le plan \(xy\) :

\[y = 0.35 \ x - 1.23\]

La distinction entre variable et paramètre dans les équations précédentes semble difficile pour certaines personnes. C’est pourtant crucial de pouvoir le faire pour bien comprendre la suite. Alors, c’est le bon moment de relire attentivement ce qui est écrit ci-dessus et de s’assurer d’avoir bien compris avant d’aller plus avant !

À vous de jouer !

1.1.1 Pourquoi modéliser ?

Le but de la modélisation consiste à découvrir l’équation mathématique de la droite (ou plus généralement, de la fonction) qui décrit au mieux la forme du nuage de points matérialisant les observations dans le plan \(xy\). Ceci peut même se généraliser à plus de deux variables. Nous parlerons alors d’un hyper-espace à n dimensions représenté par les différentes variables mesurées. Cette équation mathématique peut ensuite être utilisée de différentes façons, toutes plus utiles les unes que les autres :

Aide à la compréhension du mécanisme sous-jacent qui a généré les données. Par exemple, si une droite représente bien la croissance pondérale d’un organisme dans le plan représenté par le logarithme de la masse (log(M)) en ordonnée et le temps (t) en abscisse, nous pourrons déduire que la croissance de cet organisme est probablement un mécanisme de type exponentiel. En effet, si le nuage de points s’étire linéairement après transformation logarithmique de la masse, cela signifie que la relation entre cette masse et le temps est la fonction inverse du logarithme, soit la fonction exponentielle. Une autre façon de le monter consiste à partir d’une fonction exponentielle et de voir ce qu’une transformation logarithmique donne. Le modèle de départ non transformé serait :

\[M = b \cdot e^{a \cdot t}\]

Passer au logarithme pour le poids peut d’écrire comme le logarithme des deux membres de cette équation :

\[log(M) = log(b \cdot e^{a \cdot t})\]

Nous retravaillons ensuite le membre de droite en tenant compte des propriétés du logarithme. Premièrement, \(log(x \cdot y) = log(x) + log(y)\), et donc :

\[log(M) = log(b) + log(e^{a \cdot t})\]

Ensuite, \(log(e^x) = x\), donc nous pouvons simplifier :

\[log(M) = log(b) + a \cdot t\]

Pour finir, \(log(b)\) n’est rien d’autre qu’une constante. En d’autres termes, nous obtenons une droite dont la pente est \(a\) et l’ordonnée à l’origine est \(log(b)\). Par conséquent, ajuster un modèle linéaire entre \(log(M)\) et \(t\) revient à considérer la croissance en masse comme un phénomène purement exponentiel.

Attention ! Le modèle n’est pas le mécanisme sous-jacent de génération des données, mais utilisé habilement, ce modèle peut donner des indices utiles pour aider à découvrir ce mécanisme.

Effectuer des prédictions. Le modèle paramétré pourra être utilisé pour prédire, par exemple, la masse probable d’un individu de la même population après un certain laps de temps.
Comparer différents modèles. En présence de plusieurs populations, nous pourrons ajuster un modèle linéaire pour chacune d’elles et comparer ensuite les pentes des droites pour déterminer quelle population grandit plus vite.
Explorer les relations entre variables. Sans aucunes connaissances sur le contexte qui a permis d’obtenir nos données, un modèle peut fournir des informations utiles pour orienter les recherches futures.

Idéalement, un modèle devrait pouvoir servir à ces différentes applications. En pratique, comme le modèle est forcément une simplification de la réalité, des compromis doivent être réalisés pour arriver à cette simplification. En fonction de son usage, les compromis possibles vont différer. Il s’en suit une spécialisation des modèles en modèles mécanistiques qui décrivent particulièrement bien le mécanisme sous-jacent (fréquents en physique, par exemple), les modèles prédictifs conçus pour calculer des nouvelles valeurs (que l’intelligence artificielle affectionne particulièrement), les modèles comparatifs, et enfin, les modèles exploratoires (utilisés dans la phase initiale de découverte et de description des données). Retenez simplement qu’un même modèle est rarement efficace sur les quatre tableaux simultanément.

1.1.2 Quand modéliser ?

A chaque fois que deux ou plusieurs variables (quantitatives dans le cas de la régression) forment un nuage de points qui présente une forme particulière non sphérique, autrement dit, qu’une corrélation significative existe dans les données, un modèle peut être utile.

Étant donné deux variables quantitatives, trois niveaux d’association de force croissante peuvent être définies entre ces deux variables :

La corrélation quantifie juste l’allongement dans une direction préférentielle du nuage de points à l’aide des coefficients de corrélation linéaire de Pearson ou non linéaire de Spearman. Ce niveau d’association a été traité dans le module 12 du cours 1. Il est purement descriptif et n’implique aucunes autres hypothèses sur les données observées.
La relation considère que la corrélation observée entre les deux variables est issue d’un mécanisme sous-jacent qui nous intéresse. Un modèle mathématique de l’association entre les deux variables matérialise de manière éventuellement simplifiée, ce mécanisme. Il permet de réaliser ensuite des calculs utiles. Nous verrons plus loin que des contraintes plus fortes doivent être supposées concernant le distribution des deux variables.
La causalité précise encore le mécanisme sous-jacent dans le sens qu’elle exprime le fait que c’est la variation de l’une de ces variables qui est directement ou indirectement la cause de la variation de la seconde variable. Bien que des outils statistiques existent pour inférer une causalité (nous ne les aborderons pas dans ce cours), la causalité est plutôt étudiée via l’expérimentation : le biologiste contrôle et fait varier la variable supposée causale, toutes autres conditions par ailleurs invariables dans l’expérience. Il mesure alors et constate si la seconde variable répond ou non à ces variations¹ et en déduit une causalité éventuelle.

La distinction entre ces trois degrés d’association de deux variables est cruciale. Il est fréquent d’observer une confusion entre corrélation (ou relation) et causalité chez ceux qui ne comprennent pas bien la différence. Cela peut mener à des interprétations complètement erronées ! Comme ceci est à la fois crucial mais subtil, voici une vidéo issue de la série “les statistiques expliquées à mon chat” qui explique clairement le problème. Une troisième variable confondante peut en effet expliquer une corrélation, rendant alors la relation et/ou la causalité entre les deux variables fallacieuse…

À vous de jouer !

1.1.3 Entraînement et confirmation

En statistique, une règle universelle veut qu’une observation ne peut servir qu’une seule fois. Ainsi, toutes les données utilisées pour calculer le modèle ne peuvent pas servir simultanément à la confirmer. Il faut échantillonner d’autres valeurs pour effectuer cette confirmation. Il s’en suit une spécialisation des jeux de données en :

jeu ou set d’entraînement qui sert à établir le modèle (nous parlons aussi de set d’apprentissage, et en anglais, training set ou learning set),
jeu de confirmation ou de test (test set en anglais) qui sert à vérifier que le modèle est généralisable car il est capable de prédire le comportement d’un autre jeu de données indépendant issu de la même population statistique.

C’est une pratique cruciale de toujours confirmer son modèle, et donc, de prendre soin de séparer ses données en set d’apprentissage et de test. Les bonnes façons de faire cela seront abordées au cours 3 dans la partie consacrée à l’apprentissage machine. Ici, nous nous focaliserons uniquement sur l’établissement du modèle dans la phase d’entraînement. Par conséquent, nous utiliserons toutes nos données pour cet entraînement, mais qu’il soit d’emblée bien clair qu’une confirmation du modèle est une seconde phase également indispensable, du moins si nous souhaitons que le modèle soit généralisable.