1.1 Modèle

Qu’est-ce qu’un “modèle” en science des données et en statistique ? Il s’agit d’une représentation simplifiée sous forme mathématique du mécanisme responsable de la distribution des observations.

Rassurez-vous, dans ce module, le côté mathématique du problème sera volontairement peu développé pour laisser une large place à une compréhension intuitive du modèle. Les seules notions clés à connaître ici concernent l’équation qui définit une droite quelconque dans le plan \(xy\) :

\[y = a + b \ x\]

Cette équation comporte :

  • deux variables \(x\) et \(y\) qui sont matérialisées sur un graphique en nuage de points par les axes des abscisses et des ordonnées dans le plan \(xy\). Ces variables prennent des valeurs bien définies pour les observations réalisées sur chaque individu du jeu de données.

  • deux paramètres \(a\) et \(b\), respectivement, l’ordonnée à l’origine (\(a\)) et la pente de la droite (\(b\)). Écrit de la sorte, \(a\) et \(b\) peuvent prendre n’importe quelle valeur et l’équation définit de manière générale toutes les droites possibles dans le plan \(xy\). Paramétrer ou paramétriser le modèle consiste à définir une et une seule droite en fixant les valeurs de \(a\) et de \(b\). Par exemple, si je décide de fixer \(a = 0.35\) et \(b = -1.23\), mon équation définit maintenant une droite bien précise dans le plan \(xy\) :

\[y = 0.35 - 1.23\ x\]

La distinction entre variable et paramètre dans les équations précédentes semble difficile pour certaines personnes. Il est pourtant crucial de pouvoir le faire pour bien comprendre la suite. Alors, c’est le bon moment de relire attentivement ce qui est écrit ci-dessus et de s’assurer d’avoir bien compris avant d’aller plus avant !
À vous de jouer !
h5p

1.1.1 Pourquoi modéliser ?

Le but de la modélisation consiste à découvrir l’équation mathématique de la droite (ou plus généralement, de la fonction) qui décrit au mieux la forme du nuage de points matérialisant les observations dans le plan \(xy\). Ceci peut même se généraliser à plus de deux variables. Nous parlerons alors d’un hyper-espace à n dimensions représenté par les différentes variables mesurées. Cette équation mathématique peut ensuite être utilisée de différentes façons, toutes plus utiles les unes que les autres :

  • Aide à la compréhension du mécanisme sous-jacent qui a généré les données. Par exemple, si une droite représente bien la croissance pondérale d’un organisme dans le plan représenté par le logarithme de la masse (log(M)) en ordonnée et le temps (t) en abscisse, nous pourrons déduire que la croissance de cet organisme est probablement un mécanisme de type exponentiel. En effet, si le nuage de points s’étire linéairement après transformation logarithmique de la masse, cela signifie que la relation entre cette masse et le temps est la fonction inverse du logarithme, soit la fonction exponentielle. Une autre façon de le monter consiste à partir d’une fonction exponentielle et de voir ce qu’une transformation logarithmique donne. Le modèle de départ non transformé serait :

\[M = a \cdot e^{b \ t}\]

Passer au logarithme pour la masse peut d’écrire comme le logarithme des deux membres de cette équation :

\[log(M) = log(a \cdot e^{b \ t})\]

Nous retravaillons ensuite le membre de droite en tenant compte des propriétés du logarithme. Premièrement, \(log(x \cdot y) = log(x) + log(y)\), et donc :

\[log(M) = log(a) + log(e^{b \ t})\]

Ensuite, \(log(e^x) = x\), donc nous pouvons simplifier :

\[log(M) = log(a) + b \ t\]

Pour finir, \(log(a)\) n’est rien d’autre qu’une constante. En d’autres termes, nous obtenons une droite dont la pente est \(b\) et l’ordonnée à l’origine est \(log(a)\), une constante. On peut écrire, en remplaçant \(log(a)\) par \(a'\) :

\[log(M) = a' + b \ t\]

Par conséquent, ajuster un modèle linéaire entre \(log(M)\) et \(t\) revient à considérer la croissance en masse comme un phénomène purement exponentiel.

Attention ! Le modèle n’est pas le mécanisme sous-jacent de génération des données, mais utilisé habilement, ce modèle peut donner des indices utiles pour aider à découvrir ce mécanisme.

  • Effectuer des prédictions. Le modèle paramétré pourra être utilisé pour prédire, par exemple, la masse probable d’un individu de la même population connaissant sa taille.

  • Comparer différents modèles. En présence de plusieurs populations, nous pourrons ajuster un modèle linéaire pour chacune d’elles et comparer ensuite les pentes des droites pour déterminer quelle population grandit plus vite.

  • Explorer les relations entre variables. Sans aucune connaissance sur le contexte qui a permis d’obtenir nos données, un modèle peut fournir des informations utiles pour orienter les recherches futures.

Idéalement, un modèle devrait pouvoir servir à ces différentes applications. En pratique, comme le modèle est forcément une simplification de la réalité, des compromis doivent être faits pour arriver à cette simplification. En fonction de son usage, les compromis possibles vont différer. Il s’en suit une spécialisation en modèles mécanistiques qui décrivent particulièrement bien le mécanisme sous-jacent (fréquents en physique, par exemple), les modèles prédictifs conçus pour calculer de nouvelles valeurs (que l’intelligence artificielle affectionne particulièrement), les modèles comparatifs, et enfin, les modèles exploratoires (utilisés dans la phase initiale de découverte et de description des données). Retenez simplement qu’un même modèle est rarement efficace sur les quatre tableaux simultanément.

1.1.2 Quand modéliser ?

À chaque fois que deux ou plusieurs variables (quantitatives dans le cas de la régression) forment un nuage de points qui présente une forme particulière non sphérique, autrement dit, qu’une corrélation significative existe dans les données, un modèle peut être utile.

Étant donné deux variables quantitatives, trois niveaux d’association de force croissante peuvent être définis entre ces deux variables :

  • La corrélation quantifie l’allongement dans une direction préférentielle du nuage de points à l’aide des coefficients de corrélation linéaire de Pearson ou non linéaire de Spearman. Ce niveau d’association a été traité dans le module 6 du cours 1. Il est purement descriptif et n’implique aucune autre hypothèse sur les données observées.

  • La relation considère que la corrélation observée entre les deux variables est issue d’un mécanisme sous-jacent qui nous intéresse. Un modèle mathématique de l’association entre les deux variables matérialise de manière éventuellement simplifiée, ce mécanisme. Il permet de réaliser ensuite des calculs utiles. Nous verrons plus loin que des contraintes plus fortes doivent être supposées concernant la distribution des deux variables.

  • La causalité précise encore le mécanisme sous-jacent dans le sens qu’elle exprime le fait que c’est la variation de l’une de ces variables qui est directement ou indirectement la cause de la variation de la seconde variable. Bien que des outils statistiques existent pour inférer une causalité (nous ne les aborderons pas dans ce cours), la causalité est plutôt étudiée via l’expérimentation : le biologiste contrôle et fait varier la variable supposée causale, toutes autres conditions par ailleurs invariables dans l’expérience. Il mesure alors et constate si la seconde variable répond ou non à ces variations2 et en déduit une causalité éventuelle.

La distinction entre ces trois degrés d’association de deux variables est cruciale. Il est fréquent d’observer une confusion entre corrélation (ou relation) et causalité chez ceux qui ne comprennent pas bien la différence. Cela peut mener à des interprétations complètement erronées ! Comme ceci est à la fois crucial mais subtil, voici une vidéo issue de la série “les statistiques expliquées à mon chat” qui explique clairement le problème. Une troisième variable confondante peut en effet expliquer une corrélation, rendant alors la relation et/ou la causalité entre les deux variables fallacieuse…

À vous de jouer !
h5p

1.1.3 Entraînement et confirmation

En statistique, une règle universelle veut qu’une observation ne puisse servir qu’une seule fois. Ainsi, toutes les données utilisées pour calculer le modèle ne peuvent pas servir simultanément à le confirmer. Il faut échantillonner d’autres valeurs pour effectuer cette confirmation. Il s’en suit une spécialisation des jeux de données en :

  • jeu ou set d’entraînement qui sert à établir le modèle (nous parlons aussi de set d’apprentissage, et en anglais, training set ou learning set),

  • jeu de confirmation ou de test (test set en anglais) qui sert à vérifier que le modèle est généralisable car il est capable de prédire le comportement d’un autre jeu de données indépendant issu de la même population statistique.

C’est une pratique cruciale de toujours confirmer son modèle, et donc, de prendre soin de séparer ses données en set d’apprentissage et de test. Les bonnes façons de faire cela seront abordées au cours 3 dans la partie consacrée à l’apprentissage machine. Ici, nous nous focaliserons uniquement sur l’établissement du modèle dans la phase d’entraînement. Par conséquent, nous utiliserons toutes nos données pour cet entraînement, mais qu’il soit d’emblée bien clair qu’une confirmation du modèle est une seconde phase également indispensable, du moins si nous souhaitons que le modèle soit généralisable (et c’est quasiment toujours ce que l’on recherche).

  1. En biologie, le vivant peut être étudié essentiellement de deux manières complémentaires : par l’observation du monde qui nous entoure sans interférer, ou le moins possible, et par l’expérimentation où le biologiste fixe alors très précisément les conditions dans lesquelles il étudie ses organismes cibles. Les deux approches se prêtent à la modélisation, mais seule l’expérimentation permet d’inférer avec certitude la causalité.↩︎