7.2 Lois de distributions

Étant donné que les sciences des données reposent sur un nombre (si possible important) de répétitions d’une mesure -des réplicats-, il est possible de déterminer à quelle fréquence un évènement E se produit de manière expérimentale. La probabilité observée est quantifiable sur base d’un échantillon comme nous venons de le voir dans la section précédente. La probabilité théorique est connue si le mécanisme sous-jacent est parfaitement connu. Donc, en situation réelle, seule la probabilité observée est accessible, et ce n’est qu’une approximation de la “vraie” valeur, ou valeur théorique. Cependant, dans des situations particulières les statisticiens ont calculé les probabilités théoriques. Ce sont des lois de distribution. Elles associent une probabilité théorique à chaque évènement possible.

La comparaison des probabilités théoriques et observées constitue l’un des piliers des statistiques. Le raisonnement est le suivant : si les probabilités observées sont suffisamment proches des probabilités théoriques, alors, nous pouvons considérer que les évènements sont générés selon un mécanisme identique ou proche de celui qui est à la base de la loi de distribution théorique correspondante.

Même dans la vie de tous les jours, les calculs de probabilités peuvent être utiles, enfin… d’après xkcd.

Avant d’explorer ces lois de distributions statistiques, nous devons d’abord introduire la distinction entre probabilité discrète et probabilité continue. Une probabilité discrète est associée à une variable qualitative ou à la rigueur, à une variable continue discrète qui peut prendre un nombre fini -et généralement relativement petit- de valeurs. A chaque valeur est associé un évènement. Chaque évènement a une certaine probabilité de se produire dans un contexte donné. Jusqu’à présent, nous n’avons traité que ce cas-là. Par contre, une variable quantitative continue peut prendre un nombre infini de valeurs matérialisées généralement par l’ensemble des nombres réels. Dans ce cas, l’association d’un évènement à une valeur de la variable, et d’une probabilité à chaque évènement reste vraie en théorie. Mais en pratique, ces probabilités dites continues ne sont pas calculables par les équations étudiées jusqu’ici. Par contre, les lois de distributions continues permettent des calculs, moyennant une petite astuce que nous dévoilerons plus loin dans ce chapitre.