7.6 Distribution normale
La vidéo suivante vous permettra de récapituler certaines notions étudiées jusqu’ici concernant les types de variables et vous introduira la loi de distribution normale ou distribution de Gauss ou encore, gaussienne.
7.6.1 Une “courbe en cloche”
La distribution normale est la distribution la plus utilisée en statistique. Elle se rencontre très souvent en biologie comme dans bien d’autres domaines, à chaque fois qu’une variable continue définie sur tout le domaine des réels est issue d’un nombre important de composantes indépendantes dont les effets sont additifs. La forme de sa densité de probabilité est caractéristique et dite “en cloche” (Fig. 7.9).
Il s’agit d’une densité de probabilité symétrique et asymptotique à ses deux extrémités en + et -infini. La distribution normale a deux paramètres : la moyenne \(\mu\) et l’écart type \(\sigma\). Sa densité de probabilité est représentée par l’équation suivante :
\[\Phi(Y) = \frac{1}{ \sigma \sqrt{2 \pi}} e^{-\frac{1}{2} \left( \frac{Y - \mu}{\sigma} \right)^2}\]
Pour une variable aléatoire \(Y\) qui suit une distribution normale avec une moyenne \(\mu\) et un écart type \(\sigma\), nous écrirons :
\[Y \sim N(μ, σ)\]
7.6.2 Loi normale réduite
Parmi toutes les distributions normales possibles, un est particulière : la distribution normale réduite qui a toujours une moyenne nulle et un écart type unitaire.
\[N(0, 1)\]
Elle représente la distribution des valeurs pour une variable qui a été standardisée, c’est-à-dire, à laquelle on a soustrait la moyenne et que l’on a divisé par son écart type.
\[Z = \frac{Y - \mu}{\sigma}\]
Sa formulation est nettement simplifiée.
\[\Phi(Z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{Z^2}{2}}\]
La probabilité qu’une observation soit dans un intervalle de \(\pm 1 \sigma\) autour de la moyenne est de 2/3 environ. De même, un intervalle de \(\pm 2 \sigma\) définit une aire de 95%, et celle-ci devient supérieure à 99% pour des observations se situent dans l’intervalle \(\pm 3 \sigma\) (Fig. 7.10).
7.6.3 Fonctions et snippets
Les fonctions relatives à la distribution normale dans R sont <x>norm()
. Le calcul de probabilités se fait à l’aide de pnorm()
, de quantiles à partir de qnorm()
. Un échantillon pseudo-aléatoire s’obtient à partir de rnorm()
. Une série de snippets est à votre disposition dans la SciViews Box pour vous aider (menu (d)istributions: normal
à partir de .in
) :
7.6.4 Théorème central limite
Une des raisons pour lesquelles la distribution normale est très répandue est liée au fait que beaucoup d’autres distributions tendent vers elle de manière asymptotique. Par exemple, une distribution binomiale symétrique (avec \(p = 0.5\)) et pour un \(n\) croissant ressemblera de plus en plus à une distribution normale. Le théorème central limite démontre cela quelle que soit la distribution de départ. En pratique, la distribution normale est souvent une bonne approximation d’autres distributions pour des tailles d’échantillons déjà à partir de quelques dizaines d’individus.