Approximations de la loi binomiale

Fixons \( p\in[0; 1] \).

Dans tout ce qui suit, \( (X_n) \) désigne une suite de variables aléatoires réelles, indépendantes, de même loi de Bernoulli \( {\cal B}(p) \), définies sur un espace probabilisé \( (\Omega, {\cal M}, P) \).

Elles admettent toutes la même espérance \( p \), et le même écart-type \( \sqrt{p(1-p)} \).

Notons la somme \( \displaystyle S_n = \sum_{i=1}^n X_i \).

Elle suit une loi binomiale \( {\cal B}(n, p) \), et nous avons pour objectif d'en déterminer une approximation. Plus précisément, nous cherchons à approcher \( P( S_n \leq k) \) pour tout \( k\in{\mathbb N}^* \).

Notons la moyenne empirique \( \displaystyle \overline{X_n} = \frac{1}{n}S_n = \frac{1}{n}\sum_{i=1}^n X_i \).

Appliquons le théorème central de la limite : pour tout \( x\in\mathbb{R} \),

\( \displaystyle \lim_{n\rightarrow +\infty} P\left[ \frac{\sqrt{n}}{\sqrt{p(1-p)}}\, \big(\overline{X_n} - p\big) \leq x\right] = \underbrace{\frac{1}{\sqrt{2\pi}}\int_{\small-\infty}^x {e^{-t^2 / 2}dt}}_{\Phi(x)} \)

En simplifiant, nous obtenons le :

Théorème [De Moivre - Laplace] - Pour tout \( x\in\mathbb{R} \),

\( \displaystyle \lim_{n\rightarrow +\infty} P\left[ \frac{1}{\sqrt{np(1-p)}}\,(S_n - np) \leq x\right] = \Phi(x) \)

Application

En pratique, on considère que cette limite est une approximation de la loi binomiale si \( n \) est suffisamment grand et \( p \) n'est pas trop proche de 0 ou \( 1 \).

En général, on demande que \( np(1-p) \geqslant 10 \). Dans ce cas,

\( \displaystyle P\left[ \frac{1}{\sqrt{np(1-p)}}\,(S_n - np) \leq x\right] \approx \Phi(x) \)

\( \displaystyle P\left[ S_n \leq x\,\sqrt{np(1-p)} + np \right] \approx \Phi(x) \)

Modifions l'égalité. En posant pour changement de variable :

\( \displaystyle k = x\,\sqrt{np(1-p)} + np \)

Nous obtenons finalement l'approximation :

\( \displaystyle P\left( S_n \leq k \right) \approx \Phi\left(\frac{k - np}{\sqrt{np(1-p)}}\right) \)

2. Intervalle de fluctuation à 95%

Adoptons l'écriture du théorème central de la limite sous sa forme d'intervalle.
Pour tout \( x>0 \),

\( \displaystyle \lim_{n\rightarrow +\infty} P\left[ p - \frac{x\,\sqrt{p(1-p)}}{\sqrt{n}} \leqslant \overline{X_n} \leqslant p+ \frac{x\,\sqrt{p(1-p)}}{\sqrt{n}}\right] = \underbrace{2\,\frac{1}{\sqrt{2\pi}}\int_{\small-\infty}^x {e^{-t^2 / 2}dt} -1}_{2\Phi(x) - 1} \)

Application

Si \( n \) est suffisamment grand et \( p \) pas trop proche de 0 ou \( 1 \), on considère que cette limite est une approximation de l'encadrement. Autrement dit,

\( \displaystyle P\left[ p - \frac{x\,\sqrt{p(1-p)}}{\sqrt{n}} \leqslant \overline{X_n} \leqslant p+ \frac{x\,\sqrt{p(1-p)}}{\sqrt{n}}\right] \approx 2\Phi(x) - 1 \)

Au seuil de \( 2\Phi(x) - 1 = 95 \)%, nous obtenons que \( x=1.96 \).

Finalement, en remarquant que \( 1.96\,\sqrt{p(1-p)} < 1 \), nous obtenons :

\( \displaystyle P\left[ p-\frac{1}{\sqrt{n}} \leqslant \overline{X_n} \leqslant p+\frac{1}{\sqrt{n}}\right] \approx 0.95 \)

Cet intervalle est appelé intervalle de fluctuation à 95%. Il fournit notamment une estimation de la convergence de la méthode de Monte-Carlo - en un mot, LENTEMENT !