Échantillonnage

Lorsqu'on étudie une population importante, il est complexe d'obtenir l'intégralité des informations pour un caractère donné.

On réalise alors un échantillonnage : on ne prend qu'une partie de la population, et on suppose que ce qui est observé est valable pour la population entière.

De ce fait, on commet forcément une erreur, qu'il faut pouvoir contrôler.

1. Échantillon et fluctuation

Considérons une population de \( N \in {\mathbb N} \) individus.

Définition : un échantillon de taille \( n \in {\mathbb N} \) est la sélection aléatoire de \( n < N \) individus de la population.

Considérons un caractère de la population. La probabilité qu'un individu choisi au hasard vérifie ce caractère est noté \( p \).

Si l'on étudie la fréquence d'apparition \( f \) de ce caractère dans l'échantillon, il est envisageable qu'elle soit proche de \( p \). En effet :

Théorème : si \( p\in[0.2; 0.8] \) et \( n \geqslant 25 \), alors dans \( 95 \)% des cas,

\( \displaystyle f \in \left[p - \frac{1}{\sqrt{n}}; p + \frac{1}{\sqrt{n}}\right] \)

On note \( I_F \) cet intervalle, appelé intervalle de fluctuation.

2. Échantillon et confiance

Prenons le problème à l'envers : l'étude d'un caractère sur un échantillon de la population donne une fréquence \( f \).

Peut-on trouver la probabilité \( p \) que ce caractère soit vérifié pour la population ?

Théorème : si \( p\in[0.2; 0.8] \) et \( n \geqslant 25 \), alors dans \( 95 \)% des cas,

\( \displaystyle p \in \left[f - \frac{1}{\sqrt{n}}; f + \frac{1}{\sqrt{n}}\right] \)

On note \( I_C \) cet intervalle, appelé intervalle de confiance.

3. Exemples

a) Fluctuation

Dans les entreprises françaises, on souhaite atteindre la parité.

Les entreprises A et B comptent respectivement \( 100 \) salariés et \( 10000 \) salariés.
Dans la première, on compte \( 41 \) femmes. Dans l'autre, \( 4800 \) femmes.

Quelle entreprise respecte le mieux la parité ?

Entreprise A

fréquence des femmes : \( \dfrac{41}{100} = 0.41 \).
intervalle de fluctuation : \( I_F = \left[0.50- \frac{1}{\sqrt{100}}; 0.50 + \frac{1}{\sqrt{100}}\right] = \left[0.40; 0.60\right] \)
La fréquence est dans l'intervalle de fluctuation. La situation est cohérente.

Entreprise B

fréquence des femmes : \( \dfrac{4800}{10000} = 0.48 \).
intervalle de fluctuation : \( I_F = \left[0.50 - \frac{1}{\sqrt{10000}}; 0.50 + \frac{1}{\sqrt{10000}}\right] = \left[0.49; 0.51\right] \)
La fréquence n'est pas dans l'intervalle de fluctuation. Il y a un problème.

Conclusion : l'entreprise A vérifie mieux la parité.

b) Confiance

À quelques jours élections, voici quelques sondages.

Dans un sondage de \( 250 \) individus, le candidat Bob est donné gagnant par \( 130 \) voix.

Dans un sondage de \( 10000 \) individus, il est donné gagnant par \( 5150 \) voix.

Que peut-on en déduire ?

Sondage A

fréquence des votes : \( \dfrac{130}{250} = 0.52 \).
intervalle de confiance: \( I_C = \left[0.52- \frac{1}{\sqrt{250}}; 0.52 + \frac{1}{\sqrt{250}}\right] \approx \left[0.456; 0.583\right] \)
Rien n'est gagné ! L'intervalle de confiance dispose encore de valeurs inférieures à 0.5.

Sondage B

fréquence des votes : \( \dfrac{5150}{10000} = 0.515 \).
intervalle de confiance: \( I_C = \left[0.515- \frac{1}{\sqrt{10000}}; 0.515 + \frac{1}{\sqrt{10000}}\right] \approx \left[0.505; 0.525\right] \)
L'intervalle de confiance dépasse \( 0.5 \). Le candidat a 95% de chance de gagner les élections.