Nothing Special   »   [go: up one dir, main page]

Proba Stats

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 16

Petit cours (attractif) de probabilites et statistiques

I. Introduction. p.1
II. Expérience aléatoire. Espace probabilisé. p.2
III. Variables aléatoires réelles. Séries statistiques. p.3
IV. Espérance. Variance. Ecart-type. p.4
V. Lois de probabilités discrètes. p.6
VI. La loi des grands nombres. p.6
VII. Approximation par la loi Normale. Théorème de la limite centrée. p.8
VIII. Echantillonnage. Estimation. p.10
IX. Exemples. p.12

I. Introdution.
Il s’agit dans ce petit cours, de faire le point sur quelques notions élémentaires de proba-
bilités et de statistiques, d’expliquer le lien entre ces deux branches des mathématiques et
d’avoir un petit socle théorique permettant un enseignement cohérent des probabilités et
des statistiques dans les classes du collège et du lycée.
Aujourd’hui, du point de vue mathématique (au sens moderne) la théorie des probabilités
est une branche de la théorie de la mesure. Néanmoins, l’étude des probabilités est née de
l’étude des jeux de hasard et tout son vocabulaire en découle.
La statistique, quant à elle déborde largement la théorie mathématique et couvre au-
jourd’hui à peu près tous les champs d’étude : médecine, économie, sciences sociales...
L’étude d’un problème statistique peut se décomposer en quatre étapes :
- Le recueil des données.
- Le classement et la réduction de ces données : c’est la statistique descriptive.
- L’analyse des données visant à les rattacher à un modèle probabiliste.
- La déduction de prévisions.
C’est le troisième point qui nous intéresse ici et que nous allons plus particulièrement
développer, introduisant le vocabulaire (abstrait) des probabilités pour l’appliquer à l’étude
(concrète) de séries statistiques.
Dans un cours, la question se pose d’introduire la théorie des probabilités à partir d’études
de séries statistiques de la vie courante, ou de jeux de hasard, ou bien de commencer
par donner un vocabulaire théorique pour ensuite l’appliquer à la modélisation de séries
statistiques.
Bien entendu, dans le secondaire, c’est le premier choix qui paraı̂t naturel. Néanmoins,
dans ce cours, c’est le second choix qui sera fait.

1
II. Expérience aléatoire. Espace probabilisé.
Il s’agit d’étudier la réalisation d’évenements dont l’issue n’est pas connue à l’avance, ce
sont des expériences aléatoires.
L’ensemble des résultats possibles d’une telle expérience va nous fournir ce que l’on appelle
l’univers des possibles, noté Ω. Sur cet univers, on définira une probabilité qui sera une
application, définie pour tout évenement, ou partie, de Ω, à valeur dans l’ensemble [0, 1].
Par exemple :
- Le jeu de pile ou face avec une pièce parfaitement équilibrée : Ω={pile,face}, avec une
probabilité de 1/2 pour chacun des résultats.
- Le lancer d’un dé non-pipé : Ω = {1, 2, 3, 4, 5, 6}, avec une probabilité de 1/6 pour chacun
des résultats.
Ces deux exemples sont théoriques, et leur vérification pratique nécessite un ”grand” nom-
bre d’expériences pour que la fréquence observée des résultats obtenus se rapproche de la
probabilité théorique.
- La naissance d’un garçon : il s’agit là, par contre, d’une probabilité statistique, obtenue
à partir de l’observation d’un très grand nombre de naissances.
Nous allons, avec l’introduction du vocabulaire des probabilités, fixer un sens rigoureux à
des mots souvent utilisés dans le langage courant avec un sens plus flou.
Définitions. Considérons l’univers des possibles, Ω, et P(Ω) l’ensemble de ses parties. On
appelle événement un élément de P(Ω).
Par exemple si Ω = {1, 2, 3, 4, 5, 6}, l’ensemble {2, 4, 6} correspond à l’évenement ”le
résultat obtenu est pair”.
Lorsque l’ensemble Ω est fini, ou dénombrable, on peut considérer comme événement tout
élément de P(Ω). Sinon on notera A l’ensemble des événements, dits observables sur Ω, et
l’on supposera que cet ensemble A ⊂ P(Ω) vérifie les propriétés suivantes :
Propriétés. Pour tout A, B ∈ A,
- le complémentaire A de A dans Ω est dans A.
- la réunion A ∪ B est dans A.
Ce qui implique que ∅ et Ω sont des événements et que si A et B sont dans A, alors
A ∩ B ∈ A. Un tel ensemble A est appelé une algèbre de Boole. Bien que dans la pratique,
au collège ou au lycée, on ait essentiellement affaire à des ensembles finis, il est bon d’avoir
en tête ces propriétés ensemblistes.
On demandera aussi, raisonnablement, que les singletons soient dans A et que la réunion
et l’intersection d’une suite finie ou infinie d’événements soit encore un événement.
Nous allons maintenant définir ce que l’on appelle une probabilité, c’est-à-dire ce qui permet
de mesurer les événements de l’univers des possibles.

2
Définition. - Si Ω est fini, on appelle probabilité sur Ω une application P de P(Ω) dans
[0, 1] telle que
(i) P (Ω) = 1.
(ii) Si A, B ∈ P(Ω) vérifient A ∩ B = ∅, alors P (A ∪ B) = P (A) + P (B).
- Une probabilité sur un espace probabilisable (Ω, A) est une application P de A dans [0, 1]
telle que
(i) P (Ω) = 1.
(ii) Pour toute suite d’événements (Ai )i>0 ∈ A deux à deux disjoints, on a
∞ ∞
!
[ X
P Ai = P (Ai ).
i=1 i=1

On appelle espace probabilisé la donnée d’un triplet (Ω, A, P ).


Le problème consiste maintenant à définir cette application P , c’est-à-dire, à attribuer une
probabilité à chaque événement de l’univers des possibles.
Le cas le plus simple est celui d’un univers Ω fini, dans lequel tous les singletons, c’est-à-
dire tous les évènements élémentaires, sont équiprobables. Ainsi, si l’expérience aléatoire
admet n issues possibles, la probabilité de chacune des ces issues, ou de chacun de ces
événements élémentaires est égale à 1/n. Par additivité de la probabilité, la probabilité
d’un événement E ∈ P(Ω) est donc

card(E) nombre d’issues favorables à E


P (E) = = .
card(Ω) nombre d’issues possibles
Le calcul des probabilités est alors ramené à un problème de dénombrement.
Nous ne parlerons pas dans ce cours, forcément incomplet, de probabilités conditionnelles,
notre choix est plutôt de faire rapidement le lien avec les statistiques.

III. Variables aléatoires réelles. Séries statistiques.


L’univers des possibles est un ensemble qui peut contenir les résultats d’épreuves les plus
variées, résultats non nécessairement numériques. Aux événement de Ω, on peut vouloir
associer un nombre réel. Par exemple, le gain obtenu dans un jeu de hasard et l’on aimerait
éventuellement pouvoir estimer l’espérance d’un tel gain. C’est ce qui nous amène à intro-
duire la notion de variable aléatoire réelle. Nous nous concentrerons plus particulièrement
sur les variables aléatoires réelles discrètes et leurs lois de probabilité.
Définition. Soit (Ω, A, P ) un espace probabilisé. On appelle variable aléatoire discrète
sur (Ω, A, P ) toute application
X : Ω −→ R
ω 7−→ X(ω)
vérifiant
(ii) L’ensemble X(Ω) = {X(ω), ω ∈ Ω} est une partie dénombrable (ou finie) de R,

X(Ω) = {x1 , x2 , . . . , xn , . . .}.

3
(ii) Pour tout xk ∈ X(Ω) l’ensemble Ak = {ω ∈ Ω, X(ω) = xk } est dans A, c’est à dire
est un événement (mesurable par P ).
La variable aléatoire X va permettre de considérer la probabilité P sur des parties de R,
c’est ce que l’on appellera la loi de probabilité de la variable X.
Définition. Soit X une variable aléatoire discrète sur un espace probabilisé (Ω, A, P ). On
note X(Ω) = {x1 , x2 , . . . , xn , . . .}. La fonction

PX : P(R) −→ [0, 1]
{xk } 7−→ P (A
X k ) = pk
B 7−→ pk
xk ∈B

est une probabilité sur (R, P(R), on l’appelle loi de probabilité de la variable aléatoire X.
On note

pk = P (Ak ) = P ({ω ∈ Ω, X(ω) = xk }) = P (X = xk ) = PX ({xk }).

Une variable aléatoire peut aussi prendre n’importe quelle valeur réelle, elle peut-être
continue, sa loi admet alors une densité de probabilité et s’exprime par une expression du
type
Z b
P (a ≤ X ≤ b) = f (t)dt
a
R +∞
où f est une fonction qui vérifie −∞ f (t)dt = 1, mais nous sortons là de notre cadre et
nous nous limiterons aux lois discrètes.
L’étude des lois de probabilités des variables aléatoires va permettre d’appréhender un cer-
tain nombre de problèmes aléatoires ou statistiques et de faire ainsi par des approximations,
des estimations et des prédictions.

IV. Espérance. Variance. Ecart-type.


Nous allons maintenant définir les moments (espérance et variance) d’une variable aléatoire
et faire le lien avec les séries statistiques. Une étude statistique commence par le recueil
de données concernant un caractère à étudier. Nous nous intéresserons uniquement aux
caractères quantitatifs, nous parlerons alors de variable statistique. Nous resterons dans
le cas discret, et même fini, dans la mesure où, en statistiques, on ne recueillera jamais
qu’un nombre fini de données ; qu’il s’agisse de lancers de dés, ou d’étude de populations
humaines.
Avant d’expliquer ces notions de variance et d’écart-type, nous allons présenter les définitions
dans le cas des lois de probabilités et dans le cas des séries statistiques sous forme de
tableau.

4
Variable aléatoire discrète Série statistique
Univers des possibles Valeurs observées
X(Ω) = {x1 , . . . , xk } x1 , x2 , . . . , xk
Effectifs correspondants
Pk
n1 , . . . , nk , n = i=1 ni = effectif total
Probabilités Fréquences
ni
pi = P (X = xi ), pour 1 ≤ i ≤ k fi = , pour 1 ≤ i ≤ k
n
Espérance Moyenne
k
X n1 x1 + · · · + nk xk
E(X) = xi P (X = xi ) x=
i=1
n
= x1 p1 + · · · + xk pk = x1 f1 + · · · + xk fk
Variance Variance
k k
X 1X
V (X) = pi (xi − E(X))2 V = ni (x − xi )2
i=1
n i=1
Xk k
X k
X
= pi x2i 2
− E(X) = 2
fi (x − xi ) = fi x2i − x2
i=1 i=1 i=1
Ecart-type Ecart-type
p √
σ(X) = V (X) σ= V

Ici, en théorie on connait Ici, les fréquences fournissent


les valeurs exactes des probabilités une approximation des probabilités.

Les variables aléatoires et leurs lois de probabilité pourront servir de modèle théorique
pour l’étude de phénomènes quantitatifs observés en statistiques.
Le mot espérance provient de l’espérance de gain dans un jeu d’argent de hasard.
Par exemple, supposons que, dans le jeu de pile ou face, le joueur gagne 10 euros lorque
sa pièce indique face et perde 2 euros lorsque sa pièce tombe sur pile. La probabilité de
chaque face étant supposée égale à 1/2. On considère la variable aléatoire qui à chaque
tirage fait correspondre la somme gagnée ou perdue, on a alors
1
E(X) = (10 − 2) = 4.
2
Quatre euros est alors le gain moyen d’un joueur qui jouerait un très grand nombre de
parties.
Par ailleurs, on sait bien que la connaissance de la moyenne d’une série statistique ne nous
renseigne pas de manière satisfaisante. C’est pourquoi, il faut pouvoir mesurer la dispersion
autour de cette moyenne, c’est le rôle de la variance et de l’écart-type dont nous verrons
plus loin les intéressantes propriétés. L’écart-type a aussi l’avantage de s’exprimer dans les
mêmes unités que la variable aléatoire et son espérance.

5
V. Lois de probabilités.
Nous allons donner ici trois exemples de loi aléatoire discrète, qui sont celles rencontrées
dans les programmes du secondaire. Nous ne parlerons de lois continues que dans un
prochain paragraphe, pour approcher certaines lois discrètes.
1) Loi de Bernouilli. C’est la loi qui intervient dans une épreuve à deux résultats possibles,
succès/échec. Si p est un réel de l’intervalle [0, 1], la loi de Bernouill de paramètre p, notée
B(p) est la loi de la variable aléatoire X telle que
X(Ω) = {0, 1}, P (X = 0) = 1 − p = q.
P (X = 1) = p,
p
On a alors E(X) = p, V (X) = p(1 − p) et σ(X) = p(1 − p).
2) Loi uniforme. Dans le cas d’une variable suivant une loi uniforme, on a
1 x1 + · · · + xn
X(Ω) = {x1 , . . . , xn }, P (X = xi ) = , E(X) = .
n n
3) Loi binomiale. C’est la loi suivie par une variable aléatoire X égale au nombre de succès
dans une suite répétées de n épreuves de Bernouilli indépendantes, où p est la probabilité
d’un succès. On a alors
n!
X(Ω) = {0, 1, . . . , n}, P (X = k) = Cnk pk (1 − p)n−k , où Cnk =
k!(n − k)!
On dit que X suit la loi binomiale de paramètres n et p notée X ∼ B(n, p) et on a
p
E(X) = np, V (X) = np(1 − p), σ(X) = np(1 − p).

Ce qui va maintenant nous intéresser, c’est, par exemple, le comportement de la loi bino-
miale, lorsque le nombre d’épreuves est ”grand”.

VI. La loi des grands nombres.


On se place dans la situation d’épreuves répétées caractérisées par la donnée d’une suite
X1 , . . . , Xn de n variables aléatoires qui ont même loi et donc même espérance, notée
µ, même variance, notée σ 2 et même écart-type, noté σ. On définit alors deux nouvelles
variables aléatoires qui sont, la somme
Sn = X1 + X2 + · · · + Xn ,
et la moyenne
Sn X1 + X2 + · · · + Xn
Mn = = .
n n
On a alors √
E(Sn ) = nµ, V (Sn ) = nσ 2 , σ(Sn ) = σ n,
et
σ2 σ
E(Mn ) = µ, V (Mn ) = , σ(Mn ) = √ .
n n
Ces formules sont à la base des principaux estimateurs en statistiques.

6
La loi faible des grands nombres nous dit que ”pour une expérience donnée, dans le modèle
défini par une probabilité P , les distributions des fréquences calculées sur des séries de
taille n se rapprochent de P quand n devient grand”(Maths 1ère S, repères, Hachette). Ce
qui signifie que si l’on considère une expérience ayant k issues possibles

e1 , . . . , e k ,

si l’on répète cette expérience n fois et que l’on note fi (n) la fréquence d’apparition de
l’issue ei au cours des n expériences et pi = P (ei ) la probabilité de l’issue ei , alors

lim fi (n) = pi .
n−→+∞

Cette loi des grands nombres que nous énoncerons plus rigoureusement, découle de l’inégalité
de Bienaymé-Tchebychev, cette dernière traduit quantitativement le fait que, plus l’écart-
type d’une variable aléatoire est faible, plus sa distribution (loi) de probabilité est con-
centrée autour de son espérance mathématique.
Inégalité de Bienaymé-Tchebychev. Soit X une variable aléatoire, d’espérance
E(X) = µ et d’écart-type σ, alors

σ2
∀t > 0, P (|X − µ| ≥ t) ≤ .
t2
Ce qui se traduit, en posant t = kσ, par

1
∀k > 0, P (|X − µ| ≥ kσ) ≤ .
k2
Autrement dit, la probabilité d’observer une déviation par rapport à l’espérance d’au moins
k unités d’écart-type est majorée par 1/k 2 .
Théorème (loi faible des grands nombres). Soit (Xn )n≥1 une suite de variables
aléatoires deux à deux indépendantes, de même loi, de même espérance E(Xi ) = µ, pour
tout i et de même écart-type σ. On définit leurs moyennes :

X1 + X2 + · · · + Xn
Mn = .
n
Alors, pour tout ε > 0, on a

lim P (|Mn − µ| ≥ ε) = 0.
n−→+∞

Il s’agit d’une convergence ”en probabilité”, c’est-à-dire qu’il est toujours possible qu’un
écart ε soit dépassé pour n grand, mais cela devient de plus en plus improbable. La con-
clusion du théorème peut encore s’écrire

P (µ − ε < Mn < µ + ε) −→ 1 quand n −→ +∞.

7
Considérons une suite (Xn )n≥1 de variables de Bernouilli indépendantes, de même paramètre
p, alors pour tout ε > 0,
 
X1 + · · · + Xn
lim P − p ≥ ε = 0.

n−→+∞ n

En effet, d’après l’inégalité de Bienaymé-Tchebychev, on a

σ2 p(1 − p)
P (|Mn − p| ≥ ε) ≤ 2
=
nε n2
qui tend vers 0 quand n tend vers l’infini, pour ε fixé.
Cette inégalité pourra s’écrire selon ce l’on connaı̂t ou que l’on cherche la probabilité p,

p(1 − p)
P (p − ε < Mn < p + ε) ≥ 1 −
n2

ou, en remarquant que pour p ∈ [0, 1], on a p(1 − p) ≤ 1/4

1
P (Mn − ε < p < Mn + ε) ≥ 1 − .
4nε2
Ainsi, la loi faible des grands nombres justifie l’approche fréquentiste qui attribue comme
probabilité d’un événement une valeur autour de laquelle la fréquence se stabilise lorsque
le nombre d’expériences indépendantes devient grand. Cependant, il n’est pas toujours
possible de réaliser de telles expériences et on pourra être conduit à fixer à priori la valeur
de la probabilité d’un événement et de valider ce choix à postériori.
Nous verrons dans des exemples, comment s’utilisent les inégalités ci-dessus, comment
jouer sur les paramètres ε et n selon ce que l’on veut estimer.
Avant de passer aux problèmes d’estimation et d’échantillons, nous allons faire un petit
détour par la célèbre ”courbe en cloche”, la loi normale, ou loi de Gauss.

VII. Approximation par la loi normale. Théorème de la limite centrée.


La loi normale contrairement aux lois discrètes que nous avons vues, est une loi continue
définie par une densité. C’est-à-dire par une fonction f telle que la loi de probabilité de la
variable aléatoire suivant cette loi s’écrive
Z b
P (a ≤ X ≤ b) = f (t)dt = F (b) − F (a).
a

Définition. Soit m ∈ R et σ ∈]0, +∞[. On appelle densité gaussienne ou normale la


fonction
fm,σ : R −→ R+
(t − m)2
 
1
t 7−→ √ exp −
σ 2π 2σ 2

8
Les courbes représentatives Cm,σ de ces fonctions se déduisent toutes de la courbe C0,1 ,
par translations et changement d’échelle. La courbe C0,1 est appelé courbe en cloche de
Gauss.
Lorsqu’une variable aléatoire suit une loi normale, centrée et réduite, c’est-à-dire quand
m = 0 et σ = 1, on note X ∼ N (0, 1) et on lit les valeurs des probabilités dans des tables.
Z b  2
1 t
P (a ≤ X ≤ b) = √ exp − dt = Π(b) − Π(a).
a 2π 2

La loi normale intervient dans la modélisation de phénomènes aléatoires possédant de


nombreuses causes indépendantes dont les effets s’additionnent, sans qu’aucun d’entre eux
ne domine. De nombreuses distributions ”naturelles” sont ainsi approchées par une loi
normale. Compte tenu de la complexité des phénomènes économiques et sociaux, la loi
normale intervient dans tous les domaines.
On remarque, par ailleurs, que pour n grand, les diagrammes en batons représentant une
variable aléatoire suivant une loi binomiale B(n, p) peuvent être approchés par des courbes
en cloche, ce qui fait penser qu’une loi binomiale peut être approchée par une loi normale.
Théorème (Moivre-Laplace). Soit Sn une variable aléatoire de loi B(n, p). On note

Sn − E(Sn ) Sn − np
Sn∗ = =p
σ(Sn ) np(1 − p)

la variable centrée et réduite associée. Alors, pour tout réels a < b, on a


Z b  2
1 t
lim P (a < Sn∗ < b) = Π(b) − Π(a) = √ exp − dt.
n−→+∞ a 2π 2

(de même avec des inégalités larges)

Mais ce phénomène n’est pas lié à la loi binomiale, il est général pour des épreuves répétées.
Si X1 . . . , Xn sont des variables aléatoires indépendantes suivant la même loi, de même
espérance µ et de même écart-type σ, alors, pour n ”grand” la variable aléatoire moyenne

X1 + X2 + · · · + Xn
Xn =
n

suit approximativement une loi normale N (µ, √σn ). Plus précisément, on a le théorème
suivant.
Théorème central limite. (ou de la limite centrée) Soit (Xn )n≥1 une suite de variables
aléatoires suivant toutes la même loi, de même espérance µ et de même écart-type σ.
Notons
X1 + X2 + · · · + Xn
Sn = X1 + X2 + · · · + Xn , et Mn = .
n

9
On a alors

√ σ2 σ
E(Sn ) = nµ, V (Sn ) = nσ 2 , σ(Sn ) = σ n, et E(Mn ) = µ, V (Mn ) = , σ(Mn ) = √ .
n n

Sn − nµ Mn − µ
Notons Zn les variables centrées réduites correspondantes, Zn = √ = √ .
σ n σ/ n
Alors Z a  2
1 t
lim P (Zn < a) = √ exp − = Π(a).
n−→+∞ −∞ 2π 2

En pratique, on admet que l’on a une bonne approximation dès que n ≥ 50 (et même 30)
avec np(1 − p) ≥ 9.
Comme nous le verrons dans des exemples à la fin de ce cours, la loi faible des grands
nombres conduit en théorie à choisir des valeurs de n beaucoup trop grandes, c’est pourquoi,
on lui préfèrera l’approximation par des lois normales.
Examinons la faiblesse de la loi des grands nombres, supposons que X soit une variable
aléatoire suivant la loi N (µ, σ) et considérons, pour t > 0, la probabilité

Pt = P (µ − tσ < X < µ + tσ).

Si t = 2 ou 3, la lecture des tables de la loi normale nous donne P2 = 0, 95 et P3 = 0, 99 alors


que l’inégalité de Bienaymé-Tchebychev nous donne les minorations suivantes P2 ≥ 3/4 et
P3 ≥ 8/9.
Nous allons maintenant utiliser ces théorèmes pour traiter les problèmes d’estimations et
d’intervalles de confiance.

VIII. Echantillonnage. Estimations


Le problème de l’échantillonnage consiste, connaissant les propriété d’une population, à
évaluer les propriétés d’échantillons aléatoires. En réalité ce sera plutôt le problème in-
verse qui nous intéressera, c’est-à-dire estimer les propriétés d’une population à partir
d’observations d’échantillons.
Dans tous ces problèmes, c’est le théorème de la limite centrée qui permettra l’étude
d’estimations de moyennes et de fréquences.
Si l’on considère une population de moyenne µ et d’écart-type σ, et si X est la variable
aléatoire qui à tout échantillon d’effectif n associe sa moyenne,√alors lorsque n est ”grand”,
la variable X suit approximativement la loi normale N (µ, σ/ n).
Si l’on considère une population dans laquelle une proportion p possède une certaine
propriété. Si F est la variable qui à tout échantillon d’effectif n associe le pourcentage
d’éléments ayant cette propriété, ou la fréquence d’apparition cette propriété,
 q alors lorsque
p(1−p)
n est ”grand”, la variable F suit approximativement la loi normale N p, n .

10
Avant d’étudier quelques exemples, tentons de cerner le problème et d’obtenir quelques
résultas généraux.
Etant donnée une série statistique, une fois fait le choix d’une loi de probabilité, il s’agit
d’estimer ses paramètres à partir des observations d’échantillons d’effectif n. Nous nous
contenterons ici de l’estimation d’une moyenne et d’une probabilité, l’estimation de la
variance nécessitant un facteur n/(n − 1) correctif, nous ne la traiterons pas ici.
Considérons donc une population d’effectif très grand sur laquelle on étudie un caractère
quatitatif de moyenne µ et d’écart-type σ. On considère des échantillons E1 , E2 , . . . , Ek
d’effectif n sur lesquelles la moyenne observée est xk . L’ensemble

X = {x1 , . . . , xk }

est une série statistique d’effectif k appelée distribution des moyennes. On a

σ
E(X) = µ et σ(X) = √ .
n

En effet, la variable aléatoire suit la loi normale N (µ, σ/ n).
Connaissant la moyenne x d’un échantillon, il s’agit maintenant d’estimer la moyenne
inconnue µ de la population. L’estimation peut se faire de manière ponctuelle ou par
intervalle de confiance.
Ponctuellement on considère x comme estimation de la moyenne µ, de même, s’il s’agit de
fréquence, on considère le pourcentage f observé dans un échantillon comme estimation
ponctuel de la proportion p inconnue d’individus possédant la propriété observée dans la
population.
Intervalles de confiance.

Dans le cas de la moyenne,

on a X ∼ N (µ, σ/ n), ainsi, si T est la variable centrée,
n
réduite associée T = σ (X − µ), alors T ∼ N (0, 1), ainsi

∀t ≥ 0, P (−t ≤ T ≤ t) = 2Π(t) − 1.

Par exemple, si l’on veut 2Π(t) − 1 = 0, 95 alors la table de la loi normale nous donne
comme valeur de t, t = 1, 96, on a donc
 
σ σ
P µ − 1, 96 √ ≤ X ≤ µ + 1, 96 √ = 0, 95.
n n

C’est-à-dire qu’avant de prélever un échantillon de taille n dans la population, il y a 95


chances sur 100 pour que la variable aléatoire X se trouve dans l’intervalle
 
σ σ
µ − 1, 96 √ , µ + 1, 96 √ .
n n

11
Cependant, comme µ est inconnu, on va plutôt utiliser l’inégalité sous la forme
 
σ σ
P X − 1, 96 √ ≤ µ ≤ X + 1, 96 √ = 0, 95.
n n

Ainsi, avant le prélèvement de l’échatillon, il y a 95 chances sur 100 que la variable aléatoire
X −1, 96 √σn prenne une valeur inférieure à µ et que la variable aléatoire X +1, 96 √σn prenne
une valeur supérieure à µ.
 
σ σ
L’intervalle X − 1, 96 √ ; X + 1, 96 √ est appelé intervalle de confiance de la moyenne
n n
de la population avec le coefficient de confiance 95%. Si l’on veut un coefficient de 99%, il
faut choisir t = 2, 58.
On remarque que cet intervalle fait intervenir l’écart-type, lorsque l’effectif est suffisamment
grand, on pourra prendre pour valeur son estimation ponctuelle.
Dans l’étude d’une fréquence d’observation
 q d’une certaine
 propriété de la population, la
p(1−p)
variable aléatoire F suit la loi normale N p, n (approximation d’une loi binomiale
de paramètre p par une loi normale), où p est le pourcentage inconnu. On a alors
r r !
p(1 − p) p(1 − p)
P F − 1, 96 ≤ p ≤ F + 1, 96 = 0, 95.
n n

On remarque que l’on retrouve là l’intervalle de confiance à 95% qui apparaı̂t, sans justi-
fications, dans les cours de la classe de seconde, c’est-à-dire
 
1 1
f − √ ,f + √
n n

où f désigne la fréquence dans un échantillon d’effectif n.


1
En effet si l’on prend t = 1, 96 ' 2 et si l’on majore p(1 − p) par sup (x − x2 ) = ,
x∈[0,1] 4
l’approximation par la loi binomiale nous fournit cet intervalle.
Nous allons maintenant tester ces notions d’approximations et d’intervalles de confiances
sur quelques exemples.

IX. Exemples.
Les exemples présentés ici sont empruntés au cours polycopié de Charles Suquet.
Exemple 1. On lance une pièce de monnaie, non truquée 800 fois. On note N le nombre
d’apparitions de la face. Déterminer

P (390 ≤ N ≤ 420).

12
La variable aléatoire N suit une loi binomiale B(800, 1/2), on a donc

420  k  n−k
X
k 1 1
P (390 ≤ N ≤ 420) = C800 .
2 2
k=390

Ce qui rend le calcul assez impraticable. On va alors utiliser l’approximation par la loi
normale. Commenons par centrer la variable, on a

1 √
r
1
E(N ) = 800. = 400 et σ(N ) = 800. = 200,
2 4

en notant
N − 400
Z= √ ,
200
on obtient alors

P (390 ≤ N ≤ 420) = P (−0, 707 ≤ Z ≤ 1, 414) = Π(1, 414) − Π(−0, 707) = 0, 6815.

Exemple 2. Une urne contient des boules rouges en proportion inconnue p et des boules
vertes en proportion q = 1 − p. On veut estimer cette proportion. On effectue n tirages
avec remise. On note Xi la variable aléatoire qui vaut 1 si la boule obtenue au i − ème
tirage est rouge et 0 sinon. Soit, la moyenne

X1 + X2 + · · · + Xn
Mn = .
n

Il est naturel d’estimer p par Mn . Afin d’obtenir une fourchette pour une telle approxima-
tion de p, on utilise l’inégalité de Bienaymé-Tchebycheff qui s’écrit

σ(X1 ) p(1 − p) 1
P (|Mn − p| ≥ t) ≤ 2
= 2
≤ .
nt nt 4nt2

1
En majorant la valeur inconnue p(1 − p) par sup (x − x2 ) = .
x∈[0,1] 4
On a donc
1
P (Mn − t < p < Mn + t) ≥ 1 − .
4nt2
On dit que l’intervalle I =]Mn − t, Mn + t[ est un intervalle de confiance pour t au niveau
1
α≥ .
4nt2
Exemple 3. Sondage simplifié. Une élection oppose deux candidats A et B. On note p
la proportion d’électeurs, dans la population totale, décidés à voter pour le candidat A.
On souhaite estimer cette proportion inconnue. Un sondage (assimilé à un tirage avec

13
remise) auprès de 1000 personnes donne une fréquence observée de 0, 54. L’inégalité de
Bienaymé-Tchebycheff nout fournit un intervalle de confiance
1
I =]0, 54 − t, 0, 54 + t[ avec un niveau α ≥ 1 − .
4nt2
Ici, n = 1000 et l’on souhaite que le niveau de confiance soit au moins égal à 95%, ainsi il
faudra choisir t tel que
1 1
1− 2
≥ 0, 95 ⇐⇒ t ≥ √ ' 0, 0707.
4000t 10 2

En prenant t = 0, 071, on obtient l’intervalle I =]0, 469; 0, 611[ qui contient des p < 1/2, ce
qui, bien que le sondage donne 54% d’intentions de votes, ne permet par de pronostiquer
la victoire du candidat A avec une erreur inférieure à 5%.
Si, maintenant, l’institut de sondage veut une fourchette de 1% et un niveau de confiance
de 95%, on prend alors t = 0, 01 ce qui va nous imposer un effectif n de l’échantillon sondé
vérifiant
1
≤ 0, 05,
4n(0, 01)2
soit n = 50000, ce qui est évidemment un peu énorme.
Cet exemple montre bien comment les inégalités fournissant des intervalles de confiances
qui dépendent de la fourchette de confiance et du niveau de confiance souhaités ainsi que
de la taille des échantillons, et que l’on ne peut pas gagner sur tous les tableaux.
Exemple 4. On lance 3600 fois un dé non pipé. On veut minorer la probabilité que le
nombre d’apparitions du 1 soit compris entre 540 et 660. On note S la variable aléatoire
correspondant à ce nombre. La variable S suit une loi binomiale B(3600, 1/6), la valeur
exacte de cette probabilité est
659  k  n−k
X
k 1 5
P (540 < S < 660) = C3600 .
6 6
k=541

Nous allons donc, dans un premier temps utiliser l’inégalité de Bienaymé-Tchebycheff, puis
dans un second temps l’approximation par la loi normale.
Bienaymé-Tchebycheff : Sachant que E(S) = 600 et σ(S)2 = 500 et que 540 − 600 = −60
et 660 − 600, on obtient

540 < S < 660 ⇐⇒ −60 < S − 600 < 60 ⇐⇒ |S − 600| < 60.

Or, pour tout t > 0, on a


500
P (|S − 600| ≥ t) ≤ ,
t2
ainsi, pour t = 60, on a
500
P (|S − 600| ≥ t) ≤ ,
3600

14
c’est-à-dire
5
P (540 < S < 660) = P (|S − 600| < 60) = 1 − ≥ 0, 8611.
36

Approximation par la loi normale : On centre la variable, en notant

S − E(S) S − 600
Z= = √ .
σ(S) 500

Ainsi, on a
   
540 − 600 660 − 600 −60 60
P (540 < S < 660) = P √ <Z< √ =P √ <Z< √ .
500 500 10 5 10 5

En approchant par la loi binomiale, on obtient


   
−60 60 6
P (540 < S < 660) = P √ <Z< √ ' 2Π √ − 1 ' 2Π(2, 68) − 1 ' 0, 9926.
10 5 10 5 5

Comparaison : Pour pouvoir affirmer que l’approximation par la loi normale donne un
meilleur résultat que l’inégalité de Bienaymé-Tchebycheff, il faut pouvoir vérifier que
l’erreur d’approximation est inférieure à 0, 99 − 0, 86 = 0, 13.
Nous utiliserons ici un résultat (Théorème d’Uspensky) qui nous dit que l’erreur commise
en approchant une loi binomiale B(n, p) par la loi normale est majorée par

0, 588
√ .
npq

Dans notre cas l’erreur ∆ est donc majorée par

0, 588
∆≤ √ < 0, 0263.
500

On peut alors affirmer que

P (540 < S < 660) ≥ 0, 9926 − 0, 0263 > 0, 9662.

L’approximation gaussienne donne donc, dans ce cas, une bien meilleure approximation
que l’inégalité de Bienaymé-Tchebycheff.

15
Bibliographie :
- Charles Suquet, Introduction au Calcul des Probabilités, (à bac +2), polycopié Deug Mias
et Mass, USTL, 2002-2003.
- Bernard Bigot, Bernard Verlant, Statistiques et Probabilités, Enseignement supérieur,
Editions Foucher, 1990.
- Jean Trignan, Probabilités, Statistiques et leurs applications, BTS, IUT, Bréal 1990.
- Bernard Lannuzel, Probabilités et statistique, CAPES, Dunod 1999.

16

Vous aimerez peut-être aussi