CMD 060902
CMD 060902
CMD 060902
Introduction au
Calcul des Probabilités
Probabilités à Bac+2 et plus si affinités. . .
Charles SUQUET
1 Espaces Probabilisés 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
´ vénements . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2
1.2 E
1.3 La probabilité comme fonction d’ensembles . . . . . . . . . . . .4
1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Remarques sur le choix d’un modèle . . . . . . . . . . . . . . . . 1
6
1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
8
2 Conditionnement et indépendance 27
2.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . 27
2.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.3 Quelques exemples . . . . . . . . . . . . . . . . . . . . . 32
2.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4
2.2.1 Indépendance de deux événements . . . . . . . . . . . . 34
2.2.2 Indépendance mutuelle . . . . . . . . . . . . . . . . . . . 36
2.2.3 ´ Epreuves répétées . . . . . . . . . . . . . . . . . . . . . . 38
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
i
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
ii
A Ensembles et dénombrements 191
A.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
A.2 Ensembles finis . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3
iii
iv
Introduction
Issu du cours de Probabilités en DEUG MASS et MIAS, ce document
s’adresse à un public varié. Les étudiants de DEUG pourront y trouver une
rédaction détaillée de toutes les questions abordées en cours. Quelques dév
e- loppements vont au-
delà du strict programme et sont susceptibles d’intéresser
des lecteurs curieux ou plus avancés. Les outils mathématiques utilisés restent
néanmoins strictement dans le cadre du DEUG.
Ce premier tome1 est consacré à ce que l’on appelle les probabilités dis-
crètes. Par rapport aux rudiments de calcul des probabilités enseignés au lycée,
l’innovation est la prise en compte de l’infini. Cette notion s’introduit très na-
turellement en calcul des probabilités, par exemple dès qu’il s’agit de modéliser
des temps d’attente. On ne peut pas étudier avec un espace Ω de cardinal fin
i
une expérience aléatoire aussi simple que : « on lance un dé jusqu’à la premièr
e
obtention d’un six ». Nous nous posons donc la question de la définition et d
e
l’étude des probabilités sur des univers Ω infinis. Il est possible au niveau du
DEUG de faire une théorie assez rigoureuse si l’on veut bien faire l’impasse su
r
les problèmes de construction (ou d’existence) de tels espaces probabilisés infini
s capables de modéliser correctement les expériences aléatoires envisagées.
Le principal outil mathématique utilisé est celui des séries. Il permet une
étude classique assez complète des variables aléatoires discrètes. Cette étud
e
débouche sur deux grands théorèmes de convergence de la théorie des proba
-
bilités : la loi des grands nombres et la convergence vers une loi gaussienn
e
qui sont discutés dans des cas simples dans les deux derniers chapitres. Nou
s
avons choisi de donner autant que possible des démonstrations de ces théorèm
es dans ces cas particuliers. Ces démonstrations sont instructives en elles-
mêmes
et peuvent être considérées comme une introduction au cours de Licence. Une
autre particularité de ce document est la discussion sur les questions de vitess
e
de convergence à propos des approximations (par une loi de Poisson ou par
une loi de Gauss). Trop souvent on trouve à ce sujet dans la littérature des
recettes qui, données sans justification, ressemblent plus à de la cuisine2 qu’à
des mathématiques.
Chaque chapitre contient une section d’exercices qui suit autant que possible
1
Y en aura-t-il un deuxième ?
2
Il y a souvent de bonnes raisons cachées derrière une recette qui peut paraı̂tre arbitraire. . .
v
l’ordre d’exposition du cours3. Certains sont des applications directes du cours
ou des sujets d’examen ou de D.S., d’autres des approfondissements. Leur nivea
u
de difficulté n’a volontairement pas été indiqué a priori. De même, on ne trouvera
pas dans cette introduction de plan de lecture détaillé pour chaque DEUG. D
e
telles indications pourront être données en cours ou en TD, mais je n’ai pa
s
souhaité cloisonner a priori une curiosité qui, pour un scientifique, est tout le
contraire d’un vilain défaut. . .
Je remercie tous les collègues qui m’ont aidé directement ou indirectemen
t à rédiger ce polycopié et plus particulièrement Maurice Chamontin, Sylvie
Roelly et Marie-Claude Viano avec qui j’ai fait équipe en DEUG MASS et
MIAS. Il va de soi qu’ils ne portent aucune responsabilité pour les quelque
s
débordements auxquels j’ai pu me laisser aller ni pour les quelques fautes4 qu
e
l’on ne manquera pas de trouver dans cette première édition 5(septembre 1996)
.
Comme prévu ci-dessus, le deuxième tome n’a toujours pas été écrit et un
certain nombre d’erreurs ont été détectées dans la première édition et corrigées
dans la deuxième 6 (septembre 1997). Je remercie tous ceux qui m’en ont si
-
gnalé et plus particulièrement les étudiants de l’amphithéâtre de DEUG MASS
96–97 pour leur vigilance. Merci également à Michel Lifshits pour ses préci-
sions sur l’historique du théorème de De Moivre-Laplace, à Youri Davydov et
Myriam Fradon pour d’utiles discussions ainsi qu’à tous les chargés de TD de
probabilités en DEUG MIAS pour leur participation active. Last but not least,
merci à Daniel Flipo qui avec patience et disponibilité m’a fait bénéficier de
ses compétences d’expert dans le traitement de texte scientifique LTEX 2ε.
A
vi
Chapitre 1
Espaces Probabilisés
1.1 Introduction
La théorie des probabilités fournit des modèles mathématiques permettant
l’étude d’expériences dont le résultat ne peut être prévu avec une totale certi-
tude. En voici quelques exemples :
1
Chapitre 1. Espaces Probabilisés
1.2 ´
Evénements
La théorie moderne des probabilités utilise le langage des ensembles pou
r
modéliser une expérience aléatoire. Nous noterons Ω un ensemble dont les élé
-
ments représentent tous les résultats possibles ou événements élémentaires d’un
e
expérience aléatoire donnée. Les événements (ou événements composés) seront
représentés par des parties (sous-ensembles) de Ω.
Il n’est pas toujours facile de trouver un ensemble Ω permettant de modéliser
l’expérience aléatoire. Voici une règle pratique pour y arriver : les événements
élémentaires sont ceux qui contiennent l’information maximale qu’il est pos-
sible d’obtenir de l’expérience. Par exemple si on jette un dé, l’événement A :
« obtention d’un chiffre pair » n’est pas élémentaire. Il est composé des trois
événements élémentaires 2, 4, 6 : A = {2, 4, 6}. Ici Ω = {1, 2, 3, 4, 5, 6}. De
même si on lance trois fois une pièce de monnaie, les événements élémentaire
s sont des triplets comme (p,f,p) indiquant le résultat précis de chacun des trois
lancers. Ici Ω = {f, p}3. L’événement B « obtention de pile au deuxième des
trois lancers » est composé : B = {(f, p, f); (f, p, p); (p, p, f); (p, p, p)}.
Avec ce mode de représentation, les opérations logiques sur les événements :
« et », « ou », « négation » se traduisent par des opérations ensemblistes : in-
tersection, réunion, passage au complémentaire. Voici un tableau de correspon-
dance entre les deux langages.
A sous-ensemble de Ω événement
Les opérations logiques sur les événements peuvent bien sˆ ur faire intervenir
plus de deux événements. Ainsi, si A1,. . ., An sont des événements,
n
∪ Ai = A1 ∪ A2 · · · ∪ An
i=1
est l’ensemble des ω qui sont dans l’un au moins des Ai. C’est donc l’événement
« réalisation de l’un au moins des Ai (1 ≤ i ≤ n) ». De même :
n
∩ Ai = A1 ∩ A2 · · · ∩ An
i=1
est l’ensemble des ω qui sont dans tous les Ai. C’est donc l’événement « réali-
sation de chacun des Ai (1 ≤ i ≤ n) ». Il est facile d’étendre ces définitions aux
réunions et intersections d’une suite infinie d’événements :
+∞
∪ Ai = ∪ Ai = {réalisation de l’un au moins des Ai, i ∈ N }, ∗
i∈ N∗ i=1
+∞
∩ Ai = ∩ Ai = {réalisation de tous les Ai, i ∈ N }.∗
i∈ N∗ i=1
Ces opérations logiques sur des suites d’événements sont très utiles pour ana-
lyser des événements complexes à l’aide d’événements plus simples et, comm
e
nous le verrons plus tard, calculer ainsi des probabilités. A titre d’illustration,
examinons la situation suivante.
Exemple 1.1 Alice et Bruno lancent le même dé à tour de rôle (Alice com-
mence). Le gagnant est le premier à obtenir un « six ».
On s’intéresse aux trois événements
A = {victoire d’Alice},
B = {victoire de Bruno},
D = {Il n’y a pas de vainqueur}.
\ Sc.
D= j
j∈ N∗
Alice ne peut gagner la partie que lors d’un lancer de rang impair puisqu
e
les lancers de rang pair sont ceux de Bruno. Alice peut donc gagner à l’un de
s
lancers 1, 3, 5, . . . , 2k+1, . . . Alice gagne si et seulement si la partie se termine par
l’un de ces lancers. De mêm[e Bruno peut gagne [ r aux lancers 2, 4, 6, . . . , 2k, . . .
A= F k+1 B=
d’où :
2
F k. 2
k∈ N k∈ N ∗
et finalement :
□□
∩ □ 2k □ □□ 2k−1 ∩ □ □
[ j=1
[ j=1
A= S ∩ S2k+1 ,
c
j B= S ∩ S2k .
c
j
Remarquonks∈ Nque nous n’avons pas eu besoin kd∈eN préciser dans quel ensemble∗
appartenant à chacun des Ai. Ces définitions sont globales et ne font appel à
aucune structure d’ordre sur I ni, dans le cas où I est infini, à aucune notion
de convergence.
P (Aj).
P ∪N Aj = j=1 ∗
j ∈
Définir une probabilité sur (Ω, F) c’est en quelque sorte attribuer une « masse »
à chaque événement observable, avec par convention une masse totale égale à 1
pour l’événement certain Ω. La propriété (ii) s’appelle σ-additivité.
En effet on a
[ [ F k.2
A= F k+1
2 B=
k∈ N k∈ N∗
ème lancer ce qui est absurde. Donc les F k+1 sont deux à deux disjoints et
2
+∞ +∞
X X
1 □5 □2k 1 □ 25 □j 1 1 6
,
X
P (A) = P (F k+1) =
2 = = 1− 25 =
6 6 6 36 6 36 11
k∈ N k=0 j=0
+∞ +∞
X X
1 □5 □2k−1 5 □ 25 □j 5 1 5
.
X
P (B) = P (F k) =
2 = = 1− 25 =
k∈ N∗ 6 6 36 36 36 36 11
k=1 j=0
On constate que Alice est légèrement avantagée par le fait de lancer la première,
ce qui est conforme à l’intuition. De plus par la propriété d’additivité 2.(b) ci-
dessous, comme A, B et D sont trois événements disjoints dont la réunion est
Ω, on en déduit que P (D) = 0. La probabilité qu’il n’y ait aucun vainqueur est
donc nulle, ce qui là aussi est conforme à l’intuition. On remarquera cependant
que dans le modèle choisi pour Ω, D = {1, 2, 3, 4, 5}N est très loin d’être vide, ∗
3. ∀ A ∈ F, P (Ac) = 1 − P (A).
4. ∀ A ∈ F, ∀ B ∈ F, A ⊂ B ⇒ P (A) ≤ P (B).
5. ∀ A ∈ F, ∀ B ∈ F, P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
6. Continuité monotone séquentielle
4 L’idée clé est
de considérer le développement en base 5 des réels de ]0, 1[. . .
6 Ch. Suquet, Probabilités
1.3. La probabilité comme fonction d’ensembles
n
n P (Aj) +
P □∪ □ j=1 j= P (Aj).
Aj = P
j=1 N Aj = ∗
n+1
D’après 1, la somme pour j ≥ n + 1 vaut 0, ceci prouve 2(b). Bien sˆ ur 2(a) n’est
que le cas particulier n = 2.
5Ce
qui signifie : ∀ n ≥ 1, Bn ⊂ Bn+1 et B = ∪ Bn.
n≥1
6Ce
qui signifie : ∀ n ≥ 1, Cn+1 ⊂ Cn et C = ∩ Cn.
n≥1
i
En écrivant la réunion infinie des Bn à l’aide de cette décomposition et en
« effaçant » toutes les répétitions des Bi \ Bi−1, on en déduit immédiatement
que B vérifie la décomposition en union disjointe :
□ □
B = B0 ∪ ∪ N (Bi \ Bi−1) . ∗
i ∈
Passant aux probabilités, ces deux décompositions nous donnent :
X n
P (Bn) = P (B0) + P (Bi \ Bi−1),
i=1
X +∞
i
Pour montrer que Bn = Dn, il suffit de montrer que Dn ⊂ Bn et Bn ⊂ Dn. La
première inclusion est évidente puisque pour tout i ≤ n, Bi \ Bi−1 ⊂ Bi ⊂ Bn.
Pour prouver l’inclusion inverse, on note ω un élément quelconque de Bn et on
montre que ω appartient à Dn. Soit i0 = i0(ω) le plus petit des indices i tels que
ω ∈ Bi. Comme cet ensemble d’indices contient au moins n, on a 0 ≤ i0 ≤ n.
Si i0 = 0, ω ∈ B0 et comme B0 ⊂ Dn, ω ∈ Dn. Si i0 ≥ 1, par la définition
même de i0, on a ω ∈ Bi et ω ∈/ Bi −1, donc ω ∈ Bi \ Bi −1 et comme i0 ≤ n,
0 0 0 0
✗✔
B0
✖✕ B1 \ B0 B2 \ B 1
car P (A ∩ B) ≥ 0.
Preuve de 7(b). On remarque que pour tout n ≥ 1 on a :
n n
∪ Ai = ∪ Bi ,
i=0 i=0
où les Bi sont des événements deux à deux disjoints définis comme suit :
n n
∪ ∪ P (Bi).
P i=0 Ai = P i=0 Bi = i=0
Ch. Suquet, Probabilités 9
Chapitre 1. Espaces Probabilisés
P =0 Ai = ∪
P (B i ) ≤ P (Ai).
i i=0 i =0
Preuve de 7(c). Posons pour tout n ≥ 1,
n
Dn = ∪ Ai, D= ∪ Dn = ∪ Ai .
i=0 n≥1 i∈ N
La suite (Dn)n≥1 est croissante et a pour limite D. Donc d’après 6(a), P (Dn) ↑
P (D) (n → +∞). D’après 7(b) on a :
X n
∀n ≥ 1, P (Dn) ≤ P (Ai).
i=0
Les deux membres de cette inégalité étant les termes généraux de deux suit
es
croissantes de réels positifs, on obtient en passant à la limite quand n tend vers
+∞
+∞ :
X
P( ∪ P (Ai).
i∈ N Ai) = P (D) ≤
i=0
Ce qui prouve 7(c). Remarquons que les sommes partielles de la série converge
nt dans R+ ∪ {+∞}. Bien sˆ
ur l’inégalité obtenue n’a d’intérêt que lorsque la série
de terme général P (Ai) converge et a une somme strictement inférieure à 1.
Le calcul de probabilités de réunions ou d’intersection est une question cru-
ciale. La propriété 5 montre qu’en général on ne peut pas calculer P (A ∪ B) à
partir de la seule connaissance de P (A) et P (B) et qu’on se heurte à la même
difficulté pour P (A ∩ B) (voir l’exercice 1.6). Le calcul des probabilités d’inter-
sections sera discuté au chapitre 2. Pour les probabilités de réunions, on peut
se demander comment se généralise la propriété 5 lorsqu’on réunit plus de deux
évènements. Il est facile de vérifier (faites-le !) que :
P (A ) +
P =1 Ai = i
(−1)k+1
P (Ai ∩ · · · ∩ Ai ). (1.1)
∪
i i=1 k =2 1≤i1<i2<...<ik≤n 1 k
i i
□ n □ □ n □
= P =1 A i + P (A n+1) − P ∪
=1 (A i ∩ A n+1) . ∪
i i
On applique maintenant l’hypothèse de récurrence (formule de Poincaré (1.1))
d’abord avec les n évènements A1, . . . , An puis avec les n évènements A′1 , . . . , A′n ,
où l’on a posé A′ := Ai ∩ An+1. Il viennt :
i
n
□ n+1 □
X X
P (Ai) + X
P i=1 Ai =
∪ (−1) k+1 P (Ai ∩ · · · ∩ Ai ) 1 k
i=1 k n
=2 1≤i1<i2<...<ik≤n
X X
′
) )−
+ P n(APn+1(A i
i=1 j X P (A′ ∩ · · · ∩ A′ )
(−1)j+1
i
1 i
j
− =2 1≤i1<i2<...<ij≤n
n+1
X
= P (Ai) (1.3)
i=1
n
X X
+ (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) (1.4)
k=2 1≤i1<i2<...<ik≤n
X
n
+ (−1) 2+1 P (Ai ∩ An+1) (1.5)
i=1
X n X
j=2 1≤i1<i2<...<ij≤
n
n+1 X
n+1
X
P (Ai) + X P (Ai ∩ · · · ∩ Ai ) .
1≤i1<i2<...<ik≤n+1
k=2 (−1)k+1 1 k
Cela revient à vérifier que Tn+1 est égal à la somme des lignes (1.4) à (1.6)
ci-dessus. Partageons Tn+1 en deux blocs comme suit. Le premier bloc regroupe
tous les termes tels que ik < n + 1 (et donc ik ≤ n et k ≤ n). On le retrouve
exactement à la ligne (1.4). Le deuxième bloc regroupe tous les termes po
ur
lesquels ik = n + 1. Dans ce bloc, la somme des termes pour lesquels k = 2 se
retrouve ligne (1.5). Il reste alors la somme des termes pour lesquels 3 ≤ k ≤
n + 1 et ik = n + 1 (donc ik−1 ≤ n). Cette somme est exactement le contenu de
la ligne (1.6), comme on peut le voir en faisant le changement d’indice k = j + 1
dans (1.6). Ceci achève la récurrence.
1.4 Exemples
Nous examinons maintenant quelques exemples élémentaires.
Exemple 1.3 On effectue une partie de pile ou face en trois coups. Quelle est
la probabilité d’obtenir pile aux premier et troisième lancers ?
On peut modéliser cette expérience en prenant Ω = {f, p}3 et pour famille
d’événements observables F = P(Ω) l’ensemble de toutes les parties7 de Ω.
La pièce étant supposée symétrique, nous n’avons a priori pas de raison d
e
supposer que l’un des 8 triplets de résultats possibles soit favorisé ou défavorisé
par rapport aux autres. Nous choisirons donc P de sorte que tous les événement
s élémentaires aient même probabilité (hypothèse d’équiprobabilité), soit :
1 1
∀ω ∈ Ω, P ({ω}) = = .
Card Ω 23
B = {(p,f,p); (p,p,p)}.
D’où :
1 1 1
P (B) = + = .
8 8 4
CardB
P (B) = .
CardΩ
C j k−j 0 ≤ j ≤ n,
N−n
P (Aj) = nC si
0 ≤ j ≤ k,
Ck
N
k − j ≤ N − n.
Si l’une de ces trois conditions n’est pas vérifiée, P (Aj) = 0.
Ces trois premiers exemples concernent le cas où l’on peut choisir Ω fini. On
peut caractériser complètement les probabilités sur les ensembles finis. C’est
l’objet de l’énoncé suivant.
Proposition 1.4 Soit Ω = {ω1, . . . , ωn} un ensemble fini à n éléments. La don-
née d’une probabilité P sur (Ω, P(Ω)) équivaut à celle d’une suite finie (pi) ≤i≤n 1
et des n égalités
P ({ωi}) = pi, 1 ≤ i ≤ n.
Ch. Suquet, Probabilités 13
Chapitre 1. Espaces Probabilisés
X n
P ({ωi}) = 1.
i=1
Si on définit les réels pi par pi := P ({ωi}), il est clair qu’ils vérifient les condi-
tions requises.
Réciproquement, donnons nous une suite finie p1, . . . , pn de réels positifs d
e
somme 1. Définissons la fonction d’ensemble Q sur (Ω, P(Ω)) de la manière
suivante :
(a) Q(∅ ) := 0.
(b) ∀ i ∈ {1, . . . , n}, Q({ωi}) := pi.
X pi.
(c) ∀ B ∈ P(Ω) (c.à.d. ∀ B ⊂ Ω), Q(B) :=
ωi∈ B
Remarquons que (a) et (b) sont deux cas particuliers de (c) si l’on convient
qu’une somme indexée par l’ensemble vide (donc ayant 0 termes) vaut 0 et un
e
somme indexée par un singleton donc ayant un seul terme vaut ce terme. Nou
s
allons vérifier que la fonction d’ensembles Q ainsi définie est bien une probabilité
sur (Ω, P(Ω)), autrement dit que Q vérifie les conditions (i) (Q(Ω) = 1) et (ii)
(σ-additivité) de la définition 1.1.
Vérification de (i) : En utilisant la définition de Q et l’hypothèse sur la somme
des pi :
n X
X pi = 1.
Q(Ω) = pi =
i=1
ωi∈ Ω
Vérification de (ii) : Soit (Aj)j≥1 une suite de parties de Ω deux à deux dis-
jointes. Comme Ω est fini, seul un nombre fini m de Aj sont non vides (m ≤ n).
Notons les Aj , . . . , Aj . . . , Aj . Soit A leur réunion :
1 k m
m
∪ Aj = ∪ Aj = A. k
k=1
j∈ N∗
D’après la définition de Q :
X
Q(A) =
ωi∈ A pi .
Dans cette somme finie, regroupons en un même paquet tous les pi indexés p
ar des ωi appartenant au même Aj : k
m
X X X
m pi =
Q(A) = k=1 ω∈ Ajk i
k Q(Aj ).
k
Q(Ajk ) = Q(Aj).
Q ∪N Aj = Q(A) =
∗
k=1 k
j ∈
=1
Ainsi la fonction d’ensemble Q vérifie la propriété de σ-additivité, c’est bien une
probabilité sur (Ω, P(Ω)).
Remarque : Lorsque Ω est fini, la façon la plus simple de construire une pro-
babilité sur (Ω, P(Ω)) est de choisir pi = 1/n pour tout i (Card Ω = n). On
parle alors d’équiprobabilité ou de probabilité uniforme sur (Ω, P(Ω)). C’est la
modélisation qui s’impose naturellement lorsqu’on n’a pas de raison de penser a
priori qu’un résultat élémentaire de l’expérience soit favorisé ou défavorisé par
rapport aux autres. La situation est radicalement différente lorsque Ω est infini
dénombrable (par exemple N ou une suite infinie d’éléments distincts). Sur un
tel ensemble, il ne peut pas y avoir d’équiprobabilité. Imaginons que l’on veuille
tirer une boule au hasard dans une urne contenant une infinité de boules ayan
t chacune un numéro entier distinct (et une boule par entier). Soit ωi l’événement
tirage de la boule numérotée i (i ∈ N) et pi sa probabilité. Par σ-additivité, on
doit toujours avoir :
X
pi = 1.
i∈ N
+∞
X
pi = 1, pi ≥ 0 (i ∈ N)
i=0
et des égalités
P ({ωi}) = pi, i ∈ N.
D’après la proposition 1.5, P est une probabilité sur (N, P(N)). On l’appelle
loi de Poisson de paramètre a. Calculons par exemple P (2N) où 2N désigne
l’ensemble des entiers pairs.
+∞
X X
e−aa2l −a
1 −2a
= =e ch a = (1 + e ).
P (2N) = pk
(2l)!
l=0 2
Une conséquence de kc∈e2Nrésultat est : si l’on tire un nombre entier au hasard
suivant une loi de Poisson, la probabilité qu’il soit pair est strictement supérieure
à 12 .
Ce modèle (1) ou (1′) est accepté d’autant plus facilement qu’on aura précisé
que les deux dés sont distinguables (par exemple un dé rouge et un vert, ou deu
x
dés blancs lancés chacun sur une table différente). On peut ainsi distinguer
l’événement {(2, 3)} de l’événement {(3, 2)} où la première composante désigne
le résultat du dé rouge. A la question : quelle est la probabilité d’obtenir un 2
et un 3 et quelle est celle d’obtenir un double 6 ? On répondra naturellement :
sonnablement penser que la couleur n’influe pas sur les résultats et attribuer
pour rester cohérent avec notre première modélisation la probabilité 1/36 aux
doubles et 1/18 aux paires de deux chiffres distincts. On voit ainsi un exemple
de situation pourtant très simple où il n’y a pas équiprobabilité des événements
élémentaires. (Modèle (2) )
Remarquons là aussi que l’on peut donner une représentation géométrique
de ce modèle en repliant le carré le long de sa diagonale i = j.
1 2 3 4 5 6
Les événements élémentaires sont ❅ 1
maintenant représentés par un carré ou ❅ 2
un triangle et leur probabilité est définie ❅ 3
❅ 4
comme un rapport d’aires (loi uniforme ❅
❅ 5
sur le triangle rectangle de côté 6). (Mo-
❅ 6
dèle (2′)) ❅
❅
schéma ci dessous :
1 2 3 4 5 6
Les événements élémentaires sont 1
représentés par un carré et la proba- 2
3
bilité est définie comme un rapport 4
d’aires (loi uniforme sur la figure ci- 5
contre). (Modèle (3′)) 6
Avec ce modèle, la probabilité d’obtenir un double six est la même que celle
d’obtenir un deux et un trois et vaut 1
21
.
On peut imaginer toute une liste d’excellents arguments qui militent en
faveur des modèles (1) et (2) contre le modèle (3), par exemple : « on jette deux
dés de couleurs différentes et on les filme avec deux caméras, une couleur e
t
l’autre noir et blanc. . . », « il y a deux façons d’obtenir 2 et 3 et une seule de
faire un double 6 ».
Tous ces arguments relèvent d’une analyse a priori de l’expérience et pa
s
de la théorie mathématique des probabilités. Chacun des modèles présentés ci-
dessus a sa cohérence comme objet mathématique. La question pertinente est :
parmi ces modèles, lequel (lesquels ?) représente(nt) le mieux la réalité ?
Pour un physicien, ce qui fait la valeur d’un modèle est sa capacité à per-
mettre la prévision du résultat d’expériences. Ainsi certaines expériences sont
« expliquées » par la théorie de la relativité alors que leur résultat ne s’accord
e pas avec la théorie de la mécanique classique.
Si l’on se place dans le cadre des modèles (1) et (2), la loi forte des grand
s
nombres nous dit que si l’on jette les dés unetandisinfinité e fois
qu’davec le, la èle (3e) d’ap
fréquenc
mod cette
36
- parition du double six va converger vers8 1
fréquence convergera vers 211 . La réalisation d’un grand nombre de lancers per
-
met donc ici de constater que les modèles (1) et (2) rendent mieux compte de l
a réalité que le (3). Une question importante est alors : que faut-
il entendre par grand nombre ? Cette question sera discutée ultérieurement.
1.6 Exercices
□□ n−1 ∩ □ □
[ j=1
A∪B = S c
j ∩ Sn .
n∈ N∗
8
En un sens qui sera précisé dans le chapitre sur la loi des grands nombres.
On en déduit :
□□ □ \
n−1 □ c Sc.
∪ S ∪S
\
n = j
j
j=1 j∈ N∗
n∈ N∗
Proposer une vérification directe de cette formule
.
´
Ecrire à l’aide des événements Si et Sc l’événement
i
Ex 1.3. On effectue une suite infinie de lancers d’un dé. Pour tout i ∈ N , on ∗
note :
Ai = {Obtention de l’as au i-ème lancer}.
1) Définir par une phrase ne comportant aucun vocabulaire mathématiqu
e chacun des événements :
□ 4 □ □ +∞ □
+∞
∩ A i , E2 = ∩ A c
∩ ∩ A i , E3 = ∪
E1 = i=5 Ai .
i
que pour tout n ≥ 1, Cn+1 est inclus dans Cn). Caractériser d’une phrase ne
comportant pas de vocabulaire mathématique l’événement C = ∩ Cn.
n≥1
1)On fixe ε > 0. Ecrire à l’aide d’opérations ensemblistes sur les Bε,k,
l’ensemble :
Aε,n = {ω ∈ Ω, ∀ k ≥ n, |fk(ω)| < ε}.
2) Même question pour :
P (A ∩ B) ≥ P (A) + P (B) − 1.
3) Généraliser :
X n
∀ A1, . . . , An ∈ F, P (A1 ∩ · · · ∩ An) ≥ P (Ai) − (n − 1).
i=1
Ex 1.8. On suppose que P et Q sont deux probabilités sur (Ω, F) vérifiant
P ≤ Q, ce qui signifie : ∀ A ∈ F, P (A) ≤ Q(A). Montrer qu’alors P = Q (égalité
de deux fonctions d’ensembles).
Ex 1.9. Soit (An)n≥1 une suite d’événements ayant chacun une probabilité 1
(on rappelle que P (An) = 1 n’implique pas An = Ω). On note A leur intersec-
tion. Que peut-on dire de P (A) ?
x1 + x2 + · · · + xr = n.(1.7)
Une solution de cette équation est un r-uplet (x1, . . . , xr) dont la somme des
composantes xi (1 ≤ i ≤ r) vaut n. Lorsque les xi sont des réels, (1.7) a une
infinité de solutions. On s’intéresse aux solutions dont toutes les composante
s sont des entiers.
Proposition 1.6
a) L’équation (1.7) admet exactement Cr−+1r−1 = C +r−1 solutions à compo-
n
n
n
e
1 à r. Le cas a) donne le nombre de façons de répartir ces jetons dans les r boıte ˆ
s
(certaines pouvant rester vides). Le cas b) donne le nombre de répartitions pou
r
lesquelles aucune boıte ne reste vide. Dans cette interprétation, xi représente le
ˆ
O O O O O O O O O.
Pour représenter les 4 boıtes, il suffit d’insérer 3 caractères ’|’, chacun dans un
ˆ
O O|O O O|O|O O O
code la répartition avec 2 jetons dans la première boıte, 3 dans la deuxième, 1
ˆ
dans la troisième et 3 dans la quatrième, autrement dit la solution (x1, x2, x3, x4) =
(2, 3, 1, 3).
2) Prouvez la Proposition 1.6 a), en utilisant le codage suivant illustré à
nouveau dans le cas n = 9 et r = 4. Le caractère ’|’ représente à la fois le début
et la fin d’une boıte (sauf s’il est le premier ou le dernier de la chaıne). Il nous
ˆ ˆ
par un ’O’, mais cette fois on ne laisse plus d’espace entre les caractères de
la
chaıne. L’exemple de la question précédente sera alors codé par la chaıne de 1
ˆ ˆ
|OO||OOOO|OOO|, |||OOOO|OOOOO|,
représentent respectivement les solutions (2, 0, 4, 3) et (0, 0, 4, 5).
3) Montrer que l’on peut passer du cas a) au cas b) par un simple chan-
gement d’inconnue et utiliser cette remarque pour contrôler les résultats précé-
dents.
(pour « libre ») :
OLOLLOLOLLLOLOLO
Notre sociologue se demande si les voyageurs ont choisi leur place au hasar
d
parmi les places disponibles, ou s’ils ont cherché à s’isoler. Si les voyageur
s
choisissent au hasard parmi les places disponibles, toutes les répartitions des
7
personnes sur les 16 places sont équiprobables. Pour se faire une idée, on compt
e
les séries. Une série est ici un bloc de lettres identiques encadré (sauf s’il est en
début ou en fin) par des lettres différentes. Dans l’observation réalisée, il y donc
13 séries :
O, L, O, LL, O, L, O, LLL, O, L, O, L, O.
dont 7 séries de O, ce qui est le maximum possible pour cette lettre.
1) Une chaıne comportant m lettres L et n lettres O est construite au
ˆ
| .{z
L . .L O . . .O L. . .L O. . .O . . . . . . L
} | {z } | {z } | {z } | .{z. .L O. . .O L. . .L
} | {z } | {z }
y1 x1 y2 x2 yr xr r+1
y
Les r-uplets (x1, . . . , xr) possibles sont les solutions à composantes strictement
positives de l’équation x1 + . . . xr = n. On se ramène à une condition du même
type pour les yi en faisant le changement de variable
z1 = y1 + 1, zr+1 = yr + 1, zi = yi (2 ≤ i ≤ r).
Montrer que pour 1 ≤ r ≤ n et 1 ≤ r ≤ m + 1, la probabilité pr d’avoir r séries
de O est
r r−1
C n−1
pr = m+1C .
Cnm+n
2) Pouvez vous aider le sociologue du prologue ?
En déduire : X
1
PN (Bi ∩ · · · ∩ Bi ) =
1 j
.
i1<i2<···<ij j!
2) Calculer PN (EN,0).
3) On fixe k nageurs retrouvant leurs affaires. Exprimer à l’aide de PN−k(EN−k,0)
le nombre de permutations des N − k autres nageurs telles qu’aucun d’eux ne
retrouve ses affaires. En déduire la valeur de PN (EN,k).
9Toute ressemblance
avec une piscine proche du campus ne serait pas forcément aléatoire.
Ch. Suquet, Probabilités 23
Chapitre 1. Espaces Probabilisés
5) Montrer que :
1
∀k ∈ {0, . . . , N }, |PN (EN,k) − pk| < .
k! (N + 1 − k)!
En déduire :
X
e
n |PN (EN,j) − pj| ≤
∀n ∈ {0, . . . , N}, j=0 .
(N + 1 − n)!
X 5
6) Application : après avoir vérifié que : 0.9994 < pj < 0.9995, don-
j=0
On peut alors définir une probabilité Pa sur N∗ en posant (cf. proposition 1.5) :
1 ∗
pk = , k∈ N.
ζ(a)ka
e suivante : existe-t-
il une probabilité P sur (N, P(N)) telle qu’un entier tiré au
hasard suivant cette loi P soit pair avec une probabilité 1/2, multiple de 3 avec
une probabilité 1/3, multiple de 4 avec probabilité 1/4, etc. Plus formellement,
notons nN l’ensemble des multiples de l’entier n (y compris 0). On suppose qu’i
l existe une probabilité P vérifiant :
1
∀n ∈ N, ∗
P (nN) = .
n
et on souhaite réfuter cette conjecture.
n
P (Ec).
P Ec =
i
i=1 i
i=1
□ ∞
+
□
En déduire la valeur de P i=k ∩ E pour tout k ≥ 1.
c
i
□ +∞ ∪ □
i=k
7) Montrer que P Ei = 1 pour tout k et en déduire que
P ({0, 1, . . . , k − 1}) = 0 pour tout k,
ce qui est manifestement absurde (pourquoi ?).
Ex 1.15. Construire une probabilité sur P sur (N , P(N )) vérifiant P ({n}) > 0 ∗ ∗
pour tout n et :
1 1
P (2N) = . , P (3N) =
3 2
Imaginer une expérience aléatoire correspondant à cette modélisation.
Ch. Suquet, Probabilités 25
Chapitre 1. Espaces Probabilisés
26 Ch. Suquet, Probabilités
Chapitre 2
Conditionnement et
indépendance
P (A ∩ H) ,
P (A | H) = P (H)
27
Chapitre 2. Conditionnement et indépendance
P (A ∩ H) = P (A | H)P (H).
Ce qui fait l’intérêt du concept de probabilité conditionnelle, c’est qu’il est
souvent bien plus facile d’attribuer directement une valeur à P (A | H) en tenant
compte des conditions expérimentales (liées à l’information H) et d’en déduire
ensuite la valeur de P (A ∩ H). Le raisonnement implicite alors utilisé est :
tout espace probabilisé modélisant correctement la réalité expérimentale devrait
fournir telle valeur pour P (A | H). . .
Exemple 2.1 Une urne contient r boules rouges et v boules vertes. On en tire
deux l’une après l’autre, sans remise. Quelle est la probabilité d’obtenir deux
rouges ?
Notons H et A les événements :
H = {rouge au 1 r tirage},
e
A = {rouge au 2e tirage}.
r−1 r
P (deux rouges) = P (A ∩ H) = P (A | H)P (H) = × .
r+v−1 r+v
On aurait pu arriver au même résultat en prenant pour Ω l’ensemble des arran-
gements de deux boules parmi r + v, muni de l’équiprobabilité et en faisant du
dénombrement :
card Ω = A2r +v = (r + v)(r + v − 1), card(A ∩ H) = A2r = r(r − 1).
d’où :
r(r − 1)
P (A ∩ H) = .
(r + v)(r + v − 1)
2.1.2 Propriétés
Proposition 2.2 Soit (Ω, F, P ) un espace probabilisé et H un événement fixé
tel que P (H) 6= 0. Alors la fonction d’ensembles P ( . | H) définie par :
P ( . | H) : F → [0, 1] B 7→ P (B | H)
P (A ∪ B | H) = P (A | H) + P (B | H) − P (A ∩ B | H).
1En
fait cette écriture prise isolément (sans le P ) n’a pas de sens et ne devrait jamais être
utilisée. Le symbole | ne représente pas une opération sur les événements qui l’entourent.
Ch. Suquet, Probabilités 29
Chapitre 2. Conditionnement et indépendance
j
□
Aj .
Donc P □
=1
Aj n’est nul pour aucun i ≤ n − 1 et on peut conditionner par
i
l’événement ∩ Aj. Ceci légitime le calcul suivant :
j=1
P (A1)P (A2 | A1)P (A3 | A1 ∩ A2) × · · · × P (An | A1 ∩ . . . ∩ An−1)
P (A1 ∩ A2) P (A1 ∩ A2 ∩ A3) P (A1 ∩ . . . ∩ An)
= P (A1) × × × ··· ×
P (A1) P (A1 ∩ A2) P (A1 ∩ . . . ∩ An−1)
= P (A1 ∩ . . . ∩ An),
après simplifications en chaıne de toutes ces fractions.
ˆ
– ∀ i ∈ I, H 6= ∅ .i
– Ω = ∪ Hi.
i∈ I
X +∞
∀A ∈ F, P (A) = P (A | Hi)P (Hi).
i=0
Preuve : Il suffit de vérifier (iii), les deux premières propriétés se démontrant
de façon analogue. Comme (Hi)i N est une partition de Ω,
∈
A = A∩Ω = A∩ □ (A ∩ Hi)
N Hi = ∪
i∈ N
etcette réunion est disjointe car les Hi étant deux à deux disjoints, il en est de
même pour les (A ∩ Hi). Par conséquent par σ-additivité :
+∞
X X
+∞ P (A ∩ Hi) =
i=0
P (A) = P (A | Hi)P (Hi).
2ou
formule des probabilités totales.
ri □ ri □ 2
P (R | Hi) = , P (R ∩ R ′ | H ) = .
ri + vi i
ri + vi
La formule de conditionnement par la partition {H1, H2} donne :
mp
.
1 + (m − 1)p
Pour p fixé, P (C | B) est une fonction croissante de m, les deux bornes étant
P (C | B) = p (cas m = 1) et P (C | B) → 1 (m → +∞). D’autre part pour m
fixé, P (C | B) est une fonction croissante de p. On a pour p > 0 :
P (C | B) m
= ≥ 1,
p 1 + (m − 1)p
l’égalité n’étant possible que pour p = 1. Tout ceci est conforme à l’intuition.
On en déduit :
P (T ∩ V ) P (T | V )P (V )
P (V | T ) = =
P (T ) P (T | V )P (V ) + P (T | V c)P (V c)
0.95 × 0.005
= 0.95 × 0.005 + 0.01 × 0.995 ≃ 0.323
On voit ainsi que contrairement à ce que l’on aurait pu croire le test n’est pas
fiable : si la personne présente un test positif, la probabilité qu’elle ne soit pas
porteuse du virus est deux fois plus élevée que celle qu’elle le soit !
2.2 Indépendance
2.2.1 Indépendance de deux événements
SoientA et B deux événements de probabilité non nulle. Il arrive que la
connaissance de la réalisation de A ne modifie pas notre information sur cell
e
de B, autrement dit que P (B | A) = P (B). C’est le cas par exemple lorsque l’on
fait un tirage avec remise et que la réalisation de A ne dépend que du résultat
du premier tirage, celle de B que du deuxième. Symétriquement on aura dan
s cet exemple P (A | B) = P (A). Cette remarque se généralise :
Proposition 2.7 Si A et B sont des événements de probabilité non nulle, les
trois égalités suivantes sont équivalentes :
(i) P (B | A) = P (B),
(ii) P (A | B) = P (A),
(iii) P (A ∩ B) = P (A)P (B).
Preuve : Comme P (A) 6= 0 et P (B) 6= 0, on a la chaıne d’équivalences :
ˆ
P (A ∩ B) P (A ∩ B)
= P (B) ⇔P (A ∩ B) = P (A)P (B) ⇔ = P (A).
P (A) P (B)
D’autre part la relation (iii) est toujours vérifiée dans le cas dégénéré où
P (A) = 0 ou P (B) = 0. En effet, on a alors à la fois P (A)P (B) = 0 et
0 ≤ P (A∩B) ≤ min
est un peu plus générale que (i) et (ii). Elle a aussi sur les deux autres l’avantage
de la symétrie d’écriture. C’est elle que l’on retient pour définir l’indépendance.
Définition 2.8 Soit (Ω, F, P ) un espace probabilisé. Deux événements A et B
de cet espace sont dits indépendants lorsque :
P (A ∩ B) = P (A)P (B).
34 Ch. Suquet, Probabilités
2.2. Indépendance
sont indépendants.
En effet, en prenant Ω = {1, 2, . . . , 6}2, F = P(Ω) et P l’équiprobabilité, on
vérifie que :
3×6 1 6×1 1
P (A) = = , P (B) = 36 = ,
36 2 6
3×1
P (A ∩ B) = = 1 1 1 1
36 , P (A)P (B) = × = .
12 2 6 12
Remarques :
– Si A est un événement tel que P (A) = 0 ou P (A) = 1, alors il est indépen-
dant de tout événement, y compris de lui même (c’est le cas en particulier
pour Ω et ∅ ).
– Deux événements incompatibles A et B avec P (A) > 0 et P (B) > 0 ne
sont jamais indépendants. En effet A ∩ B = ∅ implique P (A ∩ B) = 0 or
P (A)P (B) 6= 0.
– L’indépendance de deux événements A et B n’est pas une propriété in-
trinsèque aux événements, elle est toujours relative au modèle (Ω, F, P )
que l’on a choisi. Voici un exemple pour l’illustrer.
6 ′ 4 ′ 2
P ′(A) =
13
, P (B) = , P (A ∩ B) = 13
13
Ch. Suquet, Probabilités 35
Chapitre 2. Conditionnement et indépendance
mais
6 4 24 2
P ′(A)P ′(B) =
13
× 6 13 ,
=
=
13 169
donc A et B ne sont plus indépendants. Un peu de réflexion permet de relier
ces résultats calculatoires avec la notion intuitive d’indépendance présentée en
introduction. Dans le premier cas, la proportion des multiples de trois parmi les
pairs est la même que parmi les impairs. Le fait de savoir que la boule tirée est
paire ne modifie en rien notre information sur B. Par contre dans le deuxième
cas, l’ajout de la treizième boule modifie la proportion des multiples de trois :
elle est plus élevée chez les pairs que chez les impairs. Donc le fait de savoi
r
que la boule tirée est paire augmente un peu la probabilité que nous pouvon
s attribuer à B.
1 = P (A)P (B)
P (A ∩ B) = P (tricolore) = 4
et de même P (B ∩ C) = 1/4 = P (B)P (C), P (C ∩ A) = 1/4 = P (C)P (A). Ainsi
les événements A, B, C sont deux à deux indépendants.
36 Ch. Suquet, Probabilités
2.2. Indépendance
P (A ∩ B) = P (A)P (B),
P (B ∩ C) = P (B)P (C),
P (C ∩ A) = P (C)P (A),
P (A ∩ B ∩ C) = P (A)P (B)P (C).
intervenir que des éléments de la famille initiale et il n’y a donc rien à vérifier).
Posons B = Ai ∩ · · · ∩ Ai . L’hypothèse (2.1) appliquée à la famille Ai . . . , Ai
2 k 2 k
3
Lorsque les probabilités conditionnelles existent.
2.9, on en déduit :
Définition 2.13 Une suite infinie d’événements est dite indépendante si toute
sous suite finie est formée d’événements mutuellement indépendants.
2.2.3 ´
Epreuves répétées
Considérons une suite d’épreuves réalisées dans les mêmes conditions expér
i-
mentales. Par exemple tirages avec remise dans la même urne, lancers succes
sifs
d’un dé, . . . Il est alors raisonnable de supposer que les résultats de tout sou
s
ensemble fini d’épreuves n’ont aucune influence sur ceux des autres épreuves.
Définition 2.14 On dit que les épreuves sont indépendantes si toute suite
(Ai)i≥1 telle que la réalisation de chaque Ai est déterminée uniquement par
le résultat de la i-ème épreuve est une suite indépendante d’événements.
i=1 i=1
Y n
P (Ac) = P (Rc) = (1 − p)n = qn.
i
i=1
On en déduit P (A) = 1 − qn.
b)Traitons d’abord le cas 0 < k < n. L’événement B est la réunion disjointe de
tous les événements du type :
□ □ □ □
BI = ∩∈ I Ri ∩ ∩∈ J Rc , j
i j
où I est une partie de cardinal k de {1, . . . , n} et J son complémentaire dans
{1, . . . , n}. L’ensemble d’indices I représente un choix possible des k épreuves
38 Ch. Suquet, Probabilités
2.3. Exercices
donnant un succès, les autres épreuves indexées par J donnant alors un échec
. En considérant tous les choix possibles de l’ensemble I (il y en a Ck), on obtient
n
une partition de B par les BI . Par indépendance des épreuves, pour tout I on
a:
Y Y P (Rc) = pkqn−k.
P (BI ) = P (Ri) ×
j
i∈ I j∈ J
card(I)=k
La vérification de la validité de la formule P (B) = Ckpkqn−k dans les cas k = 0
n
∩ P (Ri) = pn.
P (Cn) = P i=1 R i = i=1
donc pour tout n ≥ 1, 0 ≤ P (C) ≤ p . En faisant tendre n vers +∞, on en
n
déduit P (C) = 0.
2.3 Exercices
Ex 2.1. Donner une CNS pour que P (A | H) = 1.
Ex 2.2. Un avion a disparu et la région où il s’est écrasé est divisée pour sa
recherche en trois zones de même probabilité. Pour i = 1, 2, 3, notons 1 − αi
la probabilité que l’avion soit retrouvé par une recherche dans la zone i s’il est
effectivement dans cette zone. Les constantes αi représentent les probabilités de
manquer l’avion et sont généralement attribuables à l’environnement de la zone
(relief, végétation,. . .). On notera Ai l’événement l’avion est dans la zone i, et
Ri l’événement l’avion est retrouvé dans la zone i (i = 1, 2, 3).
1) Pour i = 1, 2, 3, déterminer les probabilités que l’avion soit dans la zone
i sachant que la recherche dans la zone 1 a été infructueuse.
´
2) Etudier brièvement les variations de ces trois probabilités condition-
nelles considérées comme fonctions de α1 et commenter les résultats obtenus.
a) Aucune blanche.
b) Exactement une blanche.
c) Trois blanches.
d) Exactement deux blanches.
P (A | I)
r = P (A | C) .
1) Calculer P (C | A) en fonction de r et p.
2) Dans quel cas a-t-on P (C | A) > P (C) ?
3) Proposer une interprétation du cas r > 1.
Ex 2.5. Une compagnie d’assurance répartit ses clients en trois classes R1, R2
et R3 : les bons risques, les risques moyens et les mauvais risques. Les effecti
fs
des ces trois classes représentent 20% de la population totale pour la classe R1,
50% pour R2 et 30% pour R3. Les statistiques indiquent que les probabilités
d’avoir un accident au cours de l’année pour une personne de l’une de ces troi
s classes sont respectivement de 0.05, 0.15 et 0.30.
1) Quelle est la probabilité qu’une personne choisie au hasard dans la po
- pulation ait un accident dans l’année ?
2) Si M. Martin n’a pas eu d’accident cette année, quelle est la probabilité
qu’il soit un bon risque ?
2) Quelle est la probabilité que la boule jaune soit dans l’urne 1 si le tirage
a donné deux bleues ?
3) On reprend l’expérience avec cette fois n personnes chacune face à u
ne
urne où elles tirent simultanément et sans remise deux boules. On note Bi et Ji
les événements définis de manière analogue à la première question.
a) Que vaut P (Bc | Jk) pour 1 ≤ i, k ≤ n ? On distinguera les cas i = k et i
i
6= k. En déduire P (Bi).
b) Expliquer sans calcul pourquoi les évènements Bi et Bj (i 6= j) ne sont
pas indépendants.
c) Déterminer les valeurs des probabilités conditionnelles P (Bi ∩ Bj | Jk) :
on distinguera les deux cas k ∈ {i, j} et k ∈/ {i, j}. En déduire P (Bi ∩ Bj).
d) Généraliser en calculant par la même méthode P (Bi ∩ Bi ∩ · · · ∩ Bi )
1 2 r
Ex 2.12. On effectue des lancers répétés d’une paire de dés et on observe pour
chaque lancer la somme des points indiqués par les deux dés. On se propose d
e
calculer de deux façons la probabilité de l’événement E défini ainsi : dans la
suite des résultats observés, la première obtention d’un 9 a lieu avant la première
obtention d’un 7.
1) Quelle est la probabilité de n’obtenir ni 7 ni 9 au cours d’un lancer ?
2) Première méthode : On note Fi = {obtention d’un 9 au i-ème lancer}
et pour n > 1, En = { ni 7 ni 9 ne sont obtenus au cours des n − 1 premiers
lancers et le n-ième lancer donne 9}. Dans le cas particulier n = 1, on pose
E1 = F1.
a) Exprimer E à l’aide d’opérations ensemblistes sur les En (n ≥ 1). Expri-
mer de même chaque En à l’aide des Fi et des Hi = { ni 7 ni 9 au i-ème
lancer}.
b) Calculer P (En) en utilisant l’indépendance des lancers.
c) Calculer P (E).
3) Deuxième méthode : On note G1 = { obtention d’un 7 au premier lan-
cer}.
a) Donner une expression de P (E) en utilisant le conditionnement par la
partition {F1, G1, H1}.
b) Donner sans calcul les valeurs de P (E | F1), P (E | G1) et expliquer
pourquoi P (E | H1) = P (E).
c) En déduire la valeur de P (E).
C2 C3
A ✲ B
✲ C1
C4 C5
a := pi < +∞.
i=1
Le but de cet exercice est de prouver l’inégalité
n
□ X
□ ak
∀ n, k ∈ N, ∗
P 1Ai ≥ k ≤ .
k!
i=1
La dernière question propose une application de cette inégalité.
1) Que peut-on dire du cas k > n ? On suppose dans la suite k ≤ n.
P
2) On note Bn,k := {ω ∈ Ω; =1 1A (ω) ≥ k}. Justifier l’inclusion
n
i
i
[ ∩
Bn,k ⊂ F⊂{1,...,n} i∈ F Ai .
card F=k
3) En déduire que
X Y
P (Bn,k) ≤ pi.
F⊂{1,...,n} i∈ F
card F=k
P
4) On note an = pi.
Montrer que
n
=1
i
X Y
akn ≥ k! pi.
F⊂{1,...,n} i∈ F
Indication : On remarquera que card F=k
X
akn = pi · · · pi . 1 k
(i1,...,ik)∈ {1,...,n}k
5) Conclure.
épreuve, le tireur tire un coup sur la cible. D’une épreuve à la suivante, la vitess
e
de la cible augmente de 20%. On suppose que pour un tireur donné, la probab
i-
lité de toucher la cible est inversement proportionnelle à la vitesse de la cible.
Elle vaut ainsi p ∈ ]0, 1[ pour le premier tir, 56 p pour le second (pourquoi ?), etc.
Les tirs sont supposés indépendants, le tireur dispose d’autant de cartouche
s
qu’il le souhaite et le défi qu’il doit relever est celui de toucher au moins 20 fois
la cible. En utilisant le résultat démontré ci-dessus, majorer sa probabilité de
réussir (indépendamment de p).
∀ a > 1, = a) = lim 1− 1−
ka n→∞
k=1 i=1
pai=1
pa i i
6) On peut retrouver cette formule par une calcul direct sur la série défi-
nissant ζ(a). En voici le début :
+∞
1
X
1 X
1
+
X
ζ(a) = = k a ka
ka 2|k
k=1 2|k 6
1
1 ka
= X
ζ(a) +
2a
2|k 6
On recommence avec la série (1−2−a)ζ(a) en séparant les termes dont l’indice est
un multiple de 3 des autres. . .Expliciter cette méthode et résoudre le problèm
e de convergence sous-jacent.
contrôleurs. Chacun d’eux vérifie tous les wagons, sans échanger d’information
avec son collègue pendant le contrôle. On admet que chaque contrôleur peut
déceler le défaut (s’il y en a un) d’un wagon donné avec une probabilité égale à
0.7. Un seul défaut suffit pour que le train soit retardé. Trouver les probabilités
des événements suivants :
a) Le train est retardé.
b) Le train part avec au moins un wagon défectueux.
46 Ch. Suquet, Probabilités
Chapitre 3
Variables aléatoires discrètes
3.1 Introduction
Dans de nombreux jeux, on fait intervenir le hasard en observant la somme
des points marqués par deux dés. Considérons le jet d’un dé bleu et d’un dé
rouge et notons S la somme des points obtenus. On modélise cette expérien
ce en prenant l’équiprobabilité sur :
Ω = {1, 2, 3, 4, 5, 6}2.
somme des points prenne une valeur donnée, soit P (S = k) pour k entier fixé
entre 2 et 12. En utilisant l’équiprobabilité sur Ω et le tableau ci-dessus, nous
obtenons immédiatement :
k 2 3 4 5 6 7 8 9 10 11 12
1
P (S = k) 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
47
Chapitre 3. Variables aléatoires discrètes
et
à munir cet ensemble de la probabilité PS définie par le tableau des P (S = k).
Cette nouvelle probabilité s’appelle loi de la variable aléatoire S.
3.2 Généralités
3.2.1 Variable aléatoire discrète
Définition 3.1 Soit (Ω, F, P ) un espace probabilisé. On appelle variable aléa-
toire discrète sur (Ω, F, P ) toute application X :
X : Ω −→ R ω 7→ X(ω),
vérifiant les deux conditions :
(i) L’ensemble des images X(Ω) = {X(ω), ω ∈ Ω} est une partie au plus
dénombrable de R. On peut donc numéroter ses éléments par des indices
entiers1
X(Ω) = {x0, x1, . . . , xk, . . .}.
(ii) Pour tout xk ∈ X(Ω), Ak = {ω ∈ Ω, X(ω) = xk} fait partie de la
famille F d’événements auxquels on peut attribuer une probabilité par P .
L’événement Ak est aussi noté X−1({xk}) (inverse ensembliste2) ou plus com-
modément {X = xk}. Nous utiliserons l’abréviation v.a. pour variable aléatoire.
Remarquons que la famille de tous les Ak forme une partition de Ω : on clas
se chaque élément de Ω selon son image par X. Il en résulte :
X X
P (Ak) = P (X = xk) = 1.
x ∈ X(Ω)
Dans cette écriture, les sommes sont des séries convergentes si X(Ω) est infini
k
xk ∈ X(Ω)
Définition 3.2 Soit X une variable aléatoire discrète sur (Ω, F, P ). On lui
associe la fonction d’ensemble PX définie sur la famille de toutes les parties de
R en posant :
pk = PX ({xk}) = P (Ak) = P (X = xk),
puis pour tout B ⊂ R :
X X
PX (B) = P (X = xk) = pk.
xk∈ B xk∈ B
La fonction d’ensembles PX ainsi définie est une probabilité sur la famille P(R)
de toutes les parties de R. On l’appelle loi de la variable aléatoire X.
Remarquons que la définition de PX (B) a toujours un sens en convenant qu’une
somme indexée par l’ensemble vide vaut 0 et en notant que s’il y a une infinité
de xk dans B, la somme sur B des pk est une sous-série de la série à termes
X pk = 1. Le fait que PX soit une probabilité résulte
positifs convergente :
xk∈ X(Ω)
des propositions 1.4 et 1.5.
Remarque 1 : Deux variables aléatoires peuvent avoir même loi sans être
égales. Par exemple considérons le jet de deux dés, l’un bleu et l’autre rouge.
Notons X le nombre de points indiqué par le dé bleu et Y celui du rouge. Le
s
variables aléatoires X et Y sont définies sur le même espace probabilisé Ω =
{1, 2, 3, 4, 5, 6}2 muni de l’équiprobabilité. On a X(Ω) = Y (Ω) = {1, 2, 3, 4, 5, 6} et :
1 1
∀ k ∈ {1, 2, 3, 4, 5, 6}, P (X = k) = , P (Y = k) = .
6 6
Donc X et Y ont même loi : PX = PY . Pour autant on n’a pas l’égalité des
variables aléatoires X et Y qui signifierait X(ω) = Y (ω) pour tout ω ∈ Ω (égalité
de deux applications). Autrement dit, en lançant deux dés on obtiendrait à coup
sˆur un double. Par contre nous pouvons considérer l’événement {X = Y } dont
la réalisation n’est pas certaine et calculer sa probabilité :
□ 6 □ 6 1
P (X = Y ) = P ∪ {(X, Y ) = (k, k)} = 36 = .
k =1 6
On en déduit : P (X 6= Y ) = 5/6.
Remarque 2 : Deux variables aléatoires discrètes X et Y peuvent avoir même
loi sans que X(Ω) = Y (Ω). Cela vient du fait que pour certaines valeurs xk dans
X(Ω) (ou yl ∈ Y (Ω)), on peut avoir P (X = xk) = 0 (ou P (Y = yl) = 0). Bien sˆ
ur, on pourrait redéfinir X et Y de fa¸con à effacer ces valeurs particulières, ce
qui reviendrait remplacer Ω par l’un de ses sous-ensembles Ω′. On ne fera pas
cette convention3, car on a parfois intérêt à laisser dans l’ensemble des valeurs
possibles d’une v.a. des valeurs qui sont atteintes avec une probabilité nulle.
C’est le cas lorsqu’on étudie des problèmes de convergence de suites de v.a
. (voir la discussion sur la loi forte des grands nombres pour les fréquences).
3Sauf
dans le cas de l’exemple 3.2 ci-dessous.
Ch. Suquet, Probabilités 49
Chapitre 3. Variables aléatoires discrètes
On a aussi :
X P (X = xk).
FX (x) =
xk∈ X(Ω)
Voici à titre d’exemple la xk≤x graphique
représentation de FS où S est la variable
aléatoire somme des points de deux dés.
✻
1
✲
0 x
2 3 4 5 6 7 8 9 10 11 1
2
An ⊂ An+1) alors
lim [
n→+∞ P (An) = P (A) où A = An.
n∈ N∗
lim \
n→+∞ P (Bn) = P (B) où B = Bn.
n∈ N∗
vérification de (3.1).
Comme FX est croissante, elle admet des limites en −∞ et +∞. Si X(Ω)
est borné inférieurement4, il est clair que FX (x) = 0 pour tout x assez petit
et donc limx→−∞ FX (x) = 0. Dans le cas général, on identifie la limite en −∞
(dont on connaıt l’existence) grâce à une suite particulière :
ˆ
{X ≤ −n} = ∅ . (3.2)
n∈ N∗
4Attention, dans le cas général x0 n’est pas nécessairement le plus petit élément de X(Ω),
on peut très bien avoir par exemple X(Ω) = Z.
∀x ∈ R, FX (x) = FY (x).(3.3)
1 1 1
P (x − < X ≤ x) = P (X ≤ x) − P (X ≤ x − ) = FX (x) − FX (x − ).
n n n
On utilise une nouvelle fois (ii) en vérifiant que :
\ n 1
{X = x} = x−
n∈ N∗
o
< X ≤ x (3.5)
n
En effet, le premier membre de (3.5) est clairement inclus dans le second. Ré-
ciproquement, si ω est un élément quelconque de cette intersection, pour tout
n ∈ N , x − 1/n < X(ω) ≤ x, donc en passant à la limite quand n tend vers
∗
Autrement dit, l’ensemble des valeurs possibles de X est X(Ω) = {x1, . . . , xn} et :
1 .
∀ k = 1, . . . , n, P (X = xk) = n
Par exemple le nombre de points indiqué par un dé suit la loi uniforme su
r
{1, 2, 3, 4, 5, 6}.
sont positifs et :
X n
Ckpk(1 − p)n−k = n
X n
Alors la variable aléatoire Sn = Xi suit la loi binomiale B(n, p).
i=1
Exemple 3.1 Dans une production totale de N objets dont M sont défectueux,
on prélève au hasard un échantillon de n objets (tirage sans remise). Soit X le
nombre aléatoire d’objets défectueux dans l’échantillon. Quelle est sa loi ?
C k n−k
N−M
□ 0 ≤ k ≤ M,
P (X = k) = ×C si
(3.6)
M
Cn
N
0 ≤ n − k ≤ N − M.
Définition 3.9 La loi définie par (3.6) s’appelle loi hypergéométrique de para-
mètres N, M et n. Notation : X ∼ H(N, M, n). Le paramètre N est l’effectif
de la population totale, M celui de la sous-population à laquelle on s’intéresse
et n la taille de l’échantillon observé.
Pour une taille d’échantillon n fixée, plus N et M sont grands, moins les
tirages sans remise diffèrent des tirages avec remise. Plus précisément, la loi
hypergéométrique converge vers la loi binomiale au sens suivant.
54 Ch. Suquet, Probabilités
3.3. Lois discrètes classiques
Théorème 3.10 On suppose que quand N tend vers +∞, M = M(N ) tend
vers +∞ en vérifiant la condition :
lim M
= p avec 0 < p < 1.
N→+∞ (3.7)
N
Alors, n restant fixé, la loi hypergéométrique H(N, M, n) converge vers la loi
binomiale B(n, p), ce qui signifie que si (XN )N≥1 est une suite de v.a. avec
XN ∼ H(N, M, n) et Y est une v.a. de loi binomiale B(n, p),alors :
∀ k = 0, 1, . . . , n, lim
N→+∞ P (XN = k) = P (Y = k), (3.8)
autrement dit :
∀k CkM × Cn−M
= 0, 1, . . . , n, lim n−k
= C k (1 − p) .(3.9)
k N
−k
N→+∞
Cn np N
(N − M )! n!(N − n)!
M! × (n − k)!
= k!(M − k)! N!
M! (N − M )! (N − n)!
= Ck × . (3.10)
(M − k)!
n
N!
Comme k est fixé et M tend vers +∞, la première fraction dans (3.10) est le
produit de k facteurs M, (M − 1), . . ., (M − k + 1) tous équivalents6 à M d’où :
M!
∼ M k, N → +∞. (3.11)
(M − k)!
Par le même argument avec n − k et N − M au lieu de k et M :
(N − M )!
Enfin :
(N − n)! 1
, N → +∞.(3.13)
∼ Nn
N!
En reportant ces équivalents dans (3.10), on voit que lorsque N tend vers +∞ :
M k k□ M □ k□ N − M □ n−k
pN ∼ Ck (N − M)n−k
n , (3.14)
= Cn
d’où : lim pN = Ckpk(1 − p)n−kN
.n N N
N→+∞
n
6Rappelons que deux suites (uN ) et (vN ) sont dites équivalentes lorsque uN = vN (1 + εN )
avec εN tendant vers 0 quand N tend vers +∞ (notation : uN ∼ vN ).
P (X ∈ N ) et P (X = +∞).
∗
P (X = k) = P (R ) × P (Rk) = (1 − p)k−1p.
c
i
i=1
Posons q = 1 − p et notons que q ∈ ]0, 1[. La décomposition de l’événement
{X ∈ N } en la réunion disjointe des {X = k} (k ∈ N ) nous donne par σ-
∗ ∗
additivité :
X X
P (X ∈ N ) = ∗
P (X = k) = qk−1p
k∈ N∗ k∈ N∗
X ql (l = k − 1)
= p l∈ N
1
= p = 1.
1−q
Ainsi avec probabilité 1, le premier succès apparaıt au bout d’un nombre fini
ˆ
Lorsque X suit une loi géométrique, les probabilités P (X > n) ont une expres-
sion particulièrement simple en fonction de q = 1 − p . Calculons les de deux
façons.
Première méthode : On calcule le reste d’une série géométrique :
X+∞ +∞
X
k−1
P (X > n) = q p= qlp
k=
n+1
l=n
+∞
X +∞ X
l−n n
= pqn q = pq qj
l=n
j=0
n
pq n .
= =q
1−q
Deuxième méthode : On se place dans la situation de l’exemple 3.2. L’événement
{X > n} se réalise si et seulement si les n premières épreuves donnent un échec.
n
{X > n} = ∩ Rc. i
i=1
En utilisant l’indépendance des Ri on en déduit :Y
c n
n P (R ) = q . i
i=1
P (X > n) =
3.3.6 Lois de Poisson
Définition 3.12 On dit que la variable aléatoire discrète X suit la loi de Pois-
son de paramètre λ > 0 si l’ensemble des valeurs possibles est X(Ω) = N et
e −λλk
∀k ∈ N, P (X = k) =
.
k!
Notation : X ∼ P(λ).
On sait (cf. cours d’analyse) que la fonction exponentielle a un développemen
t en série entière avec rayon de convergence infini. En particulier :
λk X
+∞
∀λ > 0, e λ
= k=0 .
k!
+∞
+∞
On a donc bien : λk
X X
P (X = k) = e−λ −λ λ
e = 1.
k=0 k
=e
=0
k!
alors :
k
λ , quand n → +∞.
∀k ∈ N, Ckpkn (1 − pn)n−k −→ e−λ
n
k!
Preuve : L’hypothèse (3.15) peut s’écrire sous la forme plus maniable : npn =
λun avec un tendant vers 1 quand n tend vers +∞. Ainsi pn = λun/n et
n!
Ckpkn (1 − pn)n−k =
(n − k)! 1 □ λ □ k □ λun □ .
n
k n−k
un 1 − (3.16)
Pour obtenir la limite de cette expressiok! n e n tendn vers +∞, k restant
n lorsqu
fixé, on remarque successivement que :
n! 1
lim
n→+∞ (n − k)! = 1, (3.17)
nk
□ λun n−k
lim 1− = e−λ. (3.19)
n→+∞ □
Pour justifier (3.19), on écrit :
n
□ λun □n−k h □ λu □i
1− = exp (n − k) ln 1 − n , (3.20)
n n
puis comme λun/n tend vers 0 :
□ λu □ □ λun □
(n − k) ln 1 − n ∼n − ∼ −λ, (n → +∞).
n n
Par continuité de la fonction exponentielle, la limite du second membre de (3.20)
est donc bien e−λ, ce qui prouve (3.19). On obtient alors la conclusion du théo-
rème en passant à la limite dans (3.16).
Application pratique : Le théorème 3.13 sert de justification théorique à la règle
pratique suivante : lorsque n est « grand » et np « petit », on peut remplacer la
loi binomiale B(n, p) par la loi de Poisson P(λ) où λ = np. En général on consi-
dère que n de l’ordre de quelques centaines et np de l’ordre de quelques unit´
es
donnent une bonne approximation. Sous cette forme, cette règle relève plus
de
la cuisine que des mathématiques. Il est possible par des techniques élémentaire
s
(voir exercice 3.19) de contrôler l’erreur commise en utilisant cette approxima-
tion. Nous nous contenterons ici d’un exemple classique et d’une comparais
on graphique pour illustrer la qualité de cette approximation.
58 Ch. Suquet, Probabilités
3.3. Lois discrètes classiques
Exemple 3.3 Le président d’un bureau de vote est né un 1 r avril. Il décide de
e
noter le nombre X de personnes ayant leur anniversaire le même jour que lui
parmi les 500 premiers électeurs qui se présentent.
La situation peut être assimilée à une suite d’épreuves répétées indépen-
dantes et X est une variable aléatoire suivant la loi binomiale de paramètres
n = 500 et p = 1/365 (en négligeant la question des années bissextiles sinon on
prendrait p = 4/(3 × 365 + 366), ce qui ne changerait pas grand chose numéri-
quement). Ainsi :
□ 1 □k□ 364□500−k
P (X = k) = Ck .
500
365 365
La règle énoncée ci-
dessus nous conduit à approximer la loi de X par une loi de
Poisson de paramètre : .
365
Voici une comparaison numériqu 1
λ = enppou r le0s×petites
= 50 valeurs de k :
k 0 1 2 3 4 5
P (X = k) 0.2537 0.3484 0.2388 0.1089 0.0372 0.0101
0.2541 0.3481 0.2385 0.1089 0.0373 0.0102
e−λλk
k!
0.2663
0.2130
0.1598
0.1065
0.0533
0.0000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0.255
0.204
0.153
0.102
0.051
0.000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0.249
0.199
0.150
0.100
0.050
0.000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0.247
0.197
0.148
0.099
0.049
0.000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
r −p −→ 0, quand n → +∞.
(c) εn = n pnn
D’après (c), rn/pn converge vers 1, d’où limn→+∞ npn = λ.
Cherchons maintenant la probabilité d’avoir exactement l observations dans
[0, 1[. Cette probabilité peut se décomposer en :
□
An = l observations avec au plus une dans chaque In,k ,
□
Bn = l observations avec au moins un In,k en contenant plusieurs .
Calcul de P (An) : Notons
n hi i + 1 h o
Di = exactement une observation dans , ,
n
n hi i + 1 h o
n
Pour trouver la limite de P (An) lorsque n tend vers l’infini, l restant fixé, il
suffit d’adapter la preuve du théorème 3.13 : ici nous avons à trouver la limite
de (1 − rn)n−l au lieu de (1 − pn)n−l. Or
Par conséquent
□ n h k k + 1 h o□
n−1
P (Bn) ≤ P ∪
au moins deux observations dans ,
k=0
X n n
n−1(rn − pn) = n(rn − pn) = npnεn.
≤
k=0
D’après (c) et la convergence de npn vers λ, npnεn tend vers 0 quand n tend
vers +∞. Il en est donc de même pour P (Bn).
Pour conclure, on remarque que (3.22) est vérifiée pour tout entier n ≥ 1 et
que le premier membre de cette égalité ne dépend pas de n. Cette égalité rest
e donc vraie à la limite :
P (l observations dans [0, 1[) = lim −λλl
,
l!
d’après (3.23) et la majoration de P (Bn). Ce résultat étant valable pour tout
entier l, nous avons donc démontré :
Théorème 3.14 Soit un phénomène donnant lieu à des observations aléatoires
vérifiant les hypothèses :
(a) Les observations dans des intervalles de temps disjoints sont indépe
n-
dantes ;
(b) Pour tout réel t tel que 0 ≤ t < t + T ≤ 1 la loi du nombre (aléatoire)
d’observations dans l’intervalle [t, t + T [ ne dépend que de la durée T d
e
cet intervalle.
(c) En notant pn la probabilité d’avoir exactement une observation dans un
intervalle de temps de durée 1/n et rn celle d’en avoir au moins une,
r −p −→ 0, quand n → +∞.
εn = n pnn
Alors le nombre aléatoire d’observations dans l’intervalle [0, 1[ suit la loi de
Poisson de paramètre λ défini par
λ = − ln(1 − r1).
Remarque : L’examen attentif de la démonstration ci-dessus montre que la struc-
ture d’ordre de l’intervalle [0, 1[ n’y joue aucun rôle. L’important est la possibi-
lité de réaliser une partition de [0, 1[ en intervalles de même longueur tendant
vers 0. Par conséquent en rempla¸
cant la longueur par l’aire ou le volume, il est
possible d’obtenir une version spatiale en dimension 2 ou 3 du théorème 3.14.
Ceci permet de comprendre pourquoi la loi de Poisson fournit une bonne mo-
délisation par exemple du nombre d’erreurs typographiques dans une page im
- primée, du nombre d’impacts de météorites sur un territoire donné, du nombre
d’accidents sur une portion d’autoroute pendant une période donnée, du nombre
de raisins dans une portion de cake, du nombre d’étoiles dans une région d
e l’univers, . . .
64 Ch. Suquet, Probabilités
3.4. Exercices
3.4 Exercices
Ex 3.1. La propriété d’absence de mémoire
1) Montrer que si X est une v. a. de loi géométrique, elle vérifie la propriété
d’absence de mémoire suivante :
Ex 3.2.
1) Proposer des formules permettant de simplifier les expressions :
X X
F (x, y) = C kx kyn− k,
2
n
2 2
G(x, y) = C k+1x k+1yn− k−1.
2 2 2
0≤2k≤n 0<2k+1≤n
n
2) Soit X une variable aléatoire suivant la loi binomiale B(n, p). Calculer :
P (X pair).
P (S = i, U = m) = P (S = i, T = m − i, V = 40 − m).
P (T = k) = (k − 1)p2qk−2, k ≥ 2.
∀k ∈ N, P (X = k) = Ck+k−1pnqk,
n
on définitune loi de probabilité sur N. Cette loi s’appelle loi binomiale négative
de paramètres n et p.
3) On considère une urne contenant n1 boules vertes et n2 boules rouges
.
On note p = n1/(n1 + n2). On effectue des tirages avec remise d’une boule dans
l’urne jusqu’à l’obtention de la n-
ième boule verte. Soit Y la variable aléatoire
égale au nombre de boules rouges ainsi tirées. Quelle est la loi de Y ?
Ex 3.9. On jette deux dés dont l’un est équilibré, l’autre est truqué de façon
inconnue. On note X, Y les nombres de points indiqués respectivement par l
e
dé équilibré et le dé truqué. La variable aléatoire X suit ainsi la loi uniforme
sur {1, . . . , 6}, tandis que la loi de Y nous est inconnue : on sait seulement que
l’ensemble des valeurs possibles de Y est {1, . . . , 6}, mais on ignore les valeur
s des P (Y = j) pour j ∈ {1, . . . , 6}. On suppose que le truquage n’affecte pas l’in-
dépendance des deux dés. On note R la variable aléatoire égale au représentant
dans {0, . . . , 5} de la classe d’équivalence de X + Y modulo 6.
pas divisible par 10, nous dirons que l’on a la forme réduite (pour l’exemp
le
précédent, k = 375 et n = 3). Nous construisons X par la procédure suivante.
On dispose de deux urnes. La première contient des boules rouges et de
s
vertes. On note p la proportion de boules rouges (0 < p < 1) et q celle de
s
vertes. La deuxième urne contient 10 boules numérotées de 0 à 9. On effectu
e
des tirages avec remise dans la première urne jusqu’à la première apparitio
n
d’une rouge. On note N le nombre (aléatoire) de tirages nécessaires. Une foi
s
connue la valeur de N, on effectue N tirages avec remise d’une boule da
ns la deuxième urne. En notant Yj le chiffre sorti lors du j-
ème tirage dans la deuxième urne (i ≤ N), on forme le nombre décimal :
. X
N(ω) 10
j
(ω) = 0, Y1(ω)Y2(ω) . . . YN( )(ω) =
ω
X
Yj(ω)
j=1
1) Quelle est la loi de N ?
2) Soit n fixé. Lorsque l’on effectue n tirages dans la deuxième urne, quell
e
est la probabilité d’obtenir une suite de n chiffres décimaux choisie à l’avance ?
9
mais presque. . .
[10 jd] + 1
∀d ∈ D, P (X ≤ d | N = j) = .
10j
b(k, n, p) = Ckpkqn−k
n pour 0 ≤ k ≤ n,
k et n étant entiers. Ainsi b(k, n, p) est la probabilité qu’une variable binomiale
de paramètres n et p prenne la valeur k.
1) Vérifier que pour k ≥ 1, on a :
b(k, n, p)
=1+ (n + 1)p − k
b(k − 1, n, p) .
kq
10Cet
exercice est purement analytique. Il permet de démontrer un résultat important qui
sera utilisé lors de la preuve du théorème de De Moivre Laplace.
1
b(m, n, p) ∼ √ , (n → +∞). (3.27)
2πnpq
1 C
∀n ≥ n0, b(m, n, p) =√ (1 + εn) avec |εn| ≤ .(3.28)
2πnpq
npq
Ex 3.17. Que pensez vous de l’affirmation suivante : « Si on lance un grand
nombre (pair) de fois une pièce équilibrée, il y a une forte probabilité d’obtenir
exactement autant de piles que de faces » ?
2) En déduire que :
2) En déduire que si 0 ≤ k ≤ n,
n k k−1
Ck = Y□ j □ n
k
□ (k − 1)k □
1− ≤ exp −
n
k! .
j=1
n k! 2n
3) En déduire que si n ≥ 2 et 0 ≤ k ≤ n :
e −λλk
b(k, n, p) ≤ □k □
exp (2λ + 1 − k) .
k! 2n
En particulier :
−λλk
.
k!
En combinant cette inégalité avec le résultat de l’exercice 3.18, on en déduit la
majoration suivante de la queue de la loi binomiale :
Xn e−λλk
∀k ≥ 2λ + 1, b(j, n, p) ≤ .(3.30)
k!
j=
k+1
11La
« queue » de la loi d’une v.a. X est la fonction t 7→ P (X > t).
72 Ch. Suquet, Probabilités
3.4. Exercices
4.1 Introduction
Il est clair que ces deux variables suffisent à décrire complètement l’expérience
puisque la composition de l’échantillon est déterminée par les valeurs de X
et Y : le nombre de rouges étant (3 − X − Y ). L’espace probabilisé associé
naturellement à cette expérience est l’ensemble de tous les échantillons possible
s (il y en a C3 = 35) muni de l’équiprobabilité. Les valeurs possibles du couple
7
aléatoire (X, Y ) sont dans l’ensemble {0, 1, 2} × {0, 1, 2, 3}. Les probabilités
d’observation de ces valeurs P (X = i, Y = j) se calculent facilement en faisant
du dénombrement.
75
Chapitre 4. Vecteurs aléatoires discrets
↓ i\j → 0 1 2 3 P (X = i)
0 0 3
6 1 10
35 35 35 35
1 2
12 6 20
35
2 35 35
35
0
2
5
3 35
35
5
318
012 0
P (Y = j) 4
35 35 35 1 1
35
2 2 3 1
P (X > Y ) = + + = ,
35 35 3512 5
12
P (X = Y ) = 0 + + 0 = 35 ,
35
2 3 1
P (2 rouges) = P (X + Y = 1) = + = .
35 35 7
Définition 4.2 De même si X1, . . . , Xm sont des v.a. discrètes sur le même
(Ω, F, P ), on définit le vecteur aléatoire (X1, . . . , Xm) comme l’application :
Ω → Rm, ω 7→
Définition 4.3 La loi PX,Y du couple (X, Y ) est la probabilité définie sur l’en-
semble des parties de R2 par :
∀ B ⊂ R2, PX,Y (B) = P
Dans la suite les ensembles de valeurs possibles pour les v.a. marginales X
et Y seront notés :
X(Ω) = {x0, x1, . . . , xi, . . .} et Y (Ω) = {y0, y1, . . . , yj, . . .}.
Il est facile de voir que la loi du couple (X, Y ) est caractérisée par les probabilités
PX,Y
Preuve : Il suffit de faire la vérification pour (4.1), celle de (4.2) est analogue en
échangeant les rˆoles de X et Y . Pour i fixé, l’événement {X = xi} est la réunion
de la famille dénombrable d’événements 2 à 2 disjoints {X = xi, Y = yj} (pour
tous les j tels que yj ∈ Y (Ω)). La relation (4.1) s’en déduit par σ-additivité.
Remarque : La connaissance de la loi du couple (X, Y ) permet de calculer
les lois marginales. Il importe de bien comprendre que la réciproque est fauss
e. Il n’est généralement pas possible de calculer la loi PX,Y du couple aléatoire
(X, Y ) à partir de la seule connaissance de ses lois marginales PX et PY . Voici
un exemple élémentaire de deux couples aléatoires ayant mêmes lois marginale
s sans avoir même loi (voir aussi l’exercice 4.1).
Exemple 4.2 On jette un dé bleu et un rouge. On note X les points indiqués
par le dé bleu, Y ceux du dé rouge et on pose Z = 7 − X. Alors les couples
aléatoires (X, Y ) et (X, Z) ont mêmes lois marginales mais pas même loi.
En effet il est clair que X, Y et Z suivent chacune la loi uniforme sur
{1, 2, 3, 4, 5, 6}. Les lois des couples sont données par les tableaux suivants
1 2 3 4 5 6
1 1 2 3 4 5 6
1 1 1 1 1 1
36 36 36 36 36
36
1 0 0 0 0 0 16
2 1
1 1 1 1 1
1 36 36 36 36 36
3 1
36
1 1 1 1 1
2 0 0 0 0 16 0
36 36 36 36 36
4 36 1 1 1 1 1
1
1
3 0 0 0 16 0 0
5 36 361 361 361 361 361 4 0 0 16 0 0 0
6 36 36 36 36 36 36
1 1 1 1 1 5 0 16 0 0 0 0
36 36 36 36 36
36 6 1
6 0 0 0 0 0
∀A ⊂ R, ∀ B ⊂ R P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B),(4.3)
Dans une suite d’épreuves répétées indépendantes, si pour tout i ≥ 1, Xi est une
variable aléatoire dont la valeur ne dépend que du résultat de la i-ème épreuve
(par exemple points obtenus lors du i-ème lancer d’un dé), la suite (Xi)i≥1 est
indépendante.
Pour vérifier l’indépendance de deux variables aléatoires discrètes, on dispos
e du critère calculatoire suivant :
X
=
P (X = xi)P (Y = yj)
(xi,yj)∈ A×B
X X
= P (X = xi) P (Y = yj) (4.5)
xi∈ A yj∈ B
= P (X ∈ A)P (Y ∈ B).
Dans (4.5) nous avons utilisé les propriétés des séries à termes positifs (somm
a- tion par paquets, produit de deux séries).
Remarque : Si l’on connaıt la loi de X et celle de Y et si l’on sait que X et Y
ˆ
en regroupant dans la même classe tous les éléments de X(Ω) ayant même image par f et en
choisissa
1On nent un seulereprése
suppos pas f ntant dans
injective, onchaque classe
peut donc . sComme
trè X(Ω)
bien avoir est infini
X(Ω) au plus dénom
dénom brable,
brable et
ilf en est de même pour D ⊂ X(Ω).
X
∀n ∈ N, P (X + Y = n) = P (X = i)P (Y = j)
i+j=n
X n
= P (X = i)P (Y = n − i).
i=0
e e−ββj
P (X = i) = −ααi
.
, P (Y = j) = j!
i!
Comme X et Y sont indépendantes :
n
X X
n P (X = i)P (Y = n − i) =
e−ααi e−ββn−i
i=0 i
P (S = n) = i! (n − i)!
=0
X n
e −(α+β) n! Cni αiβn−i
= −(α+β) (α + β) n
i=0 .
n!
Ainsi S suit la loi de Poisson de paramètre λ = α + β.
4.4 Exercices
Ex 4.1. On jette un dé bleu et un rouge. On note X les points indiqués par le
dé bleu, Y ceux du dé rouge et on définit la variable aléatoire Z de la manière
suivante :
X(ω) si X(ω) ≤ 3,
Y (ω) si X(ω) > 3 et Y (ω) > 3,
Z(ω) =
Y (ω) + 3 si X(ω) > 3 et Y (ω) ≤ 3.
Déterminer les lois des couples (X, Y ) et (X, Z). Vérifier que ces couples ont
mêmes lois marginales mais pas même loi.
celle d’un « quatre » et Ck celle d’aucun de ces deux chiffres. Exprimer à l’aide
d’évènements de ces types, l’évènement {X = i, Y = j}. En déduire la loi du
couple (X, Y ).
3) Donner sans calcul (mais en justifiant votre réponse) les valeurs de
P (X < Y ) et P (X > Y ).
4) On définit la variable aléatoire Z = 3X 4Y . Quelle est la probabilité que
Z soit une puissance de 36 ?
Ex 4.5. On considère une suite d’épreuves répétées indépendantes. On note
Si l’événement succès à la i-ème épreuve et on pose p = P (Si), q = 1 − p. On
définit les variables aléatoires X1 et X2 par : X1 est le numéro de l’épreuve où
apparaıt le premier succès, X1 + X2 est le numéro d’apparition du deuxième
ˆ
succès.
1) Pour j et k dans N , exprimer l’événement {X1 = j, X2 = k} à l’aide
∗
des Si. En déduire la loi de (X1, X2) puis celle de X2. Vérifier que X1 et X2 sont
indépendantes.
2) Calculer P (X1 = k | X1 + X2 = n) pour k = 1, . . . , n − 1. Commenter
le résultat.
Ex 4.6. ↑ 3.7
1) On considère une suite d’épreuves de Bernoulli indépendantes avec po
ur
chacune même probabilité de succès p. Soit Y le nombre aléatoire d’épreuve
s
avant le premier succès (si celui ci se produit lors de la première épreuve, Y = 0).
Quelle est la loi de Y , celle de Y + 1 ?
2) Donner une formule générale permettant de calculer la loi de
n X
T = Yi,
n
i=1
où les i sont des v.a. indépendantes de même loi que Y
.
3) Cette formule fait intervenir la quantité :
X 1 = Card {(i1, . . . , in) ∈ Nn, i1 + · · · + in = k},
Nn,k =
i1+···+in=k
dénombrer ces dispositions, il est commode d’employer le codage suivant qui uti-
lise deux caractères : | et ∗ . Le premier sert à délimiter les boites, le deuxième
représente l’un des objets. Par exemple si n = 5 et k = 7, la disposition com-
prenant deux objets dans la première boite, trois dans la deuxième, aucun dan
s
la troisième, un dans la quatrième et un dans la cinquième est représentée par :
| ∗ ∗ | ∗ ∗ ∗ || ∗ | ∗ |
Ex 4.9. On considère que le nombre de lapins (des deux sexes) engendrés par
une lapine issue d’un élevage de laboratoire est une variable aléatoire S dont l
a loi est donnée par
P (S = n) = pqn, n ∈ N.
1) Quelle(s) relation(s) doivent vérifier les paramètres p et q pour qu’il
s’agisse bien d’une loi de probabilité (attention, ce n’est pas exactement une loi
géométrique).
Ch. Suquet, Probabilités 83
Chapitre 4. Vecteurs aléatoires discrets
2)Jane est une lapine issue de cet élevage. Quelle est la probabilité qu’elle
n’engendre aucun lapin ? Qu’elle en engendre au moins 20 ?
3) Soit X le nombre de lapins femelles et Y le nombre de lapins mâle
s engendrés par Jane ( S = X + Y ). On suppose que la loi de X est telle que :
P (X = k | S = n) = Ckakbn−k 0 ≤ k ≤ n.
n
P (X = i et Y = j | S = n)
selon que n = i+j ou n 6= i+j. En déduire P (X = i, Y = j). Les deux variables
aléatoires X et Y sont elles indépendantes ?
X 5
Z= Xℓ.
ℓ=1
84 Ch. Suquet, Probabilités
4.4. Exercices
Calculer P (Z = 0).
4) Application : Un match de coupe entre deux équipes de football s’étant
terminé sur un score nul, l’équipe qualifiée est désignée par la séance des penal-
tys. Un joueur de l’équipe A tire un penalty face au gardien de l’équipe B, puis
un joueur de l’équipe B tire un penalty face à celui de l’équipe A et ainsi de suite
jusqu’`a ce que chaque équipe ait tiré 5 penaltys. On admet que la probabilité
de réussir un penalty est dans chaque cas de 0, 7 et que tous les tirs sont in-
dépendants. Calculer la probabilité que les deux équipes soient encore à égalit´
e
après avoir tiré chacune ses 5 penaltys. Calculer la probabilité de qualification
de A au bout de ses 5 penaltys.
Ex 4.11. La loi multinomiale
1) Montrer que le nombre N de fa¸ cons de répartir une population de n
individus en k groupes d’effectifs respectifs n1, . . . , nk où n1 + · · · + nk = n est :
n!
N=
n1! . . . nk!
2) En déduire la formule du multinôme : ∀ (a1, . . . , ak) ∈ Rk :
X n! n n k .
a 1 ...a
1 k
(a1 + · · · + ak)n =
n1! . . . nk!
Indication : Considérer le premiernmem
+···+n =n
bre comme un produit de n facteurs et
1 k
0 si n1 + · · · + n k 6= n,
P ({(n1, . . . , nk)}) = n! n1 nk
p 1 . . . pk si n1 + · · · + nk = n.
n1!...nk!
b) Sk = X1 + · · · + Xk (k ≥ 2) ;
c) V nombre de vagues nécessaires à l’obtention de tous les correspondants ;
d) Y nombre d’appels nécessaires à l’obtention d’un correspondant donné ;
e) T nombre total d’appels nécessaires à l’obtention de tous les correspondants
.
Indications : On fera une hypothèse raisonnable d’indépendance entre les cor
- respondants. Pour k ≥ 2, on notera Ei,l l’événement le ie correspondant est
contacté lors de la le vague d’appels (1 ≤ i ≤ n, 1 ≤ l ≤ k − 1) et par Fi,k l’évé-
nement le ie correspondant n’est pas contacté lors des k − 1 premières vagues
d’appels. Pour k fixé, on peut alors considérer une série de n épreuves répétées
indépendantes de résultats possibles (E1, . . . , Ek−1, Fk) et utiliser l’exercice 4.11
pour trouver la loi de (X1, . . . , Xk−1, Rk) avec Rk = n − Sk−1.
86 Ch. Suquet, Probabilités
Chapitre 5
Moments des variables aléatoires
discrètes
5.1 Espérance
Définition 5.1 Soit X une variable aléatoire discrète vérifiant :
X |xk|P (X = xk) < +∞. (5.1)
xk∈ X(Ω)
e
X pondérées par leurs probabilités de réalisation. Notons que l’hypothèse (5.1)
garantit l’existence de IE X (convergence absolue de la série (5.2)). Remarquons
aussi que l’espérance ne dépend que de la loi de X. Voici quelques calculs d’e
s- pérances de lois classiques.
Exemple 5.1 (v.a. constante)
Si X est constante (∃ c ∈ R, ∀ ω ∈ Ω, X(ω) = c), son espérance est IE X = c.
Preuve : C’est une conséquence immédiate de la formule (5.2).
En effet :
IE X = 0 × P (X = 0) + 1 × P (X = 1) = 0 × q + 1 × p.
X
1 xi.
IE X = xiP (X = xi) =
i=1
n i=1
positifs :
+∞
X
+∞
X
kP (X = k) = kqk−1p
k=1 k
=1
k−1
+∞ kq p = p
□ d □
k=1 k
IE X = k (5.4)
(x )
=1
dx
x=q
" 1 +∞ 1 #
= p d □ 2 = □ .(5.6)
= p (1 − q) xk p
X
(5.5)
dx k=1
x=q
88 Ch. Suquet, Probabilités
5.1. Espérance
xk = xk = dx 1 1
dx k=1 dx k=0 = ,
1−x (1 − x)2
ce qui justifie (5.6).
+∞ λ
l
e−λλk
X X
X
+∞ kP (X = k) =
= λe −λ
IE X = k=0 k (k − 1)! l=0 = λ.
l!
=1
Remarques :
1. Si X et Y ont même loi, il est clair que IE X = IE Y . La réciproque est
fausse. Voici un contre exemple. On choisit X suivant la loi uniforme sur
{−1, +1} et Y suivant la loi uniforme sur {−2, 0, +2}. Les lois PX et PY
2. Il y a des lois sans espérance. Par exemple celle définie sur N∗ par :
c +∞
P (X = k) = X
1 6
, avec c 2 = 1 soit c = .
k 2
k π2
k=1
la sommation étant étendue à tous les couples (xi, yj) de X(Ω) × Y (Ω) vérifiant
la condition xi + yj = zk. Pour alléger les écritures, dans les formules suivantes,
nous abrégeons l’indexation par xi ∈ X(Ω) en indexation par i et de même pour
Y , j et Z, k.
X
IE Z = zkP (Z = zk) (5.10)
k
X X
= zk P (X = xi, Y = yj)
k xi+yj=zk
X
X
= (xi + yj)P (X = xi, Y = yj) (5.11)
k xi+yj=zk
X
= (xi + yj)P (X = xi, Y = yj) (5.12)
i,j
X X X X
= xiP (X = xi, Y = yj) + yjP (X = xi, Y = yj)(5.13)
i j " # i j
X X
= P (X = xi, Y = y"j)
xi #
i j
X X
+ yj P (X = xi, Y = yj) (5.14)
j
yjP (Y i = yj) (5.15)
Xi X j
= xiP (X = xi) +
= IE X + IE Y. (5.16)
X n
S= Xi,
i=1
où les Xi sont des variables de Bernoulli indépendantes de paramètre p. Comm
e
l’espérance d’une v. a. ne dépend que de sa loi, IE X = IE S et par linéarité de
l’espérance : IE X = IE ! n
X X
n Xi =
i=1 i IE Xi = np,
=1
Ainsi les Xi ont même loi et même espérance IE Xi = n/N. Par linéarité on en
déduit :
M
X
n
IE X = IE Xi =M .
N
i=1
Remarquons que le résultat obtenu est le même que pour un prélèvement de n
objets avec remise : dans ce cas, le nombre Y d’objets défectueux dans l’échan
- tillon suit la loi binomiale B(n, M/N) et IE Y = nM/N.
IE Y = 2P (Y = 2) + 14P (Y = 14).
X
+2 X
L’intérêt
de cette formule est qu’elle permet un calcul direct de IE f (X) à partir
de la loi de X, sans passer par la loi de Y .
X
yP (Y = y) = y P (X = x) (5.19)
x∈ B y
X f (x)P (X = x) (5.20)
= x∈ B y
La série (5.20) est absolument convergente car f étant constante sur By, tous ses
termes sont de même signe et la série à termes positifs (5.19) est convergente.
Comme les By forment une partition de X(Ω), on a en utilisant la propriété de
sommation par paquets des séries à termes positifs :
X X
X
|f (x)|P (X = x) = |f (x)|P (X = x)
xX(Ω) y∈ Y (Ω) ∈
x By
X
y∈ Y (Ω)
=
d’après l’hypothèse d’existence de IE Y . Ceci légitime la même sommation san
s les valeurs absolues, laquelle prouve (5.17).
Remarque : En appliquant la proposition 5.3 avec f (x) = |x|, on obtient :
X
IE |X| = |xk|P (X = xk).
x ∈ X(Ω)
Ceci est exactement la série (5.1) dont la convergence garantit l’existence de
k
IE X. On en déduit :
Pour terminer cette section, nous donnons une condition suffisante d’exis
-
tence de l’espérance. La démonstration pourra être passée en première lecture.
Proposition 5.6 Si Z est une v.a. discrète ayant une espérance et si pour tout
ω ∈ Ω, |X(ω)| ≤ |Z(ω)|, alors X possède une espérance.
Preuve : Cet énoncé fait penser à la propriété suivante des séries : si pour
tout k ∈ N, |uk| ≤ |vk| et si vk est le terme général d’une série absolument
convergente, alors la série de terme général uk est aussi absolument convergente.
Malheureusement, la situation est ici plus compliquée pour la raison suivante. Il
peut y avoir plusieurs valeurs différentes1 zl de Z(ω) lorsque ω décrit l’événement
fixé {X = xk}. Tout ce que l’on peut en dire est qu’elles vérifient toutes |zl| ≥
|xk|. S’il n’y avait qu’une seule valeur zl = zk commune à tous les Z(ω) pour
ω ∈ {X = xk}, on serait ramené à l’énoncé sur les séries en posant uk =
xkP (X = xk) et vk = zkP (Z = zk).
Le point clé de la démonstration est la remarque suivante :
X
P (X = xk) = P (X = xk, Z = zl)
z ∈ Z(Ω)
l
X
=
P (X = xk, Z = zl). (5.21)
zl∈ Z(Ω)
|zl|≥|xk|
Par hypothèse, la série de terme général positif |zl|P (Z = zl) a une somme
finie et nous voulons montrer qu’il en est de même pour la série de terme général
|xk|P (X = xk). Le calcul qui suit est légitimé par les propriétés des séries à
termes positifs (dont les sommes ne sont pas nécessairement finies a priori) :
X X X
|xk|P (X = xk) = |xk|
x ∈ X(Ω) z ∈ Z(Ω) P (X = xk, Z = zl)
l
xk∈ X(Ω) X X |z |≥|x |
k
l k
=
Z(Ω)
xk∈ X(Ω) zl∈
|zl|≥|xk|
X |xk|P (X = xk, Z = zl)
X
≤
Z(Ω)
xk∈ X(Ω) zl∈|zl|≥|xk|
X X |zl|P (X = xk, Z = zl)
≤ |zl|P (X = xk, Z = zl)
xk∈ X(Ω) zl∈
Z(Ω)
X X
= |zl|
zl∈ Z(Ω) xk∈ X(Ω)
X
= |zl|P (Z = zP < +∞,
l) (X = xk, Z = zl)
z ∈ Z(Ω)
d’après l’hypothèse d’existence de IE Z.
l
quantité
X xrk P (X = xk), (5.22)
IE(Xr) =
xk∈ X(Ω)
Lorsque X(Ω) est borné, (5.23) est vérifiée pour toute valeur de r (exercice)
et X possède des moments de tout ordre. Lorsque X(Ω) n’est pas borné, la
condition est d’autant plus contraignante que r est plus grand.
Proposition 5.8 Si X possède un moment d’ordre r, elle possède aussi des
moments de tout ordre n ≤ r.
IE X
∀t > 0, P (X ≥ t) ≤ . (5.24)
t
Corollaire 5.10 Si X est une variable aléatoire ayant un moment d’ordre r :
IE □
∀t > 0, P (|X| ≥ t) ≤ r
.(5.25)
tr
Preuve : Dans la série à termes positifs définissant IE X, on peut effectuer un
regroupement en deux paquets en classant les xk comparativement à t :
X
IE X =
x ∈ X(Ω)
xkP (X = xk)
k
X
= X xkP (X = xk).
xkP (X = xk) +
x : x ≥t
2Inversement, on peut construirek k x : x <t n’ayant pas d’espérance pour la-
une variable aléatoire k k
Comme X est positive, tous les termes du deuxième paquet sont positifs ou
nuls, par conséquent on obtient une minoration de IE X en les effaçant :
X
IE X ≥ xkP (X = xk)
x : x ≥tk k
X
≥ tP (X = xk) = tP (X ≥ t).
xk: xk≥t
5.3 Variance
Considérons un amphi de 100 étudiants venant de subir3 un D.S. où la
moyenne de l’amphi a été 10. On choisit un étudiant au hasard et on désigne
par X sa note ; X(Ω) est l’ensemble des notes (toutes différentes) attribuées à
ce D.S.. Comme tous les choix d’étudiants sont équiprobables, pour tout xk ∈
X(Ω),
∀a ∈ R, ∀ b ∈ R, Var(aX + b) = a2 Var X.
n n
X
1 X
1 n(n + 1) n+1
IE X = kP (X = k) = k= = .
k=1
n k=1 n 2 2
n X n
IE X2 =
X
2 1 k2
k P (X = k) =
k=1
n k=1
n Xi − n (Xi − IE Xi) =
Sn − IE Sn = i=1 i IE Xi = i=1 i Yi.
=1 =1
D’où : X n X
2
Var Sn = IE(Sn − IE Sn) = 2 IE Yi + IE(YiYj). (5.26)
i=1 1≤i,j≤n
i
6=j
D’après l’exemple 5.8, on sait que IE Yi2 = Var Xi = pq. D’autre part,
□ □
IE(YiYj) = IE (Xi − p)(Xj − p)
= IE(XiXj) − p IE Xj − p IE Xi + p2
= IE(XiXj) − p2.
Il reste donc à calculer les IE(XiXj) pour i 6= j. Comme les Xk ne peuvent
prendre que les valeurs 0 ou 1, il en est de même pour Zi,j = XiXj. C’est donc
une v.a. de Bernoulli de paramètre p′ donné par :
p′ = P (XiXj = 1) = P (Xi = 1, Xj = 1) = P (Xi = 1)P (Xj = 1) = p2,
en utilisant l’indépendance de Xi et Xj pour i 6= j. On en déduit IE(XiXj) =
p = p2 et IE(YiYj) = 0 pour i
′
6= j. En reportant ce résultat dans (5.26) il vient :
X n
2
IE Yi = npq.
Var X = Var Sn =
i=1
2e λ
X
e−λλk
IE X 2
= k = k
k=0
k! k=1
(k − 1)!
X
+∞
= e −λ
k=1 − 1)!
= λ2e−λ +∞ + λe
−λ
+∞
X
− 2)!
(kλk−2 X
− 1)!
(kλk−1
= λ2 + λ. k=2 k=1
∀u > 0, P
.(5.28)
u2
Sous cette forme, le majorant obtenu est indépendant de la loi de X. Ceci perme
t de comprendre pourquoi σ(X) s’appelle écart type ou unité d’écart. Pour toute
loi de probabilité ayant un moment d’ordre 2, la probabilité d’observer une
déviation par rapport à l’espérance d’au moins u unités d’écart est majorée par
u−2.
Ch. Suquet, Probabilités 101
Chapitre 5. Moments des v. a. discrètes
Exemple 5.13 On jette 3600 fois un dé. Minorer la probabilité que le nombre
d’apparitions du 1 soit compris strictement entre 480 et 720.
Notons S le nombre d’apparitions du 1. Cette variable aléatoire suit la loi bi-
nomiale B(3600, 1/6). La valeur exacte de la probabilité qui nous intéresse est :
719
□ 1 □k□ 5 □3600−k
X
480 < S < 720 ⇔−120 < S − 600 < +120 ⇔|S − 600| < 120.
d’où :
{550 < S < 700} ⊃ {550 < S < 650}
et d’appliquer l’inégalité de Tchebycheff avec t = 50. Bien sˆ ur le résultat obtenu
sera moins bon.
Exemple 5.14 Avec les notations de l’exemple précédent, proposer une valeur
de u telle que P (S ≥ u) ≤ 0.05.
Comme la v.a. S est bornée par 3600, la réponse n’a d’intérêt que pour u < 3600.
Une première idée est d’essayer l’inégalité de Markov qui s’écrit ici :
IE S 600
P (S ≥ u) ≤ = u .
u
Par cette inégalité, il suffirait de prendre u tel que 600/u ≤ 0.05. Malheureu-
sement, la plus petite solution de cette inéquation est u0 = 600/0.05 = 12000
et le résultat est sans intérêt. Pour utiliser l’inégalité de Tchebycheff, on com-
mence par remarquer que pour tout t positif, l’inégalité S − IE S ≥ t implique
|S − IE S| ≥ t, ce qui se traduit par l’inclusion d’événements :
{S − IE S ≥ t} ⊂ {|S − IE S| ≥ t}.
On en déduit :
500
P (S ≥ t + IE S) = P (S − IE S ≥ t) ≤ P (|S − IE S| ≥ t) ≤ .
t2
Il suffit alors de choisir la plus petite valeur de t telle que 500/t2 ≤ 0.05 soit
t1 = 100. La valeur correspondante pour u étant u1 = t1 + IE S = 700.
5.4 Covariance
Le but de cette section est le calcul de la variance d’une somme de variable
s
aléatoires. L’inégalité de Tchebycheff montre l’importance d’un tel calcul en
vue des théorèmes de convergence. Le calcul de la variance d’une loi binomial
eIE□(exempl
(Xi − IE e 5.10
Xi)(X
□
) illustre le rôle clé joué par des quantités comme IE(XiXj) et
j − IE Xj) . Nous allons généraliser l’étude de ces quantités.
t2 IE Y 2 + 2t IE(XY ) + IE X2 = IE(X + tY )2
estdéfini et positif. Ceci n’est possible que si son discriminant est négatif. Ceci
se traduit par :
Δ′ =
yj∈ Y (Ω)
X
= xiyjP (X = xi)P (Y = yj)
xi∈ X(Ω)
yj∈ Y (Ω)
X X
= xiP (X = xi) yjP (Y = yj)
xi∈ X(Ω) yj∈ Y (Ω)
= IE X IE Y.
Pour compléter la preuve, il reste à montrer que les hypothèses IE |X| < +∞
et IE |Y | < +∞ entraınent IE |XY | < +∞. En remplaçant les x et les y par
ˆ
□ □
= IE (X − IE X) + (Y − IE Y ) 2
□
= IE (X − IE X)2 + (Y −□ IE Y )2 □
X −−IE
= Var X + Var Y + 2+IE2((X X)(Y −−IE
IEX)(Y IEY
Y)) .
Remarquons5.19
Proposition que (Proprié
Cov(X, X)
tés=de
Varla
X.covariance)
Pour tout couple (X, Y ) de v.a. ayant des moments d’ordre 2 :
(i) Cov(X, Y ) = Cov(Y, X).
(ii) Pour tous réels a, b, c, d : Cov(aX + b, cY + d) = ac Cov(X, Y ).
(iii) | Cov(X, Y )| ≤ σ(X)σ(Y ).
(iv) Si X et Y sont indépendantes alors Cov(X, Y ) = 0 (réciproque fausse).
la réciproque est fausse, on peut utiliser le même contre exemple que pour la
réciproqu
Ch. e dProbabilités
Suquet, e la proposition 5.17. 105
Chapitre 5. Moments des v. a. discrètes
Cov(X, Y )
ρ(X, Y ) = .
σ(X)σ(Y )
Cov(X, Y ) = IE(XY ) − IE X IE Y.
□ X
n □ X
n
Preuve : Nous avons déjà rencontré le cas n = 2 pour lequel (5.32) s’écrit :
Yi i
=1 i,j=1
X
= YiYj
.
106 Ch. Suquet, Probabilités
5.5. Exercices
Var Xi = IE Xi − IE Xi
=1
i=1 i i=1
□ □
n
X n X 2
Xi −
= IE i=1 i
IE Xi
=1
□ X
n □2
= IE Yi
i=1
n n
X X
= IE(YiYj) = Cov(Xi, Xj).
i,j=1 i,j=1
□ X
n □ X
n
5.5 Exercices
Ex 5.1. Soit X une variable aléatoire discrète à valeurs dans N et d’espérance
finie.
1) Vérifier que
P (X > 0) ≤ IE X.
Donner un contre-exemple lorsque X n’est pas à valeurs entières.
Ex 5.2. Soit X une variable aléatoire discrète à valeurs dans N . Pour tout k ∈
∗
1) Démontrer l’inégalité :
2 IE X2 .(5.36)
∈ N , P (X = k) <
∀k ∗ k
Indication : Considérer la somme partielle de rang k de la série définissant IE X.
2) L’inégalité (5.36) reste-t-elle vraie sans l’hypothèse de décroissance de
(pk)k≥1 ?
3) Est-il possible qu’il existe une constante c > 0 et un entier k0 tels que :
c IE X
∀k ≥ k0, ?P (X = k) ≥ (5.37)
k2
Ex 5.3. On suppose que le couple de variables aléatoires discrètes (X, Y ) a
une loi donnée par :
α
∀ (i, j) ∈ N2, P (X = i, Y = j) = ,
(1 + i + j)!
où α est une constante strictement positive qui sera précisée ultérieurement.
1) Expliquer sans calcul pourquoi les marginales X et Y ont même loi.
2) On pose S = X + Y . Montrer que :
α
P (S = k) = k! .
∀k ∈ N,
3) En déduire la valeur de α et reconnaıtre la loi de S.ˆ
Ex 5.5. Dans une urne contenant au départ une boule verte et une rouge o
n
effectue une suite de tirages d’une boule selon la procédure suivante. Chaq
ue
fois que l’on tire une boule verte, on la remet dans l’urne en y rajoutant un
e
boule rouge. Si l’on tire une boule rouge, on arrête les tirages. On désigne pa
r
X le nombre de tirages effectués par cette procédure. On notera Vi (resp. Ri)
l’événement obtention d’une boule verte au i-ème tirage (resp. rouge).
1) Pour k ∈ N , donner une expression de l’événement {X = k} à l’aide
∗
´
Indication : Ecrire l’indicatrice de l’intersection des Ac comme un produit d’in- i
dicatrices. . .
Ex 5.8.
1) Soit Z une variable aléatoire de loi uniforme sur l’ensemble {1, 2, . . . , n}.
Calculer explicitement IE Z en fonction de n.
2) On considère l’expérience aléatoire suivante. On dispose au départ d’une
urne vide et d’autant de boules numérotées que l’on veut. Par un procédé quel-
conque, on génère une variable aléatoire X à valeurs dans N∗ (on suppose pou
r simplifier que P (X = n) > 0 pour tout n ∈ N ). Soit n la valeur effectivement
∗
Calculer kP (Y = k | X = n).
k=1
1
3) On suppose que X a une espérance. Montrer que IE Y = IE X + 1 .
2
Indication : Comme on ne connaıt pas la loi de Y , il est commode2de démarrer
ˆ
le calcul de la mani
+∞ X
ère suivante+∞:
+∞
X
kP (Y = k) = X
IE Y = k P (Y = k | X = n)P (X = n).
k=1 k
=1
n=1
4) Pour générer la variable aléatoire X, on effectue des lancers répétés d’un
même dé et on appelle X le nombre de lancers avant la deuxième obtention d’u
n
« six ». Par exemple si la deuxième apparition du « six » a lieu lors du 10ème
lancer, on prend X = 9. Déterminer la loi de X puis celle de Y .
Ex 5.9. Soit X une variable aléatoire à valeurs dans N et ayant une espérance.
1) Montrer que
lim
n→∞ nP (X ≥ n) = 0.
X +∞
IE X = P (X ≥ k).
k=1
4) La valeur de X est fournie par un générateur de nombres aléatoires.
Une fois connue effectivement cette valeur, disons n, on met dans une urn
e
n + 1 boules numérotées de 0 à n. On tire enfin une boule de cette urne et o
n
note Y son numéro. Discuter en fonction de k et n des valeurs de la probabilité
conditionnelle :
P (Y = k | X = n).
5) Le générateur est réglé de façon que X suive la loi de Poisson de para-
mètre λ. Trouver une relation simple entre P (Y = k) et P (X > k).
6) Expliquer comment la question 3) vous permet de contrôler ce résultat.
Le coˆ
ut annuel des sinistres est la variable aléatoire T définie par
X N
Xi, si N ≥ 1;
T = i=1
0, si N = 0.
P (T = k | N = n) = P (Sn = k).
3) Prouver que IE T = λµ. Indication : On pourra partir de la formule
X +∞
IE T = kP (T = k)
k=0
et
exprimer les P (T = k) en conditionnant par rapport aux valeurs possibles de
N.
X n
5) On pose Sn = Xi. Montrer que IE Sn converge en croissant vers 8, 4
i=1
lorsque n tend vers +∞ .
6) On note N le nombre aléatoire de lancers effectués selon la procédur
e ci-dessus. Calculer P (N ≥ n) et en déduire que P (N = +∞) = 0. On admet
alors que l’on peut remplacer Ω par Ω′ = {ω ∈ Ω; N(ω) < +∞}. C’est ce que
nous ferons désormais. On peut alors considérer N comme une variable aléatoir
e à valeurs dans N . Quelle est sa loi ?
∗
X +∞
S(ω) = Xi(ω).
i=1
Notons que puisque ω est dans Ω′, tous les termes de la série sont nuls à part
ir
du rang (aléatoire) N (ω) + 1, il n’y a donc pas de problème de convergence
.
S est le nombre total de points obtenus, sauf dans le cas où il y a une infinité
de lancers. Comme celui-ci a une probabilité nulle, le fait de le laisser tomber
n’affecte pas la loi du nombre total de points obtenus qui est donc celle de S.
Après avoir justifié l’inclusion :
{S = k} ⊂ {12N ≥ k},
valable pour tout k ∈ N, montrer que :
P (S = k) ≤ 36qk où q = 6− / .
1 12
En déduire l’existence de IE S.
8) On définit sur Ω′ la variable aléatoire Rn = S − Sn−1. Montrer qu’elle
vérifie :
Rn ≤ S1{S≥ n}. 2
Ex 5.13. Montrer qu’une variable aléatoire bornée (i.e. X(Ω) est une partie
bornée6 de R) a des moments de tout ordre.
Ex 5.14. Montrer qu’une loi de Poisson possède des moments de tout ordre. Si
X suit la loi P(λ), calculer IE(X − λ)3 et IE(X − λ)4.
6Pas
forcément finie !
Ch. Suquet, Probabilités 113
Chapitre 5. Moments des v. a. discrètes
Ex 5.15. Soit X une variable aléatoire. On suppose qu’il existe une constante
a > 0 telle que IE exp(aX) < +∞. Que peut-on dire de la vitesse de convergence
vers 0 de P (X > t) quand t tend vers +∞ ? Donner un exemple de v.a. non
bornée vérifiant cette condition pour tout a.
Ex 5.16. En s’inspirant des exemples 5.7 et 5.10, calculer la variance d’une loi
hypergéométrique.
Ex 5.17. ↑ 3.7, ↑ 4.6
Calculer l’espérance et la variance d’une loi binomiale négative de paramètre
s n et p.
σ 2
∀t >0 P (X − m ≥ t) ≤ .
σ2 + t2
1) Vérifier que l’on peut se ramener au cas m = 0.
2) Montrer que pour tout u ≥ 0 :
2 + u2
.
(t + u)2
Ex 5.21.
1) Donner un exemple très simple de couple (X, Y ) de v.a. non indépen
-
dantes pour lequel on a IE(XY ) 6= IE X IE Y .
2) Donner un exemple de couple (X, Y ) de v.a. tel que le produit XY ait
une espérance sans que X ni Y n’aient de moment d’ordre 2.
n
7Il
n’est pas nécessaire de connaı̂tre la loi multinomiale (exercice 4.11) pour pouvoir faire
cet exercice.
1) Justifier la relation : X
n
f (x) = Ckf (x)xk(1 − x)n−k.
n
k=0
2) Pour x ∈ [0, 1] fixé, considérons la variable aléatoire Sn de loi binomiale
B(n, x). Vérifier que :
□S □
IE f n
= Bnf (x).
n
3) Justifier les inégalités :
X εCkxk(1 − x)n−k
|f (x) − Bnf (x)| ≤
n
k:|f(x)−f(k/n)|<ε
X 2kf k∞Ckxk(1 − x)n−k
+
n
□□
k:|f(x)−f(k/n)|≥ε □S
≤ ε + 2kf k∞P f (x) − f n
□ □□
≥ε . (5.38)
4) La fonction f est uniformément continue sur [0, 1n] (pourquoi ?). On a
donc :
∀ε > 0, ∃ δ > 0, tel que |x − y| < δ ⇒ |f (x) − f (y)| < ε,
δ ne dépendant que de f et ε, mais pas de x. En déduire que
□□ □ S □□ □
P f (x) − f n ≥ ε ≤ P (|Sn − nx| ≥ nδ),
n
puis en appliquant l’inégalité de Tchebycheff :
□□ □ S □□ □ x(1 − x) 1
P f (x) − f n ≥ε ≤ ≤ .
n nδ2 4nδ2
5) En reportant cette majoration dans (5.38), on obtient finalement :
kf k∞
∀n ≥ 1, ∀ x ∈ [0, 1], |f (x) − Bnf (x)| ≤ ε + (5.39)
2δ2n
Conclure.
6) On s’intéresse maintenant à la vitesse de convergence. Supposons d’abord
que f est lipschitzienne : il existe une constante a telle que
∀ x, y ∈ [0, 1], |f (x) − f (y)| ≤ a|x − y|.
On peut alors prendre δ = ε/a dans l’écriture de la continuité uniforme de f .
En choisissant convenablement ε en fonction de n dans (5.39), en déduire que
kf − Bnf k∞ = O(n− /3). 1
la loi faible des grands nombres avec ses applications. La convergence presque ure sˆ et la loi
forte des grands nombres sont destinés aux lecteurs plus curieux ou plus avancés. Ils pourront
être considérés comme une introduction au cours de Licence. Néanmoins ils ont été rédigés
en n’utilisant que des outils mathématiques du DEUG.
2
Voir la discussion à propos de la loi forte des grands nombres pour les fréquences section
6.5.
117
Chapitre 6. Loi des grands nombres
∀ε > 0, lim
n→+∞ P (|Xn − X| ≥ ε) = 0.
→
Pr −
Notation : Xn −n→+∞ X.
X n
1 →
Pr −
Xi −n→+∞ IE X1.
n i=1
Preuve : Ici, la v.a. limite est la constante IE X1 (ou n’importe quel IE Xi,
puisque les Xi ayant même loi ont même espérance). Il s’agit donc de vérifier
que :
∀ ε > 0, lim □□ n □ □
n→+∞ 1 X
P Xi − IE X1 ≥ ε = 0.
n i=1
n
X
1 Xi. On a :
Posons Mn =
n i=1
1
IE Mn = n X
n IE Xi = IE X1.(6.1)
i=1
D’autre part, les Xi étant deux à deux indépendantes et de même loi on a
d’après la proposition 5.23 :
1 □ n □ 1
Var Mn =
X
1 (n Var X1) =
Var Xi = n 2 Var X1. (6.2)
n2 n
i=1
L’inégalité de Tchebycheff appliquée à chaque Mn nous dit que pour ε > 0 fixé :
Var Mn
∀n ∈ N, ∗
P (|Mn − IE Mn| ≥ ε) ≤ .
ε2
Pr →
−
n i=1 Xi − n→+∞p.
Preuve : Il suffit d’appliquer la loi faible des grands nombres en notant qu’ici
IE X1 = p.
Interprétation : Considérons une suite d’épreuves répétées indépendantes. Pour
chaque épreuve la probabilité d’un « succès » est p. Notons Xi l’indicatrice de
l’événement succès à la i-ème épreuve. Alors :
X n
Sn = Xi est le nombre de succès en n épreuves et Mn = n−1Sn est la
i=1
fr´
equence des succès au cours des n premières épreuves. Remarquons que pour
tout ω, 0 ≤ Mn(ω) ≤ 1.
sup x(1 − x) =
1
x∈ [0,1]
4
120 Ch. Suquet, Probabilités
6.3. Estimation d’une proportion inconnue
Var X1 1
P (|Mn − p| ≥ t) ≤ = (6.5)
nt2 4nt2
1 1
1− ≥ 0.95 ⇔t ≥ √ ≃ 0.0707.
4 000t2 10 2
En prenant t = 0.071, on obtient : I =]0.469, 0.611[. On remarque qu’une partie
de cet intervalle correspond à p < 1/2. Ainsi, bien que le sondage donne 54%
d’intentions de vote en faveur de A, l’inégalité (6.6) ne nous permet pas d
e pronostiquer sa victoire avec une probabilité d’erreur inférieure à 5%.
4Ceci est
une simplification volontaire permettant d’assimiler la situation à un tirage avec
remise : une même personne peut ainsi être interrogée plusieurs fois au cours du sondage. En
pratique les méthodes utilisées par les instituts de sondage pour sélectionner un échantillon
sont un peu plus compliquées. . .
Ch. Suquet, Probabilités 121
Chapitre 6. Loi des grands nombres
X n
p.s.
−−→ p.
Xi −n→+∞
i=1
+∞
X P (|M − p| ≥ ε) < +∞. (6.7)
n
n=1
Remarquons que l’inégalité de Tchebycheff est ici trop faible puisqu’elle nous
donne seulement une vitesse en O(n−1). En fait, on peut obtenir une vitesse de
convergence exponentielle grâce à l’inégalité suivante de Bernstein :
P (|Mn − p| ≥ ε) ≤ 2 exp(−2nε2).(6.8)
Nous admettons provisoirement cette inégalité dont une preuve est proposé
e
à l’exercice 6.7. A partir de maintenant, la démonstration se développe en 7
« pas » élémentaires.
1 r pas : On rappelle la traduction automatique des quantificateurs. Si I est un
e
\
{ω ∈ Ω, ∀ i ∈ I, ω vérifie (Pi)} = Ai
i∈ I
[
{ω ∈ Ω, ∃ i = i(ω) ∈ I, ω vérifie (Pi)} = Ai
i∈ I
Ainsi le quantificateur ∀ peut toujours se traduire par une intersection et le
quantificateur ∃ par une réunion.
2e pas : Considérons l’ensemble :
C = {ω ∈ Ω, lim
n→+∞ Mn(ω) = p}.
Remarquons au passage que, sous cette forme, il est clair que l’ensemble C
est en fait un événement, c’est-à-dire un membre de la famille F de parties
de Ω sur laquelle est définie la fonction d’ensemble P . En effet, Mn étant une
variable aléatoire, les {|Mn −p| < εj} sont des événements et C s’obtient par des
opérations ensemblistes dénombrables sur ces événements. Il est donc légitime
de parler de la probabilité de C. Nous allons montrer que P (C) = 1.
4e pas : Nous venons de passer d’une infinité non dénombrable de ε à une suit
e
(εj). Le lemme suivant va nous permettre de travailler avec une seule valeur de
ε.
Lemme 6.6 Si (Aj)j N est une suite d’événements ayant chacun une probabi-
∈
0≤P □ X P (Ac) = 0,
A ≤ . Nous avons utilisé ici la propriété
j
c
c ∈ N
puisque chaque P (A ) est nul par hypothèse j
j∈ N
7(c) de la proposition 1.2 pour majorer la probabilité d’une réunion dénombrable
d’événements (pas forcément disjoints).
Si l’on prouve que pour chaque ε > 0 fixé, P (Cε) = 1 où
[ \
Cε = {|Mn − p| < ε},
il suffira d’appliquer le lemme av ec≥kAj = Cε pour obtenir P (C) = 1.
k∈ N n
j
5 pas : Soit donc ε > 0 fixé. Pour montrer que Cε a une probabilité 1, on
e
∀k ∈ N, 0 ≤ P (B) ≤ P (Bk).(6.10)
Comme sous-
produit de la démonstration que nous venons d’achever, nous
avons montré au passage que la convergenc uree , eplus préciséme
n probabili nt e:c une vitesse
té av
suffisante implique la convergence presque sˆ
Théorème 6.7 (Condition suffisante de convergence p.s.)
Si (Yn)n≥1 et Y sont des variables aléatoires vérifiant :
+∞
X
∀ε > 0, P (|Yn − Y | > ε) < +∞, (6.11)
n=1
urement vers Y .
alors Yn converge presque sˆ
Preuve : Il suffit de remplacer |Mn − p| par |Yn − Y | dans la démonstration
ci-dessus.
6.5 Discussion
Considérons une urne contenant 10 boules numérotées de 0 à 9. La loi fort
e
des grands nombres pour les fréquences nous dit que si l’on effectue une suit
e
de tirages avec remise d’une boule, la fréquence d’apparition du chiffre
illimitée
7 va converger vers 1/10 avec probabilité 1. Pour démontrer ce théorème, nous
avons admis implicitement l’existence d’un espace probabilisé (Ω, F, P ) modé-
lisant cette expérience (suite infinie de tirages avec remise). La constructio
n
Ch. Suquet, Probabilités 125
Chapitre 6. Loi des grands nombres
mathématique rigoureuse d’un tel modèle présente une réelle difficulté qui es
t
au coeur de la théorie de la mesure et relève du programme de la licence de ma
-
thématiques. Nous nous contenterons de quelques considérations élémentaire
s6
sur cet espace probabilisé, utiles pour notre exploration de la loi forte des grands
nombres.
L’espace Ω doit être assez « riche » pour « supporter » une suite infinie
(Yi)i≥1 de v. a. indépendantes et de même loi uniforme sur {0, 1, 2, . . . , 8, 9}. La
variable aléatoire Yi s’interprète comme le numéro obtenu lors du i-ième tirage.
P
On pose alors Xi = 1{ =7} et Mn = n−1 =1 Xi est la fréquence d’aparition
Yi
n
i
du 7 en n tirages.
Nous allons examiner deux choix possibles pour Ω. Le premier et le plu
s
naturel est de prendre :
Ω = {0, 1, 2, . . . , 8, 9}N . ∗
,
i=1 P (Yi = ui) =
10
i=1
car l’ensemble d’indexation Ω n’est pas dénombrable (il est en bijection avec
l’intervalle [0, 1] de R).
Si E est un événement dénombrable, les événements élémentaires qui le
composent peuvent être indexés par N : E = {ω0, ω1, . . . , ωn, . . .} et P (E) =
P
n∈ N P ({ωn}) = 0. Ceci est valable a fortiori pour les événements finis.
Donc si un événement a une probabilité non nulle dans ce modèle, il est néces-
sairement composé d’une infinité non dénombrable d’événements élémentaires.
La réciproque est fausse. Considérons en effet l’événement B défini comme l’ob-
tention à chacun des tirages des seuls chiffres 0 ou 1. Dans notre modèle B e
st
l’ensemble des suites de 0 et de 1, il n’est pas dénombrable (puisqu’en bijectio
n avec [0, 1]). Par ailleurs :
B= ∩
i∈ N∗ {Yi = 0 ou 1}.
n
On a donc pour tout n ≥ 1, B ⊂ Bn = ∩ {Yi = 0 ou 1}, d’où
i=1
□2 □n
∀n ≥ 1, 0 ≤ P (B) ≤ P (Bn) = .
10
En faisant tendre n vers l’infini, on en déduit P (B) = 0. Notons d’autre part
que si ω ∈ B, ω ne contient aucun « 7 » parmi ses termes donc Mn(ω) = 0 et
B est inclus dans l’événement {Mn → 0} (ce qui prouve d’une autre façon que
P (B) = 0 grâce à la loi forte des grands nombres). Ainsi le complémentaire de
l’événement de probabilité 1 {Mn → 1/10} contient l’événement B et est donc
lui même infini non dénombrable.
La situation est même encore plus surprenante : on peut faire converge
r Mn(ω) vers n’importe quel rationnel r fixé de [0, 1] et ce, pour tous les ω d’un
événement Cr non dénombrable et de probabilité nulle (si r 6= 1/10). Voici
comment faire. On pose r = k/l, k ∈ N, l ∈ N et on définit Cr comme
∗
| {zk } | {z
−k
} | {zk } | {z
−k
} | {zk }
l l
ω0 = ( 7, 7 , 8, 8, 8, 8, 7, . . . , 7, 8, . . . , 8, 7, . . . . . . , 7, . . . . . .).
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422)2
+∞ +∞
X
9 9 X
1 9 1 1
∀n ≥ 1, = 10n = 10n □ = 10n−1 .(6.14)
10i 10j
i=n j=0 10
En revenant aux tirages illimités dans notre urne à dix boules, on voit
que si l’on choisit Ω′ = [0, 1], les deux suites de résultats qui correspondent
à un même réel décimal seront représentées par le même réel ω. Par exemple
(5, 9, 7, 2, 9, 9, 9, . . .) et (5, 9, 7, 3, 0, 0, 0, . . .) seront représentées par l’événement
élémentaire ω = 5973/1 0000.
Pour surmonter cette difficulté, nous « dédoublons » la suite (Yi)i≥1. Pour
tout i ≥ 1, on définit les deux variables aléatoires Yi et Yi′ comme suit. Si
ω ∈ [0, 1] n’est pas décimal, Yi(ω) = Yi′(ω) est le i-ème chiffre décimal de
l’unique développement décimal de ω. Si ω est un décimal de [0, 1], Yi(ω) est
le i-ème chiffre de son développement propre, Yi′(ω) le i-ème chiffre décimal
de son développement impropre. On requiert, comme dans le premier modèle
que chacune de ces deux suites soit indépendante et que chacune des variabl
es
Yi et Yi′ suive la loi uniforme sur {0, 1, . . . , 8, 9}. Ceci permet de montrer que
chaque événement élémentaire ω doit avoir une probabilité P ′ nulle. D’autre
part, Yi et Yi′ diffèrent seulement sur l’ensemble D des décimaux de [0, 1] qui
est dénombrable (voir exercice 3.15), donc de probabili uremeté nt.
P ′ Ilnulle. Ains
est don i les
c quand
deu x suite
même possibles (Y ) t (Y )
i i≥1d’interpréte
e ′
i i≥1 sont s P e sˆ
r la suite illimitée de tirages dans l’urne comme le
égale ′
-presqu
choix aléatoire d’un réel ω de [0, 1] suivant la loi de probabilité P ′.
On peut maintenant examiner les conséquences de notre cahier des charges
(les conditions sur les suites de v.a. (Yi)i≥1 et (Yi′)i≥1) sur la construction de
(F ′, P ′). La condition d’indépendance de la suite (Yi)i≥1 avec même loi uniforme
sur {0, 1, . . . , 8, 9} pour tout Yi peut s’écrire comme suit. Pour tout n ≥ 1, et
tout n-uplet (c1, . . . , cn) de chiffres décimaux,
n
Y
1
P ′(Y1 = c1, Y2 = c2, . . . , Yn = cn) = P ′(Yi = ci) = .
10n
i=1
s
propriétés). Nous connaissons déjà un exemple d’élément de F ′ qui ne peut pas
s’écrire comme réunion dénombrable d’intervalles disjoints, c’est l’événement
C7 = {convergence de la fréquence du chiffre 7 vers 1/10}. En effet par den-
sité des décimaux, tout intervalle contient au moins un décimal (en fait une
infinité) et si ω est décimal, Yi(ω) = 0 à partir d’un certain rang (de même
Yi′(ω) = 9) par conséquent Mn(ω) converge vers 0 donc ω ∈/ C7. Ainsi C7 ne
peut s’écrire comme réunion dénombrable d’intervalles disjoints. Nous savons
pourtant calculer sa longueur par la loi forte des grands nombres : elle vaut 1.
Dans toute cette section nous nous sommes intéressés à la fréquence d’ap
- parition du 7. Bien sˆ ur ce chiffre n’a été choisi que pour fixer les idées et
n’importe quel autre chiffre décimal aurait tout aussi bien fait l’affaire. Pour
généraliser un peu définissons Mn,j comme la fréquence d’apparition du chiffre
j (j ∈ {0, 1, . . . , 8, 9}) au cours des n premiers tirages. Notons de même Cj
l’événement {Mn,j converge vers 1/10}. Par la loi forte des grands nombres,
chaque Cj a une longueur (i.e. une probabilité P ′) égale à 1. Par le lemme 6.6,
l’intersection de ces dix ensembles a aussi une longueur 1.
Convenons d’appeler nombre normal tout réel de [0, 1] tel que la fréquenc
e
de chacun des 10 chiffres décimaux 0, 1, . . . 9 dans le développement décimal
illimité de ce nombre converge vers 1/10. Nous avons ainsi obtenu un résultat de
théorie des nombres qui s’énonce ainsi : l’ensemble de tous les nombres normau
x
Ch. Suquet, Probabilités 131
Chapitre 6. Loi des grands nombres
de [0, 1] a pour longueur 1 (on dit aussi presque tout nombre de [0, 1] est normal).
Ce résultat est dû à Borel. On pourrait maintenant traduire tous les exemples
étudiés dans le cadre du premier modèle et voir ainsi que l’ensemble de longue
ur
nulle des nombres non normaux a une structure très complexe. Là encore, le
théorème de Borel est plus profond qu’il n’y paraıt à première vue. . .
ˆ
132 Ch. Suquet, Probabilités
6.6. Exercice
s
6.6 Exercices
Vérifier que la suite (Ak)k≥1 est croissante pour l’inclusion et identifier sa réunion.
En déduire :
∀ η > 0, ∃ k0, P (Ak ) > 1 − η,
0
puis :
∀n ≥ k0, P (|Xn − X| < ε) > 1 − η.
4) Conclure.
Ch. Suquet, Probabilités 133
Chapitre 6. Loi des grands nombres
face et 1 pour pile. On construit une suite de variables aléatoires (Tn)n≥1 comme
suit
T1 = 1
T2 = 1 si face (f) au premier coup, 0 sinon
T3 = 1 si pile (p) au premier coup, 0 sinon
T4 = 1 si ff, 0 sinon
T5 = 1 si fp, 0 sinon
T6 = 1 si pf, 0 sinon
T7 = 1 si pp, 0 sinon
T8 = 1 si fff, 0 sinon, etc.
X kn
n=2 + kn ai2kn−i ai ∈ {0, 1}
i=1
l’écriture de n en base 2, on a en notant Xi la variable indicatrice de l’évé-
est
nement « pile au i-ème coup » :
Y
kn
Tn = (aiXi + (1 − ai)(1 − Xi))
i=1
1
P (Tn = 1) =
2k n
X k
nk = nk(ω) = 2k + ui2k−i
i=1
et calculer Tn (ω).
k
Ex 6.5. Reprendre les calculs des exemples 6.2 et 6.3 avec un niveau d
e confiance de 99%.
b−x
∀x ∈ [a, b], et(x− ) ≤
d
e
t(a−d)
+ x − a et(b−d) (6.16)
b−a b−a
´
Ex 6.9. Enonce r une loi forte des grands nombres pour une suite de variabl
es
aléatoires indépendantes, de même espérance et uniformément bornées (∃ a, b
tels que ∀ i ∈ N , a ≤ Xi ≤ b p.s.). Quelles sont les adaptations à faire dans la
∗
et notons n0 le plus grand indice pour lequel les n0 premiers chiffres décimau
x ci et di sont deux à deux égaux. Si c 6= d1, on prend n0 = 0. On peut alors
1
supposer que dn +1 > cn +1. Examiner ce que cela implique pour les chiffres ci
0 0
Nous connaissons déjà l’approximation d’une loi binomiale B(n, p) par une
loi de Poisson P(λ) avec λ = np lorsque n est « grand » et np « petit ». Nous
étudions dans ce chapitre une approximation utilisable lorsque np ne peut êtr
e
considéré comme « petit ». Le résultat théorique qui justifie cette approximation
est le théorème de De Moivre-Laplace qui est lui même un cas particulier du
théorème central limite. Ce dernier est, avec la loi des grands nombres, certai-
nement le plus important théorème du calcul des probabilités. L’approximation
qui nous intéresse fait intervenir une famille de fonctions appelées densités gaus
- siennes (ou normales) liées à la célèbre courbe en cloche de Gauss.
1 □ (t − m)2 □
fm,σ : R −→ R+ t 7−→ √ exp −
σ 2π 2σ2
La fonction f ,1 est appelée densité normale ou gaussienne standard.
0
courbe C ,1 (figure 7.1) est très populaire sous le nom de courbe en cloche de
0
Gauss.
139
Chapitre 7. Approximation gaussienne
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
Bien que f ,1(t) soit strictement positif pour tout réel t, la densité f ,1 semble
0 0
être à support dans [−4, +4]. Cela provient de la décroissance rapide de exp(− ) 2
t
2
a 2
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-8 -6 -4 -2 0 2 4 6 8
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-8 -6 -4 -2 0 2 4 6 8
Z +∞ 1 □ (t − m)2 □ Z +∞ 1 □ u2 □
√ exp − dt = −∞ √ exp − du = 1.
−∞ σ 2σ2
2π 2π 2
L’aire délimitée par Cm,σ, l’axe des abscisses et les droites d’équation t = a,
t = b joue un rôle important dans l’approximation des probabilités binomiales
P (a < Sn ≤ b). Par changement de variable, le calcul de cette aire se ramène à
celui de l’aire correspondante pour C ,1 avec a∗ et b∗ à la place de a et b. Elle
0
peut donc s’écrire sous la forme Φ(b ) − Φ(a ) où la fonction Φ est définie par :
∗ ∗
Z x 1 □ t2 □
∀ x ∈ R, Φ(x) = −∞ √ exp − dt.(7.3)
2π 2
Cette intégrale ne peut s’exprimer à l’aide des fonctions usuelles. On peut e
n
calculer une valeur approchée avec toute précision souhaitée (voir exercice 7.2).
La figure 7.4 représente le graphe de Φ .
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-4 -3 -2 -1 0 1 2 3 4
R
Fig. 7.4 – Fonction Φ : x 7→ −∞ xf0,1(t) dt
La table en annexe donne les valeurs de Φ(x) par pas de 0.01 pour x compr
is
entre 0 et 3 et quelques valeurs pour x compris entre 3 et 4.5. Pour x négatif,
la parité de la densité entraıne la relation Φ(x) = 1 − Φ(−x). Pour les « très
ˆ
grandes valeurs de x », (i.e. |x| ≥ 4), on dispose du résultat suivant qui donne
142 Ch. Suquet, Probabilités
´
7.2. Etude graphiqu
e
une évaluation de la « queue » de la loi normale :
′
A′(x) = −1 +
3 √ (x) = − √ ′
(x) = −1 − √
x4
B C x
2 .
2π 2π 2π
Il suffit alors d’intégrer sur [x, +∞[ l’encadrement suivant vrai pour tout y :
□ □ e−y /2 2
e−y /2 □ 3 □ e−y /2
2
2
1 √
−1 − 2 √ < −1 + 4 √
y < − 2π y ,
pour obtenir (7.4).
2π 2π
7.2 ´
Etude graphique
Soient X1, . . . , Xn n v.a. de Bernoulli indépendantes de même paramètre p.
On pose Sn = X1 + · · · + Xn. La loi de Sn est alors une binomiale B(n, p) :
P (Sn = k) = Ckpk(1 − p)n−k
n (0 ≤ k ≤ n)
Les histogrammes1 ci-dessous représentent cette loi pour différentes valeurs des
paramètres n et p. Bien que l’histogramme de la loi B(n, p) soit constitué théo-
riquement de n + 1 rectangles, seule une partie d’entre eux est visible sur le
dessin, les autres correspondant à des probabilités trop petites. Le nombre ε
représente pour chaque figure un majorant de la probabilité correspondant à la
réunion de ces rectangles « invisibles ». Sur chaque figure, la courbe en pointillé
s représente la densité fm,σ dont les paramètres sont donnés par : m = IE Sn = np
et σ2 = Var Sn = npq.
1Les
rectangles de l’histogramme ont une aire proportionnelle aux nombres P (Sn = k) et
ont pour axes de symétrie les droites d’équation x = k correspondantes.
0.12
0.1
0.08
0.06
0.04
0.02
0
5 10 15 20 25 30 35 40 45
0.3
0.25
0.2
0.15
0.1
0.05
0
-5 0 5 10 15 20 25 30 35
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
-5 0 5 10 15 20 25 30 35 40 45
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
-5 0 5 10 15 20 25 30 35 40
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
-10 0 10 20 30 40 50
Sn − IE(Sn) Sn − np
S∗n = =
σ(Sn) √
(7.5)
npq
a− np Sn(ω) − np ∗ b − np
a < Sn(ω) ≤ b ⇔ √ < ≤
npq √ n(ω ) √
=S .
On en déduit que pour tout n ≥ 1 npq npq
□ a− np ∗ b − np□
P (a < Sn ≤ b) = P √ npq < Sn ≤ √
npq
Lorsque n est « grand » le théorème de De Moivre-
Laplace nous dit que le second membre peut être approximé par :
□ a− np ∗ b − np□ □ − np □ □a − np□
< S
n ≤ √ ≃Φ √ −Φ √
b
P √ npq .
npq npq npq
Il suffit alors d’utiliser la table des valeurs de Φ pour calculer cette probabilité.
2Publiée en
1738 dans la seconde édition de son livre The Doctrine of Chances.
Ch. Suquet, Probabilités 147
Chapitre 7. Approximation gaussienne
meilleure que p est proche de 1/2 (et se dégrade fortement quand p est proche
de 0 ou 1). Cette dépendance par rapport à p est illustrée par les figures 7.5 `
a 7.9.
suivre. . .)
Exemple 7.2 Une entreprise emploie 500 personnes qui déjeunent à la can-
tine à l’un ou l’autre des deux services avec une probabilité égale de manger au
148 Ch. Suquet, Probabilités
7.3. Le théorème de De Moivre-Laplace
Voici une modélisation du problème. On numérote les 500 personnes par ordr
e alphabétique3. On note Xi la variable aléatoire valant 1 si la i-
ème personne de
la liste mange au premier service, 0 si elle mange au deuxième. Les Xi sont de
s variables de Bernoulli de même loi : P (Xi = 0) = P (Xi = 1) = 1/2. On suppose
les Xi indépendantes, hypothèse raisonnable dans le cas d’une numérotation pa
r
ordre alphabétique4. Bien que l’énoncé ne le précise pas il s’agit évidemment de
trouver le nombre minimum de couverts à disposer à chaque service, sinon ave
c P
service est : Sn = 500
500 couverts à chaque service, le gérant ne prendrait aucun risque ! Notons
i
k
ce nombre minimum. Le nombre (aléatoire) de personnes mangeant au premie
r
=1 Xi (avec n = 500). Le nombre de personnes mangeant
au deuxième service est par conséquent 500 − Sn (on suppose que tout le monde
mange). Le problème revient donc à trouver k minimal tel que :
P (Sn ≤ k et 500 − Sn ≤ k) ≥ 0.95.
Ce qui s’écrit encore :
P (500 − k ≤ Sn ≤ k) ≥ 0.95.(7.6)
La loi de Sn est la binomiale B(500, 1/2), mais comme n est grand, il est légitime
d’utiliser l’approximation de cette loi par le théorème de De Moivre-
Laplace.
Pour ce faire, on normalise Sn en la centrant puis en divisant par l’écart type.
L’espérance et la variance de Sn sont IE Sn = n 12 = 250 et Var Sn = n( 12 )(1− 21 ) =
125. On peut écrire (7.6) sous la forme équivalente :
□ k − 250□
500 k − 250 ∗
≤S ≤
√ 125 √ ≥ 0.95.
−
P n
125
√ 125. En négligeant l’erreur d’approximation, le problème
où S∗n = (Sn − 250)/
revient à trouver k minimal tel que :
□ □ 250 − k□
□
k− 250
Φ √ −Φ √ ≥ 0.95.
125 125
En utilisant comme dans l’exemple précédent la relation Φ(a)−Φ(−a) = 2Φ(a)−
√
1 avec ici a = (k − 250)/ 125, on est ramené à la résolution de l’inéquation :
2Φ(a) − 1 ≥ 0.95 équivalente à Φ(a) ≥ 0.975. La table nous donn√e Φ(1.96) =
0.9750. On prendra donc pour k le plus petit entier tel que (k−250)/ 125 ≥ 1.96
3
Ou tout autre ordre fixé à l’avance.
4
Ce ne serait bien sˆur pas le cas si on les avait numérotées d’après leur ordre d’arrivée à
la cantine, mais cet ordre est lui même aléatoire et nous l’avons exclu.
√
d’où : k ≥ 250 + 1.96 125 ≈ 271.91. Ainsi il suffit de prévoir 272 couverts par
service pour avoir une probabilité supérieure à 0.95 que chacun puisse manger a
u
service de son choix. On constate qu’en acceptant un risque faible de surcharg
e
de la cantine, il y a moyen de réaliser une économie considérable en place et en
mobilier.
□
∀n ≥ n0, P (c ≤ S∗n ≤ d) − ,(7.7)
npq
b(k, n, p) = Ckpkqn−k.
n
k− np
X b(k, n, p), où xk = √ npq .(7.8)
P (c ≤ S ≤ d) =
∗
n
c≤x ≤d k
√
Remarquons que dans cette somme, le nombre de termes (en gros (d − c) npq
)
tend vers l’infini avec n, donc k peut très bien tendre vers l’infini avec n, mais
pas n’importe comment. Il doit vérifier une condition du type :
□
k − np□
√ ≤ c0 = max(|c|, |d|).(7.9)
npq
La démonstration se fait en deux temps :
5Mais
moins instructive.
6
W. Feller, An Introduction to Probability Theory and its Applications, Vol. I, ex. 19–21
p. 182 (2e édition).
7On ne cherchera pas à optimiser la valeur de C, ni même à l’expliciter.
–
On cherche un encadrement de b(k, n, p) donnant un équivalent de la forme
(2πnpq)− /2 exp(−x2k/2) lorsque n tend vers +∞ et k reste astreint à la
1
condition (7.9).
–
On traite alors le second membre de (7.8) comme une somme de Rieman
n
que l’on approxime par l’intégrale Φ(d) − Φ(c) en contrôlant l’erreur com-
mise.
7.4.1 ´
Evaluation asymptotique de b(k, n, p)
Notre point de départ est l’évaluation asymptotique du terme central de la
loi binomiale pour laquelle nous renvoyons à l’exercice 3.16 p. 70 dont nou
s rappelons les résultats :
Le maximum de b(k, n, p) à n et p fixés est atteint pour k = m défini comme
l’unique entier tel que :
(n + 1)p − 1 < m ≤ (n + 1)p.
Examinons d’abord le cas où k > m : on a alors j > m et δj > 0 donc uj > 0.
Nous pouvons alors utiliser avec x = quj l’encadrement suivant :
1 2
∀x > 0, 1−x< <1−x+x .
1+x
En effet, pour x ≥ 1, cet encadrement est trivial, pour 0 < x < 1, on utilise le
développement (1 + x)−1 = 1 − x + x2 − x3 + · · · en série alternée dont le terme
général décroıt en valeur absolue. La somme de la série est donc encadrée par
ˆ
1 − puj 2
> (1 − puj)(1 − quj) = 1 − (p + q)uj + pqu j > 1 − u j.
1 + quj
Majoration du quotient :
2 2
1 − puj uj )
< (1 − puj)(1 − quj + q
1 + quj = 1 − (p + q)uj + (pq + q2)u2 − pq2u3 j j
< 1 − uj + qu2 j
< 1 − uj + u2. j
b(j − 1, n, p) j. (7.15)
b(j − 1, n, p) 2
Si j < m, 1 + uj < < 1 + uj + u
b(j, n, p) j. (7.16)
L’étape suivante est d’encadrer les produits figurant dans (7.11) et (7.12).
Pour cela, il est commode d’utiliser le lemme suivant qui procure un encadre-
ment de chaque facteur par des exponentielles.
Lemme 7.4
□ t □
2
∀ t ∈ ]0, 1[, − .
2 − ··· − − · · · = −t − k
3 k k=2
On en déduit :
2
t
∀ t ∈ ]0, 1[, ln(1 − t) > −t − ,
2(1 − t)
et il ne reste plus qu’à prendre l’exponentielle des deux membres.
Notons maintenant que d’après (7.9), uj tend vers 0 comme n− /2 lorsque n 1
1
∀n ≥ n2,
0 ≤ |uj| ≤ 2 ,
pour tous les j concernés par notre démonstration. Si t ∈ [0, 1/2], 1/(1 − t) ≤ 2.
Combinée à cette remarque, l’application du lemme 7.4 avec t = uj nous fournit :
+1 jm+1
=
b(j
m
+1
´
Evaluation de la somme des uj
La somme des termes d’une progression arithmétique est égale au nombre d
e
Ch. Suquet, Probabilités 153
Chapitre 7. Approximation gaussienne
k k
X 1 X
□
uj = j − (n + 1)p
jm+1
= τ2 n jm+1
=
1
=
(k − m)
21τ2 n
= □
□
2τ × 2
n
=
+ k−m
2τ2
+ 2τ2 .
n
(7.17)
= 2
2 − 2 τ
− m − (n + 1)p 2
2 □ n
2τ2 k−m
n
Comme n
2τ2
de (7.17) est comprise entre (k − 1 − m)/(2τ2) et (k − m)/(2τ2). Il existe donc
n
n n
A la différence de la somme des uj qui est le terme principal, celle des u2 est un j
terme d’erreur. Comme nous voulons seulement avoir une idée de la vitesse d
e convergence dans le théorème de De Moivre-
Laplace, une majoration grossière
nous suffit. On l’obtient en majorant chaque terme de la somme par le plu
s grand d’entre eux :
k k 3
X
1 X □ (k − m)
u = 2 j − (n + 1)p 2
≤ .
τ4
j
jm+1
= τ4
n jm+1
=
n
Il existe une constante c3 (par exemple c3 = (1+ c0)3) telle que pour tout n ≥ n2
et tous les k > m vérifiant (7.9) :
X k c3
0≤ u2 ≤ .(7.19)
τn
j
jm+1
=
e −t /2 2
k
c4
b(k, n, p) = √ ′ ′
(1 + ε
2πnpq n,k), avec |ε n,k| ≤ τn .(7.21)
Pour le cas j < m, uj est négatif et on a les mêmes estimations que pour
j > m en remplaçant uj par −uj (en prenant garde que dans l’évaluation de la
somme des uj, le nombre de termes est (m − k) au lieu de (k − m)). On vérifie
ainsi facilement8 que (7.21) reste valable pour k < m.
Avant de passer à la suite de notre programme, il convient de mettre le
résultat obtenu sous une forme plus commode en revenant à la normalisation et
au centrage traditionnels. Posons :
√ k − np
σn = npq et xk = . (7.22)
σn
pour n ≥ n4 et tous les k vérifiant (7.9). Le résultat de cette partie peut donc
s’énoncer :
Théorème 7.5
Avec les notations (7.22) ci-dessus, il existe une constante A et un entier n0 =
√
n0(p, c0) tels que pour tout n ≥ n0 et tout k tel que |k − np| ≤ c0 npq :
exp(−x 2 A
b(k, n, p) = √ k/2) (1 + ε ) avec |εn,k| ≤
σn 2π n,k . (7.23)
σn
8Pour
les courageux et les sceptiques pas encore épuisés. . .s’il en reste.
k− np
c≤ √ ≤ d.
npq
k2 X
P (c ≤ S∗n ≤ d) =
X
1
b(k, n, p) = f (xk)(1 + εn,k),
σn
=k1
k
c≤x k≤d
Par conséquent :
□
1 X
□ c
P (c ≤ S∗n ≤ d) − f (xk) ≤ σ6 n .(7.24)
σn
c≤x k≤d
1 1
sk = xk − et sk+1 = xk + (k1 ≤ k ≤ k2).
2σn 2σn
Lorsque f est monotone sur [xk−1, xk+1] (ce qui est bien le cas ici sauf peut-
être pour l’un de ces intervalles), il est facile de se convaincre que ce choix est
meilleur que de prendre comme partage la suite des xk elle même (figure 7.10).
9Le choix
de la position de l’un des xk détermine celle de tous les autres par translation.
156 Ch. Suquet, Probabilités
7.4. Preuve du théo
rème de De Moivre
-Laplace
f (xk )
xk sk+1 xk sk xk
sk + sk+1 Choix sk+1 = xk
Choix sk = xk Choix xk = 2
□ Z sk+1 □
1 1 sup |f ′′|.
f (xk) − f (x) dx ≤ σ 3
σn 24 n [sk ,sk+1]
s
k
La fonction f ′′ est donnée ici par f ′′(x) = (2π)− /2(x2 − 1) exp(−x2/2). Elle 1
est bornée sur R, le maximum de |f ′′| est atteint en 0 et vaut (2π)− /2. Nous 1
X k2 Z xk2+1/(2σn)
1
σn f (xk) = f (x) dx + Δn, (7.25)
xk1−1/(2σn)
=k1
k
où
1 (d − c)σn + 1
k2 − k1 + 1 c7
|Δn| ≤ √ × 24
√ ≤ .(7.26)
≤
2π 24σn3 2π σ3n σ2n
Enfin dans l’évaluation de notre somme de Riemann par Φ(d) − Φ(c), nou
s
devons tenir compte d’une dernière source d’erreur : les deux termes de bor
d générés par la non coıncidence (en général) des bornes c et xk − 1/(2σn) à
¨ 1
c xk1
□ Z d
exp(−x2/2) □ C
∀n ≥ n0, P (c ≤ S ≤ d) −
∗
n √ dx ≤ √ npq . (7.28)
c
2π
Remarque :
Lorsqu’on applique ce théorème d’un point de vue pratique (i.e. avec n fixé),
on peut éliminer l’erreur due aux termes de bord (7.27) en remplaçant c par
xk − 1/(2σn) et d par xk + 1/(2σn). On peut voir que cela ne change rien pour
1 2
Sn, en effet :
∗
1 ∗ 1 k1 − 1/2 − np Sn − np k2 + 1/2 − np
xk − 1 ≤S ≤ xk2 + ⇔ √ √ √
2σn n
2σn
1 ≤ 1 ≤ npq
⇔ k1 − npq ≤ Sn ≤ k2 + 2npq
2
⇔ k1 ≤ Sn ≤ k2,
−Φ √
npq npq
√
est majorée par C/ npq. Par ailleurs l’évaluation du terme dominant de la loi
binomiale par la formule de Stirling nous montre qu’on ne peut pas espérer en
général avoir une vitesse de convergence meilleure que O(n− /2). De nombreux
1
= P □ √ npq □ n □≤ k1 − 0√.5npq− np □
k2 +0.5 − np
≃ Φ √ −Φ √ .
npq npq
□ □ t 2 □□
z2
q−p
P (k1 ≤ Sn ≤ k2) = Φ(z2) − Φ(z1) + √ (1 − t ) exp − 2 + ε,
6 2πnpq 2 z 1
√
θ1 la partie fractionnaire de nq − x1 npq, (7.31)
√
θ2 la partie fractionnaire de np − x2 npq. (7.32)
A q−p h ix
P (x1 ≤ S∗n ≤ x2) = Φ(x2) − Φ(x1) + √ + √ (1 − t 2 −t /2 2 2 + ε ′,
2πnpq 6 2πnpq )e x1
□1 □ □ x21 1 □ □ x22
A= − θ1 exp − □ □ − θ2 exp − □
2 + 2
2 2
et le terme ε′ est majoré par :
3√ □
0.20 + 0.25|p − q| 2 npq .(7.33)
|ε′| <
160 Ch. Suquet, Probabilités
□
+ exp −
npq
7.5. Vitesse de convergence
On peut faire des commentaires analogues à ceux qui suivent le théorème 7.6. Il
est intéressant de déduire du théorème 7.7 une majoration uniforme (par rapport
√
à x1 et x2) de l’erreur d’approximation du type C/ npq. Ceci permet de se faire
rapidement une première idée et de voir s’il y a lieu d’affiner l’approximation à
l’aide de l’un des résultats ci-dessus.
Corollaire 7.8 (Majoration uniforme de l’erreur)
Si npq ≥ 25, pour tous réels x1 < x2,
□
P (x1 ≤ S∗n ≤ x2) − .
npq
Preuve : Comme θ1 et θ2 sont dans [0, 1[, il est clair que |A| ≤ 1. D’autre part
l’étude des variations de la fonction t 7→ (1 − t2)e−t /2 montre que sur R son
2
√
Par hypothèse, npq ≥ 5, d’où :
0.20 + 0.25|p − q| 1 0.09
≤ √ 0.45
npq = √
npq 5 .
Enfin, pour le dernier terme, on écrit : npq
□ 3√ □ 1 □√ □ 3√ □□ 1 x≥5 □
exp − 2 npq = √ npq exp − 2 npq ≤ √ npq sup xe− x/2 . 3
√
partielles, on voit que l’on a bien un majorant du type C/ npq et que l’on peut
prendre :
1
C=√
1.4463□
□ + 0.09 + 0.0028 < 0.5880.
1+ 6
2π
7.6 Exercices
Ex 7.1. Un calcul d’intégrale
1) Montrer la convergence de l’intégrale généralisée :
□
Z +∞ exp − x 2 □
I= dx.
0 2
2) Vérifier que :
Z +∞ Z +∞ □ (x 2 + y2 □
I2 = exp − dx dy.
0
0 2
3) Calculer cette intégrale double en passant en coordonnées polaires.
4) En déduire que :
Z +∞ 1 □ x2 □
√ exp − dx = 1.
−∞ 2π 2
Ex 7.2. Comment construire la table des valeurs de Φ
Utiliser le lemme sur l’évaluation de la queue de la loi normale pour donne
r
une méthode pratique de construction d’une table des valeurs de Φ avec u
ne
précision au moins égale à 10−d. Indication : On considérera le développement
en série de Taylor de la densité gaussienne standard sur un intervalle compac
t [−a, +a] convenablement choisi et on remarquera qu’il s’agit d’une série alternée.
Il est donc facile d’encadrer les sommes partielles et de majorer l’erreur commis
e
en remplaçant la série par l’une de ses sommes partielles. On est ainsi ramené
à un calcul de polynôme.
Ex 7.3. Trouver un entier k tel qu’avec une probabilité d’environ 0.5 le nombre
de faces obtenues en 1000 lancers d’une pièce soit compris au sens large entr
e 490 et k.
Ex 7.8. Une compagnie d’assurances assure sur une année n personnes contr
e
un certain risque. On note Xi la somme qu’aura à verser cette année la compa
- gnie au i-
ème client. C’est une variable aléatoire qui prend la valeur 0 lorsque
le client n’est pas sinistré. On peut en général considérer que les variables aléa-
toires X1, . . . Xn sont indépendantes. Supposons qu’elles obéissent toutes à une
même loi d’espérance mathématique µ et de variance σ2. Soit x la prime deman-
dée à chacun des n clients. Comment la compagnie doit-
elle fixer x pour qu’avec
une probabilité supérieure à 1 − ε la différence entre l’encaissement des primes
et les remboursements sur l’année reste supérieure à un montant b déterminé
par ses frais de gestion et le bénéfice minimum qu’elle désire faire ?
Ex 7.9. Montrer que le théorème de De Moivre-Laplace implique la loi faible
des grands nombres pour les fréquences. Indication : pour ε > 0 fixé, contrôler
l’erreur commise écrivant l’ approximation :
□□ S □ □ □ r n □ □ r n □
P n
−p ≤ ε ≃ Φ ε − Φ −ε .
n pq pq
Ex 7.10. Sur l’approximation d’une somme de Riemann
Soit f une fonction deux fois continˆument dérivable sur un intervalle [a, b] et
(sk) un partage quelconque de [a, b]. Soit xk ∈ [sk, sk+1].
1) Montrer qu’en général on a :
□ Zs □
1
k+1
c .
f (xk) − f (x) dx ≤ − sk)2
sk+1 − sk s k
(s k+1
2) Lorsque xk est
le milieu du segment [sk, sk+1] :
□ Zs □
1
k+1
mk ,
f (xk) − f (x) dx ≤ − sk)3
sk+1 − sk s k
24(sk +1
0.5
0.4
0.3
0.2
0.1
0
-4 -3 -2 -1 0 1 2 3 4
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5754
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6627 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7122 0.7156 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7356 0.7389 0.7421 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7793 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8079 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8414 0.8438 0.8461 0,8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8622
1.1 0.8643 0.8665 0.8687 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0,8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9083 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9193 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9485 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9648 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9874 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9895 0.9898 0.9901 0.9903 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9944 0.9946 0.9948 0.9949 0,9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9958 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
x 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.8 4.0 4.5
Φ(x) 0.99865 0.99904 0.99931 0.99952 0.99966 0.99976 0.999841 0.999928 0.999968 0.999997
166 Ch. Suquet, Probabilités
7.6. Exercice
s
0.5
x 0.4
R
intégrales f ,1(t) dt. De même la fonction de répartition F∗ de S∗n tend vers
a
b
0 n
0 si −∞ < x < 0,
F (x) = x si 0 ≤ x ≤ 1,
1 si 1 < x < +∞.
169
Chapitre 8. Variables aléatoires réelles
` nouveau F a toutes les propriétés d’une fonction de répartition, sauf les sauts.
A
L’exemple que nous venons d’étudier semble à première vue assez artificiel. Il
est pourtant relié à un problème essentiel : comment choisir au hasard un nombre
réel entre 0 et 1 ? ou encore un point d’un segment ? ou encore construire un
générateur de nombres aléatoires pour les simulations informatiques ? En pra
-
tique, on écrit les nombres sous forme décimale (ou binaire). Choisir un rée ur
lcomm
au hasar d revient ains i à hoisi r la suite de s hiffres décimaux. E t bie
e il est impossible d’écrire une infinité de chiffres, on se contente d’une
c se c n sˆ
approximation en tronquant au-delà d’un certain rang m. On considèrera donc
une variable aléatoire Un comme ci-dessus avec n = 10m. Voici une façon com-
plètement élémentaire de générer une telle variable. Dans une urne contenant
dix boules numérotées de 0 à 9, on effectue m tirages avec remise. Notons Yi le
chiffre sorti au i-ème tirage. Posons pour n = 10m
m
X
Yi(ω)
Un(ω) = Vm(ω) := .
10i
i=1
décomposition
□ k □
{X0 = k} = ∩
=1 A [i− ,i[1 ∩ A[k,k+1[c
i
combinée avec les hypothèses d’indépendance (a) et de stationnarité (b) nous
donne en posant q0 = h(1) = 1 − p0 :
P (X0 = k) = qk0p0. (8.1)
Cette loi ressemble à la loi géométrique (à une translation près : 1 + X0 suit la
loi géométrique de paramètre p0). On suppose désormais que q0 est strictement
inférieur à 1 et strictement positif. Comme pour la loi géométrique, il est facile
dévaluer la queue de la loi de X0. En effet, pour tout entier k, on a
X+∞ +∞
X
p
j k+1 k+1 0
P (X0 > k) = q0p0 = q0 p0 qi0 = qk+1
0
0
=q .
j=
k+1 i=0
1 − q0
oùl’on a noté [x] la partie entière de x, c’est-`a-dire l’unique entier k tel que
k ≤ x < k + 1.
Ch. Suquet, Probabilités 171
Chapitre 8. Variables aléatoires réelles
Maintenant, supposons que l’on dispose d’une suite d’horloges (ou chron
o- mètres) Hn où la plus petite unité de temps mesurable par Hn est un = 10−n
secondes. Notons Xn le temps d’attente du premier éclair mesuré par cette hor-
loge dans l’unité un. Notons Yn ce même temps d’attente converti en seconde
s.
Par exemple avec n = 3, si l’on observe X3(ω) = 5 347 millièmes de seconde,
on aura Y3(ω) = 5,347, X2(ω) = 534, Y2(ω) = 5,34, X1(ω) = 53, Y1(ω) = 5,3,
et X0(ω) = Y0(ω) = 5. Il est clair que pour trouver la loi de Xn, il suffit de
remplacer dans (8.1), q0 par qn = h(10−n) et p0 par pn = 1 − qn. D’autre part
la relation entre h(1) et h(10−n) découle immédiatement de la décomposition
10n
A [0,1[ = ∩ A[(i−1)10−n,i10−n[.
i=1
On obtient donc h(1) = h(10−n) . Pour alléger les écritures, notons h(1) =
10n
exp(−a), ce qui est toujours possible avec un paramètre a > 0 puisque 0 <
h(1) < 1. Avec cette notation, qn = h(10−n) = exp(−a10−n).
Comment se comporte la fonction de répartition de Yn lorsque n tend ver
s l’infini ? En utilisant (8.2) avec qn à la place de q0, on obtient :
P (Yn > x) = P (Xn > 10nx) = qn [10nx]+1
= exp
[10nx] + 1 10nx + 1
10nx ≤ ,
10 n 10n
<
ce qui se simplifie en x <10
n
10−n([10nx] + 1) ≤ x + 10−n et assure la convergence
de P (Yn > x) vers exp(−ax).
On en déduit immédiatement que la fonction de répartition de Yn converge
en tout point x vers
□
0 si x ≤ 0,
F (x) =
1 − e− x a
si x > 0.
` nouveau F a toutes les propriétés d’une fonction de répartition, sauf les sauts
A
pas baser cette théorie sur les probabilités du type P (X = x) mais plutôt sur
les P (X ∈ I) où I est un intervalle. La définition ci-dessous est donc motivée
par la nécessité d’attribuer de façon cohérente une probabilité aux ensembles
{ω ∈ Ω; X(ω) ∈ I}.
Définition 8.1 Soit (Ω, F, P ) un espace probabilisé. On appelle variable aléa-
toire réelle sur (Ω, F , P ) toute application X :
X : Ω −→ R ω 7→ X(ω),
vérifiantla condition :
(i) Pour tout intervalle I de R, A = {ω ∈ Ω, X(ω) ∈ I} fait partie de la
famille F d’événements auxquels on peut attribuer une probabilité par P .
Cette définition a un contenu plus riche qu’il n’y paraıt. Par exemple si X est
ˆ
une variable aléatoire réelle, {X ∈/ [0, 1]} est dans F puisque F est stable par
passage au complémentaire. De même {X ∈ ] − 3, 1] ou X ∈ ]4, 5]} est dans F
puisque F est stable par union dénombrable, donc a fortiori par union finie.
Plus généralement, on peut montrer que si BR est la plus petite famille contenant
tous les intervalles de R et telle que 2
(a) R ∈ BR ;
(b) BR est stable par passage au complémentaire dans R ;
(c) BR est stable par union dénombrable ;
alors pour tout B ∈ BR, X−1(B) est dans F. On peut donc attribuer une
probabilité à {X ∈ B}.
Cette famille BR s’appelle tribu borélienne de R. Il se trouve qu’il existe de
s
parties de R qui ne sont pas dans BR. La situation est donc plus complexe qu
e pour une variable aléatoire discrète Y où Y −1(B) ∈ F pour tout B ⊂ R. Cette
propriété des variables aléatoires discrètes repose sur le fait que l’ensemble de
s ur, les variables aléatoires
valeurs possibles Y (Ω) est dénombrable. Pour une variable aléatoire réelle, en
général on ne dispose plus de cette hypothèse. Bien sˆ
discrètes sont aussi des variables aléatoires réelles.
Les propriétés (a)–(c) sont les mêmes que celles attribuées à la famille d’évè-
nements observables F lors de la définition 1.1 de l’espace probabilisé (Ω, F, P )
mais avec R à la place de Ω. On peut alors définir la loi de X comme dans l
e
cas d’une variable discrète (cf. la définition 3.2) mais avec BR au lieu de P(R).
Définition 8.2 Soit X une variable aléatoire réelle sur (Ω, F, P ). On lui as-
socie la fonction d’ensembles PX définie sur la famille BR de parties de R en
2Plus petite au sens de l’inclusion, ce qui signifie que BR est une sous-famille de toute autre
famille B′ contenant les intervalles et ayant les trois propriétés (a)–(c).
posant :
PX (B) = P (X ∈ B) = P ({ω ∈ Ω; X(ω) ∈ B} = P
La fonction d’ensembles PX ainsi définie est une probabilité sur BR. On l’appelle
loi de la variable aléatoire X.
Pour légitimer cette définition, il nous faut vérifier que la fonction d’ensembles
PX est bien une probabilité sur BR. En effet, PX (R) = P (Ω) = 1. De plus si
(Bi)i N est une suite de parties de R éléments de BR et deux à deux disjointes,
∈
□ □ Bi } = ∪
X−1 ∪ Bi = {ω ∈ Ω; X(ω) ∈ ∪i∈ N i∈ N {ω ∈ Ω; X(ω) ∈ Bi}.
N
i∈
Comme les évènements {X ∈ Bi} sont deux à deux disjoints, la σ-additivité de
PX découle alors de celle de P :
□ □ □ □ □□ □ □
PX ∪ N Bi = P X−1 ∪ N Bi = P ∪ N X−1(Bi)
i∈ i∈ i∈
X P
= i∈ N
X
= PX (Bi).
i∈ N
R sont égales. C’est un résultat qui sera vu en Licence et que nous admet-
tons. La caractérisation (b) découle alors facilement de (a) en remarquant que
P (X ∈ ]a, b]) = FX (b) − FX (a).
Théorème 8.4 La fonction de répartition FX d’une variable aléatoire réelle X
est croissante sur R, continue à droite et limitée à gauche en tout point. Elle
tend vers 0 en −∞ et vers 1 en +∞.
Preuve : La démonstration est essentiellement la même que celle du théorème
3.4. L’adaptation est laissée au lecteur.
f1(t) :=
1
f3(t) := e−t1 [0,+∞[ (t); f4(t) := π(1 + t2) .
Ces exemples entrent tous dans le cadre de ce que nous appellerons le mod`
ele courant, lequel recouvre toutes les densités classiques.
Modèle courant de densité : f est positive sur son ensemble de définition et
vérifie l’un des deux cas suivants
(i) f est définie et continue sur R et son intégrale de Riemann généralisée
R +∞ f (t) dt converge et vaut 1. C’est le cas de f4 ci-dessus.
−∞
(ii) f est définie sur R privé d’un ensemble fini de points a1 < . . . < an. Sur
chacun des intervalles ouverts ] − ∞, a1[, ]ai, ai+1[ (1 ≤ i < n), ]an, +∞[,
f est continue et a une intégrale de Riemann (ordinaire ou généralisée)
convergente et la somme de toutes ces intégrales vaut 1. Les fonctions f1,
f2 et f3 sont dans ce cas.
Pour obtenir des densités d’une forme plus complexe, on peut considérer le
modèle suivant.
Modèle plus sophistiqué de densité : f est définie et positive sur l’ensemble R\D
où D est une partie dénombrable de R (on peut donc considérer les éléments
de D comme les termes d’une suite infinie de réels tous distincts3). De plu
s R \ D peut s’écrire comme réunion dénombrable ∪ i∈ N]ai, bi[ d’intervalles ouverts
disjoints de ¯ . Remarquons que l’on ne suppose pas nécessairement bn = an+1.
R
On suppose en outre que pour tout i ∈ N et tout intervalle [α, β] ⊂]ai, bi[, f est
R f (t) dt
Riemann intégrable sur [α, β] et l’intégrale (ordinaire ou généralisée) i bi
a
Z +∞ Z
+∞ bi
X
f (t) dt := f (t) dt = 1.
−∞ ai
i=0
où la deuxième intégrale est soit une intégrale de Riemann ordinaire soit une
intégrale généralisée convergente. Cette relation peut aussi s’écrire à l’aide de
F :
x↑x □
lim 0
d’où
□Z x +h
□ 0
□ □
|F (x0 + h) − F (x0) − hf (x0)| = f (t) − f (x0) dt ≤ hε.
En divisant par h on voit que F a bien une dérivée en x0 et que celle ci vaut
x 0
f (x0).
Remarques :
– Pour toute densité f (au sens de la définition 8.6), il existe une variable
aléatoire X ayant f pour densité : il suffit d’appliquer le théorème 8.5 en
définissant F par (i).
– D’après (ii) toute variable aléatoire à densité a une fonction de réparti-
tion continue. La réciproque est fausse : il existe des lois à fonction de
répartition continue sans densité.
– Par ailleurs si X a une densité, sa fonction de répartition n’est pas forcé-
ment dérivable en tout point. Par exemple la densité f2 ci-dessus a pour
√
fonction de répartition associée F2(x) = x1 ,1](x) + 1 ,+∞[√(x) (cette
]0 ]1
écriture condensée signifie que F2(x) est nul sur R−, vaut x entre 0 et 1
et reste constant égal à 1 sur ]1, +∞[). F2 est dérivable en tout point sauf
en 0 et en 1.
La proposition suivante donne une règle pratique permettant de trouver la den-
sité (lorsqu’elle existe !) à partir de la fonction de répartition dans les cas le
s plus courants.
Proposition 8.9 On suppose que la fonction de répartition F de X est C1
par morceaux au sens suivant : F est continue sur R et dérivable sur R privé
(éventuellement) d’un ensemble fini de points a1 < . . . < an. Sur chacun des
intervalles ouverts ] − ∞, a1[, ]ai, ai+1[ (1 ≤ i < n), ]an, +∞[, la dérivée f de
F est continue. Alors X a pour densité f .
Preuve : Il est commode de poser a0 := −∞ et an+1 = +∞. Sur chacun des
intervalles ouverts I découpés par les ai, F est dérivable et sa dérivée f est
continue. On sait alors que f a une infinité de primitives sur I et que si l’on fixe
R
un α dans I, toute primitive H de f sur I est de la forme H(x) = x f (t) dt+C,
α
tendre α vers ai−1 on voit que l’intégrale généralisée ai f (t) dt converge et vaut
a
i−1
F (ai) − F (ai−1) (ou F (ai) quand ai−1 = −∞). Finalement soient a et b > a
quelconques dans R. Si a et b sont dans le même intervalle I on a directemen
R
tF (b) − F (a) = b f (t) dt. Sinon on note (ai)i ≤i≤i l’ensemble de tous les ai qui
a 0 1
i=i0
en utilisant la relation de Chasles pour les intégrales généralisées. On a donc
R
toujours P (X ∈ ]a, b]) = F (b) − F (a) = b f (t) dt, ce qui montre que X a pour
a
densité f .
178 Ch. Suquet, Probabilités
8.3. Variables à densité
Z +∞
IE X := xf (x) dx.
−∞
0 si −∞ < x ≤ a;
x−a si a < x ≤ b;
F (x) = b−a
1 si b < x < +∞.
f (t) ✻
✲
a 0 bt
F (x)
✻
1
✦
✦
✦✦
✦✦
✦
✦✦ ✦
✦
✦ ✦ ✲
✦✦
a 0 b x
Proposition 8.12 Si X suit la loi uniforme sur [a, b], alors pour tout intervalle
I de R,
ℓ([a, b] ∩ I)
P (X ∈ I) = ,
ℓ([a, b])
où ℓ(J) désigne la longueur de l’intervalle J.
180 Ch. Suquet, Probabilités
8.4. Lois à densité classiques
En particulier pour I = [a, b] on voit que P (X ∈ [a, b]) = 1. Ainsi une variable
aléatoire de loi uniforme est bornée. Elle a donc des moments de tout ordre.
Calculons l’espérance et la variance.
Proposition 8.13 Si X suit la loi uniforme sur [a, b], son espérance et sa
variance sont données par :
a+b (b − a)2
IE X = , Var X = .
2 12
La valeur de l’espérance est conforme à l’intuition si l’on se rappelle l’interpré-
tation de l’espérance comme barycentre d’un système de masses : le centre de
gravité d’un fil homogène correspondant au segment [a, b] est bien le milieu de
ce segment.
Preuve :
Z +∞ Z b
x dx 1□ x2 □b a+b
IE X = xf (x) dx = = (b 2 − a2) =
= .
−∞ a b−a 2(b − a) a 2( b − a) 2
Le moment d’ordre deux se calcule de la même façon.
□
Z +∞ Z b x2 dx x3 □
b
b 1 2
= +ab+a2).
IE X2 = x2
f (x) dx = b−a = 3 − a3 (b
−∞ a
3(b − a) a = 3
b−a
Une des raisons de l’importance de la loi uniforme sur [0, 1] est le théorèm
e suivant.
ℓ([0, F (x)])
P (Y ≤ x) = P (F −1(U) ≤ x) = P (U ≤ F (x)) = = F (x).
ℓ([0, 1])
Ainsi Y a pour fonction de répartition F donc a même loi que X.
✲
0 1 2 t
✻
F (x)
1
✲
0 1 2 x
P (X > t + s) G(t + s)
P (X > t + s | X > t) = = . (8.8)
P (X > t) G(t)
Preuve de (ii) : Soit X une variable aléatoire dont la loi vérifie (8.7) et G sa
fonction de survie. Comme G = 1 − F (où F désigne la fonction de répartition
de X), G est décroissante et continue à droite et tend vers 0 en +∞. De plus
l’écriture de (8.7) suppose implicitement que G(t) > 0 pour tout t ≥ 0 car
sinon P ( . | X > t) ne serait pas définie. Grˆ ace à (8.8), on voit que la propriété
+ s) = G(s).
G(tG(t)
∈ R+, ∀ t ∈ R+,
∀s
La fonction de survie G doit donc être une solution décroissante, continue `
a droite, tendant vers 0 en +∞ et telle que 0 < G(t) ≤ 1 de l’équation fonction-
nelle4 :
∀ s ∈ R+, ∀ t ∈ R+, G(t + s) = G(t)G(s).(8.9)
4Une équation fonctionnelle est une équation dont l’inconnue est. . .une fonction ! Les équa-
G(0) = 1.(8.10)
En faisant s = t dans (8.9), on obtient G(2t) = G(t)2, puis de proche en proche
∀n ∈ N , ∀ t ≥ 0,
∗
G(nt) = G(t)n.(8.11)
En particulier pour t = 1/d, d ∈ N∗ :
□n □ □ 1 □n
∀n ∈ N , ∀d ∈ N ,
∗ ∗
G =G
d d . (8.12)
Lorsque n = d, (8.12) donne G(1) = G(1/d)d d’où
□ 1□
∀d ∈ N, ∗
G = G(1) /d.(8.13)
1
d
Nous connaissons maintenant G sur l’ensemble des rationnels positifs puisqu
e (8.10), (8.11), (8.12) et (8.13) nous donnent
∀r ∈ Q+ , G(r) = G(1)r.(8.14)
Soit x ∈ R+\Q+, x est limite d’une suite décroissante (rn) de rationnels. Comme
G est continue à droite, G(rn) converge vers G(x). D’autre part l’application y
7→ G(1)y est continue sur R. Ainsi en appliquant (8.14) à rn et en faisant
tendre n vers l’infini on obtient
A priori la constante G(1) est dans ]0, 1]. On peut écarter la valeur G(1) = 1
car sinon d’après (8.15), la limite en +∞ de G serait 1 alors qu’elle vaut 0.
Finalement, puisque 0 < G(1) < 1, on peut poser G(1) = e−a pour un réel
a > 0 (cela revient à prendre a = − ln G(1)). On peut alors réécrire (8.15) sous
la forme
∀ x ∈ R+, G(x) = e−ax.
La fonction de survie G est donc la même que celle de la loi exponentielle
de
paramètre a, donc X suit cette loi (puisque la fonction de survie caractérise l
a loi au même titre que la fonction de répartition).
1 □ (t − m)2 □
fm,σ : R −→ R+ t 7−→ √ exp − .
σ 2π 2σ2
La loi N (0, 1) est appelée loi normale standard.
Tous les calculs de probabilités concernant une variable aléatoire de loi N (m, σ)
peuvent se ramener à des calculs sur une variable de loi normale standard.
Proposition 8.18 Si la variable aléatoire X suit la loi N (m, σ), alors Y :=
(X − m)/σ suit la loi N (0, 1).
Preuve : On calcule P (a < Y ≤ b) pour a et b réels quelconques (a < b).
□ X −m □
P a< ≤ b = P (σa + m < X ≤ σb + m)
σ σb+m
1 □ (x − m)2 □
Z √ exp − dx.
= σa+m σ 2π 2σ2
Il suffit alors de faire le changement de variable y = (x − m)/σ pour obtenir
□ □
Z b 1 y2
IE X = m, Var X = σ2.
Une façon de le voir est d’intégrer par parties la densité f ,1. Pour celà considé-
0
Z a
1 □ y2 □
I(a) := √ exp − dy
−a
2π 2
□ □ y2 □□a Z a −y2 □ y2 □
y
I(a) = √
exp − − √ exp − dy
2π 2 −a −a 2π 2
2a □ a2 □ Z a y2 □ y2 □
= √ exp − + −a √ exp − dy.
2π 2 2π 2
Z +∞
1 □ y2 □ Z +∞ y2 □ y2 □
1= √ exp − dy = −∞ √ exp − dy.
−∞ 2π 2 2π 2
5Pour
aller plus vite, on a intégré sur un intervalle symétrique [−a, +a] parce que l’on sait
déjà que les intégrales généralisées concernées sont convergentes. Si l’on voulait se servir de
ce calcul pour montrer leur convergence, il faudrait bien sˆ ur intégrer sur un intervalle [−a, b]
et faire tendre a et b séparément vers +∞.
186 Ch. Suquet, Probabilités
8.5. Exercices
✲
m − 3σ m − 2σ m − σ m m + σ m + 2σ m + 3σ
✛ ✲
68, 3%
✛ ✲
95, 4%
✛
✲
99, 7%
8.5 Exercices
Ex 8.1. Le temps d’attente (en minutes) pour accéder à des données suit une
loi uniforme U [1, 6].
1) Déterminer la probabilité d’attendre au moins 4 minutes.
2) Déterminer le temps d’attente moyen.
Ex 8.2. Un arrêt de bus est desservi tous les quart d’heures à partir de 7
h du matin (inclus). Un passager arrive à l’arrêt à un instant aléatoire de loi
uniforme sur [7h ; 7h30]. Quelle est la probabilité qu’il attende moins de 5 m
n pour un bus ? plus de 10mn ?
Ch. Suquet, Probabilités 187
Chapitre 8. Variables aléatoires réelles
Ex 8.3. Soit F une fonction de répartition. On définit sur ]0, 1[ son inverse
généralisée F −1 par
u ≤ F (x) ⇒ F −1(u) ≤ x.
6)
Soit X une variable aléatoire de fonction de répartition F et U une
variable aléatoire de loi uniforme sur [0, 1]. Montrer que X et F −1(U) ont même
loi.
Ex 8.4. Soit X une variable aléatoire de loi uniforme sur [0, 1] et Y := 1 − X.
Trouver la fonction de répartition de Y et en déduire sa loi. Ceci fournit un
exemple élémentaire de deux variables à densité dont la somme est une variabl
e discrète.
Ex 8.5. Soit X une variable aléatoire de loi uniforme sur [0, 1] et Y la variable
aléatoire définie sur le même espace Ω par
□
X(ω) si X(ω) ∈ [0, 1/4] ∪ [3/4, 1];
Y (ω) :=
1 X(ω)
−
si X(ω) ∈ ]1/4, 3/4[.
Quelle est la loi de Y ? Trouver la fonction de répartition de la variable aléatoir
e Z := X + Y et vérifier que Z n’est ni discrète ni à densité.
Z b
(b − a) n+2
(t − a)n(b − t) dt = .
a (n + 1)(n + 2)
2) Exprimer la constante c en fonction de a et b.
□ □
3) Calculer IE(X − a) et IE (X − a)2 . En déduire IE X et Var X.
4) Donner la fonction de répartition F de la variable aléatoire X : on
distinguera pour le calcul de F (x) les cas x < a, a ≤ x ≤ b et x > b et, dans le
deuxième cas, on écrira F (x) en fonction de (x − a) et (b − x) sans développer
ni réduire le polynôme obtenu. Donner l’allure des représentations graphiques
de f et F . Proposer une interprétation physique des constantes a et b.
5) En notant Xi la consommation du i-ème jour et en supposant que les
Xi sont indépendantes et de même loi que X, exprimer à l’aide de F et de n
la fonction de répartition de la variable aléatoire Mn = max Xi. Indication :
1≤i≤n
On commencera par écrire l’événement {Mn ≤ x} en fonction des événements
{Xi ≤ x}.
6) En fait la ville est alimentée en eau par un canal qui peut fournir au
maximum une quantité journalière d’eau x0 = a + 0.9(b − a) et par un réservoir
de sécurité dans lequel elle peut puiser en cas de trop forte demande. Calcule
r
numériquement la probabilité qu’au cours des 31 jours du mois de juillet, on ne
fasse jamais usage du réservoir de sécurité (le résultat ne dépend ni de a ni de
b).
1
∀n ∈ N, cn = 2n + 1 cn+1.
en déduire une formule explicite pour IE X n. 2
Ch. Suquet, Probabilités 189
Chapitre 8. Variables aléatoires réelles
P (X ≥ x) =
x
A.1 Généralités
Soit Ω un ensemble ; A est un sous-ensemble (ou une partie) de Ω si tout
élément de A est aussi un élément de Ω (∀ ω ∈ A, ω ∈ Ω). On note A ⊂ Ω. On
appelle P(Ω) l’ensemble des parties de Ω ce que l’on peut noter1
P(Ω) = {A; A ⊂ Ω}.
ainsi les écritures A ⊂ Ω et A ∈ P(Ω) sont deux façons de dire la même chose2.
Si A et B sont deux parties du même ensemble Ω, on dit que A est inclus
dans B (notation A ⊂ B) si tout élément de A est aussi élément de B (∀ ω ∈ A,
ω ∈ B), autrement dit, si l’appartenance à A implique l’appartenance à B :
A⊂B signifie ∀ω ∈ Ω, (ω ∈ A) ⇒ (ω ∈ B).
Soit I un ensemble quelconque d’indices (fini ou infini) et (Ai)i I une famille
∈
P (Ai),
P ∪N Ai = i=1 ∗
i∈
1Dans toutes les écritures d’ensembles entre accolades, nous utilisons le point virgule au
sens de « tel que ».
2Noter cependant la différence de statut de A : dans la première écriture, A est considéré
comme un ensemble, dans la deuxième comme un élément d’un ensemble d’un type un peu
particulier.
191
Annexe A. Ensembles et dénombrements
□ □c □ □c
∩ Ai Ac.
= ∪ Ac ∪ Ai = ∩
i
i ∈I
i∈ I i∈I i∈I i
On définit le produit cartésien de deux ensembles E et F noté E × F par :
E × F := {(x, y); x ∈ E, y ∈ F }.
Attention dans cette écriture (x, y) ne désigne en aucune façon un ensemble
mais un couple d’éléments (l’ordre d’écriture a une importance). Pour éviter
toute confusion, on utilise des accolades pour la description des ensembles e
t des parenthèses pour les couples , triplets, etc, d’éléments.
L’ensemble E2 = E × E = {(x1, x2); x1 ∈ E, x2 ∈ E} peut être utilisé pour
représenter l’ensemble de toutes les applications de {1, 2} dans E (le couple
(x1, x2) correspondant à l’application f : {1, 2} → E définie par f (1) = x1
et f (2) = x2). Il pourrait de la même façon représenter les applications d’un
ensemble à deux éléments dans E (remplacer les chiffres 1 et 2 par n’importe
quelle paire de symboles distincts : 0 et 1, a et b, etc.).
192 Ch. Suquet, Probabilités
A.2. Ensembles finis
card
(b) Comme P(E) est en bijection avec l’ensemble {0, 1}E des applications
de E dans {0, 1},
card P(E) = 2n = 2card E.
Une bijection naturelle entre P(E) et {0, 1}E est l’application ϕ qui à toute
partie A de E associe sa fonction indicatrice :
n! .
Apn = n(n − 1)(n − 2) · · · (n − p + 1) = (n − p)!
Apn est aussi le nombre d’injections d’un ensemble I de cardinal p (par exemple
{1, . . . , p}) dans E. En particulier pour I = E (et donc p = n), on obtient le
nombre de bijections de E dans lui même (appelées aussi permutations de E) :
n(n − 1)(n − 2) · · · (n − p + 1) n!
Cp = = .
p(p − 1) · · · 1
n
p!(n − p)!