Chap 2 Ifp 04
Chap 2 Ifp 04
Chap 2 Ifp 04
Applications mesurables
1
Pour les lecteurs ne connaissant que les espaces métriques, nous définirons aussi cette topologie à
partir d’une distance.
45
Chapitre 2. Applications mesurables
f˜−1 (+∞)
d(x, y)
w
x y
f˜−1 (w)
f˜−1 (−∞)
Remarquons que pour cette distance, d(−∞, +∞) = 2. Notons au passage que dans
l’espace (R, d), R est la boule ouverte de centre 0 et de rayon 1, c’est donc un ouvert
de R. Voyons de plus près la relation entre les boules ouvertes de [−1, 1] et celles de
(R, d). Notons ∆(t0 , r) la boule ouverte de centre t0 et de rayon r dans l’espace métrique
([−1, 1], δ) où δ est la métrique usuelle δ(s, t) := |s − t|. Il est clair que ∆(t0 , r) =
]t0 − r, t0 + r[∩[−1, 1]. Soit B(c, r) la boule de centre c ∈ R et de rayon r dans l’espace
métrique (R, d). Vu la définition de d, cette boule peut s’écrire en posant t0 := f˜−1 (c),
= f˜ ]t0 − r, t0 + r[∩[−1, 1]
= f˜ ∆(t0 , r) .
Ainsi les boules ouvertes de (R, d) sont exactement les images par f˜ des boules ouvertes
de ([−1, 1], δ). En voici la liste exhaustive, classée en trois types, les droites, les demi-
droites et les segments ouverts.
– droites : [−∞, +∞], ] − ∞, +∞], [−∞, +∞[, ] − ∞, +∞[ ;
– demi-droites : ] − ∞, a[, [−∞, a[, ]a, +∞[, ]a, +∞], a étant un réel quelconque ;
– segments ouverts : ]a, b[ (a, b réels quelconques, avec a < b). L’intervalle ]a, b[ est
la boule ouverte de centre c tel que 2 arctan c = arctan a + arctan b et de rayon
r = π1 (arctan b − arctan a).
Par restriction à R, on voit ainsi que dans l’espace métrique (R, d), la famille des
boules ouvertes est constituée des segments ouverts et des intervalles de la forme ]−∞, a[,
]a, +∞[, a ∈ R et de R =] − ∞, +∞[. Les boules ouvertes de (R, d) qui ne sont pas des
segments ouverts sont clairement réunions de segments ouverts. Les ouverts de (R, d)
qui sont par définition, les réunions de boules ouvertes sont donc aussi les réunions de
segments ouverts. Or la famille des segments ouverts est exactement la famille des boules
ouvertes de l’espace métrique (R, δ) où δ est la métrique usuelle δ(x, y) := |x − y|. Ainsi
les deux métriques d et δ génèrent la même topologie sur R (i.e. ont les mêmes ouverts).
Elles sont donc équivalentes.
Remarque 2.1.
i) Tout ouvert de R est aussi un ouvert de R.
ii) Si W est un ouvert de R, W ∩ R est ouvert de R.
Justification. Si V est ouvert de R, il est union de segments ouverts qui sont aussi des
boules ouvertes de R, donc V est ouvert de R. Soit W un ouvert de R. Il s’écrit ∪i∈I Bi
où les Bi sont des boules ouvertes de R et W ∩ R = ∪i∈I (Bi ∩ R). Si certaines des Bi
contiennent −∞ ou +∞, l’intersection avec R les transforme en intervalles ouverts de
R (exemple : [−∞, a[∩R =] − ∞, a[) qui sont eux-mêmes unions de segments ouverts.
Ainsi W ∩ R est union de segments ouverts de R, donc ouvert de R.
Ayant maintenant défini une topologie sur R, on peut le munir de la tribu borélienne
correspondante. Il est alors naturel de se demander si les boréliens de R diffèrent beau-
coup de ceux de R. Notons auparavant que Bor(R) n’est pas une tribu sur R (puisque
R∈ / Bor(R)) et que Bor(R) n’est pas davantage une tribu sur R puisque R ∈ Bor(R) et
R 6⊂ R.
Proposition 2.2.
a) Si B est un borélien de R, B ∩ R est un borélien de R.
b) Tout borélien de R est aussi un borélien de R.
c) B est un borélien de R si et seulement si B = A ∪ C où A est un borélien de R et
C est l’un des ensembles ∅, {−∞}, {+∞}, {−∞, +∞}.
Preuve du a). Considérons la famille F de parties de R définie par :
F := E ∈ P(R); E ∩ R ∈ Bor(R) .
Il est immédiat de vérifier que F est une tribu sur R. Grâce à la remarque 2.1 ii), F
possède tous les ouverts de R. Par minimalité, elle contient donc la tribu engendrée
par ces ouverts, c’est-à-dire Bor(R). L’inclusion Bor(R) ⊂ F n’est qu’une autre façon
d’écrire a) qui est ainsi établie.
Preuve du b). La famille G de parties de R définie par :
est une tribu 2 sur R. En effet il est clair que G possède l’ensemble vide et est stable
par union dénombrable. Pour la stabilité par complémentaire, on observe que si A ∈ G,
2
Attention, c’est l’intersection de deux tribus sur des ensembles Ω1 et Ω2 différents, on ne peut donc
pas appliquer ici la proposition 1.5.
+∞ si 0 < a ≤ +∞,
a × (+∞) = (+∞) × a = (2.3)
0 si a = 0.
L’addition et la multiplication ainsi prolongées restent commutatives et associatives. La
multiplication reste distributive par rapport à l’addition. Par contre il convient d’être
prudent chaque fois qu’apparaissent une soustraction ou une division. En particulier les
règles de simplification habituelles ne s’étendent pas : a + b = a + c n’implique b = c que
si a est fini et ab = ac n’implique b = c que si 0 < a < +∞.
Au premier abord, la convention 0 × (+∞) = 0 dégage une odeur sulfureuse car elle
paraı̂t contradictoire avec la notion de forme indéterminée du type « 0 × (+∞) ». Cette
contradiction n’est qu’apparente. La multiplication M , définie sur R2+ par M (a, b) = ab,
2
a été prolongée par (2.3) à R+ en conservant de bonnes propriétés algébriques, mais on
ne prétend pas que ce prolongement de M soit continu aux points (0, +∞) et (+∞, 0).
La notion de forme indéterminée du type « 0 × (+∞) » nous dit précisément qu’il est
impossible de prolonger M en ces points en préservant sa continuité : si (xn ) et (yn )
sont deux suites dans R+ convergentes l’une vers 0 et l’autre vers +∞ (donc (xn , yn )
2
converge vers (0, +∞) dans R+ ), la suite M (xn , yn ) = xn yn peut selon les cas converger
vers n’importe quel élément de R+ ou même n’avoir aucune limite.
2.3 Mesurabilité
Définition 2.5. Soient (Ω1 , F1 ) et (Ω2 , F2 ) deux espaces mesurables. L’application f :
Ω1 → Ω2 est dite F1 -F2 mesurable si pour tout B ∈ F2 , f −1 (B) ∈ F1 , autrement dit si
f −1 (F2 ) ⊂ F1 .
Remarque 2.6. Il est clair d’après la définition de la mesurabilité d’une application,
que celle-ci est conservée chaque fois que l’on diminue (au sens de l’inclusion) la tribu
de l’espace d’arrivée ou que l’on agrandit celle de l’espace de départ.
S’il n’y a pas d’ambiguı̈té sur les tribus concernées, on pourra se contenter de dire
« mesurable » au lieu de « F1 -F2 mesurable ». Les applications mesurables jouent un rôle
central dans la théorie de l’intégration abstraite. Elles permettent de « transporter » la
mesure d’un espace vers un autre. Quand l’espace d’arrivée est Ω2 = R avec F2 =
Bor(R), ce sont elles qui ont vocation à être intégrées. Dans le langage de la théorie des
probabilités, les applications mesurables correspondent à la notion de variable aléatoire.
Définition 2.7. Soit (Ω, F) un espace probabilisable. On appelle variable aléatoire réelle
sur (Ω, F) toute application X : Ω → R, F-Bor(R) mesurable. De même on appelle
variable aléatoire complexe sur (Ω, F) toute application X : Ω → C, F-Bor(C) mesurable
et vecteur aléatoire, toute application X : Ω → Rd , F-Bor(Rd ) mesurable (d > 1).
Rappelons que du point de vue mathématique, un espace probabilisable n’est rien
d’autre qu’un espace mesurable, c’est-à-dire un ensemble Ω muni d’une tribu de parties
de Ω. L’emploi de l’adjectif « probabilisable » au lieu de mesurable indique seulement
l’intention que l’on a de munir cet espace d’une (ou de plusieurs !) mesure de probabi-
lité P.
Définition 2.8. Soit (Ω, F) un espace probabilisable. On appelle variable aléatoire dis-
crète (réelle, resp. complexe) sur (Ω, F) toute application X : Ω → K (K = R, resp.
C), telle que X(Ω) est au plus dénombrable et X est F-P(K) mesurable. De même on
appelle vecteur aléatoire discret, toute application X : Ω → Rd , telle que X(Ω) est au
plus dénombrable et X est F-P(Rd ) mesurable (d > 1).
En vertu de la remarque 2.6, une variable aléatoire discrète réelle (resp. complexe)
est aussi une variable aléatoire réelle (resp. complexe) et un vecteur aléatoire discret est
aussi un vecteur aléatoire, au sens de la définition 2.7.
Un exemple simple, mais important, d’application mesurable de Ω dans R (et de
variable aléatoire discrète) est l’indicatrice 1A d’un élément A de la tribu F :
1 si ω ∈ A,
1A (ω) :=
0 si ω ∈ / A.
En effet pour tout B ⊂ R, on a
∅ si 0 ∈ / B et 1 ∈
/ B,
A si 0 ∈ / B et 1 ∈ B,
(1A )−1 (B) = c
A si 0 ∈ B et 1 ∈ / B,
Ω si 0 ∈ B et 1 ∈ B.
On vient de vérifier que (1A )−1 P(Ω) = σ({A}). L’application 1A est donc σ({A})-
P(R) mesurable. Elle est donc aussi F-B mesurable pour toute tribu F possédant A et
toute tribu B incluse dans P(R) d’après la remarque 2.6. De même, le lecteur vérifiera
aisément qu’une fonction constante Ω → R est mesurable pour toute tribu sur Ω et toute
tribu sur R.
En dehors de ces exemples élémentaires, il est généralement assez difficile, voire par-
fois impossible, de tester directement l’appartenance de f −1 (B) à F1 pour tout B ∈ F2 ,
en raison notamment de l’absence de description exhaustive des éléments de F2 quand
cette tribu est assez riche (cas de la tribu Bor(R)). La proposition suivante nous montre
qu’en fait, il suffit de restreindre ce test aux éléments B d’une famille génératrice de F2 .
Proposition 2.9. Soient (Ω1 , F1 ) et (Ω2 , F2 ) deux espaces mesurables et S une famille
de parties de Ω2 engendrant F2 (σ(S) = F2 ). L’application f : Ω1 → Ω2 est F1 -F2
mesurable si pour tout B ∈ S, f −1 (B) ∈ F1 , autrement dit si f −1 (S) ⊂ F1 .
Démonstration. Comme F1 est une tribu sur Ω1 , l’hypothèse f −1 (S) ⊂ F1 implique par
minimalité l’inclusion de tribus σ f −1 (S) ⊂ F1 . Or nous savons par la Proposition 1.11)
que σ f −1 (S) = f −1 σ(S) . Comme σ(S) = F2 , nous venons ainsi de vérifier l’inclusion
Comme la tribu P(K) possède les singletons, il est clair que cette condition suffisante
est aussi nécessaire. La caractérisation de la F-P(K) mesurabilité de X par (2.4) avait
été prise comme définition d’une variable aléatoire discrète en DEUG (voir [ICP, Déf.
3.1]).
Démonstration. Posons Ω2 := X(Ω), Ωc2 := K \ Ω2 et notons S la famille des singletons
de Ω2 . Comme Ω2 est au plus dénombrable, σ(S) = P(Ω2 ). Donc par la proposition 2.9,
X considérée comme application Ω → Ω2 est F-P(Ω2 ) mesurable, d’où
Notons qu’il n’y a pas ici d’ambiguı̈té sur l’écriture X −1 (A) qui représente le même
ensemble, que l’on prenne Ω2 ou K pour ensemble d’arrivée de l’application X. Soit
maintenant B ∈ P(K) quelconque. En écrivant
X −1 (B) = X −1 (B ∩ Ω2 ) ∪ X −1 (B ∩ Ωc2 ),
Définition 2.12. Soient (Ω1 , T1 ) et (Ω2 , T2 ) deux espaces topologiques, munis de leurs
tribus boréliennes respectives B1 = σ(T1 ) et B2 = σ(T2 ). Une application f : Ω1 → Ω2
est dite borélienne si elle est B1 -B2 mesurable.
Proposition 2.13. Soient (Ω1 , T1 ) et (Ω2 , T2 ) deux espaces topologiques. Toute applica-
tion continue f : Ω1 → Ω2 est borélienne.
Démonstration. Soit V ∈ T2 un ouvert de Ω2 . Par continuité de f , f −1 (V ) est un ouvert
de Ω1 , c’est-à-dire un élément de T1 . C’est donc aussi un élément de B1 = σ(T1 ). Ceci
étant vrai pour tout V , on a ainsi établi l’inclusion f −1 (T2 ) ⊂ B1 . Par la proposition 2.9,
ceci implique la B1 -B2 mesurabilité de f qui est donc bien borélienne.
Nous examinons maintenant l’effet sur la mesurabilité des opérations usuelles sur les
fonctions.
Proposition 2.14. Soient (Ωi , Fi ), i = 1, 2, 3 des espaces mesurables, f : Ω1 → Ω2 une
application F1 -F2 mesurable et g : Ω2 → Ω3 , F2 -F3 mesurable. Alors g ◦ f est F1 -F3
mesurable.
Démonstration. Soit C ⊂ Ω3 . En appliquant de façon répétée la définition de l’inverse
ensembliste, on obtient :
(g ◦ f )−1 (C) = {ω ∈ Ω1 ; (g ◦ f )(ω) ∈ C}
= {ω ∈ Ω1 ; g f (ω) ∈ C}
= {ω ∈ Ω1 ; f (ω) ∈ g −1 (C)}
{ω ∈ Ω1 ; ω ∈ f −1 g −1 (C) }
=
f −1 g −1 (C) .
=
En prenant C quelconque dans F3 , on en déduit
(g ◦ f )−1 (F3 ) = f −1 g −1 (F3 ) .
Démonstration. Par souci de concision (on ne rit pas. . .), nous laissons au lecteur le soin
de préciser les tribus concernées par les mesurabilités évoquées ci-dessous.
Pour i), supposons f et g mesurables, alors (f, g) : Ω → R2 l’est aussi (cf. Prop. 2.15).
En composant avec l’application continue R2 → C, (x, y) 7→ x + iy, on obtient la
mesurabilité de f + ig (cf. Prop. 2.13). Réciproquement, les projections π1 et π2 de C sur
respectivement l’axe réel et l’axe des imaginaires purs étant continues, la mesurabilité
de f + ig entraı̂ne celles de f = π1 ◦ (f + ig) et g = π2 ◦ (f + ig) (cf. Prop. 2.13 et
Prop. 2.14).
Pour ii), on pose h = (f, g), s : R2 → R, (x, y) 7→ x + y, p : R2 → R, (x, y) 7→ xy,
pc : R → R, x 7→ cx, a : R → R, x 7→ |x|. Les applications p, s, pc et a sont continues
donc boréliennes. On utilise alors les propositions 2.14 et 2.15 en notant que : f +g = s◦h,
f g = p◦h, cf = pc ◦f , |f | = a◦f . Le cas complexe se ramène au cas réel après séparation
des parties réelles et imaginaires des fonctions.
Pour iii), on note m et M les applications continues de R2 dans R définies par
m(x, y) = min(x, y) et M (x, y) = max(x, y) et on obtient les mesurabilités souhaitées
par composition puisque min(f, g) = m ◦ h et max(f, g) = M ◦ h. Rappelons à cette
occasion, que si min(x, y) est toujours égal à l’un des deux nombres x ou y, la fonction
min(f, g) n’est en général égale à aucune des deux fonctions f et g.
La nécessité de la mesurabilité de f + et f − dans iv) découle de iii) avec g = 0 (et aussi
de ii) avec c = −1). La suffisance provient de ii) en remarquant que f = f + − f − .
k k+1 k+1
f (ω) ≤ g(ω) < +∞ ⇔ ∀n ∈ N, ∃k ∈ N, n
≤ g(ω) < n
et f (ω) < . (2.6)
2 2 2n
L’implication directe est évidente. Pour la réciproque, le cas n = 0 donne la finitude
de g(ω). D’autre part k = k(n, ω) est unique pour ω et n fixés. Il est clair que un :=
2−n (k(n, ω) + 1) tend vers g(ω) quand n tend vers +∞ puisque 0 ≤ un − g(ω) ≤ 2−n . En
passant à la limite dans l’inégalité f (ω) < un , on en déduit f (ω) ≤ g(ω). La traduction du
second membre de l’équivalence (2.6) en opérations ensemblistes nous donne maintenant
la représentation
\ [ h k k + 1 h h k + 1 h
−1 −1
{f ≤ g < +∞} = g n
, n ∩f 0, n .
n∈N k∈N
2 2 2
Démonstration. Pour traiter d’un coup les deux situations, notons K0 l’ensemble d’arri-
vée « initial » (K0 = R ou R+ ), K l’ensemble d’arrivée « élargi » et Kc0 := K \ K0 .
Soit B ∈ Bor(K), on peut l’écrire B = (B ∩ K0 ) ∪ (B ∩ Kc0 ), d’où
f −1 (B) = f −1 (B ∩ K0 ) ∪ f −1 (B ∩ Kc0 ) = f −1 (B ∩ K0 ),
Proposition 2.19. Soient (Ω, F) un espace mesurable et (fn )n≥1 une suite d’applications
F-Bor(R) mesurables Ω → R. Alors h := supn≥1 fn est F-Bor(R) mesurable. De même,
si les fn sont à valeurs dans R+ et F-Bor(R+ ) mesurables, h est F-Bor(R+ ) mesurable.
Démonstration. La tribu borélienne de R étant engendrée par les [−∞, a], il suffit de
montrer que pour tout a ∈ R, h−1 ([−∞, a]) ∈ F (cf. Cor. 2.10 iii). On remarque d’abord
que si (un )n≥1 est une suite dans R, on a l’équivalence 4
sup un ≤ a ⇐⇒ ∀n ∈ N∗ , un ≤ a.
n∈N∗
Corollaire 2.20. Soient (Ω, F) un espace mesurable et (fn )n≥1 une suite d’applications
F-Bor(R) mesurables Ω → R.
i) Les fonctions supn≥1 fn et inf n≥1 fn sont F-Bor(R) mesurables.
3
On est obligé de garder K comme ensemble d’arrivée pour h car le supremum d’une suite de fonctions
à valeurs finies peut très bien prendre la valeur +∞.
4
Attention, cette équivalence ne subsiste pas si l’on remplace les inégalités larges par des inégalités
strictes. Dans ce cas on aurait toujours « ⇒ » mais plus « ⇐ ».
ii) Les fonctions lim supn→+∞ fn et lim inf n→+∞ fn sont F-Bor(R) mesurables.
iii) Si f est limite simple sur Ω de fn (c’est-à-dire si ∀ω ∈ Ω, fn (ω) → f (ω) ∈ R), f
est F-Bor(R) mesurable.
Cet énoncé reste valable en remplaçant partout R par R+ .
On peut faire ici aussi la même remarque qu’après la proposition 2.19, pour le cas
où les fn sont à valeurs dans R ou R+ .
Démonstration. Pour i), il suffit de remarquer que inf n≥1 fn = − supn≥1 (−fn ). Pour ii),
on se ramène à i) en écrivant
Enfin, si f est limite simple de fn , f = lim supn→+∞ fn , donc iii) découle de ii).
Dans le cas où les fn sont à valeurs dans R+ , la seule chose à changer est la justification
de la mesurabilité de g := inf n≥1 fn . La tribu borélienne de R+ est engendrée par la
famille J10 := {[a, +∞]; a ∈ R+ } et l’équivalence
inf un ≥ a ⇐⇒ ∀n ∈ N∗ , un ≥ a,
n∈N∗
nous permet d’écrire g −1 ([a, +∞]) = ∩ ∗ fn−1 ([a, +∞]), justifiant ainsi l’appartenance à
n∈N
F de g −1 ([a, +∞]) et la mesurabilité de g.
Comme f est mesurable, les An,k sont dans F, ce qui entraı̂ne la mesurabilité de fn
(Prop. 2.22).
Il reste à vérifier que pour tout ω ∈ Ω, la suite de réels fn (ω) n≥1 est croissante et
converge dans R vers f (ω).
Réglons d’abord le cas où f (ω) = +∞. Alors pour tout n, fn (ω) = n, ce qui nous
donne bien une suite croissante convergente vers +∞ = f (ω).
Si f (ω) < +∞, fn (ω) = n pour n ≤ [f (ω)] (on note [x] la partie entière de x, unique
entier m tel que m ≤ x < m + 1) et pour n > [f (ω)],
k(n, ω) n l l o
fn (ω) = = max ; ≤ f (ω), l ∈ N . (2.8)
2n 2n 2n
La suite finie fn (ω) n≤[f (ω)] est clairement croissante. Regardons la suite fn (ω) n>[f (ω)] .
D’après (2.8), on a
k(n, ω) 2k(n, ω) 2k(n, ω) k(n + 1, ω)
fn (ω) = n
= n+1
≤ f (ω) ⇒ n+1
≤ = fn+1 (ω),
2 2 2 2n+1
d’où la croissance de la suite fn (ω) n>[f (ω)] . Pour établir définitivement la croissance
de toute la suite fn (ω) n≥1 , il ne reste plus qu’à examiner le point de raccord des deux
sous-suites, donc à comparer fn (ω) et fn+1 (ω) pour n = [f (ω)]. Il suffit de remarquer
que fn (ω) = n = (n2n+1 )2−n−1 ≤ f (ω) et comme fn+1 (ω) est donné par (2.8), on a
(n2n+1 )2−n−1 ≤ k(n + 1, ω)2−n−1 = fn+1 (ω).
La convergence est immédiate, puisque pour n > [f (ω)], on a d’après (2.8)
1
fn (ω) ≤ f (ω) < fn (ω) + ,
2n
d’où 0 ≤ f (ω) − fn (ω) < 2−n .
Remarque : La convergence est uniforme sur Ω si f est bornée (i.e. M := supΩ f < +∞)
car pour n > M , on a pour tout ω ∈ Ω, 0 ≤ f (ω) − fn (ω) < 2−n .
Pour illustrer
p la convergence de fn vers f , on a choisi ci-dessous Ω = [0, 4], f (x) =
2 + sin(x2 ) |x − 1| et représenté les fonctions étagées f1 , f2 et f3 (figures 2.2 à 2.4).
Corollaire 2.24. Soit (Ω, F) un espace mesurable. Une fonction g : Ω → R est F-
Bor(R) mesurable si et seulement si elle est limite simple sur Ω d’une suite de fonctions
étagées F-Bor(R) mesurables.
Démonstration. On sait déjà qu’une limite simple de fonctions mesurables est mesurable
(Cor. 2.20 iii). Dans l’autre sens, on écrit g = g + − g − et on utilise le théorème 2.23 en
remarquant que pour tout ω au plus une seule des deux valeurs g + (ω) et g − (ω) est non
nulle et que si f (ω) = 0 dans le Th. 2.23, alors tous les fn (ω) sont nuls. Ceci permet de
découper Ω en trois parties disjointes {g = 0}, {g > 0} et {g < 0} sur chacune desquelles
on applique le théorème 2.23.
2.5.1 Généralités
Proposition 2.25. Soient (Ωi , Fi ), i = 1, 2 des espaces mesurables, µ une mesure sur
(Ω1 , F1 ) et f : Ω1 → Ω2 une application F1 -F2 mesurable. La fonction d’ensembles µ◦f −1
définie sur F2 par
∀B ∈ F2 , (µ ◦ f −1 )(B) := µ f −1 (B)
0
0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Fig. 2.2 – f et f1
0
0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Fig. 2.3 – f et f2
0
0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Fig. 2.4 – f et f3
On a donc vérifié que ν est une mesure sur (Ω2 , F2 ). Remarquons au passage que ν(Ω2 ) =
µ(Ω1 ) car f −1 (Ω2 ) = Ω1 .
La notion de mesure image est particulièrement utile en théorie des probabilités
puisqu’elle permet de transporter la probabilité d’un espace probabilisé abstrait sur un
espace plus familier, comme Rd ou l’une de ses parties.
Définition 2.26. Soit (Ω, F, P) un espace probabilisé et X : Ω → Rd un vecteur aléa-
toire. La mesure image PX := P ◦ X −1 qui est une probabilité sur Bor(Rd ), est appelée
loi du vecteur aléatoire X sous P (de la variable aléatoire X si d = 1).
La loi de X sous P est donc la mesure de probabilité définie par
L’usage est aussi d’abréger « loi de X sous P » en « loi de X » quand il n’y a pas d’am-
biguı̈té, c’est-à-dire quand on n’envisage qu’une seule mesure de probabilité sur (Ω, F).
Remarquons que la définition de X ne présuppose pas l’existence de P. Remarquons
aussi que deux variables aléatoires définies sur le même espace peuvent avoir même
loi sans être égales, voire même avoir même loi sans être définies sur le même espace
probabilisé. . .
Notons enfin que les situations où l’on munit (Ω, F) de plusieurs mesures de proba-
bilité (et où il peut être utile de préciser sous quelle mesure on considère la loi de X)
n’ont rien d’exceptionnel. On peut en mentionner deux d’importance fondamentale : le
conditionnement et le modèle statistique (voir les sous-sections 2.5.4 et 2.5.5 ci-après).
Proposition 2.27 (Loi d’une variable aléatoire discrète). Soient (Ω, F, P) un
espace probabilisé et X : Ω → K une variable aléatoire discrète ou un vecteur aléatoire
discret (au sens de la définition 2.8, avec K = R, C ou Rd , d > 1). La loi de X sous P
est la mesure PX sur P(K), donc aussi par restriction sur Bor(K), donnée par :
X
PX = P(X = x)δx , (2.9)
x∈X(Ω)
où δx désigne la mesure de Dirac au point x. Rappelons qu’ici X(Ω) est au plus dénom-
brable, le second membre de (2.9) est donc une somme finie ou une série de mesures
finies.
Lois de Bernoulli
Définition 2.28. La variable aléatoire X suit la loi de Bernoulli de paramètre p (p ∈
[0, 1]) si X(Ω) = {0, 1} et
P(X = 1) = p, P(X = 0) = 1 − p = q.
On notera X ∼ Bern(p).
Si A est un événement de probabilité p, son indicatrice 1A est une variable aléatoire
suivant la loi de Bernoulli de paramètre p. Réciproquement, si X est une v.a. de Bernoulli,
on peut toujours écrire X = 1A en définissant A := {ω ∈ Ω, X(ω) = 1}.
Lois binomiales
Définition 2.30. La variable aléatoire X suit la loi binomiale de paramètres n et p
(n ∈ N∗ et p ∈ [0, 1]) si l’ensemble des valeurs possibles est X(Ω) = {0, 1, . . . , n} et
∀k = 0, 1, . . . , n, P(X = k) = Cnk pk (1 − p)n−k .
Notation : X ∼ Bin(n, p).
La loi binomiale Bin(n, p) est la loi du nombre de succès obtenus en une suite de n
épreuves répétées indépendantes avec pour chaque épreuve une probabilité de succès p.
Plus généralement, soit A1 , . . . , An une famille de n événements mutuellement indé-
pendants ayant tous même probabilité p et notons Xi = 1Ai . Alors la variable aléatoire
Xn
Sn = Xi suit la loi binomiale Bin(n, p).
i=1
Lois hypergéométriques
Alors que la loi binomiale intervient dans les tirages avec remise, la loi hypergéomé-
trique correspond aux tirages sans remise.
Exemple 2.1. Dans une production totale de N objets dont M sont défectueux, on
prélève au hasard un échantillon de n objets (tirage sans remise). Soit X le nombre
aléatoire d’objets défectueux dans l’échantillon. Quelle est sa loi ?
En considérant tous les échantillons possibles comme équiprobables, un peu de dé-
nombrement mène à la formule suivante :
k
× CNn−k
CM −M 0 ≤ k ≤ M,
P(X = k) = si (2.12)
CNn 0 ≤ n − k ≤ N − M.
5
Au sens de l’exemple 1.4 du chapitre précédent.
Définition 2.31. La loi définie par (2.12) s’appelle loi hypergéométrique de paramètres
N , M et n. Notation : X ∼ Hypg(N, M, n). Le paramètre N est l’effectif de la population
totale, M celui de la sous-population à laquelle on s’intéresse et n la taille de l’échantillon
observé.
Pour une taille d’échantillon n fixée, plus N et M sont grands, moins les tirages
sans remise diffèrent des tirages avec remise. Plus précisément, la loi hypergéométrique
converge vers la loi binomiale au sens suivant.
Théorème 2.32. On suppose que quand N tend vers +∞, M = M (N ) tend vers +∞
en vérifiant la condition :
M
lim =p avec 0 < p < 1. (2.13)
N →+∞ N
Alors, n restant fixé, la loi hypergéométrique Hypg(N, M, n) converge vers la loi bino-
miale Bin(n, p), ce qui signifie ici que si (XN )N ≥1 est une suite de v.a. avec XN ∼
Hypg(N, M, n) et Y est une v.a. de loi Bin(n, p),alors :
autrement dit :
k
CM × CNn−k
−M
∀k = 0, 1, . . . , n, lim n
= Cnk pk (1 − p)n−k . (2.15)
N →+∞ CN
Lois multinomiales
Définition 2.33. Le vecteur aléatoire X : Ω → Rd suit la loi multinomiale de paramètres
n et (p1 , . . . , pd ) où n ∈ N∗ et les pi sont strictement positifs et de somme 1 si X(Ω) est
l’ensemble des d-uples (j1 , j2 , . . . , jd ) d’entiers tels que j1 + j2 + · · · + jd = n et si
n!
pj11 pj22 . . . pjdd .
∀(j1 , j2 , . . . , jd ) ∈ X(Ω), P X = (j1 , j2 , . . . , jd ) =
j1 !j2 ! . . . jd !
Notation : X ∼ Mult(n; p1 , . . . , pd )
Rappelons que la loi multinomiale sert à modéliser le total des résultats de chaque
type observés dans une suite d’épreuves répétées indépendantes ayant chacune d types
de résultats possibles. Par exemple si on lance 200 fois un dé, on obtient un vecteur
de dimension 6 dont la i-ème composante est le nombre total d’apparitions de la face
numéro i au cours des 200 lancers. Ce vecteur suit la loi multinomiale de paramètres
200 et (p1 , p2 , p3 , p4 , p5 , p6 ), où pi est la probabilité d’apparition de la face no i lors d’un
lancer.
Lois géométriques
Définition 2.34. Une variable aléatoire X suit la loi géométrique de paramètre p ∈]0, 1[,
si X(Ω) = N∗ et :
∀k ∈ N∗ , P(X = k) = (1 − p)k−1 p.
Notation : X ∼ Geom(p).
La situation typique où intervient la loi géométrique est celle du « temps d’attente
du premier succès » dans une suite infinie d’épreuves répétées indépendantes avec même
probabilité de succès p ∈]0, 1[. Si X désigne le numéro (aléatoire) de la première épreuve
où l’on obtient un succès, on vérifie facilement que P(X = k) = (1 − p)k−1 p pour tout
k ∈ N∗ . En toute rigueur X est à valeurs dans N∗ en attribuant à X la valeur +∞
lorsqu’aucune épreuve de la suite ne donne un succès. On voit facilement que P(X =
+∞) = 0, ce qui permet de considérer X comme une variable à valeurs dans N∗ (en
modifiant Ω et F, voir à ce sujet le corrigé du Problème de l’examen de septembre 2003).
Lorsque X suit une loi géométrique, les probabilités P (X > n) ont une expression
particulièrement simple en fonction de q = 1 − p .
P(X > n) = q n .
Cette formule permet de vérifier facilement la propriété d’« absence de mémoire en temps
discret » :
Proposition 2.35. Si X suit la loi géométrique de paramètre p,
∀n, k ∈ N∗ , P(X > n + k | X > n) = P(X > k). (2.16)
La preuve est laissée en exercice, de même que la réciproque : si une variable aléatoire
X à valeurs dans N∗ vérifie (2.16), elle suit une loi géométrique.
Lois de Poisson
Définition 2.36. On dit que la variable aléatoire discrète X suit la loi de Poisson de
paramètre α > 0 si X(Ω) = N et
e−α αk
∀k ∈ N, P(X = k) = .
k!
Notation : X ∼ Pois(α).
Une des raisons de l’importance de cette loi est le théorème de convergence de la loi
binomiale vers la loi de Poisson.
Théorème 2.37. Si (pn )n≥1 est une suite de réels de [0, 1] vérifiant
npn → α ∈]0, +∞[, quand n → +∞, (2.17)
alors :
e−α αk
∀k ∈ N, Cnk pkn (1 − pn )n−k −→ , quand n → +∞.
k!
Définition 2.38. Soit A un borélien de Rd tel que 0 < λd (A) < +∞, λd désignant la
mesure de Lebesgue sur Rd . Le vecteur aléatoire X : Ω → Rd suit la loi uniforme sur A
si
λd (A ∩ B)
∀B ∈ Bor(Rd ), P(X ∈ B) = . (2.18)
λd (A)
Notation : X ∼ Unif(A).
P(B ∩ H)
∀B ∈ F, PH (B) := P(B | H) = .
P(H)
Définition 2.39. Soient (Ω, F, P) un espace probabilisé, H ∈ F tel que P(H) > 0, X
un vecteur aléatoire à valeurs dans Rd et défini sur (Ω, F). On appelle loi conditionnelle
de X sachant H, la loi de X sous PH . En la notant PX|H , on a donc
Il importe de ne pas se laisser induire en erreur par la notation PX|H , elle ne concerne
pas une nouvelle variable aléatoire « X | H » mais bien toujours la même variable
aléatoire X. Ce qui a changé, c’est la mesure dont on munit (Ω, F) et sous laquelle on
considère la loi de X.
Voici un exemple de calcul de loi conditionnelle particulièrement simple. Soit A un
borélien de Rd tel que 0 < λd (A) < +∞ et X un vecteur aléatoire de loi uniforme sur A.
Soit C un borélien inclus dans A et tel que λd (C) > 0. Alors la loi de X sachant X ∈ C
est la loi uniforme sur C. En effet en rappelant (2.18) et en notant que A ∩ C = C, on
peut écrire pour tout B ∈ Bor(Rd ) :
P(X ∈ B et X ∈ C)
PX|X∈C (B) = P(X ∈ B | X ∈ C) =
P(X ∈ C)
P(X ∈ B ∩ C)
=
P(X ∈ C)
λd (A ∩ B ∩ C)/λd (A)
=
λd (A ∩ C)/λd (A)
λd (B ∩ C)
= .
λd (C)
Définissons aussi n
X 1
Sn := Xi , Mn := Sn .
i=1
n
L’introduction de ces deux variables est bien naturelle. En effet Sn (ω) est le nombre de
caractères v dans l’évènement élémentaire ω, autrement dit le nombre de boules vertes
observées dans la suite de n tirages codée par ω. De même Mn (ω) est la proportion de
boules vertes dans cette même suite de tirages.
Pour l’instant nous avons des variables aléatoires discrètes définies sur (Ωn , Fn ), mais
pas encore de mesure de probabilité sur cet espace. On ne peut donc pas encore parler
de loi pour ces variables. Comme nous avons choisi un Ωn ne dépendant pas de θ, il
est clair que la probabilité dont on va munir (Ωn , Fn ) doit dépendre de θ. Malheureu-
sement nous ignorons la valeur de θ, il faut donc se résigner à payer cette ignorance
en munissant (Ωn , Fn ) non pas d’une mesure de probabilité Pθ , mais de toute une fa-
mille (Pθ )θ∈Θ . La famille d’espaces probabilisés Ωn , Fn , (Pθ )θ∈Θ s’appelle un modèle
statistique. L’ensemble Θ est l’espace des paramètres du modèle. Dans la situation qui
nous intéresse, θ est une proportion, donc un nombre rationnel. On pourra donc prendre
Θ = Q ∩ [0, 1] si on ignore le nombre total N de boules dans l’urne ou se restreindre à
Θ = {0, 1/N, 2/N, . . . , 1} si on connaı̂t la valeur de N .
Comment définir maintenant Pθ ? Notons d’abord que Ωn étant fini et muni de Fn =
P(Ωn ), Pθ sera caractérisée par les Pθ ({ω}), pour ω décrivant Ω. Arrivés à ce point,
nous allons voir qu’il n’y plus qu’un seul choix admissible pour Pθ . Rappelons en effet
que les tirages sont avec remise, donc la composition de l’urne est la même avant chaque
nouveau tirage. La probabilité de sortir une boule verte lors du i-ème tirage doit donc
être θ. Autrement dit la loi de Xi sous Pθ doit être la loi de Bernoulli de paramètre θ.
D’autre part les résultats des tirages passés n’influencent pas le tirage à venir puisque
l’urne est toujours dans la même composition avant chaque tirage. On modélise ceci par
l’indépendance des tirages, autrement dit sur l’espace (Ωn , Fn , Pθ ), les Xi doivent être
des variables de Bernoulli de même loi et indépendantes. Ceci nous conduit à poser :
Il est alors facile de voir que sous Pθ , Sn suit la loi binomiale Bin(n, θ). Quant à Mn ,
elle suit une loi qui a les mêmes masses que Bin(n, θ), mais localisées sur les rationnels
0, 1/n, 2/n, . . . 1, au lieu des entiers 0, 1, 2, . . . , n. En notant cette loi Pθ,Mn , on a
n
X
Pθ,Mn = Cnk θk (1 − θ)n−k δk/n .
k=0
Quand n est grand, cette loi est bien concentrée dans un petit voisinage de θ, voir les
diagrammes en bâtons 6 de la figure 2.5 pour une illustration. Ceci permet de proposer
une estimation du paramètre inconnu θ par un intervalle de confiance construit à partir
de la valeur observée Mn (ω) (voir [ICP] chapitre 6 pour les détails).
On peut aussi proposer une estimation ponctuelle de θ en utilisant la convergence
presque sûre de Mn vers θ (loi forte des grands nombres, voir [ICP] chapitre 6). On
estime alors θ par la valeur observée Mn (ω). Cette approche suppose que l’on remplace
l’espace mesurable (Ωn , Fn ) par un espace (Ω, F) ne dépendant pas de n et assez « riche »
pour supporter une suite infinie (Xi )i≥1 de variables aléatoires de Bernoulli qui soient
sous chaque Pθ , indépendantes et de même loi Bern(θ). Ce problème est celui de la
modélisation du jeu de pile ou face infini7 . La difficulté est exactement la même que celle
que nous avons rencontrée pour construire la mesure de Lebesgue sur R.
6
P
Pour représenter graphiquement la loi discrète µ = pk δxk , on trace à partir de chaque point
(xk , 0) un segment vertical de hauteur proportionnelle à pk . La figure 2.5 affiche théoriquement 101
bâtons pour chacune des deux lois de M100 , sous P0,15 et sous P0,7 . En pratique seuls sont visibles ceux
dont la hauteur est supérieure à l’épaisseur d’un trait d’imprimante.
7
Voir les Annales d’IFP 2002-2003, D.M. no 2.
0.12
0.10
0.08
0.06
0.04
0.02
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0