Nothing Special   »   [go: up one dir, main page]

Elements de La Theorie Des Probabilités

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 225

IICT – BAS еISSN: 2367-8666

Lecture Notes in Computer Science and Technologies

Eléments de la théorie
des probabilités
Vera Angelova

eISBN: 978-954-91700-9-2
The series Lectures Notes in Computer Science and Technologies of the Institute of Information and
Communication Technologies at the Bulgarian Academy of Sciences presents in an electronic format
textbooks for undergraduate, graduate and PhD students studied various programs related to Informatics,
Computational Mathematics, Mathematical Modeling, Communication Technologies, etc., as well as for all
readers interested in these scientific disciplines. The Lecture Notes are based on courses taught by scientists of
the Institute of Information and Communication Technologies - BAS in various Bulgarian universities and the
Center for Doctoral Training in BAS. The published materials are with open access - they are freely available
without any charge.

Editorial board

Gennady Agre (Editor-in-Chef), IICT-BAS


е-mail: agre@iinf.bas.bg

Vera Angelova, IICT-BAS


е-mail: vangelova@iit.bas.bg

Pencho Marinov, IICT-BAS


е-mail: pencho@bas.bg

eISSN: 2367-8666

The series is subject to copyright. All rights reserved in translation, printing, using illustrations, citations,
distribution, reproduction on microfilm or in other ways, and storage in a database of all or part of the
material in the present edition. The copy of the publication or part of the content is permitted only with the
consent of the authors and / or editors

© IICT - BAS 2016 http://parallel.bas.bg/lcst/


Avec la collaboration de madame Viviane Baligand et monsieur François Mimiague -
Professeur à l’Université de Bordeaux IV, qui ont posé les basses de l’enseignement en
Statistique au programme français de la Faculté de gestion et d’économie à l’Université
de Sofia.
Table des matières

Objectif 1

Introduction 2
Méthode statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Phases de la méthode statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Introduction à la théorie des probabilités 5

1 Espace fondamentale et événements 6


1.1 Vocabulaire fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Test sur le chapitre : Espace fondamentale et événements . . . . . . . . . . . . . . . . 13

2 Méthodes de dénombrement 15
2.1 Outils graphiques de dénombrement . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Deux variables indépendantes . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Variables Conditionnées . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Formules d’analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Formules d’analyse combinatoire. Notions . . . . . . . . . . . . . . . . . 22
2.2.3 Arrangements simples et avec répétitions . . . . . . . . . . . . . . . . . . 23
2.2.4 Permutations simples et avec répétitions . . . . . . . . . . . . . . . . . . 25
2.2.5 Combinaisons simples et avec répétitions . . . . . . . . . . . . . . . . . . 26
2.2.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Mise au point : additionner ou multiplier ? . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4 Propriétés des combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Test sur le chapitre : Méthodes de dénombrement . . . . . . . . . . . . . . . . . . . . 31

3 Probabilité 33
3.1 Les différents interprétations de la notion de probabilité . . . . . . . . . . . . . . 33
3.1.1 Définition classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.2 Définition fréquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.3 Définition axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . 35
3.1.4 Propriétés des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.5 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1.6 Indépendance statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1.7 Probabilité de la conjonction d’événements - (théorème des probabilités
composées, loi de multiplication) . . . . . . . . . . . . . . . . . . . . . . 42
3.1.8 Théorème de la probabilité totale . . . . . . . . . . . . . . . . . . . . . . 43
3.1.9 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.10 Interprétation de la formule de Bayes . . . . . . . . . . . . . . . . . . . . 44
3.2 Ensemble fondamental infini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Test sur le chapitre : Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Modèles d’urne 48
4.1 Différents modes de tirage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.1 Tirages avec remise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.2 Tirages sans remise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.1.3 Tirages simultanés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 Urne contenant deux sortes de boules . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.1 Probabilité d’obtention d’un nombre donné de boules . . . . . . . . . . . 54
4.2.2 Schéma (processus) de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 57
Test sur le chapitre : Modèles d’urne . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5 Variables aléatoires 59
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.1 Loi ou distribution de probabilité discrète . . . . . . . . . . . . . . . . . 61
5.2.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2.3 Calcul de la probabilité que X appartienne à un intervalle réel à l’aide
de la fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.3 Paramètres descriptifs d’une distribution discrète . . . . . . . . . . . . . . . . . 68
5.3.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.3.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3.3 Couples de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.4 Opérations sur les variables aléatoires . . . . . . . . . . . . . . . . . . . . 75
5.4 Algèbre des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4.1 Fonction caractéristique et fonction génératrice . . . . . . . . . . . . . . 77

6 Lois de probabilité discrètes particulières 80


6.1 Distribution uniforme (discrète) X ∼ U(n) . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Paramètres descriptifs : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Cas fréquent X(Ω) = {1, 2, 3, . . . , n} . . . . . . . . . . . . . . . . . . . . 81
6.2 Distribution de Bernoulli X ∼ B(1, p) ou B(p) . . . . . . . . . . . . . . . . . 83
6.3 Distribution binomiale X ∼ B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . 84
Modèle général de génération de la loi binômiale : le schéma de Bernoulli . . . 84
6.3.1 Stabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4 Distribution hypergéométrique X ∼ H(N, n, p) . . . . . . . . . . . . . . . . . 96
B. Lois infinies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.5 Loi géométrique ou de Pascal X ∼ G (p), p ∈ (0, 1) . . . . . . . . . . . . . . . 102
6.5.1 Paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.6 Loi de Poisson X ∼ P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.6.1 Approximation de la loi Binomiale par la loi de Poisson . . . . . . . . . . 110
Test sur le chapitre : : Lois de probabilité discrètes particulières . . . . . . . . . . . . 113
6.6.2 Lois discrètes présentées par des modèles d’urne . . . . . . . . . . . . . . 114

7 Variable aléatoire continue (à densité) 116


7.1 Fonction densité de probabilité et fonction de répartition . . . . . . . . . . . . . 116
7.1.1 Quantile d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.1.2 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
7.1.3 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2 Espérance mathématique et paramètres d’une loi continue . . . . . . . . . . . . 121
7.2.1 Espérance mathématique (moyenne) . . . . . . . . . . . . . . . . . . . . 122
7.2.2 Variable centrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.2.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
7.2.4 Variable réduite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.2.5 Variable centrée réduite ou standardisée . . . . . . . . . . . . . . . . . . 124
7.2.6 Moment d’ordre supérieur . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Test sur le chapitre : : Variable aléatoire continue (à densité) . . . . . . . . . . . . . . 129

8 Lois (Distributions) de probabilité continues particulières 130


8.1 Distribution uniforme continue X ∼ U[a; b] . . . . . . . . . . . . . . . . . . . . 130
8.2 Distribution normale (dite de Laplace - Gauss)
X ∼ N(µ, σ) ou X ∼ N(µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . 132
8.2.1 Caractéristiques de la loi normale . . . . . . . . . . . . . . . . . . . . . . 136
8.2.2 Probabilité attachée à un intervalle . . . . . . . . . . . . . . . . . . . . . 137
8.2.3 Propriétés de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.2.4 Stabilité de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . 138
8.3 Distribution normale centré réduite ou loi normale standardisée Z ∼ N(0, 1) . 138
8.3.1 Notation : Z ∼ N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.3.2 Fonction de densité de Z : . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.3.3 Fonction de répartition de Z : . . . . . . . . . . . . . . . . . . . . . . . . 139
8.3.4 Paramètres descriptifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
8.3.5 Probabilité d’intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8.3.6 Intervalles remarquables : . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8.3.7 Intervalle centré en 0 de probabilité donnée . . . . . . . . . . . . . . . . . 141
8.3.8 Cas particuliers : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
8.3.9 Lien entre la loi N(µ, σ) et la loi N(0, 1) . . . . . . . . . . . . . . . . . . 142
8.3.10 Détermination pratique des probabilités : usage des tables de la loi normale143
Test sur le chapitre : : Lois (Distributions) de probabilité continues particulières . . . 151

9 Conditions d’application de la loi normale. Convergence en loi 152


9.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
9.2 Le théorème de la limite centrale (ou théorème central limite, T.C.L.) . . . . . . 153
9.3 Approximation de la loi binômiale par la loi normale . . . . . . . . . . . . . . . 154
9.3.1 Approximation de la loi de Poisson par la loi de Gauss . . . . . . . . . . 165
Test sur le chapitre : : Conditions d’application de la loi normale . . . . . . . . . . . . 171

10 Fonctions de variables aléatoires 172


10.1 Addition de variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . 172
10.1.1 Additivité de deux variables indépendantes binômiales . . . . . . . . . . 172
10.1.2 Additivité de deux variables indépendantes suivant la loi de Poisson . . . 173
10.1.3 Additivité de deux variables indépendantes normales . . . . . . . . . . . 174
10.2 Fonctions non linéaires de variables aléatoires . . . . . . . . . . . . . . . . . . . 174
10.2.1 La loi de “Khi-deux” X ∼ χ2ν . . . . . . . . . . . . . . . . . . . . . . . . 174
10.2.2 La loi “t-de Student” T ∼ Tn . . . . . . . . . . . . . . . . . . . . . . . . 179
Test sur le chapitre : : Fonctions de variables aléatoires . . . . . . . . . . . . . . . . . 183

Schémas 184

Bibliographie 190

Annexe 192
Table 1. Distribution binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Table 2. Fonction de répartition binomiale . . . . . . . . . . . . . . . . . . . . . . . . 197
Table 3. Distribution de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Table 4. Fonction de répartition de la loi de Poisson . . . . . . . . . . . . . . . . . . . 206
Table 5. Densité de probabilité de la loi normale centrée réduite . . . . . . . . . . . . 208
Table 6. Fonction de répartition de la loi normale centrée réduite . . . . . . . . . . . 209
Table 6’. Fractiles de la Loi normale centrée réduite . . . . . . . . . . . . . . . . . . . 210
Table 7. Loi de χ2 (Loi de K. Pearson). Valeur de χ2 ayant la probabilité P d’être
dépassée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Table 8. Fonction de répartition de la loi de χ2 . . . . . . . . . . . . . . . . . . . . . . 212
Table 9. Distribution Tn (Loi de Student). Valeur de Tn ayant la probabilité α d’être
dépassée en valeurs absolue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Table 10. Distribution Tn (Loi de Student).Valeurs de tn,α de n degrés de liberté ayant
la probabilité α d’être dépassée : P (Tn > tn,α ) = α. . . . . . . . . . . . . . . . . 214
Table 11. Fonction de répartition de la loi de Student Tn . Valeurs de u pour différentes
valeurs de ν et de p dans Fn (u) = P (T < u) = p. . . . . . . . . . . . . . . . . . . 215
Eléments de la théorie des probabilités 1

Objectif

L’objectif de ce manuel est d’enrichir les savoirs en mathématique avec la théorie des probabi-
lités, indispensable pour l’apprentissage des méthodes des théories économiques contemporaines
et en fin de compte la statistique appliquée. Réaliser des connaissances théoriques et des utiles
pratiques pour déterminer des caractéristiques et les lois de distribution des variables aléatoires.

Le manuel encadre des notions de base et des thèmes de la théorie des probabilités : ensembles
probabilistes, combinatoire, probabilité, variables aléatoires et leurs caractéristiques, fonctions
de répartition et de distribution, paramètres, loi des grands nombres, théorème central limite.

Pré-requis : Mathématiques Ière et IIe parties

Lecture Notes in Computer Science and Technologies No 2, 2016


2 Vera Angelova

Introduction

La statistique a envahi notre vie quotidienne. On ne peut pas ouvrir un journal, assister à un
cours, regarder la TV sans être confronté à des faits statistiques. La statistique est devenue une
nécessité pour connaitre une situation, construire une stratégie, prendre une décision.
Dans le sens moderne ≪la statistique≫ est la science qui développe les fondements théoriques
et la méthodologie de l’étude statistique. C’est un ensemble des principes et des méthodes mis
au point pour recueillir, classer, synthéser et communiquer des données numériques en vue de
leur utilisation.
Le terme ≪les statistiques≫ est perçu dans le sens d’ensembles de données souvent numériques.
Ex. : statistiques de l’emploi, du commerce extérieur.
Ces deux sens du mot statistique ont bien sûr entre eux des liens très étroits.
• on recueille des informations en vue de les traiter
• les méthodes statistiques ne peuvent s’appliquer que sur des données recueillies.
Les méthodes statistiques sont liées à de nombreux et longs calculs réputés ennuyeux, ce qui
justifie la réflexion suivante d’un étudiant : ≪S’il ne me restait qu’une heure à vivre, j’aimerais la
passer dans un cours de statistiques : elle me semblerait tellement plus longue. ≫ Heureusement
aujourd’hui il y a les calculatrices et les ordinateurs.
La statistique n’est pas une science récente. On trouve des exemples de dénombrement ou
de recensement il y a plus de 4 000 ans en Chine, dans la Bible, en Égypte, ... Au 13ème siècle
on assiste au début de la statistique administrative, aux premiers enregistrements des actes
d’état civil : registres des naissances, des mariages, des décès.
Jusqu’au 18ème siècle l’enregistrement des faits conserve un caractère passif.
Au 17ème et 18ème siècles on assiste à l’apparition d’un nouvel outil très important : la
théorie des probabilités (Pascal, Fermât, Huyghens, Bernoulli, Bayes, Gauss, Laplace). Cet
outil appliqué à la statistique va permettre l’élaboration d’une nouvelle phase de la statistique :
l’interprétation des faits. (Condorcet, Poisson, Quetelet)
Au 20ème siècle la statistique est devenue un outil qui intervient dans les domaines les plus
divers : les assurances, l’agriculture, la climatologie, la démographie, les finances, la génétique,
la géographie, l’industrie, la linguistique, la médecine, la pharmacologie, la physique, la plani-
fication, la politologie, la psychologie, la sociologie etc.
Dans le milieu industriel elle intervient aux niveaux successifs de la définition du produit

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 3

à créer, de sa fabrication, du contrôle de sa qualité, de sa distribution. La statistique joue un


rôle important en marketing, dans les sciences humaines, en politique grâce aux sondages.
Pourtant il n’est pas rare d’entendre des réflexions du genre ≪moi je me méfie des sta-
tistiques≫. N’a-t-on pas écrit qu’il existe trois formes de mensonges qui sont dans l’ordre de
gravité : le mensonge ordinaire, le parjure et le mensonge par la statistique.
Pourtant lorsque quelqu’un décide d’éviter de prendre le train la veille d’un jour férié ou d’ap-
pliquer le dicton ≪en avril ne te découvre pas d’un fil≫ il fait de la statistique sans le savoir,
comme Monsieur Jourdain faisait de la prose.

Méthode statistique

L’analyse du monde réel s’effectue sur une représentation de ce monde dans laquelle l’obser-
vateur a transcrit ce qui lus semblait essentiel. L’observation prolongée d’un même événement
fait apparaitre dans certains cas des permanences qui conduisent à la notion de lois.
Il existe des lois ou liaisons déterministes comme l’allongement d’un ressort en fonction
de la masse ou d’une barre de fer sous l’effet de la chaleur.
Il existe des lois ou liaisons statistiques comme le nombres de voyageurs dans les trans-
ports en commun d’après le jour, l’heure ou le temps qu’il fait. Ce sont des liaisons basées sur
un grand nombre d’observations. C’est ce genre de liaisons que la statistique étudie.

Phases de la méthode statistique

Rassembler - recueil des données à l’aide notamment d’enquêtes ou de recensements


Organiser - présentation des résultats à l’aide de tableaux, de diagrammes, de graphiques
Analyser - résumer un tableau de données à l’aide d’un petit nombre de paramètres
Ces trois phases constituent la Statistique descriptive.

Données statistiques

Il existe deux sortes de données statistiques :


• celles qui concernent une population et précisent comment les éléments de cette population
se répartissent en classes . Ce sont les séries statistiques ;
• celles qui concernent une mesure ou une quantité et précisent comment cette mesure ou
cette quantité évolue dans le temps. Ce sont les séries chronologiques.
L’ensemble soumis à observation peut être un échantillon d’un ensemble plus vaste.
On peut se poser la question suivante : Quel est le rapport de l’échantillon avec la population
totale ?
Pour une série chronologique on peut se poser la question : Comment va évoluer la ≪mesure≫ ou
la ≪quantité≫ dans le futur ?
Ceci conduit à une nouvelle phase de la méthode statistique :
Interpréter - aspect de la Statistique inductive ou inférative.

Lecture Notes in Computer Science and Technologies No 2, 2016


4 Vera Angelova

On peut conditionnellement diviser les méthodes de la statistique inférative par deux - l’esti-
mation des paramètres de la population et des tests d’hypothèses.
Le sujet du cours de Bases de statistique - I partie est la théorie des probabilités - la théorie
qui essaie de contrôler le hasard. Les premières personnes qui s’intéressent aux problèmes des
probabilités sont des mathématiciens français, Blaise Pascal et Pierre de Fermat qui répondent
aux questions soulevées par un adepte des jeux de hasard, le chevalier de Méré. A cette époque,
la théorie des probabilités se développe uniquement en relation avec les jeux de hasard. Mais
avec Pierre Simon Laplace et Karl Friedrich Gauss, les bases de la théorie s’étendent à d’autres
applications et phénomènes.
Le calcul des probabilités fournit une modélisation efficace des situations non déterministes
c’est-à-dire des phénomènes aléatoires ou stochastiques. En ce qui concerne les premiers, le
résultat d’une expérience suit une loi rigoureuse connue (taux de croissance d’une population).
On peut donc ainsi prévoir le résultat pour un événement donné. En revanche dans le cas des
phénomènes aléatoires, le résultat de l’expérience n’est pas connu avec certitude mais fluctue
autour d’un résultat moyen qui est régit par une loi.
Les notions de base sont la variable aléatoire et la probabilité. On calcule les caractéristiques
statistiques de la variable aléatoire et détermine sa loi de probabilité.
Le calcul des probabilités utilise l’analyse combinatoire ainsi que la théorie des ensembles.
On va commencer par l’espace fondamental et les événements de la théorie des ensembles.
On va faire un rappel de l’algèbre des ensembles et l’analyse combinatoire – Arrangements,
Permutations, Combinaisons – les utiles pour compter les objets.
Après on va définir la probabilité, les variables aléatoires – discrets et continues. On va
apprendre à calculer leurs caractéristiques statistiques – moyenne, espérance, variance. Et à la
fin on va considérer quelques lois de probabilité discrètes et continues.
Le cours continue avec les Bases de la statistique - IIe partie, comprenant la Statistique
descriptive - les phases de ressemblance, organisation et analyse de données. La dernière phase
de la méthode statistique - l’interprétation est pourvu dans le sujet de la Statistique appliquée
- Statistique inférative ( estimation et théorie des tests ) .

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 5

Introduction à la théorie des


probabilités

La vie quotidienne est pleine d’événements dépendants du hasard. Lorsqu’un événement dépend
du hasard, on peut avoir le sentiment qu’il est plus ou moins probable. En particulier, on a l’idée
assez nette que certains événements sont très peu probables : quoique ce ne soit pas impossible,
il est, par exemple, très peu probable qu’un jour donné aucune voiture ne traversera un grand
carrefour.
Quoique la présence du hasard dans la vie, il faut cependant prendre des décisions et cela
en assumant des risques, c’est-à-dire en agissant de telle façon que la réalisation d’un certain
événement dépendant du hasard puisse entraı̂ner des conséquences désastreuses. Une conduite
sage consiste à ne prendre que des risques minimes. L’exemple, bien connu, d’une compagnie
d’assurance montre une telle conduite.
Une compagnie d’assurance assure n abonnés contre un certain risque et s’engage à verser
une somme a à chaque abonné sinistré. Quelle prime b devra-t-elle demander à chaque abonné ?
Le nombre X des abonnés qui seront sinistrés dépend du hasard. Il n’est pas impossible que
tous les abonnés soient sinistrés, c’est-à-dire que l’on ait X = n. Pour ne pas être en perte
dans ce cas, et compte tenu de ses frais, la compagnie devrait demander une prime b supérieure
à la somme a. Si elle le faisait, elle ne trouverait aucun client. La compagnie d’assurance va
donc prendre le risque de perdre de l’argent, mais elle s’arrangera pour que ce risque soit faible,
c’est-à-dire qu’elle choisira la prime b de telle sorte qu’il soit très peu probable que la somme
aX qu’elle aura à verser, augmentée de ses frais et d’un certain bénéfice minimum, dépasse
la somme na qu’elle aura touchée. Pour déterminer b, elle se servira alors de la Théorie des
probabilités.
La Théorie des Probabilités permet de mesurer la probabilité de certains événements et
donne des règles de calcul sur ces probabilités. A l’aide du calcul des probabilités on peut créer
un modèle mathématique s’adapte à la situation envisagée qui permet d’étudier dans quelles
conditions certains événements sont très peu probables, ou très probables, et permet donc de
choisir une ligne de conduite rationnelle. Sans prêter trop d’importance à ces mots, on peut
donc dire que la Théorie de probabilités permet de ≪dominer le hasard≫.

Lecture Notes in Computer Science and Technologies No 2, 2016


6 Vera Angelova

Chapitre 1

Espace fondamentale et événements

1.1 Vocabulaire fondamental

Un espace probabilisé est la donnée de trois objets : (Ω, T , P ) où Ω est l’ensemble des ”résultats
possibles” d’une expérience aléatoire, T un ensemble ”d’événements”, et P une ”loi de proba-
bilité” sur cet ensemble. Précisons la signification de ce vocabulaire :
Jetons en l’air une pièce de monnaie. On ne peut pas prévoir avec certitude le résultat
du jet en avance, mais le résultat est clairement identifiable - ≪face≫ ou ≪pile≫. En plus, on
peut décrire avant le jet l’ensemble de tous les résultats possibles : ≪face≫ ou ≪pile≫. Alors
ce jet constitue une épreuve (une expérience aléatoire), cest-à-dire un expérience dont le
résultat est incertain.
On appelle expérience aléatoire (épreuve) toute expérience qui satisfait les conditions
suivantes
• on ne peut pas prévoir avec certitude (avant l’expérience) le résultat de l’expérience, mais
ce résultat est clairement identifiable ;
• on peut décrire, avant l’expérience, l’ensemble de tous les résultats possibles.

Définition 1 Expérience ou épreuve aléatoire : On appelle expérience aléatoire (ou


épreuve) toute expérience qui a plusieurs résultats possibles mais dont l’issue ne peut être
prévue avec certitude. Le résultat est dû au hasard. On peut cependant décrire tous les
résultats possibles.

Très souvent le hasard résulte, ou bien d’un manque d’informations sur les conditions ex-
périmentales, ou bien de l’impossibilité pratique d’exploiter les données expérimentales pour
prévoir le résultat.
Pour étudier un phénomène aléatoire, il faudra d’abord l’assimiler à une expérience aléatoire
(qui est presque toujours une notion idéale ou virtuelle) et associer ensuite à ce phénomène
un modèle mathématique ; c’est sur ce modèle qu’on pourra le plus commodément raisonner et
calculer. Les notions suivantes sont des éléments de cette modélisation.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 7

Définition 2 Éventualité ou événement élémentaire : Le résultat d’une expérience


constitue une éventualité ou un événement élémentaire.

L’éventualité est une propriété (ou qualité) E liée au résultat (ou à l’issue) de l’expérience
aléatoire : à chaque mise en œuvre de l’événement aléatoire, ou bien E est réalisée, ou bien E
n’est pas réalisée.

Exemple 1.1.1 Envisageons l’expérience élémentaire telle que le jet d’une pièce de monnaie
dans l’air. Ce jet constitue une épreuve, c’est-à-dire une expérience dont le résultat est incertain.
Dans cette expérience, deux résultats (deux événements) sont possibles, un côté ≪face≫ (F) et
un côté ≪pile≫ (P). Si l’expérience est constituée du double jet d’une pièce de monnaie, quatre
résultats (éventualités) sont envisageables : FF, FP, PF, PP.
Une expérience qui consiste à prendre la température d’un patient dans un hôpital a un très
grand nombre de résultats possibles qui dépendent du degré de précision avec lequel le ther-
momètre est étalonné. Pour cette expérience, il est pratique de supposer que la température du
patient peut prendre n’importe quelle valeur entre 35o C et 42o C. ✷

Définition 3 Ensemble fondamental (Univers) : c’est l’ensemble de toutes les issues


(ou résultats) possibles de l’expérience aléatoire, c.à.d. de toutes les éventualités. Cet
ensemble est désigné en général par Ω.

Exemple 1.1.2 On jette deux dés de couleurs différentes : le résultat de l’expérience est ex-
primé par la donnée des nombres affichés par chacun des dés.
Ω = {[a, b]; a, b entiers compris entre 1 et 6} ✷

Exemple 1.1.3 On tire ”au hasard” successivement et sans remise, deux boules d’une urne
contenant 10 boules numérotées de 1 à 10 : le résultat peut être exprimé par la succession des
deux numéros des boules tirées.
Ω = {[a, b]; a, b entiers distincts compris entre 1 et 10}. ✷

Exemple 1.1.4 On note la taille d’un individu pris ”au hasard” dans une population donné,
le nombre consiste en un nombre réel (l’unité de longueur ayant été choisie)
Ω = R+ = [0, +∞[. On pourra en pratique se restreindre à un intervalle plus petit. ✷

Exemple 1.1.5 (Jeu de pile ou face) si l’épreuve consiste à jouer 2 fois à pile ou face.
Ω = {P P, P F, F P, F F }. ✷

Un ensemble fondamental peut être

• discret : dans ce cas, il y a 2 possibilités


– ensemble fini - s’il contient un nombre fini de résultats (jet d’une pièce de monnaie
Ω = {F,P}, jet d’un dé Ω = {1,2,3,4,5,6})

Lecture Notes in Computer Science and Technologies No 2, 2016


8 Vera Angelova

– ensemble infini dénombrable - si l’on peut numéroter chacun des résultats (tirage
avec remise).

• continu : si l’ensemble est infini non dénombrable (observation de poids, de taille, de


temps Ω = [35o C, 42o C]).

Exemple 1.1.6 Considérons l’expérience aléatoire ”le lancer du dé” Ω = {1, 2, 3, 4, 5, 6}.
Dans le cadre de cette expérience, on peut s’intéresser à différents ”événements”
E1 : l’événement : ”Le résultat est paire” : E1 = {2, 4, 6} et E1 ∈ Ω
E2 : l’événement : ”Le résultat est supérieur ou égal à 3” : E2 = {3, 4, 5, 6} et E2 ∈ Ω
E3 : l’événement : ”Le résultat est divisible par 3” : E3 = {3, 6} et E3 ∈ Ω. ✷

Définition 4 On appelle événement d’une expérience aléatoire tout sous-ensemble de


l’ensemble fondamental Ω.

Pour le caractériser, on exprime une condition qui le détermine (pour le cas de E1 de l’Exemple
(1.1.6) : ”Le résultat est paire”) ou on énumère ses éléments (E1 = {2, 4, 6}).
Un événement est réalisé si le résultat de l’expérience appartient à ce sous-ensemble E ∈ Ω.

Exemple 1.1.7 A la sortie d’un point de vente, on demande à 3 personnes si elles ont acheté
un produit V.
Ceci constitue une expérience aléatoire qui peut être décomposée en 3 épreuves aléatoires
individuelles, chaque épreuve ayant un ensemble fondamental Ω′ = {A, N A} avec A = acheteur
N A = non acheteur.
L’ensemble fondamental Ω, associé à l’expérience aléatoire ≪interroger 3 personnes sortant
du point de vente≫, peut être défini en extension par

Ω= {(A, A, A), (A, N A, A), (A, A, N A),


(A, N A, N A), (N A, A, A), (N A, N A, A), (N A, A, N A), (N A, N A, N A)}.

En effet, pour chaque épreuve, il y a 2 résultats possibles, ce qui fait que pour ces 3 épreuves
il y a 23 = 8 résultats possibles.
Dans ce cas Ω est un ensemble fondamental discret et fini puisqu’il convient 8 résultats.
Dans cet ensemble fondamental fini Ω on peut définir l’événement E = ≪avoir exactement
2 acheteurs≫ avec
E = {(A, N A, A), (A, A, N A), (N A, A, A)}.

L’événement F = “avoir un acheteur au 1er tirage et un non acheteur au 2de ”

F = {(A, N A, A), (A, N A, N A)}. ✷

Supposons que l’ensemble fondamental est fini : Ω = {w1 , w2 , . . . , wn }.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 9

Evénements remarquables

Définition 5 Evénement élémentaire : on appelle événement élémentaire tout sous-


ensemble de Ω qui ne comprend qu’une seule éventualité, Ei = {wi }. Les singletons
{w1 }, {w2 }, . . . qui sont des parties de Ω ayant un seul élément.

Définition 6 Evénement certain : c’est l’événement représenté par Ω. C’est l’en-


semble Ω qui est toujours réalisé. Cet événement se réalise à chaque épreuve.

Exemple 1.1.8 Un tombola est émise. Elle comporte 1000 billets. Parmi ceux-ci, on tire un
seul billet gagnant. L’événement certain est de gagner le lot si on ait acheté tous les billets. ✷

Définition 7 Evénement impossible : c’est l’événement représenté par l’ensemble


vide ∅, c’est l’événement qui n’est jamais réalisé.

Exemple 1.1.9 Une tombola est émise. Elle comporte 1000 billets. Parmi ceux-ci, on tire un
seul billet gagnant.
L’événement pour une personne n’ayant acheté de billet, de gagner le lot est impossible. ✷

Définition 8 Ensemble (famille) T d’événements : nous désignerons par T l’en-


semble de tous les événements associés à une expérience aléatoire. L’ensemble T des
événements est donc inclus dans l’ensemble P(Ω) des parties de Ω. Il est souvent, mais
pas toujours égal à tout P(Ω) : certaines parties pourraient ne pas pouvoir être décrites
par une phrase concrète. Si Ω est fini, T = P(Ω) - les parties de Ω. Lorsque Ω est in-
fini, il n’est pas nécessaire de considérer tout élément de P(Ω) comme un événement. On
peut restreindre T à des classes de parties de P(Ω) en leur imposant des conditions de
stabilité :

- T soit stable par réunion (pour prononcer ”ou” dans la phrase), et par intersection
(”et”) ;

- T soit stable par passage au complémentaire (pouvoir parler de l’événement Ā


contraire de A) ;

- contienne le vide (événement impossible) et Ω (événement certain).

1.2 Algèbre des événements


La théorie des ensembles nous permet d’introduire un certain nombre d’opérations sur les
événements, éléments de T . La définition de T permet d’affirmer que le résultat de toutes ces

Lecture Notes in Computer Science and Technologies No 2, 2016


10 Vera Angelova

opérations définit lui-même un événement.

Définition 9 Egalité : deux événements E1 et E2 sont égaux ss’ils sont représentés par
deux sous-ensembles composés des mêmes éléments.

Définition 10 Implication : un événement E1 implique un événement E2 ssi E1 est


inclus dans E2 : E1 ⊂ E2 .
E2 se réalise donc chaque fois que E1 se réalise.

E1 implique E2
avoir comme conséquence

Définition 11 Conjonction (ou intersection) : la conjonction de deux événements


(E1 et E2 ) est l’événement défini par le sous-ensemble E1 ∩ E2 de Ω.
C’est l’événement qui se réalise lorsque E1 et E2 sont obtenus simultanément.

G = E1 ∩ E2 = E1 et E2
w ∈ G ⇐⇒ (w ∈ E1 et w ∈ E2 )
L’intersection G des deux événements E1 et E2
figure en jaune sur le graphe ci-contre.

Définition 12 Réunion : la réunion de deux événements (E1 ou E2 ) est l’événement


défini par le sous-ensemble E1 ∪ E2 .
C’est l’événement qui se réalise lorsque au moins un des deux événements E1 ou E2 se
réalise.

réunion de E1 et E2

Exemple 1.2.1 Pour les deux événements E1 = (30 ≤ X ≤ 36) et E2 = (34 ≤ X ≤ 48) la

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 11

réunion G = (E1 + E2 ) est G = (E1 ∪ E2 ) = (E1 ou E2 ) = (30 ≤ X ≤ 48). ✷

Exemple 1.2.2 Sur le jeu de pile ou face (exemple 1.1.5 avec deux lancers : l’événement
élémentaire ”PP” (2 fois pile) est intersection de l’événement A = ”d’abord pile”= {P P, P F },
avec l’événement B = ”Pile au 2ème lancer”={P P, F P }. L’événement réunion A ∪ B est
l’événement ”au moins une fois pile” ; l’événement complémentaire A ∪ B de A ∪ B est l’
événement ”jamais pile”, c’est-à-dire ”deux fois face”. ✷

A ∩ B = {P P }; A ∪ B = “au moins 1 P”; A ∪ B = “jamais P” = {F F }

Définition 13 Evénements incompatibles (ou mutuellement exclusifs) :


Quelques événements E1 , E2 , E3 , . . . Ek sont dits incompatibles s’ils n’ont aucune
éventualité commune (ils ne peuvent pas être simultanément réalisés), c.à.d. Ei ∩ Ej = ∅,
i, j = 1, k. L’apparition de l’un d’eux Ei , i = 1, . . . , k exclue l’apparition des autres
E1 , E2 , . . . Ei−1 , Ei+1 , . . . , Ek .

E1 et E2 sont incompatibles : E1 ∩ E2 = ∅

Exemple 1.2.3 Les événements E1 = (30 ≤ X ≤ 35) et E2 = (X est un multiple de 13) sont
incompatibles. ✷

Exemple 1.2.4 Jet d’un dé. L’événement A = {nombre unpaire} et l’événement B = {le
résultat est six } sont deux événements incompatibles. Dans le cas A = {1, 3, 5}, B = {6}.
A∩B =∅ ✷

Définition 14 Evénements compatibles : Des événements qui peuvent surgir simul-


tanément lors d’une expérience aléatoire s’appellent des événements compatibles. E1
et E2 sont des événements compatibles ⇔ E1 ∩ E2 6= ∅.

Définition 15 Système complet d’événements : considérons une classe


d’événements incompatibles (mutuellement exclusifs) tels que leur réunion donne
Ω. Ces événements définissent une partition P(Ω) de Ω.
Une telle classe est appelée système complet d’événements.

Lecture Notes in Computer Science and Technologies No 2, 2016


12 Vera Angelova

Les événements E1 , E2 , E3 , E4 , E5 , E6
forment un système complet d’événements.

Définition 16 Complémentaire (ou contraire) : Deux événements incompatibles


qui forment un système complet d’événements, s’appellent des événements complé-
mentaires. L’événement complémentaire de l’événement E est noté Ē.
D’après la définition l’événement complémentaire Ē se réalise lorsque E ne se réalise pas.
E ∩ Ē = ∅, E ∪ Ē = Ω. E et Ē définissent une partition de Ω.

Les événements E et Ē forment un système complet.


E et Ē sont des événements complémentaires (contraires).

Définition 17 Evénements indépendants : Quelques événements sont dits


indépendants si l’apparition de l’un d’eux ne change pas la possibilité de l’apparition
des autres. Dans le cas contraire les événements s’appellent dépendants.

Exemple 1.2.5 Jet d’un dé. A = “paire” ; Ā = “impaire” ; A ∪ Ā = Ω et A ∩ Ā = 0 - Ā


contraire de A.
B =“paire” ; C = {1, 3} ; B ∩ C = 0, mais B ∪ C 6= Ω. B et C incompatibles, mais pas
contraires.

Lois des opérations entre événements

Soit A, B, et C des événements quelconques. Les lois suivantes sont respectées :

1. A ∪ B = B ∪ A ; A ∩ B = B ∩ A - commutative

2. A ∪ (B ∪ C) = (A ∪ B) ∪ C ; A ∩ (B ∩ C) = (A ∩ B) ∩ C) - associative

3. A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) ; A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) - distributive

4. A ∪ B = A ∩ B ; A ∩ B = A ∪ B - lois de Morgan.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 13

Quelques propriétés de l’intersection (∩)

A ∩ Ā = ∅ événements incompatibles
Ω∩A=A élément neutre (Ω)
∅∩A=∅ élément absorbant (∅)
A∩B =B∩A commutativité
A ∩ (B ∩ C) = (A ∩ B) ∩ C associativité
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) distributivité avec la réunion (∪)

Quelques propriétés de la réunion (∪)

A ∪ Ā = Ω événements complémentaires
∅∪A=A élément neutre (∅)
Ω∪A=Ω élément absorbant (Ω)
A∪B =B∪A commutativité
A ∪ (B ∪ C) = (A ∪ B) ∪ C associativité
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) distributivité avec l’intersection (∩)

Définition 18 La collection T des événements, munie des lois ∪, ∩, et


”complémentaire” avec ces propriétés est appelée une tribu. C’est un exemple d’algèbre
de Boole.

Pour achever de décrire le modèle mathématique associé à l’expérience aléatoire, il reste à


introduire la notion de probabilité.

Test sur le chapitre : Espace fondamentale et événements


Vocabulaire fondamental

1. Qu’est-ce que signifient les symboles : Ω, ∅, Ā, A ∪ B, B ∩ A

2. Quelles conditions doit vérifier une expérience pour être expérience aléatoire ?
Donnez la définition d’une expérience aléatoire.

3. Donnez la définition de l’ensemble fondamental. Que peut-être-t-il ?

4. Décrivez l’événement ? Donnez un exemple pour le jet d’un dé.

Algèbre des événements

5. Quand dit-on que deux événements sont incompatibles ?


Les événements A ∩ B et A ∩ B̄ le sont-ils ?
Visualisez les deux événements précédents.

Lecture Notes in Computer Science and Technologies No 2, 2016


14 Vera Angelova

6. Qu’est-ce que l’événement complémentaire ?


Donnez le contraire de l’événement A = “toutes les boules choisies sont rouges”.

7. Quand dit-on que deux événements sont indépendants ?

8. Ecrire l’ensemble fondamental (l’univers) de l’épreuve :

(a) Le lancer du dé


(b) Le lancer d’une monnaie
(c) Le lancer trois fois d’une pièce de monnaie
(d) La naissance d’un enfant
(e) Le lancer de trois pièces de monnaie
(f) On lance un dé jusqu’à ce qu’on aie un 6 sur la face supérieure. Ω est le nombre de
jets ainsi réalisés

9. Soit Ω un univers et soient A, B, C trois événements de Ω. Traduire en termes ensem-


blistes (en utilisant uniquement les symboles d’union, d’intersection et de passage au
complémentaire, ainsi que A, B et C) les événements suivants :

(a) Seul A se réalise ;


(b) A et B se réalisent, mais pas C.
(c) les trois événements se réalisent ;
(d) au moins l’un des trois événements se réalise ;
(e) au moins deux des trois événements se réalisent ;
(f) aucun ne se réalise ;
(g) au plus l’un des trois se réalise ;
(h) exactement deux des trois se réalisent ;
(i) A ou B se réalisent, mais pas en même temps.

”moins de” = ”<” ;


”au moins” = ”≥” ;
Explication :
”plus de” = ”>” ;
”au plus” = ”≤”.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 15

Chapitre 2

Méthodes de dénombrement

Dénombrement, c’est répondre à la question : “Combien y-a-t-il d’éléments ?”. Le dénombrement


fait partie de l’analyse combinatoire, qui permet, grâce à ses formules, de connaı̂tre les grou-
pements possibles des événements d’un ensemble. Elles nous permettra de calculer le nombre
des éventualités équiprobables correspondant à une épreuve, par exemple le tirage de 13 cartes
dans un jeu de 52 cartes.
Il y a plusieurs façons de regrouper les éléments d’un ensemble :

• selon qu’il y a ou non répétition d’éléments de l’ensemble,

– Dispositions avec répétition : un élément peut intervenir dans la disposition plus


d’une fois.

Exemple 2.0.1 La disposition (a, b, a, a, c, b) est disposition avec répétition. Les


élément a et b participent plus d’une fois.

– Dispositions sans répétition (simples) Dispositions, dont chaque élément n’in-


tervient qu’une seule fois.

Exemple 2.0.2 La disposition (a, b, c, d, e, f ) est disposition simple. Il n’y a pas de


répétition des éléments.

• selon que l’on compte ou non de l’ordre des éléments - dispositions ordonnées et non
ordonnées.

– Dispositions ordonnées : deux dispositions contenant les mêmes éléments sont


considérées comme différentes si ceux-ci n’occupent pas les mêmes places.

Exemple 2.0.3 Les deux dispositions (a, b) et (b, a) sont différentes s’il s’agit de
dispositions ordonnées.

– Au contraire, deux dispositions non ordonnées sont considérées comme identiques


pourvu qu’elles soient constituées par les mêmes éléments.

Lecture Notes in Computer Science and Technologies No 2, 2016


16 Vera Angelova

Exemple 2.0.4 Les deux dispositions (a, b) et (b, a) sont identiques s’il s’agit de
dispositions non ordonnées.

Pour décrire une situation de dénombrement, on peut utiliser les techniques graphiques ou
les formules de l’analyse combinatoire.

2.1 Outils graphiques de dénombrement


Les techniques graphiques de dénombrement sont : Tableaux à double entrés ; Diagrammes
de Venn et Arbre

2.1.1 Deux variables indépendantes

Lorsque les donnés correspondant à ces deux variables ne dépendent pas l’une de l’autre.

Exemple 2.1.1.1 Dans une classe de 34 élèves, 20 ont 16 ans, 25 pratiquent l’anglais, dont 13
élèves de 16 ans.
Analyse : les deux variables ici sont l’age et la langue.
Comment représenter ces informations ? Deux modèles sont possibles : un tableau double
entrées ou un diagramme de Venn.

1. Tableau double entrée


Un tableau à double entrée permet de traiter deux grandeurs de manière simultanée :
une indiquée en ligne et l’autre en colonne. Un nombre faisant intervenir ces deux gran-
deurs est inscrit dans chaque case située à l’intersection d’une ligne et d’une colonne. Ce
tableau permet de compter les cases vérifiant une certaine propriété.
On appellera :

• A : l’ensemble des élèves pratiquant l’anglais


• Ā : l’ensemble des élèves ne pratiquant pas l’anglais
• B : l’ensemble des élèves de 16 ans
• B̄ : l’ensemble des élèves n’ayant pas 16 ans.

Remarque : L’ensemble barré est l’ensemble complémentaire, c’est à dire les éléments
qui ne possèdent pas le critère de cet ensemble.
On obtient ainsi le tableau suivant en inscrivant les données fournies par l’énoncé.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 17

A Ā Total

B 13 20

Total 25 34

Par différence ou somme, on obtient le tableau complète suivant :

A Ā Total

B 13 7 20

B̄ 12 2 14

Total 25 9 34

L’autre possibilité consiste à faire des “patates” pour représenter la classe ainsi que ses
différentes critères.

2. Diagramme de Venn
Un diagramme, tel qu’un diagramme de Venn, permet de mettre en évidence, sur une
figure, un ensemble et certaines de ses parties.
Pour l’exemple considéré on obtient le diagramme suivant :

En bleu on a représenté les élèves pratiquants l’anglais, en brique les élèves de 16 ans, en
jaune les élèves de 16 ans qui pratiquent l’anglais. La partie beige représente les élèves
qui ne pratiquent pas l’anglais et ne sont pas à 16 ans.

Lecture Notes in Computer Science and Technologies No 2, 2016


18 Vera Angelova

• 13 élèves de 16 ans pratiquent l’anglais, on place 13 dans la partie jaune


• 25 élèves pratiquent l’anglais, dont 13 ayant 16 ans. Le nombre des élèves qui pra-
tiquent l’anglais et n’ont pas 16 ans s’obtient en retranchant 13 de 25 : 25 - 13 = 12
élèves qui pratiquent l’anglais et n’ont pas 16 ans. On place 12 dans la partie bleue.
• De même on a 20 - 13 = 7 élèves qui ont 16 ans et ne pratiquent pas l’anglais. On
place 7 dans la partie brique.
• Il y a donc 34 - 12 - 13 - 7 = 2 élèves qui n’ont pas 16 ans et ne pratiquent pas
l’anglais. On place 2 dans la partie beige.

Exemple 2.1.1.2 Dans un groupe de 450 élèves, 30% des élèves sont en Première, 64% des
élèves sont des filles et 75 filles sont en Première.
1. Traduire ces informations dans un tableau et compléter.
2. Quelle est la part des garçons dans les Première ?
3. Quelle est la part des Première parmi les garçons ?
4. Faire un diagramme correspondant à ces deux critères
Solution

1. Traduire ces informations dans un tableau et compléter.


Comme on a des informations en valeurs absolues et en pourcentages, on traduira d’abord
toutes ses informations en valeurs absolues.
30
30 % de 450 450 × = 135
100
64
64 % de 450 450 × = 288
100
On remplit alors un tableau que l’on complète par différence et somme.
Les deux variables ici sont la classe et le sex.
On appellera :
• F : l’ensemble des filles
• G : l’ensemble des garçons.

• P : l’ensemble des élèves de Première


• P̄ : l’ensemble des élèves des autres classes.

F G Total

P 75 60 135

P̄ 213 102 315

Total 288 162 450

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 19

2. Quelle est la part des garçons dans les Première ?


Dans les 135 Première, il y a 60 garçons. Donc la part des garçons dans les Première est :
60
× 100 ≈ 44%
135
3. Quelle est la part des Première parmi les garçons ?
Dans les 162 garçons, 60 sont en Première. Donc la part des Premières parmi les garçons
est :
60
× 100 ≈ 37%
162
4. Faire un diagramme correspondant à ces deux critères
On obtient alors :

2.1.2 Variables Conditionnées


Lorsqu’une variable dépend d’une autre, on parle de variable conditionnée.

1. Arbre pondéré
Le premier niveau de l’arbre sera représenté par la variable non conditionnée et le second
par la variable conditionnée.
Il convient d’énoncer les règles qui régissent un arbre pondéré :
• La loi des nœuds : la somme des coefficients autour d’un nœud est égal à 1
• Lorsque l’on suit un chemin sur l’arbre, on multiplie les coefficients
• Tous les coefficients sont exprimés par un nombre compris entre 0 et 1.

Exemple 2.1.2.1 Dans un lycée de 2500 élèves, 38 % sont en classe de 2nde , 28 % en 1re
et le reste en Tle . De plus, on sait que :

Lecture Notes in Computer Science and Technologies No 2, 2016


20 Vera Angelova

• 48 % des élèves de 2de sont externes.


• 65 % des élèves de 1re sont externes.
• 52 % des élèves de Tle sont externes.

Quel est le pourcentage d’externe ?


Analyse : Les deux variables sont la classe et le statut (externe ou demi-pensionnaire)
des élèves. D’après les données, on connaı̂t de statut des élèves par classe. Le statut est
donc conditionné à la classe.
Comment représenter ces informations ? Un arbre pondéré. On obtient, en fonction des
données, l’arbre suivant :

Pour déterminer le pourcentage d’externes, il faut tenir compte des trois chemins pour
obtenir des externes. Le pourcentage d’externes est donc :

% d’externes = 100 × 0.38 × 0.48 + 100 × 0.28 × 0.65 + 100 × 0.34 × 0.52
= 100(0.38 × 0.48 + 0.28 × 0.65 + 0.34 × 0.52)
= 100(0.1824 + 0.128 + 0.1768)
= 54.12%

2. Arbres de choix
Un arbre est une représentation graphique qui permet de dénombrer des choix d’éléments
pris dans un certain ordre :

• Au premier niveau, une première série de branches indique les choix d’un premier
élément ;
• Au deuxième niveau, une autre série de branches indique les choix d’un deuxième
élément ;
• Etc.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 21

Pour dénombrer tous les choix, il suffit de compter les branches au bout de l’arbre.

Exemple 2.1.2.2 On dispose des chiffres 1 ; 5 ; 7. On veut former des nombres de trois
chiffres en utilisant chacun des ces chiffres une fois et une seule. On se demande combien
on peut en obtenir.
Dessiner un arbre de choix. Combien de nombres peut-on ainsi trouver ?
Solution : Le premier chiffre /le chiffre des centaines/ peut être soit 1, soit 5 ; soit 7 : il y
a trois choix possibles.
L’arbre comporte trois niveaux. Le premier niveau comporte 3 branches, le deuxième deux
branches pour chaque branche du premier niveau et le troisième niveau une branche pour
chaque branche du deuxième niveau.
A l’arrivée, l’arbre comporte six branches.
Il y a donc six nombres possibles.

2.1.3 Synthèse
• Dans un exercice de dénombrement, il faut choisir le mode de représentation des données
le plus adéquat.

• Quand on étudie simultanément deux caractères sur une population et qu’à chaque ca-
ractère correspond un couple de valeurs, on peut présenter les résultats du dénombrement
sous forme de tableau à double entrée (on parle aussi de tableau croisé).

Lecture Notes in Computer Science and Technologies No 2, 2016


22 Vera Angelova

• Pour présenter les résultats d’un dénombrement, on peut également faire appel à un
diagramme composé d’ensembles circulaires, chaque ensemble correspondant à un des ca-
ractères étudiés. Lorsque ces caractères sont incompatibles, les ensembles correspondants
n’ont pas d’intersection.

• Lorsqu’au cours d’une étude, on a une succession de choix, on représente les différentes
possibilités à l’aide d’un arbre. Il se peut que chaque choix soit pondéré ; les branches de
l’arbre portent alors des coefficients et l’arbre est dit pondéré. C’est souvent le cas lorsque
l’information est donnée sous forme de pourcentages ou de pourcentages de pourcentages.
Il est alors nécessaire de connaı̂tre la ≪loi des nœuds≫ : la somme des coefficients affectés
aux branches issues d’un même nœud vaut 1 ou 100 %. Il faut également savoir utiliser
le ≪principe multiplicatif≫ : le coefficient affecté à un chemin est égal au produit des
coefficients des branches qui le composent.

2.2 Formules d’analyse combinatoire

2.2.1 Introduction
L’analyse combinatoire est une branche des mathématiques qui étudie comment dénombrer des
objets dans un ensemble fini.

Exercice 2.2.1.1 Quelques situations de dénombrement :


1. De combien de façons peut-on placer les 12 élèves d’une classe si celle-ci comporte 12 places ?
2. Parmi les 20 coureurs d’un club cycliste, de combien de façons, les dirigeants peuvent-ils
constituer une équipe de 5 coureurs ?

Soit Ω = {ω1 , ω2 , . . . , ωm } un ensemble de m éléments distincts (tous différents). card(Ω) =


|Ω| = m est appelé cardinal de Ω avec m ∈ N.

2.2.2 Formules d’analyse combinatoire. Notions


Définitions :
• Arrangement : groupement de p objets choisis parmi n objets, l’ordre des objets au
sein du groupement ayant de l’importance,
• Permutation : groupement dans lequel tous les objets considérés sont repris.
• Combinaison : groupement de p objets choisis parmi n objets, l’ordre des objets au
sein du groupement n’ayant aucune importance.
• Groupement simple : groupement dans lequel aucune répétition n’est admise.
• Groupement avec répétition : groupement dans lequel il y a de répétition de certain
ou de tous les objets.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 23

2.2.3 Arrangements simples et avec répétitions


Exemple 2.2.3.1 A l’aide des chiffres de 1 à 4 combien de nombres de 3 chiffres différents
peut-on former ?
Énumérons les possibilités.

123 124 132 134 142 143


213 214 231 234 241 243
312 314 321 324 341 342
412 413 421 423 431 432

Nous obtenons 24 possibilités. Pour énumérer tous ces nombres, nous avons respecté un certain
ordre : choix du premier chiffre, suivi du choix du second et enfin du troisième.

2.2.3.1 Arrangements simples sans répétitions, sans remise

p
Définition 19 On appelle arrangement simple Am le nombre de manières de choisir
p éléments ordonnés dans Ω sans répétition (on ne peut reprendre un élément déjà
choisi) :

m!
Apm = m(m − 1) . . . (m − p + 1) = (m−p)!
.

La première expression est le produit descendant de p entiers consécutifs à partir de m. La


seconde est obtenue en multipliant en haut et en bas la première expression par (m − p)!.
Étant une fraction non simplifiée, la première expression est préférable pour les calculs
numériques.

Explication : Soient m éléments a,b,c,. . . pris p à p.


On peut décomposer cette opération en p étapes, (choix des éléments successifs).
La première étape (choix du premier élément), peut se réaliser de m façons.
La seconde étape (choix du second élément), peut se réaliser de (m − 1) façons car le premier
élément ne peut plus être pris en compte. On parle de tirage sans remise.
Et ainsi de suite jusque l’étape p qui peut se réaliser de (m − p + 1) façons.
A chaque premier élément choisi, on peut associer tous les seconds éléments possibles lors
du second choix et ainsi de suite pour les suivants. Nous sommes dans une situation de type
multiplicatif.
Nous avons ainsi :Apm = m.(m − 1). . . . .(m − p + 1). (p produits)
Le nombre m! appelé ”la factorielle de m”, avec la convention 0! = 1, croit très vite avec m.
Lorsque m est grand on peut l’approximer par la formule de Stirling1 :

m! ≈ 2πm(m/e)m . (2.1)
En utilisant les logarithmes, il est facile d’obtenir une bonne approximation de n!.
1
Stirling James (1698-1770), mathématicien anglais

Lecture Notes in Computer Science and Technologies No 2, 2016


24 Vera Angelova

Exemple 2.2.3.2 On se propose d’estimer 20! en utilisant l’équation (2.1).


1 √ 1
lg(20!) ≈ 20 lg 20 − 20 lg e + lg 20 + lg 2 + lg π
2 2
≈ 20.5 lg 20 − 20 lg e + 0.39908
/20, 5 ∗ LOG(20) − 20 ∗ LOG(EXP (1)) + LOG(SQRT (2)) + LOG(P I())/2
≈ 18.38431521

D’ici 20! ≈ 1018.38431521 = 2.423 × 1018 . L’erreur relative est de l’ordre de 4.2 × 10−3 .

Remarque 20 Deux arrangements simples sont différents dès que l’un contient un élément que
l’autre ne contient pas ou s’ils contiennent les mêmes éléments placés dans un ordre différent.

Solution de l’Exemple 2.2.3.1


A l’aide des chiffres de 1 à 4 combien de nombres de 3 chiffres différents peut-on former ?
4!
A34 = 4.3.2 = = 24 /P ERM U T (4; 3) = COM BIN (4; 3) ∗ F ACT (3)/.
(4 − 3)!

2.2.3.2 Arrangements avec répétitions (avec remise)

p
Définition 21 On appelle arrangement avec répétitions Ām le nombre de manières de
choisir p éléments ordonnés dans Ω avec répétition (on accepte de reprendre plusieurs
fois un élément déjà choisi) :
Āpm = mp .

Exemple 2.2.3.3 Combien de nombre de 3 chiffres peut-on former avec les chiffres de 1 à 4
en acceptant de prendre plusieurs fois le même chiffre ?
Il s’agit de choix de 3 éléments ordonnés dans l’ensemble E4 = {1, 2, 3, 4} avec répétition
=⇒ Ā34 :
Ā34 = 43 = 64 /P OW ER(4; 3)/.

Exercice 2.2.3.1 Arrangements simples et avec répétitions

1. Combien de nombres de 2 chiffres différents peut-on former avec les chiffres de 1 à 5 ?

2. La même question, mais en acceptant de prendre plusieurs fois le même chiffre.

3. Combien de mots (lisibles ou non) de 5 lettres distincts peut-on former avec les lettres de
l’alphabet ?

4. Combien y a-t-il de ces mots si on peut utiliser plusieurs fois la même lettre ?

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 25

2.2.4 Permutations simples et avec répétitions

2.2.4.1 Permutations simples

Définition 22 On appelle permutation simple des éléments de Ω tout groupe des


éléments de Ω placés dans un ordre déterminé. Le nombre Pm de ces permutations
(manières d’ordonner (ou numéroter) les éléments de Ω) est :

Pm = Am
m = m(m − 1) . . . (m − m + 1) = m(m − 1) . . . 1 = m!

Exemple 2.2.4.1 Le nombre de manières de placer 8 convives autour d’une table est :

P8 = 8! 40 320 possibilités /P ERM U T (8; 8) = F ACT (8)/

2.2.4.2 Permutations avec répétitions

r r ...r
Définition 23 On appelle permutation avec répétitions P̄m1 2 n de m éléments parmi
lesquels 1 élément se répète r1 fois, un autre r2 fois, . . ., rn fois (r1 + r2 + . . . rn = m),
tout groupe de ces m éléments placés dans un ordre déterminé :

m!
P̄mr1 r2 ...rn = r1 !r2 !...rn !

En effet, les permutations de p objets identiques sont toutes identiques et ne comptent que
pour une seule permutation.

Exemple 2.2.4.2 Considérons le mot ”CELLULE”. Le nombre de mots possibles (avec ou


sans signification) que l’on peut écrire en permutant ces 7 lettres est :
7!
P̄72 3 = = 420 mots possibles
2!3!
en considérant deux groupes de lettres identiques : L (3 fois) et E (2 fois).

Exercice 2.2.4.1 Permutations simples et avec répétitions

1. La première situation de dénombrement d’introduction (placement de 12 élèves d’une


classe)

2. De combien de façons peut-on placer un groupe de 5 personnes sur un banc ?

3. Pour donner une friandise à chaque enfant d’un groupe de 10, on dispose de 3 Léo, 2
bounty et 5 chacha. De combien de façons peut-on effectuer la distribution ?

Lecture Notes in Computer Science and Technologies No 2, 2016


26 Vera Angelova

2.2.5 Combinaisons simples et avec répétitions


Exercice 2.2.5.1 Un groupe doit élire 2 étudiants parmi eux (15 étudiants). De combien de
façons peuvent-ils le faire ?

2.2.5.1 Combinaisons simples ou sans remise

p
Définition 24 On appelle combinaison simple de m éléments pris p à p, (p ≤ n) : Cn (lu
“combinaison de p parmi n”) le nombre de manières de choisir p éléments non ordonnés
dans Ω sans répétition tous les groupes de p éléments choisis parmi les m donnés :

p Apm m!
Cm = p!
= p!(m−p)!
.

Explication : Pour calculer le nombre on utilise le principe de la division.

m!
• Il y a Apm manières de tirer p objets parmi m en les ordonnant soit Apm = (m−p)!
.

• Une fois les p objets tirés, il y a p! manières de les ordonner.


Apm
• Il y a donc p!
manières de tirer p objets parmi m sans les ordonner.
p Apm 1 m!
• Cm = p!
= p! (m−p)!

Exemple 2.2.5.1 Le tirage au hasard de 5 cartes dans un jeu de 32 (main de poker) est une
combinaison avec p = 5 et m = 32 /COM BIN (32; 5) = 201 376/.

Exemple 2.2.5.2 La formation d’une délégation de 5 personnes parmi un groupe de 50 consti-


tue une combinaison avec p = 5 et m = 50 /COM BIN (50; 5) = 2 118 760/.

Pour ces deux exemples, les objets tirés sont clairement distincts.

Exercice 2.2.5.2 Combinaisons simples

1. Dans le cas de la deuxième situation de dénombrement d’introduction (section de 5 cou-


reurs dans un club de 20 cyclistes)

2. A la fin d’un repas rassemblant 15 amis, 3 sont chargés de la vaisselle. Combien de groupes
différents peut-on former afin d’exécuter cette tâche ?

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 27

2.2.5.2 Combinaisons avec répétitions (avec remise)

Exemple 2.2.5.3 Une urne contient des boules de 5 couleurs différentes et contient au moins 4
boules de chaque couleur. On tire 4 boules de cette urne. Combien de possibilités de groupements
a-t-on ?

Définition 25 On appelle combinaison avec répétition de m éléments pris p à p le nombre


p
de manières de choisir p éléments non ordonnés dans Ω avec répétition C̄m . On
ne s’occupe pas de l’ordre et chaque élément peut figurer plusieurs fois dans un même
groupe :
p p (m+p−1)!
C̄m = Cm+p−1 = p!(m−1)!
.

Explication : Soit la constitution de mots de 3 lettres à partir d’un alphabet à 5 lettres avec
remise, on distingue 3 cas possibles :
• C53 nombre de mots de lettres différentes et sans ordre
• C52 × 2 nombre de mots de 2 lettres différentes et une lettre redondante
• C51 nombre de mots de 3 lettres identiques
d’où au total : C53 + 2C52 + C51 = C73 en utilisant la formule des combinaisons composées ou
formule de Pascal.
En effet C53 + C52 = C63 et C52 + C51 = C62 d’où C63 + C62 = C73 soit C73 = 35 mots possibles de 3
lettres à partir d’un alphabet à 5 lettres.
p
Ainsi C73 = C5+3−1
3
= Cn+p−1 avec n = 5 et p = 3.
Solution de l’Exemple 2.2.5.3
8!
C̄54 = C5+4−1
4
= C84 = = 70.
4!(8 − 4)!

2.2.6 Synthèse
Quelles questions se poser lors de la résolution d’un problème d’application directe en analyse
combinatoire ? Voir le tableau de Figure (2.1).
Ultérieurement, on rencontre des situations plus générales qui ne peuvent être résolues unique-
ment par le questionnement de ce tableau.

2.3 Mise au point : additionner ou multiplier ?


Lors du calcul des Āpm on a déjà mis en évidence des situations de type multiplicatif.
Dans les cas de problèmes de dénombrement, on sera également souvent amenés à additionner
les résultats. Les deux exemples ci-dessous permettent de comparer et distinguer ces situations.

Lecture Notes in Computer Science and Technologies No 2, 2016


28 Vera Angelova

Figure 2.1 : Combinatoire

Exemple 2.3.1 Situations de type additif et multiplicatif

1. Une maı̂tresse de maison a 9 amis et souhaite en inviter 5 à dı̂ner. Combien de possibilités


a-t-elle si deux d’entre eux sont mariés et ne peuvent venir qu’ensemble ?

2. De combien de manières peut-on former un jury de 3 hommes et de 2 femmes en les


choisissant parmi 7 hommes et 5 femmes ?

Solution

1. Deux catégories distinctes d’invitations apparaissent : ou bien le couple est invité ou il ne


l’est pas, c.à.d. que l’on est alors amené à choisir 3 invités parmi les 9 amis sans le couple
donc parmi 7 ou à choisir 5 parmi 7 =⇒ un total de C73 + C75 possibilité. Il s’agit ici d’une
situation de type additif.

2. Le problème revient à choisir un groupe de 3 hommes et un groupe de 2 femmes. Pour


chacun de ces choix, il y a respectivement C73 et C52 possibilités. De plus, à chaque groupe
de 3 hommes, on peut associer n’importe quel groupe de 2 femmes. Il y a donc C73 . C52
possibilités : il s’agit ici d’une situation de type multiplicatif.

2.3.1 Synthèse
Soit une opération qui peut se réaliser de N façons.
Situation additive : Si ces N façons peuvent se séparer en k catégories disjointes deux à deux

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 29

et que chacune des catégories peut se réaliser de n1 , n2 , . . . , nk faç N = n1 + n2 + . . . nk .


En pratique : on décrit alors les catégories en les reliant par ”ou” (ex. : on invite le couple
”ou” on ne l’invite pas.)
Situation multiplicative : Si cette opération se décompose en k étapes successives, chacune
des étapes pouvant se réaliser respectivement de n1 , n2 , . . . , nk façons, =⇒ N = n1 . n2 . . . . . nk .
En pratique : On décrit alors la situation par une phrase du type : ”à chaque groupe”
(d’hommes) ”on peut associer n’importe quel groupe” (de femmes) . . . (selon les cas).

2.4 Propriétés des combinaisons


Les propriétés des combinaisons sont les suivantes :

n
 n
 n

1. Pour le coefficient binomial k
(lu “k parmi n”) on a : 0
= 1; n
=1
2. La symétrie
Cnp = Cnn−p .
En effet, en raison de la symétrie de la formule :
n! n!
Cnp = = = Cnn−p .
p!(n − p)! (n − p)!n!
Autrement dit, puisque l’ordre n’importe pas, choisir p éléments parmi n revient à choisir
les n − p éléments qui n’appartiennent pas à la combinaison.
3. Combinaisons composées ou Formule de Pascal
p−1 p
Cnp = Cn−1 + Cn−1 .
On peut aussi démontrer la relation dessus en notant que, si on désigne à l’avance un
objet parmi n, les combinaisons possibles avec ces n objets pris p à p se décomposent en
deux catégories :
p−1
• celles qui contiennent cet objet. Il y en a Cn−1 ; pour compléter chaque combinaison il
suffit en effet de choisir (p − 1) objets parmi les (n − 1) restants.
p
• celles qui ne contiennent pas cet objet. Il y en a Cn−1 ; pour les obtenir il faut en effet
choisir p objets parmi les (n − 1) qui sont différents de l’objet désigné.

4. Application :
(a) Développement du binôme de Newton2 (a + b)n
Connaissant les nombres Cnp , on peut développer le binôme de Newton (a + b)n :
n n  
n
X
k n−k k
X n n−k k
(a + b) = Cn a b = a b .
k=0 k=0
k

2
Newton Issac (1642-1727), mathématicien et physicien anglais

Lecture Notes in Computer Science and Technologies No 2, 2016


30 Vera Angelova

Exemple 2.4.1 En donnant à n successivement les valeurs 1, 2, 3 on obtient :

(a + b)1 = 1a + 1b
(a + b)2 = 1a2 + 2ab + 1b2
(a + b)3 = 1a3 + 3a2 b + 3ab2 + 1b3

Remarque. En faisant, dans la formule du binôme de Newton :

a = b = 1,

on obtient le résultat remarquable suivant :

Cn0 + Cn1 + . . . + Cnn = 2n .

La somme des coefficients du développement du binôme de Newton est égale à 2n .

(b) Triangle de Pascal3


La formule ci-dessus fournit une méthode commode de calcul par récurrence des
valeurs de Cnp . La matérialisation de cette méthode est appelée triangle de Pascal.
L’idée du triangle de Pascal est de présenter les np ou Cpn sous forme de tableau à
double-entrées.
En colonne, les valeurs de p et en ligne les valeurs de n.
Les colonnes et les lignes sont numérotées à partir
 de 0, et la case correspond à la
p-ème colonne et n-ème ligne est le coefficient np ou Cnp .
Or les formules précédentes montrent deux choses.

i. Il y a une symétrie dans ce tableau car

Cnp = Cnn−p .

ii. Chaque terme est la somme du terme immédiatement supérieur et de celui qui
se trouve à gauche de celui-ci. Si on connait les éléments de la ligne (n − 1), on
connait automatiquement ceux de la ligne n par la formule

p−1 p
Cn−1 + Cn−1 = Cnp .

D’où le Triangle de Pascal :

Table 1. Triangle de Pascal

3
Pascale Blaise (1623-1662) mathématicien, physicien, philosophe et écrivain français

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 31


❍❍ p
❍ 0 1 2 3 4 5 6 7 ... p−1 p
n ❍❍
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
6 1 6 15 20 15 6 1
7 1 7 21 35 35 21 7 1
.. .. .. .. .. .. .. .. .. ..
. . . . . . . . . ... .
p−1 p
n−1 1 ... Cn−1 Cn−1
n 1 ... Cnp

Exemple 2.4.2 En utilisant le triangle de Pascal (Table 1.) on peut écrire

(a + b)6 = a6 + 6ab5 + 15a2 b4 + 20a3 b3 + 15a4 b2 + 6a5 b + b6

5. Nombre de solutions de l’équation

x1 + x2 + . . . + xk = n (2.2)
k−1
a) Le nombre des solutions non-négatives de l’équation (2.2) est Cn+k−1 .
k−1
b) Le nombre des solutions entières et positives de l’équation (2.2) est Cn−1 .

Test sur le chapitre : Méthodes de dénombrement


Outils graphiques de dénombrement

1. S’il s’agit de dispositions ordonnées, les deux dispositions (a, b) et (b, a) sont

a. différentes b. indépendantes c. identiques

2. Deux dispositions contenant les mêmes éléments, qui n’occupent pas les mêmes places,
sont considérées comme différentes s’il s’agit de dispositions

a. ordonnées b. non ordonnées c. identiques

3. Deux dispositions sont considérées comme identiques pourvue qu’elles soient constituées
par les mêmes éléments quand il s’agit de dispositions

a. ordonnées b. non ordonnées c. conditionnelles

Lecture Notes in Computer Science and Technologies No 2, 2016


32 Vera Angelova

4. Un tableau double entrée permet de traiter deux grandeurs de manière


a. conditionnée b. simultanée c. successive
5. La représentation graphique pour deux variables indépendantes constitue :
/choisissez toutes les réponses qui conviennent/
a. arbre de choix b. arbre pondéré c. diagramme de Venn d. tableau double
entrée
6. Complétez la définition de l’arbre de choix.
Un arbre de choix est une représentation graphique qui permet de dénombrer . . . . . . . . ..
7. Donnez les règles qui régissent un arbre pondéré.
8. Lorsqu’on étudie une succession de choix, on représente les différentes possibilités à l’aide
de
/choisissez toutes les réponses qui conviennent/
a. arbre b. diagramme de Venn c. tableau double entrée

Formules d’analyse combinatoire

9. Que mesurent les symboles Apm , Cm


p p
, C̄m ?
3 3 3
Calculer A10 , C10 , C̄10 .
10. Les situations de dénombrement ci-dessous correspondent-elles à un tirage ordonnée ou
non ordonné ? avec répétition ou sans répétition ?
En déduire la réponse aux questions ci-dessous, d’abord sous forme symbolique puis sous
forme numérique :
(a) une famille de 6 personnes s’assoie sur un banc de 6 places. De combien de manières
peut-elle le faire ?
(b) même question mais le banc contient 10 places.
(c) dans une course de 20 chevaux, combien y a-t-il de tiercés dans l’ordre ?
(d) dans le désordre ?
(e) on lance deux dés indiscernables. Combien y-a-t-il de résultats possibles ?
(f) dans un ensemble à n éléments, combien y a-t-il de couples (x, y) d’éléments ?
(g) de paires {x, y} d’éléments ?
11. On doit former un groupe comprenant 2 hommes et 3 femmes sur la base d’un groupe
plus large, formé de 5 hommes et 7 femmes. Quel est le nombre de possibilités si :
(a) Le comité peut comprendre n’importe lequel des hommes et des femmes ?
(b) Une femme particulière doit être membre du comité ?
(c) Deux hommes particuliers doivent être exclu du comité ?
12. Développer (a + b)8

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 33

Chapitre 3

Probabilité

La probabilité P (E) d’un événement aléatoire E est un nombre dans [0, 1] qui exprime la possi-
bilité objective de réalisation de l’événement. Grâce à l’introduction du concept d’événement à
partir de l’ensemble fondamental Ω, nous pouvons introduire le concept de probabilité par son
aspect classique, fréquentiste et axiomatique. De façon générale, si E est un événement de T ,
nous noterons P (E) la probabilité que E se réalise au cours de l’expérience aléatoire à laquelle
on a associé Ω et T . Le nombre P (E) devra être autant plus grand que E soit plus probable,
donc la probabilité P (E) devra être maximum lorsque E est l’événement certain et minimum
lorsque E est l’événement impossible. On décide donc de poser P (E) = 1 lorsque E est certain
et P (E) = 0 lorsque E est impossible. On aura donc toujours
0 ≤ P (E) ≤ 1

3.1 Les différents interprétations de la notion de proba-


bilité

3.1.1 Définition classique


L’approche classique fait l’hypothèse d’équiprobabilité, c’est-à-dire que tous les résultats ont
des chances de réalisation égales. Sous cette hypothèse d’équiprobabilité, pour un ensemble
fondamental contenant n résultats, chaque résultat a une probabilité = n1 .
On définit la probabilité P (E) d’un événement E par le rapport
nombre de résultats favorables à la réalisation de E
P (E) =
nombre de résultats possibles
sous l’hypothèse d’équiprobabilité.

Propriétés

i La probabilité P (E) d’un événement est toujours positive ou nulle : 0 ≤ P (E) ≤ 1

Lecture Notes in Computer Science and Technologies No 2, 2016


34 Vera Angelova

ii Si un événement est certain, sa probabilité vaut 1 : P (Ω) = 1


iii Si E1 , E2 , . . . , Em sont m événements mutuellement exclusifs /c.-à-d. incompatibles deux
à deux (Ei ∩ Ej = ∅, i, j = 1, . . . , m), i 6= j/, alors
P (E1 ∪ E2 ∪ . . . ∪ Em ) = P (E1 ) + P (E2 ) + . . . + P (Em ).

TD - Exemple 1. : On jette une pièce de monnaie 4 fois de suite. Quelle est la probabilité
d’obtenir la suite (P, F, F, P)
Solution : Définir Ω : Arrangement de 4 éléments parmi 2 avec répétitions Ā42 = 24 = 16.
P = 1/24 = 1/16. ✷

Exemple 3.1.1.1 Prenons l’exemple du lancer de dé. Soit l’événement E = ≪ obtenir un


nombre impair de points après le 1er lancer≫.
E = 1, 3, 5 = 1 ∪ 3 ∪ 5.
Les résultats élémentaires étant nécessairement exclusifs, la probabilité de E
P (E) = P ({1}) + P ({3}) + P ({5}) = 1/6 + 1/6 + 1/6 = 3/6. ✷

Mais l’hypothèse d’équiprobabilité est rarement vérifiée pour la plupart des expériences aléatoires
en matière de gestion (prévision de la demande, de l’évolution des prix, du taux de change...).
1
De plus, lorsque Ω est infini, la probabilité d’un résultat est égale à ∞
et tend vers 0.
k
Celle d’un événement E constitué d’un nombre k de résultats est P (E) = ∞
et tend aussi
vers 0.
Dans ces situations, la définition classique de la probabilité est inadéquate.

3.1.2 Définition fréquentiste


L‘approche objective = fréquentiste = empirique repose sur l’hypothèse qu’il est possible de
répéter une expérience aléatoire dans les mêmes conditions aussi souvent que l’on veut.
Soit E un événement associé à une expérience aléatoire. On répète cette expérience n fois.
On désigne par n(E), nommé effectif ou fréquence absolue, le nombre de fois que E s’est réalisé
au cours de ces n expériences. La fréquence relative nommée aussi seulement fréquence/ de E
est fn (E) = n(E)n
. On peut étudier le comportement de la fréquence fn (E) lorsque n augmente.
On constate généralement que cette fréquence se stabilise autour d’une valeur limite qu’on
identifie à la probabilité d’obtenir E.
L’approche fréquentiste définit la probabilité de E comme la limite de la fréquence relative
de E quand n tend vers l’infini.
n(E)
P (E) = lim .
n
Comme on ne peut pas répéter une expérience un nombre infini de fois, la fréquence relative
donne uniquement une approximation de celle-ci s’améliorant à mesure que le nombre n de
répétitions de l’expérience grandit.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 35

Exemple 3.1.2.1 Une mutuelle désire déterminer la probabilité de survenance d’un certain
type d’accident afin de fixer sa politique de primes d’assurance. Elle effectue une enquête
statistique sur une population de 100 000 adultes concernés répartis par classes d’âge. Il apparaı̂t
que 800 personnes ont eu ce type d’accident. On peut donc supposer que la probabilité de cet
800
événement est égale à 100000 = 8h = 0.8% ✷.

Remarques :

• Pour des suite distinctes d’expériences on obtient en général des suites différentes de
fréquences, Mais ces suites convergent vers la même valeur limite quand le nombre de
répétition devient élevé.
(Loi des grands nombres. J.Bernoulli : Si l’on répète N fois une expérience dans laquelle la
probabilité d’apparition d’un événement A est P , la fréquence de cet événement au cours
des N expériences, Nk tend vers P lorsque N tend vers l’infini. N → ∞ =⇒ Nk → P .)

• fn (E) est généralement différente de P (E) qui peut être considérée comme une fréquence
théorique.

• Les propriétés de la probabilité classique restent valables.

3.1.3 Définition axiomatique de Kolmogorov


Soit Ω un ensemble fondamental associé à une expérience aléatoire. Soit d’autre part la famille
T d’événements construite à partir de Ω. Définir la probabilité P (E) d’obtenir un événement E
consiste à associer à cet événement un nombre réel mesurant la vraisemblance de sa réalisation
et satisfaisant aux axiomes (i-) - (iii-).

Définition 26 On appelle probabilité sur (Ω, T ) une fonction P de T dans [0, 1] telle
que :
• P (Ω) = 1
• pour tout ensemble dénombrable d’événements incompatibles 2 à 2, on a :
! n
[ X
P Ai = P (Ai ).
i i=1

On dit alors qu’on a probabilisé l’espace des événements.

Définition 27 On appelle espace probabilisé le triplet (Ω, T , P ).

3.1.4 Propriétés des probabilités


Des propriétés (ii-) et (iii-), on déduit des autres propriétés des probabilités :

Lecture Notes in Computer Science and Technologies No 2, 2016


36 Vera Angelova

Additivité. Loi d’addition


• Cas d’événements incompatibles = exclusifs

Définition 28 Si A1 , A2 , . . ., Ai , . . ., An sont n événements incompatibles deux à


deux

(Ai ∩ Aj = ∅ si i 6= j) alors : P (A1 ∪ A2 ∪ . . . ∪ Ai ∪ . . . ∪ An ) =


P (A1 ) + P (A2 ) + . . . + P (Ai ) + . . . + P (An )

La probabilité de la réunion d’un ensemble fini ou dénombrable d’événements 2 à 2


incompatibles est égale à la somme de leurs probabilités d’où :
! n
[ X
P Ai = P (Ai )
i i=1

TD - Exemple 2. : On jette une pièce de monnaie 4 fois de suite. Quelle est la probabilité
d’obtenir deux fois F et deux fois P ?
Solution : Définir Ω : Arrangement de 4 éléments parmi 2 avec répétitions Ā42 = 24 = 16.
A1 = F F P P , A2 = F P F P , A3 = P F P F , A4 = P P F F , A5 = F P P F , A6 = P F F P ⇒
nombre de cas favorables 6 ⇒ P (∪6 Ai ) = 6/16 = 3/8. ✷
• Cas de deux événements quelconques

Définition 29 Si A et B sont deux événements quelconques (A ∩ B) 6= ∅, alors :

P (A ∪ B) = P (A) + P (B)–P (A ∩ B)

Voici pourquoi :
Si nous faisons la somme de A et B nous comptons 2 fois l’intersection A ∩ B. C’est la raison
pour laquelle il faut la retirer une fois de la somme.

A et B étant deux événements quel-


conques, (A ∩ B) 6= ∅, ces événements
peuvent se décomposer comme la réunion
de deux événements incompatibles :

Alors :
1. A = Ā ∪ (A ∩ B) avec Ā ∩ (A ∩ B) = ∅, alors P (A) = P (Ā) + P (A ∩ B) et P (Ā) =
P (A) − P (A ∩ B).
2. B = B̄ ∪ (A ∩ B) avec B̄ ∩ (A ∩ B) = ∅ d’où P (B̄) = P (B) − P (A ∩ B)
3. P (A ∪ B) = P (Ā) + P (A ∩ B) + P (B̄) d’où P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 37

Exemple 3.1.4.1 On lance un dé à 6 faces, non pipé, on considère l’événement A : ”le résultat
est pair” et l’événement B : ”le résultat est un multiple de trois”.
On a alors :

A = {2, 4, 6} et B = {3, 6} donc A ∪ B = {2, 3, 4, 6} et A ∩ B = {6}


avec P (A) = 3/6 P (B) = 2/6 P (A ∪ B) = 4/6 P (A ∩ B) = 1/6

on vérifie alors que : P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 3/6 + 2/6–1/6 = 4/6

Evénement contraire

Définition 30 Si A est un événement quelconque, alors P (Ā) = 1 − P (A).

Voici pourquoi :
Nous avons vu précédemment que
A ∪ Ā = Ω et A ∩ Ā = ∅ Propriétés de la réunion et de l’intersection
P (A ∪ Ā) = P (A) + P (Ā) Propriétés d’additivité des probabilités
d’où P (Ω) = 1 = P (A) + P (Ā) ainsi P (Ā) = 1 − P (A).

Exemple 3.1.4.2 La probabilité lors du lancer d’un dé non pipé d’obtenir ”plus de 2” se
traduit par A = {3, 4, 5, 6} et Ā = {1, 2} d’où P (A) = 1 − P (Ā) = 1 − 2/6 = 4/6 = 2/3.
Remarque : L’application de cette propriété est très utile lorsque le nombre d’événements
élémentaires de A, k, est important et que le calcul des probabilités P (Ai ) est fastidieux (cas
de la loi de Poisson). ✷

Evénement impossible

P (∅) = 0.
Voici pourquoi :
Nous avons vu précédemment que

∅ ∪ Ω = Ω élément neutre
P (∅ ∪ Ω) = P (∅) + P (Ω) Propriétés d’additivité des probabilités
d’où P (Ω) = P (∅) + P (Ω) ainsi P (∅) = 0

Inclusion

Définition 31 Si A ⊂ B alors P (A) ≤ P (B)

Lecture Notes in Computer Science and Technologies No 2, 2016


38 Vera Angelova

Voici pourquoi :

B = A∪(B∩Ā) avec A et (B∩Ā) disjoints, incompatibles,


mutuellement exclusifs.
alors P (B) = P [A∪(B ∩ Ā)] = P (A)+P (B ∩ Ā) ≥ P (A).

3.1.5 Probabilité conditionnelle


La probabilité d’un événement aléatoire A considéré comme le résultat d’une expérience aléatoire,
dépend d’un ensemble de conditions γ et représente une caractéristique numérique qui montre
la fréquence de la réalisation de l’événement A lors d’un grand nombre d’essais. La probabilité
change avec le changement des conditions γ. Cela permet avec le changement de l’ensemble de
conditions γ d’augmenter ou de diminuer la probabilité d’un événement.
Très souvent il est nécessaire de trouver la probabilité de l’événement A en considérant l’in-
formation supplémentaire si un autre événement B s’est réalisé ou non. Ainsi on aboutit à l’a
probabilité conditionnelle de l’événement A par rapport à l’événement B.

Exemple 3.1.5.1 Soit lors de n répétitions d’ une expériences l’événement A s’est réalisé k
fois, l’événement B - m fois, et l’événement A ∩ B - r fois.

Définition 32 Si A et B sont deux événements d’un espace probabilisé Ω avec P (B) 6= 0,


on appelle probabilité conditionnelle de l’événement ”A si B” ou ”A sachant B”, ou
la probabilité de A étant donné que B est réalisé, le quotient

P (A ∩ B)
P (A|B) = ,
P (B)

c’est-à-dire la relation entre le nombre r des essais, dont (A ∩ B) est surgi et le nombre
de réalisation de l’événement B.

P (A ∩ B) = P (A)P (B|A) = P (B)P (A|B) - s’appelle théorème de multiplication des pro-


babilités. Il s’utilise souvent pour calculer la probabilité conditionnelle P (A|B).
Pour l’exemple considéré 3.1.5.1 la probabilité de la réalisation
r
de l’événement A, sachant
que B est réalisé d’après la définition est P (A|B) = P P(A∩B)
(B)
= n
m = r
m
.
n

Remarque La probabilité P (A) est appelée la probabilité a priori et P (A/B) ou PB (A) la


probabilité a posteriori car sa réalisation dépend de la réalisation de B.
On observe les relations suivantes :
P (A/A) = 1
P (B)
Si B ⊂ A, alors A ∩ B = B et donc P (B/A) =
P (A)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 39

Exemple 3.1.5.2 Dans une urne il y a n boules, dont m blanches et n − m noires. On tire une
boule et sans remise on tire une deuxième. Quelle est la probabilité pour que la seconde boule
soit blanche, si la première est :
a) blanche
b) noire.
Solution :
a) Si B = ’lors du premier tirage la boule est blanche’, on a tirage sans remise, alors les cas
favorables pour le deuxième tirage sont (m − 1) de tous les (n − 1) cas possibles. La probabilité
conditionnelle P (A|B) est P (A|B) = m−1
n−1
.
m
b) De la même façon on obtient P (A|B̄) = n−1 .

Exemple 3.1.5.3 On jette un dé : si on sait que le nombre obtenu est pair, et en l’absence
de toute autre information, la probabilité d’avoir 2 est intuitivement 1/3, celle d’avoir 1 est
évidemment 0 : ce qui est en accord de la définition de P (B|A). |Ω| = |{1, 2, 3, 4, 5, 6}| = 6, A
= ’pair’, B = ’2’, P (B|A) = P P(A∩B)
(A)
= 13 , A = {2, 4, 6}, B = {2}, A ∩ B = {2}.

3.1.6 Indépendance statistique

Définition 33 A et B sont des événements indépendants ssi

P (A ∩ B) = P (A).P (B).

C.-à-d. la probabilité de leur multiplication est égale au produit de leurs probabilités


non-conditionnelles. Sinon les événements sont dépendants.

L’indépendance est une relation symétrique : si A est indépendant de B ⇐⇒ B est


indépendant de A.

Théorème 1 A est dit indépendant de B ssi P (A|B) = P (A).


Démonstration : a) Soient A et B deux événements indépendants. D’après les définitions
d’événements indépendants et de probabilité conditionnelle on a

P (A ∩ B) = P (A) . P (B),

P (A ∩ B) = P (B) . P (A|B).
Alors on obtient P (A) . P (B) = P (B) . P (A|B) =⇒ P (A|B) = P (A).
b) suffisance : Si P (A|B) = P (A), alors pour P (A ∩ B) on obtient

P (A ∩ B) = P (B) . P (A|B) = P (A) . P (B).

Remarque : Il ne faut pas confondre événements indépendants et événements incompa-


tibles.

Lecture Notes in Computer Science and Technologies No 2, 2016


40 Vera Angelova

Supposons A et B à la fois indépendants et incompatibles/A ∩ B = ∅/. On a alors :

P (A ∩ B) = P (A)P (B) indépendants


P (A ∩ B) = P (∅) = 0 incompatibles

d’où nécessairement P (A) = 0 ou P (B) = 0.

Exemple 3.1.6.1 (1) Dans l’exemple du lancer d’un dé à 6 faces, non pipé, les deux événements :
A = ” le résultat est pair” et B = ”le résultat est un multiple de trois” sont statistiquement
indépendants.
En effet, soit A = {2, 4, 6} B = {3, 6} A ∩ B = {6}
ainsi P (A) = 3/6 P (B) = 2/6 P (A ∩ B) = 1/6
on vérifie alors que : P (A ∩ B) = P (A)P (B) = 3/6 × 2/6 = 6/36 = 1/6.

(2) Si l’on considère une famille de deux enfants, les deux événements : A = ”enfants de sexe
différent” et B = ”au plus une fille” ne sont pas statistiquement indépendants.
En effet, l’espace probabilisé Ω, contient 4 événements élémentaires (si l’on considère une fa-
mille ordonnée), Ω = A ∪ B = {GG, GF, F G, F F }
avec A = {GF, F G}, B = {GG, GF, F G} et A ∩ B = {GF, F G}
d’où sous l’hypothèse d’équiprobabilité : P (A) = 1/2, P (B) = 3/4 et P (A ∩ B) = 1/2
On vérifie alors que : P (A ∩ B) 6= P (A)P (B) = 1/2 × 3/4 = 3/8 6= 1/2.

Exemple 3.1.6.2 On jet deux monnaies. Trouver la probabilité de l’événement A ∪ B, ou A =


’face de la première monnaie’, B = ’face de la seconde monnaie’.
Solution : De la propriété d’additivité on a

P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Les événements A et B sont indépendants, c.-a-d.

P (A ∩ B) = P (A) . P (B).

Alors, comme P (A) = 1/2, P (B) = 1/2, on a

P (A ∪ B) = 1/2 + 1/2 − 1/4 = 3/4.

TD - Exemple 3. On tire une carte au hasard d’un jeu de 52 cartes.


A : la carte tirée est un pique. P (A) = 13/52.
B : la carte tirée est un roi. P (B) = 4/52.
P (A ∩ B) = 1/52 (probabilité d’avoir le roi de pique).
P (A).P (B) = 13 4
52 52
52
= 52 1
2 = 52 . Et nous avons bien P (A ∩ B) = P (A).P (B) ⇐⇒ A et B sont

indépendants ✷

Exemple 3.1.6.3 Dans un hypermarché, on a observé au cours d’une semaine donnée, le


comportement de 1000 clients face à l’achat d’un certain produit. Les résultats de cette enquête
sont résumés dans le tableau suivant :

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 41

Acheteur (A) Non acheteur (Ā) Total


Homme (H) 25 225 250
Femme (F) 175 575 750
Total 200 800 1000

L’ensemble fondamental Ω est donc discret et fini (il est représenté par les 1000 clients observés).
Si l’on suppose l’équiprobabilité des résultats, on peut utiliser la définition classique de la
probabilité et réaliser un tableau de distribution des probabilités selon les 2 caractères “sexe” et
“comportement d’achat”.

A Ā Total

25 225
H 1000
= 0.025 1000
= 0.225 0.25

175 575
F 1000
= 0.175 1000
= 0.575 0.75

Total 0.20 0.80 1

Nous pouvons vérifier certains propriétés de la probabilité :

• Si Ē est le complémentaire de E : P (Ē) = 1 − P (E).


Ici P (H) = probabilité “être homme” et P (H̄) = P (F ) = probabilité “être femme”.
P (H̄) = 0.75 = 1 − 0.25.

• Pour deux événements E1 et E2 tels que E1 ⊂ E2 , alors P (E1 ) ≤ P (E2 ).


Soit F ∩ A l’événement “être femme qui achète”. Nous avons nécessairement F ∩ A ⊂ A.

P (F ∩ A) = 0.175 P (A) = 0.20 ⇒ Si F ∩ A ⊂ A

⇒ P (F ∩ A) ≤ P (A)

• A ∪ F = événement “être acheteur ou une femme”. A ∪ F est composé de 2 événements


compatibles

⇒ P (A ∪ F ) = P (A) + P (F ) − P (A ∩ F ) = 0.20 + 0.75 − 0.175 = 0.775.

• F ∪ H = événement “être une femme ou un homme”. F ∪ H est composé de 2 événements


incompatibles qui en plus ici sont des événements contraires.

⇒ P (F ∪ H) = P (F ) + P (H) = 0.25 + 0.75 = 1. ✷

Lecture Notes in Computer Science and Technologies No 2, 2016


42 Vera Angelova

3.1.7 Probabilité de la conjonction d’événements - (théorème des


probabilités composées, loi de multiplication)
Utilisé pour le calcul de P (A et B) = P (A ∩ B).
Il faut donc que les 2 événements A et B soient compatibles/A∩B 6= 0/. Le critère de distinction
est la dépendance des événements. Les formules découlent immédiatement de la définition de la
probabilité conditionnelle.

Théorème 2 . Théorème de probabilités composées


Événements indépendants : A et B sont des événements indépendants ssi

P (A ∩ B) = P (A).P (B).

Événements dépendants : Si A et B sont deux événements de T :

P (A ∩ B) = P (A).P (B|A) = P (B).P (A|B)

Si A, B, C ∈ T sont des événements compatibles, alors

P (A ∩ B ∩ C) = P (A)P (B|A)P (C|A ∩ B).

Généralisation de la loi de multiplication des probabilités pour le cas de n événements quel-


conques :

P (∩ni=1 Ai ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) . . . P An | ∩n−1
i=1 A i .

Exemple 3.1.7.1 On va calculer des probabilités attachées à l’expérience du tirage sans remise
de 3 boules d’une urne ; on suppose que l’urne contient initialement 10 boules dont 5 rouges, 3
noires et 2 blanches. Calculons à l’aide des probabilités conditionnelles P (RN B). On a :
RN B = A1 ∩ A2 ∩ A3
où A1 =”la 1ère boule tirée est rouge”, A2 = ”la 2ème boule tirée est noire” et A3 = ”la 3ème
boule tirée est blanche”.
Clairement P (A1 ) = 5/10 = 1/2(toutes les boules ayant la même probabilité d’être d’abord
tirées) ; de plus P (A2 |A1 ) = 3/9 = 1/3 et P (A3 |A1 ∩ A2 ) = 2/8 = 1/4. D’où d’après la formule
des probabilités composées :

5 32 1 1
P (RN B) = = = .
10 9 8 2×3×4 24

Exemple 3.1.7.2 Une série de 100 détails est contrôlé. La condition de rejet du lot est
l’événement Ā = au moins un détail parmi 5 est défectueux. Trouver la probabilité de l’événement
Ā si 5% des détails sont défectueux.
Solution :
L’événement Ak (k = 1, 2, 3, 4, 5) signifie i-ème détail vérifié est conforme. Alors l’événement

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 43

A = A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 est contraire de Ā. c-a-d l’accepte du lot. On cherche la probabilité


P (Ā) = 1 − P (A). De la généralisation de la loi de multiplication de probabilité on a

P (A) = P (A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ) =

P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 )P (A4 |A1 ∩ A2 ∩ A3 )P (A5 | ∩4i=1 Ai )


Pour les probabilités conditionnelles on a :

95 94 93
P (A1 ) = , P (A2 |A1 ) = ; P (A3 |A1 ∩ A2 ) = ;
100 99 98
92 91
P (A4 | ∩i=1 Ai ) = ; P (A5 | ∩i=1 Ai ) = .
97 96
Alors,
95 94 93 92 91
P (Ā) = 1 − P (A) = 1 − . . . . = 0.23
100 99 98 97 96

3.1.8 Théorème de la probabilité totale

Théorème 3 . Théorème de la probabilité totale.


Soit {E1 , E2 , . . . , Em } une partition de l’ensemble fondamental d’événements Ω et A
un événement quelconque, qui ne peut se réaliser qu’avec quelqu’un des Ei . On peut
représenter cette situation par le schéma suivant :

On peut dire que


m
[
A= (A ∩ Ei ) = (A ∩ E1 ) ∪ (A ∩ E2 ) ∪ . . . ∪ (A ∩ Em ).
i=1

Comme les événements A ∩ E1 , A ∩ E2 , . . ., A ∩ Em sont mutuellement exclusifs, on a :


m
[
P (A) = P ( (A ∩ Ei )) = P (A ∩ E1 ) + P (A ∩ E2 ) + . . . + P (A ∩ Em ).
i=1

Lecture Notes in Computer Science and Technologies No 2, 2016


44 Vera Angelova

Comme P (A ∩ Ei ) = P (Ei )P (A|Ei )

⇒ P (A) = P (E1 )P (A|E1 ) + P (E2 )P (A|E2 ) + . . . + P (Em )P (A|Em ),

alors : m
X
P (A) = P (Ei )P (A|Ei ).
i=1

Exemple 3.1.8.1 Une population animale comporte 1/3 de mâles et 2/3 de femelles. L’albi-
nisme frappe 6 % des mâles et 0,36 % des femelles. La probabilité pour qu’un individu pris au
hasard (dont on ignore le sexe) soit albinos est ? :
Si A = {mâle} et Ā = {femelle} constituent un système complet d’événements.
Soit B = {albinos}.
On a P (A) = 1/3, P (Ā) = 2/3,
P (B|A) = 6% = 0.06, P (B|Ā) = 0.36% = 0.0036.
sachant que P (B) = P (B/A)P (A) + P (B/Ā)P (Ā)
alors P (B) = (0, 06 × 1/3) + (0, 0036 × 2/3) = 0, 0224
soit 2,24% d’albinos dans cette population.

3.1.9 Formule de Bayes

Théorème 4 .Théorème de Bayes. Formule des probabilités des causes.


Soit Er un des événements de la partition de Ω.
La probabilité conditionnelle P (Er |A) = P (E r ∩A)
P (A)
.
P (Er ).P (A|Er )
Comme P (Er ∩ A) = P (Er ).P (A|Er ) ⇒ P (Er |A) = P (A)
.
P
Comme P (A) = m i=1 P (Ei ).P (A|Ei )

P (Er ).P (A|Er )


⇒ P (Er |A) = Pm .
i=1 P (Ei ).P (A|Ei )

3.1.10 Interprétation de la formule de Bayes

On considère les événements Ei comme des causes incompatibles (les Ei forment une partition
de Ω), dont une et une seule est réalisée (Er ).
On considère A comme la conséquence des causes Ei (la probabilité que A soit la conséquence
de Er = P (A|Er )).
Le théorème de Bayes donne la probabilité que, A étant réalisé, l’événement Er en soit la
cause = P (Er |A).

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 45

Exemple 3.1.10.1 Dans une usine, 4 machines fabriquent des pièces mécaniques dans les
proportions suivantes : M1 = 40%, M2 = 20%, M3 = 15%, M4 = 25%. On sait que les taux de
production de pièces défectueuses est de 4% pour M1 , 3% pour M2 , 2% pour M3 et 3% pour
M4 .

1. On choisit une pièce au hasard dans la production d’une journée. Quelle est la probabilité
que cette pièce soit défectueuse ?
2. Quelle est la probabilité que la pièce choisie provienne de M2 sachant qu’il s’agit d’une
pièce défectueuse ?

1. Si nous reprenons les lettres :


A = événement “la pièce choisie est défectueuse”
E1 = événement “la pièce choisie provient de M1 ”
E2 = événement “la pièce choisie provient de M2 ”
E3 = événement “la pièce choisie provient de M3 ”
E4 = événement “la pièce choisie provient de M4 ”
E1 , E2 , E3 , E4 constituent une partition de Ω (l’ensemble de la production journalière de
l’usine).
D’après l’énoncé nous avons : P (E1 ) = 0.4; P (E2 ) = 0.2; P (E3 ) = 0.15; P (E4 ) = 0.25;
P (A|E1 ) = 0.04; P (A|E2 ) = 0.03; P (A|E3 ) = 0.02; P (A|E4 ) = 0.03.
Nous avons donc :
P (A) = P (E1 )P (A|E1 ) + P (E2 )P (A|E2 ) + P (E3 )P (A|E3 ) + P (E4 )P (A|E4 )
P (A) = (0.4 × 0.04) + ().2 × 0.03) + (0.15 × 0.02) + (0.25 × 0.03)
= 0.0325.
La probabilité d’avoir une pièce défectueuse est de 3.25%.
2. On nous demande de calculer P (E2 |A). En utilisant le théorème de Bayes, on a :
P (E2 )P (A|E2 )
P (E2 |A) =
P (E1 )P (A|E1 ) + P (E2 )P (A|E2 ) + P (E3 )P (A|E3 ) + P (E4 )P (A|E4 )
0.2 × 0.03 0.006
P (E2 |A) = = = 0.1846.
0.0325 0.0325
Si l’on sait que la pièce est défectueuse, il y a 18.4% de chance qu’elle provienne de M2 .
Remarque
Au départ, la probabilité a priori que la pièce provienne de M2 était P (E2 ) = 0.2.
L’information supplémentaire (la pièce est défectueuse) vient modifier la probabilité de
E2 de telle sorte qu’a posteriori P (E2 |A) = 0.1846.
Ceci permet dans la pratique la révision des probabilités en fonction des informations ad-
ditionnelles disponibles (les probabilités a posteriori résultant d’une révision devenant les
probabilités a priori pour la révision suivante). Cette procédure accroı̂t la représentativité
des probabilités utilisées et donc affine le travail réalisé. ✷

Lecture Notes in Computer Science and Technologies No 2, 2016


46 Vera Angelova

3.2 Ensemble fondamental infini


Ce sont des espaces Ω ayant une infinité non dénombrable de points, par exemple si w est un
nombre réel, Ω = R.
L’ensemble fondamental ne sera plus P(Ω) mais une famille T de sous-ensembles possédant
les caractéristiques suivantes :

1. Ω ∈ T ;

2. si E ∈ T , alors Ē ∈ T ;
S∞
3. si pour tout i Ei ∈ T , alors E = ( i Ei ) ∈ T , c.à.d. l’opération ∪ est dénombrablement
permise.

Une telle famille est appelé une σ-algèbre (ou corps de Borel ou tribu). Dans ces conditions,
une fonction réelle P , définie sur les éléments d’une σ−algèbre T de Ω est appelé probabilité
si elle satisfait aux axiomes suivants :

1. Pour tout E ∈ T : P (E) ≥ 0

2. P (Ω) = 1

{E1 , E2 , . . P
3. Si S .} est une suite d’événements de T telle que pour i 6= j Ei ∩ Ej = ∅, alors
P( ∞ i E i ) = i P (Ei ).

Le triplet (Ω, T , P ) est encore appelé espace probabilisée.


Cette définition contient comme cas particulier le cas fini.
Dans le cas ou Ω est infini non dénombrable (par exemple Ω = R) il n’est plus possible d’associer
une probabilité non nulle à des valeurs isolés. On associe une probabilité à des intervalles de R.
Nous avons vu la nécessité de considérer une algèbre A qui admette l’opération limite
monotone, admettant alors les réunions (ou sommes) et intersections dénombrables (d’où le
préfixe σ).

3.3 Synthèse
Une loi de probabilité P sur un ensemble Ω doit être telle que l’on ait toujours :

0 ≤ P (E) ≤ 1 (3.1)
P (∅) = 0, et P (Ω) = 1 (3.2)
P (Ē) = 1 − P (E) (3.3)
P (E1 + . . . + Ek ) = P (E1 ) + . . . + P (Ek ). (3.4)

L’égalité (3.1) est connue sous le nom d’axiome d’additivité.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 47

Se donner (à priori) une loi de probabilité sur un ensemble Ω, c’est, par définition, se donner
un fonction P définie sur les sous-ensembles de Ω de telle sorte que les conditions (3.1) à (3.4)
soient satisfaite.
Une étude théorique plus poussée montre qu’il ne faut pas, en général, attribuer un pro-
babilité P (E) à tout sous-ensemble E de Ω, mais seulement aux ensembles de Ω appartenant
à une famille dite tribu. Elle montre en outre que la relation (3.4) doit être encore imposée à
toute suite infinie E1 , . . . , Ek , . . . de sous-ensembles de Ω deux à deux disjoints (axiome de
σ-additivité).

Test sur le chapitre : Probabilité


1. Combien d’interprétations de la notion de probabilité connaissez-vous ?

2. Donnez la définition classique de probabilité (énoncer l’hypothèse et démontrer la for-


mule).

3. Donnez la définition fréquentiste de probabilité (énoncer l’hypothèse et démontrer la


formule).

4. Énoncez la loi d’addition de probabilité pour les événements A et B compatibles (A∩B) =


∅.

5. Énoncez la loi d’addition de probabilité des événements incompatibles A et B.

6. Déduire la probabilité de A en fonction des probabilités des deux événement A ∩ B et


A ∩ B̄.

7. Quand dit-on que deux événements sont indépendants ?


Que vaut P (A/B) lorsque A et B sont indépendants ?

8. Énoncez la loi de multiplication de probabilité pour les événements A et B indépendants.

9. Énoncez la loi d’addition de probabilité des événements incompatibles A et B.

Lecture Notes in Computer Science and Technologies No 2, 2016


48 Vera Angelova

Chapitre 4

Modèles d’urne

4.1 Différents modes de tirage


Dans de nombreuses situations, une expérience stochastique s’effectue en plusieurs étapes
qui peuvent être regardées comme des expériences partielles. Dans le cas particulier où ces
expériences partielles sont indépendantes les unes des autres, pour l’étude de tels cas, il est
souvent avantageux de faire appel aux modèles d’urne, qui jouent un rôle privilégié dans la
discussion de nombreuses questions en probabilité et en statistique.
Considérons donc une urne contenant n boules distinctes qui sont par exemple numérotées
de 1 à n. De cette urne on extrait au hasard p boules, c’est-à-dire que l’on prélève un échantillon
(aléatoire) de taille p (p ≤ n). Cette opération peut se faire de plusieurs manières différentes :

• successivement
On peut tirer les boules l’une après l’autre

– avec remise
On peut tirer les boules l’une après l’autre, en remettant chaque fois la boule tirée
dans l’urne, avant de procéder au tirage suivant.
– sans remise
On peut tirer les boules l’une après l’autre, sans qu’une boule tirée soit remise dans
l’urne.

• simultanément
On peut tirer les boules simultanément, c’est-à-dire d’un seul coup. De point de vue
probabiliste cette méthode de tirage est identique à celle du tirage successif sans remise.

• exhaustif
On tire toutes les n boules de l’urne et on vide l’urne.

• non exhaustif
On tire p boules des n boules de l’urne, où p < n.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 49

Dans chacun de ces modes de tirage, les résultats obtenus sont de nature différente. Lorsque les
boules sont tirées successivement, nous prenons souvent en compte de l’ordre d’apparition des
boules et les tirages de n boules sont représentés par des listes ou des applications de l’ensemble
des numéros de tirage dans l’ensemble des boules de l’urne. Dans le cas où les boules sont tirées
simultanément, l’ordre d’apparition ne rentre pas en considération et nous représentons les
tirages par des parties ou des combinaisons de l’ensemble des boules.

4.1.1 Tirages avec remise


Tirons successivement de l’urne n boules et notons au fur et à mesure le numéro de la boule tirée
avant de la replacer dans l’urne. Nous obtenons alors une suite de n numéros éventuellement
répétés.

1. Tirages successifs de n objets parmi n objets avec remise

Exemple 4.1.1.1 Dans l’urne contenant les 10 boules numérotées de 0 à 9, on procède à


un tirage de ces 10 boules successivement, et avec remise. Le nombre de résultats possibles
s’obtient par :
10 10
↑ × ↑ × . . . × 10
choix du choix du 2-ème chiffre
1-er chiffre puisque la boule précédemment
tirée a été remise
On obtient : 10 facteurs égaux à 10 soit 1010 .

Dans le cas général, pour n éléments : nn est le nombre de résultats possibles.

2. Tirages successifs de p objets parmi n objets avec remise


Le modèle de référence dans ce cas est celui d’une urne contenant n jetons numérotés dont
on extrait p jetons, en remettant après chaque tirage le jeton tiré dans l’urne. Combien
de résultats différents peut-on obtenir lors de cette expérience ?
On peut fabriquer un arbre ou simplement tenir le raisonnement suivant :
pour le 1er jeton, on a n possibilités ;
pour le 2e jeton, on a n possibilités ;
... ;
pour le pe jeton, on a n possibilités.
On en déduit que le nombre de résultats possibles est :
p p
| ×n×
n {z. . . × n} = n = Ān .
p fois

Lecture Notes in Computer Science and Technologies No 2, 2016


50 Vera Angelova

4.1.2 Tirages sans remise

Extrayons successivement de l’urne p boules et notons au fur et à mesure le numéro de la boule


tirée sans la replacer dans l’urne. Nous obtenons alors une suite de p numéros tous différents.
Nous pouvons représenter cette suite formée de p numéros distincts de 1 à n par une p-liste
distincte de [1, n] ou d’un arrangement (sans répétition) de p éléments dans l’ensemble [1, n].
Nous obtenons au total Apn tirages différents.

1. Tirages successifs de p éléments parmi n

Le modèle de référence dans ce cas est celui d’une urne contenant n jetons numérotés
dont on extrait p jetons, en conservant le jeton après chaque tirage. Combien de résultats
différents peut-on obtenir lors de cette expérience ? Là encore, on peut fabriquer un arbre
ou recommencer notre raisonnement :
pour le 1er jeton, on a n possibilités ;
pour le 2e jeton, on a n − 1 possibilités ;
... ;
pour le pe jeton, on a n − p + 1 possibilités.
On en déduit que le nombre de résultats possibles est :

n × (n − 1) × (n − 2) × . . . × (n − p + 1) = Apn ;

où n! est le nombre n × (n − 1) × (n − 2) × . . . × 3 × 2 → 1.

2. Tirages successifs de n éléments parmi n

Si l’on fait n tirages sans remise dans l’urne et que l’on vide l’urne, alors le nombre de
résultats possibles est n!. C’est aussi le nombre de façons de ranger n objets les uns par
rapport aux autres
Ann = Pn = n!

4.1.3 Tirages simultanés

Extrayons simultanément de l’urne p boules. Nous pouvons représenter cette poignée de p boules
de [1, n] par une partie à p éléments de [1, n], c’est-à-dire une combinaison (sans répétition) de
p boules de l’ensemble [1, n]. Si l’on extrait p jetons simultanément (c’est-à-dire sans ordre ni
répétition) de l’urne contenant n jetons numérotés, le nombre de tirages possibles ou nombre
de combinaisons est alors :
 
n n! n × (n − 1) × . . . × (n − p + 1)
= = = Cnp .
p p!(n − p)! p × (p − 1) × . . . × 1

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 51

Synthèse

Types de Ordre Répétitions Dénombrement


tirages d’éléments

Successifs On tient compte de Un élément peut être Āpn = np arrangements avec


avec remise l’ordre tiré plusieurs fois répétition
Successifs
n!
sans remise Un élément n’est tiré Apn = (n−p)!
arrangements
L’ordre n’intervient pas qu’une seule fois
n!
Simultanés Cnp = p!(n−p)!
combinaisons

Cas possibles lors des différents modes de tirages

mode de tirage exhaustif non exhaustif

avec remise Ānn = nn Āpn = np

n!
sans remise Apn = (n−p)!
Ann = Pn = n!

n!
simultané Cnp = (n−p)!p!

Définition 34 Soit p ∈ N. On appelle p−liste d’éléments de E toute suite ordonnée


de p éléments de E.

4.2 Urne contenant deux sortes de boules


Dans une urne contenant des boules de deux types : A et B, il y a N1 boules de type A et
N2 boules de type B. Posons N1 + N2 = N . Considérons l’expérience aléatoire qui consiste à
prélever n boules parmi les N boules de l’urne. On peut envisager plusieurs façons de prélever
(tirer) ces n boules : avec remise, sans remise, simultanément.
Il se pose alors le problème suivant : comment déterminer la probabilité P (Ek ) de l’événement
Ek = “prélever k boules du type A parmi les n boules tirés dans les différents cas”.
A cette fin, nous considérons séparément chaque des trois méthodes de tirage présentées
ci-dessus.

Lecture Notes in Computer Science and Technologies No 2, 2016


52 Vera Angelova

• Lorsque les boules sont prélevées avec remise, on a affaire à une succession de n
expériences partielles qui sont identiques et indépendantes l’une de l’autre. On obtient
alors  
n k
P (Ek ) = p (1 − p)n−k ,
k
où p = N1 /N est la probabilité qu’une boule tirée soit de type A (k = 0, 1, 2, . . . , n). Pour
démontrer ce résultat, notons Fi l’événement qu’une boule de type A est prélevée lors du
ième tirage (i = 1, 2, . . . , n). Une réalisation particulière de Ek est alors donnée par

F1 ∩ F2 ∩ . . . ∩ F̄k+1 ∩ . . . ∩ F¯n ,

événement élémentaire dont la probabilité est égale à pk (1 − p)n−k . Cette probabilité


n’est pas modifiée par des permutations des n événements Fi et F̄j . Le nombre de ses
permutations,c’est-à-dire le nombre de réalisations distinctes de l’événement Ek est égal
à P̄nk,n−k = nk , d’où le résultat ci-dessus.

• Lorsqu’on effectue un tirage de n boules sans remise, les n expériences partielles dont
est composé ce processus, à savoir les prélèvements des n boules, ne sont ni identiques,
ni indépendantes l’une de l’autre. En effet, la probabilité de prélever une boule de type
A varie constamment au cours du tirage et dépend des résultats déjà obtenus. En fai-
sant appel au théorème de multiplication /P (A ∩ B) = P (A)P (B) - A, B - événements
indépendants ; P (A ∩ B) = P (A).P (B|A) = P (B).P (A|B) - événements dépendants/ on
peut démontrer que la probabilité d’avoir exactement k boules de type A parmi les n
boules tirées est donnée par   N1 N2
k n−k
P (Ek ) = N
 ,
n

où max(0, n − N + N1 ) ≤ k ≤ min (N1 , n).


Démonstration.
Le choix de k boules du type A et n − k boules du type B s’effectue d’après l’expression

N 1 N1 − 1 N1 − 2 N1 − k + 1 N2 N2 − 1 N2 − n + k + 1
. . ... . . ... =
|N N − 1 N −{z2 N − k + 1} |N − k N − k − 1{z N −n+1 }
k n−k
N1 !
. N2 !
(N1 −k)! (N2 −n+k)! AkN1 .An−k
N2
= N!
= n
.
(N −n)!
AN

n!
Choix des emplacements : P̄nk,n−k = k!.(n−k)!
.
AkN .An−k k
CN .CNn−k
Akn
D’ici P (Ek ) = P̄nk,n−k 1
An
N 2
= 1
n
CN
2
comme Cnk = k!
.
N

• Lorsqu’on tire les n boules simultanément, on peut modéliser ce phénomène stochas-


tique par la loi de probabilité P (En ) = Nn /événements équiprobables/. Les calculs du
nombre de cas possibles et du nombre de cas favorables à la réalisation de Ek montrent

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 53

que la probabilité de cet événement est la même que celle obtenue pour le tirage sans
remise.

Le modèle du tirage sans remise correspond certainement le mieux à la manière dont


on prélève généralement des objets d’un ensemble donné lors d’une application concrète.
D’un autre côté, le modèle du tirage avec remise possède des propriétés mathématiques
beaucoup plus simples et se prête par conséquent mieux à des investigations probabilistes.
De plus, on peut montrer que

N1
 N −N1
  
k n−k n k
N
 → p (1 − p)n−k
n
k

si N → ∞, N1 → ∞ tel que N1 /N → p. Ceci signifie que le modèle sans remise se


rapproche du modèle avec remise si l’effectif N de l’urne est grand par rapport à la taille
n de l’échantillon.

Exemple 4.2.1 (problème de garantie) [3] Un article est produit en masse : on sait
qu’en moyenne 10% des pièces sont défectueuses. L’article est vendu dans des emballages
contenant chacun dix pièces. Le fournisseur garantit qu’il y ait au moins huit pièces non-
défectueuses dans chaque emballage. Quelle est la probabilité que cette garantie puisse
être tenue ?

On peut assimiler cette situation à un tirage sans remise de dix boules d’une urne com-
prenant un nombre infiniment grand de boules dont 90% sont de type A. La probabilité
que la garantie du fournisseur puisse être tenue se calcule alors par

10
X
P (E) = P (E8 ∪ E9 ∪ E10 ) = P (Ek )
k=8
10  
X 10
= 0.9k 0.110−k = 0.9298.
k=8
k

avec Ek = “un emballage comprend k bonnes pièces”. ✷

Synthèse
Probabilité de prélever k boules du type A parmi les n tirées d’une urne contenant deux sortes
de boules. N1 boules de type A ; N2 de type B ; N1 + N2 = N .
Ek =“prélever k boules du type A parmi les n tirées”
p = NN1

Lecture Notes in Computer Science and Technologies No 2, 2016


54 Vera Angelova

avec remise sans remise simultané

choix d’emplacements P̄nk,n−k = Cnk P̄nk,n−k = Cnk —–

AkN An−k k .C n−k


CN
choix d’éléments pk .(1 − p)n−k N1
An
2 1 N
n
CN
2
N

k C n−k
(Nn1 )(n−k
N2
) CN
P (Ek ) Cnk pk (1 − p)n−k 1N
n
2
(n)
N CN

4.2.1 Probabilité d’obtention d’un nombre donné de boules


Considérons une urne U contenant N boules de k couleurs différentes. Supposons les couleurs
numérotées de 1 à k. Pour chaque couleur i de [1, k], on note Ni le nombre de boules de la
couleur i. Pour tout entier i compris entre 1 et k désignons par pi = NNi la proportion de boules
P
de la couleur i dans l’urne. On a la relation ki=1 pi = 1.
Intéressons nous à la répartition des couleurs dans le tirage obtenu, c’est-à-dire au nombre de
boules obtenues dans chaque couleur. P
Soient n1 , n2 , . . . , nk des entiers naturels tels que ki=1 ni = n. Considérons l’ensemble A(n1 , . . . , nk )
des tirages contenant exactement n1 boules de la couleur 1, n2 boules de la couleur 2,. . ., et nk
boules de la couleur k. Pour chacun des modes de tirage précédents, nous allons déterminer la
probabilité de cet événement A(n1 , . . . , nk ).

Tirage avec remise

Théorème 5 Dans le cas d’un tirage avec remise de n boules de l’urne U précédente
on a :
n!
P (A(n1 , . . . , nk )) = . pn1 . . . pnk k
n1 ! . . . nk ! 1

Démonstration. Reprenons l’urne U précédente et effectuons un tirage de n boules avec


remise. Considérons Ω l’ensemble formé des n-listes de [1, N ]. Le tirage s’effectuant au hasard,
il y a équiprobabilité sur l’univers Ω. Il existe N n résultats possibles.
L’événement A(n1 , . . . , nk ) se réalise lorsque nous obtenons une n-liste constituée de n1 boules
de la couleur 1, n2 de boules de la couleur 2,. . . et nk de boules de la couleur k.
Pour former une telle n-liste, nous devons choisir les emplacements des couleurs, puis choisir
les boules dans chaque couleur.
1. Pour choisir les emplacements des couleurs, nous choisissons n1 emplacements parmi les n

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 55

de la n-liste qui seront occupés par des boules de couleur 1, n2 emplacements parmi les n − n1
restants qui seront occupés par des boules de couleur 2,. . ., enfin nous choisissons les derniers
emplacements qui seront occupés par des boules de la couleur k et il en reste n−n1 −. . .−nk−1 =
nk .
Nous obtenons au total
nk n!
Cnn1 . Cn−n
n2
. . . . . Cn−n 1 −...−nk−1
=
1
n1 !n2 ! . . . nk !
choix possibles d’emplacement des couleurs.
2. Les places des couleurs étant choisies, nous complétons pour tout entier i compris entre 1 et
k, les places occupées par les boules de couleur i par une ni -liste de boules de couleur i et il y
a Nini ni -listes de [1, N ]. Donc au total N1n1 N2n2 . . . Nknk façons de compléter les emplacements
réservés à chacune des couleurs par des boules.
Nous obtenons finalement
n!
N1n1 N2n2 . . . Nknk .
n1 ! . . . nk !
tirages constitués de n1 boules de la couleur 1, n2 de boules de la couleur 2,... et nk de boules
de la couleur k.
Par conséquent la probabilité de l’événement A(n1 , n2 , . . . , nk ) est égale à :
n!
N n1 N2n2
n1 !n2 !...nk ! 1
. . . Nknk n! N1n1 N2n2 . . . Nknk
P (A(n1 , n2 , . . . , nk )) = = .
Nn n1 ! . . . nk ! Nn

Or n = n1 + n2 + . . . + nk et NNi = pi donc nous pouvons écrire que N n = N n1 . N n2 . . . . N nk et


donner la probabilité sous la forme :

n! N1n1 N2n2 . . . Nknk n!


P (A(n1 , n2 , . . . , nk )) = . n1 n2 n
= . pn1 1 . . . pnk k .
n 1 ! . . . nk ! N N . . . N k n1 ! . . . nk !

Tirage sans remise

Théorème 6 Dans le cas d’un tirage sans remise de n boules de l’urne U précédente
on a :
CNn11 . CNn22 . . . . CNnkk
P (A(n1 , . . . , nk )) =
CNn

Démonstration. Reprenons l’urne U précédente et effectuons un tirage de n boules sans


remise. Considérons Ω l’ensemble formé des n-listes distinctes de [1, N ]. Le tirage s’effectuant
au hasard, il y a équiprobabilité sur l’univers Ω. Il existe AnN résultats possibles.
L’événement A(n1 , . . . , nk ) se réalise lorsque nous obtenons une n-liste distincte constituée de
n1 boules distinctes de la couleur 1, n2 distinctes de boules de la couleur 2,. . . et nk distinctes
de boules de la couleur k.
Pour former une telle n-liste distincte, nous devons choisir les emplacements des couleurs, puis
choisir les boules dans chaque couleur.

Lecture Notes in Computer Science and Technologies No 2, 2016


56 Vera Angelova

1. Pour le choix des emplacements des couleurs, nous procédons de même que dans le cas d’un
tirage avec remise, et nous obtenons au total
nk n!
Cnn1 . Cn−n
n2
. . . Cn−n 1 −...nk−1
=
1
n1 !n2 ! . . . nk !
répartitions possibles des couleurs dans les emplacements.
2. Les places des couleurs étant choisies, nous complétons pour tout entier i compris entre 1 et
k, les places occupées par les boules de couleur i par une ni -liste distincte de boules de couleur
i et il y a AnNii ni -listes distinctes de [1, Ni ]. Donc au total AnN11 AnN22 . . . AnNkk façons de compléter
les emplacements réservés à chacune des couleurs par des boules distinctes. Nous obtenons donc
au total
n!
AnN11 AnN22 . . . AnNkk
n1 !.n2 !. . . . nk !
tirages constitués de n1 boules de la couleur 1, n2 de boules de la couleur 2,... et nk de boules
de la couleur k.
Par conséquent la probabilité de l’événement A(n1 , n2 , . . . , nk ) est égale à :
n!
An1 An2
n1 !...nk ! N1 N2
. . . AnNkk n! AnN11 AnN22 . . . AnNkk
P (A(n1 , n2 , . . . , nk )) = = .
AnN n1 !.n2 ! . . . nk ! AnN
Ce résultat peut s’écrire sous la forme :
n n n
AN1 AN2 ANk
n1!
1
. n2!
2
. ... nk!
k
CNn11 . CNn22 . . . CNnkk
P (A(n1 , n2 , . . . , nk )) = An
= .
N CNn
n!
Nous obtenons la même probabilité que dans le cas d’un tirage exhaustif.

Tirage simultané

Théorème 7 Dans le cas d’un tirage simultané de n boules de l’urne U précédente on


a:
CNn11 . CNn22 . . . CNnkk
P (A(n1 , . . . , nk )) = .
CNn

Démonstration. Reprenons l’urne U précédente et effectuons un tirage simultané de n


boules. Considérons Ω l’ensemble formé des parties à n éléments de [1, N ] . Le tirage s’effectuant
au hasard, il y a équiprobabilité sur l’univers Ω. Il existe CNn résultats possibles.
L’événement A(n1 , . . . , nk ) se réalise lorsque nous obtenons un ensemble de n boules constitué
de n1 boules distinctes de la couleur 1 choisies parmi N1 , de n2 distinctes de boules de la couleur
2 choisies parmi N2 ,. . . et de nk distinctes de boules de la couleur k choisies parmi Nk .
Pour former un tel ensemble, nous choisissons pour tout entier i compris entre 1 et k, une partie
de ni boules prises parmi les Ni de la couleur i. Au total, nous obtenons CNn11 . CNn22 . . . CNnkk cas
favorables à la réalisation de l’événement A(n1 , . . . nk ). On en déduit la probabilité de cet
événement :
CNn11 . CNn22 . . . CNnkk
P (A(n1 , . . . , nk )) =
CNn

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 57

Synthèse
Urne U contenant N boules de k couleurs différentes. Ni P le nombre de boules de la couleur i ;
pi = N proportion de boules de la couleur i dans l’urne ; ki=1 pi = 1.
Ni
P
Soient n1 , n2 , . . . , nk des entiers naturels tels que ki=1 ni = n et A(n1 , . . . , nk ) l’ensemble des
tirages contenant exactement n1 boules de la couleur 1, n2 boules de la couleur 2,. . ., et nk
boules de la couleur k.
Probabilité de l’événement A(n1 , . . . , nk ) :

avec remise sans remise simultané

choix d’emplacements P̄nn1 ,n2 ,...,nk P̄nn1 ,n2 ,...,nk —–

n n n n n
AN1 AN2 ...ANk CN1 .CN2 ...C nk Nk
choix d’éléments pn1 1 .pn2 2 . . . pnk k 1 2
An
k 1 2
n
CN
N

n n n n n n
CN1 CN2 ...CNk CN1 CN2 ...CNk
P (A(n1 , n2 , . . . , nk )) P̄nn1 ,n2 ,...,nk pn1 1 .pn2 2 . . . pnk k 1 2
n
CN
k 1 2
n
CN
k

4.2.2 Schéma (processus) de Bernoulli


Soit une expérience aléatoire ayant exactement 2 issues possibles, c.à.d. donnant lieu à 2
événements complémentaires S (succès) et S̄ (échec) avec les probabilités P (S) = p et P (S̄) =
1 − p = q. Répétons n fois cette expérience. On a un schéma (ou processus) de Bernoulli si les
conditions suivantes sont satisfaites :

• les expériences successives sont indépendantes les unes des autres


• la probabilité d’obtenir S reste égale à p lors de chaque répétition.

On peut s’intéresser au nombre de fois que S s’est réalisé au cours des n expériences.

P (S se réalise k fois) = Cnk pk q n−k .

Un tel schéma est décrit par un modèle d’urne et des tirages avec remise.
Il est évident qu’il existe un nombre k, tel que l’expression Cnk pk q n−k atteint sa valeur maximale.
Notons cette valeur par m. Il est appelé le nombre le plus probable. Le nombre le plus
probable est défini comme le nombre entier dans les limites n . p − q ≤ m ≤ n . p + p.

Exemple 4.2.2.1 Une machine produit une sorte de détails. La probabilité qu’un détail soit
bon est 95%. On choisit 8 détails au hasard. Trouver la probabilité 6 détails parmi les 8 détails

Lecture Notes in Computer Science and Technologies No 2, 2016


58 Vera Angelova

choisis d’être bons.


On utilise la formule de Bernoulli avec p = 0.96, q = 0.05, n = 8 et k = 6 :

Pn,k = Cnk pk q n−k = C86 . 0.956 . 0.052 ≈ 0.05

Exemple 4.2.2.2 Les statisticiens ont trouvé que la probabilité de la naissance d’un garçon
est 51% et d’une fille - 49%. Trouver le nombre le plus probable des garçons lors de 4723
naissances.
Solution :
On utilise la formule du nombre le plus probable avec p = 0.51, q = 0.49 et n = 4723. On
obtient :

n.p − q ≤ m ≤ n.p + p
4723 . 0, 51 − 0, 49 ≤ m ≤ 4723 . 0, 51 + 0, 51
2408, 24 ≤ m ≤ 2409, 24

Le nombre le plus probable des garçons nés est m = 2409.

Test sur le chapitre : Modèles d’urne


1. Combien de modes de tirage connaissez vous ? Enumérer les.

2. Décrivez le tirage avec remise

3. Décrivez le tirage sans remise

4. Décrivez le tirage simultané. De point de vue probabiliste cette méthode de tirage est
identique à celle du tirage

a. sans remise b. avec remise

5. Donnez le nombre des résultats possibles dans le cas de tirages successifs de n objets
parmi n objets avec remise.

6. Donnez le nombre des résultats possibles dans le cas de tirages successifs de p objets
parmi n objets avec remise.

7. Donnez le nombre des résultats possibles dans le cas de tirages successifs de p éléments
parmi n sans remise.

8. Donnez le nombre des résultats possibles dans le cas de tirages successifs de n éléments
parmi n sans remise.

9. Donnez le nombre des résultats possibles dans le cas de tirage simultané de p éléments
parmi n.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 59

Chapitre 5

Variables aléatoires

5.1 Introduction

L’événement aléatoire est une caractéristique qualitative de l’expérience aléatoire. Souvent il est
utile de représenter le résultat d’une expérience aléatoire par une caractéristique quantitative,
c.-a-d. par une valeur - une variable réelle ou complexe. Comme l’événement aléatoire, la valeur
de la variable est aussi inconnue en avance. Elle peut différer en conséquence des différentes
issues lors de la répétition de l’expérience. [12, 14] La notion mathématique qui représente
efficacement d’une façon quantitative une expérience aléatoire concrète est celle de variable
aléatoire - variable, dont les valeurs observées sont régies par le hasard. Ainsi la somme des
deux dés, le pourcentage de réponses ”oui” à une question posée dans un sondage ou le nombre
d’enfants dans un couple sont des exemples de variables aléatoires.
Remarque. On se limitera ici au cas des variables aléatoires réelles.

Définition 35 Soit (Ω, T , P ) l’espace probabilisé d’espace fondamental Ω et de mesure


de probabilité P , lié à une expérience aléatoire. On appelle variable aléatoire réelle
(notée dans la suite v.a.) sur cet espace, toute application X de son ensemble fondamental
Ω dans R, tel que :

X : Ω −→ R, ω −→ x, avec x = X(ω),

c.-à-d. une application qui à chaque élément de Ω (à chaque résultat d’une expérience
aléatoire) associe une donnée numérique réelle.
X(ω) Ω.

On dit que x est la valeur prise par la v.a. X lorsque le résultat de l’expérience aléatoire
est ω.

Lecture Notes in Computer Science and Technologies No 2, 2016


60 Vera Angelova

A chaque événement élémentaire ω de Ω correspond un nombre réel x associé à la variable


aléatoire X. Comme l’indique le graphe, il n’y a pas obligatoirement autant de valeurs possibles
prises par la variable aléatoire X que d’événements élémentaires. La valeur x correspond à la
réalisation de la variable X pour l’événement élémentaire ω.

Exemple 5.1.1 Sexe par âge croissant des enfants. On considère le sexe par âge croissant
des enfants d’une famille avec 2 enfants. L’espace fondamental est constitué des événements
élémentaires suivant : sans choix, ordonné, avec répétition =⇒ |Ω| = Ā22 = 22 = 4

Ω = {GG, GF, F G, F F }.

Notons la variable aléatoire X = ”nombre de filles dans la famille”. Le système complet


d’événements est T = {GG}, {GF, F G}, {F F }. Les valeurs possibles prise par X sont :
X(Ω) = {0, 1, 2}. L’ensemble image V est un ensemble discret, fini.

Notations. On désigne généralement par X (ou Y , ou Z,. . .) une variable aléatoire et par x
(ou y, ou z,. . .) une valeur déterminée de celle-ci.

5.2 Variable aléatoire discrète


Supposons que l’ensemble fondamental Ω est fini ou dénombrable. Dans ces conditions X ne
prend que des valeurs isolées et distinctes.

Définition 36 Une variable aléatoire est dite discrète si elle ne prend que des valeurs
discontinues dans un intervalle donné (borné ou non borné).

L’ensemble des nombres entiers est discret. En règle générale, toutes les variables qui
résultent d’un dénombrement ou d’une numération sont de type discrètes.
La variable aléatoire discrète X = ”nombre de filles dans la famille” de l’exemple 5.1.1 prend
des valeurs discontinues dans un intervalle borné, alors c’est une variable aléatoire discrète.

Exemple 5.2.1 On jette une pièce de monnaie. On définit la variable aléatoire X par le nombre
de jets successifs nécessaires pour obtenir le côté pile pour la première fois :

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 61

L’ensemble V = {x} des valeurs possibles est l’ensemble des entiers positifs :
V = {x} = {1, 2, 3, . . .}.
C’est un ensemble infini dénombrable, un intervalle non borné. La variable aléatoire X = ”le
nombre de jets successifs nécessaires pour obtenir le côté pile pour la première fois” est une
variable aléatoire discrète.

5.2.1 Loi ou distribution de probabilité discrète


Une variable aléatoire est caractérisée par l’ensemble des valeurs qu’elle peut prendre et par
l’expression mathématique de la probabilité de ces valeurs. Cette expression s’appelle la loi de
probabilité (ou distribution de probabilité) de la variable aléatoire.

Si nous notons V l’ensemble des valeurs prises par X, la v.a. X est définie par :
X : Ω −→ V, ω −→ x.
La loi de probabilité associe à chacune des valeurs possibles de la variable discrète X la pro-
babilité de l’événement correspondant. La loi de probabilité d’une variable aléatoire discrète
est entièrement déterminée par les probabilités pi des événements {X = xi } et xi parcourant
l’univers image V = X(Ω).

Définition 37 On appelle loi ou distribution de probabilité de la v.a. discrète X


la fonction définie par l’ensemble des couples {(x, px ) : x ∈ V } :

P (X = x) si x ∈ V
p(x) = px =
0 si x 6= V

Cette loi peut être représentée par un diagramme en bâtons.

Exemple 5.1.1 Sexe par âge croissant des enfants d’une famille - suite.
Le cardinal (le nombre des éléments de l’ensemble fondamental) est |Ω| = Ā22 = 22 = 4. Si l’on
fait l’hypothèse que la probabilité d’avoir un garçon est égale à celle d’avoir une fille (1/2),
alors la distribution de probabilité ou loi de probabilité du nombre de filles dans une
fratrie de deux enfants est :

Lecture Notes in Computer Science and Technologies No 2, 2016


62 Vera Angelova

Ensemble des événements possibles Ω à la variable X G et G F et G ou G et F F et F


Valeurs de la variable aléatoire X 0 1 2
Probabilités associées P (X = xi ) ou pi 1/4 1/2 1/4

La représentation graphique est :

Si P (F ) = P (G) = 1/2, alors

P [(F ∩ G) ∪ (G ∩ F )] = P (F ∩ G) + P (G ∩ F ) Propriétés d’additivité


avec (F ∩ G) ∩ (G ∩ F ) = ∅ événements incompatibles
P (F ∩ G) = P (F )P (G) Propriété d’indépendance
d’où P [(F ∩ G) ∪ (G ∩ F )] = P (X = 1) = (1/2 × 1/2) + (1/2 × 1/2) = 1/2.

Exemple 5.2.1 Nombre de jets successifs nécessaires pour obtenir le côté pile pour la
première fois - suite. L’ensemble fondamental est Ω = {P, (F, P ), (F, F, P ), . . .}. L’ensemble
image {x} des valeurs possibles est l’ensemble des entiers positifs : {x} = {1, 2, 3, . . .}.
Pour que x coups soient nécessaires, il faut obtenir le côté face aux (x − 1) premiers coups et
le côté pile au x−ème, d’où :
 x−1
1 1 1
P (X = x) = × = x.
2 2 2
On obtient la loi de probabilité :

Variable aléatoire X 1 2 3 ... x ...


Probabilité P (X = x) 1/2 1/4 1/8 ... 1/2x ...

La représentation graphique de cette loi fait l’objet de la figure - diagramme en bâtons

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 63

Famille de distributions de probabilité


Si les probabilités px associés aux valeurs x d’une v.a. X dépendent d’un paramètre θ, ce que
l’on note : P (X = x) = px (θ), avec x ∈ V , on dit que l’on a une famille de distributions de
probabilité.

5.2.2 Fonction de répartition


Cette fonction associe à chaque valeur x de la variable aléatoire X la probabilité de ne pas
excéder cette valeur. En d’autres termes :

Définition 38 La fonction qui associe à une valeur réelle quelconque x la probabilité


pour que la v.a. X prenne une valeur strictement inférieurea à x est appelée fonction
de répartition et est notée : F (x) = P (X < x).
a
La définition anglo-saxonne est du type inférieur ou égal, ce qui risque de troubler le lecteur déjà
familier des ouvrages écrits en anglais ou logiciels non ”francisés” ; l’AFNOR préconise le maintien de
l’usage français dans sa norme NF X 06-002 de novembre 1971, in Statistique, tome 1 (Vocabulaire,
estimation et tests statistiques), recueil AFNOR, 60 édition, 1993.

Les valeurs de la fonction F (X) sont des sommes cumulées des valeurs de la fonction p(x).
Si V = {x1 , x2 , . . . , xn }, la fonction de répartition de la distribution de probabilité définie par
l’ensemble des couples {(xi , pi ), i = 1, n} est définie par :

 0 x ≤ x1
F (x) = P (X < x) = p1 + p2 + . . . + pi xi < x ≤ xi+1

p1 + p2 + . . . + pn x > xn

L’importance pratique de la fonction de répartition est qu’elle permet de calculer la proba-


bilité de tout intervalle dans R.

Lecture Notes in Computer Science and Technologies No 2, 2016


64 Vera Angelova

Exemple 5.2.2.1 Soit la loi de probabilité de la variable aléatoire X :

X 0 1 2
P 0.6 0.3 0.1

Définir la fonction de répartition F (x).


Solution :

1. Soit x ≤ 0. Alors : F (x) = P (X < x) = 0.

2. Soit 0 < x ≤ 1. Alors : F (x) = P (X < x) = P (X = 0) = 0.6.

3. Soit 1 < x ≤ 2. Alors : F (x) = P (X < x) = P (X = 0) + P (X = 1) = 0.9.

4. Soit x > 2. Alors : F (x) = P (X < x) = P (X = 0) + P (X = 1) + P (X = 2) = 1.

On obtient finalement : 

 0, x≤0

0.6, 0<x≤1
F (x) =

 0.9, 1<x≤2

1, x>2
Le graphe de la fonction F (x) est

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 65

La représentation graphique de la fonction de répartition est la courbe cumulative (courbe


de répartition). Dans le cas d’une variable discrète, on l’appelle encore courbe en escalier à
cause de sa forme : elle présente des marches (ou sauts) aux points d’abscisse xi correspondant
aux valeurs possibles de la variable.

Propriétés de la fonction de répartition


Soit F (x) = P (X < x) la fonction de répartition d’une la variable aléatoire discrète X, alors :
p1. ∀x ∈ R 0 ≤ F (x) ≤ 1
Résulte de la définition d’une probabilité
p2. F (x) est croissante sur R.
si a ≤ b, alors {X < a} ⊂ {X < b} donc P (X < a) ≤ P (X < b)
p3. limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1
Résulte de la définition d’une probabilité
p4. si a ≤ b P (a ≤ X < b) = F (b) − F (a).
{X < b} = {a ≤ X < b} ∪ {X < a} ainsi F (b) = P (a ≤ X < b) + F (a).
La fonction de répartition garde la même valeur F (xi ) sur tout intervalle [xi , xi+1 [. Au point
d’abscisse xi elle fait un saut égal à la probabilité attachée à la valeur de xi .
On calcule aisément la fonction de répartition à partir des probabilités attachées aux valeurs
possibles de la variable discrète :
X
F (x) = P (X = xi ).
xi <x

Inversement, la fonction de répartition permet de reconstituer facilement la distribution de


probabilité :
P (X = xi ) = F (xi+1 ) − F (xi ).
II est donc indifférent de se donner l’une ou l’autre.

Exemple 5.2.2.2 Soit la fonction de répartition de la variable aléatoire x :




 0, x ≤ −2

 0.2, −2 < x ≤ 1

F (x) = 0.6, 1 < x ≤ 2



 0.9, 2 < x ≤ 4

1. x>4
Définir la loi de probabilité de la variable X.
Solution :
On dessine le graphe de la fonction F (x) Figure 5.1 : Les sauts de la fonction F (x) sont dans
les points x = −2, x = 1, x = 2, et x = 4. Les marches sont respectivement 0.2, 0.4, 0.3 et 0.1,
qui représentent la probabilité des valeurs correspondantes de la variable aléatoire.
La loi de probabilité de la variable aléatoire est :

Lecture Notes in Computer Science and Technologies No 2, 2016


66 Vera Angelova

Figure 5.1 : Fonction de répartition

X -2 1 2 4
P 0.2 0.4 0.3 0.1

Reprenons les deux exemples précédents : 5.1.1 Sexe par âge. et 5.2.1. Lance d’une mon-
naie.
Pour l’exemple 5.1.1 La densité de probabilité et la fonction de répartition de la variable
aléatoire définie comme le nombre de filles dans une famille de deux enfants, est la suivante :

Nombre de filles 0 1 2
P (X = xi ) 1/4 1/2 1/4
FX = P (X < x) 0 1/4 3/4 1

La représentation graphique est :

Pour l’exemple 5.2.1 La fonction de répartition de la variable aléatoire définie comme le nombre
de jets d’une pièce de monnaie nécessaires pour obtenir le côté pile pour la première fois, est
la suivante :

Variable aléatoire X 1 2 3 4 ... x ...


Probabilité P (X = x) 1/2 1/4 1/8 1/16 ... 1/2x ...
Fonction de répartition F (x) 0 1/2 3/4 7/8 ... (2x − 1)/2x ...

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 67

Sa représentation graphique est la courbe en escalier

5.2.3 Calcul de la probabilité que X appartienne à un intervalle


réel à l’aide de la fonction de répartition
Exemple 5.2.2 Un vendeur de téléviseurs présente la synthèse du nombre d’articles ven-
dus chaque jour au cours des 100 derniers jours de vente.

Nombre de T.V. vendus


0 1 2 3 4 5 6 Total
chaque jour
Nombre de jours de
2 8 20 25 30 12 3 = 100
vente

Soit X la variable aléatoire donnant “le nombre de T.V. vendus au cours d’une journée”. Pour
la fonction de distribution de probabilité et la fonction de répartition on a :

Valeur de X = xi 0 1 2 3 4 5 6
P (X = xi ) 0.02 0.08 0.20 0.25 0.30 0.12 0.03
F (xi ) = P (X < xi ) 0 0.02 0.10 0.30 0.55 0.85 0.97 1

• Probabilité “vendre moins de 4 T.V. dans la journée” = P (X < 4) = F (4) = 0.55.

• Probabilité “vendre au plus 4 T.V. dans la journée” = P (X ≤ 4)

P (X ≤ 4) = P (X < 5) = F (5) = 0.85.

• Probabilité “vendre au moins 2 T.V. dans la journée” = P (X ≥ 2) Nous pouvons


déterminer P (X ≥ 2) de 2 façons :

P (X ≥ 2) = P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5) + P (X = 6)
= 0.20 + 0.25 + 0.30 + 0.12 + 0.03 = 0.90

P (X ≥ 2) = 1 − P (X < 2) = 1 − F (2) = 1 − 0.10 = 0.90

Lecture Notes in Computer Science and Technologies No 2, 2016


68 Vera Angelova

• Probabilité “vendre plus de 2 T.V. dans la journée” = P (X > 2)

P (X > 2) = P (X = 3) + P (X = 4) + P (X = 5) + P (X = 6)
= 0.25 + 0.30 + 0.12 + 0.03 = 0.70

P (X > 2) = 1 − P (X ≤ 2) = 1 − P (X < 3) = 1 − F (3) = 1 − 0.30 = 0.70

• Probabilité “vendre plus de 2 TV mais au plus 5 TV dans la journée”

P (2 < X ≤ 5) = P (X ≤ 5) − P (X ≤ 2) = F (6) − F (3)


= 0.97 − 0.30 = 0.67

• Probabilité “vendre plus de 2 TV mais moins de 5 TV dans la journée”

P (2 < X < 5) = P (X < 5) − P (X ≤ 2) = F (5) − F (3)


= 0.85 − 0.30 = 0.55

5.3 Paramètres descriptifs d’une distribution discrète


Une loi de probabilité peut être caractérisée par certaines valeurs typiques correspondant aux
notions de valeur centrale, de dispersion et de forme de distribution.

Soit X une variable aléatoire discrète dont la loi de probabilité est définie par :

P (X = x) si x ∈ V
p(x) = px =
0 6 V
si x =

5.3.1 Paramètres de position

• Mode xm

Définition 39 Le mode xm de la variable aléatoire X, ou de la distribution de X est


la valeur xm , pour laquelle P (X = x) présente un maximum.
C’est donc la valeur de X la plus probable.

Les distributions discrètes classiques présentent en général un seul mode (parfois deux
modes successifs équiprobables) et sont dites unimodale, par opposition aux distributions à
plusieurs ”bosses” dites plurimodales.
Dans l’exemple 5.1.1 Sexe par âge., le mode de X est la valeur 1 ; dans l’exemple 5.2.1. Lance
d’une monnaie., le mode de X est la valeur 0.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 69

Nombre de filles 0 1 2
P (X = xi ) 1/4 1/2 1/4

La représentation graphique est :

• Espérance mathématique de X ou ”moyenne probabiliste” ou moyenne On fait


la moyenne des valeurs xi , i ∈ {1, . . . , n} en les pondérant par leur probabilité d’apparition
pi = p(X = xi ) :

Définition 40 Si X est une variable aléatoire discrète de loi de probabilité (xi , pi ), i =


1, n définit sur un nombre fini n d’événements élémentaires alors on appelle espérance
mathématique de X, et on note µX ou E(X), le nombre réel défini par :
n
X
µX = E(X) = xi pi .
i=1

/µX = SU M P RODU CT (x1 : xn ; p1 : pn )/


Remarque : L’espérance mathématique est une caractéristique de position. Elle est constante
autour de laquelle les valeurs de la v.a. se groupent. Elle est également notée µ(X), µX ou
encore µ si aucune confusion n’est à craindre.
Si on répète l’expérience N fois et N est assez grand nombre, et x1 , x2 , . . . , xN sont les valeurs
obtenues pour X lors de chaque expérience, alors la moyenne (x1 + x2 + . . . + xN )/N sera proche
de l’espérance mathématique E(X).

Exemple 5.1.1. Sexe par âge - suite. Si l’on reprend l’exemple d’une fratrie de deux en-
X 0 1 2
fants, l’espérance de la variable aléatoire ”nombre de filles” est :
P (X = xi ) 1/4 1/2 1/4
3
X
E(X) = xi pi = 0 ∗ 1/4 + 1 ∗ 1/2 + 2 ∗ 1/4 = 1, d’où E(X) = 1
i=1

Si l’on observe un nombre suffisant de fratries de 2 enfants, on attend en moyenne une fille par
fratrie.

Exemple 5.2.2. Un vendeur de téléviseurs - suite. On a :

X 0 1 2 3 4 5 6
P 0.02 0.08 0.20 0.25 0.30 0.12 0.03

Lecture Notes in Computer Science and Technologies No 2, 2016


70 Vera Angelova

E(X) = (0 × 0.02) + (1 × 0.08) + (2 × 0.2) + (3 × 0.25)


+(4 × 0.30) + (5 × 0.12) + (6 × 0.03) = 3.21

Bien sûr, le vendeur ne vend pas 3.21 TV, mais cela veut dire que sur une longue période, il
peut considéré que la vente quotidienne est de 3.21 TV.
Si le vendeur réalise un profit de 500 e par TV vendu, on peut déterminer le profit qu’il peut
espérer réaliser quotidiennement sur longue période.
On a que E(X) = 3.21.
Le profit quotidien réalisé grâce à la vente de TV est une variable aléatoire S = 500X.

E(S) = E(500X) = 500E(X) = 500 × 3.21 = 1605 e.

• Propriétés de l’espérance mathématique.


Si a et b sont des nombres réels (des constantes) et X et Y deux variables aléatoires définies
sur un même univers Ω, admettant une espérance, alors :

pe1 E(a) = a
l’espérance mathématique d’une constante est la constante elle - même.
Comme la constante obtient une valeur unique de probabilité p = 1,
E(a) = a . 1 = a.
pe2 E(aX) = aE(X)
L’espérance mathématique du produit d’une constante a et une v.a. X.
est le produit de a et l’espérance mathématique de X
Démonstration. Comme aX a la distribution
aX ax1 ax2 . . . axn
P p1 p2 . . . pn
L’espérance mathématique est :
E(aX) = ax1 p1 + ax2 p2 + . . . + axn pn = a(x1 p1 + x2 p2 + . . . xn pn ) = aE(X).
pe3 E(X ± Y) = E(X) ± E(Y)
L’espérance mathématique de la somme/différence de deux v.a. est
la somme/différence des espérances mathématiques des deux v.a.
X n Xn n
X
E(X ± Y ) = (xi + yi )pi = xi pi + yi pi = E(X) + E(Y )
i=1 i=1 i=1
pe4 E(aX ± b) = aE(X) ± b
pe5 E(XY) = E(X)E(Y), si X et Y sont indépendantes
X n
m X m X
X n
Démonstration : E(X . Y ) = xi yj Pij = xi yj Pi Pj′ =
i=1 j=1 i=1 j=1
m
X n
X
x i Pi yj Pj′ = E(X) . E(Y ).
i=1 j=1

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 71

Exemple 5.3.1.1 Deux v.a. indépendantes ont les distributions de probabilités

X 1 2 Y 0 1 2
P 0.4 0.6 P′ 0.2 0.3 0.5

Trouver E(2X + 3Y ).
Solution :
On utilise les propriétés pe2 et pe3 :

E(2X + 3Y ) = E(2X) + E(3Y ) = 2E(X) + 3E(Y ).

On a
E(X) = 1 . 0.4 + 2 . 0.6 = 1.6 et E(Y ) = 0 . 0.2 + 1 . 0.3 + 2 . 0.5 = 1.3.
On obtient
E(2X + 3Y ) = 2 . 1.6 + 3 . 1.3 = 3.2 + 3.9 = 7.1

• Moments d’ordre k

Définition 41 On définit les moments


Pn d’ordre k d’une variable aléatoire X comme
k k
mk = E(X ) c’est à dire la moyenne i=1 xi pi des k e puissances des valeurs de X
n
X
k
mk = E(X ) = xki pi , k = 0, 1, 2, 3, . . . .
i=1

/mk = SU M P RODU CT (x1 : xn ; x1 : xn ; . . . ; p1 : pn )/


La moyenne E(X) de X est ainsi le moment d’ordre 1 de X :

m1 = E(X).

L’éspérance mathématique ne caractérise pas d’une façon complète une v.a. Par exemple les
v.a. ci-dessous sont d’espérances mathématiques identiques, mais de distributions différentes.

X -50 50 Y -0.05 0.05


E(X) = 0 E(Y ) = 0.
P 0.5 0.5 P′ 0.5 0.5

L’espérance mathématique ne donne pas d’information pour l’écart de la v.a. Il est nécessaire
d’une estimation de la tendance de la v.a. a se disperser.

Lecture Notes in Computer Science and Technologies No 2, 2016


72 Vera Angelova

5.3.2 Paramètres de dispersion


• Variance.
2
Définition 42 On appelle variance de X, et on note V (X), V ar(X) ou σX la moyenne
des carrés des écarts de la v.a. de sa moyenne :
n
X
2
σ = Var(X) = pi (xi − E(X))2 = E((X − E(X))2 )
i=1

Par définition une variance est toujours positive - c’est une somme de termes positifs (des
carrés). Une valeur élevée de la variance signifie que les valeurs éloignées de l’espérance ont
une forte probabilité. On dit que la variance est un paramètre de dispersion ; autrement dit, la
variance est une estimation de la tendance de la variable aléatoire à s’écarter de la moyenne, à
se disperser. Une valeur nulle de la variance signifie qu’il n’existe qu’une seule valeur observable
de valeur égale à l’espérance (dispersion minimum).

Exemple 5.3.1 Soient les variables aléatoires :


1 1 7 1 1
X prenant les valeurs -2, -1, 0, +1, +2 avec les probabilités respectives 20 , 10 , 10 , 10 , 20
Y , prenant les valeurs -2, -1, 0, +1, +2 avec les probabilités respectives 15 , 51 , 15 , 51 , 15
4 1 1 4
Z, prenant les valeurs -2, -1, 0, +1, +2 avec les probabilités respectives 10 , 10 , 0, 10 , 10
Pour les trois variables, la dispersion des valeurs est la même, mais la probabilité d’une grande
dispersion est élevée pour Z et faible pour X. Leurs variances sont :

V ar(X) = 0.6 V ar(Y ) = 2.0 V ar(Z) = 3.4

ce qui reflète bien les différents types de dispersion (la variable Z à forte dispersion a une
variance nettement plus élevée que la variable X à faible dispersion)

Un défaut de la variance est de ne pas mesurer l’écart dans les mêmes unités que la variable :
si les xi sont des cm la variance sera en cm2 . C’est pourquoi on introduit une autre estimation
de l’écart qui est la racine carrée de la variance ou écart-type.

• Ecart-type

Définition 43 On appelle écart-type de X la racine carré de sa variance. On note σX .


√ p
σ = σ 2 = V ar(X).

Un écart-type est donc un réel positif ; il s’agit d’un indice de dispersion qui présente
l’avantage d’avoir la même unité que les observables.

Quelles que soient les situations, pour calculer un écart-type, il faudra toujours déterminer
la variance puis sa racine.
L’écart-type indique dans quelle mesure les valeurs prises par la variable aléatoire ont tendance

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 73

à être plus ou moins dispersées autour de l’espérance mathématique.


En gestion, il nous renseignera sur le degré de risque lié à certaines décisions prises à partir des
différentes valeurs de la variable. Plus l’écart-type sera élevé, plus le risque sera grand.

• Le coefficient de variation
La moyenne et l’écart-type s’exprimant dans la même unité, il convient de calculer le coefficient
de variation. Le coefficient de variation exprime l’écart-type en pourcentage de la moyenne.

Définition 44 On définit le coefficient de variation - en général pour des variables


positives seulement - comme le rapport de l’écart type à la moyenne :
σ
CV = × 100%.
µ

Le coefficient de variation est exprimé en pourcentage et mesure la dispersion relative d’une


distribution. Le coefficient de variation donne homogénéité de la distribution
— Si CV < 15%, la distribution est peu dispersée et peut être considéré comme homogène.
— Si CV > 15%, on considère que la distribution est hétérogène, dispersée.
Le coefficient de variation permet de comparer les distributions homogènes, lorsqu’elles sont
positives et d’en dégager la plus homogène.
• Calcul de V ar(X) :
n
X
V ar(X) = pi (xi − E(X))2 = E((X − E(X))2 )
i=1
= E(X 2 − 2XE(X) + E(X)2 )
= E(X 2 ) − 2E[XE(X)] + E[E(X)2 ] Propriété pe4 de l’espérance
= E(X 2 ) − 2E(X)2 + E(X)2 = E(X 2 ) − E(X)2 Propriété pe4 de l’espérance
V ar(X) = E(X 2 ) − E(X)2 .

P 2 2
Ou bien : On peut
P 2 écrire : V (X)
P = i (xi − 2µ
P X xi + µX )pi .
2
P = i (xi pP
D’où V (X) i ) − 2µX i (xi pi ) + µX i piP
.
Comme i pi = 1 et i pi xi = µX , donc V (X) = i (x2i pi ) − µ2X .
D’où la relation (théorème de Guldin) :
V (X) = E(X 2 ) − E(X)2 = m2 − m21 .
Cette relation est très commode dans le calcul de la variance.
/V (X) = SU M P RODU CT (x1 : xn ; x1 : xn ; p1 : pn )
−SU M P RODU CT (xn : xn ; p1 : pn )∧ 2/
• Propriétés de la variance. Si a est un nombre réel (une constante) et X et Y sont
variables aléatoires :
pv1. V ar(a) = 0

Lecture Notes in Computer Science and Technologies No 2, 2016


74 Vera Angelova

pv2. V ar(aX) = a2 V ar(X)


pv3. V ar(X + Y ) = V ar(X) + V ar(Y ) − 2E((X − E(X)(Y − E(Y ))
pv4. V ar(X ± Y ) = V ar(X) + V ar(Y ), si X et Y sont v.a. indépendantes.
Exemple 5.2.2. Un vendeur de téléviseurs - suite. Le vendeur peut estimer la dispersion
des ventes quotidiennes et des profits quotidiens.
Calcul de l’écart-type des ventes quotidiennes :
n
X
V ar(X) = pi x2i − E(X)2 = E(X 2 ) − E(X)2
i=1

xi 0 1 2 3 4 5 6
pi 0.02 0.08 0.20 0.25 0.30 0.12 0.03 E(X) = 3.21
x2i 0 1 4 9 16 25 36
pi x2i 0.00 0.08 0.80 2.25 4.80 3.00 1.08 E(X 2 ) = 12.01

V ar(X) = 12.01 − (3.21)2


V ar(X) = 1.7059

σ(X) = 1.7059 = 1.3061
La dispersion des ventes quotidiennes autour de l’espérance mathématique est de 1.3061.
On peut ensuite déterminer la variance et l’écart-type du profit quotidien S = 500X.
V ar(S) = V ar(500X) = 5002 V ar(X) = 250000 × 1.7059 = 426475

=⇒ σ(Z) = 426475 = 653.05
Le vendeur peut donc espérer réaliser un profit quotidien moyen de 1 605 e avec une dispersion
du profit quotidien de 653.05 e autour de 1 605 e.

• Moments centraux d’ordre k

Définition P
45 On appelle µk moment central d’ordre k d’une variable aléatoire X
la moyenne pi (xi − E(X))k des k e puissances de leurs valeurs centrées xi − E(X) :

µk = E(X − E(X))k .

Le premier moment central est toujours nul. La variance de X est le moment central d’ordre
2 de X.

5.3.3 Couples de variables aléatoires


On considère deux ou plusieurs variables aléatoires X et Y etc. simultanément, définies sur
le même univers Ω et dont la loi conjointe P (X, Y ) = P ((X = x) et (Y = y)) est connue. Il

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 75

faut définir un indicateur de leur ” liaison ” qui complète les paramètres qui les caractérisent
chacune séparément (espérance mathématique et variance).

Définition 46 Si X et Y sont deux variables aléatoires définies sur le même univers Ω,


on appelle covariance de ces deux variables, le réel :

cov(X, Y ) = E(XY ) − E(X)E(Y )

et coefficient de corrélation, le réel :

cov(X, Y )
R(X, Y ) .
σ(X)σ(Y )

Il résulte de cette définition et de propriété pe5 de la moyenne, le théorème suivant :

Théorème 8 Si X et Y sont deux variables aléatoires définies sur le même univers Ω et


indépendantes, alors cov(X, Y ) = 0.

Les propriétés de la covariance sont les suivantes :

Si X et Y sont deux variables aléatoires définies sur un même univers Ω, alors :


pc1. ∀(a, b) ∈ R V (aX + bY ) = a2 V (X) + 2ab cov(X, Y ) + b2 V (Y )
pc2. (cov(X, Y ))2 ≤ V (X) V (Y ) |cov(X, Y )| ≤ σ(X) σ(Y )
pc3. −1 ≤ cov(X, Y ) ≤ 1

5.3.4 Opérations sur les variables aléatoires


Il arrive souvent que l’on effectue des transformations sur les variables aléatoires par commodité
de calcul et il est important de savoir comment se comportent les paramètres associés à cette
variable.
Le tableau ci-dessous résume quelques transformations possibles avec a et b ∈ R.

Translation de l’origine seule Changement d’unités seul Cas général


X →X +b X → aX X → aX + b
E(X + b) = E(X) + b E(aX) = aE(X) E(aX + b) = aE(X) + b
V (X + b) = V (X) V (aX) = a2 V (X) V (aX + b) = a2 V (X)

Il existe d’autres transformations de variables aléatoires qui conduisent à des valeurs de pa-
ramètres particulières.
• Variable centrée

Définition 47 Une variable aléatoire X est dite centrée si E(X) = 0. Si elle est
d’espérance mathématique nulle.

Lecture Notes in Computer Science and Technologies No 2, 2016


76 Vera Angelova

Exemple : La variable Y = X − E(X) est une variable aléatoire centrée car


E(X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0.
• Variable réduite

Définition 48 Une variable aléatoire X est dite réduite si V (X) = 1.

Exemple. La variable Y = √ X est une variable aléatoire réduite car


V (X)
V (Y ) = V (X/σ(X)) = 1/(σ(X))2 V (X) = V (X)/V (X) = 1.
• Variable aléatoire centrée réduite

Définition 49 A toute variable aléatoire X d’espérance E(X) et de variance V (X) on


peut associer la variable aléatoire X−E(X)
√ dite variable aléatoire centrée réduite et dont
V (X)
l’emploi est indispensable pour utiliser la plupart des tables notamment les tables de la
loi normale réduite.

5.4 Algèbre des variables aléatoires


Comme d’après la définition la variable aléatoire est une fonction de l’ensemble fondamental Ω
dans R, on peut effectuer des opérations arithmétiques avec les variable aléatoires.
Par exemple, si X est une variable aléatoire discrète de loi de probabilité

X x1 x2 ... xm
P (X) p1 p2 ... pm

et k est une constante, alors k . X est une variable aléatoire nouvelle de loi de probabilité :

kX kx1 kx2 ... kxm


P (X) p1 p2 ... pm

Soit la variable aléatoire Y , dont la loi de probabilité est

Y y1 y2 ... yn
P (Y ) p′1 p′2 ... p′n

Les variables aléatoires X et Y sont indépendantes, si pour chaque paire de valeurs possibles
xi et yj l’égalité
P (X = xi , Y = yj ) = P (X = xi ) . P (Y = yj ) = pi . p′j

est satisfaite.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 77

Définition 50 On appelle somme de deux v.a. X et Y une nouvelle v.a., dont les valeurs
sont xi + yj , i = 1, 2, . . . , m, j = 1, 2, . . . , n et les probabilités correspondantes sont
Pij = P (X = xi , Y = yj ).
Si X et Y sont indépendantes, on a Pij = pi . p′j .

La définition de la différence de deux v.a. indépendantes est analogique de celle de la


somme : X − Y est une v.a., dont des valeurs xi − yj pour i = 1, 2, . . . , m et j = 1, 2, . . . , n et
probabilités Pij = P (X = xi , Y = yj ) = pi . p′j .
Multiplication de deux v.a. X . Y est une nouvelle v.a., dont les valeurs sont obtenues des
produits xi yj i = 1, 2, . . . , m, j = 1, 2, . . . , n et probabilités Pij = P (X = xi , Y = yj ) = pi . p′j .
Le carré d’une v.a. X est la v.a. X 2 , dont les valeurs sont x21 , x22 , . . . , x2n et les mêmes probabilités
p1 , p2 , . . . , pn . On voit que X . X 6= X 2 et X + X 6= 2X.

5.4.1 Fonction caractéristique et fonction génératrice

Définition 51 Étant donnée une variable aléatoire de loi {xi , pi }, on appelle fonction
caractéristique de X la fonction
X
ΦX (t) = pi eitxi .
i

C’est simplement la transformée de Fourier de la loi.

Définition 52 La fonction génératrice d’une variable aléatoire de loi {xi , pi } est


X
GX (z) = p i z xi .
i

Cette dernière est plutôt recommandée lorsque les xi sont des nombres entiers ; dans ce cas
c’est un polynôme, ou, si on fait tendre le nombre des xi vers l’infini, une fonction analytique
de z. On bénéficie alors de toute la richesse des propriétés mathématiques des polynômes
ou des fonctions d’une variable complexe. Rien n’interdit dans le principe de la prendre en
considération même lorsque les xi sont non entiers, mais dans un tel cas elle est beaucoup
moins commode et on lui préférera alors la fonction caractéristique. De toute façon, fonction
caractéristique et fonction génératrice sont liées par la relation

ΦX (t) = GX (eit ).

Pour une variable aléatoire X à valeurs entières, on obtient les probabilités de chaque valeur
(c’est-à-dire la loi de la variable aléatoire X) en développant la fonction génératrice GX (z) en
série entière, ou en série de Laurent s’il y a des valeurs négatives.
On peut aussi déduire directement de la fonction génératrice d’autres grandeurs liées à la
variable aléatoire telles que la moyenne et la variance. Ainsi, la moyenne n’est autre que G′X (1)

Lecture Notes in Computer Science and Technologies No 2, 2016


78 Vera Angelova

(la dérivée de GX (z) au point z = 1). En effet


X
G′X (z) = ipn z i−1
i

donc pour z = 1 cela donne


X
G′X (1) = ipi = E(X).
i

La dérivée seconde fournira la variance :


X
G′′X (z) = i(i − 1)pi z i−2
i

P P P
ce qui pour z = 1 donne G′X (1) = i i(i − 1)pi = i i2 pi − i ipi = E(X 2 ) − E(X).
Des expressions analogues pour la moyenne ou la variance peuvent être obtenues à partir des
fonctions caractéristiques. Ces expressions seront utilisées lorsque la variable aléatoire n’est pas
à valeurs entières.

Test sur le chapitre : Variable aléatoire discrète.


1. Qu’est-ce que la variable aléatoire ?

2. Donnez la définition de v.a. discrète

3. Décrivez la loi de probabilité de la variable aléatoire discrète ?

4. La loi de probabilité d’une variable aléatoire discrète peut être représenté graphiquement
par un diagramme en . . ..

5. Décrivez la fonction de répartition d’une variable aléatoire discrète ?

6. La fonction de répartition d’une variable aléatoire discrète se visualise par un diagramme


en . . ..

La figure ci-dessous est un diagramme en


bâtons / une fonction en escalier et visua-
7. lise la distribution de probabilité / la loi
de probabilité / la fonction de répartition.
/souligner les notions correctes/

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 79

La figure ci-dessous est un diagramme en


bâtons / une fonction en escalier et visua-
8. lise la distribution de probabilité / la loi
de probabilité / la fonction de répartition.
/souligner les notions correctes/

9. Décrivez les paramètres d’une loi de probabilité discrète

10. Quand dit-on qu’une variable aléatoire discrète est centrée ?

11. Donnez la définition de la variable aléatoire discrète réduite.

Lecture Notes in Computer Science and Technologies No 2, 2016


80 Vera Angelova

Chapitre 6

Lois de probabilité discrètes


particulières

La plupart des phénomènes statistiques peuvent être décrits par un petit nombre de modèles
probabilistes ou lois de probabilité. Naturellement, lorsque cette représentation est possible,
elle fournit une description beaucoup plus riche du phénomène que le simple calcul des ca-
ractéristiques de tendance centrale et de dispersion. Elle permet notamment de calculer la
probabilité de certains événements et, par conséquent, de préciser dans une certaine mesure la
représentation que l’on peut se faire de l’avenir.
Il convient donc de connaı̂tre les modèles probabilistes les plus courants de façon à pou-
voir rechercher dans ce catalogue celui qui est susceptible de convenir à la description d’un
phénomène aléatoire déterminé.
Dans tous les cas, le processus est le suivant :

• L’observation du phénomène fournit une distribution expérimentale ou empirique.

• L’analyse de cette distribution empirique — examen de la représentation graphique et


calcul des caractéristiques de tendance centrale et de dispersion — donne une première
idée de la nature du phénomène observé. Au vu de ces premières conclusions, on choisit
parmi les différents types de lois de distribution théorique celui qui paraı̂t convenir. Cela
revient à choisir la forme du ≪ moule ≫ dans lequel on peut ≪ couler ≫ le phénomène.
Il faut alors, au moyen de la série empirique, estimer les paramètres de cette loi. Cela
revient à choisir le ≪ moule ≫ de la taille qui convient.

• La substitution de la loi théorique à la distribution empirique n’est évidemment valable


que si les valeurs observées et les valeurs théoriques résultant du modèle sont assez proches
les unes des autres : il faut tester que la description donnée du phénomène par la loi
théorique est acceptable, autrement dit que les écarts observés entre les fréquences empi-
riques et les fréquences théoriques peuvent être raisonnablement attribués au hasard.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 81

A. Lois usuelles finies

6.1 Distribution uniforme (discrète) X ∼ U(n)


Une distribution de probabilité suit une loi uniforme lorsque l’ensemble des observations de la
valeur aléatoire contient un nombre fini de valeurs réelles : X(Ω) = {x1 , x2 , . . . , xn } et toutes
les valeurs prises par la variable aléatoire sont équiprobables. Une distribution uniforme ne
présente, évidemment, pas de mode.
Exemple 1. Une urne contient n boules numérotées de 1 à n. On tire une boule au hasard, et
on note X la variable aléatoire égale au chiffre obtenu. Les valeurs xi de la variable aléatoire
X sont toutes équiprobables. Alors X suit une loi uniforme sur {1, 2 . . . , n} (ce que l’on note )
X ∼ U(n).

Définition 53 Soit une expérience aléatoire E à la quelle est associée une variable
aléatoire X dont l’ensemble des observables contient un nombre fini de valeurs réelles :
X(Ω) = {x1 , x2 , . . . , xn }.
La loi de probabilité de X est dite uniforme si elle est définie par
1
P (X = xi ) = , ∀i ∈ {1, 2, . . . , n}.
n

6.1.1 Paramètres descriptifs :

n n
X 1X
µ = E(X) = xi P (X = xi ) = xi
i=1
n i=1
n n
X 1X 2
E(X 2 ) = x2i P (X = xi ) = x
i=1
n i=1 i
σ = V ar(X) = E(X 2 ) − E(X)2 .
2

6.1.2 Cas fréquent X(Ω) = {1, 2, 3, . . . , n}


Un cas fréquent est celui où l’ensemble des observations est constitué des n premiers entiers
V = (1, 2, 3, . . . , n).
Dans ce cas pk = P (X = k) = 1/n pour tout k ∈ V et la fonction de distribution de
probabilité est définie par l’ensemble des couples (k, 1/n).

Fonction de répartition :

F (x) = k/n, (k ≤ x < k + 1)

Lecture Notes in Computer Science and Technologies No 2, 2016


82 Vera Angelova

Paramètres :

n n
X 1X (n + 1) 1
µ = E(X) = iP (X = i) = i=
i=1
n i=1 2
n n
2
X
2 1 X 2 (n + 1)(2n + 1) 2
E(X ) = i P (X = i) = i =
i=1
n i=1 6
(n + 1)(n − 1) n2 − 1
σ 2 = V ar(X) = E(X 2 ) − E(X)2 = = .
12 12

Exemple 6.1.2.1 La distribution des chiffres obtenus au lancer de dé (si ce dernier est non
pipé) suit une loi uniforme /le cas particulier - l’ensemble des observables constitué des n
premiers entiers/ dont la loi de probabilité est la suivante :

X 1 2 3 4 5 6
1 1 1 1 1 1
P (X = xi ) 6 6 6 6 6 6

avec pour espérance :


n+1 6+1
E(X) = = = 3.5
2 2
et pour variance
n2 − 1 62 − 1 36 − 1
V ar(X) = = = = 2.92.
12 12 12

Vérification
n 6
1X 1X 1 21 7
E(X) = xi = i = (1 + 2 + 3 + 4 + 5 + 6) = = = 3.5
n i=1 6 i=1 6 6 2
n 6
2 1 X 2 1 X 2 1 + 4 + 9 + 16 + 25 + 36 91
E(X ) = xi = i = =
n i=1 6 i=1 6 6
91 72 2 × 91 − 3 × 49 182 − 147
V (X) = E(X 2 ) − E(X)2 = − 2 = =
6 2 12 12
35
= = 2.92.
12
2
La somme des n premiers nombres entiers est égale à n(n + 1)/2
2
La somme des carrée des n premiers nombres entiers est égale à n(n + 1)(2n + 1)/6
(voir https ://www.les-suites.fr/somme-des-n-premiers-carres.htm)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 83

6.2 Distribution de Bernoulli X ∼ B(1, p) ou B(p)


Soit une expérience aléatoire ayant exactement 2 issues possibles, c.à.d. donnant lieu à 2
événements complémentaires S (succès) et S̄ (échec) avec les probabilités P (S) = p et P (S̄) =
1 − p = q.

Définition 54 On appelle variable indicatrice ou variable de Bernoulli de


l’événement S la variable aléatoire X qui associe à S la valeur un et à S̄ la valeur
zéro :

X:Ω→R
X(Ω) = {0, 1}.

Définition 55 La loi de probabilité associée à la variable de Bernoulli X telle que :


{(0, q), (1, p)}, c.à d. P (X = 0) = q, P (X = 1) = p, avec p + q = 1 est appelée loi de
Bernoulli notée B[1, p]

Notation : X ∼ B(1, p) ou B(p)

Fonction de répartition :

 0 si x ≤ 0
F (x) = P (X < x) = q si 0 < x ≤ 1

1 si x > 1

Paramètres descriptifs :
µ = p; σ 2 = pq.
Le mode est 1 si p > 12 , et 0 si p < 21 . Il n’y a pas de mode si p = 12 . Si p = 12 , on obtient la loi
uniforme sur [0, 1] puisque alors P (X = 0) = P (X = 1) = 21 .

Démonstration
1
X
µ = E(X) = xi P (X = xi ) = 0 . q + 1 . p = p
i=0
1
X
2
σ = V ar(X) = P (X = xi )(xi − µ)2
i=0
1
X
= P (X = xi )(xi − p)2 = (1 − p)(−p)2 + p(1 − p)2 = p(1 − p) = pq.
i=0

Lecture Notes in Computer Science and Technologies No 2, 2016


84 Vera Angelova

Exemples typiques : Le lancer d’une pièce de monnaie ; l’extraction d’une boule dans une
urne ne contenant que deux types de boules ; la réponse à une question d’un vrai ou faux ;...

6.3 Distribution binomiale X ∼ B(n, p)

Définition 56 On considère un schéma de Bernoulli (répétition de n épreuves de Ber-


noulli de paramètre p indépendantes). On appelle v.a. Binomiale, la v.a. X qui compte
le nombre de succès dans un schéma de Bernoulli.

C’est un modèle composé de n lois de Bernoulli indépendantes. La loi binomiale intervient


chaque fois que l’on considère deux alternatives dont les probabilités restent constantes au cours
d’une suite d’épreuves : garçon ou fille, mort ou survie, acceptation ou mise au rebut de pièces
fabriquées en série, etc. Cette loi est l’une des distributions de probabilité les plus fréquemment
rencontrées en statistique appliquée.

Modèle général de génération de la loi binômiale : le schéma de Ber-


noulli
Soit une suite finie de n expériences aléatoires E1 , E2 , . . ., En , obéit aux conditions suivantes :

• chaque expérience peut entraı̂ner l’observation d’un événement E ou de son contraire Ē ;


• la probabilité de E, notée p, est la même pour chaque expérience ; ceci est alors également
vraie pour la probabilité de Ē, notée q = 1 − p ;
• le résultat d’une expérience est indépendant des résultats des autres expériences.

On note Ek l’événement ”E se réalise à la k-ème expérience” et Ak l’événement ”E se réalise


exactement k fois dans la suite d’expériences”.
L’événement Ak peut se réaliser de plusieurs manières mutuellement incompatibles. La proba-
bilité de Ak est donc la somme des probabilités de chacune de ces éventualités. L’une d’elles est,
par exemple : E1 ∩. . .∩Ek ∩Ek+1 ∩. . .∩En ; sa probabilité est pk q n−k , à cause de l’indépendance
des événements. Toute autre éventualité réalisant Ak aura la même probabilité, obtenue par le
produit de k termes égaux à p et de n − k termes égaux à q.
Pour obtenir la probabilité de Ak , il suffit donc de dénombrer les éventualités qui réalisent Ak .
Il est clair qu’il y en a autant que de manières de choisir, parmi les n expériences, celles qui
réalisent E, c’est-à-dire Cnk et on écrit P (Ak ) = Cnk pk q n−k .
Ce schéma, dit de Bernoulli, s’applique par exemple, à une suite de jets d’une pièce de mon-
naie (E = pile) ou un tirage avec remise, ou non exhaustif, de n boules dans une urne à deux
catégories (E = boule tirée est rouge).
Si on associe à une suite d’expérience de Bernoulli la variable aléatoire représentant le nombre
d’événements E que l’on peut observer, l’événement Ak s’écrit “X = k” et on a : P (X = k) =
Cnk pk q n−k .

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 85

Définition 57 On dit qu’une v.a. X à valeurs dans N, suit une loi binomiale si sa loi de
probabilité est donnée par :

P (X = k) = P ( ”Obtenir k succès” ) = Cnk pk q n−k ,

avec k ∈ {0, 1, 2, . . . , n}, où n est entier donné et où p est un réel tel que 0 < p < 1.

Notation : nous noterons : X ∼ B(n, p) pour indiquer que la variable aléatoire X suit une
loi binomiale de paramètres n et p.

Exemple 6.3.1 On lance une pièce de monnaie 60 fois de suite. Si X est la variable aléatoire
qui représente le nombre de “piles” que l’on peut obtenir en cette expérience aléatoire, X suit
une loi B(60, 12 ). Quelle est la probabilité d’obtenir 25 pile ?
Analyse : n = 60, k = 25, p = 12 .
 25  35
k k n−k 25 1 1
P (X = k) = Cn p (1 − p) = P (X = 25) = C60 × ×
2 2
60! 1 1
= = 0, 045029465
25! 35! 225 235
/BIN OM DIST (k; n; p; 0)/

Fonction de répartition

0
 P x≤0
k i i n−i
F (x) = i=0 Cn p q k <x≤k+1

1 x>n
/BIN OM DIST (k; n; p; 1)/

Lecture Notes in Computer Science and Technologies No 2, 2016


86 Vera Angelova

Paramètres
µ = np, σ 2 = npq.
Démonstration
L’espérance mathématique
La variable binomiale X, correspondant à n tirages, peut être considérée comme la somme de
n variables de Bernoulli indépendantes :
n
X
X = X1 + X2 + . . . + Xn = Xi .
i=1

Son espérance mathématique est :


n
!
X
E(X) = E(X1 + X2 + . . . + Xn ) = E Xi
i=1
n
X
= E(X1 ) + E(X2 ) + . . . + E(Xn ) = E(Xi ).
i=1

En effet, en vertu des propriétés de l’espérance mathématique, l’espérance mathématique d’une


somme de variables aléatoires est égale à la somme des espérances mathématiques.
Or, l’espérance mathématique de la variable de Bernoulli Xi , définie pour chacun des n
tirages, est :
E(Xi ) = p.
Par suite : n
X
E(X) = E(Xi ) = np.
i=1
P
Or, d’après la définition de l’espérance mathématique E(S) = i pi xi et comme P (X) =
Cnk pk (1 − p)n−k , on obtient pour l’espérance mathématique de la distribution binomiale
n n
X X n!
E(X) = kCnk pk (1 − p) n−k
= pk (1 − p)n−k
k=0 k=1
(k − 1)!(n − k)!
n
X (n − 1)!
= np pk−1 (1 − p)n−1−(k−1)
k=1
(k − 1)!(n − 1 − (k − 1))!
n−1
X
k
= np Cn−1 pk (1 − p)n−1−k = np.
k=0

L’espérance mathématique (ou moyenne) de la distribution binomiale est égale à np.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 87

Variance
La variance de la variable binomiale X est

n
!
X
V (X) = V (X1 + X2 + . . . + Xn ) = V Xi
i=1
n
X
= V (X1 ) + V (X2 ) + . . . + V (Xn ) = V (Xi ).
i=1

En effet, en vertu des propriétés de la variance, la variance d’une somme de variables aléatoires
indépendantes est égale à la somme des variances.
La variance de la variable de Bernoulli Xi définie pour chacun des n tirages, est :

V (Xi ) = pq.

Par suite :
n
X
V (X) = V (Xi ) = npq.
i=1


L’écart-type de la distribution binomiale est égal à npq.
En résumé, la loi binomiale dépend des 2 paramètres :

• n : nombre de tirages successifs ou d’épreuves indépendantes. Dans une enquête par


sondage, c’est l’effectif de l’échantillon ;

• p : probabilité de réalisation de l’événement étudié lors de chacun des tirages ou épreuves


indépendantes (proportion de boules blanches dans l’urne).

La probabilité que la variable binomiale X prenne la valeur x est :

P {X = x} = Cnx px q n−x .

Forme

La distribution binomiale est symétrique quand p = q = 0, 5. Sinon, elle est dissymétrique,


la dissymétrie étant d’autant plus grande que p est plus différent de q. Toutefois, quand le
nombre d’observations est grand, à condition que p ne soit pas trop voisin de 0 ou de 1, elle
tend à devenir symétrique. Dans ce cas la distribution binomiale se rapproche de la distribution
normale.

Lecture Notes in Computer Science and Technologies No 2, 2016


88 Vera Angelova

La distribution est de type unimodal et admet pour mode l’entier, en général unique, située
dans l’intervalle [np − q, np + p] ou exceptionnellement deux modes successifs, équiprobables,
bornes de l’intervalle ci-dessus lorsque np + p a une valeur entière.

Démonstration [12] : Le mode d’une distribution de probabilité est la valeur de la variable aléatoire
pour laquelle la probabilité est la plus élevée : c’est la valeur la plus probable.
Par suite, le mode de la loi binômiale est l’entier x tel que :

Px−1 < Px et Px > Px+1 ,

ce qui s’écrit encore :


Px
>1 (6.1)
Px−1
et
Px+1
< 1. (6.2)
Px
Calculons le rapport des probabilités relatives à deux valeurs consécutives de la variable binômiale :

Px+1 Cnx+1 px+1 q n−x−1 n! x!(n − x)! p n−xp


= x x n−x
= = .
Px Cn p q (x + 1)!(n − x − 1)! n! q x+1q

Par conséquent, les inégalités (6.1) et (6.2) s’écrivent :


Px+1 n−xp
= <1 (6.3)
Px x+1q
Px n−x+1p
= >1 (6.4)
Px−1 x q

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 89

(en remplaçant dans l’inégalité précédente x par x − 1).


De (6.3) :

(n − x)p < (x + 1)q,


np − xp < x − xp + q, /q = 1 − p/
np − q < x.

De (6.4) :

(n − x + 1)p > xq,


np − xp + p > x − xp,
np + p > x.

On obtient :
np − q < x < np + p.

Si np − q est entier :

np − q = i,
np + p = np − q + (p + q) = i + 1,

np + p est l’entier immédiatement supérieur. Il y a alors deux valeurs modales np − q et np + p.

Exemple 6.3.2 Soit X ∼ B(9, 0.4), donc n = 9, p = 0, 4.


Il y a deux valeurs modales :

np − q = 3.6 − 0.6 = 3 et np + p = 3.6 + 0.4 = 4.

Formes de la distribution

La forme d’une distribution binomiale se déduit aisément de l’étude du mode :

Lecture Notes in Computer Science and Technologies No 2, 2016


90 Vera Angelova

1. si p = 21 = q, forme en cloche symétrique.


En effet P (X = k) = Cnk ( 12 )n = P (X = n − k). Car Cnk = Cnn−k . Deux modes successifs
équiprobables pour n impair.

1
Si n+1 < p < 12 , forme en
cloche dissymétrique, le mode
2. étant déplacé vers la gauche.
Éventuellement, deux modes suc-
cessifs équiprobables.

1
Si p ≤ n+1 , forme en L ; mode =
3. 0, éventuellement deux modes 0
et 1.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 91

Si 12 < p < n+1 n


, forme en
cloche dissymétrique, le mode
4. étant déplacé vers la droite.
Éventuellement, deux modes suc-
cessifs équiprobables.

n
Si p ≥ n+1 , forme en J ;
5. Éventuellement, deux modes en
n − 1 et n.

Exemple 6.3.3 Forme de la loi binomiale

Si X suit une loi B(10, 12 ), la distribution est


en cloche symétrique par rapport au mode 5,
valeur égale aussi à l’espérance de X.

Lecture Notes in Computer Science and Technologies No 2, 2016


92 Vera Angelova

Si Y suit une loi B(25, 14 ), la distribution est


en cloche dissymétrique ; le mode 6 est plus
proche de 0 que de 25.

Si X suit une loi B(50, 34 ), la distribution est


en cloche dissymétrique ; le mode 38 est plus
proche de 50 que de 0.

Forme limite de la loi binômiale quand n est grand

Considérons une urne de Bernoulli avec p = 0, 3. Faisons n = 5 tirages.


On peut calculer les probabilités suivantes
P(k = 0) = P0 = C50 0.30 0.75 = 0.1681
P1 = C51 0.31 0.74 = 0.3601
P2 = C51 0.32 0.73 = 0.3087
P3 = C53 0.33 0.72 = 0.1323
P4 = C54 0.34 , 0.71 = 0.0283
P5 = C55 0.35 0.70 = 0.0025
La moyenne est 5 √ × 0.3 = 1.5.
L’écart-type est : 5 × 0.3 × 0.7 = 1.02.
Envisageons le cas où n = 25 tirages. Voici les probabilités que l’on trouve

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 93

P0 = 0.0001 P6 = 0.1472 P12 = 0.0268


P1 = 0.0014 P7 = 0.1711 P13 = 0.0115
P2 = 0.0074 P8 = 0.1651 P14 = 0.0042
P3 = 0.0243 P9 = 0.1336 P15 = 0.0013
P4 = 0.0572 P10 = 0.0916 P16 = 0.0003
P5 = 0.1030 P11 = 0.0536 P17 à P25 < 0.0001
√ √
La moyenne est 25 × 0.3 = 7.5. L’écart-type est : 25 × 0.3 × 0.7 = 5.25 = 2.29.
La représentation graphique en bâtons de ces deux distributions est :

Remarques :

1. L’étendue de la deuxième distribution est cinq fois plus grande que celle de la première,
mais son écart-type n’est que deux, fois plus grand. Cela tient à ce que les valeurs k = 0,
k = 1, d’une part, k = 15, k = 16, . . ., k = 25 d’autre part, sont affectées de probabilités
très faibles, et qu’il y a plus de 99 chances sur 100 que 2 < k < 14.
C’est ce que montre le graphique, où les valeurs des probabilités trop faibles n’ont pu être
représentées.
2. La distribution est très asymétrique dans le cas n = 5, cela est du à ce que p est nettement
différent de q. Elle est beaucoup plus symétrique dans le cas où n = 25. Elle le serait encore
beaucoup plus pour n = 100.

Le nom de la loi binômiale provient du fait que P (X = k) est donné par le terme de rang
k du développement, suivant les puissances croissantes de p, du binôme de Newton : (p + q)n .
La loi binômiale rend compte de tous les phénomènes, répétés n fois de façon indépendante,
pouvant prendre deux états (et deux seulement) : succès ou échec, oui ou non, état 0 ou état
1,...

Lecture Notes in Computer Science and Technologies No 2, 2016


94 Vera Angelova

Chacune de ces n expériences est appelée “tirage de Bernoulli”. Une variable aléatoire
binômiale X prendra pour valeurs le nombre k de succès en n expériences.
Seul le nombre de succès est pris en compte, sans que l’ordre où ils se réalisent intervienne.
La loi binômiale est la loi “théorique” la plus fréquente. Son utilisation pratique est, ce-
pendant, souvent limitée : on ne peut obtenir un résultat “rapide” que dans certains cas. Ceci
explique que, dans des conditions, la loi binômiale peut être approchée par les lois de Poisson
ou de Gauss, d’un usage plus commode.
Deux cas sont à distinguer, selon qu’on a affaire à une urne contenant un petit nombre ou
un très grand nombre de boules.

• Urne contenant un petit nombre de boules : tirage avec remise


Soit une urne contenant 10 boules, 7 blanches et 3 noires. Tirons sans regarder une boule
après avoir secoué suffisamment. La probabilité de succès est p = 7/10 = 0, 7.
Si nous voulons que le second tirage soit indépendant du premier, il est nécessaire de
remettre dans l’urne la boule tirée lors du premier. Faute de quoi, la probabilité de succès
lors du deuxième tirage dépend du résultat du premier. Si en effet, la première boule tirée
a été blanche, il reste dans l’urne 9 boules dont 6 blanche : la probabilité de succès est
alors 6/9 = 0,666. Si au contraire, la première boule a été noire, la probabilité de succès
au second tirage est de 7/9 = 0.78.

• Urne contenant un très grand nombre de boules (urne infinie) : tirage sans remise autorisé
Dans ces conditions, il n’est plus nécessaire de remettre les boules tirées dans l’urne, car
la probabilité de succès à chaque tirage n’est pas sensiblement modifiée par le résultat
des tirages antérieurs.
L’exemple donné précédemment est assimilable à une urne infinie. Il en est de même la
plupart du temps, quand on effectue des sondages.
Dans le cas de l’urne infinie, il est donc possible d’extraire à la fois les n boules.

Calcul pratique des probabilités

Le calcul de la valeur numérique de la probabilité attachée à chaque valeur de X s’obtient par


l’expression P (X = x) = Cnx px q n−x .
Soit X ∼ B(5, 1/6). Ayant calculé la probabilité que le nombre X obtenu soit égal à 3, par
exemple,
  3  2
3 3 2 5! 1 5 250
P3 = P (X = 3) = C5 p q = = = 0.032,
3!2! 6 6 7776
on pourra obtenir les autres probabilités, avec un minimum de calculs, en utilisant la relation
qui lie deux probabilités successives

Px+1 n−x p
= . .
Px x+1 q

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 95

Ainsi :
P4 5−316 21 1 1
= = = d’où P4 = P3
P3 3+165 45 10 10
P3 5−216 31 1
= = = d’où P2 = 5P3
P2 2+165 35 5

Exemple 6.3.4 Loi de distribution binômiale

1. Soit X la variable aléatoire qui représente le nombre de “piles” que l’on peut obtenir en
jetant 10 fois une pièce régulière, X ∼ B(10, 21 ). On a : n = 10, k = {0, 1 . . . , 10}
k 0 1 2 3 4 5 6 7 8 9 10
P (X = k) 1 10 45 120 210 252 210 120 45 10 1
k
 
1 k 1 n−k 1024 1024 1024 1024 1024 1024 1024 1024 1024 1024 1024
= C10 2 2
Si X suit une loi B(10, 12 ) = B(n, p), on a
1
E(X) = np = 10 = 5
2
Vérification :
n
X 10
X
E(X) = pi xi = kCnk pk q n−k
i=1 k=0
1
= (0 + 10 + 90 + 360 + 840 + 1260 + 1260 + 840 + 360 + 90 + 10)
1024
5120
= =5
1024
11
V ar(X) = npq = 10 = 2.5
22
Vérification :
V ar(X) = E(X 2 ) − E(X)2
10
X
2
E(X ) = k 2 Cnk pk q n−k
k=0
1
= (0 + 10 + 180 + 1080 + 3360 + 6300 + 7560 + 5880 + 2880 + 910 + 100)
1024
28160
= = 27.5
1024
=⇒ V ar(X) = E(X 2 ) − E(X)2 = 27.5 − 52 = 2.5

2. Une urne contient des boules rouges en proportion 1/4. On tire successivement 25 boules
en remettant chaque fois la boule tirée. Si Y est le nombre de boules rouges que l’on peut
obtenir, Y suit un loi B(25, 14 ) (tirage non exhaustif ou avec remise).
Si Y suit une loi B(25, 41 ), on a
1 25 13 75
E(Y ) = n p = 25 = , V ar(X) = npq = 25 = .
4 4 44 16
Lecture Notes in Computer Science and Technologies No 2, 2016
96 Vera Angelova

6.3.1 Stabilité

Théorème 9 Si Sn et Sm sont deux variables indépendantes suivant des lois binomiales


respectivement Sn ∼ B(n, p) et Sm ∼ B(m, p) alors Sn + Sm ∼ B(n + m, p).

Démonstration. Si Sn ∼ B(n, p) et Sm ∼ B(m, p) sont deux variables binomiales indépendantes


alors :

P ((Sn + Sm ) = k) =
= P ((Sn = 0 ∩ Sm = k) ∪ (Sn = 1 ∩ Sm = k − 1) ∪ . . . ∪ (Sn = k ∩ Sm = 0))
Xk
= P (Sn = i ∩ Sm = k − i) les événements étant incompatibles 2 à 2
i=0
Xk
= P (Sn = i)P (Sm = k − i) car événements indépendants
i=0
Xk
= Cni pi q n−i Cm
k−i k−i m−k+i
p q
i=0
Xk
= Cni Cm
k−i k n+m−k
p q
i=0
 k n+m−k
= Cn0 Cm
k
+ Cn1 Cmk−1
+ . . . + Cnk Cm
0
p q
k
= Cn+m pk q n+m−k .

D’où Sn + Sm ∼ B(n + m, p).

6.4 Distribution hypergéométrique X ∼ H(N, n, p)


La loi binomiale correspond au tirage d’un échantillon avec remise dans une population compor-
tant deux catégories d’individus. La loi hypergéométrique correspond, au contraire, au tirage
d’un échantillon sans remise. La loi hypergéométrique a des propriétés moins simples et elle
est d’une utilisation moins commode que la loi binomiale. Toutefois, dès que l’effectif N de la
population est grand par rapport à celui n de l’échantillon, la loi hypergéométrique devient très
proche de la loi binomiale et peut, en pratique, lui être assimilée.
Dans le cas de la loi binomiale, du fait de la remise de la boule dans l’urne, les tirages
successifs étaient indépendants. Pour la variable hypergéométrique, il en va autrement : la
probabilité de tirer une boule blanche au i-ème tirage : dépend du résultat des tirages antérieurs.
En effet, la composition de l’urne varie au fur et à mesure des épreuves. L’effectif de l’urne
s’épuise peu à peu, d’où le nom de tirage exhaustif donné à ce mode de sélection d’un échantillon.
Remarque. Contrairement à la loi binômiale, l’utilisation de cette loi nécessite la connais-
sance du nombre total N = Np + Nq d’éléments dans l’urne.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 97

Définition 58 Supposons que l’on a Np objets parmi N d’un certain type. On prélève
un échantillon de n objets (sans remise). La loi hypergéométrique donne la probabilité
que k objets parmi les n soient du type Np . La loi de probabilité est donnée par :

CNk p CNn−k
q
P (X = k) = , k ∈ {0, . . . , min(n, Np )}.
CNn

Une telle distribution correspond à un modèle d’urne et des tirages sans remise (tirages
exhaustifs). Dans ce cas p et q ne restent pas constants.

Notation : X ∼ H(N, n, p)
µ = E(X) = np, (comme dans le cas de la loi binômiale)
Paramètres :
V ar(X) = npq N −n
N −1
.

Exemple 6.4.1 Soit une urne contenant 10 boules dont 2 blanches B et 8 rouges R. La loi
hypergéométrique correspondant au tirage d’un échantillon dans cette urne a pour paramètres :
N = 10, l’effectif de la population ;
n, la taille de l’échantillon ;
p = 0.2, la proportion de boules blanches (composition de l’urne).

Les différents événements possibles s’obtiennent, comme dans le cas de la loi binomiale,
suivant un schéma en arbre. Il faut toutefois prendre garde que, à partir du 3e tirage, les boules
blanches peuvent être épuisées : la variable hypergéométrique X=”nombre de boules rouges
tirées” ne peut prendre que les valeurs 0, 1 ou 2.
On obtient, pour les trois premiers tirages, les lois de probabilité les suivantes :

ÉvénementVariable aléatoire Probabilité


élémentaire X P {X}
1er tirage : n = 1
B 1 2/10
R 0 8/10
2e tirage : n = 2
2 1 1
BB 2 10 9
= 45
2 8 8 2 16
BR, RB 1 10 9
+ 10 9
= 45
8 7 28
RR 0 10 9
= 45
3e tirage : n = 3
2 1 1 2 8 1 8 21 3
BBR, BRB, RBB 2 10 9 8
+ 10 9 8
+ 10 98
= 45
2 8 7 8 2 7 8 72 21
BRR, RBR, RRB 1 10 9 8
+ 10 9 8
+ 10 9 8 = 45
8 7 6
RRR 0 10 9 8
= 21
45

Au 3e tirage, par exemple, la variable X prend la valeur 2 pour chacun des événements
élémentaires :
B 1 B 2 R 3 , B 1 R 2 B 3 , R1 B 2 B 3 ,

Lecture Notes in Computer Science and Technologies No 2, 2016


98 Vera Angelova

l’indice indiquant le rang du tirage.


La probabilité de l’événement B1 , B2 , R3 est, en vertu de la formule des probabilités com-
posées, égale à :
P {B1 B2 R3 } = P {B1 }.P {B2 |B1 }.P {R3 |B1 B2 }.
Après avoir obtenu une boule blanche au 1er tirage, il reste dans l’urne 9 boules dont 1 blanche.
Par conséquent, la probabilité de tirer une boule blanche au second tirage, sachant qu’on en a
déjà tiré une au premier est :
1
P {B2 |B1 } = .
9
De façon analogue :
8
P {R3 |B1 B2 } = = 1,
8
d’où :
2 18 1
P {B1 B2 R3 } = = .
10 9 8 45
On calcule de même :
2 81 1
P {B1 R2 B3 } = =
10 9 8 45
8 21 1
P {R1 B2 B3 } = =
10 9 8 45
La probabilité pour que la variable X soit égale à 2, valeur correspondant à la réalisation de
l’un ou l’autre de ces 3 événements élémentaires est donc égale à 3/45 :

P {X = 2} = P {B1 B2 R3 } + P {B1 R2 B3 } + P {R1 B2 B3 } = 3/45.

D’une façon générale, au n-ème tirage, la probabilité pour que la variable X prenne la valeur
x est :
CNx p CNn−x
q
Px = P {X = x} = .
CNn
Représentons en effet chacune des N boules de l’urne par un nombre :

1, 2, . . . , Np Np + 1, . . . , N
| {z } | {z }
boules blanches, boules rouges .

Si l’échantillon est tiré au hasard, chacune des CNn , combinaisons que l’on peut faire en choisis-
sant n boules parmi les N contenues dans l’urne sont équiprobables : ce sont les éventualités
possibles.
Parmi celles-ci. dénombrons celles qui correspondent à la présence de x boules blanches et
n − x boules rouges. Il y a CNx p façons de choisir x boules blanches parmi les Np boules blanches
contenues dans l’urne. A chacune de ces combinaisons correspondent CNn−x q
façons de prélever
les n − x boules rouges complémentaires parmi les Nq boules rouges contenues dans l’urne, y a
donc, au total :
CNx p CNn−x
q

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 99

éventualités favorables à l’obtention de x boules blanches.


Le nombre x de boules blanches dans l’échantillon ne peut prendre de valeurs supérieures
soit à l’effectif n de l’échantillon, soit au nombre Np de boules blanches contenues dans l’urne :

x ≤ min(n, Np ).

Le même raisonnement est valable pour les n − x boules rouges de l’échantillon :

n − x ≤ min(n, Nq ),

d’où :
x ≥ max(0, n − Nq ).
On a donc, en définitive :
max(0, n − Nq ) ≤ x ≤ min(n, Np ).
En résumé, la variable hypergéométrique X est une variable aléatoire discrète qui dépend des
3 paramètres :
N , effectif de la population,
p, proportion primitive de boules blanches dans celle-ci,
n, nombre de tirages successifs (effectif de l’échantillon).
Les valeurs possibles de cette variable sont :

max(0, n − Nq ) ≤ x ≤ min(n, Np )

et la probabilité de la valeur x est :


CNx p CNn−x
q
P (X = x) = .
CNn
Notons que, si l’effectif n de l’échantillon est inférieur à la fois à l’effectif Np des boules blanches
et à celui Nq des boules rouges, les valeurs possibles sont, comme dans le cas de la loi binomiale :

0 ≤ x ≤ n.

La loi hypergéométrique est utilisée pour modéliser un ”tirage sans remise“. C’est le cas de
pratiquement tous les sondages (notamment lorsqu’on veut étudier la conformité d’un lot de
produits, etc. . .).

Exemple 6.4.2 Un groupe de 10 personnes est composé de 4 hommes et de 6 femmes. On


choisit dans ce groupe un échantillon de 4 personnes. Déterminer la loi de probabilité du nombre
de femmes que l’on peut observer dans un tel échantillon ; calculer son espérance et sa variance.

Solution : Il s’agit d’une loi hypergéométrique

X ∼ H(10, 4, 6/10)
6 C60 C44 C61 C43 C62 C42 C63 C41 C64 C40
p= 10
, n = 4, N = 10, Np = 6, Nq = 4, p0 = 4 ,
C10
p1 = 4 ,
C10
p2 = 4 ,
C10
p3 = 4 ,
C10
p4 = 4 .
C10

Lecture Notes in Computer Science and Technologies No 2, 2016


100 Vera Angelova

xi 0 1 2 3 4

1 24 90 80 15
pi 210 210 210 210 210

6
E(X) = n p = 4 10 = 2.4; V ar(X) = npq N −n
N −1
6 4 10−4
= 4 10 10 10−1
= 0.64.

Exemple 6.4.3 Un électricien achète des composants par paquets de 10. Sa technique de
contrôle est de n’examiner que trois des composants, tirés au hasard dans le paquet et de
n’acheter le lot des 10 paquets que si les trois composants examinés sont sans défaut. Si 5 pour-
cents des paquets contiennent deux composants à malfaçon, si 25 pour-cents n’en contiennent
qu’un et si 70 pour-cents n’en contiennent aucun, quelle est la probabilité que l’électricien
achète un paquet.

Solution : On note A l’événement “l’électricien achète un paquet” et Bi l’événement “le


paquet contient i composants à malfaçon”. On a

P (A) = P (A/B2 )P (B2 ) + P (A/B1 )P (B1 ) + P (A/B0 )P (B0 )


C83 C20 C93 C10 3
C10 C00
= 3
0.05 + 3
0.25 + 3
0.70
C10 C10 C10
539
= = 0.8983.
600

Approximation : si le nombre de tirages total n est petit devant la taille de l’urne N alors
les tirages sans remise s’apparentent à des tirages avec remise : en effet, ce qui différencie
principalement ces deux sortes de tirages c’est qu’en faisant des tirages sans remise,

1. on modifie le contenu de l’urne au fil des tirages,

2. on obtient à chaque fois une boule différente.

Maintenant, si le nombre de boules de l’urne est vraiment grand par rapport à n : le fait
d’enlever les boules tirées ne va pas modifier réellement l’urne, et même si on remet les boules,
il n’y a quasiment aucune chance de tirer deux fois la même !
Le fait que quand l’effectif N de la population devient très grand, n et p demeurant fixes,
la loi hypergéométrique tend vers la loi binômiale, permit d’appliquer la loi binômiale aux
sondages et aux procédures d’estimation sur échantillon. En effet, la plupart des échantillons
sont, en réalité, prélevés par tirage exhaustif, de façon à ce qu’un même individu ne puisse être
désigné deux fois.
En pratique : si N > 10n, (le taux de sondage n/N est inférieur à 10 %) la loi hy-
pergéométrique H(N ; n; p) est approchée par la loi binômiale B(n; p) (puisque p = Np /N est
la proportion quasi-constante des individus du type considéré).

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 101

Approximation d’une loi hypergéométrique par la loi binômiale


Soit X une variable aléatoire de loi hypergéométrique. On a :
CNx p CNn−x
q
P (X = x) =
CNn
Np ! (Nq )! n!(N − n)!
=
x!(Np − x)! (n − x)!(Nq − n + x)! N!
n! Np (Np − 1) . . . (Np − x + 1) Nq (Nq − 1) . . . (Nq − n + x + 1)
=
x!(Np − x)! N (N − 1) . . . (N − x + 1) (N − x)(N − x − 1) . . . (N − n + 1)
N p Np − 1 Np − x + 1 N q Nq − 1 Nq − n + x + 1
= Cnx ... ...
N N −1 N −x+1 N −xN −x−1 N −n+1
Np
Si on suppose maintenant que N → +∞ et que N
→ p, on a :
Np Np
Np Np − 1 N
− N1 Np − x + 1 N
− x−1
N
• → p, = → p, . . . , = → p;
N N −1 1 − N1 N −x+1 1 − x−1
N

on dénombre k fractions de ce type.

Nq 1 − NNp Nq − n + x + 1 1 − NNp − n−x−1


N
• = → 1 − p, . . . , = → 1 − p;
N −x 1 − Nx N −n+1 1 − n−1
N

on dénombre n − k fractions de ce type.


Np
En conclusion : si N → +∞ et si N
→ p, on a :

CNx p CNn−x
q
→ Cnx px q n−x .
CNn
Ce résultat mathématique peut être utilisé de la manière suivante :
La variable X représente le nombre d’individus d’un type donné que l’on peut trouver dans un
échantillon de taille n extrait d’une population de taille N (le lac) contenant Np individus du
type considéré. L’échantillon peut être obtenu par n tirages successifs sans remise. Si la taille
de la population est très grande devant celle de l’individu (n << N ), de manière à ce que
l’on puisse considérer qu’à chaque tirage la probabilité d’obtenir un individu du type considéré
demeure pratiquement égale à celle du premier tirage ( NNp ), la loi de X peut être assimilée à une
loi binômiale B(n, p = NNp ). On remarquera, en particulier, que cette approximation conserve
l’espérance :
Np
E(X) = n = np
N
et, pratiquement, la variance :
  
Np Np 1 − Nn
V ar(X) = n 1− ≈ n p q,
N N 1 − N1
 n
1−
car 1− N1 ≈ 1.
N

Lecture Notes in Computer Science and Technologies No 2, 2016


102 Vera Angelova

B. Lois infinies

6.5 Loi géométrique ou de Pascal X ∼ G (p), p ∈ (0, 1)


La loi géométrique est la loi du premier succès, c’est-à-dire le nombre d’essais nécessaires pour
faire apparaı̂tre un événement de probabilité p.

Définition 59 On répète de façon indépendante une expérience de Bernoulli autant de


fois qu’il faut pour obtenir un succès. Soit X, le nombre d’essais nécessaires pour obtenir
le 1-er succès. X suit une loi géométrique de paramètre p ou loi de Pascal de
probabilité :
P (X = n) = pn = pq n−1 , n = 1, 2, 3, . . . .

Notation : X ∼ G (p), p ∈ (0, 1)


Démonstration. X ne peut prendre que les valeurs 1, 2, . . . , n, . . .. Ces valeurs sont strictement
positives, entières, mais ne sont pas limitées. Calculons pn = P (X = n). Notons wi le résultat
du i-ème tirage avec wi = 0 si le i-ème tirage est un échec et wi = 1 si le i-ème tirage est un
succès. L’événement X = n s’écrit alors

(X = n) = (w1 = 0 et w2 = 0 et . . . et wn−1 = 0 et wn = 1).

Compte tenu de l’indépendance des tirages, on peut écrire

P (X = n) = P (w1 = 0)P (w2 = 0) . . . P (wn−1 = 0)P (wn = 1).

soit encore
P (X = n) = pn = pq n−1 , n = 1, 2, 3, . . . .

6.5.1 Paramètres
1 q
µ = E(X) = ; σ 2 = V ar(X) = .
p p2

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 103

Démonstration
Espérance

X ∞
X ∞
X
n−1
E(X) = nP (X = n) = npq =p nq n−1 .
n=1 n=1 n=1
P∞ P
n=1 nq
n−1
est la dérivée par rapport à q de ∞ n 1
n=0 q = 1−q .
P∞ 1 1
P ∞
Donc n=1 nq n−1 = (1−q) 2 = p2 et E(X) = p n=1 nq
n−1
= p1 .

Variance.

1
V ar(X) = E(X 2 ) − (E(X))2 = E(X 2 ) −
p2

X 1
E(X 2 ) = E(X(X − 1)) + E(X) = n(n − 1)pq n−1 +
n=1
p

X ∞
X ∞
X
n−1 n−1
n(n − 1)pq = n(n − 1)pq = pq n(n − 1)q n−2
n=1 n=2 n=2
P∞ P∞ 1
n=2 n(n − 1)q n−2 est la dérivée seconde de n=0 qn = 1−q
par rapport à q.

X 2 2
n(n − 1)q n−2 = 3
= 3
n=2
(1 − q) p
q 1 2 1
E(X 2 ) = 22
+ = 2−
p p p p
1 1 q
V ar(X) = 2 − = 2 .
p p p

Exemple 6.5.1 Un béton globalement conforme à une certaine norme est échantillonné. Chaque
éprouvette a une probabilité 0.9 de réussir le test de conformité. Quelle est la distribution du
nombre d’éprouvettes devant être testées avant d’en observer une qui ne réussit pas le test ?
(Note : ici le ≪succès≫ est ≪échouer le test≫ et le p correspondant est 0.1).
P (X = n) = p . q n−1
P (X = 1) = p . q 1−1 = p . q 0 = 0.1
P (X = 2) = p . q 1 = 0.1 ∗ 0.9 = 0.09
P (X = 3) = 0.1 ∗ 0.92 = 0.081
...
Quel est le nombre moyen d’éprouvettes que l’on devra tester avant d’en trouver une qui
échoue le test ?
1 1
E(X) = = = 10
p 0.1
La formule de récurrence P (X = n + 1) = P (X = n)(1 − p) montre, puisque 0 < 1 − p < 1,
que les probabilités successives décroissent constamment ; le mode a donc pour valeur 1.

Lecture Notes in Computer Science and Technologies No 2, 2016


104 Vera Angelova

Cas typique

Le tirage avec remise de n boules dans une urne ne contenant que deux types de boules (on
s’intéresse à l’indice de la première obtention d’une boule d’un certain type) ;. . .

Exemple 6.5.2 On tire avec remise une boule dans une urne contenant 113 boules blanches et
7 boules noires. A priori, combien devra-t-on effectuer de tirages pour obtenir une boule noire
pour la première fois ?
Solution :
La v.a. X = ”obtenir une boule noire pour la première fois” suit une loi géométrique de
7
p = 120 . D’après la formule de l’espérance mathématique de la loi géométrique on obtient
E(X) = p1 = 120 7
, et donc, il faudra s’attendre à exécuter entre 17 et 18 tirages pour voir
apparaı̂tre pour la première fois une boule noire.

Exemple 6.5.3 Un homme ivre rentre chez lui avec 10 clés différentes dans sa poche. Pour
ouvrir la porte, il essaie une clé au hasard et, si la porte ne s’ouvre pas, il remet la clé dans sa
poche et recommence. X est le nombre de clés essayées jusqu’à ce que la porte s’ouvre.
Donner l’ensemble fondamental Ω de la variable aléatoire X et la probabilité qui la décrit. Puis,
préciser le nom de la loi, ses paramètres, et, pour k ∈ X(Ω), donner l’expression de P (X = k).
Solution :
L’essai d’une clé au hasard est une épreuve de Bernoulli, avec deux résultats possibles :
1
• le succès : la porte s’ouvre. Sa probabilité est la probabilité p = 10
d’avoir choisi la bonne
clé.
9
• l’échec : la porte ne s’ouvre pas. Sa probabilité est q = 1 − p = 10
.

On répète l’épreuve de Bernoulli de façon indépendante.


Un résultat élémentaire wn de l’expérience aléatoire est une suite de n − 1 échecs suivis d’un
succès, n ∈ N.
Ω est l’ensemble des wn , pour n ∈ N.
Les wn , pour n ∈ N, constituent les événements élémentaires (parties minimales pour l’inclu-
sion).
Un événement est une partie de Ω.
Tout événement est réunion des événements élémentaires qu’il contient.
La probabilité d’un résultat élémentaire est donnée par le produit des probabilités des résultats
des épreuves de Bernoulli qui le composent :

P (wn ) = pq n−1 .

La probabilité d’un événement est la somme des probabilités des événements élémentaires qu’il
contient.
Soit X le nombre de répétitions de l’épreuve de Bernoulli qu’il faut faire pour rencontrer un
succès. L’événement X = n, pour un n ∈ N, est l’événement élémentaire wn .
La loi de probabilité de X est donc donnée par : P (X = k) = P (wk ) = pq k−1 .
C’est la loi géométrique sur N.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 105

Définition 60 Une urne contient N boules, de c couleurs, dont M blanches, on pose


p= M N
. On effectue plusieurs tirages d’une boule dans l’urne sans remise. n est le nombre
de tirages. La variable X qui signifie le nombre de tirages pour obtenir la première boule
blanche suit la loi de Pascal sans remise X ∼ S(N, p), dont les probabilité se calculent
par :
CNk−1
−M M
P (X = k) = k−1 , {k ∈ N; 1 ≤ k ≤ N − M + 1}
CN N − k + 1

Paramètres :
N +1 N M (N + 1)
E(X) = V ar(X) = q .
M +1 (M + 1)2 (M + 2)

6.6 Loi de Poisson X ∼ P(λ)

Une v.a. de Poisson intervient quand on étudie le nombre d’apparitions d’un phénomène rare
et sans mémoire dans un intervalle de temps donné t.
La loi de Poisson (dite aussi la loi des petits nombres) est la loi des événements rares (de
petite probabilité) : maladies rares, accidents rares, pannes, radioactivité...
La loi de Poisson convient à la description des événements dont les chances de réalisation
sont faibles. Comme dans le cas de la distribution binomiale, il est nécessaire pour que la loi
s’applique que la probabilité de réalisation de l’événement reste constante.

Définition 61 Une v.a. X suit une loi de Poisson de paramètre λ (λ réel strictement
positif) si elle admet pour fonction de distribution l’ensemble des couples (k, pk ) avec
k = 0, 1, 2, . . . et

e−λ λk
pk = P (X = k) = . /P OISSON (k; λ; 0)/
k!

Lecture Notes in Computer Science and Technologies No 2, 2016


106 Vera Angelova

Notation : X ∼ P(λ)

Fonction de répartition :
X λi
F (k) = P (X < k) = e−λ . /P OISSON (k − 1; λ; 1)/
0≤i<k
i!

Paramètres :
µ = λ, σ 2 = λ.

Démonstration

Pour l’espérance mathématique de la distribution de Poisson on a :


+∞ +∞
X X λk
E(X) = kpk = ke−λ
k=0 k=0
k!

Le premier terme de la somme étant nul, on peut faire débuter celle-ci à 1.


+∞ +∞ −λ k−1
X λk X e λ
E(X) = e−λ =λ
k=1
(k − 1)! k=1
(k − 1)!

On reconnaı̂t dans la série infinie, la somme des probabilités d’une variable aléatoire de Poisson,
égale par conséquent à l’unité :
+∞ −λ k−1
X e λ
= 1.
k=1
(k − 1)!

Par suite :

E(X) = λ.

Le calcul de la variance est analogue dans son principe à celui de la moyenne.


∞ ∞
X X e−λ λk
E{X(X − 1)} = k(k − 1)Pk = k(k − 1) .
k=0 k=0
k!

Les deux premiers termes de la somme sont nuls : on peut faire débuter celle-ci à 2 et mettre
m2 en facteur :

2
X e−λ λk−2
E{X(X − 1)} = m .
k=2
(k − 2)!

Faisons le changement de variable :

k ′ = k − 2.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 107

On obtient
∞ ′
X e−λ λk
E{X(X − 1)} = m2
k′ =0
k′!
La série infinie est égale à 1 puisqu’elle représente la somme des probabilité attachées à une
variable de Poisson.
Par conséquent :
E{X(X − 1)} = λ2 .

Calcul pratique des probabilités

Les différentes probabilités se calculent aisément gràce à la formule de récurrence :


λ
P (X = k + 1) = P (X = k)
k+1
Si, par exemple, on suppose que X suit une loi P(2.2), on a :
P (X = 0) = e−2.2 ≈ 0.110803
2.2
P (X = 1) = P (X = 0) ≈ 0.243767
1
2.2
P (X = 2) = P (X = 1) ≈ 0.268144
2
2.2
P (X = 3) = P (X = 2) ≈ 0.196639
3
...
La distribution est de type unimodal et admet pour mode l’entier, en général unique, situé
dans l’intervalle [λ − 1, λ] ou exceptionnellement deux modes successifs, équiprobables, bornes
de l’intervalle ci-dessus lorsque λ a une valeur entière. La position du mode se déduit aisément
de la formule de récurrence donnée ci-dessus.
Démonstration :
Le mode est la valeur de la variable aléatoire pour laquelle la probabilité est la plus élevée. C’est l’entier
x tel que :
Px−1 Px+1
< 1 et < 1.
Px Px
Px−1 e−λ λx−1 x! x
= −λ x
= .
Px (x − 1)! e λ λ
Px+1 −λ
e λ x+1 x! λ
= = .
Px (x+)! e−λ λx x+1

Pour être la valeur modale x doit donc vérifier simultanément :


x λ
< 1 et < 1,
λ x+1
soit :
λ − 1 < x < λ.
Lorsque λ est entier, il y a deux valeurs modales : λ − 1 et λ

Lecture Notes in Computer Science and Technologies No 2, 2016


108 Vera Angelova

Forme de la distribution

La forme d’une distribution de Poisson se déduit de la valeur du mode :

• Forme en L si λ ≤ 1 ;

• Forme en cloche dissymétrique pour λ > 1. Le mode se déplace vers la droite lorsque λ
augmente.

Conditions d’application

La loi de Poisson peut être introduite :

• soit comme un cas particulier de la loi binômiale : c’est la loi vers laquelle tend celle-ci
lorsque le nombre n d’épreuves devient grand, alors que la probabilité p de réalisation de
l’événement est faible ; c’est la raison pour laquelle la loi de Poisson a été souvent appelée
“loi des petits nombres ” ;

• soit comme la résultante d’un processus aléatoire particulier, le processus de Poisson.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 109

Processus de Poisson

Un processus se rapporte à la réalisation d’événements aléatoires dans le temps, par exemple :


pannes de machines, arrivées de bateaux dans un port pour chargement, appels téléphoniques
sur une ligne, arrivées de clients à un comptoir...
Supposons que la réalisation d’un événement particulier (par exemple, un appel téléphonique)
obéisse aux conditions suivantes :

• La probabilité de réalisation de l’événement au cours d’une petite période de temps dt


est proportionnelle à la durée de cette période : p dt ;

• Cette probabilité est indépendante du nombre d’événements qui se sont produits antérieurement,
et reste constante au cours de la période d’observation.

• La probabilité de deux apparitions successives de cet événement sur un même petit in-
tervalle de temps dt est négligeable.

Moyennant ces hypothèses, le nombre X d’événements enregistrés au cours d’un intervalle de


temps de durée T est une variable aléatoire de Poisson de paramètre λ = pT.
Cette propriété explique que l’on rencontre en pratique la loi de Poisson dans d’assez nom-
breux cas où les hypothèses précédentes sont plus ou moins rigoureusement satisfaites. Il en est
ainsi pour :

• Les arrivées de navires dans un port, de véhicules à un péage d’autoroute, de camions à


un poste de chargement, d’avions à un aéroport, de clients à un guichet ;

• Les pannes de machines ;

• Les appels téléphoniques ;

• Les ventes d’un appareil déterminé dans un magasin, la demande d’un certain modèle de
pièce de rechange en réserve ;

• L’émission de particules radio-actives, etc.

Exemple 6.6.1 Dans un hôtel, il arrive en moyenne 1.2 personne par 10 minutes, entre 15h
et 21h. On prend pour variable aléatoire X le nombre de personnes arrivant dans cet hôtel en
10 minutes, dans cet horaire particulier. On admet que X suit une loi de Poisson.

• Déterminez la probabilité pour qu’en 10 minutes, il arrive k personnes.


k −1.2
Réponse : P (X = k) = 1.2 k!e car la moyenne donne la valeur du paramètre λ.

• Déterminez la probabilité pour qu’en 10 minutes, il arrive 2 personnes.


Réponse :

P (X = 2) = 0.2169. de la table Distribution de Poisson pour λ = 1.2 et X = 2.

Lecture Notes in Computer Science and Technologies No 2, 2016


110 Vera Angelova

• Déterminez la probabilité pour qu’en 10 minutes, il arrive 4 personnes au plus.


Réponse :

P (X ≤ 4) =? de la table Fonction de répartition de Poisson pour λ = 1.2 et X = 4.


P (X ≤ 4) = 0.9923

• Déterminez la probabilité pour qu’en 10 minutes, il arrive 3 personnes au moins.


Réponse :

P (X ≥ 3) = 1 − P (X ≤ 2)
de la table fonction de répartition de Poisson pour λ = 1.2 et X = 2 :
P (X ≤ 2) = 0.8795
P (X ≥ 3) = 1 − 0.8795 = 0.1205.
P (X ≥ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2)
= 1 − 0.3012 − 0.3614 − 0.2169 = 1 − 0.8795 = 0.1205

• Déterminez la probabilité pour qu’en 5 minutes, il arrive 6.


Réponse : Puisque 1.2 est le nombre moyen d’arrivées en 10 minutes, 1.2/10 = 0.12 est le
nombre moyen d’arrivées en une minute et 5 × 0.12 = 0.6 est le nombre moyen d’arrivées
en cinq minutes. Ainsi la probabilité de 6 arrivées en cinq minutes avec λ = 0.6 est donnée
dans la table de la distribution de Poisson pour λ = 0.6 et X = 6.

P (X = 6) = 0.

6.6.1 Approximation de la loi Binomiale par la loi de Poisson


La distribution de Poisson peut être considéré comme un cas limite de la distribution binomiale.
Si n est ≪grand≫ et p ≪petit≫, on peut approximer la loi B(n, p) par la loi P(np).
Soit X une variable aléatoire de loi B(n, p). On cherche la limite de P (X = k) lorsque : n
tend vers l’infini, p tend vers zéro, le produit np tend vers une valeur finie λ. On a :

n! n! (np)k (1 − p)n
P (X = k) = pk (1 − p)n−k = .
k!(n − k)! (n − k)!nk k! (1 − p)k
n!
• lim = 1 car :
n→+∞ (n − k)!nk

n! nn−1n−2 n−k+1
k
= ...
(n − k)!n n n n n
    
1 2 k−1
=1 1− 1− ... 1 −
n n n
• lim (1 − p)k = 1
p→0
• log(1 − p)n = n log(1 − p) ≈ −np lorsque n → +∞ et p → 0.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 111

On en déduit que :
lim (1 − p)n = e−λ
n→+∞,p→0,np→λ

En conclusion, lorsque n tend vers l’infini, p tend vers zéro, de sorte que le produit np tend
vers une constante λ la loi binômiale B(n, p) converge vers une loi de Poisson P(λ) puisque :
λk
P (X = k) = Cnk pk (1 − p)n−k → e−λ
k!
Ce résultat est très intéressant en pratique ; il permet de remplacer la loi binomiale par la loi
de Poisson lorsque n est grand, p petit, le produit np étant de l’ordre de quelques unités. Le
développement binomial :
Xn
n
(p + q) = Cnk pk q n−k
k=0
remplacé par le développement infini :
 
−λ λ λ2 λk
e 1+ + + ... + + ... .
1! 2! k!
de sorte que la variable X théoriquement susceptible de prendre, non plus un nombre limité,
mais un nombre infini de valeurs possibles. En réalité, les probabilités deviennent rapidement
si petites que la représentation de la distribution d’une variable discrète finie par une loi de
Poisson est possible.
Habituellement on accepte de substituer la loi de Poisson à la loi binomiale
lorsque l’on a à la fois :
n > 30; n p < 5 ou n q < 30
Certains auteurs donnent des conditions de validité de l’approximation légèrement différentes
comme par exemple :
n > 50; p ≤ 0.1; npq < 20.
Mais quelles que soient les approches, on doit toujours avoir :

• n suffisamment grand (au minimum n = 30)


• p petit (au maximum p = 0.10)

Dans tous les cas, lorsqu’on utilisera cette approximation on prendra :


λ = espérance d’une v.a. binômiale = np.
L’intérêt de pouvoir remplacer la loi binomiale par la loi de Poisson est la plus grande commodité
d’emploi de cette dernière : celle-ci ne dépendant que d’un seul paramètre λ, les tables donnant
les probabilités de la loi de Poisson sont des tables à double entrée (λ et k) qui tiennent au
maximum en quelques pages, au lieu d’un fort volume pour les tables à triple entrée (n, p et k)
de la loi binomiale.
Cette convergence de la loi binomiale vers la loi de Poisson explique que l’on rencontre
celle-ci, par exemple, dans les cas suivants :

Lecture Notes in Computer Science and Technologies No 2, 2016


112 Vera Angelova

• Nombre de pièces défectueuses dans un échantillon important prélevé au cours d’un pro-
cessus de fabrication en série : en général, la proportion de pièces défectueuses dans
l’ensemble de la fabrication est faible ;
• Nombre d’erreurs commises lors de l’inventaire d’un stock comportant un grand nombre
d’articles différents ; d’une façon générale, nombre d’erreurs commises au cours d’une
longue suite d’opérations.

Exemple 6.6.2 La probabilité de rupture de stock pendant un mois est de 1/30.

1. Soit X le nombre de mois durant lesquels il y a une rupture de stock pendant une période
de 5 ans. Quelle loi suit X ?
2. Calculer P (X ≥ 2) et donner sa signification.
3. Comment peut-on approximer cette loi ? Calculer P (1 < X < 5) et P (1 < X ≤ 5).

Solution

1. Il y a 12 × 5 = 60 mois = 60 épreuves pour lesquelles le risque de rupture est de 1/30.


Ces épreuves sont supposées indépendantes (une rupture au cours d’un mois n’a pas de
conséquence les mois suivants) =⇒ p = 1/30, q = 29/30.
Pour chaque épreuve, il y a 2 résultats possibles (rupture ou non).

X ∼ B(60, 1/30).

2.

P (X ≥ 2) = 1 − (P (X = 0) + P (X = 1)) = 1 − 0.1308 − 0.2706 = 0.5986.


0
P (X = 0) = C60 (1/30)0 (29/30)60 = 0.1308
1
P (X = 1) = C60 (1/30)1 (29/30)59 = 0.2706.

La probabilité de constater une rupture de stock pendant 2 mois ou plus durant cette
période de 5 ans est de 59,86%.
3.
n = 60 > 30, np = 60 × 1/30 = 2 ≤ 5
On peut approximer la loi binômiale par une loi de Poisson de paramètre :

λ = np = 2 → X ∼ P(λ = 2).

P (1 < X < 5) = P (X ≤ 4) − P (X ≤ 1) = 0.9473 − 0.4060 = 0.5413


P (1 < X ≤ 5) = P (X ≤ 5) − P (X ≤ 1) = 0.9834 − 0.4060 = 0.5774

Où les valeurs pour P (X ≤ 5), P (X ≤ 4) et P (X ≤ 1) on peut lire directement de la


table de Poisson - Fonction de répartition de Poisson de l’Annexe.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 113

Test sur le chapitre : Lois de probabilité discrètes parti-


culières
5.2 Lois de probabilités discrètes Énumérez les lois que vous connaissez en mentionnant
le groupe au quel elles appartient.

5.2.1 Quand dit-on qu’une loi de probabilité est uniforme ?


Dans cette situation, comment calcule-t-on la probabilité d’un événement ?

5.2.2 Décrivez la loi de Bernoulli.


Détaillez le calcul de son espérance et de son écart-type.

5.2.3 Décrivez la loi binômiale. Que valent l’espérance et l’écart-type d’une loi binomiale ?

5.2.4 Décrivez la loi hypergéométrique. Quand peut-on approximer la loi hypergéométrique


par la loi binômiale ?

5.2.5 Décrivez la loi géométrique.

5.2.7 Décrivez la loi de Poisson. Dans quelles conditions la loi binômiale peut être approximer
par la loi de Poisson ?

Lecture Notes in Computer Science and Technologies No 2, 2016


114 Vera Angelova

6.6.2 Lois discrètes présentées par des modèles d’urne


Une urne contient N boules, de c couleurs, dont M blanches, on pose p = M N
.
Pour 1 ≤ i ≤ c, on appelle Mi le nombre de boules de couleur i et on pose pi = M N
i
.
On effectue un ou plusieurs tirages d’une boule dans l’urne. n est le nombre de tirages.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 115

M
Dans une urne, il y a N boules parmi lesquelles M de couleur blanche, p = N
et q = 1 − p.

Ensemble des valeurs pos- Espérance de Variance de


Loi de X Probabilités des valeurs de X
sibles de X X X

Lois usuelles discrètes finies

Uniforme 1 N +1 N 2 −1
{1, . . . , N } P (X = k) = 2 12
U(N ) N

Bernoulli P (X = 0) = q
{0, 1} p pq
B(1, p) et P (X = 1) = p

Binomiale n k
{0, 1, . . . , n} P (X = k) = p q n−k np npq
B(n, p) k

   
M
Hypergéométrique × N −M
[max(0; n − N + M ); min(n; M )] P (X = k) = k
 n−k
np npq N −n
H(N, n, p) N
n
N −1

Lois usuelles discrètes infinies

Géométrique 1 q
N P (X = k) = p q k−1 p2
G(p) ou R(1, p) p

Pascal k−1 r r rq
{k ∈ N; k ≥ r} P (X = k) = p q k−r p2
R(r, p) r−1 p

P (X = k) =
Pascal sans remise 
M

× Nk−r N +1 N (N +1)(M −r+1)
{k ∈ N; r ≤ k ≤ N − M + r} r−1
−M
M −r+1 rM +1
rq (M +1)2 (M +2)
S(N, r, p)   ×
N N −k+1
k−1

Poisson k
N P (X = k) = e−λ λk! λ λ
P(λ)

Binômiale négative k+r−1 r rq rq


N P (X = k) = p qk p2
BN(r, p) r−1 p

Lecture Notes in Computer Science and Technologies No 2, 2016


116 Vera Angelova

Chapitre 7

Variable aléatoire continue (à densité)

Définition 62 Variable aléatoire continue : X est une variable qui peut prendre
toutes les valeurs d’un intervalle fini ou infini. Cela signifie que la différence entre deux
valeurs voisines peut être aussi petite que l’on peut l’imaginer. C’est un nombre réel. En
règle générale, toutes les variables qui résultent d’une mesure sont de type continu.

7.1 Fonction densité de probabilité et fonction de répartition


Dans le cas d’une variable aléatoire continue, la loi de probabilité associe une probabilité
à chaque ensemble de valeurs définies dans un intervalle donné. En effet, pour une variable
aléatoire continue, la probabilité associée à l’événement {X = a} est nulle, car il est impossible
d’observer exactement cette valeur.
On considère alors la probabilité que la variable aléatoire X prenne des valeurs comprises dans
un intervalle [a, b] tel que P (a ≤ X ≤ b).

Définition 63 Une variable aléatoire X définie sur un univers Ω est dite absolument
continue et F (x) - fonction de répartition, s’il existe une fonction densité de
probabilité f telle que :
Z t
∀t ∈ R P (X < t) = F (t) = f (x)dx
−∞

Propriétés de la densité de probabilité f (x)

P1 : ∀x ∈ R f (x) ≥ 0
R +∞
P2 : −∞ f (x)dx = 1

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 117

Figure 7.1 : Densité de probabilité

P3 : ∀a ∈ R P (X = a) = 0
La probabilité que la variable aléatoire X prenne une valeur donnée de l’intervalle est
nulle. On ne peut donc plus définir de loi de probabilité comme pour les variables aléatoires
discrètes. On va utiliser dans ce cas la fonction de répartition de la variable aléatoire.

P4 : Si avec a < b

Z b
P (a ≤ X ≤ b) = F (b) − F (a) = f (x)dx,
a

ce qui correspond à l’aire de la surface situé au-dessous de la courbe de densité, à droite


de a et à gauche de b.
Remplacer les inégalités stricts par des inégalités larges ne change rien puisque pour une
variable aléatoire continue, la probabilité P (X = a) que X prenne exactement la valeur
a est nulle.

P (a ≤ x ≤ b) = P (a < x < b) = P (a ≤ x < b) = P (a < x ≤ b)

Remarque : Cette fonction densité de probabilité est une loi de probabilité car l’aire sous la
courbe est égale à 1 pour toutes les valeurs de x définies.

Lecture Notes in Computer Science and Technologies No 2, 2016


118 Vera Angelova

Définition 64 La fonction cumulative de distribution F , ou plus simplement fonc-


tion de répartition F d’une v.a. continue X, ayant une densité de probabilité f , est
définie par : F (x) = P (X < x),
Z x
F (x) = f (u)du.
Vmin

La fonction de répartition F (x) est la primitive de la fonction de densité f (x), c’est-à-dire


une fonction dont la dérivée est f (x).

F (x + ∆x) − F (x)
f (x) = lim = F ′ (x).
∆x→0 ∆x
D’ici quand ∆x tend vers 0, le numérateur F (x + ∆x) − F (x) tend vers 0 et f (x) tend
vers 0 - Propriété P3 de la densité de probabilité.

Propriétés de la fonction de répartition F (x) :

P1 : F (Vmin ) = 0 et F (Vmax ) = 1;

P2 : P (X > x) = 1 − F (x) pour tout réel x : ;

P3 : F est une fonction continue croissante ;

P4 : La probabilité que X appartienne à l’intervalle (x1 , x2 ), est égale, par définition, à la


différence des valeurs prises par la fonction de répartition aux extrémités de l’intervalle :

P (x1 ≤ X ≤ x2 ) = P (X < x2 ) − P (X < x1 ) = F (x2 ) − F (x1 ).

Représentation graphique de la fonction de répartition


La courbe est encore appelée ”courbe des probabilités cumulées”. Dans le cas d’une loi continue
F (x) représente la surface délimitée par la courbe représentation de la loi entre −∞ et l’abscisse
x.
La valeur F (x1 ) de la fonction de répartition est la somme de toutes les probabilités élémentaires
correspondant aux valeurs de X inférieures à x1 . F (x1 ) est donc égal à l’aire hachurée comprise
entre la courbe de densité de probabilité et l’axe des abscisses, soit symboliquement :
Z x1
F (x1 ) = f (x)dx.
−∞

7.1.1 Quantile d’ordre p

Définition 65 Le quantile d’ordre p est la valeur xp de X telle que F (xp ) = p.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 119

Figure 7.2 : Lois de probabilité et fonction de répartition (variables discrètes et continues)

Définition 66 Soit X une variable aléatoire réelle de fonction de répartition F continue


et strictement croissante. Pour tout p ∈ [0, 1] nous appelons quantile d’ordre p la racine
xp de l’équation en x : F (x) = p, tel que

P (X ≤ xp ) = p ou encore F (xp ) = p.

On remarque que si F est strictement croissante et continue, la solution existe et elle


est unique, donc le quantile est bien défini. Les quantiles sont des valeurs qui divisent une
distribution en plusieurs groupes comprenant la même proportion des données. Voici un arbre
représentant les quantiles les plus fréquemment utilisés. Voyons maintenant chacune des définitions.

Figure 7.3 : Diagramme des différents quantiles

Lecture Notes in Computer Science and Technologies No 2, 2016


120 Vera Angelova

Définition 67 Les quartiles. Les quartiles, notés par Q1 , Q2 et Q3 , divisent une distri-
bution en quatre groupes égaux comprenant chacun 25% des données de la distribution.
On dit que
1) 25% des données sont inférieures à Q1
2) 50% des données sont inférieures à Q2
3) 75% des données sont inférieures à Q3

Définition 68 Les déciles. Les déciles, notés par D1 , D2 , . . . , D8 et D9 , divisent une


série statistique ordonnée en dix groupes égaux comprenant chacun 10% des données de
la série.
On dit que
1) 10% des données sont inférieures à D1
2) 20% des données sont inférieures à D2
3) . . .
9) 90% des données sont inférieures à D9

Définition 69 Les quintiles. Les quintiles, notés par V1 , V2 , V3 et V4 , divisent une série
statistique ordonnée en 5 groupes égaux comprenant chacun 20% des données de la série.
On dit que
1) 20% des données sont inférieures à V1
2) 40% des données sont inférieures à V2
3) 60% des données sont inférieures à V3
4) 80% des données sont inférieures à V4

Définition 70 Les centiles. Les centiles, notés par C1 , C2 , . . . , C98 et C99 , divisent une
série statistique ordonnée en 100 groupes égaux comprenant chacun 1% des données de
la série.
On dit que
1) 1% des données sont inférieures à C1
2) 2% des données sont inférieures à C2
3) . . .
99) 99% des données sont inférieures à C99

Remarque. Pour p = 1/2, on parle de médiane.

7.1.2 Médiane

La médiane M e = η est la valeur η de X pour laquelle P (X ≤ η) = P (X ≥ η) = 1/2.


Pour une distribution continue c’est la valeur qui sépare la courbe de densité de probabilité en

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 121

deux portions de surface égale.

Définition 71 La médiane est le quantile d’ordre 1/2.

7.1.3 Mode

Définition 72 Le mode xm est la valeur de X dont la probabilité est maximale.

Cette valeur peut ne pas être unique. Une distribution unimodale est une distribution
n’ayant qu’un seul mode, sinon elle est bimodale, trimodale ou multimodale.

Figure 7.4 : Le mode, la médiane et la moyenne d’une loi

7.2 Espérance mathématique et paramètres d’une loi conti-


nue
P
Par analogieR avec les v.a. discrètes, on définit en remplaçant la sommation finie par une
intégration et en remplaçant pk (probabilité que X prenne la valeur xk ) par f (x)dx (proba-
bilité que X prenne ses valeurs dans un tout petit intervalle dx :

Lecture Notes in Computer Science and Technologies No 2, 2016


122 Vera Angelova

7.2.1 Espérance mathématique (moyenne)

Espérance mathématique (moyenne) d’une variable aléatoire continue


Z
E(X) = xf (x)dx
V

Exemple 7.2.1 Soit X la variable aléatoire continue uniforme définie sur le segment (0, 10).
La densité de probabilité de cette variable est égale à :
f (x) = 1/10.
En effet : Z Z
10 10
dx
f (x)dx = = 1.
0 0 10
Son espérance mathématique est :
Z 10 10
1 1 1 2
µ = E(X) = x dx = x = 5.
0 10 10 2 0

Propriétés de l’espérance mathématique

pe1 : Soit a et b deux constantes et X une variable aléatoire :


E(aX + b) = aE(X) + b,
En effet,
Z +∞
E(aX + b) = (ax + b)f (x)dx
−∞
Z +∞ Z +∞
= a xf (x)dx + b f (x)dx
−∞ −∞
= aE(X) + b.

pe2 : Soit X et Y deux variables aléatoires :


E(X ± Y ) = E(X) ± E(Y ).
L’espérance mathématique d’une somme de variables aléatoires est égale à la somme des
espérances mathématiques.
pe3 : Soit X et Y deux variables aléatoires indépendantes :
E(X.Y ) = E(X).E(Y ).
L’espérance mathématique d’un produit de variables aléatoires indépendantes est égale
au produit des espérances mathématiques.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 123

Vérification : Soit f (x, y) la densité de probabilité du couple de variables aléatoires


(X, Y ) : Z +∞ Z +∞
E(X.Y ) = xyf (x, y)dxdy.
−∞ −∞
Les variables X et Y sont indépendantes :

f (x, y) = f (x)f (y).

Par conséquent :
Z +∞ Z +∞
E(X.Y ) = xf (x)dx × yf (y)dy
−∞ −∞
Z +∞ Z +∞
= xf (x)dx × yf (y)dy
−∞ −∞

d’où
E(X.Y ) = E(X) × E(Y ).

7.2.2 Variable centrée

Une variable aléatoire X est dite centrée si son espérance mathématique est nulle.

La variable X − E(X) est une variable aléatoire centrée. Son espérance mathématique est
nulle.

7.2.3 Variance

La variance est l’espérance du carré de la variable centrée.


Z
σ = (x − µ)2 f (x)dx = E(X 2 ) − E(X)2 .
2
V

Propriétés de la variance

pv1 : Soit a et b deux constantes et X une variable aléatoire :

V ar(aX + b) = a2 V ar(X).

En effet :
V ar(aX + b) = E((aX + b − E(aX + b))2 ).
Or, d’après les propriétés de l’espérance mathématique :

E(aX + b) = aE(X) + b

Lecture Notes in Computer Science and Technologies No 2, 2016


124 Vera Angelova

d’où :

V ar(aX + b) = E(a2 (X − E(X))2 )


= a2 E((X − E(X))2 ) = a2 V ar(X).

pv2 : Soit X et Y deux variables aléatoires indépendantes.

V ar(X ± Y ) = V ar(X) + V ar(Y ).

La variance d’une somme de variables aléatoires indépendantes est égale à la somme des
variances.
En effet, par définition :

V ar(X + Y ) = E([X + Y − E(X + Y )]2 )

et, par suite des propriétés de l’espérance mathématique :

V ar(X + Y ) + E([(X − E(X)) + (Y − E(Y ))]2 )


= E((X − E(X))2 ) + E((Y − E(Y ))2 )
+ 2E((X − E(X))(Y − E(Y ))).

L’expression E((X − E(X))(Y − E(Y ))), que l’on appelle la covariance de X et de Y , est
nulle lorsque les variables X et Y sont indépendantes.
Par conséquent :
V ar(X + Y ) = V ar(X) + V ar(Y ).
Les propriétés d’additivité ne s’appliquent qu’aux variances ; Elles ne s’appliquent pas
aux écart-types. (une somme σ(X) + σ(Y ) n’a aucun sens statistique)

7.2.4 Variable réduite

Une variable aléatoire X est dite réduite si son écart-type est égal à 1.

X
La variable aléatoire σ
admet une variance de 1 et est appelée variable réduite.

7.2.5 Variable centrée réduite ou standardisée

Une variable aléatoire centrée réduite est dite standardisée (ou variable normalisée).
A n’importe quelle variable aléatoire X, on peut associer la variable standardisée

X − E(X)
Z= .
σ(X)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 125

En divisant la variable centrée par son écart-type, une valeur située à un écart-type de la
moyenne sera ramenée à 1, une autre située à deux écarts-types sera ramenée à 2 : l’échelle de
référence, ou unité de mesure, d’une variable centrée-réduite est l’écart-type.
Les valeurs des variables centrées-réduites sont complètement indépendantes des unités de
départ. Une mesure exprimée en mètres ou en centimètres donne exactement la même variable
centrée-réduite. On peut ainsi faire des comparaisons entre variables de natures différentes. Si
un enfant est à +3 écarts-types de la moyenne pour sa taille et +1 écart-type pour son poids, on
sait qu’il est plus remarquable par sa taille que par son poids. L’examen des variables centrées-
réduites est très pratique pour déceler les valeurs “anormalement” grandes ou “anormalement”
petites.

Pourquoi centrer et réduire ? Lorsqu’on passe de X à Z, on obtient une variable aléatoire


dont les paramètres (espérance et variance) ne dépendent plus de ceux de X.
Le passage d’une variable aléatoire X à une variable standardisée est requis pour l’utilisation
de certaines tables de probabilité. C’est le cas pour l’utilisation de la table de la loi normale.

7.2.6 Moment d’ordre supérieur

On appelle moment d’ordre k la grandeur :

mk = E(X k ).

Le moment centré d’ordre k est le moment d’ordre k de la variable centrée :

µk = E[(X − E(X))k ].

On a donc
m1 = E(X), µ1 = 0, µ2 = V ar(X).

Tous les moments centrés d’ordre impair (> 1) donnent une indication sur la dissymétrie de la
loi de probabilité, mais on n’utilise que le moment d’ordre 3 :

Coefficient d’asymétrie :
µ3 µ3
β= 3/2
= .
µ2 σ3

Le coefficient d’asymétrie est une grandeur sans dimension, sa valeur donne une idée de
l’importance de la dissymétrie et son signe montre si la dissymétrie provient de valeurs élevées
de X (dissymétrie à droite ) ou des valeurs petites de X (dissymétrie à gauche).
Tous les moments centrés d’ordre pair sont des variables de dispersion. On n’utilise que le
moment µ4 .

Lecture Notes in Computer Science and Technologies No 2, 2016


126 Vera Angelova

Coefficient de Kurtosis ou aplatissement comparé à la loi Normale :


µ4 µ4
δ= 2
− 3 = 4 − 3.
µ2 σ

Ce facteur est également sans dimension et permet donc de montrer qu’une distribution est
plus aplatie ou moins aplatie qu’une distribution gaussienne, toutes choses égales par ailleurs
(même espérance et même variance).

Exemple 7.2.6.1 [11] Une variable aléatoire continue a une densité de probabilité f (x) =
1 x
3
− 18 . Son intervalle de définition est [0, 6].

1. Vérifier par le calcul et graphiquement que, dans cet intervalle, la somme des probabilités
des valeurs de cette variable aléatoire continue est bien égale à 1.
2. Représenter graphiquement les variations de la fonction de répartition dans cet intervalle.
3. Calculer E(x).
4. Calculer V ar(x) et σ(x).

Solution :

1. La somme des probabilités des valeurs de cette variable aléatoire continue dans l’intervalle
est Z 6 Z 6   6
1 x x x2 6 36
f (x)dx = − dx = − = − = 2 − 1 = 1.
0 0 3 18 3 36 0 3 36

Pour que f (x) représente la loi de probabilité de la variable aléatoire continue sur l’in-
tervalle [0, 6], il faut que l’aire se situant sous la courbe et entre les axes des abscisses et
ordonnées soit égale à 1. Cette aire est celle du triangle AOB qui a une surface
hauteur × base 6 × 1/3
SAOB = = = 1.
2 2
Lecture Notes in Computer Science and Technologies No 2, 2016
Eléments de la théorie des probabilités 127

1 x
2. La fonction de répartition F (x) est la primitive de f (x) = 3
− 18
.

x 1 x2 x x2
F (x) = − = − .
3 18 2 18 36

Z 6 Z 6   Z 6  
1 x x x2
3. E(x) = xf (x)dx = x − dx = − dx
0 0 3 18 0 3 18
  6
x2 x3 36 216
= − = −
6 54 0 6 54
= 6 − 4 = 2.

Z 6 
R6 2 2 1 2x
4. V ar(x) = 0
x f (x)dx − E(x) = x − dx − 4
0 3 18
Z 6 2 
x x3
= − dx − 4
0 3 18
 3 6
x x4 216 1296
= − −4= − − 4 = 2.
9 72 0 9 72

σ(x) = 2 = 1.414

Exemple 7.2.6.2 On suppose que la durée de vie d’un individu est une variable aléatoire
continue dont la densité de probabilité f est donnée par
 2
kt (100 − t)2 si 0 ≤ t ≤ 100
f (t) =
0 sinon

1. Déterminez k pour que f soit effectivement une densité de probabilité


Solution :
Z ∞ Z 100
f (t)dt = 1 ⇐⇒ kt2 (100 − t)2 dt = 1
−∞ 0

Lecture Notes in Computer Science and Technologies No 2, 2016


128 Vera Angelova
Z 100
1
(t4 − 2.102 t3 + 104 t2 )dt =
0 k
 5 4 3
 100
t t t 1
− 102 + 104 =
5 2 3 0 k
10 10 10
10 10 10 1
− + =
5 2 3 k
1010 1 3
= ⇐⇒ k = 9
30 k 10

2. Calculez l’espérance mathématique de la durée de vie d’un individu, puis l’écart-type.


Solution :
Z 100
E(X) = kt3 (100 − t)2 dt
0
 6 5 4
 100
t 2t 4t
= k − 2.10 + 10
6 5 4 0
 12 12 12

10 10 10
= k −2 +
6 5 4
12
3 10
= = 50.
109 60
D’autre part,
Z 100
2
E(X ) = kt4 (100 − t)2 dt
0
  100
t7 2t
6
4t
5
= k − 2.10 + 10
7 6 5 0
 14 14 14

10 10 10 3 1014 105
= k −2 + = 9 =3 .
7 6 5 10 105 105
p p q
25
Il s’ensuit que σ(X) = V ar(X) = E(X 2 ) − (E(X))2 = 10 7
.

3. Calculez la probabilité pour qu’un individu meure entre 30 et 60 ans


Solution :
Z 60
3 2
P (30 ≤ X ≤ 60) = 9
t (100 − t)2 dt
30 10
  60
3 t5 2t
4
4t
3
= − 10 + 10
109 5 2 3 30
3
= (15066 − 60750 + 63000)
105
51948
= = 0.51948 = 51.948%.
105
Lecture Notes in Computer Science and Technologies No 2, 2016
Eléments de la théorie des probabilités 129

Test sur le chapitre : Variable aléatoire continue (à den-


sité)
1. Donner la définition d’une variable aléatoire continue.

2. Comment on définit la probabilité d’un événement de type [a, b] ?

3. Exprimez la probabilité que la variable aléatoire à densité X prenne la valeur x dans


l’intervalle [a, b] ?

4. Quelles conditions doit vérifier une fonction f pour être densité de probabilité d’une
variable aléatoire continue ?

5. Quel est le lien entre densité et fonction de répartition ?

6. Connaissant la fonction de répartition F de X, comment calculer P (a < X < b) ?

7. Quelles formules permettent de calculer l’espérance et la variance d’une variable aléatoire


continue X de densité f ?

Lecture Notes in Computer Science and Technologies No 2, 2016


130 Vera Angelova

Chapitre 8

Lois (Distributions) de probabilité


continues particulières

8.1 Distribution uniforme continue X ∼ U[a; b]


Cette loi est l’analogue continu de l’équiprobabilité dans le cas discret. Elle permet de modéliser
le tirage d’un nombre aléatoire dans l’intervalle [a, b]. Un exemple de distribution uniforme
continue est le temps d’attente de l’autobus à une station et toute les variables aléatoires dont
les valeurs sont équiprobables et situées dans un intervalle.

Définition 73 On dit qu’une v.a. X suit une loi uniforme continue sur un intervalle
[a, b], si elle admet une fonction de densité de probabilité constante sur cet intervalle et
nulle ailleurs.

Notation : X ∼ U[a; b]

Densité de probabilité

Fonction de densité de probabilité Fonction de répartition

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 131

La loi uniforme continue étant une loi de probabilité, l’aire hachurée en rouge sur la figure
1
ci-dessus vaut 1. Ceci implique que la valeur prise par f (x) vaut b−a .
 1
(b−a)
, si x ∈ [a, b]
f (x) =
0, sinon

La fonction f est définie par la connaissance de [a, b].

Fonction de répartition

 0 si x≤a
x−a
F (x) = b−a
si a<x≤b

1 si x>b

Vérification En utilisant la définition de la fonction de répartition, on a :


Z x
P (X < x) = F (x) = f (t)dt
−∞

On en déduit :
Z x
si x ≤ a, F (x) = 0dt = 0
Z−∞
a Z x
1 x−a
si a ≤ x ≤ b, F (x) = 0dt + dt =
−∞ a b−a b−a
Z a Z b Z x
1
si x ≥ b, F (x) = 0dt + dt + 0dt = 1
−∞ a b−a b

Paramètres descriptifs Une distribution uniforme n’a pas de mode.


Sa médiane Me est définie par F (Me ) = 12 = Mb−a
e −a
=⇒ Me = a+b
2
.

a+b (b − a)2
E(X) = µ = ; V ar(X) = σ 2 = .
2 12
Vérification
• Espérance
Z b b
1 1 t2 1 b 2 − a2 a+b
E(X) = tdt = = = .
a b−a b−a 2 a b−a 2 2

• Variance
Z b
1 a2 + ab + b2 (a + b)2 (b − a)2
V ar(X) = (t − E(X))2 dt = − = .
a b−a 3 4 12

Lecture Notes in Computer Science and Technologies No 2, 2016


132 Vera Angelova

Exemple 8.1.1 Soit X une variable aléatoire continue uniforme définie sur le segment [1, 4],
c.-à-d. X ∼ U[1; 4]. La densité de probabilité de cette variable aléatoire est égale à :
 1
b−a
= 31 , si x ∈ [1, 4]
f (x) =
0, sinon

La fonction de répartition de la variable aléatoire X est



 0 si x ≤ 1
x−a
F (x) = = x−1 si 1 < x ≤ 4
 b−a 3
1, si x > 4

a+b 5 a+b (b−a)2


Les paramètres sont : Me = 2
= 2
= 2.5 ; E(X) = 2
= 2.5 ; V ar(X) = σ 2 = 12
=
(4−1)2 9
12
= 12 = 34 = 0.75.

Exemple 8.1.2 Pierre attend à la maison le technicien pour le TV qui doit venir entre 10 et 18
heures. Pierre a attendu jusqu’au 14 heures et il est sorti pour une heure. Trouver la probabilité
pour que le technicien ne trouve pas Pierre à la maison.
Solution :
De l’énoncé on accepte que le temps d’arrivée du technicien chez Pierre est une variable aléatoire
uniforme continue X ∼ U[14; 18]. La probabilité de ne pas trouver Pierre à la maison est
15 − 14 14 − 14 1
P (14 < X < 15) = F (15) − F (14) = − = .
18 − 14 18 − 14 4

8.2 Distribution normale (dite de Laplace - Gauss)


X ∼ N(µ, σ) ou X ∼ N(µ, σ 2)
Situation concrète : On rencontre souvent des phénomènes complexes qui sont le résultat de
causes nombreuses, d’effet faible, et plus ou moins indépendantes. Un exemple typique est celui
de l’erreur commise sur la mesure d’une grandeur physique. Cette erreur résulte d’un grand
nombre de facteurs tels que : variations incontrôlables de la température ou de la pression,
turbulence atmosphérique, vibrations de l’appareil de mesure, etc... Chacun des facteurs a un
effet faible, mais l’erreur résultante peut ne pas être négligeable. Deux mesures faites dans
des conditions que l’expérimentateur considère comme identiques pourront alors donner des
résultats différents.
Donc dès que nous serons dans une situation où la distribution dépend d’un grand
nombre de causes indépendantes, dont les effets s’additionnent et dont aucune
n’est prépondérante, alors nous serons en présence de la distribution normale.
C’est le cas, par exemple : erreurs de mesure, diamètres de pièces fabriquée en série, durées
d’un trajet, fluctuation accidentelles d’une grandeur économique (production, ventes, etc.) au-
tour de sa tendance, la distribution des erreurs d’observation et la distribution de phénomènes
aléatoires tels que la température et la pression en météorologie, la distribution de caractères

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 133

biométriques comme la taille ou le poids d’individus appartenant à une population homogène


en biologie...
Distribution de probabilité

Définition 74 Une v.a. X suit une loi normale si elle admet pour fonction de densité
de probabilité une fonction définie par :
1 1 x−µ 2
f (x) = √ e− 2 ( σ )
σ 2π
avec x ∈ R, µ un paramètre réel et σ un paramètre réel strictement positif.

On verra plus tard que µ est égal à l’espérance mathématique (ou moyenne) et σ à l’écart-
type de la distribution. La loi normale est donc entièrement définie par sa moyenne µ et son
écart-type σ appelés paramètres de la loi normale. R
On démontre que f est bien une fonction de densité de probabilité car R f (x)dx = 1. Pour le
R 2 √
démontrer on utilise que R e−x /2 dx = 2π (c’est l’intégrale de Gauss).
La loi normale étant tabulée, cette expression nous sera de peu d’utilité.

Notation : Deux manières différentes suivant les auteurs : X ∼ N(µ, σ) ou X ∼ N(µ, σ 2 ).


Dans ce manuel on va utiliser la notation X ∼ N(µ, σ).
Fonction de répartition :

Définition 75 La fonction de répartition, qui représente la probabilité que la variable


aléatoire X ait une valeur inférieure à x, a pour expression :
Z x "  2 #
1 1 t−µ
F (x) = P (X < x) = √ exp − dt.
2πσ −∞ 2 σ

La loi normale dépendant de deux paramètres, on pourrait penser que les tables de cette
loi sont à triple entrée (µ, σ et x) et, par conséquent, comme celle de la loi binômiale, fort
volumineuses et d’usage peu commode. Fort heureusement, il n’en est rien : de la connaissance
de la loi pour une valeur déterminée de µ et de σ, on peut déduire de façon très simple les
distributions de probabilité correspondant à n’importe quelle autre valeur de µ et de σ.

Forme La courbe de densité de probabilité de la loi de Laplace-Gauss se présente comme une


courbe symétrique à un seul mode x = µ. La courbe admet deux points d’inflexion ayant pour
abscisse respectivement µ − σ et µ + σ, ses branches extrêmes se raccordant tangentiellement
à l’axe des abscisses. Cette forme particulière lui a valu la dénomination de “courbe en cloche”
ou “courbe de Gauss”.

Lecture Notes in Computer Science and Technologies No 2, 2016


134 Vera Angelova

En fait il ne s’agit pas d’une courbe unique mais plutôt d’une famille de courbes dépendant de
µ et σ.

Ecarts types identiques, espérances −2, 0, 2 différentes

Espérances identiques, écarts types 0.5, 1, 2 différents

Les intervalles “Un, deux, trois sigma” Les observations sont groupées autour de la
moyenne :

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 135

50 % sont dans l’intervalle (µ − 23 σ, µ + 32 σ),


68 % sont dans l’intervalle (µ − σ, µ + σ),
95 % sont dans l’intervalle (µ − 2σ, µ + 2σ),
99,7 % sont dans l’intervalle (µ − 3σ, µ + 3σ).

Une variable normale a “95


chances sur 100 d’être située
entre : moyenne moins 2
écarts-types et moyenne plus
2 écarts-types” (la vraie va-
leur n’est pas 2 mais 1,96)

Une variable normale est


presque certainement située
entre : moyenne moins 3
écarts-types et moyenne plus
3 écarts-types.
En pratique, la quasi-totalité des unités sont donc rassemblées dans un intervalle de six écarts-
types autour de la moyenne.
La valeur de la moyenne détermine la position de la courbe : des courbes de même écart-
type se déduisent par translation. Suivant la valeur de l’écart-type, la distribution est plus ou
moins dispersée.

Courbes de densité de probabilité de la variable normale

Lecture Notes in Computer Science and Technologies No 2, 2016


136 Vera Angelova

suivant les valeurs des paramètres µ et σ

Par le changement de variable :

X −µ
Z=
σ
toutes ces courbes se réduisent à la courbe représentative de la variable normale centrée réduite
Z.

Forme de la loi normale : courbe de densité


de la variable normale centrée réduite

8.2.1 Caractéristiques de la loi normale


Mode. Du fait de la symétrie de la courbe de densité le mode est égal à la moyenne µ.

Espérance mathématique. L’espérance mathématique (ou moyenne) de la loi normale est


égale à µ :
E(X) = µ.
Le paramètre µ de la loi normale a donc une signification particulière : c’est la moyenne de la
distribution.

Variance. La variance de la loi normale est égale à σ 2 :

V ar(X) = σ 2 .

Ecart-type. L’écart-type de la loi normale est égal à σ :

σ(X) = σ.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 137

8.2.2 Probabilité attachée à un intervalle


La fonction de répartition d’une variable normale de paramètres (µ, σ) peut toujours s’exprimer
R t x2
à l’aide de la fonction de répartition F (t) = π(t) = √12π 0 e 2 dx dite fonction de Laplace ou
fonction de répartition de la loi normale centrée réduite. (Voir Table 6. à l’Annexe.) :
 
x−µ
P (X < x) = π
σ

Pour tout intervalle de bornes (a, b), éventuellement infinies, on a :


   
b−µ a−µ
P (a < X < b) = π −π
σ σ

Les valeurs π(t) de la fonction de répartition π de la variable normale centrée réduite se lisent
dans la table pour t :

Pour t < 0, on applique la formule de symétrie

π(t) = 1–π(–t)

en lisant π(–t) dans la table :

π(–0, 52) = 1–π(0, 52) = 1–0, 6985 = 0, 3015

Valeurs souvent utilisées (les seules à connaı̂tre, en pratique) :

π(1, 645) = 0, 9500, qui sert dans les tests unilatéraux à 5 %


. π(1, 96) = 0, 9750, qui sert dans les tests bilatéraux à 5 %.

Lecture Notes in Computer Science and Technologies No 2, 2016


138 Vera Angelova

8.2.3 Propriétés de la loi normale


On peut effectuer quelques remarques à propos de la loi normale.

1. La distribution est symétrique par rapport à la droite d’équation x = µ. Donc l’aire sous
la courbe de part et d’autre de cette droite est égale à 0.5.

2. La distribution est d’autant plus étalée que σ est grand.

3. L’axe des abscisses est une asymptote et l’aire sous la courbe à l’extérieur de l’intervalle
[µ − 3σ, µ + 3σ] est négligeable : P (µ − 3σ < X < µ + 3σ) = 0.9974. Dans la pratique,
si on reçoit des valeurs hors de cet intervalle, on peut les considérer comme des erreurs.
Ces observations doivent être répétées.

4. σ représente la différence des abscisses entre le sommet de la courbe et le point d’inflexion.

5. La longueur à mi-hauteur de la courbe (L.M.H. ou en anglais F.W.H.M. Full Width


Half Maximum) vaut 2.35σ. Cette distance est souvent employée par le spectroscopiste
pour déterminer expérimentalement σ. Cette méthode doit cependant être utilisée avec
précaution car il faut s’assurer que les “bruits” permettent d’observer correctement le
“pied” de la courbe.

8.2.4 Stabilité de la loi normale

Théorème 10 Soient X1 et X2 deux variables p indépendantes. Si X1 suit N(µ1 , σ1 ) et


X2 suit N(µ2 , σ2 ), alors X1 + X2 suit N(µ1 + µ2 , σ12 + σ22 ).

8.3 Distribution normale centré réduite ou loi normale


standardisée Z ∼ N(0, 1)

A toute variable aléatoire X, on peut associer une variable dite standardisée X−E(X) σ(X)
d’espérance
nulle et de variance unité (ceci résultait des propriétés de translation et de changement d’échelle).
On montre assez facilement que si on effectue cette transformation sur une variable suivant une
loi normale, la variable standardisée suit encore une loi normale mais cette fois-ci de paramètres
0 et 1. La loi standardisée est appelée loi normale centrée réduite, et notée N(0, 1). Donc si X
suit N(µ, σ), on pose Z = X−µ σ
et Z suit N(0, 1).
On peut résumer la correspondance de la façcon suivante :

X → N(µ, σ) Z → N(0, 1)
X−µ
E(X) = µ Z= σ
E(Z) = 0
V ar(X) = σ 2 V ar(Z) = 1

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 139

Il faut garder à l’esprit que concrètement Z est le nombre d’écarts-type entre la valeur de X et
la moyenne.

Définition 76 On appelle loi normale centré réduite, la distribution normale de moyenne


nulle et de variance égale à 1.

8.3.1 Notation : Z ∼ N(0, 1)

8.3.2 Fonction de densité de Z :


1 t2
f (t) = √ e− 2

2
1. La fonction : f (t) = √1 e−t /2 est paire, c’est-à-dire :

f (−t) = f (t).

La courbe de densité de probabilité est donc symétrique par rapport à la droite d’abscisse
t = 0.
2. En raison de la symétrie f (t) est maximum pour t = 0. On vérifie que la dérivée
1 2
f ′ (t) = − √ t e−t /2 ,

s’annule pour t = 0 (ainsi que pour t → ±∞),
3. La courbe de densité de probabilité a deux points d’inflexion pour t = −1 et t = +1.
La variable normale de moyenne µ et d’écart-type σ, qui se déduit de la variable centrée
réduite par la transformation linéaire :

x = σ t + µ,

a une courbe de densité de probabilité symétrique par rapport à µ (t = 0) et deux points


d’inflexion pour x = µ − σ (t = −1) et x = µ + σ (t = +1).

8.3.3 Fonction de répartition de Z :

On appelle fonction π, la fonction de répartition d’une variable normale réduite Z telle


que :

π : R→R Z Z
t t
1 2 /2
t → π(t) = F (t) = P (Z < t) = f (x)dx = √ e−x dx.
−∞ 2π −∞

Lecture Notes in Computer Science and Technologies No 2, 2016


140 Vera Angelova

[12]

La fonction de répartition π(t) est représentée par la courbe cumulative. Le point d’inflexion A
de celle-ci, comme celui de toute courbe cumulative, correspond au maximum de la courbe de
densité de probabilité, c’est-à-dire au mode de la distribution. La valeur π(t0 ) de la fonction de
répartition étant la somme de toutes les probabilités élémentaires correspondant aux valeurs de
Z inférieures à t0 , est égale à l’aire hachurée comprise entre la courbe de densité de probabilité
et l’axe des abscisses.
En raison de la symétrie de la fonction de densité, si t est un réel strictement positif, alors :

π(−t) = 1 − π(t),

la courbe cumulative est symétrique par rapport au point d’inflexion A(0; 0.5).
La fonction π est tabulée.

8.3.4 Paramètres descriptifs

E(Z) = 0, V ar(Z) = 1, σ = 1.

Mode et Médiane Le Mode Mo , la médiane Me et la moyenne µ d’une variable aléatoire


continue normale centrée réduite coı̈ncident : Mo = Me = µ = 0.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 141

Quantile : Le quantile tp , (0 < p < 1) est la valeur de Z telle que π(tp ) = p.


Les quantiles d’une variable aléatoire sont les valeurs qui prend la variable pour des valeurs de
probabilité sous le quantile considéré.

Quartile : En Statistique descriptive, un quartile est chacune des 3 valeurs qui divisent
les données en 4 parts égales, de sorte que chaque partie représente 1/4 de l’échantillon de
population.
Calcul des quartiles :
• le 1er quartile sépare les 25% inférieurs des données ;
• le 2e quartile est la médiane de la série ;
• le 3e quartile sépare les 25% supérieurs des données ;
La différence entre le 3e quartile et le 1er quartile s’appelle écart interquartile, c’est un critère
de la dispersion de la série.

8.3.5 Probabilité d’intervalles


Intervalle du type [a, b]
A l’aide des valeurs dans la table nous pouvons calculer la probabilité d’un événement du type :
a≤Z≤b
P (a ≤ Z ≤ b) = P (Z ∈ [a, b]) = π(b) − π(a)

Intervalle du type [−t, t]


P (−t ≤ Z ≤ t) = 2P (0 ≤ Z ≤ t) = 2(π(t) − 0, 5)
Vérification
P (−t ≤ X ≤ t) = F (t) − F (−t) = π(t) − π(−t) mais comme π(−t) = 1 − π(t)
= π(t) − (1 − π(t)) = 2π(t) − 1 = 2(π(t) − 0.5).

8.3.6 Intervalles remarquables :

P (−1 ≤ Z ≤ 1) = 0, 683
P (−2 ≤ Z ≤ 2) = 0, 954
P (−3 ≤ Z ≤ 3) = 0, 997

8.3.7 Intervalle centré en 0 de probabilité donnée


Soit α un niveau de probabilité (0 < α < 1).
Recherchons l’intervalle [−t, t] centré en 0 tel que P (−t < Z < t) = 1 − α.
Comme P (−t < Z < t) = 2π(t) − 1, pour P (−t < Z < t) = 1 − α on obtient 2π(t) − 1 = 1 − α
=⇒ π(t) = 1 − α2 . A l’aide des tables nous pouvons déterminer Z = tα tel que π(tα ) = 1 − α2 .

Lecture Notes in Computer Science and Technologies No 2, 2016


142 Vera Angelova

8.3.8 Cas particuliers :


α
α Z ∼ N(0.1) 1− 2

0.20 P (−1.282 < Z < 1.282) = 0.80 0.9


0.10 P (−1.645 < Z < 1.645) = 0.90 0.95
0.05 P (−1.96 < Z < 1.96) = 0.95 0.975
0.01 P (−2.576 < Z < 2.576) = 0.99 0.995
Donc, on peut mentionner deux valeurs très utiles qu’il faut connaı̂tre :

t0.05 ≈ 1.96, et t0.01 ≈ 2.58 ( à 102 près)

t0.05 est le réel pour lequel P (−t0.05 ≤ Z ≤ t0.05 ) = 0.95 et on a donc : P (−1.96 ≤ Z ≤ 1.96) ≈
0.95 de même, P (−2.58 ≤ Z ≤ 2.58) ≈ 0.99. Cela donne une idée de la répartition des valeurs
de Z. Environ 95% des réalisations de Z se trouvent entre -1.96 et +1.96.

8.3.9 Lien entre la loi N(µ, σ) et la loi N(0, 1)

Si X ∼ N(µ, σ) et Z ∼ N(0, 1), on peut passer de la loi N(µ, σ) à la loi N(0, 1) et inversement
en posant Z = (X − µ)/σ, ce qui entraı̂ne X = σZ + µ.
Cela revient à changer d’origine et d’unité.
Les lois gaussiennes quelconques ne sont pas dans les tables car un calcul relatif à une telle
loi se ramène à un calcul relatif à la loi gaussienne réduite.
La loi N(0, 1) est tabulée à l’aide de la fonction
R t 1 −xde répartition des valeurs positives. Elle
2 /2
donne les valeurs de π(t) = P (0 ≤ Z ≤ t) = 0 √2π e dx pour t > 0. Ce nombre représente
l’aire sous la courbe représentative de la distribution et au dessus de l’intervalle [0, t]. Pour
cette raison la table de la loi normale est aussi appelée table d’aires. Cette table ne dépend
d’aucun paramètre, mais permet cependant de déterminer les probabilités de n’importe quelle
distribution normale !
On a par exemple pour X ∼ N(µ, σ) :
   
x−µ x−µ
P (X ≤ x) = P (σZ + µ ≤ x) = P Z≤ =π . (8.1)
σ σ

De manière analogue

P (|X| ≤ x) = P (−x ≤ X ≤ x) = P (−x ≤ σZ + µ ≤ x)


     
x+µ x−µ x−µ x+µ
= P − ≤Z≤ =π −π − . (8.2)
σ σ σ σ

On utilise souvent la propriété énoncée en 8.2.4 Stabilité de la loi normale.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 143

8.3.10 Détermination pratique des probabilités : usage des tables de


la loi normale

Par le changement de variable :


X −µ
Z= ,
σ
toutes les distributions normales se ramènent à une seule : celle de la variable normale centrée
réduite Z. C’est pour celle-ci que les fonctions de densité de probabilité et de répartition ont
été calculées et font l’objet de tables que l’on trouvera en annexe.

A. Table de la densité de probabilité f (t) - Table 5. à l’Annexe


1. Description
Cette table donne la densité de probabilité f (t) correspondant aux valeurs positives de la
variable normale centrée réduite variant de dixième en dixième : t = 0.0; 0.1; . . . ; 3.9. Les
unités se lisent en ligne et les dixièmes en colonne (annexe : Table 5.)

Exemple 8.3.10.1 Pour t = 1.3 la densité de probabilité est : f (1.3) = 0.1714.

Valeurs de t négatives
En raison de la symétrie de la courbe de densité, la table permet de déterminer les densités
correspondant à des valeurs négatives de t :

f (−t) = f (t).

Exemple 8.3.10.2 Pour t = −2.8, la densité de probabilité est :

f (−2.8) = f (2.8) = 0.0079.

Lecture Notes in Computer Science and Technologies No 2, 2016


144 Vera Angelova

La loi normale étant une distribution continue, les densités correspondant à des valeurs de t
intermédiaires de celles figurant dans la table sont obtenues par interpolation linéaire.

Exemple 8.3.10.3 Pour t = 1.36, la densité de probabilité sera évaluée de la façon suivante :

f (1.3) = 0.1714;
f (1.4) = 0.1497;
(f (1.3) − f (1.4)) ∗ 6 (0.1714 − 0.1497) ∗ 6
f (1.36) = f (1.3) − = 0.1714 − = 0.1584.
10 10

2. Utilisation
Le changement de variable :
X −µ
Z=
σ
permet de déterminer à l’aide de la table, la densité de probabilité correspondant à une valeur
quelconque de la variable normale X de moyenne µ et d’écart-type σ.
Pour X = x, la densité de probabilité est, en effet :
"  2 #
1 1 x−µ
f (x) = √ exp − ,
2πσ 2 σ

alors que celle de la valeur correspondante de la variable normale centrée réduite est :
1 2
f (t) = √ e−t /2 .

Il existe donc entre les densités de probabilité de x et de t la relation :
f (t)
f (x) = .
σ

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 145

Exemple 8.3.10.4 Soit X une variable normale de moyenne µ = 5 et d’écart-type σ = 2.


Recherchons la densité de probabilité pour X = 8 et X = 4.52.

Pour X = 8, la variable normale centrée réduite a pour valeur :

t = (8 − 5)/2 = 1.5.

Par consultation de la Table 5. :

f (t) = f (1.5) = 0.1295

d’où
f (t)
f (x) =
σ
0.1295
f (8) = = 0.0648.
2
Pour X = 4.52 :

t = (4.52 − 5)/2 = −0, 24,


f (t) = f (−0.24) = f (0.24).

Par interpolation linéaire :

f (0.20) = 0.3910
f (0.30) = 0.3814
(0.3910 − 0.3814)4
f (0.24) = 0.3910 − = 0.3872,
10
d’où :
0.3872
f (4.52) = = 0.1936.
2

B. Table de la fonction de répartition π(t) - Table 6. à l’Annexe


1. Description

Lecture Notes in Computer Science and Technologies No 2, 2016


146 Vera Angelova

Cette table donne, pour toute valeur positive t de la variable normale centrée réduite, la valeur
correspondante de la fonction de
répartition π(t), représentée par l’aire
hachurée, qui est égale à la probabilité
pour que Z soit inférieur à t :

π(t) = P (Z < t).

Les valeurs de t varient de centième en centième : z = 0.00; 0.01; 0.02; . . . Les unités et les
dixièmes se lisent en ligne ; les centièmes en colonne (annexe : Table 6.)
• Probabilité pour que Z soit inférieur à t

Exemple 8.3.10.5 La probabilité pour que Z soit inférieur à 1.32 est :

P (Z < 1.32) = π(1.32) = 0.9066.

• Probabilité pour que Z soit supérieur à t


L’aire totale comprise entre la courbe et l’axe des abscisses représente la somme des probabilités
de la loi normale et est égale à 1. On a donc :

P (Z ≥ t) = 1 − P (Z < t) = 1 − π(t).

Exemple 8.3.10.6 La probabilité pour que Z soit supérieur ou égal à 0.28 est :

P (Z ≥ 0.28) = 1 − π(0.28) = 1 − 0.6103 = 0.3897.

• Valeurs de t négatives

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 147

En raison de la symétrie de la courbe, la


table permet de déterminer la fonction de
répartition pour les valeurs négatives de t :

P (Z < −t) = P (Z ≥ t) = 1 − P (Z < t),


π(−t) = 1 − π(t).

Exemple 8.3.10.7 La probabilité pour que Z soit inférieur à —0.77 est :

P (Z < −0.77) = π(−0.77) = 1 − π(0.77) = 1 − 0.7794 = 0.2206.

2. Utilisation
Le changement de variable :

X −µ
Z=
σ
permet de déterminer à l’aide de la table la probabilité pour qu’une variable normale X de
moyenne µ et d’écart-type σ soit inférieure à une valeur donnée x, ou supérieure à cette valeur,
ou comprise entre deux valeurs déterminées x1 et x2 .
En effet :

P (X < x) = P (Z < t) = π(t).

Dans chaque cas particulier, un graphique facilite beaucoup le raisonnement.

Exemple 8.3.10.8 Soit X une variable normale de moyenne µ = 5 et d’écart-type σ = 2.

• Probabilité pour que X soit inférieur à 9.


La valeur de la variable normale centrée
réduite correspondant à X = 9 est :

9−5
t= = 2.
2
P (X < 9) = P (Z < 2) = π(2)
= 0.9772.

Lecture Notes in Computer Science and Technologies No 2, 2016


148 Vera Angelova

• Probabilité pour que X soit supérieur ou égal à 8.36.

8.36 − 5
t= = 1.68.
2
P (X ≥ 8.36) = P (Z ≥ 1.68)
= 1 − P (Z < 1.68)
= 1 − π(1.68)
= 1 − 0.9535 = 0.0465.

• Probabilité pour que X soit compris entre 6 et 8.

6−5 8−5
t1 = = 0.5, t2 = = 1.5,
2 2
P (6 ≤ X < 8)
= P (0.5 ≤ Z < 1.5)
= P (Z < 1.5) − P (Z < 0.5)
= π(1.5) − π(0.5)
= 0.9332 − 0.6915
= 0.2417.

• Probabilité pour que X soit compris entre 1 et 7.

1−5 7−5
t1 = = −2, t2 = = 1,
2 2

P (1 ≤ X < 7)
= P (−2 ≤ Z < 1)
= P (Z < 1) − P (Z < −2)
= P (Z < 1) − [1 − P (Z < 2)]
= π(1) − [1 − π(2)]
= 0.8413 − 0.0228 = 0.8185.

Règle de calcul de probabilités

Dans l’utilisation de la table de la loi normale standardisée N(0; 1), on aura des calculs de
probabilités à faire. On les fera avec les règles suivantes :

P (X = a) = 0
P (X < a) = P (X ≤ a)
P (X > a) = 1 − P (X ≤ a)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 149

P (X ≤ −a) = P (X ≥ a) = 1 − P (X < a)
P (−a ≤ X ≤ a) = 2P (X ≤ a) − 1
Les trois premières règles sont vraies pour toute v.a. X à densité (car pour ces lois les points
sont négligeables). Les deux dernières sont vraie pour toute loi symétrique (c.à.d avec densité
paire : f (−t) = f (t), comme la loi normale ou (cf. après) la loi de Student mais pas la loi du
χ2 ).

Utilisation de la table de la fonction de répartition de la loi normale centrée réduite


Table 6. à l’Annexe [11]
Cette table nous donne
P (Z < t) = π(t)
La I ere valeur de t donnée par la table est t = 0.
Comme nous l’avons vu pour t = 0, P (Z < 0) = π(0) = 0.50.

1. P (Z < 1.47). En lisant directement la table (ligne 1.4 et colonne 0.07), nous avons
P (Z < 1.47) = π(1.47) = 0.9292,
2. P (Z > 1.47) = 1 − P (Z < 1.47) = 1 − 0.9292 = 0.0708.
3. P (Z < −0.66). La table ne donne P (Z < t) que pour t > 0. Lorsque t < 0, il faut utiliser
la caractéristique de f (t) qui est symétrique par rapport à E(z) = µ = 0,
P (Z < −0.66) = π(−0.66) = 1 − π(0.66) = 1 − 0.7454 = 0.2546
4. P (Z > −0.66) = P (Z < 0.66) = π(0.66) = 0.7454. Tout ceci en raison de la symétrie par
rapport à E(z) = 0.
5. P (0.56 < Z < 1.24)
P (0.56 < Z < 1.24) = P (Z < 1.24) − P (Z < 0.56)
= π(1.24) − π(0.56) = 0.8925 − 0.7123
= 0.1802
6. P (−2 < Z < 2)
P (−2 < Z < 2) = π(2) − π(−2) = π(2) − (1 − π(2))
= π(2) − 1 + π(2)
= 2π(2) − 1 = 2 × 0.9772 − 1 = 0.9544
7. P (Z < 1.5 ou Z > 2.3) : 2 solutions sont possibles :
◦ P (Z < 1.5 ou Z > 2.3) = P (Z < 1.5) + P (Z > 2.3)
= π(1.5) + 1 − π(2.3)
= 0.9332 + 1 − 0.9893 = 0.9439
◦ P (Z < 1.5 ou Z > 2.3) = 1 − P (1.5 < Z < 2.3)
= 1 − (π(2.3) − π(1.5))
= 1 − 0.9893 + 0.9332 = 0.9439

Lecture Notes in Computer Science and Technologies No 2, 2016


150 Vera Angelova

8. Calculer t sachant que P (Z < t) = 0.8508.


La probabilité est supérieure à 0.5 ⇒ t > 0.
En lisant directement la table, on voit que pour t = 1.04, π(t) = 0.8508.

9. Calculer t sachant que P (Z < t) = 0.0116.


La probabilité est inférieure à 0.5 ⇒ t < 0.
On sait que π(−t) = 1 − π(t) = 0.0116

⇒ π(t) = 1 − 0.0116 = 0.9884 ⇒ t = 2.27


⇒ t = −2.27

10. Calculer t sachant que P (Z > t) = 0.123.


On sait que P (Z > t) = 1 − P (Z < t) = 1 − π(t) = 0.123

⇒ π(t) = 1 − 0.123 = 0.877 ⇒ t = 1.16

11. Calculer t1 et t2 sachant que t2 = −t1 et que P (t1 < Z < t2 ) = 0.903.

Comme t2 = −t1
⇒ π(t2 ) − π(t1 ) = π(t2 ) − π(−t2 )
= π(t2 ) − (1 − π(t2 ))
= 2π(t2 ) − 1 = 0.903
⇒ 2π(t2 ) = 1.903 ⇒ π(t2 ) = 0.9515
⇒ t2 = 1.66; t1 = −1.66

Exemples de calcul sur une loi normale

Exemple 8.3.10.9 La v.a. X = “poids d’un foie gras”, suit une loi N(550; 100). Quelle est la
probabilité pour qu’un foie gras pèse moins de 650g, plus de 746g, moins de 500g, entre 550 et
600g ?
 
650 − 550
P (X < 650) = P Z < = P (Z < 1) = π(1) = 84.13%
100
 
746 − 550
P (X > 746) = P Z > = P (Z > 1, 96)
100
= 1 − π(Z ≤ 1.96) = 1 − π(1.96) = 1 − 0.9750 = 2.5%
 
500 − 550
P (X < 500) = P Z < = P (Z < −0.5) = π(−0.5)
100
= 1 − π(0.5) = 1 − 0.6915 = 30.85%
P (550 < X < 600) = P (0 < Z < 0.5) = π(0.5) − π(0) = 0.8413 − 0.5 = 34.13%

Rappelons que pour une variable continue, il n’y a pas de différence entre P (X < k) et P (X ≤ k)
car la probabilité attachée à la valeur k est nulle.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 151

Exemple 8.3.10.10 Lors d’un procès en attribution de paternité, un expert témoigne que la
durée de la grossesse, en jours, c’est-à-dire le laps de temps entre la conception et la nais-
sance de l’enfant, est de distribution approximativement normale avec paramètres µ = 270 et
σ 2 = 100. L’un des pères putatifs est en mesure de prouver son absence du pays pendant une
période s’étendant entre le 290-ème et le 240-ème jour précédent l’accouchement. Quelle est la
probabilité que la conception ait eu lieu à ce moment ?
Solution :

P (X > 290 ∪ X < 240) = P (X > 290) + P (X < 240)


   
X − 270 X − 270
= P >2 +P < −3
10 10
= P (Z > 2) + P (Z < −3) = 1 − P (Z < 2) + 1 − P (Z < 3)
= 2 − π(2) − π(3) = 2 − 0.9772 − 0.99865 = 0.02415,

après consultation de la table fournissant certaines valeurs de la loi normale centrée réduite.

Test sur le chapitre : Lois (Distributions) de probabilité


continues particulières
1. Décrivez la loi uniforme continue. Pour une variable aléatoire continue X, qui suit la loi
uniforme sur l’intervalle [a, b], donnez la fonction de répartition f (x).

2. Décrivez la situation du phénomène pour que la distribution de la variable aléatoire corres-


pondante soit indiquée comme normale.

3. Expliquez les paramètres µ et σ de la notation N(µ, σ) de la loi normale.

4. Décrivez la loi normale standardisée

Lecture Notes in Computer Science and Technologies No 2, 2016


152 Vera Angelova

Chapitre 9

Conditions d’application de la loi


normale. Convergence en loi

9.1 Loi des grands nombres

Théorème 11 - (Loi forte des grands nombres) - Soit X1 , X2 , . . ., Xn , . . . une


suite infinie de variables aléatoires indépendantes obéissant toutes à une même loi de
probabilité ayant une espérance mathématique µ. Alors avec une probabilité égale à 1, la
suite des variables aléatoires
X1 + . . . + Xn
X̄n =
n
tend vers µ lorsque n augmente indéfiniment.

Ce résultat est d’une grande importance car c’est lui qui permet de relier la théorie à la
pratique. Nous avons jusqu’à présent construit un modèle mathématique basé sur une notion
abstraite, celle de probabilité, et nous en avons déduit la notion d’espérance mathématique. La
loi forte des grands nombres montre que, si un nombre X qui dépend du hasard se conforme
à ce modèle mathématique, c’est-à-dire peut être considéré comme une variable aléatoire, on
peut mesurer son espérance mathématique : Il suffit de faire une suite de tirages
indépendants X1 , . . . , Xn , . . . de ce nombre X et on verra peu à peu la suite cor-
respondante des moyennes X̄n se stabiliser autour d’une certaine valeur. C’est
cette valeur qui est l’espérance mathématique de X. Cette régularité s’observe aussi
expérimentalement de la façon suivante : En plusieurs occasions différentes, on fait un grand
nombre de tirages indépendants de X. Alors, et quoique les valeurs prises par X puissent être
très différentes les unes des autres, les moyennes des valeurs prises sont à peu près les mêmes
dans ces diverses occasions. Cela s’explique ainsi : La première occasion conduit aux m obser-
vations X1 , . . ., Xm , la seconde aux n observations X1′ , . . ., Xn′ . Alors, si m et n sont grands,

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 153

les 2 moyennes
X1 + . . . + Xm X1′ + . . . + Xn′
X̄m = et X̄n =
m n
sont toutes deux proches du même nombre E(X) et sont, par suite, proches l’une de l’autre.

9.2 Le théorème de la limite centrale (ou théorème cen-


tral limite, T.C.L.)
Soit X une variable aléatoire d’espérance mathématique µ. La loi forte des grands nombres
indique que, si l’on prend un échantillon de grande taille (X1 , . . . , Xn ) de cette variable aléatoire,
la moyenne X̄ = n1 (X1 + . . . + Xn ) est, en général, assez proche de µ. Nous aurons besoin, en
Statistique, de préciser ceci, c’est-à-dire d’avoir une idée de la grandeur de |X̄ − µ|. Nous nous
servirons pour cela du théorème de la limite centrale.
Ce théorème montre encore que, bien souvent, la loi d’une variable aléatoire X est approxi-
mativement une loi gaussienne.

Théorème 12 - Théorème central-limite /TCL/


Si X1 , X2 , . . . , Xi , . . . , Xn sont n variables aléatoires indépendantes suivant une même loi
de probabilité de paramètres connus µ1 , µ2 , . . ., µn et σ1 , σ2 , . . ., σi , . . ., σn , la variable
aléatoire Y définie comme la somme de ces n variables aléatoires indépendantes tend à
suivre une loi normale dès que n est grand.

Y = X1 + X2 + . . . + Xi + . . . + Xn →n→∞ N(µ, σ)
P P
avec µ = i µi et σ 2 = i σi2
ou, avec une conclusion formulée autrement
Y −µ
→ N(0, 1).
σ

Le TCL sera très précieux puisqu’il nous explique que si on fait la somme d’un très
grand nombre de variables aléatoires de loi quelconque, cette somme suit approxi-
mativement une loi normale (en fait, sans rentrer dans le détail des hypothèses, il
nous dit que la variable X = X1 + X2 + . . . + Xn tend à suivre une loi normale quand
n tend vers l’infini).
D’une part, cela nous permet de comprendre pourquoi autant de distributions observées
dans la réalité ont approximativement cette forme de cloche : elles décrivent des phénomènes qui
résultent de l’addition d’un grand nombre de causes de fluctuation indépendantes. Exemple :
la taille d’un individu.
D’autre part, cela nous permettra d’approcher beaucoup de lois par une loi normale, pour
peu que la variable étudiée s’exprime comme une somme d’un grand nombre de variables
indépendantes.

Lecture Notes in Computer Science and Technologies No 2, 2016


154 Vera Angelova

C’est le cas notamment de la variable binômiale (somme de n variables de Bernoulli indépendantes),


dont la loi “tend à prendre la forme d’une cloche” quand n augmente.
Cela reste possible même quand on ne connaı̂t pas la loi des variables Xi .

9.3 Approximation de la loi binômiale par la loi normale


Nous avons vu que la loi binomiale B(n, p) est d’autant plus symétrique que p est proche de
0.5 et qu’elle prend une forme en cloche quand n augmente (d’autant plus vite que p est proche
que 0,5 . . .)
Le TCL donne une justification à ce phénomène. [12]
Soit une variable aléatoire binomiale X = B(n, p) dont le paramètre n croı̂t indéfiniment, p
n’étant pas trop voisin de 0, ni de 1. Dans ces conditions, la loi binômiale tend vers la loi

normale de paramètres µ = np et σ = npq :

B(n, p) → N(np, npq).

L’approximation d’une loi binômiale par la loi normale a pour origine le théorème de Moivre-
Laplace :

Théorème 13 Théoréme de Moivre-Laplace :


Si une variable aléatoire X obéit à la loi binômiale B(n, p), le produit np(1 − p) étant
grand, la variable aléatoire
X − np
p
np(1 − p)
obéit à une loi qui est proche de la loi gaussienne réduite, c.a.d. √X−np →n→+∞ N(0, 1).
np(1−p)

L’approximation n’est valable que si n est élevé.


Le théorème de Moivre-Laplace est un cas particulier du théorème central-limite.
La loi normale est souvent utilisée comme approximation de la loi binomiale, notamment dans
le domaine des sondages. La table π(t) sert à évaluer la probabilité pour que la valeur de la
variable binomiale se trouve à l’intérieur d’un intervalle déterminé.
Rémarques :

1. A partir de quelle valeur de n l’approximation est-elle valable ? La convergence est rapide


si p = 0.5. Elle est d’autant plus lente que p est différent de cette valeur. Il est souvent
admis que l’approximation devient valable si

npq > 9
ou n > 20 et np > 10 et nq > 10
ou n > 30 et np > 5 et nq > 5
ou n ≥ 30 et np ≥ 15 et nq > 5.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 155

2. L’approximation pose le problème du passage d’une loi discrète à une loi continue.
La loi binômiale étant discrète et la loi normale étant continue, on ne peut approximer
P (X = k) par P (Z = k) où Z suit la loi normale centrée réduite : en effet, P (Z = k) est
toujours nul.
On doit donc substituer à une valeur discrète un intervalle continu. On doit remplacer
k par l’intervalle [k − 0.5, k + 0.5]. Cette substitution est qualifiée de correction de
continuité.
Par exemple la valeur 8 est remplacée par l’intervalle [7.5; 8.5] et P (X = 8) = P (7.5 <
Z < 8.5).

Correction de continuité Graphiquement, remplacer une variable discrète par une variable
continue revient à substituer un histogramme au diagramme en bâtons. Dans cet histogramme,
la probabilité Px est représentée par un rectangle dont la base, de longueur unité, est centrée
sur la valeur x et dont la hauteur est égale à Px .

Diagramme en bâtons

Histogramme binômial et courbe normale.


Approximation de la loi binômiale par la loi normale
Correction de continuité

D’une façon générale :

P (x1 ≤ X ≤ x2 )
1
est représentée par la somme des aires des rectangles représentatifs entre x1 − 2
et x2 + 21 .

Lecture Notes in Computer Science and Technologies No 2, 2016


156 Vera Angelova

Dans l’approximation normale, on substitue à l’histogramme la courbe normale. En effet, si


les conditions de convergence sont remplies, il y a sensiblement compensation entre les parties
ajoutées ou retranchées à chacun des rectangles. Il n’en reste pas moins que la somme des
probabilités doit être calculée sur l’intervalle (x1 − 12 , x2 + 21 ) et non sur l’intervalle (x1 , x2 )
   
1 1
P (x1 ≤ X ≤ x2 ) = F x2 + −F x1 −
2 2

Cette correction des limites de l’intervalle d’intégration est appelée correction de continuité.
Son incidence est d’autant plus importante que les limites x1 et x2 sont plus proches de la
moyenne µ = np et que l’écart-type est plus petit.

Remarques :

Les règles à utiliser pour cette correction s’énoncent comme suit :

Loi discrète Loi continue


X ∼ B(n, p) ou P (λ) ≈cc N(µ, σ)

P (X = a) P (a − 0.5 ≤ Z ≤ a + 0.5)

P (a ≤ X ≤ b) P (a − 0.5 ≤ Z ≤ a + 0.5)

P (x ≤ a) P (Z ≤ a + 0.5)

P (x ≥ a) P (Z ≥ a − 0.5)

P (X > a) = P (X ≥ a + 1) P (Z ≥ a + 0.5)

P (X < a) = P (X ≤ a − 1) P (Z ≤ a − 0.5)

P (a < X < b) P (a + 0.5 ≤ Z ≤ b − 0.5)

P (a < X ≤ b) P (a + 0.5 < Z < b + 0.5)

Dans le cas où l’intervalle considéré pour X englobe une grande partie de l’étendue totale,
la correction n’a pas beaucoup d’influence.

Exemple 9.3.1 D’après une étude réalisée auprès des assurés d’une compagnie, il semble que
30% des assurés sont intéressés par un nouveau contrat pour renforcer leur protection en cas
d’accident corporel de la vie quotidienne. Le responsable interroge 70 assurés choisis au hasard
afin de connaı̂tre leur réaction sur ce nouveau contrat.
1) Quelle est la probabilité que 15 assurés se déclarent intéressés par ce nouveau contrat ?

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 157

X : le nombre d”assurés intéressés par le nouveau contrat

k
Loi exacte : X ∼ B(n = 70; p = 0.3) ; P (X = k) = C70 0.3k 0.730−k k = 0, 1, . . . , 70

15
P (X = 15) = C70 0.315 0.755 = 0.031292174 = 3.13%

2) Quelle est la probabilité qu’au plus 20 assurés se déclarent intéressés par ce nouveau contrat ?

20
X 20
X
k
P (X ≤ 20) = P (X = k) = C70 0.3k 0.770−k = 0.455020367 = 45.50%
k=0 k=0

3) Par quelle loi continue peut-on approcher la loi de X ? En déduire les valeurs approchées des
probabilités précédentes.

n = 70; p = 0.3(< 1/2); np = 21(> 15) (Les conditions sont respectées)


X ∼ B(n = 70; p = 0.3) ≈ N(µ = np = 21; σ = npq = 3.83)

Les valeurs approchées (cf. table N(0, 1)) :

P (X = 15) ≈C.C. P (14.5 ≤ X ≤ 15.5) = P (−1.697 ≤ U ≤ −1.436)


= π(−1.436) − π(−1.697) = π(1.697) − π(1.436)
= 0.03070693 = 3.07%
P (X ≤ 20) ≈C.C. P (X ≤ 20.5) = P (U ≤ −0.13054) = 1 − π(0.13054)
= 0.448120 = 44.81%

Lecture Notes in Computer Science and Technologies No 2, 2016


158 Vera Angelova

Valeurs approchées : Valeurs exactes :


P (X = 15) ≈C.C. P (14.5 ≤ X ≤ 15.5) = 3.07% B(70, 0.3)
P (X ≤ 20) ≈C.C P (X ≤ 20.5) = 44.81% k P (X = k) F (X)
0 1.43504 E -11 1.43504E-11
1 4.30511E-10 4.44861E-10
: : :
14 0.019557609 0.041269669
15 0.031292174 0.072561843
: : :
20 0.101515566 0.455020367
: : :
70 2.50316E-37 1

Exemple 9.3.2 [12] On tire un échantillon de taille n = 40 dans une population comportant
une proportion p = 0.4 d’individus présentant un certain caractère A. Évaluons la probabilité
d’avoir dans l’échantillon un nombre d’individus X présentant ce caractère, supérieur ou égal
à 16 et strictement inférieur à 20 :
P (16 ≤ X < 20).
Le nombre X d’individus présentant le caractère A est une variable binômiale d’espérance

mathématique np = 16 et d’écart-type npq = 3.1. Cette loi binômiale peut être approchée
par la loi normale ayant même espérance mathématique et même écart-type.
S’agissant de l’approximation d’une variable discrète, ne pouvant prendre que certaines
valeurs entières, par une variable continue, une attention particulière doit être d’abord apportée
aux limites de l’intervalle dont on recherche la probabilité.
En effet, si X est une variable continue, il importe peu que la limite de l’intervalle soit
X < 20 ou X ≤ 20,
la probabilité que X soit rigoureusement égale à 20 étant nulle (seule la probabilité que X soit
compris dans un intervalle infinitésimal entourant le point d’abscisse 20 a une valeur infiniment
petite, mais non nulle). Par contre, si X est une variable discrète, écrire :
X < 20
signifie :
X ≤ 19,
la variable X ne pouvant prendre aucune autre valeur entre 19 et 20.
Dans l’approximation normale, nous devons donc déterminer en réalité :
P (16 ≤ X ≤ 19).
Les valeurs de la variable normale centrée réduite correspondant à 16 et 19 sont :
16 − 16 19 − 16
z1 = = 0., z2 = = 0.97
3.1 3.1
Lecture Notes in Computer Science and Technologies No 2, 2016
Eléments de la théorie des probabilités 159

P (16 ≤ X ≤ 19) = P (0 ≤ Z ≤ 0.97)


P (Z ≤ 0.97) − P (Z < 0)
= Π(0.97) − Π(0)
= 0.8340 − 0.5000 = 0.3340.

La probabilité exacte est :

P (16 ≤ X ≤ 19) = P16 + P17 + P18 + P19 .

où Px est calculé suivant la formule de la loi binômiale :

Px = Cnx px q n−x .

On obtient :

P16 = 0.1279
P17 = 0.1204
P18 = 0.1026
P19 = 0.0792

P (16 ≤ X ≤ 19) = 0.4301

Dans ce cas particulier, l’approximation n’apparaı̂t pas comme particulièrement satisfaisante :


cela tient au fait que nous avons négligé certains aspects de l’approximation d’une variable
discrète par une variable continue. Il est nécessaire d’effectuer correction de continuité.
Correction de continuité
15.5 − 16 19.5 − 16
z1 = = −0.16, z2 = = 1.13
3.1 3.1
P (16 ≤ X ≤ 19) = P (−0.16 ≤ Z ≤ 1.13)
= P (Z ≤ 1.13) − P (Z < 0.16)
= Π(1.13) − [1 − Π(0.16)]
= 0.8708 − 0.4364 = 0.4344.

Comparée à la véritable probabilité calculée précédemment (0.4301), l’approximation apparaı̂t,


cette fois-ci, comme acceptable pour la plupart des applications.

A retenir :
Si n est suffisamment grand et si la distribution n’est pas trop dissymétrique, une variable p
aléatoire X de loi B(n, p) peut être considérée comme une variable aléatoire Z de loi N(np, np(1 − p)).
Pour le calcul des probabilités, on peut utiliser
!
a − 0.5 − np b + 0.5 − np
P (a ≤ X ≤ b) ≈ P p ≤Z≤ p
np(1 − p) np(1 − p)

Lecture Notes in Computer Science and Technologies No 2, 2016


160 Vera Angelova

en effectuant une amélioration de la précision de l’approximation, on dit qu’on effectue une


“correction de continuité”.
Si les deux moitiés de rectangle situées à droite et à gauche de l’intervalle [a, b] ont une aire
négligeable par rapport à l’ensemble, on se permettra d’écrire :
!
a − np b − np
P (a ≤ X ≤ b) ≈ P p ≤Z≤ p
np(1 − p) np(1 − p)

Critère de la validité de l’approximation :

np ≥ 10 et n(1 − p) ≥ 10

Ce critère permet de tenir compte de la valeur de n et de la dissymétrie.


Exemple : si p = 21 , n ≥ 20 ; si p = 41 , n ≥ 40 ; p = 0.9, n ≥ 100. Pour p donné, plus n est
grand, meilleure est l’approximation.
On peut abandonner la correction de continuité dès que la modification qu’elle apporte est
négligeable :

• lorsque n est très grand ; la correction de continuité déplace les bornes concernant Z de
± √ 0.5 . Un déplacement de 0.01 (qui correspond pour p = 21 à n = 10000) a peu
np(1−p)
d’importance.

• lorsque ces bornes sont situées dans une zone de faible probabilité (consulter les tables).

• lorsque l’intervalle [a, b] contient beaucoup d’entiers (faible erreur relative). On remarquera
à ce propos que pour a = b, on a :
!
a − 0.5 a + 0.5
P (X = a) ≈ P p ≤Z≤ p (9.1)
np(1 − p) np(1 − p)

Il est évident qu’alors, quel que soit n, il n’est pas question de supprimer ±0.5.

Pour terminer, on attirera l’attention sur deux points

• La variable aléatoire X, de loi B(n, p), est une variable discrète. Il est donc important
de préciser si les bornes de l’intervalle sont ou non inclues dans l’intervalle ; ceci peut
modifier en particulier le signe du terme correctif 0.5.

• Il n’est pas choquant d’approcher une distribution sur un ensemble fini depvaleurs par
une distribution sur R puisqu’on sait que pour les lois B(n, p) et N(np, np(1 − p))
pratiquement toute la probabilité est concentrée autour de l’espérance np.

Exemple 9.3.3 Soit X ∼ B(20, 21 ). Le tableau ci-dessous donne une idée de la validité de
l’approximation par une loi normale.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 161

P (X = k)
k Loi binômiale Loi normale (eq. 9.1)
10 0.176197 0.176929
9 ou 11 0.160179 0.160367
8 ou 12 0.120134 0.119390
7 ou 13 0.073929 0.073013
6 ou 14 0.036964 0.036678
etc.

Exemple 9.3.4 On joue 10000 fois à pile ou face. Calculer la probabilité pour que le nombre
de piles soit dans l’intervalle [4900, 5100].
Soit X le nombre de piles. X suit une loi B(10000, 12 ) que l’on peut approcher par une loi
N(5000, 25). On obtient, en désignant par Z une variable N(0, 1) :

• sans correction de continuité :


 
4900 − 10000 21 5100 − 10000 21
P (4900 ≤ X ≤ 5100) = P  q ≤Z≤ q 
11 11
10000 2 2 10000 2 2
= P (−2 ≤ Z ≤ 2) ≈ 95.45%

• avec correction de continuité :

P (4900 ≤ X ≤ 5100) = P (4899.5 ≤ X ≤ 5100.5) = P (−2.01 ≤ Z ≤ 2.01)


≈ 95.55%

Exemple 9.3.5 Soit X de loi B(100, 0.3). Estimer P (24 ≤ X ≤ 29). On considère que X suit
une loi N(30, 21) (puisque n(1 − p) > 10 et np > 10)
On obtient :

• sans correction de continuité :

P (24 ≤ X ≤ 29) = P (−1.3093 ≤ Z ≤ −0.2182) ≈ 0.3145

• avec correction de continuité :

P (23.5 ≤ X ≤ 29.5) = P (−1.4184 ≤ Z ≤ −0.1091) ≈ 0.3785

Le résultat exact est ≈ 0.3868.

Exemple 9.3.6 On estime que la probabilité pour qu’une graine ait perdu son pouvoir ger-
minatif après 3 ans de conservation est de 70%. Sur un échantillon de 100 graines conservées
depuis 3 ans quelle est la probabilité pour que moins de 25 germent ?

Lecture Notes in Computer Science and Technologies No 2, 2016


162 Vera Angelova

Notons p la probabilité qu’une graine germe : p = 0.3 et considérons que l’échantillon est
indépendant.
Notons X la v.a. “nombre de graines qui germent parmi les 100”.
X suit la loi B(100; 0.3) et on  cherche : P (X < 25) qui peut s’écrire aussi P (X ≤ 24) =
100 k 100−k
p0 + p1 + . . . + p24 avec pk = k 0.3 0.7 .
Le calcul exact est trop fastidieux pour être fait à la main. On peut alors :

• soit utiliser un logiciel, par exemple la fonction d’Excel


/LOI.BINOMIALE(24 ;100 ;0.3 ;1) /
ou en anglais : BINOMDIST(24 ;100 ;0.3 ;1)/ qui donne P (X ≤ 24) = 0, 114

• soit calculer une valeur approchée en remplaçant cette loi binômiale par une loi normale.

C’est possible car les produits np et nq sont assez grands (resp. 30 et 70). Les paramètres
de cette loi seront :

◦ µ = np = 30
√ √
◦ σ= npq = 100 ∗ 0.3 ∗ 0.7 = 4, 5826

La variable aléatoire discrète X ∼ B(100; 0.3) sera alors remplacée par la variable continue :
Xc ∼ N(30; 4.5826)
Un problème se pose alors : faut-il calculer P (Xc < 25) ou P (Xc ≤ 24) ? Pour une variable
continue, ces valeurs ne sont pas identiques. La meilleure approximation sera obtenue en prenant
la valeur intermédiaire 24,5. C’est ce qu’on appelle la “correction de continuité”.
Voir la justification en bas.

 
24.5 − 30
P (X < 25) = P (X ≤ 24) ≈ P (Xc ≤ 24, 5) = π = π(−1.20)
4.5826
= 1 − π(1.20) = 1 − 0.885 = 0.115

/On a appliqué les relations (8.1) et (8.2) et la table de la fonction de répartition π(t) (annexe :
Table 6)/
On peut constater que ceci fournit une excellente approximation de la vraie valeur puisque
l’erreur est de l’ordre du millième.
Correction de continuité

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 163

En jaune : la valeur exacte que l’on veut calculer. En effet P (X ≤ 24) = p0 + p1 + . . . + p24 ,
ce qui correspond à la somme des hauteurs de bâtons rouges du diagramme en bâton de la loi
binômiale. Cette somme est égale à la surface des rectangles jaunes puisque ces rectangles ont
pour hauteur les pi et pour base 1.
En bleu : ce qu’on calcule en prenant P (Xc ≤ 24.5), qui correspond à la surface sous la courbe
de densité à gauche du point 24,5. On voit bien que l’approximation serait moins bonne en
s’arrêtant à 24 ou en allant jusqu’à 25.
On pratique la correction de continuité chaque fois qu’on approche une loi discrète par une
loi continue (en fait chaque fois qu’on hésite entre 2 valeurs comme entre 24 et 25 ici).

Exemple 9.3.7 On prend un échantillon de 500 pièces. On sait qu’il y a 40% de pièces dont
le poids est inférieur à 590 g.

1. Soit X le nombre de pièces dont le poids est inférieur à 590 g. Quelle est la loi suivie par
X?

2. Comme peut-on approximer cette loi ? Calculer P (165 < X < 195).

Solution :

1. Les épreuves sont indépendantes et n = 500.


poids < 590 g → p = 0.4
Il y a 2 résultats possibles :
poids ≥ 590 g → q = 1 − p = 0.6

=⇒ X ∼ B(500, 0.4)

Lecture Notes in Computer Science and Technologies No 2, 2016


164 Vera Angelova

2.
n = 500 > 30; np = 500 × 0.4 = 200 > 5; nq = 500 × 0.6 = 300 > 5
On peut approximer la loi Binômiale par une loi Normale de paramètres :
√ √
E(X) = np = 200 et σ = npq = 120 = 10.954

X ∼ N(200, 10.954)

P (165 < X < 195) = P (X < 195) − P (X < 165)


   
195 − 200 165 − 200
= P Z< −P Z <
10.954 10.954
= π(−0.456) − π(−3.195)
= π(3.195) − π(0.456) = 0.9993 − 0.6736 = 0.3257

En tenant compte de la correction de passage du discret au continu, nous avons :

P (165 < X < 195) ≈C.C. P (165 + 0.5 ≤ X ≤ 195 − 0.5)


 
165 + 0.5 − 200 195 − 0.5 − 200
= P ≤Z≤
10.954 10.954
   
195 − 0.5 − 200 165 + 0.5 − 200
= P Z< −P Z <
10.954 10.954
= π(−0.5021) − π(−3.14953) /π(−t) = 1 − π(t)
= π(3.1495) − π(0.5021) = 0.9990 − 0.66985 = 0.32915

Exemple 9.3.8 Dans un service comprenant 300 employés, on remarque que chaque employé
veut téléphoner au-dehors en moyenne 6 minutes par heure. En ne tenant pas compte des appels
venus de l’extérieur, quel est le nombre minimum N de lignes téléphoniques qu’il faut mettre
à la disposition du service pour que, à un instant donné r, il y ait une probabilité inférieure à
2,5 % pour que le nombre des lignes soit insuffisant ?
Le nombre X des employés désirant téléphoner au-dehors à l’instant t est une variable
aléatoire qui obéit à la loi binomiale B(300, p) avec p = 6/60 = 1/10. Le nombre k de lignes
installées est insuffisant si l’on a X > k. Le nombre N est donc le plus petit entier k tel que
l’on ait
P (X > k) ≤ 0.025. (9.2)
Le théorème 13 montre que l’on peut considérer que la variable aléatoire
X − np
Z=p
np(1 − p)
est gaussienne réduite. L’égalité (9.2) s’écrit encore
!
k − np
P Z>p ≤ 0.025.
np(1 − p)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 165

Comme on a P (Z > ξ) = 0, 025 pour ξ = 1.96, on voit que la relation (9.2) équivaut à
√k−np > ξ ou encore à
np(1−p)

r
p 1 1 9
k > np + np(1 − p)ξ = 300 × + 300 × × × 0.025
10 10 10
= 40.18.

Le plus petit entier k vérifiant cette condition est donc N = 41.

Exemple 9.3.9 Une compagnie d’assurances se propose d’assurer n clients contre un certain
risque. Notons Xi la somme qu’aura à verser la compagnie au i−ème client. C’est une variable
aléatoire qui est nulle au cas où ce client n’est pas sinistré. On peut en général considérer
que les variables aléatoires X1 , . . . , Xn sont indépendantes. Supposons, pour simplifier, qu’elles
obéissent toutes à une même loi d’espérance mathématique µ et de variance σ 2 . La variable
aléatoire X = X1 + . . . + Xn est la somme totale que la compagnie aura à verser pour les
indemnités de sinistre. D’après le théorème 12, on peut considérer, lorsque n est grand, que la
variable aléatoire Z = X−nµ


obéit à la loi gaussienne réduite.
Désignons par x la prime demandée par la compagnie à chaque client et supposons que
celle-ci désire que la somme nx − X qui lui restera à la fin de l’exercice soit supérieure ou
égale à une somme b (déterminée par ses frais de gestion et le bénéfice minimum qu’elle désire
faire). Cette compagnie détermine la prime x de la façon suivante : Elle se donne un nombre
ε très petit (par exemple ε = 0, 001) et elle choisit x assez grand pour que la probabilité de
l’événement (b ≤ nx − X) soit supérieure à 1 − ε. Or, on a :

P (b ≤ nx − X) = P (X ≤ nx − b)
   
X − nµ n(x − µ) − b n(x − µ) − b
= P √ ≤ √ =P Z≤ √ .
nσ nσ nσ
On cherche dans la table de la loi gaussienne réduite le nombre ξ vérifiant P (Z ≤ ξ) = 1 − ε et
l’on choisit x de façon que l’on ait ξ ≤ n(x−µ)−b


ou encore

b 1
x≥µ+ + √ σξ.
n n
Telle est la condition que doit remplir la prime x pour que la compagnie ait une probabilité
au moins égale à 1 − ξ de voir se produire l’événement désiré nx − X ≥ b. On remarquera que
cette prime peut être prise d’autant plus petite que les clients sont plus nombreux.

9.3.1 Approximation de la loi de Poisson par la loi de Gauss


Soit X une variable aléatoire de loi P(λ). Dans
√ le cas où λ a une valeur suffisamment élevée,
on peut considérer que X est de la loi N(λ, λ).
Pour décider de la validité de l’approximation, le critère, d’origine empirique, généralement
utilisé est : λ ≥ 20.

Lecture Notes in Computer Science and Technologies No 2, 2016


166 Vera Angelova

Comme dans le cas précédent, l’approximation revient à remplacer des sommes de pro-
babilités par des intégrales ; il est donc également nécessaire d’introduire une correction de
continuité.

Exemple 9.3.10 Soit X de loi P(100). Évaluer P (90 ≤ X ≤ 100).


X suit pratiquement une loi N(100, 10) et on peut écrire si Z est de loi N(0, 1), et en
effectuant la correction de continuité :
 
89.5 − 100 100.5 − 100
P (89.5 ≤ X ≤ 100.5) = P ≤Z≤
10 10
= P (−1.05 ≤ Z ≤ 0.05) = π(0.05) − π(−1.05)
= π(0.05) − (1 − π(1.05)) = π(0.05) + π(1.05) − 1
= 0.5199 + 0.8531 − 1 = 0.4720.

Exemple 9.3.11 [11] Dans un service de réparation, on sait que l’on reçoit 9 appels à l’heure.
Quelle est la probabilité pour qu’il y ait au plus 60 appels pendant une période de 6 heures de
travail ?
Il s’agit ici d’une distribution de Poisson avec k = 9 par heure de travail.
Comme la période de référence est de 6 heures, λ = kt = 9 × 6 = 54.
λ > 20, on peut donc utiliser la loi Normale comme approximation avec :

E(X) = 54, σ(x) = 54 = 7.348 → X ∼ N(54; 7.348)

On nous demande P (X ≤ 60) = P Z ≤ 60−54 7.348

Si l’on veut tenir compte de la correction de passage du discret au continu, nous aurons :
 
60.5 − 54
P (X ≤ 60.5) = P Z ≤ = P (Z ≤ 0.884) = 0.8116
7.348

Exemple 9.3.12 Soit X une v.a.r. qui suit une loi de Poisson d’espérance mathématique
E(X) = 25.
1) Calculer les probabilités suivantes : P (X = 15) ; P (X > 20) ; P (15 < X ≤ 20) ; P (X ≤ 50)

Loi exacte : X ∼ P (λ = 25) ; E(X) = λ = 25 ; P (X = k) = e−λ λk /k! k = 0, 1, . . . , +∞

Les valeurs exactes :

P (X = 15) = e−25 2515 /15! = 0.00989 = 0.99%

P (X > 20) = 1–P (X ≤ 20) = 1–0.18549 = 81.45%

P (15 < X ≤ 20) = F (20)–F (15) = 0.163199 = 16.32%

P (X ≤ 50) = F (50) = 0.99999 ≈ 100%

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 167

2) Par quelle loi continue peut-on approcher la loi de X ? En déduire les valeurs approchées des
probabilités précédentes.


λ = 25(> 20) (condition respectée); X ∼ N(µ = λ = 25, σ = λ = 5)

Les valeurs approchées (cf. table N(0, 1) :

P (X = 15) ≈C.C. P (14.5 ≤ X ≤ 15.5) = P (−2.1 ≤ U ≤ −1.9)


= π(2.1) − π(1.9) = 1.08%
P (X > 20) ≈C.C. P (X ≥ 20.5) = 1 − P (X < 20.5)
= 1 − P (U ≤ −0.9) = 1 − π(−0.9) = π(0.9) = 81.59%
P (15 < X ≤ 20) ≈C.C. P (15.5 ≤ X ≤ 20.5) = P (−1.9 ≤ U ≤ −0.9)
= π(−0.9) − π(−1.9) = π(1.9) − π(0.9)
= 0.9713–0.8159 = 15.54%
P (X ≤ 50) ≈C.C. P (X ≤ 50.5) = P (U ≤ 5.1)
= π(5.1) ≈ 100%

Rapports mutuels des lois de probabilité binômiale et de Poisson et la loi normale


En conclusion on retiendra le schéma ci-dessous qui résume les principales approximations :

Lecture Notes in Computer Science and Technologies No 2, 2016


168 Vera Angelova

X ∼ B(n, p)
✂❏
✂ ❏
✂ ❏
n ≥ 100 ✂ ❏ np ≥ 10
✂ ❏
p ≤ 0.1 ✂ ❏ np(1 − p) ≥ 10
✂ ❏
✂ ❏
✂ ❏
✂ ❏
✂ ❏
✂ ❫

✂✌ p
X ∼ P(λ = np) √ np(1 − p)
X ∼ N(np,
X ∼ P(λ) ✲ X ∼ N(λ λ)

λ ≥ 20

La convergence en loi. Résumé

On a rencontré convergence en loi lors de l’approximation de :

• une loi discrète fini par une autre loi discrète finie : loi hypergéométrique H(N, n, p)
par loi binomiale B(n, p)

• une loi discrète finie par une loi discrète infinie : loi binomiale B(n, p) par loi de
Poisson P (λ)

• une loi discrète finie par une loi continue : loi binomiale B(n, p) pal loi normale

N(np, npq)

• une loi discrète infinie


√ par une loi continue : loi de Poisson P (λ) par loi normale
centrée réduite N(λ, λ)

Ce problème se place dans le cadre où on souhaite remplacer la loi d’une variable aléatoire par
une loi d’usage plus simple.
Le théorème central-limit et son cas particulier - le théorème de Moivre-Laplace donnent la
base théorique pour ce fait. On peut résumer la convergence des loi par les schémas en Figure
9.1 et 9.2.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 169

Figure 9.1 : Convergence en loi

Lecture Notes in Computer Science and Technologies No 2, 2016


170 Vera Angelova

Figure 9.2 : Résumés des approximations

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 171

Test sur le chapitre : Conditions d’application de la loi


normale
1. Énoncer le théorème de la limite centrale.

2. Quelle est la base théorique pour la convergence en loi ?

3. Pourquoi on utilise la convergence en loi ?

4. Qu’est-ce que la correction de continuité et quand on la pratique ?

Lecture Notes in Computer Science and Technologies No 2, 2016


172 Vera Angelova

Chapitre 10

Fonctions de variables aléatoires

10.1 Addition de variables aléatoires indépendantes

10.1.1 Additivité de deux variables indépendantes binômiales

On suppose que X ∼ B(n, p) et que Y ∼ B(n′ , p). Lorsque X et Y sont indépendantes,

X + Y ∼ B(n + n′ , p).

Démonstration
k+l
X
P (X + Y = k + l) = P (X = j ∩ Y = k + l − j)
j=0
k+l
X
= P (X = j)P (Y = k + l − j)
j=0
(car les variables sont indépendantes)
k+l
X
Cnj pj q n−j Cnk+l−j

= ′ pk+l−j q n −k−l+j
j=0
(car les variables sont binômiales)
k+l
X
Cnj Cnk+l−j

= pk+l q n+n −(k+l) ′

j=0
k+l k+l n+n′ −(k+l)
= Cn+n ′p q
Xk+l
(car Cnj Cnk+l−j
′ = k+l
Cn+n ′
′ , par récurrence sur n + n ),

j=0

et donc, X + Y suit une loi binômiale de paramètres n + n′ , p.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 173

Cette propriété s’interprète facilement : si X représente le nombre de succès en n épreuves


identiques indépendantes et Y en n′ épreuves indépendantes entre elles et indépendantes des
premières avec la même probabilité de succès que les premières, alors X + Y représente le
nombre de succès en n + n′ épreuves identiques et indépendantes.

10.1.2 Additivité de deux variables indépendantes suivant la loi de


Poisson

Si X ∼ P(λ1 ) et Y ∼ P(λ2 ), sont deux variables indépendantes suivant la loi de Pois-


son,alors

X + Y ∼ P(λ1 + λ2 ).

Démonstration
k
X
P (X + Y = k) = P [(X = i) ∩ (Y = k − i)]
i=0
les événements étant incompatibles 2 à 2
Xk
= P (X = i)P (Y = k − i) car événements indépendants
i=0
k
X λi1 e−λ1 λk−i
2 e
−λ2
=
i=0
i! (k − i)!
k
e−(λ1 +λ2 ) X k!
= λi1 λk−i
2 .
k! i=0
i!(k − i)!

or
k k
X k! X
λi1 λk−i
2 = Cki λi1 λ2k−i = (λ1 + λ2 )k formule de Newton
i=0
i!(k − i)! i=0

d’où
(λ1 + λ2 )k e−(λ1 +λ2 )
P (X + Y = k) = .
k!

Lecture Notes in Computer Science and Technologies No 2, 2016


174 Vera Angelova

10.1.3 Additivité de deux variables indépendantes normales

Soit X ∼ N(µ1 , σ1 ) et Y ∼ N(µ2 , σ2 ), alors


q
X ± Y ∼ N(µ1 ± µ2 , σ12 + σ22 )

et
q
aX ± bY ∼ N(aµ1 ± bµ2 , a2 σ12 + b2 σ22 ).

Démonstration
La densité de probabilité de X + Y est
Z ∞ (x−t−µ1 )2 (t−µ2 )2
1 − 2 1 − 2
h(x) = √ e 2σ1
√ e 2σ2 dt
−∞ 2πσ1 2πσ2
Z ∞ σ22 (x−t−µ1 )2 +σ12 (t−µ2 )2
1 − 2 σ2
= e 2σ1 2 dt.
2πσ1 σ2 −∞

Ensuite, le polynôme σ22 (x − t − µ1 )2 + σ12 (t − µ2 )2 de degré deux en t est mis sous forme
canonique :

σ22 (x − t − µ1 )2 + σ12 (t − µ2 )2 =
 2
2 2 σ22 (x − µ1 ) + σ12 µ2 σ12 σ22 (x − µ1 − µ2 )2
(σ1 + σ2 ) t − + .
σ12 + σ22 σ12 + σ22
Ainsi,
(x−µ1 −µ2 )2
Z ∞
p 2 2
 2 (x−µ )+σ 2 µ
2
1 − 2 +σ 2 ) σ12 + σ22 − σ2σ1 +σ 2
2 σ 2 t−
σ2
2
1
2
1 2
h(x) = p e 2(σ1 2 √ e 1 2 σ1 +σ2
dt
2π(σ12 + σ22 ) −∞ 2πσ1 σ2
(x−µ1 −µ2 )2
1 − 2 +σ 2 )
= p e 2(σ1 2 .
2π(σ12 + σ22 )
Et, le résultat demandé est ainsi prouvé.

10.2 Fonctions non linéaires de variables aléatoires

10.2.1 La loi de “Khi-deux” X ∼ χ2ν


Elle a été découverte en 1905 par le mathématicien britannique Karl Pearson (1857-1936) qui
travailla également sur les problèmes de régression avec le généticien Sir Francis Galton. La
loi de Pearson ou loi du khi-deux (χ2 ) est importante, non pas, comme les lois précédemment
étudiées, pour la représentation de séries statistiques observées, mais en raison du rôle qu’elle

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 175

joue dans les tests statistiques, notamment dans le test de l’ajustement d’une loi théorique à une
distribution observée, le test d’indépendance de deux caractères qualitatifs et pour déterminer
la loi de la variance d’un échantillon. Ce sont les test du khi-deux.

Définition 77 Soit X1 , X2 , . . ., Xi , . . ., Xν ν variables aléatoires normales centrées


réduites indépendantes.
La variable aléatoire X définie par
ν
X
X = X12 + X22 + . . . + Xi2 + . . . + Xν2 = Xi2
i=1

admet une loi de probabilité désignée par χ2 et appelée “Khi-deux” (ou “Khi-carré”) à
ν degrés de liberté.

Le seul paramètre de la loi χ2 est le nombre de degrés de liberté désigné par ν. C’est le
nombre de variables aléatoires indépendantes qui interviennent dans la définition de χ2 .

Notation On note X ∼ χ2ν .

Remarque 78 Si ν = 1 la variable χ2 correspond au carré d’une variable normale centrée


réduite de loi N(0, 1)

La variable aléatoire X ∼ χ2ν varie entre 0 et l’infinie et a pour densité de probabilité :



0, si x ≤ 0
f (x) = ν x
cν x 2 −1 e− 2 , si x > 0.
R +∞
cν étant une constante positive dépendant de ν, telle que −∞ f (x)dx = 1, c1 = √12π .
On peut trouver une tabulation de la fonction inverse de la fonction de répartition de cette loi
dans la Table 7 (en annexe, qui donne la valeur de χ2 ayant la probabilité P d’être dépassée) ;
ou sur un logiciel tableur :
α ∼ χ2α,ν (Fonction KHIDEUX.inverse(α, ν, 1)),
ou CHIINV(probability ;deg freedom)
c’est-à-dire la valeur de χ2α,ν telle que P (χ2 (ν) > χ2α,ν ) = α.

Exemple 10.2.1 Pour α = 0.90 et ν = 5, χ2α = 1.610 = χ20.90;5.

Lecture Notes in Computer Science and Technologies No 2, 2016


176 Vera Angelova

La table 8 (en annexe) et la fonction KHIDEU(k, ν, 1)(or CHIDIST(x,deg freedom)) d’un logi-
ciel tableur donnent la fonction de répartition F (χ2 ) = P (X ≤ χ2 ).

Forme

La distribution du χ2 est dissymétrique avec étalement vers la droite. Toutefois, elle tend à
devenir symétrique lorsque le nombre ν de degrés de liberté augmente.

Forme de la loi du χ2 suivant le nombre ν de degrés de liberté

Paramètres descriptifs
E(X) = ν, V ar(X) = 2ν.

Somme de deux variables qui suivent une loi du χ2

Considérons m + n variables gaussiennes réduites indépendantes X1 , . . ., Xm , Y1 , . . ., Yn . Les


variables aléatoires X = X12 + . . . + Xm
2
et Y = Y12 + . . . + Yn2 sont indépendantes et obéissent
respectivement aux lois se Pearson à m et n degrés de liberté. Leur somme
X12 + . . . + Xm
2
+ Y12 + . . . + Ym2
obéit à la loi de χ2 à m + n degrés de libertés.

Définition 79 Si X et Y sont des variables aléatoires indépendantes obéissant respecti-


vement aux lois de Pearson à m et n degrés de liberté ; leur somme X + Y obéit à la loi
de Pearson à m + n degrés à liberté :

X ∼ χ2n , Y ∼ χ2m ⇒ X + Y ∼ χ2n+m .

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 177

Respectivement pour la soustraction on a :


Si X ∼ χ2n et Y ∼ χ2m sont indépendantes, alors

X − Y ∼ χ2n−m (n > m)

Approximation par une loi normale

A mesure que ν augmente, la loi du χ2 tend vers la loi normale, comme on peut constater sur
le graphique ci-dessous.

Densité de χ2 pour ν = 4, 5, 8, 12, 18, 30.

En pratique, on peut considérer√que pour ν ≥ 30, on peut remplacer la loi du χ2 à ν degrés de


liberté par la loi normale N(ν, 2ν).

Utilisation de la table de Pearson

La distribution de χ2 ne dépendant que d’un seul paramètre ν, le nombre de degrés de liberté,


la Table 7 que l’on trouvera en annexe est à double entrée (ν et P ). Elle donne pour ν inférieur
ou égal à 30, la valeur de χ2 ayant la probabilité P d’être dépassée.
Z ∞
P = f (x)dx.
−∞

Lecture Notes in Computer Science and Technologies No 2, 2016


178 Vera Angelova

Interprétation de la Table 7 de la distribution de χ2 .

Donc, suivant le nombre ν de degrés de liberté, la Table 7 nous donne la valeur de χ2 telle que

P (X ≥ x) = α ⇔ P (X < x) = 1 − α

Exemple 10.2.2 [3] Pour n = 7, la valeur de χ2 a une probabilité de 90 % d’être supérieure


à 2,83 et une probabilité de 5 % d’être supérieure à 14,07.

Exemple 10.2.3 [3] Soit la variable aléatoire X ∼ χ21 . Déterminer les valeurs de x de cette
variable pour lesquelles :

P (X ≥ x) = 0.05, P (X ≥ x) = 0.01

Solution : De la Table 7 on lit à ligne ν = 1 et la colonne P = 0.05 que x = 3.841 ; à la ligne


ν = 1 et la colonne P = 0.01 on obtient x = 6.635.

Cette disposition de la table est bien adapté au test de l’ajustement d’une loi théorique à
une distribution observée.

Calcul de probabilités

Comme pour toutes les variables d’usage courant, les fonctions de répartitions des variables χ2ν
sont tabulées.
Soit la relation F (u) = P (χ2ν < u) = p. La Table 8 de l’annexe donne, pour un certain
nombre de valeurs p, u en fonction de ν.

Exemple 10.2.4 Utilisation de table 7 et table 8 de l’annexe

• Soit une variable Y = χ24 . On a

P (0.484 < Y < 11.143) = F (11.143) − F (0.484) = 0.975 − 0.025 = 95%

• Soit une variable Z = χ210 . On a

P (Z ≥ 18.307) = 1 − P (Z < 18.307) = 1 − F (18.307) = 1 − 0.95 = 5%

Ou bien si on utilise table 7 on a directement

P (Z ≥ 18.307) = 0.05 = 5%.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 179

On remarquera que, la densité d’une variable χ2ν étant nulle en zéro et à gauche de zéro, on a :
F (u) = 0, si u ≤ 0
2
F (u) = P (χν < u) = P (0 < χ2ν < u), si u > 0
On remarquera également que si X ∼ N(0, 1) et si Y = X 2 ∼ χ21 , on a :
√ √
P (Y < u) = P (X 2 < u) = P (− u < X < u), u > 0
En particulier on pourra vérifier :
P (−1.960 < X < 1.960) = P (Y < (1.960)2 ) = P (Y < 3.841) = 95%
P (−2.576 < X < 2.576) = P (Y < (2.576)2 ) = P (Y < 6.635) = 99%

10.2.2 La loi “t-de Student” T ∼ Tn


La loi de Student (ou loi de Student-Fisher) est utilisée lors des tests de comparaison de pa-
ramètres comme la moyenne et dans l’estimation de paramètres de la population à partir de
données sur un échantillon (Test de Student). Student est le pseudonyme du statisticien anglais
William Gosset qui travaillait comme conseiller à la brasserie Guinness et qui publia en 1908
sous ce nom, une étude portant sur cette variable aléatoire.

Définition 80 Soit X une variable aléatoire qui suit une loi normale centrée réduite et
Y une variable aléatoire suivant une loi de “Khi-deux” à n degrés de liberté : X ∼ N(0, 1)
et Y ∼ χ2n . X et Y étant indépendantes, on dit que la variable aléatoire Tn définie par

X X n
Tn = q = √
Y Y
n

admet une distribution de “Student” à n degrés de liberté.

Notation : T ∼ Tn

Densité de probabilité

La fonction densité de probabilité f (t) d’une variable T ∼ Tn a pour expression


 − n+1
t2 2
f (t) : t → C(n) 1 + , t∈R
n
R +∞
où C(n) est une constante positive dépendant de n et telle que −∞ f (x)dx = 1.

Forme de la distribution

L’étude des variations de la densité d’une variable Tn montre que la distribution est en cloche,
symétrique par rapport à l’axe des ordonnées et un peut plus aplatie que la distribution normale
centrée réduite. Elle admet pour mode : 0.

Lecture Notes in Computer Science and Technologies No 2, 2016


180 Vera Angelova

Elle ne dépend que de la valeur n qui est son nombre de degrés de liberté. Plus le nombre de
degrés de liberté augmente, et plus la distribution d’une variable Tn est resserrée autour de
l’origine.

Paramètres descriptifs

L’espérance de la variable de Student est :

E(Tn ) = 0 si n > 1

la variance de la variable de Student est :


n
V ar(Tn ) = si n > 2
n−2

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 181

Approximation par la loi normale

Comme la distribution d’une variable Tn de Student est un peut plus aplatie que la distribution
normale centrée réduite, alors la distribution d’une variable Tn , de Student, est toujours plus
dispersée que celle d’une variable normale centrée réduite. Cependant a mesure que n augmente,
la distribution de Student à n degrés de liberté se rapproche de plus en plus de celle de la loi
normale centrée réduite. On constate dans les tables de valeurs numérique que la différence
entre une loi de Student et une loi normale centrée réduite est, en ce qui concerne le calcul des
probabilités, peu sensible lorsque n = 30, presque négligeable lorsque n = 120.
En pratique : si T ∼ Tn pour n ≥ 30, on pourra écrire que T ∼ N(0, 1).

Calcul des probabilités

On peut trouver la fonction de répartition de cette loi sur un logiciel tableur :


Fonction de répartition : Loi.student(t,ν,1) (TDIST(x,deg freedom,tails))
Inverse de la fonction de répartition : Loi.student.inverse(α, ν)
(TINV(probability,deg freedom)

Utilisation de la table de Student

Les valeurs tabulées de la variable Tn dépendent d’un seuil α que l’on peut choisir et du nombre
de degré de liberté n.

• La Table 9 en annexe
La Table 9 donne la valeur tα,n définie par P (|T | > tα,n ) = α.
 − n+1
t2 2
f (t) = C(n) 1 +
n

Lecture Notes in Computer Science and Technologies No 2, 2016


182 Vera Angelova

La table donne la probabilité α pour que T égale ou dépasse une valeur donnée t0 en
valeur absolue, en fonction du degré de liberté (d.d.l.) n.

Exemple 10.2.5 : avec d.d.l. n = 3 pour t0 = 2.353, de la Table 9. la probabilité


α = 0.10.

• La Table 10. donne la valeurs de tn,α de n degrés de liberté ayant la probabilité α d’être
dépassée.

Exemple 10.2.6 – Pour n = 11, on a P (Tn < 1.796) = 1 − P (Tn > 1.796). Pour
d.d.l. n = 11 et α = 1.796 la Table 10. donne p = 0.05 =⇒
P (Tn < 1.796) = 1 − P (Tn > 1.796) = 1 − 0.05 = 0.95 = 95%.
– Pour d.d.l. n = 11 de la Table 10. on trouve la probabilité P (Tn < 2.201) comme
suit : Pour d.d.l. n = 11 et α = 2.201 la Table 10. donne p = 0.025, alors
P (Tn < 2.201) = 1 − P (Tn > 2.201) = 1 − 0.025 = 0.975 = 97.5%

• La Table 11. Soit Fn (u) = P (Tn < u) = p.


La table Table 11. permet d’obtenir u, pour certaines valeurs de p, selon le nombre de
degrés de liberté de la variable de Student.
A cause de la symétrie par rapport à l’origine, la table n’est construite que pour des
valeurs u positives.
Pour u < 0, on a, comme pour la loi normale centré réduite :
P (Tn < u) = P (Tn > −u) = 1 − P (Tn ≤ −u) = 1 − F (−u).

Exemple 10.2.7 – Pour n = 11, on a : P (Tn < 0.540) = 70%; P (Tn < 1.796) = 95%;
P (Tn < 2.201) = 97.5%
– Pour n = 16, on a : P (Tn < 0.691) = 75% ; P (Tn < −0.691) = P (Tn > 0.691) = 25%
– Pour n = 25, on a :
P (|Tn | < 2.060) = P (2.060 < Tn < 2.060)
= F (2.060) − F (−2.060)
= F (2.060 − [1 − F (2.060)]
= 2F (2.060) − 1
= 2 × 0.975 − 1
= 95%
Si on utilise la Table 9. qui donne P (|Tn | > t0 ) = α, on a : n = 25,
P (|Tn | < 2.060) = 1 − P (|Tn | > 2.060)
pour t0 = 2.060 et d.d.l. n = 25 de la Table 9. la probabilité α = 0.05, alors
P (|Tn | < 2.060) = 1 − P (|Tn | > 2.060)
= 1 − 0.05 = 0.95 = 95%

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 183

Test sur le chapitre : Fonctions de variables aléatoires


1. Loi de Khi deux, utilisation.

2. Loi de Student, utilisation.

Lecture Notes in Computer Science and Technologies No 2, 2016


184 Vera Angelova

Schémas

Événements

au moins ≥ plus de > A et B incompatibles A∩B =∅


moins de < au plus ≤ A et B compatibles A ∩ B 6= ∅

Combinatoire

sans répétition avec répétition

A
n!
Arrangements Apn = (n−p)!
Āpn = np
choix, ordre

P
p!
Permutations Pn = n! P̄pp1 p2 ...pn = p1 !p2 !...pn !
ordre

C
n! p (n+p−1)!
Combinaisons Cnp = p!(n−p)!
C̄np = Cn+p−1 = (n−1)!p!
choix

Probabilités

loi de multiplication
A et B indépendants P (A ∩ B) = P (A) ∗ P (B)
A et B dépendants P (A ∩ B) = P (A) ∗ P (B|A)
loi d’addition
A et B incompatibles P (A ∪ B) = P (A) + P (B)
A et B compatibles P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 185

Modèle d’urne

Types de tirages Ordre Répétitions d’éléments Dénombrement

Successifs avec remise Un élément peut être tiré Āpn = np


ordonné plusieurs fois
n!
Successifs sans remise Un élément n’est tiré qu’une Apn = (n−p)!
seule fois
n!
Simultanés sans ordre Cnp = p!(n−p)!

Cas possibles lors des différents modes de tirages

mode de tirage non exhaustif exhaustif

successif avec remise Āpn = np Ānn = nn

n!
successif sans remise Apn = (n−p)!
Ann = Pn = n!

n!
simultané Cnp = (n−p)!p!
1

Urne contenant deux sortes de boules :


N1 boules de type A ; N2 de type B ; N1 + N2 = N , p = NN1
L’événement Ek = ”prélever k boules du type A parmi les n tirées”
Probabilité de l’événement Ek :

successif avec remise successif sans remise simultané

choix d’emplacements P̄nk,n−k = Cnk P̄nk,n−k = Cnk —–

AkN An−k k .C n−k


CN
choix d’éléments pk (1 − p)n−k 1
An
N 2 1
n
CN
N 2
N

k C n−k
CN k C n−k
CN
P (Ek ) Cnk pk (1 − p)n−k 1
n
CN
N 2 1N
n
CN
2

Lecture Notes in Computer Science and Technologies No 2, 2016


186 Vera Angelova

Urne U contenant N boules de k couleurs différentes


Ni le nombre de boules de la couleur i ;
P
pi = NNi proportion de boules de la couleur i dans l’urne ; ki=1 pi = 1
P
Soient n1 , n2 , . . . , nk ∈ N, ki=1 ni = n
A(n1 , . . . , nk ) - l’événement de tirer n boules, dont exactement n1 boules de la couleur 1, n2
boules de la couleur 2,. . ., et nk boules de la couleur k.

Probabilité de l’événement A(n1 , . . . , nk ) :

successif
successif avec
sans simultané
remise
remise

choix d’empla-
P̄nn1 ,n2 ,...,nk P̄nn1 ,n2 ,...,nk —–
cements

n n n n n
choix AN1 AN2 ...ANk CN1 .CN2 ...C nk Nk
pn1 1 .pn2 2 . . . pnk k 1 2
An
k 1 2
n
CN
d’éléments N

n n n n n n
CN1 CN2 ...CNk CN1 CN2 ...CNk
P (A(n1 , n2 , . . . , nk )) P̄nn1 ,n2 ,...,nk pn1 1 .pn2 2 . . . pnk k 1 2
n
CN
k 1 2
n
CN
k

Choix de la loi discrete pour une variable aléatoire


Conditions d’application : 2 issues possibles de probabilité p pour le succès

Nombre de ti-
Mode de tirage Définition de la variable aléatoire X Loi
rages

1 ——— Nombre de succès Bernoulli B(1, p)

Nombre de succès parmi les n tirages Binomiale B(n, p)

Géometrique
n>1 avec remise Nombre de tirages pour le I succès
G(p)

Poisson P(λ),
Nombre de succès dans l’intervalle t
λ=p∗t

Hypergéometrique
sans remise Nombre de succès parmi les n tirages
H(N, n, p)

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 187

Lois usuelles discrètes


M
Dans une urne, il y a N boules parmi lesquelles M de couleur blanche, p = N
et q = 1 − p.

Ensemble des valeurs pos- Espérance de Variance de


Loi de X Probabilités des valeurs de X
sibles de X X X

Lois usuelles discrètes finies

Uniforme 1 N +1 N 2 −1
{1, . . . , N } P (X = k) = 2 12
U(N ) N

Bernoulli P (X = 0) = q
{0, 1} p pq
B(1, p) et P (X = 1) = p

Binomiale n k
{0, 1, . . . , n} P (X = k) = p q n−k np npq
B(n, p) k

   
M
Hypergéométrique × N −M
[max(0; n − N + M ); min(n; M )] P (X = k) = k
 n−k
np npq N −n
H(N, n, p) N
n
N −1

Lois usuelles discrètes infinies

Géométrique 1 q
N P (X = k) = p q k−1 p2
G(p) ou R(1, p) p

Pascal k−1 r r rq
{k ∈ N; k ≥ r} P (X = k) = p q k−r p2
R(r, p) r−1 p

P (X = k) =
Pascal sans remise 
M

× Nk−r N +1 N (N +1)(M −r+1)
{k ∈ N; r ≤ k ≤ N − M + r} r−1
−M
M −r+1 rM +1
rq (M +1)2 (M +2)
S(N, r, p)   ×
N N −k+1
k−1

Poisson k
N P (X = k) = e−λ λk! λ λ
P(λ)

Binômiale négative k+r−1 r rq rq


N P (X = k) = p qk p2
BN(r, p) r−1 p

Lecture Notes in Computer Science and Technologies No 2, 2016


188 Vera Angelova

Lois usuelles continues

Ensemble Densité de Fonction de


Loi Notation Moyenne Variance
image probabilité répartition
V de X f (x) F (X) µ σ2

1 x−a a+b (b−a)2


Uniforme X ∼ U[a; b] [a; b] b−a b−a 2 12

Laplace -
X ∼ N(µ, σ) R Table de N(0, 1) Table de N(0, 1) µ σ2
Gauss

Normale
centrée X ∼ N(0, 1) R Table de N(0, 1) Table de N(0, 1) 0 1
réduite

∼ χ2ν
XP R
Khi-deux Table de χ2ν ν 2ν
= νi=1 Xi2 X ∼ N(0, 1)

T ∼ Tn
= √XY n
Student n R Table de Tn 0 n−2
X ∼ N(0, 1)
Y ∼ χ2n

Additivité

X ∼ B(n, p), Y ∼ B(n′ , p), indépendantes → X + Y ∼ B(n + n′ , p).

X ∼ P(λ1 ), Y ∼ P(λ2 ), indépendantes → X + Y ∼ P(λ1 + λ2 ).

X ∼ N(µ1 , σ1 ) , Y ∼ N(µ2 , σ2 ), indépendantes, a, b ∈ R →


q
aX ± bY ∼ N(aµ1 ± bµ2 , a2 σ12 + b2 σ22 ).

X ∼ χ2n , Y ∼ χ2m , indépendantes → X ± Y ∼ χ2n±+m (n > m).

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 189

Convergence en loi


Pour ν ≥ 30 X ∼ χ2ν → N(ν, 2ν).
Pour n ≥ 30 T ∼ Tn → N(0, 1).

Lecture Notes in Computer Science and Technologies No 2, 2016


190 Vera Angelova

Bibliographie

[1] Anderson, Sweeney et Williams. Statistiques pour l’économie et la gestion, 2010, De Boeck,
Bruxelles

[2] Banks, J., et Meikes, R.G. Handbook of Tables and Graphs for the Industrial Engineer and
Manager, 1984, Upper Saddle River, NJ, Prentice-Hall.

[3] B. Belletante, B. Romier Mathématiques et gestion. Lest outils fondamentaux. Ellipses,


Paris, 1991.

[4] Berrondo-Agrell Marie et Fourastie Jacqueline. Pour comprendre les probabilités, 1994,
Paris, Hachette, ”Les Fondamentaux”.

[5] Bouget D. et Vienot A. Traitement de l’information : statistiques et probabilités, 1995,


Vuibert, Paris.

[6] Burington, R.S., et May, D.C. Handbook of Probability and Statistics with Tables, 1970. 2e
éd., New York, McGraw-Hill Book Company.

[7] Calot G. Cours de calcul de probabilités, 1989, Dunod, Paris

[8] Giard V. Statistique appliquée à la gestion, 1995, Economica, Paris.

[9] Delsart V. et Vaneecloo N. Probabilités, variables aléatoires, lois classiques, 2010 PU du


Septemtrion, Lille.

[10] Droesbeke J-J. Éléments de statistique, 1997, Ellipses , Bruxelles.

[11] Dumoulin D. Mathématiques de gestion. Cours et applications. Economica, Paris, 1987.

[12] Grais B. La statistique et l’intreprise. Les techniques statistiques, tome 2 : Les instruments
d’analyse. Economica, Paris, 1987.

[13] Hoel P. Statistique mathématique. Armand Colin, Paris, 1984.

[14] Jaffard P. Initiation aux meéthodes de la statistique et du calcul des probabilités. Masson,
Paris, 1990.

[15] Justens D. Statistique pour décideurs, 1990, De Boeck, Bruxelles.

[16] Lecoutre J.-P. Statistique et probabilités, 2000, Dunod, Paris.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 191

[17] Lipschitz, Seymour. Probabilité. Cours et problèmes, 1993, Paris, éditions McGraw-Hill,
série Schaum.

[18] Micula S. Probability and statistics for computational sciences. Cluj University Press,
Cluj-Napoca, 2009.

[19] Saporta, Gilbert. Probabilité, analyse des données et statistique, 2006, Paris, éditions
Technip.

[20] Spiegel, Murray R. Probabilité et statistique. Cours et problèmes, 1981, Paris, éditions
McGraw-Hill, série Schaum.

[21] Vekermans D. Probabilité et statistique. http://vekemans.free.fr/Proba.pdf

[22] Wonnacott, Thomas H. et Wonnacott, Ronald J. Statistique, 1991, éditions Econimica.

Lecture Notes in Computer Science and Technologies No 2, 2016


192 Vera Angelova

Annexe

Tables statistiques
1. Table 1. Distribution de la loi binomiale [6]

2. Table 2. Fonction de répartition binomiale [2]

3. Table 3. Distribution de Poisson [6]

4. Table 4. Fonction de répartition de la loi de Poisson [2]

5. Table 5. Densité de probabilité de la loi normale centrée réduite

6. Table 6. Fonction de répartition de la loi normale centrée réduite

7. Table 6’. Fractiles de la loi normale centrée réduite

8. Table 7. Distribution de χ2 (Loi de K. Pearson). Valeurs de χ2 ayant la probabilité P d’être


dépassée.

9. Table 8. Fonction de répartition de la loi de χ2

10. Table 9. Distribution Tn (Loi de Student) : valeurs de Tn ayant la probabilité α d’être


dépassée en valeur absolue

11. Table 10. Distribution Tn (Loi de Student) : valeurs de Tn ayant la probabilité d’être
dépassée

12. Table 11. Fonction de répartition de la loi de Student Tn

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 193

Table 1. Distribution binomiale

Cette table donne la probabilité d’obtenir k succès


en n tirages étant donné une probabilité p de
succès sur un tirage.
Exemple : la probabilité d’obtenir 1 succès sur 5
tirages à pile ou face est de 0,1563.

P (X = k) = Cnk (1 − p)n−r

Lecture Notes in Computer Science and Technologies No 2, 2016


194 Vera Angelova

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 195

Lecture Notes in Computer Science and Technologies No 2, 2016


196 Vera Angelova

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 197

Table 2. Fonction de répartition binomiale

Fournit la probabilité P (X ≤ x) pour


X ∼ B(n, p)

Lecture Notes in Computer Science and Technologies No 2, 2016


198 Vera Angelova

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 199

Lecture Notes in Computer Science and Technologies No 2, 2016


200 Vera Angelova

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 201

Table 3. Distribution de Poisson

k
Fournit la probabilité P (X = k) = e−λ λk! pour X ∼ P(λ)

Lecture Notes in Computer Science and Technologies No 2, 2016


202 Vera Angelova

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 203

Lecture Notes in Computer Science and Technologies No 2, 2016


204 Vera Angelova

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 205

Lecture Notes in Computer Science and Technologies No 2, 2016


206 Vera Angelova

Table 4. Fonction de répartition de la loi de Poisson

x
X e−λ
Fournit la probabilité P (X ≤ x) = λr pour X ∼ P(λ)
r=0
r!

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 207

Lecture Notes in Computer Science and Technologies No 2, 2016


208 Vera Angelova

Table 5. Densité de probabilité de la loi normale centrée réduite

1 2
f (t) = f (−t) = √ e−t /2

Exemples :

f (1.3) = 0.1714
f (−2.7) = f (2.7) = 0.0104.

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 209

Table 6. Fonction de répartition de la loi normale centrée réduite


Probabilité d’une valeur inférieure à t :
Rt 2
P (Z < t) = F (t) = π(t) = √12π −∞ e−z /2 dz.
Pour t < 0, on a P (Z < t) = 1 − π(−t)

Nota. — La table donne les valeurs de π(t) pour z positif. Lorsque z est négatif il faut
prendre le complément à l’unité de la valeur lue dans la table.
Exemple : pour t = 1.37 π(t) = 0.9147
pour t = −1.37 π(t) = π(−1.37) = 1 − π(1.37) = 1 − 0.9147 = 0.0853.

Lecture Notes in Computer Science and Technologies No 2, 2016


210 Vera Angelova

Table 6’. Fractiles de la Loi normale centrée réduite

U ∼ N(0, 1)

Pour P < 0.5 (colonne de gauche et ligne supérieure) les fractiles sont négatifs.
Pour P > 0.5 (colonne de droite et ligne inférieure) les fractiles sont positifs.

Exemples : π(u) = P (U ≤ u) = P = 0.6340 =⇒ u = 0.3425 ;


π(u) = P (U ≤ u) = P = 0.4020 −→ u = −0.2482

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 211

Table 7. Distribution de χ2 (Loi de K. Pearson)

Valeur de χ2 ayant la probabilité P d’être dépassée.

La table donne la fonction :

1 − F (χ2 ) = P (X ≥ χ2 ) = P

Nota : ν est le nombre de degrés de liberté.


Pour ν supérieur à 30, on admet que la variable aléatoire est approximativement distribuée
suivant la loi normale centrée réduite (µ = 0, σ = 1).

Lecture Notes in Computer Science and Technologies No 2, 2016


212 Vera Angelova

Table 8. Fonction de répartition de la loi de χ2 .

Fonction de répartition F (x) = P (X < x)

Si ν est le nombre de degrés de li-


berté d’une variable χ2 , si x est un
nombre positif et si on pose : F (x) =
P (X < x) = P . La table donne x
pour différentes valeurs de ν et de P .

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 213

Table 9. Distribution Tn (Loi de Student)

Valeurs de Tn ayant la probabilité α d’être dépassée en valeur absolue : P (|Tn | > t0 ) = α.

Lecture Notes in Computer Science and Technologies No 2, 2016


214 Vera Angelova

Table 10. Distribution Tn (Loi de Student)

Valeurs de tn,α de n degrés de liberté ayant la


probabilité α d’être dépassée : P (Tn > tn,α ) =
α
❍❍ α
❍ 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005
n ❍❍

1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688

6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588


7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869

11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370


12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405
15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728

16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150


17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651
18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216
19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834
20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495

21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193


22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921
23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676
24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454
25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251

26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066


27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896
28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739
29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594
30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460

∞ 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

Lecture Notes in Computer Science and Technologies No 2, 2016


Eléments de la théorie des probabilités 215

Table 11. Fonction de répartition de la loi de Student Tn

Soit T une variable de Student à ν degrés de liberté, de densité ρ. Si u est un nombre positif
et si on pose :

Fn (u) = P (T < u) = p

la table donne u pour différentes valeurs de ν et de p.

Lecture Notes in Computer Science and Technologies No 2, 2016

Vous aimerez peut-être aussi