Nothing Special   »   [go: up one dir, main page]

Cours + Exo Corrigés - PDF (Abdi) PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 158

1

Inférence Statistique I
Description des programmes

1. Distributions d’échantillonnage
2. Estimation paramétrique
2.1. Introduction
2.2. Estimation ponctuelle
a. Définition
b. Qualités d’un estimateur
c. Quelques méthodes de construction d’un estimateur
ponctuel (méthode des moments, méthodes des moindres
carrées, méthode du maximum de vraisemblance)

2.3. Estimation par intervalle de confiance


a. Définition
b. Intervalle de confiance d’une moyenne
c. Intervalle de confiance de deux moyennes
d. Intervalle de confiance d’une proportion
e. Intervalle de confiance de deux proportions
f. Intervalle de confiance d’une variance
g. Intervalle de confiance du rapport de deux variances

3. Tests d'hypothèses paramétriques


3.1. Définitions
3.2. Relation entre test d'hypothèse et intervalle de
confiance
3.3. Quelques tests d'hypothèses usuels

4. Tests de khi-deux
4.1. Test d'ajustement
4.2. Test d'indépendance
4.3. Test d’homogénéité

Pr. El Abdi F. INSEA


2

Références Bibliographiques
1. David V. Huntsberger et P. Billingsley. Elements of Statistical Inference.
4th Edition. Allyn and Bacon, Inc.
2. Gérald Baillargeon. Introduction à l'Inférence Statistique. 2ème edition.
Les édistions SMG, 1982.
3. Hogg R. V. and A.T. Craig. Introduction to mathematical Statistics. 5 th
ed, Printice Hall, NJ, 1997.
4. Hogg R. V. and E. A. Tanis. Probability and Statistical Inference. Sixth
edition, Prentice Hall, NJ, 1997.
5. Pascal Kaufmann. Statistique. Dunod, Paris, 1994.
6. LARSEN R. J. and M. L. MARX; An Introduction to mathematical statistics
and its applications. Second edition, Printice-Hall NJ., 1986.
7. T. Wonnacott et R. Wonnacott. Statistique. 4ème édition. Economica

Pr. El Abdi F. INSEA


3

Les objectifs pédagogiques de ce cours sont de :


1. Approfondir la notion de représentativité d’un échantillon
2. Comprendre la relation entre les caractéristiques d’une population et
celles d’un échantillon
3. Connaitre les conditions qui améliorent la représentativité d’un
échantillon
4. Extrapoler les résultats d’un échantillon à la population Totale

Les divers types de problèmes que l’on se pose sont :

1. Echantillonnage
2. Estimation
3. Tests
4. Idée générale pour la résolution de ces 3 problématiques

✓ La Statistique est un ensemble de méthodes et outils mathématiques


(probabilistes) visant à collecter, décrire et analyser afin d’obtenir de
l’information permettant de prendre des décisions malgré la présence
d’incertitudes (erreurs)
✓ Les données Statistiques sont collectées lors de l’étude (Statistique) d’un
phénomène à travers une ou plusieurs caractéristiques (caractère,
variables,…) qui sont observées ou mesurées ou repérées ou inspectées
sur des Unités Statistiques (U.S) ou individus.
✓ Les Unités Statistiques qui sont soumises à l’étude ne sont pas
nécessairement toutes observées (mesurées, inspectées,…). Une fois bien
définies (sans ambiguïté), l’ensemble de ces unités statistiques forme la
Population associée à l’étude statistique.
Pr. El Abdi F. INSEA
4

a. Si l’étude statistique consiste à observer toutes les (U.S) de la


population, il s’agit d’un recensement
b. Si, pour des raisons divers, l’observation est restreinte à une
partie de la population étudiée, alors il s’agit d’une étude par
sondage. Cette partie observée de population est dite
échantillon (c’est un sous ensemble de la population)
✓ Les Statisticiens sont amenés à conduire plusieurs types de travaux dans
le cadre d’une enquête statistique qui consiste faire une analyse
descriptive des données collectées (soit sur la population soit sur
l’échantillon) c’est l’objet de la Statistique Descriptive. Cela consiste à
faire des :
a. Graphiques
b. Calculs de mesures de tendances, centrales, de dispersion, de
formes,… se sont les paramètres
c. Calculs d’indicateurs
d. Essai de modélisation

Cette analyse descriptive ne constitue qu’une étape préliminaire lorsque


l’observation est menée seulement sur un échantillon et non sur la population
totale. Une fois l’échantillon d’étude est choisi selon une procédure adéquate,
le statisticien pourra recourir à un ensemble de méthodes qui lui permettront de
prendre des décisions sur toute la population (extrapolation des résultats sur
toute la population) à partir des résultats obtenus sur l’échantillon.

Pr. El Abdi F. INSEA


5

Les statistiques dont l’Inférence Statistique en particulier,


permettent les actions suivantes :

a. Estimer un paramètre inconnu sur la base d’un échantillon


Exemple : Estimer La valeur de la dépense mensuelle des étudiants de l’INSEA
• Estimation ponctuelle : nous donne une valeur approximative de cette
dépense
• Estimation par intervalle : Un ordre de grandeur de cette dépense
(donner une zone(intervalle) dans laquelle cette dépense a de grande
chance de se trouver)

b. Effectuer un test de conformité


• Lors de la réception d’un lot de machines, vérifier si le taux de déchets
par rapport à une norme fixée est conforme. Décision : accepter ou
refuser le lot à partir de l’observation d’un échantillon
➢ Formuler des hypothèses
➢ Elaborer des règles de décision
➢ Observer un échantillon dans le lot reçu
c. Effectuer un test de comparaison
• Durée de vie de deux types de piles

d. Effectuer un test d’ajustement


• Voir si une caractéristique X de la population suit une certaine loi de
probabilité
e. Effectuer un test d’indépendance de deux caractères
f. Etc…

Pr. El Abdi F. INSEA


6

Chap 1 :

I. Echantillonnage
Le but est de déduire les informations sur la population concerné (taille 𝑁) par
l’étude statistique à travers celle d’un échantillon (taille 𝑛) qui en est extrait.

Pour une étude statistique donnée, une fois la population (taille 𝑁) cible choisit,
il faut en extraire un échantillon (taille 𝑛) qui reproduit le plus fidèlement
possible les caractères étudiés de la population.

La théorie des sondages est une discipline statistique qui répond à cette
problématique :

1. Deux types d’échantillonnage :


• Echantillonnage (Sondage) résonné : il respecte la composition
de la population et s’appuie généralement sur les micros-
trottoir, la méthode des quotas,…
• Echantillonnage aléatoire : les individues de l’échantillon sont
choisis suivant une loi de probabilité fixé.
➢ Sondage aléatoire simple : un échantillon de taille n est choisi
dans la population étudiée par tirage équiprobable
indépendant (EAS)
➢ Sondage stratifié : se traduit par initialement par une
subdivision de la population en plusieurs strates puis d’en
extraire au hasard un nombre de sous-groupes afin de
constituer l’échantillon d’étude

Remarque : Tous les concepts, formules et méthodes de notre cours


de l’IS découlent du cas de l’EAS
Pr. El Abdi F. INSEA
7

Soient :

✓ 𝑋 la v.a qui mesure le caractère à étudier dans la population


✓ 𝑋𝑖 la valeur aléatoire du caractère du 𝑖 è𝑚𝑒 tirage (𝑖 è𝑚𝑒 individu tiré) est
une v.a de même loi que 𝑋
✓ Soit 𝑥𝑖 la valeur observée du 𝑖 è𝑚𝑒 tirage est une réalisation de 𝑋𝑖 (𝑥𝑖 ∈ ℝ)
✓ (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) le vecteur aléatoire représentant le caractère étudié dans
l’échantillon, les (𝑋𝑖 )𝑖=1,𝑛 sont indépendant identiquement distribuées de
même loi que 𝑋 (i.i.d)
✓ (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) le vecteur observé représentant le caractère étudié dans
l’échantillon

La famille de distribution (lois de probabilité) (Ρθ )𝜃∈ℝ𝑝 de la variable aléatoire 𝑋


est supposée être identifiée dépendant d’un paramètre θ ∈ ℝ𝑝 .

Exemples :
a. (Ρθ = 𝒩(𝜇, 𝜎 2 ))θ= (𝜇,𝜎2)∈ℝxℝ∗
+

b. (Ρθ = 𝜉(𝜆))θ= 𝜆∈ℝ∗+


c. (Ρθ = 𝑏(𝑝))θ= 𝑝∈]0 ,1[
a. (Ρθ = P (𝜆))θ= 𝜆∈ℝ∗+
d. (Ρθ = 𝒞(𝑎))θ= 𝑎∈ℝ∗

Dans la suite, nous identifierons l’échantillon le 𝒏-uplet de variables


aléatoires (𝑿𝟏 , 𝑿𝟐 , … , 𝑿𝒏 )

Pr. El Abdi F. INSEA


8

II. Distribution et propriétés des statistiques usuelles


1. Introduction

Faire de « l’inférence statistique» sur le modèle (Ρθ )𝜃∈Θ⊂ℝ𝑝 et donc sur le


paramètre θ nécessite l’utilisation de quantités statistiques basées sur les
observations de l’échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Définition 1 : Une statistique 𝑇 est une fonction mesurable de 𝑋1 ,

𝑋2 , … , 𝑋𝑛 , 𝑇 = 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ).

Remarque : 𝑇 peut être à valeur dans ℝ ou dans ℝ𝑝 𝑝 ≥ 2; dans le cas de ℝ𝑝 ,


on parlera de statistique vectorielle.

2. Quelques statistiques usuelles dans le cadre d’un EAS

(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) avec (𝑋𝑖 )𝑖=1,𝑛 i.i.d de loi Ρθ .


1
a. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑𝑛1 𝑋𝑖 = 𝑋̅ moyenne empirique (moyenne de
𝑛
l’échantillon)
b. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = 𝑋(1) = min 𝑋𝑖
𝑖=1;𝑛
c. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = 𝑋(𝑛) = max 𝑋𝑖
𝑖=1;𝑛
d. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = 𝑋(𝑘) 𝑙𝑎 𝑘 è𝑚𝑒 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑞𝑢𝑒 𝑑 ′ 𝑜𝑟𝑑𝑟𝑒 (𝑙𝑎 𝑘 è𝑚𝑒 𝑝𝑙𝑢𝑠

𝑔𝑟𝑎𝑛𝑑𝑒 valeur des 𝑋1 , 𝑋2 , … , 𝑋𝑛 𝑝𝑎𝑟 𝑜𝑟𝑑𝑟𝑒 𝑐𝑟𝑜𝑖𝑠𝑠𝑎𝑛𝑡)

e. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = (𝑋(1) , 𝑋(2) , … . , 𝑋(𝑛) )


1
f. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑𝑛1 (𝑋𝑖 − 𝑋̅)2 = 𝑆 2 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑚𝑝é𝑟𝑖𝑞𝑢𝑒
𝑛
1
g. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑𝑛1 (𝑋𝑖 − 𝑋̅)2 = 𝑆 ′ 2 𝑞𝑢𝑎𝑠𝑖 − 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒
𝑛−1

𝑒𝑚𝑝é𝑟𝑖𝑞𝑢𝑒
1
h. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑𝑛1 (𝑋𝑖 )𝑘 𝑚𝑜𝑚𝑒𝑛𝑡 𝑒𝑚𝑝é𝑟𝑖𝑞𝑢𝑒 𝑑 ′ 𝑜𝑟𝑑𝑟𝑒 𝑘
𝑛−1
1
i. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑𝑛1 (𝑋𝑖 − 𝑋̅)𝑘 𝑚𝑜𝑚𝑒𝑛𝑡 𝑒𝑚𝑝𝑖𝑟𝑖𝑞𝑢𝑒 𝑐𝑒𝑛𝑡𝑟é𝑒
𝑛−1
𝑑 ′ 𝑜𝑟𝑑𝑟𝑒 𝑘
j. 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = (𝑋̅ , 𝑆 2 )

Pr. El Abdi F. INSEA


9

3. Distribution et propriétés de quelques statistiques usuelles

Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un n-échantillon de 𝑋 tel que : 𝐸(𝑋) = 𝑚 ; 𝑉(𝑋) = 𝜎 2 𝑒𝑡


𝜇𝑘 (𝑋) = 𝜇𝑘 = 𝐸((𝑋 − 𝑚)𝑘 ) le moment centré d’ordre 𝑘 𝑑𝑒 𝑋.

̅ et 𝑺𝟐
A. Propriétés des statistiques 𝑿

1. Relation sur les moments pour


𝜎 2
𝑎. 𝐸(𝑋̅) = 𝑚 et 𝑉(𝑋̅) =
𝑛

𝜇3 𝜇4 + 3 (𝑛−1) 𝜎 4
𝑏. 𝜇3 (𝑋̅) = et 𝜇4 (𝑋̅) =
𝑛2 𝑛3
𝑛−1
𝑐. 𝐸(𝑆 2 ) = 𝜎2 ; 𝐸(𝑆 ′ 2 ) = 𝜎 2 ;
𝑛

𝑛−1
𝑉(𝑆 2 ) = 3
[(𝑛 − 1)𝜇4 − (𝑛 − 3) 𝜎 4 ]
𝑛
1
𝑉(𝑆 ′ 2 ) = [(𝑛 − 1)𝜇4 − (𝑛 − 3) 𝜎 4 ]
𝑛(𝑛 − 1)
1
𝑉(𝑆 2 ) ≈ 𝑉(𝑆 ′ 2 ) ≈ [𝜇 − 𝜎 4 ] 𝑝𝑜𝑢𝑟 𝑛 𝑎𝑠𝑠𝑒𝑧 𝑔𝑟𝑎𝑛𝑑
𝑛 4
̅ ) et d’aplatissement 𝛾 (𝑋
d. Les coefficients d’asymétrie 𝛾1 (𝑋 ̅ ) de 𝑋̅ sont
2
donnés par :
̅
𝑋−𝑚 3
𝛾 (𝑋) 𝑋−𝑚̅ 4 𝛾2 (𝑋)−3
𝛾1 (𝑋̅) = 𝐸 (( ) ) = 1 et 𝛾2 (𝑋̅) = 𝐸 (( ) )= 3+
𝜎 𝑛 √ 𝜎 𝑛

2. Covariance entre 𝑋̅ et 𝑆 2
𝑛−1 2 𝑛−1
̅ , 𝑆 2 ) = 𝐸 [(𝑋̅ − 𝑚) (𝑆 2 −
cov(X 𝜎 )] = 𝜇3
𝑛 𝑛2
3. Loi des grands nombres
𝑝𝑠 𝑝𝑠
𝑋̅ → 𝑚 et 𝑆2 → 𝜎2

Pr. El Abdi F. INSEA


10

4. Convergence en loi
(𝑋̅−𝑚) ℒ
𝑎. √𝑛 → 𝒩(0,1)
𝜎

𝑛−1 2
𝑆2 − 𝜎 ℒ
𝑏. 𝑛 → 𝒩(0,1)
√𝑉(𝑆 2 )
de plus avec l’approximation on a :

2)
1 (𝑆 2 − 𝜎 2 ) ℒ
𝑉(𝑆 ≈ [𝜇4 − 𝜎 4 ] 𝑒𝑡 √𝑛 → 𝒩(0,1)
𝑛 √𝜇4 − 𝜎 4

Pr. El Abdi F. INSEA


11

Pr. El Abdi F. INSEA


12

Pr. El Abdi F. INSEA


13

Pr. El Abdi F. INSEA


14

Pr. El Abdi F. INSEA


15

Remarques :
a. La démonstration peut se faire dans le cas de variables aléatoires continues soit
par calcul directe, soit en utilisant les dérivées successives (lorsqu’elles existent)
de la fonction génératrice de 𝑋̅ au point 𝑡 = 0. Les relations montrées dans le
cours de probabilité

𝑛
𝑡 𝑑𝑘 𝜑𝑋 (𝑡) (𝑘)
𝜑𝑋̅ (𝑡) = 𝐸(𝑒 𝑡𝑋̅ ) = ( 𝜑𝑋 ( )) 𝐸 (𝑋 𝑘 ) = ⁄𝑡 = 0 = 𝜑𝑋 (0).
𝑛 𝑑 𝑡𝑘

b. Le 3. de la proposition montre que 𝑋̅ et 𝑆 2 sont asymptotiquement non corrélés


c. Le 4. de la proposition est d’une importance capitale en Inférence statistique
car il permet de trouver, asymptotiquement (𝑛 assez grand), un encadrement
de la moyenne théorique 𝑚 indépendamment de la connaissance explicite ou
non de la loi de 𝑋. En effet, pour un 𝛼 assez petit fixé, deux cas peuvent se
produire :

Pr. El Abdi F. INSEA


16

a. 𝝈𝟐 𝒄𝒐𝒏𝒏𝒖
(𝑋̅−𝑚)
Si on décide que 𝑃 (|√𝑛 | < 𝐶𝛼 ) = 𝑃(|𝒩(0,1)| < 𝐶𝛼 ) = 1 − α alors
𝜎
on aura :
𝜎 𝜎
𝑚 ∈ ]𝑋̅ − 𝜙1−α , 𝑋̅ + 𝜙1−α [
√𝑛 2 √𝑛 2

avec une probabilité 1 − α


α
𝜙1−α = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 ,1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − )
2 2
𝜎 𝜎
En particulier on a 𝑚 ∈ ]𝑋̅ − 1,96 , 𝑋̅ + 1,96 [ avec une probabilité
√𝑛 √𝑛
de 0,95.

b. 𝝈𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖
(𝑋̅−𝑚)
Si 𝑃 (|√𝑛 | < 𝐶𝛼 ) = 𝑃(|𝒩(0,1)| < 𝐶𝛼 ) = 1 − α alors on aura :
𝑆

𝑆 𝑆
𝑚 ∈ ]𝑋̅ − 𝜙1−α , 𝑋̅ + 𝜙1−α [
√𝑛 2 √𝑛 2

avec une probabilité 1 − α


α
𝜙1−α = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 ,1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − )
2 2
𝑆 𝑆
En particulier on a 𝑚 ∈ ]𝑋̅ − 1,96 , 𝑋̅ + 1,96 [ avec une probabilité
√𝑛 √𝑛
de 0,95

(𝑋̅−𝑚)
Pour cela si on choisit un 𝛼 assez petit de sorte que 𝑃 (|√𝑛 | < 𝐶𝛼 )
𝜎

Pr. El Abdi F. INSEA


17

𝜎 𝜎 𝑆
0n doit comprendre les intervalles ]𝑋̅ − 𝐶𝛼 , 𝑋̅ + 𝐶𝛼 [ et ]𝑋̅ − 𝐶𝛼 , 𝑋̅ +
√𝑛 √𝑛 √𝑛
𝑆
𝐶𝛼 [ comme des intervalles aléatoires qui ont une probabilité de 1 − α de contenir
√𝑛

le vrai paramètre 𝑚 et non comme des intervalles fixés auxquels 𝑚 aléatoire


appartient avec une probabilité 1 − α. Il est à noter que malheureusement les tailles
des échantillons ne sont pas toujours grandes pour justifier le recours aux propriétés
asymptotiques.

Exemple d’illustration : Pour rendre plus concrets certains concepts,


servons-nous de l’exemple suivant. Supposons que notre population totale
soit composée de 20 nombres qui vont de 1 à 9. À l’aide de l’ordinateur, 3
échantillons différents ont été choisis. Le premier représente 20 % de la
population des 20 nombres, le deuxième, 40 %, et le troisième 80 %. Le
résultat de cette sélection aléatoire se trouve dans le tableau qui suit. On
rappelle que dans ce cas, le nombre total d’échantillons de taille 𝑛 est 20𝑛 .

Population Échantillons
Paramètres et 100 % 20 % 40 % 80 %
statistiques

Individus 562385 5638


143753 2351 2854 1 4 3 57 2
9 2 5 7 86 5927 578641
41
Moyenne 4,70 2,75 (1,95) 5,25 (0,50) 4,69 (0,01)
Écart-type 2,36 1,71 (0,65) 2,60 (0,24) 2,27 (0,09)

Pour chacun d’eux nous avons calculé la moyenne et l’écart-type. Ensuite,


nous avons calculé la différence de chacune de ces statistiques avec les
paramètres de la population. La moyenne estimative de l’échantillon de 20
% est de 2,75 et sa différence avec la moyenne de la population (4,70) est de
1,95. En fait, l’erreur d’échantillonnage quant à la moyenne est de 1,95.

Pr. El Abdi F. INSEA


18

Par ailleurs, quant à l’échantillon de 80 %, l’erreur d’échantillonnage est


minime, 0,01. On observe que, plus l’échantillon se rapproche de la
population, moins appréciables sont les différences entre les paramètres et
les statistiques.
Cette fois-ci, tirons 3 échantillons successifs de 20 % chacun. Nous
serons, ainsi, en mesure de constater si la variation entre les statistiques
seulement est minime ou considérable.

Population Échantillons
Paramètres et 100 % 20 % 20 % 20 %
statistiques
562385 5147 2457 1579
Individus 1433579
2578641

Moyenne 4,70 4,25 4,50 5,50


Écart-type 2,36 2,50 2,08 3,41

Les résultats obtenus pour le 3e échantillon à la droite du tableau montrent


bien à quel point il est nécessaire de ne pas trop se fier aux statistiques d’un
échantillon restreint et peu représentatif. En fait, si l’échantillon est restreint,
il risque fort d’être peu représentatif.

I. Cas où 𝑿 ↝ 𝓝(𝒎, 𝝈𝟐 )

1 1 𝑥−𝑚 2
𝑓𝑋 (𝑥) = 𝜎√2𝜋 𝑒𝑥𝑝 (− 2 ( ) ) 𝑥𝜖ℝ
𝜎

𝑥
Pas de forme analytique explicite de la f.r de 𝑋 donnée par 𝐹𝑋 (𝑥) = ∫−∞ 𝑓𝑋 (𝑡)𝑑𝑡

𝐸(𝑋) = 𝑚 et 𝑉(𝑋) = 𝜎 2
𝑡2 𝜎2
( + 𝑡𝑚)
La fonction génératrice est donnée par : 𝑀𝑋 (𝑡) = 𝑒 2 𝑡𝜖ℝ
𝑥 𝑥 1 1
Pour 𝑋 ↝ 𝒩(0,1) on notera 𝜙 sa f.r : 𝜙(𝑥) = ∫−∞ 𝑓𝑋 (𝑡)𝑑𝑡 = ∫−∞ 𝑒𝑥𝑝 (− 2 𝑡 2 ) 𝑑𝑡
√2𝜋

𝑡2
La fonction génératrice est donnée par ∶ 𝑀𝑋 (𝑡) = 𝑒 2 𝑡𝜖ℝ

Pr. El Abdi F. INSEA


19

Remarques :

➢ La loi 𝒩(0,1) est appelée loi normale centrée réduite


𝑋−𝑚
➢ Si 𝑋 ↝ 𝒩(𝑚, 𝜎 2 ) alors la variable aléatoire 𝑍 = est 𝒩(0,1).
𝜎

1 1
𝑓𝑍 (𝑧) = 𝑒𝑥𝑝 (− 𝑧 2 ) ∀𝑧𝜖ℝ
√2𝜋 2

a. Remarques et Rappels sur quelques lois Usuelles :

✓ Loi Uniforme Loi uniforme sur un intervalle [𝒂 , 𝒃]

Définition 2 : Pour 𝑋 ↝ 𝑈[𝒂 ,𝒃] on a :

1
𝑠𝑖 𝑥𝜖[𝑎 , 𝑏]
1 𝑏 − 𝑎
𝑓𝑋 (𝑥) = 𝕝[𝑎 ,𝑏] (𝑥) =
𝑏 − 𝑎
0 𝑠𝑖 𝑥 ∉ [𝑎 , 𝑏]
{

1 𝑠𝑖 𝑥 ≥ 𝑏
𝑥−𝑎
𝐹𝑋 (𝑥) = { 𝑠𝑖 𝑥𝜖[𝑎 , 𝑏]
𝑏−𝑎
0 𝑠𝑖 𝑥 ≤ 𝑎
𝑏−𝑎 (𝑏−𝑎)2 𝑏 𝑘+1 −𝑎𝑘+1
𝐸(𝑋) = 𝑉(𝑋) = 𝐸(𝑋 𝑘 ) = (𝑏−𝑎)
2 12

𝑒 𝑡𝑏 − 𝑒 𝑡𝑎
𝑠𝑖 𝑡 ≠ 0
𝑀𝑋 (𝑡) = (𝑏 − 𝑎) 𝑡

{ 1 𝑠𝑖 𝑡 = 0

✓ Loi gamma de paramètres 𝒂 et 𝒃 positifs et loi khi-deux à 𝒏 degrés


de libertés 𝒏 ∈ ℕ∗
𝑏𝑎
Définition3 : 𝑋 ↝ 𝐺(𝑎 , 𝑏) 𝑓𝑋 (𝑥) = 𝑥 𝑎−1 𝑒𝑥𝑝(−𝑏𝑥) 𝑥 𝜖 ℝ+
Γ(𝑎)

+∞
où Γ(𝑎) = ∫0 𝑥 𝑎−1 𝑒𝑥𝑝(−𝑥) 𝑑𝑥
𝑎 𝑎
𝐸(𝑋) = 𝑏 et 𝑉(𝑋) = 𝑏2

𝑏𝑎
𝑀𝑋 (𝑡) = 𝑡<𝑏
(𝑏 − 𝑡)𝑎

Pr. El Abdi F. INSEA


20

✓ Loi khi-deux à 𝒏 degrés de libertés 𝒳𝑛2 :

𝑛 1
Définition 4 : Pour 𝑛 ∈ ℕ∗ , la loi 𝐺(2 , 2) est appelée loi khi-deux à 𝒏 degrés de
libertés elle est notée 𝒳𝑛2 et on a ;
𝑛
1 1
𝑓𝑋 (𝑥) = 𝑛
𝑛
𝑥 ( 2 −1) 𝑒𝑥𝑝 (− 2 𝑥) 𝑥 𝜖 ℝ+
22 Γ( )
2

𝐸(𝑋) = 𝑛 et 𝑉(𝑋) = 2𝑛

1 1
𝑀𝑋 (𝑡) = 𝑛 𝑡<2
(1 − 2𝑡) 2

✓ Loi exponentielle de paramètre 𝝀

Définition 5 : Pour 𝜆 ∈ ℝ∗+ , la loi 𝐺(1 , 𝜆) est appelée loi exponentielle de paramètre 𝜆

elle est notée 𝜉(𝜆) et on a :

𝑓𝑋 (𝑥) = 𝜆 𝑒𝑥𝑝(−𝜆𝑥) ∀ 𝑥 𝜖 ℝ+
1 1
𝐸(𝑋) = 𝜆 et 𝑉(𝑋) = 𝜆2

𝜆
𝑀𝑋 (𝑡) = (𝜆−𝑡)𝑎
𝑡 <𝜆

✓ Loi de Student à n degrés de liberté 𝑻𝒏

Définition 6 : Soient 𝑋 et 𝑌 deux v.a.r. indépendantes telles que :

𝑋 ↝ 𝒩(0,1) et 𝑌 ↝ 𝒳𝑛2 alors la loi de la v.a.r. définie par :

𝑋 𝑋
𝑇𝑛 = = √𝑛
√𝑌
√𝑌⁄𝑛

est appelé loi de Student à 𝑛 degrés de liberté et elle est notée 𝑇𝑛 ; 𝑡𝑛 ou 𝑡(𝑛).

𝑛+1 −
𝑛+1
Γ( 2 )
1 𝑥2 2
𝑓𝑇𝑛 (𝑥) = (1 + ) 𝑥𝜖ℝ
√𝑛𝜋 Γ (𝑛) 𝑛
2
𝑛
𝐸(𝑇𝑛 ) = 0 pour 𝑛 > 1 et 𝑉(𝑇𝑛 ) = 𝑛−2 pour 𝑛 > 2

Pr. El Abdi F. INSEA


21

✓ Loi de Fisher de paramètres 𝒏 et 𝒑 𝓕(𝒏, 𝒑)

Définition 7 : Soient 𝑋 et 𝑌 deux v.a.r. indépendantes telles que : 𝑋 ↝ 𝒳𝑛2 et


𝑋⁄
𝑛
𝑌 ↝ 𝒳𝑝2 alors la loi de la v.a.r. ℱ𝑛,𝑝 = 𝑌⁄ est appelée loi de Fisher de
𝑝
paramètres 𝑛 et 𝑝 et elle est notée ℱ(𝑛, 𝑝).
𝑛 𝑝
𝑛𝑥 2 𝑛𝑥 2
( ) (1− )
𝑛𝑥+𝑝 𝑛𝑥+𝑝
𝑓𝑛,𝑝 (𝑥) = 𝑛 𝑝 𝑥 𝜖 ℝ∗+
𝛽( 2 , 2 ) 𝑥

𝑝 2𝑝2 (𝑛+𝑝−2)
𝐸(ℱ𝑛,𝑝 ) = pour 𝑝 > 2 et 𝑉(ℱ𝑛,𝑝 ) = pour 𝑝 > 4
𝑝−2 𝑛(𝑝−2)2 (𝑝−4)

Conséquences :
1
a. La v.a.r. ↝ ℱ𝑝,𝑛
ℱ𝑛,𝑝
b. La v.a.r. (𝑇𝑛 )2 ↝ ℱ1,𝑛

: (Admis la démonstration sera faite en 2ème année


cours de Statistiques Multivariées)

Soit 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un vecteur aléatoire de loi 𝒩𝑛 (0, 𝜎 2 𝐼) où est la matrice


d’identité d’ordre 𝑛. Soient 𝑉1 ⊕ 𝑉2 ⊕ … ⊕ 𝑉𝑝 une décomposition de ℝ𝑛 en
sous espace vectoriels orthogonaux de dimension respectives 𝑟1 , 𝑟2 , … , 𝑟𝑝 . Alors
les projections orthogonales Π1 , Π2 , … , Π𝑝 𝑑𝑒 𝑋 sur 𝑉1 , 𝑉2 , … , 𝑉𝑝 sont des
vecteurs indépendants et pour chaque 𝑖 = 1; 𝑝 on a :

1
2
‖Π𝑖 (𝑋)‖22 ↝ 𝒳𝑟2𝑖 𝑖 = 1; 𝑝
𝜎

Pr. El Abdi F. INSEA


22

:
Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛 − échantillon de 𝑋 ↝ 𝒩(𝑚, 𝜎 2 )

𝜎2
𝑎. 𝑋̅ ↝ 𝒩 (𝑚, )
𝑛

𝑏. 𝑋̅ et 𝑆 2 sont indépendants

(𝑛 − 1) 𝑆 ′2 𝑛 𝑆 2 2
𝑐. 2
= 2 ↝ 𝒳𝑛−1
𝜎 𝜎

Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛 − échantillon de 𝑋 ↝ 𝒩(𝑚, 𝜎 2 ) alors on a :

(𝑋̅ − 𝑚) (𝑋̅ − 𝑚)
√𝑛 − 1 = √𝑛 ↝ 𝑇𝑛−1
𝑆 𝑆′

Remarque : L’introduction de l’écart type aléatoire de l’échantillon 𝑆 ′ (𝑆) au


dénominateur quand 𝜎 2 est inconnue modifie la loi normal 𝒩(0,1) en une loi
de student 𝑇𝑛−1 provoquant un étalement des queux de la distribution plus
accentué.

Pr. El Abdi F. INSEA


23

Démonstration :

Pr. El Abdi F. INSEA


24

Pr. El Abdi F. INSEA


25

1. Comparaison de moyennes de deux échantillons gaussiens


indépendants de même variance 𝝈𝟐
Dans certaines études statistiques on est ramené à comparer les moyennes d’un caractère
étudié sur deux ou plusieurs populations indépendantes. Dans le cas de deux populations ou
le caractère est supposé suivant une loi normale, on procède la manière suivante :

1. On tire un 𝑛1 -échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) de loi 𝑋 ↝ 𝒩(𝑚1 , 𝜎 2 ) dans la population 1


2. On tire un 𝑛2 -échantillon (𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) de loi 𝑌 ↝ 𝒩(𝑚2 , 𝜎 2 ) dans la population 2

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de loi 𝑋 ↝ 𝒩(𝑚1 , 𝜎 2 )


et (𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) un 𝑛2 -échantillon de loi 𝑌 ↝ 𝒩(𝑚2 , 𝜎 2 ). Si 𝑋 et indépendant
de 𝑌 on a :

a. Si 𝝈𝟐 𝒄𝒐𝒏𝒏𝒖
(𝑋̅−𝑌̅)−(𝑚1 −𝑚2 )
1 1
↝ 𝒩(0 , 1)
𝜎√ +
𝑛1 𝑛2

b. Si 𝝈𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖

Soient 𝑆𝑋2 la variance empirique de (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) et 𝑆𝑌2 la variance empirique


(𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) Posons :
𝑛1 𝑛2
𝑛1 𝑆𝑋2 + 𝑛2 𝑆𝑌2 1 2
1. 2
𝑆𝑋𝑌 = = [∑ (𝑋𝑖 − 𝑋̅)2 + ∑ (𝑌𝑗 − 𝑌̅) ]
𝑛1 + 𝑛2 𝑛1 + 𝑛2
𝑖=1 𝑗=1

′2
𝑛1 + 𝑛2
2. 𝑆𝑋𝑌 = 𝑆2
𝑛1 + 𝑛2 − 2 𝑋𝑌

′2 )
Alors on a : 𝑖. 𝐸(𝑆𝑋𝑌 = 𝜎2

2
(𝑛1 + 𝑛2 )𝑆𝑋𝑌 ′2
(𝑛1 + 𝑛2 − 2)𝑆𝑋𝑌 2
𝑖𝑖. 2
= 2
↝ 𝒳(𝑛 1 +𝑛2 −2)
𝜎 𝜎

(𝑋̅ − 𝑌̅) − (𝑚1 − 𝑚2 )


𝑖𝑖𝑖. ↝ 𝑇𝑛1+𝑛2−2
′ 1 1
𝑆𝑋𝑌 √ +
𝑛1 𝑛2

Pr. El Abdi F. INSEA


26

Pr. El Abdi F. INSEA


27

Pr. El Abdi F. INSEA


28

2. Comparaison de moyennes de deux échantillons gaussiens


indépendants de variances 𝝈𝟐𝟏 et 𝝈𝟐𝟐 différentes

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de loi 𝑋 ↝ 𝒩(𝑚1 , 𝜎12 ) et


(𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) un 𝑛2 -échantillon de loi 𝑌 ↝ 𝒩(𝑚2 , 𝜎22 ), où 𝜎12 ≠ 𝜎22 connues.
Si 𝑋 et indépendant de 𝑌 on a :

(𝑋̅−𝑌̅ )−( 𝑚1 − 𝑚2 )
↝ 𝒩(0 , 1)
𝜎2 𝜎2
√ 1+ 2
𝑛1 𝑛2

Démonstration : on a :
𝜎 2 𝜎 2
𝑋̅ ↝ 𝒩 (𝑚1 , 1 ) et 𝑌̅ ↝ 𝒩 (𝑚2 , 2 ) de plus 𝑋̅ et 𝑌̅ sont indépendant
𝑛1 𝑛2

𝜎 𝜎 2 2 (𝑋̅−𝑌̅ )−( 𝑚1 − 𝑚2 )
⇒ (𝑋̅ − 𝑌̅ ) ↝ 𝒩 ( 𝑚1 − 𝑚2 , 1 + 2 ) ⇒ ↝ 𝒩(0 , 1)
𝑛1 𝑛2
𝜎2 𝜎2
√ 1+ 2
𝑛1 𝑛2

Pr. El Abdi F. INSEA


29

Remarque : Dans le cas 𝑋 ↝ 𝒩(𝑚1 , 𝜎12 ) et 𝑌 ↝ 𝒩(𝑚2 , 𝜎22 ) où 𝜎12 ≠ 𝜎22


inconnues, il n’y a pas de « statistique » facile qui possède une distribution
usuelle.

3. Comparaison des variances de deux échantillons gaussiens


indépendants

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de loi 𝑋 ↝ 𝒩(𝑚1 , 𝜎12 ) et


(𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) un 𝑛2 -échantillon de loi 𝑌 ↝ 𝒩(𝑚2 , 𝜎22 ). Si 𝑋 et indépendant de
𝑌 on a :

𝑆𝑋′2 𝑛1 𝑆𝑋2 𝑆𝑋2


𝑛1 (𝑛2 − 1)
𝜎12 (𝑛1 − 1) 𝜎12 𝜎12
= = ↝ ℱ(𝑛1−1) ,(𝑛2 −1)
𝑆𝑌′2 𝑛2 𝑆𝑌2 𝑆𝑌2
(𝑛
𝑛2 1 − 1) 2
𝜎22 (𝑛2 − 1) 𝜎22 𝜎2

Dans le cas où 𝜎12 = 𝜎22 la statistique précédente ne dépend plus des variances
des deux échantillons et on a :

𝑆𝑋′2 𝑛1 (𝑛2 − 1) 𝑆𝑋2


= ↝ ℱ(𝑛1 −1) ,(𝑛2−1)
𝑆𝑌′2 𝑛2 (𝑛1 − 1) 𝑆𝑌2

Et si de plus 𝑛1 = 𝑛2 = 𝑛 on a :

𝑆𝑋′2 𝑆𝑋2
= ↝ ℱ(𝑛−1) ,(𝑛−1)
𝑆𝑌′2 𝑆𝑌2

Démonstration :

Pr. El Abdi F. INSEA


30

Exemple :
a. Dans une usine, une machine sous contrôle fabrique des pièces avec un
poids 𝑋 qui suit une loi normale 𝒩(10 , (0,1)2 ).

Pr. El Abdi F. INSEA


31

1. Si on fixe la norme de fonctionnement de la machine à 10 g ± 0,3 g.


Calculer 𝑃(9,7 < 𝑋 < 10,3)
2. On tire un échantillon de 16 pièces (EAS), quelle est la probabilité que la
moyenne empirique 𝑋̅ des poids de ces pièces soit comprise entre 9,7 g
et 10,3g ? Quelle est la probabilité que cette moyenne empirique 𝑋̅ soit
supérieure à 10,5g.
b. On suppose que 𝑋 qui suit une loi normale 𝒩 (𝑚 , (0,1)2 )

Calculer la probabilité pour que l’écart type empirique 𝑆 d’un n-échantillon de


𝑋 soit supérieur à une valeur donnée 𝑟 > 𝑂, inférieur à une valeur donnée 𝑡 >
0 et appartenant à un intervalle ]𝑟 , 𝑡 [.

Application : 𝑛 = 10, 𝑟 = 0,15 𝑒𝑡 𝑡 = 0,2

c. On suppose que 𝑋 qui suit une loi normale 𝒩 (10𝑔 , (0,02𝑔)2 ) et 𝑛 = 36

Donner un intervalle contenant l’écart type 𝑆 avec une probabilité de 0,85

d. On suppose que dans la même usine une seconde machine produit les mêmes

pièces indépendamment de la première dont le poids 𝑌 ↝ 𝒩 (𝑚2 , 𝜎22 ), et que

𝑋 ↝ 𝒩 (𝑚1 , 𝜎12 ). On tire un échantillon (EAS) de 𝑋 de taille 𝑛1 et un autre de

𝑌 de taille 𝑛2 .

1. Donner l’expression 𝑃(𝑋̅ − 𝑌̅ > 𝑟) dans les deux cas où :


✓ 𝜎12 et 𝜎22 connues.

Application numérique : 𝜎12 = (0,1)2 , 𝜎22 = (0,09)2 , 𝑚1 = 10 , 𝑚2 = 8 et


𝑟 = 2 ; 2,05 ; 2,1

✓ 𝜎12 = 𝜎22 = 𝜎 2 inconnues et 𝑚1 , 𝑚2 quelconques


2. Donner l’expression de 𝑃(𝑆𝑋2 > 𝑟 𝑆𝑌2 ) en fonction de 𝜎12 et 𝜎22 pour
𝑚1 , 𝑚2 quelconques et 𝑟 fixé.

Application numérique : 𝜎12 = (0,1)2 , 𝜎22 = (0,09)2

Réponse :
−0,3 𝑋 − 10 0,3 𝑋 − 10
1. 𝑃(9,7 < 𝑋 < 10,3) = 𝑃 ( < < ) = 2𝑃( < 3) − 1
0,1 0,1 0,1 0,1

= 2 (𝑃 (𝒩 (0 , 1) < 3)) − 1 = 0,9962

Pr. El Abdi F. INSEA


32

Cela signifie que lorsque la machine est contrôlée, on doit s’attendre à ce que 0,9962
des pièces ait un poids entre 9,7 g et 10,3 g.

−0,3 𝑋̅ − 10 0,3
2. 𝑖. 𝑃(9,7 < 𝑋̅ < 10,3) = 𝑃 ( <
√16 √16 ( )< √16)
0,1 0,1 0,1

= 2 (𝑃 (𝒩 (0 , 1) < 12)) − 1 = 1

𝑋 −10 0,5 ̅
𝑖𝑖. 𝑃(𝑋̅ > 10,5) = 1 − 𝑃(𝑋̅ < 10,5) = 1 − 𝑃 (√16 ( ) < √16)
0,1 0,1

= 1 − 𝑃(𝒩 (0 , 1) < 20) ≈ 0

Remarque : Si la fabrication donne des poids distribués suivant une loi


𝒩 (10 , 𝜎 2 ) 𝑜ù 𝜎 est inconnue, on ne peut plus calculer le pourcentage des pièces
répondant à la norme fixée (10 g ± 0,3 g), même si on remplace 𝜎 2 par la variance
empirique 𝑆 2 ou par 𝑆 ′2 . En effet les probabilités suivantes ne peuvent pas être
calculées du fait que 𝑆 et 𝑆 ′ sont des variables aléatoires :

−0,3 𝑋−10 0,3 0,3


𝑃(9,7 < 𝑋 < 10,3) = 𝑃 ( < < ) = 𝑃 (|𝑇𝑛−1 | < )
𝑆′ 𝑆′ 𝑆′ 𝑆′

−0,3 𝑋̅ −10 0,3 0,3


𝑃(9,7 < 𝑋̅ < 10,3) = 𝑃 ( √𝑛 < √𝑛 ( )< √𝑛) = 𝑃 (|𝑇𝑛−1 | < √𝑛)
𝑆′ 𝑆′ 𝑆′ 𝑆′

II. Cas où la loi de 𝑿 n’est pas normale


Fréquence empirique

La population est supposée être composée de deux parties. Les individus possédant
la modalité 𝐴 et ceux possédant la modalité 𝐵 = 𝐴̅ avec les proportions respectives
𝑝 et (1 − p). On tire un 𝑛-échantillon (EAS) au hasard de la population
(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) où :
1 𝑆𝑖 𝑖 𝑝𝑜𝑠𝑠è𝑑𝑒 𝑙𝑎 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é 𝐴
𝑋𝑖 = {
0 𝑆𝑖𝑛𝑜𝑛
Alors on a :
✓ (𝑋𝑖 )𝑖=1,𝑛 𝑠𝑜𝑛𝑡 𝑖. 𝑖. 𝑑 𝑑𝑒 loi de bernouilli 𝑏(𝑝).𝐸 (𝑋𝑖 ) = 𝑝 ; 𝑉 (𝑋𝑖 ) = 𝑝(1 − 𝑝)
✓ 𝑆𝑛 = ∑𝑛𝑖=1 𝑋𝑖 suit une loi binomiale 𝐵(𝑛 , 𝑝). C’est une statistique.

Pr. El Abdi F. INSEA


33

𝑆𝑛 ∑𝑛
𝑖=1 𝑋𝑖
Définition 2 : la statistique définie par : 𝐹𝑛 = =
𝑛 𝑛

est appelée fréquence empirique du 𝑛-échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Propriétés
𝑝(1−𝑝)
1. 𝑛𝐹𝑛 suit une loi binomiale 𝐵(𝑛 , 𝑝) de plus 𝐸 (𝐹𝑛 ) = 𝑝 et 𝑉 (𝐹𝑛 ) =
𝑛
𝑝𝑠
2. 𝐹𝑛 → 𝑝 (𝑙𝑜𝑖 𝑑𝑒𝑠 𝑔𝑟𝑎𝑛𝑑𝑠 𝑛𝑜𝑚𝑏𝑟𝑒𝑠)
(𝐹𝑛 −𝑝) ℒ
3. √𝑛 → 𝒩 (0,1) (𝑡ℎé𝑜𝑟è𝑚𝑒 𝑑𝑒 𝑙𝑖𝑚𝑖𝑡𝑒 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑒)
√𝑝(1−𝑝)

Remarque : De manière générale on peut étendre la définition précédente de


la fréquence empirique de la manière suivante :
Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon (EAS) issu de 𝑋 ↝ 𝑃𝜃 , pour tout 𝑥 ∈ ℝ
on définit les variables aléatoires :
1 𝑆𝑖 𝑋𝑖 ≤ 𝑥
𝑍𝑖 = 𝕝𝑋𝑖≤𝑥 = { ∀ 𝑖 = 1; 𝑛
0 𝑆𝑖𝑛𝑜𝑛
Alors on a :
1. 𝑃(𝑍𝑖 = 1) = 𝑃(𝑋 ≤ 𝑥) = 𝐹𝑋 (𝑥) et 𝑃(𝑍𝑖 = 0) = 𝑃(𝑋 > 𝑥) = 1 − 𝐹𝑋 (𝑥)
2. (𝑍𝑖 )𝑖=1,𝑛 sont 𝑖. 𝑖. 𝑑 de loi de bernouilli 𝑏(𝐹𝑋 (𝑥))
3. 𝑆𝑛 = ∑𝑛𝑖=1 𝑍𝑖 suit une loi binomiale 𝐵(𝑛 , 𝐹𝑋 (𝑥)). C’est une Statistique
représentant le nombre d’observations inférieures ou égales à 𝑥.

𝑆𝑛 ∑𝑛
𝑖=1 𝑍𝑖
Définition 3 : la statistique définie par : 𝐹𝑛 = =
𝑛 𝑛

est appelée fonction de répartition empirique du 𝑛-échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Pr. El Abdi F. INSEA


34

Propriétés
1. 𝑛𝐹𝑛 suit une loi binomiale 𝐵(𝑛 , 𝐹𝑋 (𝑥)) et donc 𝐸(𝐹𝑛 ) = 𝐹𝑋 (𝑥) et
𝐹𝑋 (𝑥)(1 − 𝐹𝑋 (𝑥))
𝑉(𝐹𝑛 ) =
𝑛
𝑝𝑠
2. 𝐹𝑛 → 𝐹𝑋 (𝑥) (𝑙𝑜𝑖 𝑓𝑜𝑟𝑡𝑒 𝑑𝑒𝑠 𝑔𝑟𝑎𝑛𝑑𝑠 𝑛𝑜𝑚𝑏𝑟𝑒𝑠)
(𝐹𝑛 −𝐹𝑋 (𝑥)) ℒ
3. √𝑛 → 𝒩(0,1) (𝑡ℎé𝑜𝑟è𝑚𝑒 𝑑𝑒 𝑙𝑖𝑚𝑖𝑡𝑒 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑒)
√𝐹𝑋 (𝑥)(1−𝐹𝑋 (𝑥))

Pr. El Abdi F. INSEA


35

III. Statistiques d’ordre et de rang


Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon de 𝑋 ↝ 𝑃𝜃 et (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) 𝑛
observations de (𝑋1 , 𝑋2 , … , 𝑋𝑛 ), on note 𝑥(1) ≤ 𝑥(2) ≤ ⋯ ≤ 𝑥(𝑛) ces
𝑛 observations rangées dans l’ordre croissant

Définition 4 : La statistique d'ordre associée à l'échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) est


le vecteur 𝑍 = (𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ). 𝑋(𝑖) est appelée la 𝑖 è𝑚𝑒 statistique d’ordre

Remarque :
• La statistique 𝑍 est à valeurs dans l’ensemble suivant :
̃ 𝑛 = {(𝑦1 , 𝑦2 , … , 𝑦𝑛 ) ∈ ℝ𝑛 / 𝑦1 ≤ 𝑦2 ≤ ⋯ ≤ 𝑦𝑛 }

• 𝑋(1) = min 𝑋𝑖 et 𝑋(𝑛) = max 𝑋𝑖
𝑖=1;𝑛 𝑖=1;𝑛

La statistique d'ordre contient toute l'information de l'échantillon de départ,


sauf l'ordre dans lequel les observations ont été obtenues. Cet ordre est indiqué
par les rangs 𝑟𝑖 des observations

Exemple 1 : (sans ex-aequo) : n = 5


𝑥𝑖 2.3 -3.5 1.7 0.5 -1.4
𝑥(𝑖) -3.5 -1.4 0.5 1.7 2.3
𝑟𝑖 2 5 4 3 1

Exemple 2 : (avec ex-aequo) : n = 5


𝑥𝑖 0,5 -3.5 1.7 0.5 -1.4
𝑥(𝑖) -3.5 -1.4 0.5 0,5 1,7
𝑟𝑖 3 1 5 3 2

Pr. El Abdi F. INSEA


36

Définition 5 : La statistique de rang associée à l'échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) est


le vecteur 𝑅 = (𝑅1 , 𝑅2 , … , 𝑅𝑛 ) tel que ∀ 𝑖 ∈ {1 ; 2 ; … ; 𝑛}

𝑅𝑖 = 1 + ∑ 𝕝𝑋𝑗< 𝑋𝑖
𝑗=1

= 1 + 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑 ′ 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 𝑠𝑡𝑟𝑖𝑐𝑡𝑒𝑚𝑒𝑛𝑡 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟𝑒𝑠 à 𝑋𝑖


= 𝑟𝑎𝑛𝑔 𝑑𝑒 𝑋𝑖 𝑑𝑎𝑛𝑠 𝑙 ′ é𝑐ℎ𝑎𝑛𝑡𝑖𝑜𝑛 𝑜𝑟𝑑𝑜𝑛𝑛é

Le rang 𝑅𝑖 de la 𝑖 è𝑚𝑒 observation de 𝑋𝑖 est aussi appelée la 𝑖 è𝑚𝑒 statistique


de rang.

Remarque : on ne définit pas 𝑅𝑖 comme le nombre d'observations inférieures


ou égales à 𝑋𝑖 , pour pouvoir traiter le cas des ex-aequo.

Propriété : Si on connait les statistiques d'ordre et de rang, on peut


reconstruire l'échantillon initial car 𝑋𝑖 = 𝑋(𝑅𝑖)

On constate que s'il n'y a pas d'ex-aequo dans l'échantillon, les rangs seront les
entiers de 1 à 𝑛 dans un ordre quelconque. On est sûrs de ne pas avoir d'ex-aequo si
et seulement ∀ (𝑖, 𝑗) ∈ {1 ; 2 ; … ; 𝑛}2 𝑖 ≠ 𝑗 ⇒ 𝑃(𝑋𝑖 = 𝑋𝑗 ) = 0. En théorie,
c'est bien ce qui se passe si la loi des 𝑋𝑖 est continue. Mais en pratique, même si
cette loi est continue, il est possible qu'il y ait des ex-aequo, du fait de la
limitation de la précision des mesures et des erreurs d'arrondis. Il faudra donc
être très attentifs à la présence d'ex-aequo dans les données. Sur le plan
théorique, nous éviterons cette difficulté en nous limitant aux lois continues.

Pr. El Abdi F. INSEA


37

Si (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon de 𝑋 ↝ 𝑃𝜃 continue, on a :

1. 𝑅 suit une loi uniforme sur l'ensemble Σ𝑛 des permutations des entiers de
1 à 𝑛.
2. Les statistiques d'ordre et de rang sont indépendantes.

Démonstration :
a. La loi est continue donc il n'y a pas d'ex-aequo. Les 𝑅𝑖 prennent toutes les
valeurs entières de 1 à 𝑛, donc 𝑅 est bien à valeurs dans Σ𝑛 . Puisque les
𝑋𝑖 sont indépendantes et de même loi, elles sont interchangeables et les
permutations sont équiprobables, d'où le résultat.
∀ 𝑟 = (𝑟1 , 𝑟2 , … , 𝑟𝑛 ) ∈ Σ𝑛 , 𝑜𝑛 𝑎 :

1 1
𝑃(𝑅 = 𝑟) = 𝑃(𝑅1 = 𝑟1 , 𝑅2 = 𝑟2 , … , 𝑅𝑛 = 𝑟𝑛 ) = =
𝑐𝑎𝑟𝑑(Σ𝑛 ) 𝑛!
Exemple : Pour 𝑛 = 3, on a :

𝑃(𝑋1 < 𝑋2 < 𝑋3 ) = 𝑃 (𝑋2 < 𝑋1 < 𝑋3 ) = 𝑃(𝑋1 < 𝑋3 < 𝑋2 ) = 𝑃(𝑋2 < 𝑋3 < 𝑋1 )
1
= 𝑃(𝑋1 < 𝑋2 < 𝑋3 ) = 𝑃(𝑋3 < 𝑋2 < 𝑋1 ) = 𝑃(𝑋3 < 𝑋1 < 𝑋2 ) =
6

̃ 𝑛 et 𝑟 ∈ Σ𝑛 on a :
b. Il faut montrer que pour tout borélien 𝐵 de ℝ
𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 , 𝑅 = 𝑟) = 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵) 𝑃(𝑅 = 𝑟)

Exemple : Pour 𝑛 = 2 et 𝐵 = [2 , 3]x[4 , 7] on a :


𝑃 ((𝑋(1) , 𝑋(2) ) ∈ [2 , 3]x[4 , 7] , 𝑅 = (2 , 1)) = 𝑃(𝑋2 ∈ [2 , 3] , 𝑋1 ∈ [4 , 7])

= 𝑃(𝑋1 ∈ [2 , 3] , 𝑋2 ∈ [4 , 7]) = 𝑃(𝑋1 ∈ [2 , 3]) 𝑃(𝑋2 ∈ [2 , 3])


= 𝑃((𝑋1 , 𝑋2 ) ∈ [2 , 3]x[4 , 7] )
Plus généralement on aura :

𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 , 𝑅 = 𝑟) = 𝑃((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∈ 𝐵)

Pr. El Abdi F. INSEA


38

⇒ 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 ) = ∑ 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 , 𝑅 = 𝑟)


𝑟∈Σ𝑛

= ∑𝑟∈Σ𝑛 𝑃((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∈ 𝐵) = 𝑛! 𝑃((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∈ 𝐵)

⇒ 𝑃((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∈ 𝐵) = 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 , 𝑅 = 𝑟)


1
= 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 )
𝑛!
= 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵) 𝑃(𝑅 = 𝑟)

⇒ 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 , 𝑅 = 𝑟) = 𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵) 𝑃(𝑅 = 𝑟)

⇒ (𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) et 𝑅 sont indépendants

Remarque :
➢ La principale conséquence de ce théorème est que la loi de 𝑅 ne dépend
pas de la loi des 𝑋𝑖 . On en déduit que toute variable aléatoire qui ne
s'exprime qu'à l'aide des rangs des observations a une loi de probabilité
indépendante de la loi de ces observations. C'est bien ce qu'on cherche à
obtenir en statistique non paramétrique, où la loi des observations
n'appartient pas à une famille paramétrée connue. On pourra donc faire
de l'estimation et des tests non paramétriques à partir des rangs des
observations.
➢ Il n'y a pas d’équivalent de ce théorème pour les lois non continues, ce
qui limite beaucoup l'intérêt de la statistique non paramétrique basée sur
les rangs dans ce cas.
➢ Toute fonction symétrique des observations initiales est une fonction des
statistiques d'ordre. Par exemple, 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 = ∑𝑛𝑖=1 𝑋(𝑖)

Pr. El Abdi F. INSEA


39

Proposition 1 : Si la loi des 𝑋𝑖 est continue de densité 𝑓 , 𝑍 = (𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) )


admet pour densité :
𝑛

𝑓𝑍 (𝑧1 , 𝑧2 , … , 𝑧𝑛 ) = 𝑛! ∏ 𝑓( 𝑧𝑖 ) 𝕝ℝ̃𝑛 (𝑧1 , 𝑧2 , … , 𝑧𝑛 )


𝑖=1

̃𝑛 :
Démonstration : On a montré que pour tout borélien 𝐵 de ℝ
𝑃 ((𝑋(1) , 𝑋(2) , … , 𝑋(𝑛) ) ∈ 𝐵 ) = 𝑛! 𝑃((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ∈ 𝐵)

∫ 𝑓𝑍 (𝑧1 , 𝑧2 , … , 𝑧𝑛 ) 𝕝𝐵 (𝑧1 , 𝑧2 , … , 𝑧𝑛 ) 𝑑𝑧1 𝑑𝑧1 … 𝑑𝑧𝑛
𝑛

= 𝑛! ∫ ∏ 𝑓( 𝑧𝑖 ) 𝕝𝐵 (𝑧1 , 𝑧2 , … , 𝑧𝑛 )𝑑𝑧1 𝑑𝑧1 … 𝑑𝑧𝑛


𝑖=1
Dans le cas continu

Proposition 2 : Pour tout 𝑖 ∈ {1 ; 2 ; … ; 𝑛}, la fonction de répartition de


la 𝑖 è𝑚𝑒 statistique d’ordre 𝑋(𝑖) est donnée par :

𝐹𝑋(𝑖) (𝑥) = ∑𝑛𝑘=𝑖 𝐶𝑛𝑘 [𝐹(𝑥)]𝑘 [1 − 𝐹(𝑥)]𝑛−𝑘 ∀𝑥 ∈ℝ

𝑜ù 𝐹 𝑒𝑠𝑡 𝑙𝑎 𝑓𝑜𝑛𝑐𝑡𝑖𝑜𝑛 𝑑𝑒 𝑟é𝑝𝑎𝑟𝑡𝑖𝑡𝑖𝑜𝑛 𝑑𝑒 𝑋

Démonstration :

𝐹𝑋(𝑖) (𝑥) = 𝑃(𝑋(𝑖) ≤ 𝑥) = 𝑃(𝑖 𝑎𝑢 𝑚𝑜𝑖𝑛𝑠 𝑑𝑒𝑠 𝑋𝑗 𝑠𝑜𝑛𝑡 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟𝑠 à 𝑥)

= ∑𝑛𝑘=𝑖 𝑃(𝑘 𝑒𝑥𝑎𝑐𝑡𝑒𝑚𝑒𝑛𝑡 𝑑𝑒𝑠 𝑋𝑗 𝑠𝑜𝑛𝑡 𝑖𝑛𝑓é𝑟𝑖𝑒𝑢𝑟𝑠 à 𝑥)


= ∑𝑛𝑘=𝑖 𝐶𝑛𝑘 𝑃 (𝑋1 ≤ 𝑥 , 𝑋2 ≤ 𝑥 , … , 𝑋𝑘 ≤ 𝑥 , 𝑋𝑘+1 > 𝑥, … , 𝑋𝑛 > 𝑥 )
= ∑𝑛𝑘=𝑖 𝐶𝑛𝑘 𝑃(𝑋1 ≤ 𝑥 , 𝑋2 ≤ 𝑥 , … , 𝑋𝑘 ≤ 𝑥) 𝑃(𝑋𝑘+1 > 𝑥 , … , 𝑋𝑛 > 𝑥)
= ∑𝑛𝑘=𝑖 𝐶𝑛𝑘 [𝑃(𝑋 ≤ 𝑥 )]𝑘 [𝑃(𝑋 > 𝑥)]𝑛−𝑘 = ∑𝑛𝑘=𝑖 𝐶𝑛𝑘 𝐹(𝑥)𝑘 (1 − 𝐹 (𝑥))𝑛−𝑘

Pr. El Abdi F. INSEA


40

Proposition 3 : Si la loi des 𝑋𝑖 est continue de densité 𝑓 et de fonction de


répartition 𝐹, Pour tout 𝑖 ∈ {1 ; 2 ; … ; 𝑛}, la fonction densité 𝑓𝑋(𝑖) de la 𝑖 è𝑚𝑒
statistique d’ordre 𝑋(𝑖) est donnée par :

𝑛!
𝑓𝑋(𝑖) (𝑥) = [𝐹(𝑥)](𝑖−1) [1 − 𝐹(𝑥)](𝑛−𝑖) 𝑓(𝑥) ∀𝑥 ∈ℝ
(𝑖−1)! (𝑛−𝑖)!

Démonstration : Une première solution est de dériver directement


l'expression de 𝐹𝑋(𝑖) de la proposition 2.

Une autre façon de faire, qui permet de mieux comprendre le sens des
statistiques d'ordre, est la suivante

𝐹𝑋(𝑖) (𝑥 + ℎ) − 𝐹𝑋(𝑖) (𝑥) 𝑃 (𝑥 < 𝑋(𝑖) ≤ (𝑥 + ℎ))


𝑓𝑋(𝑖) (𝑥) = lim = lim
ℎ→0 ℎ ℎ→0 ℎ
𝑃((𝑖−1) 𝑑𝑒𝑠 𝑋𝑗 ≤ 𝑥) , 𝑥 < 𝑢𝑛 𝑑𝑒𝑠 𝑋𝑗 ≤ (𝑥+ℎ) , (𝑛−𝑖) 𝑑𝑒𝑠 𝑋𝑗 > (𝑥+ℎ))
= lim
ℎ→0 ℎ
(𝑖−1) 1
𝐶𝑛 [𝐹 (𝑥 )](𝑖−1) 𝐶(𝑛−𝑖+1) 𝑃(𝑥 < 𝑋 ≤ (𝑥 + ℎ) [1 − 𝐹 (𝑥 + ℎ)]𝑛−𝑖
= lim
ℎ→0 ℎ
(𝑖−1) 𝑃(𝑥 < 𝑋 ≤ (𝑥 + ℎ)
= 𝐶𝑛 (𝑛 − 𝑖 + 1)[𝐹 (𝑥)](𝑖−1) [1 − 𝐹 (𝑥 + ℎ)]𝑛−𝑖 lim
ℎ→0 ℎ
𝑛!
= [𝐹(𝑥)]𝑖−1 [1 − 𝐹(𝑥)]𝑛−𝑘 𝑓(𝑥)
(𝑖−1)! (𝑛−𝑖)!

a. Les lois de probabilité du minimum et du maximum d'un échantillon


peuvent s'obtenir comme cas particuliers des résultats précédents
puisque :
𝑋(1) = 𝑚𝑖𝑛(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) et 𝑋(𝑛) = 𝑚𝑎𝑥(𝑋1 , 𝑋2 , … , 𝑋𝑛 )

𝐹𝑋(1) (𝑥) = [1 − 𝐹(𝑥)]𝑛 et 𝑓𝑋(1) (𝑥) = 𝑛 [1 − 𝐹(𝑥)]𝑛−1 𝑓(𝑥)

𝐹𝑋(𝑛) (𝑥) = [𝐹(𝑥)]𝑛 et 𝑓𝑋(𝑛) (𝑥) = 𝑛 [𝐹(𝑥)]𝑛−1 𝑓(𝑥)

Pr. El Abdi F. INSEA


41

Proposition 4 : Si la loi des 𝑋𝑖 est continue de densité 𝑓 et de fonction de


répartition 𝐹, Pour tout (𝑟1 < 𝑟2 < ⋯ < 𝑟𝑘 ) ∈ {1 ; 2 ; … ; 𝑛}𝑘 𝑡𝑒𝑙𝑞𝑢𝑒 𝑘 ≤ 𝑛,
la fonction densité de la statistique (𝑋(𝑟1) , 𝑋(𝑟2) , … , 𝑋(𝑟𝑘 ) ) est donnée par :
𝑘
𝑛!
𝑓(𝑋 ,𝑋 ,…,𝑋 ) (𝑥1 , 𝑥2 , … , 𝑥𝑘 ) = [∏ 𝑓( 𝑥𝑖 )]
(𝑟1 ) (𝑟2 ) (𝑟𝑘) (𝑟1 − 1)! (𝑛 − 𝑟𝑘 )! ∏𝑘𝑖=2(𝑟𝑖 − 𝑟𝑖−1 − 1) !
𝑖=1
𝑘

[𝐹(𝑥1 )](𝑟1−1) [1 − 𝐹(𝑥)](𝑛−𝑟𝑘) [∏[𝐹(𝑥𝑖 ) − 𝐹(𝑥𝑖−1 )](𝑟𝑖 −𝑟𝑖−1−1) ] 𝕝ℝ̃𝑘 (𝑥1 , 𝑥2 , … , 𝑥𝑘 )


𝑖=2

∀ 𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑘 ) ∈ ℝ𝑘

Exercice :
1. Montrer la proposition précédente pour 𝑘 = 2
2. Pour 𝑋 ↝ 𝜉(𝜆) , donner la loi de 𝑋(𝑖) dans les cas suivants :
𝑖. 𝑋 ↝ 𝜉(𝜆)
𝑖𝑖. 𝑋 ↝ 𝑈]0 , 1[

𝑖𝑖𝑖. 𝑋 = 𝐹(𝑌) 𝑜ù 𝐹𝑒𝑠𝑡 𝑙𝑎 𝑓. 𝑟 𝑑𝑒 𝑌 𝑣. 𝑎. 𝑟 𝑞𝑢𝑒𝑙𝑐𝑜𝑛𝑞𝑢𝑒


𝑋(𝑟) + 𝑋(𝑠)
3. Donner la forme de la loi de , en déduire la loi de la quantile
2

d’ordre 𝑝 (0 < 𝑝 < 1) définie par :


𝑋(𝑛𝑝) + 𝑋(𝑛𝑝+1)
𝑠𝑖 𝑛𝑝 𝑒𝑠𝑡 𝑒𝑛𝑡𝑖𝑒𝑟
2
𝑄̃𝑝𝑛 =
{𝑋([𝑛𝑝]+1) 𝑠𝑖𝑛𝑜𝑛
4. Donner la loi de la médiane pour 𝑛 inpaire
5. Donner la loi de la fractile d’ordre 𝑛𝑝 ; 𝑝 ∈ ]0 , 1[ de l’échantillon
lorsque 𝑛𝑝 n′ est pas entier

Pr. El Abdi F. INSEA


42

Chap2

A. Estimation ponctuelle

I. Généralités

L’estimation consiste à donner des valeurs approchées aux paramètres d’une


population (𝑚 , 𝜎 2 , etc.) à l’aide d’un échantillon de 𝑛 observations issues de
cette population. On supposera vérifiée l’hypothèse d’échantillonnage aléatoire
(EAS).

I.1 Exemples élémentaires

̅ 𝑠2
Les lois des grands nombres justifient l’usage des valeurs observées 𝑥̅ de 𝑋,
de 𝑆 2 et 𝑓 de 𝐹𝑛 comme approximation de 𝑚 , de 𝜎 2 et 𝑝 respectivement.

On sait que :
𝑝𝑠 𝑝𝑠 𝑝𝑠
𝑋̅ → 𝑚 ; 𝑆2 → 𝜎2 ; 𝐹𝑛 → 𝑝

Les variables aléatoires 𝑋̅ , 𝑆 2 , 𝐹𝑛 sont appelées estimateurs de 𝑚 , de 𝜎 2 et 𝑝


respectivement.

Cependant le même paramètre peut être estimé à l’aide d’estimateurs


différents. Par exemple pour une distribution symétrique la médiane est un
estimateur de la moyenne autre que 𝑋̅. Le choix parmi les différents estimateurs
d’un même paramètre nous conduit à la définition de la qualité d’un estimateur.

I.2 Qualité d’un estimateur


Dans cette partie on suppose que :

1. la loi de 𝑿 appartient à une famille de probabilité (𝑷𝜽 )𝜽∈𝚯 et on parlera


de modèle paramétrique.
2. Le modèle (𝑷𝜽 )𝜽∈𝚯 est identifiable c’est-à-dire si 𝜽 ≠ 𝜽′ alors 𝑷𝜽 ≠ 𝑷𝜽′
Pr. El Abdi F. INSEA
43

Exemples :
a. (Ρθ = 𝒩(𝜇, 𝜎 2 ))θ= (𝜇,𝜎2)∈ℝxℝ∗
+

b. (Ρθ = 𝜉(𝜆))θ= 𝜆∈ℝ∗+


c. (Ρθ = 𝐵(𝑝))θ= 𝑝∈]0 ,1[
d. (Ρθ = P (𝜆))θ= 𝜆∈ℝ∗+
e. (Ρθ = 𝒞(𝑎))θ= 𝑎∈ℝ∗

Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon du modèle (𝑃𝜃 )𝜃∈Θ 𝑜ù 𝜃 est un


paramètre inconnue à estimer.

Définition 1 : Toute statistique 𝑇 = 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) est appelée estimateur


(ponctuel) de 𝜃.

Soit 𝑇 = 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un estimateur de 𝜃. Le fait que les valeurs observées


de 𝑇 approximent 𝜃 montre que les valeurs de 𝑇 doivent être dans un domaine Θ
acceptable pour 𝜃.

Définition 2 : On appelle biais de 𝑇 pour 𝜃 la valeur :

𝑏𝜃 (𝑇) = (𝐸(𝑇) − 𝜃)

➢ Un estimateur 𝑇 est dit sans biais pour 𝜃 si 𝑏𝜃 (𝑇) = 0


➢ Un estimateur biaisé tel que lim 𝑏𝜃 (𝑇) = 𝜃 est dit asymptotiquement
𝑛→+∞

sans biais.

𝑝
Définition 3 : Un estimateur 𝑇 est dit Convergent si 𝑇 → 𝜃 ∀𝜃 ∈Θ

Pr. El Abdi F. INSEA


44

Si ∀ 𝜃 ∈ Θ , lim 𝑏𝜃 (𝑇) = 𝜃 et lim 𝑉𝜃 (𝑇) = 0 alors 𝑇 est


𝑛→+∞ 𝑛→+∞
convergent.

Démonstration : On a, pour tous réels 𝜃 𝑒𝑡 𝜀 > 0 :


|𝑇 − 𝜃| > 𝜀 ⇒ |𝑇 − 𝐸(𝑇)| > 𝜀 − |𝐸(𝑇) − 𝜃|

⇒ 𝑃(|𝑇 − 𝜃| > 𝜀) ≤ 𝑃(|𝑇 − 𝐸(𝑇)| > 𝜀 − |𝐸(𝑇) − 𝜃|)

𝑇 est convergent
𝜀
⇒ lim 𝐸(𝑇) = 𝜃 ⇒ (∃ 𝑁 > 0 𝑡𝑞 ∀ 𝑛 > 𝑁 𝑜𝑛 𝑎 |𝐸(𝑇) − 𝜃| < )
𝑛→+∞ 2
⇒ ∃ 𝑁 > 0 𝑡𝑞 ∀ 𝑛 > 𝑁 𝑜𝑛 𝑎

𝜀 4 2 4
𝑃(|𝑇 − 𝜃| > 𝜀) ≤ 𝑃 (|𝑇 − 𝐸(𝑇)| > ) ≤ 2 𝐸(𝑇 − 𝐸(𝑇)) ≤ 2 𝑉(𝑇)
2 𝜀 𝜀
Or lim 𝑉(𝑇) = 0 ⇒ lim 𝑃(|𝑇 − 𝜃| > 𝜀) = 0 c.q.f.d.
𝑛→+∞ 𝑛→+∞

Proposition 1 : Si 𝜃̂ est un estimateur convergent (p.s resp. en probabilité)


pour 𝜃 alors pout toute fonction 𝑔 continue on a 𝑔(𝜃̂) est convergent (p.s resp.
en probabilité) pour 𝑔(𝜃).

Exercice : Montrer que pour le modèle (𝜉(𝜆) ; 𝜆 ∈ ℝ∗+ ) , les estimateurs


1 1
𝜆̂1 = et 𝜆̂2 = sont presque sûrement convergents.
𝑋̅ 1 𝑛
√ ∑ 𝑋2
2𝑛 𝑖=1 𝑖

Réponse :
𝑝.𝑠 1 1 𝑝.𝑠 1
1. 𝑋̅ → 𝐸 (𝑋 ) = ⇒ 𝜆̂1 = → 𝜆 𝑔(𝑥 ) =
𝜆 𝑋̅ 𝑥
1 𝑝.𝑠 1 1 1 𝑝.𝑠 1
2. ∑𝑛𝑖=1 𝑋𝑖2 → 𝐸(𝑋 2 ) = ⇒ 𝜆̂2 = → 𝜆 𝑔(𝑥) =
2𝑛 2 𝜆2 1 𝑛 √𝑥
√ ∑ 𝑋2
2𝑛 𝑖=1 𝑖

Remarque : De façon générale, l’erreur aléatoire d’estimation (𝑇 − 𝜃) se


décompose en deux parties :
(𝑇 − 𝜃) = (𝑇 − 𝐸(𝑇)) + (𝐸(𝑇) − 𝜃)

Pr. El Abdi F. INSEA


45

➢ La grandeur aléatoire (𝑇 − 𝐸(𝑇)) représente les fluctuations de 𝑇 autour


de sa moyenne
➢ La grandeur (𝐸(𝑇) − 𝜃), qui est une fonction de 𝜃 déterministe,
représentant l’erreur systématique (biais)

Définition 4 : La qualité d’un estimateur se mesure également par l’erreur


quadratique moyenne (ou risque quadratique) définie par :
𝑅(𝑇, 𝜃) = 𝐸((𝑇 − 𝜃)2 ).

Définition 5 : Soient 𝑇 et 𝑇′ deux estimateurs du paramètre 𝜃 ∈ Θ. On dit que


𝑇 est préférable à (meilleur que) 𝑇′ si :
𝑅(𝑇, 𝜃) ≤ 𝑅(𝑇 ′ , 𝜃) ∀𝜃 ∈Θ
Si de plus (∃ 𝜃 ′ ∈ Θ / 𝑅(𝑇, 𝜃 ′ ) < 𝑅(𝑇 ′ , 𝜃 ′ )) on dit alors que 𝑇 ′ est
inadmissible

Exercice : Montrer que pour le modèle (𝑈[0 , 𝜃] )𝜃∈ℝ∗ :


+

a. 𝑇𝑛 = 𝑀𝑎𝑥(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) est un estimateur biaisé convergeant presque


sûrement
b. Monter que tous les estimateurs de la forme 𝑎𝑛 𝑇𝑛 ; 𝑎𝑛 ∈ ℝ∗+ sont
𝑛+2
inadmissible pour 𝑎𝑛 ≠ .
𝑛+1

Pr. El Abdi F. INSEA


46

Pr. El Abdi F. INSEA


47

Soit 𝑇 un estimateur du paramètre 𝜃 ∈ Θ à étudier. On a :


2
𝐸((𝑇 − 𝜃)2 ) = 𝑉(𝑇) + (𝐸(𝑇) − 𝜃)2 = 𝑉𝜃 (𝑇) + (𝑏𝜃 (𝑇))

Pr. El Abdi F. INSEA


48

Définition 6 : Soient 𝑇 et 𝑇′ deux estimateurs sans biais du paramètre 𝜃 ∈ Θ.


On dit que 𝑇 est plus efficace (meilleur) que 𝑇′ si :
𝑉𝜃 (𝑇) ≤ 𝑉𝜃 (𝑇 ′ ) ∀ 𝜃 ∈ Θ et si ∃ 𝜃 ′ ∈ Θ / 𝑉𝜃′ (𝑇) < 𝑉𝜃′ (𝑇 ′ )

Remarques :

➢ Entre deux estimateurs sans biais, le “meilleur” (le plus efficace) sera
celui dont la variance est minimale.
➢ Le critère d’erreur quadratique moyenne n’est pas parfait mais il est
préféré à d’autres critères qui semblent plus naturels comme l’erreur
absolue moyenne |𝐸(𝑇) − 𝜃| car il s’exprime en fonction de notions
simples comme le biais et la variance et est relativement facile à
manipuler analytiquement.

I.3 Quelques estimateurs classiques


a. 𝑋̅ est un estimateur sans biais de la moyenne 𝑚. Son estimation 𝑥̅
est la moyenne observée dans une réalisation de l’échantillon.
b. 𝑆 2 est un estimateur consistant de 𝜎 2 (mais biaisé).
c. 𝑆 ′2 est un estimateur sans biais consistant de 𝜎 2 . Son estimation est
𝑛−1
𝑠 ′2 = 𝑠 2 où 𝑠 2 est l’écart-type observé dans une réalisation de
𝑛

l’échantillon.
d. Si 𝑝 est la fréquence d’un caractère, 𝐹𝑛 constitue un estimateur sans
biais et consistant de 𝑝. Son estimation est 𝑓 qui est la fréquence
empirique observé dans une réalisation de l’échantillon.
𝜃
e. Pour le (𝑈[0 , 𝜃] )𝜃∈ℝ∗ on a 𝐸(𝑋) = , les estimateurs suivants
+ 2
𝑖
sont tous sans biais de 𝜃 : 𝜃̂ = 2𝑋1 ; 𝜃̂ = 2𝑋̅ ; 𝜃̂ = 𝑋(𝑖) 𝑖 = 1; 𝑛
𝑛−𝑖

Pr. El Abdi F. INSEA


49

Exercice :
1
Montrer que si la moyenne 𝑚 de 𝑋 est connue, alors 𝑇 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2
est un meilleur estimateur de 𝜎 2 que 𝑆 ′2 .
1 1 𝑛−3
On montrera que : 𝑉(𝑇) = [𝜇4 − 𝜎 4 ] 𝑒𝑡 𝑉(𝑆 ′2 ) = [𝜇4 − 𝜎 4]
𝑛 𝑛 𝑛−1

Remarque : Il est possible dans certains cas de trouver des estimateurs biaisés
plus précis, au sens de l’erreur quadratique, que le meilleur estimateur sans
biais.

I.4 Estimateurs exhaustives

Lorsqu’on résume un échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) 𝑑𝑒 𝑋 de loi 𝑃𝜃 par une


statistique, il s’agit de ne pas perdre l’information vis-à-vis de 𝜃 contenue dans
cet échantillon. Une statistique 𝑇 qui conserve cette information est dite
exhaustive.
La recherche d’estimateurs sans biais de variances minimales est intimement
liée à l’existence de statistique exhaustive.
Soit 𝑓 la fonction définie par :

𝑓𝑋 ( 𝑥 ; 𝜃) 𝑑𝑒𝑛𝑠𝑖𝑡é 𝑑𝑒 𝑋 𝑠𝑖 𝑋 𝑣. 𝑎. 𝑐
𝑓(𝑥 ; 𝜃) = {
𝑃𝜃 (𝑋 = 𝑥) 𝑠𝑖 𝑋 𝑣. 𝑎. 𝑑

Définition 7 : On appelle vraisemblance du paramètre 𝜃 pour une réalisation

𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) d’un échantillon la fonction :


𝑛

𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = ∏ 𝑓(𝑥𝑖 ; 𝜃)
𝑖=1

Pr. El Abdi F. INSEA


50

Définition 8 : Une statistique 𝑇 est exhaustive pour 𝜃 si la loi de (𝑋1 , 𝑋2 , … , 𝑋𝑛 )

conditionnellement à (𝑇 = 𝑡) = (𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = 𝑡) est indépendante de 𝜃,


c.à.d s’il existe une fonction ℎ telle que :
𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )⁄𝑇 = 𝑡) = ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) 𝑐𝑎𝑠 𝑑𝑖𝑠𝑐𝑟𝑒𝑡
{
𝐿((𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃)/𝑇 = 𝑡)) = ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) 𝑐𝑎𝑠 𝑐𝑜𝑛𝑡𝑖𝑛𝑢
Ce qui signifie que si 𝑇 est connue, l’échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) n’apportera plus
aucune autre information supplémentaire sur 𝜃 car sa loi ne dépend plus de 𝜃. La
statistique exhaustive contient toute l’information nécessaire à l’inférence de 𝜃.

Exemples :
▪ Cas de lois discrètes :

➢ Loi de Bernoulli 𝑏(𝑝) (𝜃 = 𝑝), 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 et exhaustive en effet :


𝑇 = ∑𝑛𝑖=1 𝑋𝑖 ↝ 𝐵(𝑛 ; 𝑝) 𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑒

𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )⁄𝑇 = 𝑡)

𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 ) ∩ (𝑇 = 𝑡))
=
𝑃(𝑇 = 𝑡)
𝑛
𝑃𝜃 (𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )
𝑆𝑖 ∑ 𝑥𝑖 = 𝑡
= 𝑃 (𝑇 = 𝑡 )
𝑖=1

{ 0 𝑆𝑖𝑛𝑜𝑛
𝑛 𝑛
𝑝∑𝑖=1 𝑥𝑖 (1−𝑝)𝑛−∑𝑖=1 𝑥𝑖
𝑆𝑖 ∑𝑛𝑖=1 𝑥𝑖 = 𝑡
𝐶𝑛𝑡 𝑝𝑡 (1−𝑝)𝑛−𝑡
=
{ 0 𝑆𝑖𝑛𝑜𝑛
1
𝑆𝑖 ∑𝑛𝑖=1 𝑥𝑖 = 𝑡
𝐶𝑛𝑡
={
0 𝑆𝑖𝑛𝑜𝑛

Cette probabilité est indépendante de 𝑝 donc 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est exhaustive

Pr. El Abdi F. INSEA


51

➢ Loi de poisson P (𝜆) (𝜃 = 𝜆) , 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est exhaustive en effet :


𝑇 suit une loi de poisson P (𝑛𝜆)
𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )⁄𝑇 = 𝑡)
𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 ) ∩ (𝑇 = 𝑡))
=
𝑃(𝑇 = 𝑡)
𝑛
𝜆(∑𝑖=1 𝑥𝑖 ) −𝑛𝜆
𝑒 (∑𝑛𝑖=1 𝑥𝑖 )!
𝑛
∏𝑛𝑖=1 𝑥𝑖 !
= 𝑠𝑖 ∑ 𝑥𝑖 = 𝑡
= (𝑛𝜆)𝑡 −𝑛𝜆 𝑛 (∑𝑛
𝑖=1 𝑥𝑖 ) ∏𝑛
𝑒 𝑖=1 𝑥𝑖 ! 𝑖=1
𝑡!

{ 0 𝑠𝑖𝑛𝑜𝑛
Cette probabilité est indépendante de 𝜆 donc 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est exhaustive

:
Pour qu'une statistique 𝑇 soit exhaustive pour 𝜃, il faut et il suffit qu'il existe
deux fonctions mesurables 𝑔 et ℎ telles que :
𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑔(𝑡; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )

Démonstration
➢ Cas d'un modèle discret
Posons : 𝑍 = (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) et 𝑧 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) On a donc :
(⇒ ) Si 𝑇 est exhaustive 𝑃𝜃 (𝑍 = 𝑧 ; 𝜃⁄𝑇 = 𝑡) ne dépend pas de 𝜃

⇒ ∃ ℎ 𝑡𝑒𝑙𝑙𝑒 𝑞𝑢𝑒 𝑃𝜃 (𝑍 = 𝑧 ; 𝜃⁄𝑇 = 𝑡) = ℎ(𝑧) = ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )

⇒ 𝐿(𝑧 ; 𝜃) = 𝑃𝜃 (𝑍 = 𝑧 ; 𝜃⁄𝑇 = 𝑡) 𝑃(𝑇 = 𝑡)

= ℎ(𝑧) 𝑔(𝑡; 𝜃) 𝑎𝑣𝑒𝑐 𝑃(𝑇 = 𝑡) = 𝑔(𝑡; 𝜃)


⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑔(𝑡; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )

(⇐ ) On suppose que :

𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑔(𝑡; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )


⇒ 𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )⁄𝑇 = 𝑡)

Pr. El Abdi F. INSEA


52

𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 ) ∩ (𝑇 = 𝑡))
=
𝑃(𝑇 = 𝑡)
𝑃𝜃 (𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )
𝑠𝑖 𝑇 = 𝑡
= 𝑃(𝑇 = 𝑡)

{ 0 𝑠𝑖𝑛𝑜𝑛
𝑔(𝑡; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝑠𝑖 𝑇 = 𝑡
= 𝑃(𝑇 = 𝑡)

{ 0 𝑠𝑖𝑛𝑜𝑛

or 𝑃(𝑇 = 𝑡) = ∑𝑧 ;𝑇(𝑧)=𝑡 𝑃(𝑍 = 𝑧 ; 𝜃) = ∑𝑧 ;𝑇(𝑧)=𝑡 𝑔(𝑡 ; 𝜃) ℎ(𝑧)

= 𝑔(𝑡; 𝜃) ∑𝑧;𝑇(𝑧)=𝑡 ℎ(𝑧) = 𝑔(𝑡; 𝜃) 𝑘(𝑥1 , 𝑥2 , … , 𝑥𝑛 )


ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
⇒ 𝑃𝜃 ((𝑋1 = 𝑥1 , 𝑋2 = 𝑥2 , … , 𝑋𝑛 = 𝑥𝑛 )⁄𝑇 = 𝑡) =
𝑢(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
= 𝑣(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
c.q.f.d
▪ Cas d’un modèle continu : Posons : 𝑍 = (𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Soient 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 /(𝑇 = 𝑡) ; 𝜃) la densité conditionnelle de 𝑍⁄(𝑇 = 𝑡) et

𝑇 −1 (𝑡) = {(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑡 } alors on a :


𝐿((𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ; 𝜃) 𝕝(𝑇(𝑥1,𝑥2,…,𝑥𝑛 ) = 𝑡)
𝐿 (𝑍⁄(𝑇 = 𝑡 ) ; 𝜃) =
∫𝑇−1(𝑡) 𝐿((𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ; 𝜃) 𝕝(𝑇(𝑥1 ,𝑥2 ,…,𝑥𝑛 ) = 𝑡) 𝑑𝑥1 𝑑𝑥2 … 𝑑𝑥𝑛
𝑔(𝑡;𝜃) ℎ(𝑥1 ,𝑥2 ,…,𝑥𝑛 ) 𝕝(𝑇(𝑥1,𝑥2 ,…,𝑥𝑛 ) = 𝑡)
=
∫𝑇−1(𝑡) 𝑔(𝑡;𝜃) ℎ(𝑥1 ,𝑥2 ,…,𝑥𝑛 ) 𝕝(𝑇(𝑥1 ,𝑥2,…,𝑥𝑛 ) = 𝑡) 𝑑𝑥1 𝑑𝑥2 …𝑑𝑥𝑛

ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) 𝕝(𝑇(𝑥1,𝑥2 ,…,𝑥𝑛) = 𝑡)


=
∫𝑇 −1(𝑡) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) 𝕝(𝑇(𝑥1 ,𝑥2,…,𝑥𝑛 ) = 𝑡) 𝑑𝑥1 𝑑𝑥2 … 𝑑𝑥𝑛
(𝑋 , 𝑋 , … , 𝑋𝑛 )
⇒ 𝐿 (𝑍⁄(𝑇 = 𝑡) ; 𝜃) = 𝐿 ( 1 2 ⁄(𝑇
= 𝑡) ; 𝜃) ne dépend pas de 𝜃.

Pr. El Abdi F. INSEA


53

Proposition 2 :
Si 𝑇 et exhaustive et ∃ 𝜑 𝑚𝑒𝑠𝑢𝑟𝑎𝑏𝑙𝑒 𝑡𝑞 𝑇 = 𝜑𝑜𝑅 ⇒ 𝑅 est exhaustive.

En effet on a :
𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑔(𝑡; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑔(𝜑𝑜𝑟 ; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )

= 𝑙(𝑟 ; 𝜃) ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
Exemples :

1) Cas de modèles continu :

1
➢ 𝑋 ↝ 𝑈[0 , 𝜃] ⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝕝[0 , 𝜃] (𝑥𝑖 )
𝜃𝑛
1
=
𝜃𝑛
𝕝[0 , 𝜃] (max (𝑥𝑖 ))
𝑖=1;𝑛
⇒ 𝑇 = max(𝑋𝑖 ) est exhaustive pour 𝜃 car :
𝑖=1;𝑛
1
𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑔(𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ); 𝜃) = 𝕝[0 , 𝜃] (𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ))
𝜃𝑛

1 𝑛
➢ 𝑋 ↝ 𝜉(𝜃) ⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝜃𝑛 𝑒 −𝜃 (∑𝑖=1 𝑥𝑖) (∏𝑛𝑖=1 𝕝ℝ+ (𝑥𝑖 ))
⇒ 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est exhaustive pour 𝜃 car :
𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑔(𝑡; 𝜃)ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
1
avec 𝑔(𝑡; 𝜃) = 𝑒 −𝜃 𝑡 et ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = (∏𝑛𝑖=1 𝕝ℝ+ (𝑥𝑖 ))
𝜃𝑛

➢ 𝑋 ↝ 𝒩(𝑚 , 𝜎2 ) ⇒ 𝜃 = (𝑚 , 𝜎2 ) (𝜎 > 0)
1
1 − (∑𝑛 𝑋 2 − 2 𝑚 ∑𝑛
𝑖=1 𝑋𝑖 + 𝑛𝑚)
⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑛 𝑒 2𝜎2 𝑖=1 𝑖
(2𝜋𝜎 2 ) 2

⇒ 𝑇 = (∑𝑛𝑖=1 𝑋𝑖 ; ∑𝑛𝑖=1 𝑋𝑖2 ) est exhaustive pour (𝑚 , 𝜎 2 )

• Si 𝜎 2 est connue alors 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est exhaustive pour 𝑚


• Si 𝑚 est connue alors 𝑇 = ∑𝑛𝑖=1 𝑋𝑖2 est exhaustive pour 𝜎 2

➢ 𝑋 ↝ 𝐺(𝑎, 𝑏) ⇒ 𝜃 = (𝑎 , 𝑏)

𝑏𝑛𝑎 𝑛
⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = (∏𝑛𝑖=1 𝑥𝑖 )𝑎−1 𝑒 −𝑏(∑𝑖=1 𝑥𝑖) (∏𝑛𝑖=1 𝕝ℝ+ (𝑥𝑖 ))
Γ(𝑎)𝑛

Pr. El Abdi F. INSEA


54

𝑇 = (∏𝑛𝑖=1 𝑋𝑖 ; ∑𝑛𝑖=1 𝑋𝑖 ) est exhaustive pour (𝑎 , 𝑏)


• Si 𝑎 est connue alors 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est exhaustive pour 𝑏
• Si 𝑏 est connue alors 𝑇 = ∏𝑛𝑖=1 𝑥𝑖 est exhaustive pour 𝑎

➢ 𝑋 ↝ 𝛽(𝑝, 𝑞) ⇒ 𝜃 = (𝑝, 𝑞)
1
⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃 ) = (∏𝑛𝑖=1 𝑥𝑖 )𝑝−1 (∏𝑛𝑖=1(1 − 𝑥𝑖 ))𝑞−1 (∏𝑛𝑖=1 𝕝]0 , 1[ (𝑥𝑖 ))
𝛽(𝑝,𝑞)𝑛
𝑛 𝑛

𝑇 = (∏ 𝑥𝑖 ; ∏(1 − 𝑥𝑖 )) est exhaustive pour (𝑝, 𝑞)


𝑖=1 𝑖=1
• Si 𝑝 est connue alors 𝑇 = ∏𝑛𝑖=1(1 − 𝑥𝑖 ) est exhaustive pour 𝑞
• Si 𝑞 est connue alors 𝑇 = ∏𝑛𝑖=1 𝑥𝑖 est exhaustive pour 𝑝

Remarque :
La plupart des lois usuelles font partie de ce qu’on appelle la famille
exponentielle

Définition 9 : Un modèle (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 est dit de la famille exponentielle s’il


existe des fonctions à valeurs réelles (𝛼𝑗 )𝑗=1;𝑑 , (𝑎𝑗 )𝑗=1;𝑑 , 𝛽 et 𝑏 telles que

∀ 𝜃 ∈ Θ, la densité de 𝑃𝜃 soit de la forme :


𝑓(𝑥 ; 𝜃) = 𝑒𝑥𝑝[ ∑𝑑𝑗=1 𝑎𝑗 (𝑥) 𝛼𝑗 (𝜃) + 𝑏(𝑥) + 𝛽(𝜃)] (∗)

Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un échantillon de 𝑋 de loi 𝑃𝜃 dont le support ne dépend pas


du paramètre 𝜃 alors une condition nécessaire et suffisante pour que
l’échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) admette une statistique exhaustive est que le
modèle (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 appartienne à la famille exponentielle.
Si la densité est de la forme (∗) et si l’application Ψ :

Pr. El Abdi F. INSEA


55

𝑛 𝑛 𝑛

Ψ ∶ (𝑥1 , 𝑥2 , … , 𝑥𝑑 ) → (∑ 𝑎1 (𝑥𝑖 ) , ∑ 𝑎2 (𝑥𝑖 ) , … , ∑ 𝑎𝑑 (𝑥𝑖 ))


𝑖=1 𝑖=1 𝑖=1

est un 𝐶 1 -difféomorphisme alors 𝑇 = (∑𝑛𝑖=1 𝑎1 (𝑋𝑖 ) , ∑𝑛𝑖=1 𝑎2 (𝑋𝑖 ) , … , ∑𝑛𝑖=1 𝑎𝑑 (𝑋𝑖 ))


est une statistique exhaustive appelée statistique exhaustive canonique.
En particulier pour 𝑑 = 1 on a :
𝑓(𝑥 ; 𝜃) = 𝑒𝑥𝑝[ 𝑎(𝑥) 𝛼(𝜃) + 𝑏(𝑥) + 𝛽(𝜃)]
Ψ ∶ 𝑥1 → (∑𝑛𝑖=1 𝑎(𝑥𝑖 )) est un 𝐶 1 -difféomorphisme alors 𝑇 = ∑𝑛𝑖=1 𝑎(𝑋𝑖 )

est une statistique exhaustive appelée statistique exhaustive canonique.

Démonstration :

(⇐ ) 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = 𝑒𝑥𝑝[ (∑𝑑𝑗=1 𝛼𝑗 (𝜃) ∑𝑛𝑖=1 𝑎𝑗 (𝑥𝑖 )) + ∑𝑛𝑖=1 𝑏(𝑥𝑖 ) + 𝑛 𝛽(𝜃)]

= 𝑒𝑥𝑝[(∑𝑑𝑗=1 𝛼𝑗 (𝜃) ∑𝑛𝑖=1 𝑎𝑗 (𝑥𝑖 )) + 𝑛 𝛽(𝜃)]𝑒𝑥𝑝[∑𝑛𝑖=1 𝑏(𝑥𝑖 )]

Le théorème de factorisation de Fisher-Neyman montre que la statistique

𝑇 = (∑𝑛𝑖=1 𝑎1 (𝑋𝑖 ) , ∑𝑛𝑖=1 𝑎2 (𝑥𝑖 ) , … , ∑𝑛𝑖=1 𝑎𝑑 (𝑥𝑖 )) est exhaustive pour 𝜃.

(⇒ ) Montrons la réciproque pour 𝑑 = 1, s’il existe une statistique 𝑇

exhaustive pour 𝜃 ∈ ℝ
⇒ 𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; 𝜃) = 𝑔(𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ; 𝜃)ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝑛

⇒ ln(𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃)) = ∑ ln(𝑓(𝑥𝑖 ; 𝜃 ))


𝑖=1

= ln(𝑔(𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ; 𝜃)) + ln(ℎ(𝑥1 , 𝑥2 , … , 𝑥𝑛 ))

𝜕 𝜕
⇒ ln(𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃)) = ∑𝑛𝑖=1 ln(𝑓(𝑥𝑖 ; 𝜃))
𝜕𝜃 𝜕𝜃
𝜕
ln(𝑔(𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ; 𝜃))
=
𝜕𝜃
𝜕2 𝜕2
⇒ ln(𝐿(𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝜃)) = ln(𝑓(𝑥𝑖 ; 𝜃))
𝜕𝜃𝜕𝑥𝑖 𝜕𝜃𝜕𝑥𝑖
𝜕2
= ln(𝑔(𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ; 𝜃))
𝜕𝜃𝜕𝑥𝑖

Pr. El Abdi F. INSEA


56

2
𝜕 𝜕 𝜕
⇒ ln(𝑓(𝑥𝑖 ; 𝜃)) = 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) ln(𝑔(𝑦 ; 𝜃))/ 𝑦 = 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝜕𝜃𝜕𝑥𝑖 𝜕𝑥𝑖 𝜕𝜃

Pour 𝑖 ≠ 𝑗 on a :
𝜕2 𝜕
ln(𝑓(𝑥𝑖 ; 𝜃)) 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝜕𝜃𝜕𝑥𝑖 𝜕𝑥𝑖
= 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡 𝑑𝑒 𝜃
𝜕2 𝜕
ln (𝑓(𝑥𝑗 ; 𝜃)) 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝜕𝜃𝜕𝑥𝑗 𝜕𝑥𝑗
𝜑(𝑥 ,𝜃)
On est dans le cas d’une fonction 𝜑 𝑣é𝑟𝑖𝑓𝑖𝑎𝑛𝑡 ne dépend pas de 𝜃
𝜑(𝑦 ,𝜃)
2
𝜕
⇒ 𝜑(𝑥 , 𝜃) = 𝑢(𝑥)𝑣(𝜃) ⇒ ln(𝑓(𝑥 ; 𝜃)) = 𝑢(𝑥)𝑣(𝜃)
𝜕𝜃𝜕𝑥
𝜕
⇒ ln(𝑓(𝑥 ; 𝜃)) = 𝑎(𝑥)𝑣(𝜃) + 𝑤(𝜃)
𝜕𝜃
⇒ ln(𝑓( ; 𝑥 𝜃)) = (𝑎(𝑥) 𝛼(𝜃) + 𝑏(𝑥) + 𝛽(𝜃))
⇒ 𝑓(𝑥 ; 𝜃) = 𝑒𝑥𝑝(𝑎(𝑥) 𝛼(𝜃) + 𝑏(𝑥) + 𝛽(𝜃)) c.q.f.d

Exercice :
1. Utiliser le théorème précédent pour les lois usuelles traitées auparavant
2. Montrer que pour 𝑋 ↝ 𝑤(𝛼 , 𝛽) 𝑙𝑜𝑖 𝑑𝑒 𝑊𝑒𝑖𝑏𝑢𝑙𝑙 de paramètres (𝛼 , 𝛽) = 𝜃 et
𝛽
de densité : 𝑓(𝑥 ; 𝛼, 𝛽) = 𝛼 𝛽 𝑥 𝛽−1 𝑒 −𝛼 𝑥 𝕝𝑥>0 où 𝛼 > 0 𝑒𝑡 𝛽 > 0

Il n’y a pas de statistique exhaustive

Réponse : 2. 𝑓(. ; 𝛼, 𝛽) n’appartient pas à la famille exponentielle

I.5 Réduction de la variance, variance minimale

Définition 10 : On dit qu’un estimateur sans biais 𝑇 du paramètre 𝜃 ∈ Θ est


de variance minimale si tout 𝑇 ′ estimateur sans biais de 𝜃 :

𝑉𝜃 (𝑇) ≤ 𝑉𝜃 (𝑇 ′ ) ∀𝜃 ∈Θ

Pr. El Abdi F. INSEA


57

Le théorème suivant permet, à partir d'un estimateur sans biais, de construire


un autre estimateur sans biais de variance inférieure.

S'il existe une statistique exhaustive 𝑇 et si 𝜃̂ est un estimateur sans biais de 𝜃, alors
̂
𝐸 (𝜃⁄𝑇) est un estimateur sans biais de 𝜃 de variance inférieure à celle de 𝜃̂

Démonstration : posons 𝑍 = 𝐸 (𝜃̂⁄𝑇) 𝑎𝑙𝑜𝑟𝑠 𝑜𝑛 𝑎 ∶


̂
▪ 𝐸 (𝑍) = 𝐸 (𝐸 (𝜃⁄𝑇)) = 𝐸(𝜃̂) = 𝜃 ⇒ 𝑍 est un estimateur sans biais de 𝜃

(𝜃̂ − 𝑍)⁄ 𝜃̂ 𝑍 𝜃̂
▪ 𝐸[ 𝑇] = 𝐸 [ ⁄𝑇] − 𝐸[ ⁄𝑇] = 𝐸 [ ⁄𝑇] − 𝑍 = 𝑍 − 𝑍 = 0
2 2
⇒ 𝑉(𝜃̂) = 𝐸 [(𝜃̂ − 𝜃) ] = 𝐸 [(𝜃̂ − 𝑍) ] + 𝐸 [(𝑍 − 𝜃)2 ] + 2𝐸[(𝜃̂ − 𝑍)(𝑍 − 𝜃)]
2 2
= 𝐸 [(𝜃̂ − 𝑍) ] + 𝐸 [(𝑍 − 𝜃)2 ] = 𝐸 [(𝜃̂ − 𝑍) ] + 𝑉(𝑍)
̂
⇒ 𝑉(𝑍) ≤ 𝑉(𝜃̂) est donc 𝑍 = 𝐸 (𝜃⁄𝑇) est un meilleur estimateur de 𝜃 que 𝜃̂.

I.6 Complétude

Définition 11 : Une statistique 𝑇 est dite complète ou totale si et seulement si


pour toute fonction mesurable ℎ on a : 𝐸(ℎ(𝑇)) = 0 ∀ 𝜃 ⇒ ℎ = 0 presque
partout sur le support de la loi de 𝑇

Pr. El Abdi F. INSEA


58

Pr. El Abdi F. INSEA


59

Exercice : Donner Une statistique exhaustive complète pour Le modèle de


poisson (P (𝜆) , 𝜆 ∈ ℝ∗+ )

I.7 Estimation sans biais et de variance minimale

Les notions d'exhaustivité et de complétude permettent de trouver un


estimateur sans biais de variance minimale (ESBVM) de 𝜃 à partir d'un
estimateur sans biais.

Pr. El Abdi F. INSEA


60

Si 𝜃̂ est un estimateur sans biais de 𝜃 et 𝑇 est une statistique exhaustive et


̂
complète, alors 𝑍 = 𝐸 (𝜃⁄𝑇) est l'unique estimateur sans biais de 𝜃 presque
partout de variance minimale parmi tous les estimateurs sans biais de 𝜃.

Démonstration
Supposons qu'il existe deux estimateurs sans biais fonction de 𝑇, 𝜃̂1 (𝑇) et 𝜃̂2 (𝑇).

𝐸 (𝜃̂1 (𝑇)) = 𝐸 (𝜃̂2 (𝑇)) = 𝜃 ⇒ 𝐸 (𝜃̂1 (𝑇) − 𝜃̂2 (𝑇)) = 𝐸 ((𝜃̂1 − 𝜃̂2 )(𝑇)) = 0 ∀ 𝜃

comme est une statistique complète, alors (𝜃̂1 − 𝜃̂2 ) = 0 presque partout sur le
support de 𝑇 (c.à.d) 𝜃̂1 = 𝜃̂2

En conclusion : d'après le théorème de Rao-Blackwell, si un estimateur sans

biais 𝜃̂ n'est pas fonction d’une statistique exhaustive 𝑇, on peut toujours


trouver un autre estimateur sans biais de 𝜃, de variance inférieure, qui soit
̂
fonction de 𝑇 : 𝑍 = 𝐸 (𝜃⁄𝑇). C’est-à-dire que si on dispose d’un estimateur sans

biais fonction d’une statistique exhaustive complète c’est le meilleur estimateur


possible.

Corollaire 1 : Un estimateur sans biais de 𝜃 fonction d'une statistique exhaustive


et complète est optimale (de variance minimale).

I.8 Information de Fisher, Modèles réguliers est efficacité

La notion d’exhaustivité renseigne sur le pouvoir d’une statistique à véhiculer


l’information contenue dans un échantillon vis-à-vis d’un paramètre inconnu 𝜃
que l’on cherche à estimer. La quantité d’information sur le paramètre apportée
par l’échantillon s’exprime elle par l’information de Fisher.

Pr. El Abdi F. INSEA


61

Dans le cas où le modèle (𝑃𝜃 )𝜃∈Θ est paramétré par 𝜃 ∈ Θ avec Θ ⊂ ℝ𝑑 , on


𝜕 𝑓(. ; 𝜃) 𝜕 𝑓(. ; 𝜃) 𝜕 𝑓(. ; 𝜃) 𝜕 𝑓(. ; 𝜃)
notera ∶ 𝜃 = (𝜃1 , 𝜃2 , … , 𝜃𝑑 ) , =( , ,…, ) et
𝜕𝜃 𝜕𝜃1 𝜕𝜃2 𝜕𝜃𝑑

𝜕2 𝑓(. ; 𝜃) 𝜕2 𝑓(. ; 𝜃)
=( ) les dérivées et les dérivées secondes de la
𝜕𝜃2 𝜕𝜃𝑖 𝜕𝜃𝑗
1;𝑗=1;𝑑

vraisemblance.

Définition 12 :
a. On appelle Information de Fisher de 𝑋 la matrice, si elle existe, définie par :
𝜕 ln 𝑓(𝑋 ; 𝜃) 2
𝐼(𝜃) = 𝐸𝜃 [( ) ]
𝜕𝜃

b. On appelle Information de Fisher de l’échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) la matrice :


2
𝜕 ln(𝐿(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃)
𝐼𝑛 (𝜃) = 𝐸𝜃 [( ) ]
𝜕𝜃
𝜕 ln 𝑓(𝑋 ; 𝜃)
c. Le vecteur 𝑈1 = est appelé vecteur score de 𝑋
𝜕𝜃
𝜕 ln(𝐿(𝑋1 ,𝑋2 ,…,𝑋𝑛 ) ; 𝜃)
d. Le vecteur 𝑈𝑛 = est appelé vecteur score de l’échantillon
𝜕𝜃

(𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Remarques :
a. 𝐼(𝜃) mesure la quantité totale d’information apportée par chaque
variable de l’échantillon 𝑋𝑖
b. 𝐼𝑛 (𝜃) mesure la quantité totale d’information apportée par l’échantillon
entier (𝑋1 , 𝑋2 , … , 𝑋𝑛 )

Pr. El Abdi F. INSEA


62

Définition 13 : Un modèle (𝑃𝜃 )𝜃∈Θ qui vérifie les hypothèses suivantes est
appelé modèle régulier :
H1 : Θ est un ouvert et ∀ 𝜃 ∈ Θ, 𝑓(. ; 𝜃) > 0
H2 : Le supports de la lois 𝑃𝜃 est indépendant de 𝜃, ∀ 𝜃 ∈ Θ
𝜕 𝑓(. ; 𝜃) 𝜕2 𝑓(. ; 𝜃)
H3 : ∀ 𝜃 ∈ Θ ∶ et existent et sont intégrables et que les
𝜕𝜃 𝜕𝜃2

dérivées sont interchangeables avec le signe intégrale

1. Les vecteurs scores sont centrés (i.e) :

𝜕 ln 𝑓(𝑋 ; 𝜃) 𝜕 ln(𝐿(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃)
𝐸𝜃 [ ] = 𝐸𝜃 [ ]=0
𝜕𝜃 𝜕𝜃
𝜕 ln 𝑓(𝑋 ; 𝜃) 𝜕2 ln 𝑓(𝑋 ; 𝜃)
2. 𝐼(𝜃) = 𝑉𝜃 [ ] = −𝐸𝜃 [ ]
𝜕𝜃 𝜕𝜃2
2
𝜕 ln(𝐿(𝑋1 ,𝑋2 ,…,𝑋𝑛 ) ; 𝜃) 𝜕 ln(𝐿(𝑋1 ,𝑋2 ,…,𝑋𝑛 ) ; 𝜃)
3. 𝐼𝑛 (𝜃) = 𝑉𝜃 [ ] = −𝐸𝜃 [ ] = 𝑛 𝐼(𝜃)
𝜕𝜃 𝜕𝜃2
4. 𝐼𝑛 (𝜃) ≥ 𝐼𝑇 (𝜃) ∀𝜃∈Θ ∀ 𝑇 = 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) où 𝐼𝑇 (𝜃) est la
quantité d’information apportée la statistique 𝑇
5. (𝐼𝑛 (𝜃) = 𝐼𝑇 (𝜃) ∀𝜃∈Θ) ⇐ 𝑇 est exhaustive

Pr. El Abdi F. INSEA


63

Pr. El Abdi F. INSEA


64

Pr. El Abdi F. INSEA


65

Exemples :
➢ Le modèle normale (𝒩(𝑚 , 𝜎 2 ) , 𝑚 ∈ ℝ) est régulier et on a :
1
𝐼(𝑚) = (plus 𝜎 2 est petit plus l′ information apportée par chaque
𝜎2
𝑛 𝑛
variable de l′ échantillon est grande). 𝑈𝑛 = − 𝜎2 (𝑋̅ − 𝑚) ; 𝐼𝑛 (𝑚) = 𝜎2

Pr. El Abdi F. INSEA


66

➢ Le modèle normale (𝒩(𝑚 , 𝜎 2 ) , 𝑚 ∈ ℝ , 𝜎 > 0 )


𝑡
1 1 0 𝑛 ∑𝑛
𝑖=1(𝑋𝑖 −𝑚)
2 𝑛
𝐼(𝑚 , 𝜎) = 2 ( ) ; 𝑈𝑛 = (− 2 (𝑋̅ − 𝑚) − )
𝜎 0 2 𝜎 𝜎3 𝜎
𝑛 1 0
𝐼𝑛 (𝑚 , 𝜎) = ( )
𝜎2 0 2
➢ Le modèle de Bernoulli (𝑏(𝑝) 0 < 𝑝 < 1) est régulier :
1 𝑛(𝑋̅−𝑝) 𝑛
𝐼(𝑝) = ; 𝑈𝑛 = ; 𝐼𝑛 (𝑚) =
𝑝(1−𝑝) 𝑝(1−𝑝) 𝑝(1−𝑝)

Remarque : L'intérêt principal de la quantité d'information de Fisher est qu'elle


fournit une borne inférieure pour la variance de n'importe quel estimateur sans
biais de 𝜃, grâce à l'inégalité de Fréchet-Darmois-Cramer-Rao qui suit :

Borne de Fréchet-Darmois-Cramer-Rao

Soient (𝑃𝜃 )𝜃∈Θ⊂ℝ un modèle régulier et 𝜃̂ un estimateur sans biais de ℎ(𝜃) tel
que :
1. ℎ de classe 𝐶 1 et 𝐼(𝜃) > 0
𝜕𝐿(. ; 𝜃) 𝜕𝐿(. ; 𝜃)
2. 𝑉𝜃 (𝜃̂) 𝑓𝑖𝑛𝑖𝑒 ; et 𝜃̂ intégrables par rapport à la mesure
𝜕𝜃 𝜕𝜃

de Lebesgue, alors on a :
[ℎ′ (𝜃)]2
𝑉𝜃 (𝜃̂) ≥ ∀𝜃∈Θ
𝐼𝑛 (𝜃)

En particulier, si 𝜃̂ est un estimateur sans biais de 𝜃 alors on a :


1
𝑉𝜃 (𝜃̂) ≥ ∀𝜃 ∈Θ
𝐼𝑛 (𝜃)

[ℎ′ (𝜃)]2
La borne est appelé la borne FDCR du modèle d’échantillonnage
𝐼𝑛 (𝜃)

Démonstration :
L’inégalité de Cauchy-Schwarz nous donne :

Pr. El Abdi F. INSEA


67

2
𝜕 ln(𝐿( . ; 𝜃) 𝜕 ln(𝐿( . ; 𝜃)
[𝐶𝑜𝑣𝜃 (𝜃̂ ; )] ≤ 𝑉𝜃 (𝜃̂) 𝑉𝜃 ( )
𝜕𝜃 𝜕𝜃
𝜕 ln(𝐿( . ; 𝜃)
or on a : 1. 𝑉𝜃 (
𝜕𝜃
) = 𝐼𝑛 (𝜃)
𝜕 ln(𝐿( .; 𝜃) 𝜕 ln(𝐿( .; 𝜃) 𝜕𝐿( .; 𝜃)
2. 𝐶𝑜𝑣𝜃 (𝜃̂ ; ) = 𝐸𝜃 (𝜃̂ ) = ∫ 𝜃̂(. ) 𝑑𝜆
𝜕𝜃 𝜕𝜃 𝜕𝜃
𝜕 𝜕
=
𝜕𝜃
[∫ 𝜃̂(. ) 𝐿( . ; 𝜃) 𝑑𝜆(. )] = 𝜕𝜃 𝐸𝜃 (𝜃̂) = ℎ′ (𝜃)

⇒ [ℎ′ (𝜃)]2 ≤ 𝑉𝜃 (𝜃̂) 𝐼𝑛 (𝜃) c.q.f.d

Définition 14 : Un estimateur 𝜃̂ sans biais de ℎ(𝜃) atteignant la borne FDCR


est dit efficace

Conséquences du Théorème 4 (Lehman-Scheffé) et du théorème 5


➢ Si un estimateur efficace de 𝜃 (ou de ℎ(𝜃)) existe, c’est une statistique
exhaustive
➢ Si un estimateur efficace de 𝜃 (ou de ℎ(𝜃)) existe, il est unique p.s.
➢ Si un estimateur efficace de 𝜃 (resp. ℎ(𝜃)) existe, il est égal p.s. à
l’estimateur sans biais de variance minimale de 𝜃 (resp. ℎ(𝜃))

Exercice : Monter que 𝑋̅ est efficace pour le modèle de poisson (P (𝜆) , 𝜆 ∈ ℝ∗+ )

Soit (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 un modèle régulier. Soit 𝜃̂ un estimateur sans biais de ℎ(𝜃)
tel que :
1. ℎ de classe 𝐶 1 et 𝐼(𝜃) 𝑖𝑛𝑣𝑒𝑟𝑠𝑠𝑖𝑏𝑙𝑒
𝜕𝐿(. ; 𝜃) 𝜕𝐿(. ; 𝜃)
2. 𝑉𝜃 (𝜃̂) 𝑒𝑥𝑖𝑠𝑡𝑒 ; et 𝜃̂ intégrables par rapport à la mesure
𝜕𝜃 𝜕𝜃

de Lebesgue, alors on a :

𝜕 ℎ(𝜃) −1 𝜕 ℎ(𝜃) 𝑡
𝑉𝜃 (𝜃̂) ≥ (𝐼𝑛 (𝜃)) ( ) ∀𝜃 ∈Θ
𝜕𝜃 𝜕𝜃

En particulier si 𝜃̂ est un estimateur sans biais de 𝜃, alors :


−1
𝑉𝜃 (𝜃̂) ≥ (𝐼𝑛 (𝜃)) ∀ 𝜃 ∈ Θ

Pr. El Abdi F. INSEA


68

Pr. El Abdi F. INSEA


69

Pr. El Abdi F. INSEA


70

a. cas de paramètre 𝜽 réel :


Soit (𝑃𝜃 )𝜃∈Θ⊂ℝ un modèle régulier,
1. La borne FDCR ne peut être atteinte que si (𝑃𝜃 )𝜃∈Θ⊂ℝ exponentiel c.à.d. :
𝑓(𝑥 ; 𝜃) = 𝑒𝑥𝑝(𝑎(𝑥) 𝛼(𝜃) + 𝑏(𝑥) + 𝛽(𝜃)) ∀𝜃 ∈Θ ⊂ℝ
2. Si la loi de 𝑋 est exponentielle, il n’existe (à une transformation linéaire près)
qu’une seule fonction ℎ du paramètre 𝜃 qui peut être estimer efficacement
par un estimateur 𝑇, cette fonction ℎ, son estimateur efficace 𝑇 et sa
variance minimale sont définis par :
𝛽 ′ (𝜃) 1 ℎ′ (𝜃)
ℎ(𝜃) = − ; 𝑇 = 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑𝑛𝑖=1 𝑎(𝑋𝑖 ) et 𝑉(𝑇) =
𝛼 ′ (𝜃) 𝑛 𝑛 𝛼 ′ (𝜃)

à condition que l’application 𝑥1 → ∑𝑛𝑖=1 𝑎(𝑥𝑖 ) soit bijective et continûment

différentiable.
b. cas de paramètre 𝜽 dans ℝ𝒅 (Admis) :
Soit (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 un modèle régulier,
1. La borne FDCR ne peut être atteinte que si le modèle (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 est
exponentiel, c.à.d. :
𝑓(𝑥 ; 𝜃) = 𝑒𝑥𝑝[ ∑𝑑𝑗=1 𝑎𝑗 (𝑥)𝛼𝑗 (𝜃) + 𝑏(𝑥) + 𝛽(𝜃)] ∀ 𝜃 ∈ Θ ⊂ ℝ𝑑
2. Si la loi de 𝑋 est exponentielle, il n’existe (à une transformation linéaire près)
qu’une seule fonction ℎ du paramètre 𝜃 qui peut être estimer efficacement
par un estimateur 𝑇, cette fonction ℎ et son estimateur efficace 𝑇 sont
définis par :
𝜕
ℎ(𝜃) = −[𝐴(𝜃)]−1 𝛽(𝜃)
𝜕𝜃
𝑡
𝜕𝛼𝑘 (𝜃) 𝜕 𝜕 𝜕 𝜕
avec : 𝐴(𝜃) = ( ) 𝑒𝑡 𝛽 (𝜃 ) = ( 𝛽 (𝜃 ), 𝛽 (𝜃 ) , … , 𝛽 (𝜃 ))
𝜕𝜃𝑙 𝑘,𝑙=1 ;𝑑 𝜕𝜃 𝜕𝜃1 𝜕𝜃2 𝜕𝜃𝑑

1
et 𝑇 = (𝑇1 , 𝑇2 , … , 𝑇𝑛 ) où 𝑇𝑗 = ∑𝑛𝑖=1 𝑎𝑗 (𝑋𝑖 )
𝑛

Pr. El Abdi F. INSEA


71

Remarques :
➢ le fait que 𝐴(𝜃) soit inversible suppose que l’application :
𝛼∶𝜃→ 𝛼(𝜃) = (𝛼1 (𝜃), 𝛼2 (𝜃), … , 𝛼𝑑 (𝜃)) est un difféomorphisme

de Θ vers un ouvert de ℝ𝑑 .
➢ Le théorème montre qu’on ne peut estimer efficacement qu’une seule
fonction de ℎ(𝜃) qui risque de ne pas être intéressante.

Pr. El Abdi F. INSEA


72

Pr. El Abdi F. INSEA


73

Pr. El Abdi F. INSEA


74

I.9 Estimateur de maximum de vraisemblance

Définition 15 : Soit (𝑃𝜃 )𝜃∈Θ un modèle statistique paramétrique tel que


̂ est appelé
max (𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃)) admet une solution unique 𝜃̂, alors 𝜃
𝜃∈Θ

estimateur du maximum de vraisemblance (EMV). Si 𝜃̂ existe alors il vérifie :

𝜃̂ = 𝑎𝑟𝑔max 𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃) ⟺ 𝜃̂ = 𝑎𝑟𝑔 max ln (𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃))


𝜃∈Θ 𝜃∈Θ

Pr. El Abdi F. INSEA


75

Remarques :

➢ Généralement, la maximisation de la vraisemblance passe par la résolution


𝜕
de l’équation ln (𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃)) = 0. Mais la résolution d’une
𝜕𝜃

telle équation peut ne pas donner la solution, on sera alors obligé de chercher
des solutions intuitives ou numériques.
➢ Dans le cas de modèles non réguliers, il peut exister plusieurs estimateurs qui
maximisent la vraisemblance.

Exemples :
▪ (𝒩(𝑚 , 𝜎 2 ) , 𝑚 ∈ ℝ ) ; ̂ = 𝑋̅ est l′ EMV sans biais
𝑚
1
▪ (𝒩(𝑚 , 𝜎 2 ) , 𝜎 > 0) ; 𝜎̂ 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2 est l′ EMV sans biais
𝑛

▪ (𝒩(𝑚 , 𝜎 2 ) , 𝑚 ∈ ℝ , 𝜎 > 0)
1 𝑛
̂ = 𝑋̅ EMV sans biais et 𝜎̂ 2 =
𝑚 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 EMV (𝐸(𝜎̂ 2 ) = 𝜎 2)
𝑛 𝑛−1

▪ (𝑏(𝑝) , 𝑝 ∈ ]0 ; 1[ ) ; 𝑝̂ = 𝑋̅ est l′ EMV sans biais


1
▪ (𝐵(𝑘 ; 𝑝) , 𝑝 ∈ ]0 ; 1[ ) ; 𝑝̂ = 𝑋̅ est l′ EMV sans biais
𝑘
𝜕
Tous ces estimateurs sont la solution de ln (𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃)) = 0
𝜕𝜃
𝑛
▪ (𝑈[0 , 𝜃] ; 𝜃 > 0) ; 𝜃̂ = max (𝑋𝑖 ) est l′ EMV de 𝜃 (𝐸(𝜃̂) = 𝜃)
𝑖=1 ;𝑛 𝑛+1
1
𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃) = 𝕝 (𝜃 ) le max est atteint pour 𝜃̂ = max(𝑋𝑖 )
𝜃𝑛 [ max (𝑋𝑖 ) ,+∞[ 𝑖=1;𝑛
𝑖=1;𝑛

▪ Pour le modèle (𝑃𝜃 )𝜃∈ℝ où la loi 𝑃𝜃 est une loi de Cauchy décentrée de
1
densité 𝑓 (𝑥 ; 𝜃 ) = le calcul de l’EMV est pratiquement
𝜋(1+(𝑥−𝜃)2 )

impossible, la même chose pour les modèles (𝐺(𝑎 , 𝑏) ; 𝑎 > 0 , 𝑏 > 0) ;


(𝛽(𝑎 , 𝑏) ; 𝑎 > 0 , 𝑏 > 0) et le modèle de Weibull standard (𝑤(1 , 𝜃) ,
𝜃
𝜃 > 0) dont la densité est donnée par : 𝑓(𝑥 ; 𝜃) = 𝜃 𝑥 𝜃−1 𝑒 − 𝑥 𝕝𝑥>0

Pr. El Abdi F. INSEA


76

▪ (𝑈[𝜃−1 1
, 𝜃+ ]
; 𝜃 > 0) (modèle non régulier)
2 2

1 1
1 𝑆𝑖 𝜃 − ≤ min (𝑋𝑖 ) ≤ max(𝑋𝑖 ) ≤ 𝜃 +
𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃) = { 2 𝑖=1;𝑛 𝑖=1;𝑛 2

0 𝑆𝑖𝑛𝑜𝑛
1 1
1 𝑆𝑖 𝜃 − ≤ 𝑋(1) ≤ 𝑋(𝑛) ≤ 𝜃 +
= { 2 2

0 𝑆𝑖𝑛𝑜𝑛
1 1
1 𝑆𝑖 𝑋(𝑛) − ≤ 𝜃 ≤ 𝑋(1) +
= { 2 2

0 𝑆𝑖𝑛𝑜𝑛
1 1
par conséquent toute valeur comprise entre 𝑋(𝑛) − et 𝑋(1) + maximise la
2 2

vraisemblance (infinité de solutions de 𝑚𝑎𝑥 𝐿((𝑋1 , 𝑋2 , … , 𝑋𝑛 ) ; 𝜃))

Proposition 3 : S’il existe une statistique exhaustive 𝑇, alors l’EMV 𝜃̂ de 𝜃 en


dépend

Démonstration :

∃ 𝑇 statistique exhaustive ⇒ 𝐿(. ; 𝜃) = 𝑔(𝑇; 𝜃) ℎ(. ) où 𝑔(𝑇 ; 𝜃) est la densité


𝜕 𝜕
de 𝑇 ⇒ ( résoudre ln(𝐿(. ; 𝜃)) = 0 revient à résoudre 𝑔(𝑇 ; 𝜃) = 0)
𝜕𝜃 𝜕𝜃

dont la solution ne peut dépendre que de 𝑇 ⇒ 𝜃̂ = 𝑈(𝑇)

Remarque :
S’il existe une statistique exhaustive complète 𝑇 et si 𝜃̂ est sans biais de 𝜃, alors
l’EMV 𝜃̂ est le meilleur estimateur de 𝜃.

Proposition 4 : Dans le cas où le modèle (𝑃𝜃 )𝜃∈Θ est régulier. Si l’EMV 𝜃̂ est
sans biais de 𝜃 et s’il existe un estimateur efficace de 𝜃 alors cet estimateur est
l’EMV 𝜃̂ (𝑐. à. 𝑑) 𝑉𝜃 (𝜃̂) = (𝐼𝑛 (𝜃))−1
Pr. El Abdi F. INSEA
77

Proposition 5 : Si 𝜃̂ est l’estimateur du maximum de 𝜃 associé au modèle


(𝑃𝜃 )𝜃∈Θ , alors pout toute fonction 𝑔 bijective mesurable de Θ vers 𝑔(Θ),
l’estimateur 𝑔(𝜃̂) est celui de maximum de vraisemblance de 𝑔(𝜃) associé au
modèle (𝑃𝑔−1(𝛽) ) .
𝛽∈𝑔(Θ)

1
Exemple : (𝒩(𝑚 , 𝜎 2 ) , 𝜎 > 0) ; 𝜎̂ 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2 est l’EMV de 𝜎̂ 2 ,
1
l’EMV de 𝜎 est 𝜎̂ = √ ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2
𝑛

I.10 Analyse asymptotique, construction d’estimateurs


convergents

Proposition 6 (Admis): Soient (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 un modèle paramétrique et 𝜃̂ un


estimateur de 𝜃 asymptotiquement normal de variance asymptotique Σ(𝜃) , c.à.d.
tel que :

√𝑛(𝜃̂ − 𝜃) → 𝒩𝑑 (0 , Σ(𝜃))

Soit 𝑔 une fonction réelle ou vectorielle de classe 𝐶 1 de ℝ𝑑 vers ℝ𝑘 (𝑘 ≤ 𝑑). Alors


𝑔(𝜃̂) est un estimateur asymptotiquement normal de 𝑔(𝜃) et on a :
ℒ 𝑡
𝜕𝑔 𝜕𝑔
√𝑛 (𝑔(𝜃̂) − 𝑔(𝜃)) → 𝒩𝑘 (0 ,
𝜕𝜃
(𝜃)Σ(𝜃) (
𝜕𝜃
(𝜃 )) ) sous 𝑃𝜃 ∀𝜃 ∈ Θ

Si 𝜃 ∈ ℝ et 𝑔 une fonction réelle alors :


ℒ 2
√𝑛(𝑔(𝜃̂) − 𝑔(𝜃)) → 𝒩 (0 , (𝑔′ (𝜃)) Σ(𝜃)) sous 𝑃𝜃 ∀𝜃 ∈ Θ ⊂ ℝ

En particulier si (𝑃𝜃 )𝜃∈Θ⊂ℝ𝑑 un modèle régulier, l’EMV 𝜃̂ est asymptotiquement


normal. De plus sa matrice de variance asymptotique est (𝐼(𝜃))−1 et on a :

√𝑛(𝜃̂ − 𝜃) → 𝒩𝑑 (0 , (𝐼(𝜃))−1 ) sous 𝑃𝜃 ; ∀𝜃 ∈ Θ

Pr. El Abdi F. INSEA


78

Démonstration : Si 𝑘 = 1, du fait que 𝜃̂ → 𝜃, on utilise le développement


𝑛⟶+∞

limité à l’ordre 1 de 𝑔(𝜃̂) au voisinage de 𝜃 pour avoir :


𝜕𝑔
𝑔(𝜃̂) − 𝑔(𝜃) = (𝜃) (𝜃̂ − 𝜃) + 𝑜(‖𝜃̂ − 𝜃‖)
𝜕𝜃
⇒ La distribution asymptotique de 𝑔(𝜃̂) − 𝑔(𝜃) est celle de 𝜃̂ − 𝜃 de plus :
𝑡 𝑡
𝜕𝑔 𝜕𝑔 𝜕𝑔 1 𝜕𝑔 𝜕𝑔
𝑉 (𝑔(𝜃̂)) ≈ 𝑉 ( (𝜃) (𝜃̂ − 𝜃)) = (𝜃)𝑉(𝜃̂) ( (𝜃)) = (𝜃)Σ(𝜃) ( (𝜃))
𝜕𝜃 𝜕𝜃 𝜕𝜃 𝑛 𝜕𝜃 𝜕𝜃

ℒ 𝑡
𝜕𝑔 𝜕𝑔
par conséquent √𝑛 (𝑔(𝜃̂) − 𝑔(𝜃)) → 𝒩 (0 , (𝜃)Σ(𝜃) ( (𝜃)) )
𝜕𝜃 𝜕𝜃

Définition 16 :
Soient (𝑃𝜃 )𝜃∈Θ un modèle statistique paramétrique et 𝑔 une fonction réelle ou
vectorielle de classe 𝐶 1 de ℝ𝑑 vers ℝ𝑘 (𝑘 ≤ 𝑑). Un estimateur 𝑇̂𝑛 de 𝑔(𝜃) est
dit asymptotiquement efficace de si et seulement si 𝑇̂𝑛 est asymptotiquement
normale de matrice de variance asymptotique
𝑡
𝜕𝑔 𝜕𝑔
(𝜃)(𝐼(𝜃))−1 ( (𝜃))
𝜕𝜃 𝜕𝜃

Exercice 1 : On considère le modèle exponentiel (𝜉(𝜆) ; 𝜆 ∈ ℝ∗+ )


1. Monter que la statistique 𝑋̅ est exhaustive complète
2. Donner la loi de 𝑛𝑋̅
1 1
3. Donner les lois asymptotiques des estimateurs 𝜆̂1 = et 𝜆̂2 =
𝑋̅ 1
√ ∑𝑛 𝑋2
2𝑛 𝑖=1 𝑖

Lequel est asymptotiquement le meilleur ?


4. Monter 𝜆̂1 est l’EMV de 𝜆, qu’il biaisé. En déduire un estimateur 𝜆̂ sans
biais de 𝜆.
5. Monter que 𝜆̂ est un estimateur de 𝜆 optimal mais non efficace, mais
que 𝜆̂1 et 𝜆̂ sont tous les deux asymptotiquement efficaces.

Pr. El Abdi F. INSEA


79

6.

Pr. El Abdi F. INSEA


80

Pr. El Abdi F. INSEA


81

Pr. El Abdi F. INSEA


82

Exercice 2 : On considère le modèle uniforme (𝑈[0 , 𝜃] ; 𝜃 > 0)

1. Donner l’estimateur du maximum de vraisemblance 𝜃̂ de 𝜃


2. Montrer que pour toute fonction continue par morceaux bornées on a :
𝑢
1
lim 𝐸𝜃 [𝑔 (𝑛(𝜃 − 𝜃̂))] = ∫ 𝑔(𝑢) 𝑒 − 𝜃 𝕝𝑥≥0 𝑑𝑢. En déduire la loi
𝑛→+∞ 𝜃

asymptotique de 𝑛(𝜃 − 𝜃̂)


𝑛+1 𝑛+2
3. On considère les deux estimateurs 𝜃̂1 = 𝜃̂ et 𝜃̂2 = 𝜃̂
𝑛 𝑛+1

Monter que les deux suites (𝑛(𝜃 − 𝜃̂1 )) et (𝑛(𝜃 − 𝜃̂2 )) convergent
𝑛∈ℕ 𝑛∈ℕ

en lois et identifier leurs limites.


4. On considère les deux estimateurs 𝜃̂3 = 𝜃̂ + 𝑋(1) et 𝜃̂4 = 2 𝑋̅. Donner les

risques quadratiques des estimateurs 𝜃̂ et (𝜃̂𝑖 )𝑖=1,4 . Sont-ils admissibles ?

5. Montrer que 𝜃̂2 est le meilleur estimateur parmi les estimateurs de la


forme 𝑎 𝜃̂.

Pr. El Abdi F. INSEA


83

Pr. El Abdi F. INSEA


84

Pr. El Abdi F. INSEA


85

Pr. El Abdi F. INSEA


86

Pr. El Abdi F. INSEA


87

Pr. El Abdi F. INSEA


88

Pr. El Abdi F. INSEA


89

Pr. El Abdi F. INSEA


90

Pr. El Abdi F. INSEA


91

Exemple : On considère le modèle (𝑏ê𝑡𝑎(𝑝, 𝑞) ; 𝑝 > 0 , 𝑞 > 0). On désir


estimer 𝜃 = (𝑝, 𝑞). Pour 𝑋 ↝ 𝑏ê𝑡𝑎(𝑝, 𝑞) on a :
𝑝 𝑝𝑞
𝐸𝜃 (𝑋) = =𝑐 et 𝐸𝜃 (𝑋(1 − 𝑋)) = =𝑑
𝑝+𝑞 (𝑝+𝑞)(𝑝+𝑞+1)

En inversant le système on obtient :


𝑐𝑑 (1−𝑐) 𝑑
𝑝= et 𝑞=
𝑐−𝑑−𝑐 2 𝑐−𝑑−𝑐 2

On construit à l’aide de la loi forte des grands nombres des estimateurs


𝑝𝑞
convergents de 𝐸𝜃 (𝑋) = 𝑐 et de 𝐸𝜃 (𝑋(1 − 𝑋)) = = 𝑑 qui sont :
(𝑝+𝑞)(𝑝+𝑞+1)
1
𝑐̂𝑛 = 𝑋̅ et 𝑑̂𝑛 = ∑𝑛𝑖=1 𝑋𝑖 (1 − 𝑋𝑖 ).
𝑛

On déduit de la méthode de substitution que :


𝑐̂𝑛 𝑑̂𝑛 (1−𝑐̂𝑛 ) ̂𝑑𝑛
𝑝̂𝑛 = 2 et 𝑞̂𝑛 = 2
𝑐̂𝑛 −𝑑̂𝑛 −𝑐̂𝑛 𝑐̂𝑛 −𝑑̂𝑛 −𝑐̂𝑛

alors 𝑝̂𝑛 et 𝑞̂𝑛 sont des estimateurs convergents de 𝑝 et de 𝑞. Plus


généralement pour un modèle (𝑃𝜃 )𝜃∈Θ les estimateurs des moments d’ordre
1
𝑘 sont les moments empériques d′ ordre 𝑘 définis par ∶ 𝑀𝑘 = ∑𝑛𝑖=1 𝑋𝑖𝑘 qui
𝑛

sont des estimateurs convergents. Alors pour estimer le paramètre 𝜃 ∈ ℝ𝑑 ,


on cherche une fonction ℎ bijective continue et une fonction mesurable
φ telle que :
𝐸𝜃 (|φ(𝑋)|) < ∞ et ℎ(𝜃) = 𝐸𝜃 (φ(𝑋)) ∀𝜃∈Θ
1
L’estimateur des moments de 𝜃 sera défini par 𝜃̂ = ℎ−1 ( ∑𝑛𝑖=1 φ(𝑋𝑖 )). Par
𝑛

construction l’estimateur 𝜃̂ est convergent.

Cette méthode consiste à prendre des variables aléatoires indépendantes


(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) telle que 𝐸𝜃 (𝑌𝑖 ) = 𝑚𝑖 (𝜃) < ∞ et 𝑉𝜃 (𝑌𝑖 ) = Σ indépendant de 𝜃

Pr. El Abdi F. INSEA


92

Définition 16 : Soient 𝑌1 , 𝑌2 , … , 𝑌𝑛 des vecteurs aléatoires indépendants tels


que 𝐸𝜃 (𝑌𝑖 ) = 𝑚𝑖 (𝜃) et 𝑉𝜃 (𝑌𝑖 ) = Σ existent pour tout 𝑖 = 1; 𝑛.
On appelle estimateur des moindres carrées l’estimateurs 𝜃̂ verifiant :
𝑛

𝜃̂ = 𝑎𝑟𝑔 min ∑‖𝑌𝑖 − 𝑚𝑖 (𝜃)‖22


𝜃∈Θ
𝑖=1
2
Si 𝑌1 , 𝑌2 , … , 𝑌𝑛 sont des v.a.r. on aura : 𝜃̂ = 𝑎𝑟𝑔 min ∑𝑛𝑖=1(𝑌𝑖 − 𝑚𝑖 (𝜃))
𝜃∈Θ

Exemple : Modèle de régression linéaire simple de la forme :


𝑌𝑖 = 𝑎𝑋𝑖 + 𝑏 + 𝜀𝑖 où 𝜀𝑖 ↝ 𝒩(0 , 𝜎 2 ) indépendants et 𝑋𝑖 données
∀ 𝑖 = 1; 𝑛
Les paramètres à estimer sont 𝑎, 𝑏 𝑒𝑡 𝜎 2 .
Exercice1 : On considère le modèle de poisson (P (𝜃) , 𝜃 ∈ ℝ∗+ ). Pour un
échantillon (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de 𝑋 associé au modèle, on cherche à estimer
𝑃𝜃 (𝑋 = 0).
1. Montrer que ce modèle est exponentiel. Déterminer la statistique
exhaustive particulière 𝑆. Est-elle complète (totale). Donner sa loi.
2. Calculer 𝑃𝜃 (𝑋 = 0) et montrer que 𝕝𝑋𝑖=0 est un estimateur sans biais de
𝑃𝜃 (𝑋 = 0) ∀ 𝑖 = 1; 𝑛.
𝑋1⁄
3. Monter que la loi conditionnelle de 𝑆 est une binomiale de paramètres
1 𝑋1⁄ 1
(𝑆 , 𝑛) c.à.d. 𝑆 ~ 𝐵 (𝑆 ,
𝑛
).

1 𝑆
4. En déduire que 𝑇̂ ∗ = (1 − ) est l’estimateur optimal de 𝑃𝜃 (𝑋 = 0). Est-
𝑛

il convergent ?
5. Calculer le score et l’information de Fisher.
6. En déduire la borne FDCR pour l’estimation de 𝑃𝜃 (𝑋 = 0). Est-elle atteinte
par 𝑇̂ ∗ ?

Pr. El Abdi F. INSEA


93

7. 𝑇̂ ∗ est-il asymptotiquement normal, asymptotiquement efficace ?


8. Calculer l’EMV de 𝑃𝜃 (𝑋 = 0). Vérifier qu’il est biaisé et qu’il est
asymptotiquement efficace.

Pr. El Abdi F. INSEA


94

Pr. El Abdi F. INSEA


95

Pr. El Abdi F. INSEA


96

Pr. El Abdi F. INSEA


97

Pr. El Abdi F. INSEA


98

Pr. El Abdi F. INSEA


99

Exercice 2 : On considère le modèle (𝑃𝜃 )𝜃∈Θ tel que la densité de 𝑃𝜃 est


donnée par :
𝑐𝜃
𝑓(𝑥 ; 𝜃) = 𝕝𝑋≥1
𝑥 𝜃+1
Soit (𝑋𝑛 )𝑛∈ℕ∗ une suite de variables aléatoires i.i.d de loi 𝑃𝜃 .
1. Calculer 𝑐𝜃 .
2. Calculer 𝐸𝜃 (𝑋1 )
3. En déduire un estimateur convergent de 𝜃.
4. A quelle condition sur 𝜃, cet estimateur est-il asymptotiquement normal ?
5. Cet estimateur est-il asymptotiquement efficace ?
6. Calculer l’EMV de 𝜃
7. Déterminer la loi de ln(𝑋𝑛 )
1
8. Calculer l’EMV de et donner sa loi.
𝜃

9. Vérifier directement si cet estimateur est biaisé, efficace et


asymptotiquement normal.

Pr. El Abdi F. INSEA


100

Pr. El Abdi F. INSEA


101

Pr. El Abdi F. INSEA


102

Pr. El Abdi F. INSEA


103

B. Estimation par intervalles, intervalles de confiance

Il est souvent plus réaliste et plus intéressant de fournir un renseignement du type


𝜃 ∈ [𝑎 , 𝑏] plutôt que de donner un estimateur ponctuel 𝜃̂ de 𝜃. Donner untel
intervalle s’appelle donner une estimation par intervalle de 𝜃.
Le principe de la construction des intervalles de confiance est la suivante :
Soit 𝑇 un estimateur de 𝜃 (on prendra évidemment le meilleur si possible) dont on
connait la loi pour chaque 𝜃.

Pr. El Abdi F. INSEA


104

Etant donné une valeur 𝜃0 de 𝜃, on peut déterminer un intervalle de probabilité de


niveau 1 − 𝛼 (le plus proche de 1) pour 𝑇, c.à.d. deux bornes 𝑡1 et 𝑡2 (dépendant
nécessairement 𝜃0 ) telles que :
𝑃𝜃0 (𝑡1 < 𝑇 < 𝑡2 ) = 1 − 𝛼
On adopte La règle de décision suivante : Si 𝑡 est la valeur observée de 𝑇 :
• Si 𝑡 ∈ [𝑡1 , 𝑡2 ] on conserve 𝜃0 comme valeur possible de 𝜃
• Si 𝑡 ∉ [𝑡1 , 𝑡2 ] on élimine 𝜃0
On répète cette opération pour toutes les valeurs de 𝜃.
Cette méthode est illustrée par le graphique suivant sur le plan (𝜃; 𝑇) où l’on trace
𝑡1 (𝜃) et 𝑡2 (𝜃)

On lit selon une verticale les intervalles de probabilité et, selon l’horizontale issue de
𝑡, l’intervalle de confiance.
[𝑎 , 𝑏] est un intervalle de confiance de niveau 1 − 𝛼 (Coefficient de confiance), il est
aléatoire car il dépend de 𝑡 puisque 𝑎 et 𝑏 s’obtiennent par :
𝑎 = 𝑡1−1 (𝑡)
{
𝑏 = 𝑡2−1 (𝑡)
Si on augmente 1 − 𝛼, on augmente la longueur de l’intervalle de probabilité, don les
courbes s’écartent. Si 𝑛 augmente, comme 𝑇est supposé convergent, 𝑉 (𝑇) diminue,
donc [𝑡1 , 𝑡2 ] diminue et les courbes se rapprochent de la bissectrice.

Pr. El Abdi F. INSEA


105

a. 𝝈𝟐 𝒄𝒐𝒏𝒏𝒖
𝜎 2
𝑋̅ est le meilleur estimateur de 𝑚 et suit la loi 𝒩 (𝑚 , ), par conséquent on a :
𝑛

▪ L’intervalle de probabilité de 𝑋̅ à 1 − 𝛼 est calculé à partir de :


(𝑋̅ − 𝑚)
𝑃 (|√𝑛 | < 𝜙(1−α) ) = 𝑃 (|𝒩 (0,1)| < 𝜙(1−α) ) = 1 − α
𝜎 2 2

α
où 𝜙(1−α) = quantile de la loi 𝒩 (0 ,1) associée à (1 − ) et il est donné par :
2 2

𝜎 𝜎
𝑋̅ ∈ ]𝑚 − 𝜙(1−α) , 𝑚 + 𝜙(1−α) [
√𝑛 2 √𝑛 2

d’où l’intervalle de confiance pour 𝑚 de niveau 1 − 𝛼 est :


𝜎 𝜎
𝑚 ∈ ]𝑋̅ − 𝜙(1−α) , 𝑋̅ + 𝜙(1−α) [ = IC1−𝛼 (𝑚)
√𝑛 2 √𝑛 2

𝜎 𝜎
En particulier on a 𝑚 ∈ ]𝑋̅ − 1,96 , 𝑋̅ + 1,96 [ avec une probabilité de 0,95.
√𝑛 √𝑛

b. 𝝈𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖

𝑋̅ est le meilleur estimateur de 𝑚 et 𝑆 ′2 celui de 𝜎 2 :


(𝑋̅ −𝑚) (𝑋̅ −𝑚)
On utilise le fait que √𝑛 − 1 𝑆
= √𝑛
𝑆′
= 𝑇𝑛−1 suit une loi de Student à
(𝑛 − 1) degrés de liberté ce qui donne :

▪ L’intervalle de probabilité de 𝑇𝑛−1 à 1 − 𝛼 est calculé par :

(𝑋̅ − 𝑚)
𝑃 (|√𝑛 − 1 | < 𝑡(1−α) ) = 𝑃 (|𝑡𝑛−1 | < 𝑡(1−α) ) = 1 − α
𝑆 2 2

α
où 𝑡(1−α) = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑇𝑛−1 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − ) et il est donné par :
2 2

𝑇𝑛−1 ∈ ]− 𝑡(1−α) , 𝑡(1−α) [


2 2

d’où l’intervalle de confiance pour 𝑚 de niveau 1 − 𝛼 est :

𝑆 𝑆
𝑚 ∈ IC1−𝛼 (𝑚) = ]𝑋̅ − 𝑡(1−α) , 𝑋̅ + 𝑡(1−α) [
√𝑛 − 1 2 √𝑛 − 1 2

𝑆′ 𝑆′
= ]𝑋̅ − 𝑡(1−α) , 𝑋̅ + 𝑡(1−α) [
√𝑛 2 √𝑛 2

Pr. El Abdi F. INSEA


106

Remarque : Dans le cadre non normal on utilise le théorème de limite centrale pour
avoir des intervalles de confiance asymptotiques de niveau 1 − 𝛼.

a. 𝒎 𝒄𝒐𝒏𝒏𝒖
1 𝑛
𝑆2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2 est le meilleur estimateur de 𝜎 2 et 𝑆 2 suit une loi 𝒳𝑛2 .
𝑛 𝜎2
Soient 𝑘1 et 𝑘2 les bornes de l’intervalle de probabilité d’un 𝒳𝑛2 telles que :
𝑛 2
𝑃 (𝑘1 < 𝑆 < 𝑘2 ) = 1 − 𝛼
𝜎2

alors l’intervalle de confiance pour 𝜎 2 de niveau 1 − 𝛼 est donné par :


𝑛 2 𝑛 2
𝜎2 ∈ ] 𝑆 , 𝑆 [ = IC1−𝛼 (𝜎 2 )
𝑘2 𝑘1
𝛼
𝑘1 = 𝒳𝑛2 ; 𝛼 est le quantile de la loi 𝒳𝑛2 associé à
2 2

𝛼
𝑘2 = 𝒳𝑛2 ;1− 𝛼 le quantile de la loi 𝒳𝑛2 associé à 1 −
2 2

Exemple : 𝑛 = 35 ; 𝑇 = 45 ; 1 − 𝛼 = 0,90. Les intervalles de confiance de niveau 0,90


sont :
35 35
Pour 𝜎 2 est : 𝜎2 ∈ ] 45 , 45[ = ]31,625 , 70,11[
49,802 22,465

Pour 𝜎 est : 𝜎 ∈ ]5,62 , 8,37[ = 𝐼𝐶1−𝛼 (𝜎)

b. 𝒎 𝒊𝒏𝒄𝒐𝒏𝒏𝒖
1 𝑛
On utilise l’estimateur 𝑆 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 et on sait que 2
𝑆 2 suit une loi 𝒳𝑛−1 .
𝑛 𝜎2
2
Soient 𝑘1 et 𝑘2 les bornes de l’intervalle de probabilité d’un 𝒳𝑛−1 telles que :
𝑛 2
𝑃 (𝑘1 < 𝑆 < 𝑘2 ) = 1 − 𝛼
𝜎2

Pr. El Abdi F. INSEA


107

2 2 𝛼
𝑘1 = 𝒳𝑛−1 ;
𝛼 est le quantile de la loi 𝒳𝑛 associé à
2 2

2 2 𝛼
𝑘2 = 𝒳𝑛−1 ;1−
𝛼 le quantile de la loi 𝒳𝑛 associé à 1 −
2 2

alors l’intervalle de confiance pour 𝜎 2 de niveau 1 − 𝛼 est donné par :


𝑛 2 𝑛 2
𝜎2 ∈ ] 𝑆 , 𝑆 [ = IC1−𝛼 (𝜎 2 )
𝑘2 𝑘1

Exemple : 𝑛 = 30 ; 𝑆 2 = 12 ; 1 − 𝛼 = 0,90. Les intervalles de confiance de niveau


0,90 sont :
30 30
Pour 𝜎 2 est : 𝜎2 ∈ ] 12 , 12[ = ]8,46 , 20,33[
42,557 17,708

Pour 𝜎 est : 𝜎 ∈ ]2,91 , 4,51[

Etant donné une population infinie (ou finie si le tirage est avec remise EAS) où une
proportion 𝑝 d’individus possédant un certain caractère, il s’agit de trouver un
intervalle de confiance pour 𝑝 à partir de la fréquence empirique 𝑓, proportion trouvée
dans un échantillon de taille 𝑛 représenté par (𝑋1 , 𝑋2 , … , 𝑋𝑛 ). On sait que 𝐹𝑛 = 𝑋̅ est
le meilleur estimateur de 𝑝 et que 𝑛𝐹𝑛 suit une loi binomiale 𝐵(𝑛, 𝑝), si 𝑛 est faible on
utilisera les tables de la loi binomiale ou l’abaque.

Si 𝑛 est grand (𝑛 ≥ 30) on utilisera le théorème de limite centrale qui nous donne :

(𝐹𝑛 − 𝑝) ℒ
√𝑛 → 𝒩 (0,1)
√𝑝(1 − 𝑝)

Et donc l’intervalle de probabilité symétrique de 𝐹𝑛 de niveau 1 − 𝛼 est donné par :

𝑝 (1 − 𝑝 ) 𝑝 (1 − 𝑝 )
𝐹𝑛 ∈ ]𝑝 − √ 𝜙(1−α) , 𝑝 + √ 𝜙(1−α) [
𝑛 2 𝑛 2

α
𝜙(1−α) = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩 (0 ,1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − )
2 2
Pr. El Abdi F. INSEA
108

Les bornes de l’intervalle de probabilité sont données par (en posant 𝐶𝛼 = 𝑘 ) :

𝑝(1−𝑝) 𝑝(1−𝑝) 𝑘2 𝑘2
𝑦 = 𝑝 ± 𝑘√ ⇒ (𝑦 − 𝑝)2 = 𝑘 2 ⇒ 𝑦 2 + 𝑝2 (1 + ) − 2𝑝𝑦 − 𝑝=0
𝑛 𝑛 𝑛 𝑛

Etant une valeur observée 𝑓 de 𝐹𝑛 l’intervalle de confiance de 𝑝 de niveau 1 − 𝛼


s’obtient en résolvant l’équation en 𝑝 :

𝑘2 𝑘2 𝑘2 𝑘2
𝑓 2 + 𝑝2 (1 + ) − 2𝑝𝑓 − 𝑝=0 ⇐ 𝑝2 (1 + ) − 𝑝 (2𝑓 + ) + 𝑓2 = 0
𝑛 𝑛 𝑛 𝑛

La solution est donc donnée par :

𝑘2 𝑘2 𝑘2
(2𝑓 + ) ± √ ( + 4𝑓 (1−𝑓2 ))
𝑛 𝑛 𝑛
𝑓(1−𝑓)
𝑝= 𝑘2
≈ 𝑘√ pour n assez grand
2 (1+ ) 𝑛
𝑛

Et donc l’intervalle de confiance asymptotique de la proportion 𝑝 de niveau 1 − 𝛼


est :

𝐹𝑛 (1 − 𝐹𝑛 ) 𝐹𝑛 (1 − 𝐹𝑛 )
𝑝 ∈ ]𝐹𝑛 − √ 𝜙(1−α) , 𝐹𝑛 + √ 𝜙(1−α) [ = IC1−𝛼 (𝑝)
𝑛 2 𝑛 2

Exemple : 𝑛 = 400 ; 𝑓 = 36% (valeur observée de 𝐹𝑛 ) ; 1 − 𝛼 = 0,95 on a :


𝑝 ∈ ]0,31 , 0,41[

Application : Détermination la taille de l’échantillon en fonction de la précision :

Supposons que l’on désire connaître 𝑝 avec une incertitude ±∆𝑝 pour un niveau de
confiance 1 − 𝛼 à risque symétrique, la formule précédente nous donne que :

𝑓(1 − 𝑓)
𝑛 = (𝐶𝛼 )2
(∆𝑝)2

1
Si 𝑓 est inconnue, on obtient une majoration de 𝑛 en posant 𝑓 = par conséquent
2

(𝐶𝛼 )2
𝑛≤
4 (∆𝑝)2

Pr. El Abdi F. INSEA


109

donc la taille maximale de l’échantillon d’étude est donnée par la partie entière de
(𝐶𝛼 )2
+1
4 (∆𝑝)2

Dans le cas d’un intervalle à 95%, 𝐶𝛼 = 1,96 ≅ 2, ce qui donne la formule approchée :

1
𝑛𝑚𝑎𝑥 =
(∆𝑝)2

On a les valeurs suivantes :

𝟏−𝜶 0,90 0,95 0,98


∆𝒑
0,01 6760 9600 13530
0,02 1700 2400 3380
0,05 270 380 540

Exercices : On considère le modèle de poisson (P (𝜃) , 𝜃 ∈ ℝ∗+ ), En admettant


2
l’égalité suivante : 𝑃𝜃 (𝑋 ≤ 𝑘 ) = 𝑃(𝒳2(𝑘+1) > 2𝜃), donner un intervalle de confiance
de 𝜃 à risque symétrique de niveau 1 − 𝛼. Application : 𝑛 = 15 ; 𝑛𝑥̅ = 20 ; 𝛼 = 0,05

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de loi 𝑋 ↝ 𝒩 (𝑚1 , 𝜎12 ) et (𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) un


𝑛2 -échantillon de loi 𝑌 ↝ 𝒩 (𝑚2 , 𝜎22 ). Si 𝑋 et indépendant de 𝑌, on se propose de
trouver un intervalle de confiance de ( 𝑚1 − 𝑚2 ) de niveau 1 − 𝛼 :

c. 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 ; 𝝈𝟐 𝒄𝒐𝒏𝒏𝒖𝒔

Le meilleur estimateur de ( 𝑚1 − 𝑚2 ) est 𝑇 = (𝑋̅ − 𝑌̅ ) de plus on a :

(𝑋̅ −𝑌̅ ) − ( 𝑚1 − 𝑚2 )
1 1
↝ 𝒩 (0 , 1)
𝜎√ +
𝑛1 𝑛2

Pr. El Abdi F. INSEA


110

L’intervalle de probabilité symétrique de 𝑇 = (𝑋̅ − 𝑌̅ ) de niveau 1 − 𝛼 est donné par :

1 1 1 1
𝑇 = (𝑋̅ − 𝑌̅ ) ∈ ]( 𝑚1 − 𝑚2 ) − 𝜎√ + 𝜙(1−α) , ( 𝑚1 − 𝑚2 ) + 𝜎√ + 𝜙 α[
𝑛1 𝑛2 2 𝑛1 𝑛2 (1−2)

α
𝜙(1−α) = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩 (0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − )
2 2

par conséquent l’intervalle de confiance de la différence des moyennes ( 𝑚1 − 𝑚2 )


de niveau 1 − 𝛼 est donné par :

1 1 1 1
(𝑚1 − 𝑚2 ) ∈ ](𝑋̅ − 𝑌̅) − 𝜎√ + 𝜙(1−α) , (𝑋̅ − 𝑌̅ ) + 𝜎√ + 𝜙(1−α) [ = IC1−𝛼(𝑚1 − 𝑚2 )
𝑛1 𝑛2 2 𝑛1 𝑛2 2

d. 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 ; 𝝈𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖𝒔

Le meilleur estimateur de (𝑚1 − 𝑚2 ) est 𝑇 = (𝑋̅ − 𝑌̅) et 𝑆𝑋𝑌


′2
est le meilleur de 𝜎 2 de
plus on a :

(𝑋̅ − 𝑌̅) − (𝑚1 − 𝑚2 )


↝ 𝑇𝑛1+𝑛2−2
′ 1 1
𝑆𝑋𝑌 √ +
𝑛1 𝑛2

L’intervalle de probabilité symétrique de 𝑇𝑛1+𝑛2−2 de niveau 1 − 𝛼 est donné par :

𝑇𝑛1+𝑛2−2 ∈ ]−𝑡(1−α) , 𝑡(1−α) [


2 2

α
𝑡(1−α) = 𝑡(𝑛 α = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑇𝑛1+𝑛2−2 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − )
2 1 +𝑛2 −2 ); 1− 2 2

par conséquent l’intervalle de confiance de la différence des moyennes ( 𝑚1 − 𝑚2 )


de niveau 1 − 𝛼 est donné par :

1 1 1 1
(𝑚1 − 𝑚2 ) ∈ ](𝑋̅ − 𝑌̅) − 𝑆𝑋𝑌

√ +
𝑛1 𝑛2
𝑡(1−α) ; (𝑋̅ − 𝑌̅) + 𝑆𝑋𝑌

√ +
𝑛1 𝑛2
𝑡(1−α)[ = IC1−𝛼 (𝑚1 − 𝑚2)
2 2

e. 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 ; 𝝈𝟐𝟏 𝒆𝒕 𝝈𝟐𝟐 𝒄𝒐𝒏𝒏𝒖𝒔

Le meilleur estimateur de (𝑚1 − 𝑚2 ) est 𝑇 = (𝑋̅ − 𝑌̅) de plus on a :

Pr. El Abdi F. INSEA


111

(𝑋̅ −𝑌̅) − (𝑚1 −𝑚2 )


↝ 𝒩 (0 , 1)
𝜎2 𝜎2
√ 1+ 2
𝑛1 𝑛2

L’intervalle de probabilité symétrique de 𝑇 = (𝑋̅ − 𝑌̅ ) de niveau 1 − 𝛼 est donné par :

𝜎12 𝜎22 𝜎2 𝜎2
̅−𝑌
𝑇 = (𝑋 ̅ ) ∈ ](𝑚1 − 𝑚2 ) − √ + 𝜙(1−α) , (𝑚1 − 𝑚2 ) + √ 1 + 2 𝜙(1−α) [
𝑛1 𝑛2 2 𝑛1 𝑛2 2

α
𝜙(1−α) = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩 (0 ,1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à (1 − )
2 2

par conséquent l’intervalle de confiance de la différence des moyennes (𝑚1 − 𝑚2 ) de


niveau 1 − 𝛼 est donné par :

𝜎2 𝜎2 𝜎2 𝜎2
(𝑚1 − 𝑚2 ) ∈ ](𝑋̅ − 𝑌̅) − √ 1 + 2 𝜙(1−α) ; (𝑋̅ − 𝑌̅) + √ 1 + 2 𝜙(1−α) [ = IC1−𝛼 (𝑚1 − 𝑚2 )
𝑛1 𝑛2 2 𝑛1 𝑛2 2

f. 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 ; 𝝈𝟐𝟏 𝒆𝒕 𝝈𝟐𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖𝒔

Il n’y a pas de statistique permettant le calcul de l’intervalle de confiance cependant si


𝑚𝑖𝑛(𝑛1 ; 𝑛2 ) est assez grand on utilise la statistique obtenue par le théorème central
limite :

(𝑋̅ −𝑌̅ ) − ( 𝑚1 − 𝑚2 )
↝ 𝒩 (0 , 1)
𝑆′2 𝑆′2
√ 𝑋 + 𝑌
𝑛1 𝑛2

par conséquent l’intervalle de confiance asymptotique de la différence des moyennes


( 𝑚1 − 𝑚2 ) de niveau 1 − 𝛼 est donné par :

𝑆𝑋′2 𝑆𝑌′2 𝑆𝑋′2 𝑆𝑌′2


(𝑚1 − 𝑚2 ) ∈ ](𝑋̅ − 𝑌̅ ) − √ + 𝜙(1−α) ; (𝑋̅ − 𝑌̅) + √ + 𝜙(1−α) [ = IC1−𝛼(𝑚1 − 𝑚2 )
𝑛1 𝑛2 2 𝑛1 𝑛2 2

Application : estimation de la différence des proportions issues de deux populations


indépendantes de lois de Bernoulli.

Pr. El Abdi F. INSEA


112

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de loi 𝑋 ↝ 𝑏(𝑝1 ) et (𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) un 𝑛2 -


échantillon de loi 𝑌 ↝ 𝑋 ↝ 𝑏(𝑝2 ). Si 𝑋 et indépendant de 𝑌, on se propose de trouver
un intervalle de confiance de ( 𝑝1 − 𝑝2 ) de niveau 1 − 𝛼 :

Le meilleur estimateur de ( 𝑝1 − 𝑝2 ) est (𝑋̅ − 𝑌̅) de plus 𝑚𝑖𝑛(𝑛1 ; 𝑛2 ) est assez


grand on a :

(𝑋̅ − 𝑌̅ ) − ( 𝑝1 − 𝑝2 )
𝑍= ↝ 𝒩 (0 , 1)
𝑋̅ (1 − 𝑋̅ ) 𝑌̅(1 − 𝑌̅)
√ +
𝑛1 𝑛2

L’intervalle de probabilité pour 𝑍 de niveau 1 − 𝛼 est donné par :

]−𝜙(1−α) ; 𝜙(1−α) [
2 2

Par conséquent l’intervalle de confiance de la différence ( 𝑝1 − 𝑝2 ) est donnée par :

𝑋̅ (1 − 𝑋̅) 𝑌̅(1 − 𝑌̅) 𝑋̅(1 − 𝑋̅) 𝑌̅(1 − 𝑌̅)


IC1−𝛼 (𝑝1 − 𝑝2 ) = ](𝑋̅ − 𝑌̅ ) − √ + 𝜙(1−α) , (𝑋̅ − 𝑌̅ ) + √ + 𝜙(1−α) [
𝑛1 𝑛2 2 𝑛1 𝑛2 2

Exercice : Donner les intervalles de confiance de la différence des moyennes des deux
populations indépendantes lorsque 𝑛1 = 𝑛2

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de loi 𝑋 ↝ 𝒩 (𝑚1 , 𝜎12 ) et (𝑌1 , 𝑌2 , … , 𝑌𝑛2 ) un


𝑛2 -échantillon de loi 𝑌 ↝ 𝒩 (𝑚2 , 𝜎22 ). Si 𝑋 et indépendant de 𝑌 on se on se propose
𝜎22
de trouver un intervalle de confiance du rapport de niveau 1 − 𝛼. Quatre cas
𝜎12

peuvent se produire :

g. 𝒎𝟏 et 𝒎𝟐 𝒄𝒐𝒏𝒏𝒖𝒔

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

Pr. El Abdi F. INSEA


113

1 1
𝜎̂12 = 𝑆𝑋2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑚1 )2 et 𝜎̂22 = 𝑆𝑌2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑚2 )2
𝑛1 𝑛2

2
𝜎22 𝑆𝑌
on estime alors le rapport 2 par 2 et on utilise la statistique suivante :
𝜎1 𝑆𝑋

𝜎22 𝑆𝑋2 1
ℱ= 2 2 ↝ ℱ𝑛1 ; 𝑛2 =
𝜎1 𝑆𝑌 ℱ𝑛2 ; 𝑛1
L’intervalle de probabilité de ℱ de niveau 1 − 𝛼 est donné par :

𝑃(𝑘1 < ℱ𝑛1 ; 𝑛2 < 𝑘2 )

𝛼
𝑘1 = ℱ𝑛1 ; 𝑛2 ; 𝛼 = quantile de la loi ℱ𝑛1 ; 𝑛2 associé à
2 2

𝛼
𝑘2 = ℱ𝑛1 ; 𝑛2 ; 1− 𝛼 = quantile de la loi ℱ𝑛1 ; 𝑛2 associé à 1 − .
2 2

1
Il est à remarquer que ℱ𝑛1 ; 𝑛2 ;1− 𝛽 =
ℱ𝑛2 ; 𝑛1 ; 𝛽

𝜎22
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎12

𝜎22 1 𝑆𝑌2 𝑆𝑌2


IC1−𝛼 ( 2 ) = ] , ℱ𝑛 ; 𝑛 ; 1− 𝛼 2 [
𝜎1 ℱ𝑛 𝛼 𝑆𝑋2 1 2 2 𝑆𝑋
2 ; 𝑛1 ; 1− 2

𝜎12
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎22

𝜎12 1 𝑆𝑋2 𝑆𝑋2


IC1−𝛼 ( 2 ) = ] , ℱ𝑛 ; 𝑛 ; 1− 𝛼 2 [
𝜎2 ℱ𝑛 𝛼 𝑆𝑌2 2 1 2 𝑆𝑌
1 ; 𝑛2 ; 1− 2

h. 𝒎𝟏 𝒄𝒐𝒏𝒏𝒖 et 𝒎𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑚1 )2 et 𝜎̂22 = 𝑆𝑌′2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑌̅)2 )
𝑛1 𝑛2 −1

Pr. El Abdi F. INSEA


114

′2
𝜎22 𝑆𝑌
on estime alors le rapport par 2 et on utilise la statistique suivante :
𝜎12 𝑆𝑋

𝜎22 𝑆𝑋2 1
ℱ = 2 ′2 ↝ ℱ𝑛1 ; (𝑛2 −1) =
𝜎1 𝑆𝑌 ℱ(𝑛2−1) ; 𝑛1

L’intervalle de probabilité de ℱ de niveau 1 − 𝛼 est donné par :


𝑃(𝑘1 < ℱ𝑛1 ; (𝑛2−1) < 𝑘2 )
𝛼
𝑘1 = ℱ𝑛1 ; (𝑛2−1) ; 𝛼 = quantile de la loi ℱ𝑛1 ; (𝑛2−1) associé à
2 2

𝛼
𝑘2 = ℱ𝑛1 ; (𝑛2−1) ;1− 𝛼 = quantile de la loi ℱ𝑛1 ; (𝑛2−1) associé à 1 − .
2 2

𝜎22
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎12

𝜎22 1 𝑆𝑌′2 𝑆𝑌′2


IC1−𝛼 ( 2 ) = ] ; ℱ𝑛 ; (𝑛 −1) ; 1− 𝛼 2 [
𝜎1 ℱ(𝑛 𝛼 𝑆𝑋2 1 2 2 𝑆𝑋
2 −1) ; 𝑛1 ; 1− 2

𝜎12
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎22

𝜎12 1 𝑆𝑋2 𝑆𝑋2


IC1−𝛼 ( )=] , ℱ 𝛼 ′2 [
𝜎22 ℱ𝑛 𝛼 𝑆𝑌′2 (𝑛2 −1) ; 𝑛1 ;1−
2 𝑆𝑌
1 ; (𝑛2 −1) ;1− 2

i. 𝒎𝟏 𝒊𝒏𝒄𝒐𝒏𝒏𝒖 et 𝒎𝟐 𝒄𝒐𝒏𝒏𝒖

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋′2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑋̅ )2 et 𝜎̂22 = 𝑆𝑌2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑚2 )2
𝑛1 −1 𝑛2 −1

′2
𝜎22 𝑆𝑌
on estime alors le rapport par 2 et on utilise la statistique suivante :
𝜎12 𝑆𝑋

𝜎22 𝑆𝑋′2 1
ℱ = 2 2 ↝ ℱ(𝑛1−1) ; 𝑛2 =
𝜎1 𝑆𝑌 ℱ𝑛2 ; (𝑛1−1)

L’intervalle de probabilité de ℱ de niveau 1 − 𝛼 est donné par :


𝑃(𝑘1 < ℱ(𝑛1−1) ; 𝑛2 < 𝑘2 )

𝛼
𝑘1 = ℱ(𝑛1−1) ; 𝑛2 ;
𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à
2 2

Pr. El Abdi F. INSEA


115

𝛼
𝑘2 = ℱ(𝑛1−1) ; 𝑛2 ; 1−
𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à 1 − .
2 2

𝜎22
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎12

𝜎22 1 𝑆𝑌2 𝑆𝑌2


IC1−𝛼 ( 2 ) = ] ; ℱ(𝑛 −1) ; 𝛼 [
𝜎1 ℱ𝑛 𝛼 𝑆𝑋′2 1 𝑛2 ; 1−
2 𝑆𝑋′2
2 ; (𝑛1 −1) ; 1− 2

𝜎12
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎22

𝜎12 1 𝑆𝑋′2 𝑆𝑋′2


IC1−𝛼 ( 2 ) = ] , ℱ𝑛 ; (𝑛 −1) ; 1− 𝛼 2 [
𝜎2 ℱ(𝑛 𝛼 𝑆𝑌2 2 1 2 𝑆𝑌
1 −1) ; 𝑛2 ; 1− 2

j. 𝒎𝟏 et 𝒎𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖
Le meilleur estimateur de 𝜎12 (resp. 𝜎22 ) est 𝑆𝑋′2 ( resp. 𝑆𝑌′2 ), on estime alors le rapport
′2
𝜎22 𝑆𝑌
par ′2 et on utilise la statistique suivante :
𝜎12 𝑆𝑋

𝜎22 𝑆𝑋′2 1
ℱ= 2 ′2 ↝ ℱ(𝑛1 −1) ; (𝑛2 −1) =
𝜎1 𝑆𝑌 ℱ(𝑛2−1) ; (𝑛1−1)
L’intervalle de probabilité de ℱ de niveau 1 − 𝛼 est donné par :
𝑃(𝑘1 < ℱ(𝑛1−1) ; (𝑛2−1) < 𝑘2 )

𝛼
𝑘1 = ℱ(𝑛1−1) ; (𝑛2−1) ; 𝛼 = quantile de la loi ℱ(𝑛1−1),(𝑛2−1) associé à 2
2

𝛼
𝑘2 = ℱ(𝑛 𝛼 = quantile de la loi ℱ(𝑛1 −1),(𝑛2−1) associé à 1 − 2 .
1 −1) ; (𝑛2 −1) ;1− 2

𝜎22
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎12

𝜎22 1 𝑆𝑌′2 𝑆𝑌′2


IC1−𝛼 ( 2 ) = ] , ℱ(𝑛 −1),(𝑛 −1) ;1− 𝛼 ′2 [
𝜎1 ℱ(𝑛 𝛼 𝑆𝑋′2 1 2 2 𝑆𝑋
2 −1),(𝑛1 −1) ;1− 2

𝜎12
L’intervalle de confiance pour de niveau 1 − 𝛼 est donné par :
𝜎22

𝜎12 1 𝑆𝑋′2 𝑆𝑋′2


IC1−𝛼 ( 2 ) = ] , ℱ(𝑛 −1),(𝑛 −1) ;1− 𝛼 ′2 [
𝜎2 ℱ(𝑛 𝛼 𝑆𝑌′2 2 1 2 𝑆𝑌
1 −1),(𝑛2 −1) ;1− 2

Pr. El Abdi F. INSEA


116

Chap3

I. Exemple Introductif

Des relevés effectués pendant un année sur une chaine de production d’un certain
article ont permis d’établir que le nombre d’article produit par semaine suit loi normale
𝒩 (3000 , 𝜎 2 ) avec 𝜎 = 400.

Une équipe de gestion des ressources humaine nouvellement installée prétendait


pouvoir augmenter de 200 le nombre moyen d’articles produits par semaine en
utilisant de nouvelles techniques de gestion des ressources humaines allouées à cette
chaine de production. Leur procédé fût mis à l’essai pendant 16 semaines et on releva
le nombre d’articles produit par semaine suivant :

Semaine 1 2 3 4 5 6 7 8
Nbre d’articles 2900 3030 2955 2870 3100 3025 2850 3450
Semaine 9 10 11 12 13 14 15 16
Nbre d’articles 2920 3190 2970 3500 2850 3225 3150 3420

Que pouvait-on en conclure ? Deux hypothèse s’affronte : ou bien les nouvelles


méthodes de gestion étaient sans effet, ou bien elles augmentaient réellement
le nombre moyen d’articles produits par semaine de 200.

Ces hypothèses peuvent se formalisés comme suit, si 𝑚 = 𝐸(𝑋) où 𝑋 désigne la


variable aléatoire nombre d’articles produits par semaine :

𝐻0 ∶ " 𝑚 = 3000 𝑝𝑖è𝑐𝑒𝑠 "


{
𝐻1 ∶ " 𝑚 = 3200 𝑝𝑖è𝑐𝑒𝑠 "

Pr. El Abdi F. INSEA


117

Vu que le nouveau procédé de gestion est forcément onéreux pour l’entreprise


(primes de performance par exemple), le directeur de production demande à la
nouvelle équipe de prouver son efficacité et qu’il est prêt à l’accepter avec un
risque 𝛼 = 0,05 c.à.d. qu’il était prêt à accepter 𝐻1 si le résultat obtenu faisait
partie d’une éventualité improbable qui n’aurait que 5 chances sur 100 de se
produire.

Problème : comment décidé ?

Puisqu’il s’agit de tester la valeur 𝑚 il est naturel de s’intéresser à la valeur 𝑋̅


moyenne des observations qui apporte le plus de renseignement sur 𝑚. 𝑋̅ est la
variable de décision. Si 𝐻0 est vraie, comme l’expérience a porté sur 𝑛 =16
160000
semaines, 𝑋̅ doit suivre la loi 𝒩 (3000 , 16 ) = 𝒩 (3000 , 10000).

En principe, des grandes valeurs de 𝑋̅ sont improbables et on prendra comme


règle de décision la suivante :

➢ Si 𝑋̅ est trop grand c.à.d. si 𝑋̅ est supérieur à un seuil 𝑘 qui n’a que 5
chance sur 100 d’être dépassé, on optera pour 𝐻1 avec une probabilité de
0,05 de se tromper.
➢ Si 𝑋̅ < 𝑘 on conservera 𝐻0 faute de preuves suffisantes. Il est facile de
calculer 𝑘 grâce à la table de loi normale et on trouve en utilisant le fait
que sous 𝐻0 , 𝑋̅~ 𝒩 (3000 , 10000) :

400
𝑘 = 3000 + 1,64 = 3164
4

La règle de décision est donc la suivante :

➢ Si 𝑋̅ > 3164, repousser 𝐻0 et accepter 𝐻1


➢ Si 𝑋̅ < 3164, conserver 𝐻0

Pr. El Abdi F. INSEA


118

L’ensemble d’évènement {𝑋̅ > 3164} s’appelle la région critique ou région de


rejet de 𝐻0 et celui de {𝑋̅ < 3164} s’appelle la région d’acceptation de 𝐻0 .

Les données relevées sur les 16 semaines indiquent que la valeur observée de 𝑋̅
est 𝑥̅ = 3087,81. La décision du directeur de production était donc de conserver
les techniques initiales de gestion des ressources humaines.

Cependant rien ne dit que conserver les conditions initiales (𝐻0 ) mette à l’abri
de se tromper : en effet, la nouvelle équipe a peut-être raison, mais on ne s’en
est pas aperçu.

Il y avait deux manière de se tromper : croire l’équipe de gestion des ressources


humaine nouvellement installée, alors qu’elle n’était pour rien dans le résultat
obtenu (probabilité 𝛼 = 0,05) ; ne pas la croire alors que sa technique proposée
est bonne et que seul le hasard (malencontreux pour elle) dû au faible nombre
d’observations, a des résultats insuffisants pour convaincre le directeur.

160000
Supposons que la nouvelle équipe ait raison, alors 𝑋̅~𝒩 (3200 , ). On 16

commet une erreur chaque fois que 𝑋̅ prend une valeur inférieure à 3164 c.à.d.
avec une probabilité :

̅
𝑋−3200 3164−3200
𝛽 = 𝑃(𝑋̅ < 3164) = 𝑃 ( < ) = 𝑃(𝒩(0 , 1) < −0,36)
√10000 100

= 1 − 𝑃(𝒩 (0 , 1) < 0,36) = 1 − 0,6406 = 0,3594

ce qui est considérable.

▪ 𝛼 𝑠 ′ 𝑎𝑝𝑝𝑒𝑙𝑙𝑒𝑙𝑒 𝑟𝑖𝑞𝑢𝑒 𝑑𝑒 𝑝𝑟𝑒𝑚𝑖è𝑟𝑒 𝑒𝑠𝑝è𝑐𝑒


▪ 𝛽 𝑠 ′ 𝑎𝑝𝑝𝑒𝑙𝑙𝑒𝑙𝑒 𝑟𝑖𝑞𝑢𝑒 𝑑𝑒 𝑑𝑒𝑢𝑥𝑖è𝑚𝑒 𝑒𝑠𝑝è𝑐𝑒

Pr. El Abdi F. INSEA


119

On aura remarqué au cours de cette exemple le rôle particulier joué par 𝐻0 : si


la forme de la région critique {𝑋̅ > 𝑘} est indiquée par la nature de 𝐻1
(3200 > 3000), la valeur de 𝑘 ne dépend que de 𝐻0 .

Les deux hypothèses ne jouent pas un rôle symétrique, 𝑘 est déterminé par 𝐻0
et 𝛼 ; 𝛽 sont déterminés par la considération supplémentaire de 𝐻1 .

II. Notions générales sur les tests statistiques

Un test est un mécanisme qui permet de trancher entre deux hypothèses


incompatibles au vu des résultats observés sur un échantillon.

Soient 𝐻0 et 𝐻1 deux hypothèses dont une et une seule est vraie. La décision
aboutira à choisir 𝐻0 ou 𝐻1 . Il y a quatre cas possibles schématisés dans le
tableau suivant avec les probabilités correspondantes :

Vérité 𝑯𝟎 𝑯𝟏
Décision 𝑯𝟎 1 − 𝛼 = 𝑃𝑐ℎ𝑜𝑖𝑠𝑖𝑟𝐻0 (𝐻0 𝑣𝑟𝑎𝑖𝑒) 𝛽 = 𝑃𝑐ℎ𝑜𝑖𝑠𝑖𝑟𝐻0 (𝐻1 𝑣𝑟𝑎𝑖𝑒)
erreur de deuxième espèce

Décision 𝑯𝟏 𝛼 = 𝑃𝑐ℎ𝑜𝑖𝑠𝑖𝑟𝐻1 (𝐻0 𝑣𝑟𝑎𝑖𝑒) 1 − 𝛽 = 𝑃𝑐ℎ𝑜𝑖𝑠𝑖𝑟 𝐻1 (𝐻1 𝑣𝑟𝑎𝑖𝑒)


erreur de première espèce

𝛼 et 𝛽 sont les probabilités d’erreur de première et deuxième espèce :

▪ 𝛼 probabilité de choisir 𝐻1 alors que 𝐻0 est vraie


▪ 𝛽 probabilité de choisir 𝐻0 alors que 𝐻1 est vraie

Ces erreurs correspondent à des risques différents en pratique ; ainsi dans


l’exemples précédent le risque de première espèce consiste à mettre en place

Pr. El Abdi F. INSEA


120

une nouvelle technique de gestion des ressources humaines plus onéreuse sans
effet sur l’augmentation de la productivité ; le risque de la deuxième espèce à
laisser perdre une occasion d’augmenter le nombre de pièces produites et donc
le profit.

Dans la pratique des tests statistiques, il est de règle de se fixer 𝛼 comme donné
( les valeurs courantes sont 0,05 ; 0,01 ; 0,1) de préférence en fonction du risque
de première espèce couru, ce qui fait jouer à 𝐻0 un rôle prééminent.

𝛼 étant fixé, 𝛽 sera déterminé comme résultat d’un calcul (ceci n’est possible
que si l’on connait la loi de probabilité sous 𝐻1 )

Cependant il faut savoir que 𝛽 varie au sens contraire de 𝛼. Si l’on veut diminuer
𝛼 (risque d’erreur de première espèce), on augmente 1 − 𝛼 probabilité
d’accepter 𝐻0 si 𝐻0 est vraie ; mais surtout on est conduit à une règle de décision
plus stricte qui aboutit à n’abandonner 𝐻0 que dans des cas rarissimes et donc à
conserver 𝐻0 bien souvent à tort.

A force de ne pas vouloir abandonner 𝐻0 on finit par la garder presque tout le


temps et donc on augmente 𝛽.

Définition 1 : 1 − 𝛽 est la probabilité de choisir 𝐻1 en ayant raison, 1 − 𝛽


s’appelle la puissance du test

𝛼 étant fixé, il est important de choisir une variable de décision : variable qui doit
apporter le maximum d’information sur le problème posé et dont la loi sera
différente selon que 𝐻0 ou 𝐻1 est vraie. Il faut que sa loi soit entièrement connue
au moins si 𝐻0 est vraie.

Pr. El Abdi F. INSEA


121

Définition 2 : La région critique 𝑊 est l’ensemble des valeurs de la variable de


décision qui conduisent à rejeter 𝐻0 en faveur de 𝐻1 alors qu’elle est vraie.

La détermination de la région critique se fait en écrivant : 𝑃𝐻0 (𝑊) = 𝛼.

̅ et l’on a :
La région d’acceptation est son complémentaire 𝑊

̅) = 1−𝛼
𝑃𝐻0 (𝑊 et 𝑃𝐻1 (𝑊) = 1 − 𝛽

Remarque : Déterminer un test statistique, revient à déterminer sa région


critique. Cette région se détermine à priori (sans connaître les résultats de
l’expérience). Généralement, on cherche une région critique qui doit maximiser
la puissance 1 − 𝛽 pour un risque 𝛼 fixé, (On parle de région critique optimale)

Les étapes de construction d’un test statistique sont les suivantes :

1. Choix de 𝐻0 et 𝐻1 .
2. Détermination de la variable de décision.
3. Calcul de la région critique 𝑊 en fonction de 𝛼.
4. Calcul de la puissance 1 − 𝛽.
5. Calcul de la valeur expérimentale de la variable de décision.
6. Conclusion : rejet ou acceptation de 𝐻0 .

III. Test entre deux hypothèses simples

L’idée de Neyman et Pearson est de trouver une variable de décision menant à


déterminer une région critique optimale.

Soit 𝑋 une variable aléatoire de densité 𝑓(𝑥, 𝜃) où 𝜃 est un paramètre réel


inconnu ; 𝐿(𝐱 , 𝜃) désignera la densité de l’échantillon 𝐱 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ).

Pr. El Abdi F. INSEA


122

𝐻0 ∶ " 𝜃 = 𝜃0 "
Il s’agit de tester : { 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1 ∶ " 𝜃 = 𝜃1 "

Supposons 𝛼 connu. Soit 𝑊 un région ℝ𝑛 telle que :

∫ 𝐿(𝐱 , 𝜃0 ) 𝑑𝐱 = 𝛼 = 𝑃 (𝑊⁄𝐻 )
𝑊 0

Il s’agit de maximiser : 1 − 𝛽 = ∫𝑊 𝐿(𝐱 , 𝜃1 ) 𝑑𝐱 = 𝑃 (𝑊⁄𝐻 )


1

𝐿(𝐱 ,𝜃1 )
Nous pouvons écrire : 1 − 𝛽 = ∫𝑊 𝐿(𝐱 , 𝜃0 )𝑑𝐱
𝐿(𝐱 ,𝜃0 )

La région critique optimale est définie par l’ensemble des points de ℝ𝑛 tels que :

𝐿(𝐱 , 𝜃1 )
> 𝑘𝛼
𝐿(𝐱 , 𝜃0 )

Démonstration :

1) S’il existe une constante 𝑘𝛼 , telle que l’ensemble de ℝ𝑛 :

𝐿(𝐱 ,𝜃1 )
𝑊 = {𝐱 ∈ ℝ𝑛 / > 𝑘𝛼 } vérifie : 𝑃𝐻0 (𝑊) = 𝛼
𝐿(𝐱 ,𝜃0 )

alors cette région réalise le maximum de 1 − 𝛽. En effet, soit 𝑊 ′ une autre région
de ℝ𝑛 telle que 𝑃𝐻0 (𝑊′) = 𝛼 ; 𝑊 ′ diffère de 𝑊 par des points où
𝐿(𝐱 ,𝜃1 )
≤ 𝑘𝛼 . On a alors :
𝐿(𝐱 ,𝜃0 )

𝐿(𝐱 ,𝜃1 ) 𝐿(𝐱 ,𝜃1 )


∫𝑊 𝐿(𝐱 , 𝜃0 )𝑑𝐱 diffère de ∫𝑊 ′ 𝐿(𝐱 , 𝜃0 )𝑑𝐱 pour les parties non communes
𝐿(𝐱 ,𝜃0 ) 𝐿(𝐱 ,𝜃0 )

à 𝑊 et à 𝑊 ′ . Or on a :

𝑃𝐻0 (𝑊) = 𝑃𝐻0 (𝑊′) = 𝛼 ⇒ 𝑃𝐻0 (𝑊 − 𝑊 ′ ) = 𝑃𝐻0 (𝑊 ′ − 𝑊)

Pr. El Abdi F. INSEA


123

De plus le théorème de la moyenne nous donne :

′ 𝐿(𝐱 , 𝜃1 ) 𝐿(𝜌 , 𝜃1 )
∃ 𝜌 ∈ 𝑊 − 𝑊 𝑡𝑞 ∫ 𝐿(𝐱 , 𝜃0 )𝑑𝐱 = 𝑃𝐻0 (𝑊 − 𝑊′ )
𝑊−𝑊 ′ 𝐿 (𝐱 , 𝜃0 ) 𝐿(𝜌 , 𝜃0 )

et
𝐿(𝐱 , 𝜃1 ) 𝐿(𝜌′ , 𝜃1 )
∃ 𝜌′ ∈ 𝑊′ − 𝑊 𝑡𝑞 ∫ 𝐿(𝐱 , 𝜃0 )𝑑𝐱 = ′ ,𝜃 )
𝑃𝐻0 (𝑊′ − 𝑊)

𝑊 −𝑊 𝐿 ( 𝐱 , 𝜃0 ) 𝐿 ( 𝜌 0

Ce qui démontre que :


𝐿(𝜌′ , 𝜃1 ) 𝐿(𝜌 , 𝜃1 )
< 𝑘 𝛼 <
𝐿(𝜌′ , 𝜃0 ) 𝐿(𝜌 , 𝜃0 )

2) Montrons que 𝑘𝛼 existe.


Soit 𝐴(𝐾) la région de ℝ𝑛 telle que 𝐿(𝐱 , 𝜃1 ) > 𝐾𝐿(𝐱 , 𝜃0 ), considérons la fonction :
𝐾→ 𝑃𝐻0 (𝐴(𝐾)) . Cette fonction est positive continue croissante si 𝑋 est une
v.a.r.c et elle vérifie 𝑃𝐻0 (𝐴(0)) = 1. D’autre par lim 𝑃𝐻0 (𝐴(𝐾)) = 0 car la
𝐾→+∞
densité 𝐿(𝐱 , 𝜃1 ) est bornée. Il existe donc une valeur intermédiaire 𝑘𝛼 telle que :
𝑃𝐻0 (𝐴(𝑘𝛼 )) = 𝛼

Définition 2 : Un test est dit sans biais si 1 − 𝛽 > 𝛼

Proposition 1 : le test de Neyman et Pearson est sans biais

Démonstration :

𝐿(𝐱 , 𝜃1 )
> 𝑘𝛼 ⇒ 𝐿(𝐱 , 𝜃1 ) > 𝑘𝛼 𝐿(𝐱 , 𝜃0 ) ⇒ ∫ 𝐿(𝐱 , 𝜃1 ) 𝑑𝐱 > 𝑘𝛼 ∫ 𝐿(𝐱 , 𝜃0 ) 𝑑𝐱
𝐿(𝐱 , 𝜃0 ) 𝑊 𝑊

▪ Si 𝑘𝛼 > 1 la proposition est triviale

Pr. El Abdi F. INSEA


124

▪ Si 𝑘𝛼 < 1, montrons que 𝛽 < 1 − 𝛼, On a :

̅)
𝛽 = 𝑃𝐻1 (𝑊 et ̅)
1 − 𝛼 = 𝑃𝐻0 (𝑊

𝐿(𝐱 ,𝜃1 )
̅ est tel que
𝑊 < 𝑘𝛼 , donc ∫𝑊̅ 𝐿(𝐱 , 𝜃1 ) 𝑑𝐱 < 𝑘𝛼 ∫𝑊̅ 𝐿(𝐱 , 𝜃0 ) 𝑑𝐱
𝐿(𝐱 ,𝜃0 )

c.q.f.d.

Remarque : On démontre que lim 1 − 𝛽 = 1


𝑛→+∞

Exemple : (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un échantillon du modèle de Bernoulli (𝑏(𝑝))𝑝∈]0 ,1[ ,

tester au niveau 𝛼 : 𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 ∶ " 𝑝 = 𝑝1 " avec 𝑝0 < 𝑝1

Exercice : Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon issu d’une famille exponentielle


de paramètre 𝜃. On se propose de tester pour 𝛼 donné :

𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 = 𝜃1 "

1. Quel test peut-on effectuer pour avoir une région critique optimale ? Ce test
est-il sans biais ?
2. Donner cette région critique de niveau 1 − 𝛼
3. On suppose que (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) est issu d’un modèle de poisson de
paramètre 𝜃, (Ρθ = P (𝜃))𝜃∈ℝ∗+ . Donner la région critique optimale pour le
test précédent, calculer sa puissance.

A.N : 𝜃0 = 1 ; 𝜃1 = 2 ; 𝑛 = 4 ; 𝛼 = 0,05

Remarque : pour 𝑛𝜃 > 20 on peut approcher la loi de poisson P (𝜃) par une
loi normale

Pr. El Abdi F. INSEA


125

Pr. El Abdi F. INSEA


126

La considération d’une statistique exhaustive simplifie considérablement la


pratique des tests car la région critique en dépend exclusivement.

Proposition 2 : S’il existe un statistique exhaustive 𝑇 pour 𝜃 la région de


critique de Neyman et Pearson en dépend exclusivement

Démonstration : ∃ 𝑇 statistique exhaustive 𝑇 pour 𝜃 de densité 𝑔(𝑡, 𝜃)



𝐿(𝐱 , 𝜃) = 𝑔(𝑡, 𝜃) ℎ(𝐱)
Par conséquent le test de Neyman et Pearson se réduit alors à :
𝑔(𝑡, 𝜃1 )
> 𝑘𝛼
𝑔(𝑡, 𝜃0 )
𝑔(𝑡(𝐱) , 𝜃1 )
et la région critique 𝑊 s’écrit : 𝑊 = {𝐱 ∈ ℝ𝑛 / > 𝑘𝛼 }
𝑔(𝑡(𝐱) , 𝜃0 )

Exemples : Considérons le modèle (𝒩 (𝑚 , 𝜎 2 ) , 𝑚 ∈ ℝ ) (c.à.d. 𝜎 connue) où l’on


veut tester au niveau 𝛼 : 𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 = 𝑚1 "

̅ , sa densité est donnée par :


La statistique exhaustive pour 𝑚 est 𝑇 = 𝑋

2
√𝑛 1 √𝑛 (𝑡−𝑚)
𝑔(𝑡, 𝑚) = 𝑒𝑥𝑝 [− ( ) ] avec 𝑡 = 𝑥̅
𝜎√2𝜋 2 𝜎

𝑔(𝑡,𝑚1 ) 𝑛
Le rapport des densités est = 𝑒𝑥𝑝 [− ((𝑡 − 𝑚1 )2 − (𝑡 − 𝑚0 )2 )]
𝑔(𝑡,𝑚0 ) 2 𝜎2

𝑔(𝑡,𝑚1 )
> 𝑘𝛼 ⇐ ((𝑡 − 𝑚0 )2 − (𝑡 − 𝑚1 )2 ) > 𝑘𝛼′
𝑔(𝑡,𝑚0 )

⇐ (𝑚1 − 𝑚0 )(2𝑡 − 𝑚1 − 𝑚0 ) > 𝑘𝛼′

𝑡 > 𝑘𝛼′′ Si 𝑚1 > 𝑚0


⇐ {
𝑡 < 𝑘𝛼′′ Si 𝑚1 < 𝑚0

Pr. El Abdi F. INSEA


127

Ce résultat évident à l’intuition exprime que si 𝑚1 > 𝑚0 , on rejettera 𝐻0 si 𝑋̅ est


trop grand. On trouve la constante en écrivant : 𝑃𝐻0 (𝑋̅ > 𝑘) = 𝛼.

̅ on a :
En représentant sur le même graphique les densités de 𝑋

(𝑋̅ − 𝑚0 ) (𝑘 − 𝑚0 )
̅ > 𝑘) = 𝑃𝐻0 (√𝑛
𝑃𝐻0 (𝑋 > √𝑛 )=𝛼
𝜎 𝜎

(𝑘 − 𝑚0 )
⇒ 𝑃𝐻0 (𝒩(0 ,1) < √𝑛 )=1−𝛼
𝜎

(𝑘−𝑚0 )
⇒ √𝑛 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑛𝑜𝑟𝑚𝑎𝑙𝑒 𝒩(0 ,1) associé à 1 − 𝛼
𝜎

Application : 𝑚0 = 0 ; 𝑚1 = 2 ; 𝜎 = 1 ; 𝑛 = 16 ; 𝑥̅ = 0,6 ; 𝛼 = 0,05

⇒ 4𝑘 = 1,64 ⇒ 𝑘 = 0,41 ⇒ (𝑥̅ = 0,6) > (𝑘 = 0,41) on rejette 𝐻0

La puissance du test est donnée par :

(𝑘−𝑚1 )
̅ > 𝑘) = 𝑃𝐻 (𝒩(0 ,1) > √𝑛
1 − 𝛽 = 𝑃𝐻1 (𝑋 ) = 𝑃𝐻1 (𝒩(0 ,1) > 4 (0,41 − 2))
1 𝜎

= 𝑃𝐻1 (𝒩 (0 ,1) > −6,36) = 𝑃𝐻1 (𝒩 (0 ,1) < 6,36) = 1

IV. Test entre deux hypothèses composites

Ce sont des tests de la forme : 𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 𝜖 Θ1 ⊂ ℝ"

Pr. El Abdi F. INSEA


128

Exemples :

𝐻0 ∶ " 𝜃 = 𝜃0 " 𝐻0 ∶ " 𝜃 = 𝜃0 "


1) { 𝑐𝑜𝑛𝑡𝑟𝑒 test unilatéral 2) { 𝑐𝑜𝑛𝑡𝑟𝑒 test unilatéral
𝐻1 ∶ " 𝜃 > 𝜃0 " 𝐻1 ∶ " 𝜃 < 𝜃0 "
𝐻0 ∶ " 𝜃 = 𝜃0 "
3) { 𝑐𝑜𝑛𝑡𝑟𝑒 test bilatéral
𝐻1 ∶ " 𝜃 ≠ 𝜃0 "

La nature du problème et l’idée principale de la solution ne changent pas par


rapport au cas d’une hypothèse simple contre hypothèse simple. Cependant une
différence apparaît au niveau des caractéristiques du test et qui est en rapport
direct avec la complexité de l’hypothèse alternative. L’objectif est toujours de
trouver la région critique (région de rejet de 𝐻0 ).

Tout test d’hypothèse simple contre composite est caractérisé par le niveau 𝛼 et
une fonction puissance : 𝜋 ∶ Θ1 → [0 , 1]

𝜃 → 𝜋(𝜃) = 1 − 𝛽(𝜃)

Test uniformément le plus puissant

Définition 3 : Un test est dit uniformément le plus puissant (UPP), si ∀ 𝜃 𝜖 Θ1 ,


sa puissance 𝜋(𝜃) est supérieur à la puissance de tout autre test.

Pour chaque valeur 𝜃 𝜖 Θ1 , on sait déterminer une région critique optimale, le


problème est de construire une qui soit optimale pour tout l’ensemble Θ1 , i.e :
construire un test uniformément le plus puissant.

Définition 4 : Un test est dit uniformément le plus puissant (UPP), si ∀ 𝜃 𝜖 Θ1 ,


sa puissance 𝜋(𝜃) est supérieur à la puissance de tout autre test.

Pr. El Abdi F. INSEA


129

Définition 5 : On dit que le test de région critique 𝑊 est uniformément le plus


puissant de niveau 𝛼 pour un problème de test d’une hypothèse simple contre
une hypothèse composite si pour toute autre région critique 𝑊0 d’un autre test
au niveau α, on a :

𝜋(𝜃) > 𝜋0 (𝜃) ⇐ 𝑃𝐻1 (𝑊) > 𝑃𝐻1 (𝑊0 )

𝜋(𝜃) = 𝑃𝐻1 (𝑊) = 1 − 𝛽(𝜃) et 1 − 𝛽0 (𝜃) = 𝜋0 (𝜃) = 𝑃𝐻1 (𝑊0 )

Une condition nécessaire et suffisante d’existence d’un test

uniformément le plus puissant au niveau α pour tester une hypothèse simple


𝐻0 ∶ " 𝜃 = 𝜃0 " contre une hypothèse composite 𝐻1 ∶ " 𝜃 𝜖 Θ1 ⊂ ℝ" est que :

➢ ∀ 𝜃1 𝜖 Θ1 il existe un test le plus puissant de niveau α pour tester


𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 = 𝜃1 " (N-P)
➢ La forme de la région critique du test précédent ne doit pas dépendre de
𝜃 𝜖 Θ1 sous 𝐻1 .

Exemple : Pour le modèle (𝒩(𝑚 , 𝜎 2 ) , 𝑚 ∈ ℝ ), le test :

𝐻0 ∶ » 𝑚 = 𝑚0 » contre 𝐻1 ∶ » 𝑚 = 𝑚1 »

donne une région critique indépendante de 𝑚1 ( ∀ 𝑚1 > 𝑚0 𝑒𝑡 ∀ 𝑚1 < 𝑚0 )


par conséquent les deux tests unilatéraux :

• 𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 > 𝑚0 "


• 𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 > 𝑚0 "

Sont uniformément les plus puissants contrairement au test bilatéral :

• 𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 ≠ 𝑚0 " (à montrer par l’absurde)

Pr. El Abdi F. INSEA


130

V. Test paramétriques usuels


A. Test sur la moyenne d’une loi normale 𝓝(𝒎 , 𝝈𝟐 )

Test unilatéral à droite : 1) 𝐻0 : " 𝑚 = 𝑚0 " contre 𝐻1 : " 𝑚 = 𝑚1 " (𝑚1 > 𝑚0 )

ou 2) 𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 > 𝑚0 "

Test unilatéral à gauche :1) 𝐻0 : " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 = 𝑚1 " (𝑚1 < 𝑚0 )

ou 2) 𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 < 𝑚0 "

▪ 𝝈𝟐 connu : On utilise 𝑋̅ comme variable de décision : la règle de décision est


la suivante :

̅>𝑘
𝑋 𝑠𝑖 𝑚1 > 𝑚0 𝑜𝑢 𝑚 > 𝑚0
{ 𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
̅<𝑘
𝑋 𝑠𝑖 𝑚1 < 𝑚0 𝑜𝑢 𝑚 < 𝑚0

(𝑋̅−𝑚0 )
l’utilisation de la statistique √𝑛 qui suit sous 𝐻0 une loi normale 𝒩 (0 , 1)
𝜎

nous donne la région critique 𝑊 de niveau 𝛼 :

2) 𝑚1 > 𝑚0 ou 𝑚 > 𝑚0 test unilatéral à droite :

𝜎
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]𝑚0 + 𝜙1−𝛼 ; +∞[}
√𝑛

2) 𝑚1 < 𝑚0 ou 𝑚 < 𝑚0 test unilatéral à gauche :

𝜎
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]−∞ ; 𝑚0 − 𝜙1−𝛼 [}
√𝑛

𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 − 𝛼

▪ 𝝈𝟐 inconnu : On utilise 𝑋̅ comme variable de décision et on estime 𝜎 2 par


1
𝑆2 = ̅)2 : la règle de décision est la suivante :
∑𝑛𝑖=1(𝑋𝑖 − 𝑋
𝑛

Pr. El Abdi F. INSEA


131

̅>𝑘
𝑋 𝑠𝑖 𝑚1 > 𝑚0 𝑜𝑢 𝑚 > 𝑚0
{ 𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
̅<𝑘
𝑋 𝑠𝑖 𝑚1 < 𝑚0 𝑜𝑢 𝑚 < 𝑚0

(𝑋̅ −𝑚 )
l’utilisation de la statistique √𝑛 𝑆 0 qui suit sous 𝐻0 une loi de Student à
(𝑛 − 1) degrès de liberté nous donne la région critique 𝑊 de niveau 𝛼 :

1) 𝑚1 > 𝑚0 ou 𝑚 > 𝑚0 test unilatéral à droite :


𝑆
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]𝑚0 + 𝑡(𝑛−1),1−𝛼 ; +∞[}
√𝑛
2) 𝑚1 < 𝑚0 ; 𝑚 < 𝑚0 test unilatéral à gauche :
𝑆
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]−∞ , 𝑚0 − 𝑡(𝑛−1),1−𝛼 [}
√𝑛
𝑡(𝑛−1),1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 à 𝑛 − 1 𝑑𝑒𝑔𝑟è𝑠 𝑑𝑒 𝑙𝑖𝑏é𝑟𝑡é 𝑎𝑠𝑠𝑜𝑐𝑖é 1 − 𝛼

𝐻0 ∶ " 𝑚 = 𝑚0 " contre 𝐻1 ∶ " 𝑚 ≠ 𝑚0 "

▪ 𝝈𝟐 connu : On utilise 𝑋̅ comme variable de décision : la règle de décision est


la suivante :

̅ > 𝑘1
𝑋 𝑠𝑖 𝑚 > 𝑚0
{ 𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
̅ < 𝑘2
𝑋 𝑠𝑖 𝑚 < 𝑚0

(𝑋̅−𝑚0 )
l’utilisation de la statistique √𝑛 qui suit une loi normale 𝒩 (0 , 1) sous
𝜎
̅ de niveau 𝛼 :
𝐻0 , nous donne la région d’acceptation symétrique 𝑊

𝜎 𝜎
̅ = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]𝑚0 −
𝑊 𝜙1−𝛼 , 𝑚0 + 𝜙1−𝛼 [}
√𝑛 2 √𝑛 2

̅ 𝑐.
La région critique de niveau 𝛼 est 𝑊 = 𝑊
𝛼
𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 −
2 2

Pr. El Abdi F. INSEA


132

▪ 𝝈𝟐 inconnu : On utilise 𝑋̅ comme variable de décision et on estime 𝜎 2 par


(𝑋̅−𝑚0 )
𝑆 ′2 la règle de décision : l’utilisation de la statistique √𝑛 qui suit une loi de
𝑆′
Student à (𝑛 − 1) degrès de liberté sous 𝐻0 , nous donne la région d’acceptation
̅ de niveau 𝛼 :
symétrique 𝑊

𝑆′ 𝑆′
̅ = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]𝑚0 −
𝑊 𝑡(𝑛−1),1−𝛼 ; 𝑚0 + 𝑡(𝑛−1),1−𝛼 [}
√𝑛 2 √𝑛 2

̅𝑐
La région de rejet de niveau 𝛼 est 𝑊 = 𝑊
𝛼
𝑡(𝑛−1),1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 à 𝑛 − 1 𝑑𝑒𝑔𝑟è𝑠 𝑑𝑒 𝑙𝑖𝑏é𝑟𝑡é 𝑎𝑠𝑠𝑜𝑐𝑖é (1 − )
2 2

Remarques :

➢ La décision du test bilatéral précédent peut se faire à travers les


intervalles de confiance IC1−𝛼 (𝑚) de la moyenne 𝑚 de niveau 𝛼. En effet,
le rejet de 𝐻0 se fera si 𝑚0 ∉ IC1−𝛼 (𝑚).
➢ Si la variable aléatoire 𝑋 ne suit pas une loi normale les tests précédents
s’appliquent encore dès que 𝑛 est assez grand (𝑛 > 30), en raison du
théorème centrale limite. De plus on peut remplacer 𝑆′ par 𝑆 et 𝑡(𝑛−1),1−𝛼
2

par 𝜙1−𝛼
2

B. Test sur la variance d’une loi normale 𝓝(𝒎 , 𝝈𝟐 )

Test unilatéral à droite : 1) 𝐻0 ∶ " 𝜎2 = 𝜎20 " contre 𝐻1 ∶ " 𝜎2 = 𝜎21 " (𝜎21 > 𝜎20 )

ou 2) 𝐻0 ∶ " 𝜎2 = 𝜎20 " contre 𝐻1 ∶ " 𝜎2 > 𝜎20 "

Test unilatéral à gauche :1) 𝐻0 ∶ " 𝜎2 = 𝜎20 " contre 𝐻1 ∶ " 𝜎2 = 𝜎21 " (𝜎21 < 𝜎20 )

ou 2) 𝐻0 ∶ " 𝜎2 = 𝜎20 " contre 𝐻1 ∶ " 𝜎2 < 𝜎20 "

Pr. El Abdi F. INSEA


133

1
▪ 𝒎 connu : On utilise la statistique 𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2 , la règle de
décision est la suivante :

𝑆2 > 𝑘 𝑠𝑖 𝜎20 > 𝜎21


{ 𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
2
𝑆 <𝑘 𝑠𝑖 𝜎20 < 𝜎21

𝑛
l’utilisation de la statistique 𝑆 2 qui suit une loi 𝒳𝑛2 sous 𝐻0 , nous donne la région
𝜎02

critique 𝑊 de niveau 𝛼 :

1) 𝜎12 > 𝜎02 ou 𝜎 2 > 𝜎02 test unilatéral à droite :

𝜎20
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑆2 𝜖 ] 𝜒2𝑛,1−𝛼 ; +∞[}
𝑛

2) 𝜎12 < 𝜎02 ou 𝜎 2 < 𝜎02 test unilatéral à gauche :

𝜎20
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑆2 𝜖 ]0 ; 𝜒2𝑛,𝛼 [}
𝑛
2 2
𝜒𝑛,𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛 au niveau 𝛼

2 2
𝜒𝑛,1− 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛 au niveau 1 − 𝛼
1
▪ 𝒎 inconnu : On utilise la statistique 𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 , la règle de
décision est la suivante :

𝑆2 > 𝑘 𝑠𝑖 𝜎21 > 𝜎20 𝑜𝑢 𝜎 2 > 𝜎02


{ 𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
2
𝑆 <𝑘 𝑠𝑖 𝜎21< 𝜎20 𝑜𝑢 𝜎 2 < 𝜎02

𝑛 2
l’utilisation de la statistique 𝑆 2 qui suit une loi 𝒳𝑛−1 sous 𝐻0 , nous donne la région
𝜎02

critique 𝑊 de niveau 𝛼 :

1) 𝜎12 > 𝜎20 ; 𝜎 2 > 𝜎02 test unilatéral à droite :

𝜎20
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑆2 𝜖 ] 𝜒2𝑛−1,1−𝛼 ; +∞[}
𝑛

Pr. El Abdi F. INSEA


134

2) 𝜎12 < 𝜎02 ou 𝜎2 < 𝜎20 test unilatéral à gauche :

𝑛 2
𝜎20
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ / 𝑆 𝜖 ]0 ; 𝜒2𝑛−1,𝛼 [}
𝑛

2 2
𝜒𝑛−1,𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛−1 au niveau 𝛼
2 2
𝜒𝑛−1,1− 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛−1 au niveau 1 − 𝛼

𝐻0 ∶ " 𝜎2 = 𝜎20 " contre 𝐻1 ∶ " 𝜎2 ≠ 𝜎20 "

1
▪ 𝒎 connu : On utilise 𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑚)2 , la règle de décision est la
suivante :

𝑆2 > 𝑘 1 𝑠𝑖 𝜎2 > 𝜎20


{ 𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
2
𝑆 < 𝑘2 𝑠𝑖 𝜎 <2
𝜎20
𝑛
l’utilisation de la statistique 𝑆 2 qui suit une loi 𝒳𝑛2 sous 𝐻0 , nous donne la région
𝜎02

̅ de niveau 𝛼 :
d’acceptation symétrique 𝑊

𝜎20 𝜎20
̅ = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ / 𝑆 𝜖 ]
𝑊 𝑛 2 2
𝜒 𝛼 , 𝜒
2
𝛼 [}
𝑛 𝑛; 𝑛 𝑛 ; (1− )
2 2

̅ 𝑐.
La région de rejet de niveau 𝛼 est 𝑊 = 𝑊
𝛼
𝜒𝑛2 ; 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛2 au niveau
2 2
𝛼
𝜒𝑛2 ; (1−𝛼) = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛2 au niveau 1 −
2 2

Pr. El Abdi F. INSEA


135

1
▪ 𝒎 inconnu : On utilise la statistique 𝑆 2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 , la règle de
décision est la suivante :

𝑆2 > 𝑘 1 𝑠𝑖 𝜎2 > 𝜎20


{ 𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
2
𝑆 < 𝑘2 𝑠𝑖 𝜎 < 2
𝜎20

𝑛 2
l’utilisation de la statistique 𝑆 2 qui suit une loi 𝒳𝑛−1 sous 𝐻0 , nous donne la région
𝜎02

̅ de niveau 𝛼 :
d’acceptation symétrique 𝑊

𝜎20 𝜎20
̅ = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ / 𝑆 𝜖 [
𝑊 𝑛 2 2
𝜒 𝛼 ; 𝜒
2
𝛼 ]}
𝑛 𝑛−1, 𝑛 𝑛−1,(1− )
2 2

̅ 𝑐.
La région critique de niveau 𝛼 est 𝑊 = 𝑊

2 2
𝛼
𝜒𝑛−1 ;
𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛−1 au niveau
2 2
2 2 𝛼
𝜒𝑛−1 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 à 𝜒𝑛−1 au niveau 1 −
; 1−
2 2

Remarques :

➢ La décision du test bilatéral précédent peut se faire à travers les intervalles


de confiance IC1−𝛼 (𝜎 2 ) de la variance 𝜎 2 de niveau 𝛼. En effet, le rejet de
𝐻0 se fera si 𝜎02 ∉ IC1−𝛼 (𝜎 2 ).
➢ Si la variable aléatoire 𝑋 ne suit pas une loi normale les tests précédents
s’appliquent encore dès que 𝑛 est assez grand (𝑛 > 30), en raison du
théorème centrale limite, en utilisant le fait que la statistique :

(𝑆 2 − 𝜎20 ) ℒ
√𝑛 ̂ 4 − (𝑆 2 )2
√𝜇
→ 𝒩(0 ,1) (Sous 𝐻0 )

1
où 𝜇̂ 4 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)4 est le moment centré empirique d’ordre 4.

Pr. El Abdi F. INSEA


136

C. Test sur une proportion

Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un n-échantillon (EAS) issu du modèle (𝑏(𝑝))𝑝𝜖]0 ; 1[ , 𝑝 la


proportion de la présence d’un caractère 𝐴 dans une population, on peut alors
effectuer le tests suivant sur 𝑝.

Test unilatéral à droite : 1) 𝐻0 : " 𝑝 = 𝑝0 " contre 𝐻1 : " 𝑝 = 𝑝1 " (𝑝1 > 𝑝0 )

ou 2) 𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 ∶ " 𝑝 > 𝑝0 "

Test unilatéral à gauche : 1) 𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 ∶ " 𝑝 = 𝑝1 " (𝑝1 < 𝑝0 )

ou 2) 𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 ∶ " 𝑝 < 𝑝0 "

̅ comme variable de décision : la règle


On utilise la proportion empirique 𝐹𝑛 = 𝑋
de décision est la suivante :

̅≥𝑘
𝑋 𝑠𝑖 𝑝1 > 𝑝0 𝑜𝑢 𝑝 > 𝑝0
{ 𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
̅≤𝑘
𝑋 𝑠𝑖 𝑝1 < 𝑝0 𝑜𝑢 𝑝 < 𝑝0

̅ qui suit une loi binomiale 𝐵(𝑛 , 𝑝0 ) sous𝐻0


l’utilisation de la statistique 𝑛𝐹𝑛 = 𝑛𝑋

nous donne la région critique 𝑊 de niveau 𝛼 :

1) 𝑝1 > 𝑝0 ou 𝑝 > 𝑝0 test unilatéral à droite :

1 + 𝐵(𝑛 ; 𝑝0),1−𝛼
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 [ ; 1]}
𝑛

𝐵(𝑛 ; 𝑝0),1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑙𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) associé à 1 − 𝛼

̅ avec une probabilité 𝛼.


En effet on rejette 𝐻0 pour les grandes valeurs de 𝐹𝑛 = 𝑋

𝑃𝐻0 (𝐹𝑛 ≥ 𝑘) = 𝛼 ⇐ 𝑃𝐻0 (𝑛𝐹𝑛 ≥ 𝑛𝑘) = 𝛼 ⇐ 𝑃(𝐵(𝑛 , 𝑝0 )≥ 𝑛𝑘) = 𝛼

Pr. El Abdi F. INSEA


137

⇐ 𝑃(𝐵(𝑛 , 𝑝0 )< 𝑛𝑘) = 1 − 𝛼 ⇐ 𝑃(𝐵(𝑛 , 𝑝0 )≤ 𝑛𝑘 − 1) = 1 − 𝛼

⇐ 𝑛𝑘 − 1 = 𝐵(𝑛 ; 𝑝0),1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑙𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) associé à 1 − 𝛼

1 + 𝐵(𝑛 ; 𝑝0),1−𝛼
⇐ 𝑘=
𝑛

2) 𝑝1 < 𝑝0 𝑜𝑢 𝑝 < 𝑝0 test unilatéral à gauche :

𝐵(𝑛 ; 𝑝0),𝛼
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 [0 ; ]}
𝑛

̅ avec une probabilité 𝛼.


En effet on rejette 𝐻0 pour les grandes valeurs de 𝐹𝑛 = 𝑋

𝑃𝐻0 (𝐹𝑛 ≤ 𝑘) = 𝛼 ⇐ 𝑃𝐻0 (𝑛𝐹𝑛 ≤ 𝑛𝑘) = 𝛼 ⇐ 𝑃(𝐵(𝑛 , 𝑝0 )≤ 𝑛𝑘) = 𝛼

⇐ 𝑛𝑘 = 𝐵(𝑛 ; 𝑝0 ) ; 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑙𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) associé à 𝛼

𝐵(𝑛 ; 𝑝0) ; 𝛼
⇐ 𝑘=
𝑛

𝐵(𝑛 ; 𝑝0) ; 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑙𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) associé à 𝛼

𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 ∶ " 𝑝 ≠ 𝑝0 "

̅ comme variable de décision : la règle


On utilise la proportion empirique 𝐹𝑛 = 𝑋
de décision est la suivante :

̅ ≥ 𝑘1
𝑋 𝑠𝑖 𝑝 > 𝑝0
{ 𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
̅ ≤ 𝑘2
𝑋 𝑠𝑖 𝑝 < 𝑝0

̅ qui suit une loi binomiale 𝐵(𝑛 , 𝑝0 ) sous𝐻0


l’utilisation de la statistique 𝑛𝐹𝑛 = 𝑛𝑋

nous donne la région critique 𝑊 de niveau 𝛼 :

Pr. El Abdi F. INSEA


138

𝛼 = 𝑃𝐻0 (𝑊) = 𝑃𝐻0 (𝐹𝑛 ≤ 𝑘2 𝑜𝑢 𝐹𝑛 ≥ 𝑘1 )

= 𝑃𝐻0 (𝑛𝐹𝑛 ≤ 𝑛𝑘2 ) + 𝑃𝐻0 (𝑛𝐹𝑛 ≥ 𝑛𝑘1 )

= 𝑃(𝐵(𝑛 , 𝑝0 ) ≤ 𝑛𝑘2 ) + 𝑃(𝐵(𝑛 , 𝑝0 ) ≥ 𝑛𝑘1 )

𝛼
On prend 𝑃𝐻0 (𝑛𝐹𝑛 ≤ 𝑛𝑘2 ) = 𝑃𝐻0 (𝑛𝐹𝑛 ≥ 𝑛𝑘1 ) =
2

𝛼
𝑛𝑘2 = 𝐵(𝑛 ; 𝑝0) ; 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) 𝑎𝑠𝑠𝑜𝑐𝑖é à
2 2
⇒ {
𝛼
𝑛𝑘1 − 1 = 𝐵(𝑛 ; 𝑝0) ;1− 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 )𝑎𝑠𝑠𝑜𝑐𝑖é à 1 −
2 2

𝐵(𝑛 𝛼
; 𝑝0 ) ;
2
𝑘2 =
𝑛

1 + 𝐵(𝑛 𝛼
; 𝑝0 ) ;1−
2
{𝑘1 = 𝑛

par conséquent la région critique 𝑊 du test au niveau 𝛼 est donnée par :


𝐵(𝑛 ; 𝑝 𝛼 1 + 𝐵(𝑛 ; 𝑝 𝛼
0) ; 2 0 ) ; 1− 2
𝑛
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ / 𝑥̅ 𝜖 [0 ; ] ∪[ ; 1]}
𝑛 𝑛

𝐵(𝑛 ; 𝑝 𝛼 1 + 𝐵(𝑛 ; 𝑝 𝛼
0) ; 2 0 ) ; 1− 2
̅ = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ / 𝑥̅ 𝜖 ]
𝑊 𝑛
; [}
𝑛 𝑛

Remarque : Si la variable aléatoire 𝑋 ne suit pas une loi normale les tests
précédents s’appliquent encore dès que 𝑛 est assez grand (𝑛 > 30), en raison
du théorème centrale limite, en utilisant le fait que la statistique :
(𝐹𝑛 − 𝑝0 ) ℒ
√𝑛 √ 𝑝0 (1−𝑝0 )
→ 𝒩(0 ,1) (Sous 𝐻0 )

Dans ce cas les régions critiques seront données par :

Test unilatéral à droite : 𝑃𝐻0 (𝑊) = 𝑃𝐻0 (𝐹𝑛 ≥ 𝑘) = 𝛼 ⇐ 𝑃𝐻0 (𝑛𝐹𝑛 ≥ 𝑛𝑘) = 𝛼

En utilisant la correction de continuité pour le passage à la loi normale, on


obtient :

Pr. El Abdi F. INSEA


139

0,5 1
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 [𝑝0 + + √ 𝑝0 (1−𝑝0 ) 𝜙1−𝛼 ; 1[}
𝑛 √𝑛
Test unilatéral à gauche : 𝑃𝐻0 (𝑊) = 𝑃𝐻0 (𝐹𝑛 ≤ 𝑘) = 𝛼 ⇐ 𝑃𝐻0 (𝑛𝐹𝑛 ≤ 𝑛𝑘) = 𝛼

En utilisant la correction de continuité pour le passage à la loi normale, on


obtient :
0,5 1
𝑊 = {(𝑥1 , … , 𝑥𝑛 ) ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]0 ; 𝑝0 − + √ 𝑝0 (1−𝑝0 ) 𝜙𝛼 ]}
𝑛 √𝑛
Test bilatéral :
𝑃𝐻0 (𝑊 ) = 𝑃𝐻0 (𝐹𝑛 ≥ 𝑘1 𝑜𝑢 𝐹𝑛 ≤ 𝑘2 ) = 𝛼 ⇐ 𝑃𝐻0 (𝑛𝐹𝑛 ≥ 𝑛𝑘1 ) + 𝑃𝐻0 (𝑛𝐹𝑛 ≤ 𝑛𝑘2 ) = 𝛼

En utilisant la correction de continuité pour le passage à la loi normale, on


obtient la région d’acceptation ̅
𝑊 symétrique de niveau 𝛼:
0,5 1 0,5 1
̅ = {𝐱 ∈ ℝ𝑛 / 𝑥̅ 𝜖 ]𝑝0 −
𝑊 − √ 𝑝0 (1−𝑝0 ) 𝜙1−𝛼 ; 𝑝0 + + √ 𝑝0 (1−𝑝0 ) 𝜙1−𝛼 [}
𝑛 √𝑛 2 𝑛 √𝑛 2

̅ )𝑐 .
avec 𝐱 = (𝑥1 , … , 𝑥𝑛 ), 𝑊 = (𝑊

1
Remarque : Si 𝑛 ≈ 0, la décision du test bilatéral précédent peut se faire à
travers les intervalles de confiance IC1−𝛼 (𝑝) de la proportion 𝑝 de niveau 𝛼. En
effet, le rejet de 𝐻0 se fera si 𝑝0 ∉ IC1−𝛼 (𝑝).

D. Test de comparaison de moyennes de deux lois normales


indépendantes

Soient 𝑋 ↝ 𝒩(𝑚1 , 𝜎12 ) et 𝑌 ↝ 𝒩(𝑚2 , 𝜎22 ) deux variables indépendantes,


(𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de 𝑋 et (𝑌1 , 𝑌2 , . . , 𝑌𝑛2 ) un 𝑛2 -échantillon de 𝑌.
On se propose de comparer 𝑚1 et 𝑚2 , pour se faire on pose 𝜃 = (𝑚1 − 𝑚2 ) et on
effectue les tests suivants :

Pr. El Abdi F. INSEA


140

Test unilatérale à droite : 1) 𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 : " 𝜃 = 𝜃1 " (𝜃1 > 𝜃0 )

ou 2) 𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 > 𝜃0 "

Test unilatérale à gauche : 1) 𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 = 𝜃1 " (𝜃1 < 𝜃0 )

ou 2) 𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 < 𝜃0 "

On utilise 𝑋̅ − 𝑌̅ comme variable de décision et la règle de décision est la


suivante :

(𝑋̅ − 𝑌̅) > 𝑘 𝑠𝑖 𝜃1 > 𝜃0 𝑜𝑢 𝜃 > 𝜃0


{ 𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
(𝑋̅ − 𝑌̅) < 𝑘 𝑠𝑖 𝜃1 < 𝜃0 𝑜𝑢 𝜃 < 𝜃0

▪ 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 ; 𝝈𝟐 𝒄𝒐𝒏𝒏𝒖


(𝑋̅ −𝑌̅ ) − 𝜃0
l’utilisation de la statistique 1 1
qui suit sous 𝐻0 une loi normale 𝒩(0 , 1)
𝜎√ +
𝑛1 𝑛2

nous donne la région critique 𝑊 de niveau 𝛼 suivante :

1) 𝜃1 > 𝜃0 𝑜𝑢 𝜃 > 𝜃0 test unilatéral à droite :

𝑛1 +𝑛2 1 1
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / (𝑥
̅ − 𝑦̅ ) ∈ ]𝜃0 + 𝜎√ + 𝜙 ; +∞ [}
𝑛1 𝑛2 1−𝛼

2) 𝜃1 < 𝜃0 𝑜𝑢 𝜃 < 𝜃0 test unilatéral à gauche

1 1
𝑊 = {(𝐱 , 𝐲) ∈ ℝ𝑛1+𝑛2 / (𝑥̅ − 𝑦̅ ) ∈ ]−∞ ; 𝜃0 − 𝜎√ + 𝜙1−𝛼 [}
𝑛1 𝑛2

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 − 𝛼

Pr. El Abdi F. INSEA


141

▪ 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 ; 𝝈𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖

′2 (𝑋̅ −𝑌̅ ) − 𝜃0
On estime 𝜎 2 par 𝑆𝑋𝑌 , l’utilisation de la statistique 1 1
qui suit sous 𝐻0 la

𝑆𝑋𝑌 +
√ 𝑛1 𝑛2

loi 𝑇𝑛1+𝑛2−2 de Student à 𝑛1 + 𝑛2 − 2 nous donne la région critique 𝑊 de


niveau 𝛼 suivante :

1) 𝜃1 > 𝜃0 𝑜𝑢 𝜃 > 𝜃0 test unilatéral à droite :


1 1
𝑊 = {(𝐱 , 𝐲) ∈ ℝ𝑛1+𝑛2 / (𝑥̅ − 𝑦̅ ) ∈ ]𝜃0 + 𝑆𝑋𝑌 √ + 𝑡 ; +∞ [}
𝑛1 𝑛2 (𝑛1+𝑛2−2) ; 1−𝛼

2) 𝜃1 < 𝜃0 𝑜𝑢 𝜃 < 𝜃0 test unilatéral à gauche


1 1
𝑊 = {(𝐱 , 𝐲) ∈ ℝ𝑛1+𝑛2 / (𝑥̅ − 𝑦̅ ) ∈ ]−∞ ; 𝜃0 − 𝑆𝑋𝑌 √ + 𝑡(𝑛1+𝑛2−2) ; 1−𝛼 [}
𝑛1 𝑛2

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

𝑡(𝑛1+𝑛2−2) ; 1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑇𝑛1+𝑛2−2 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 − 𝛼

▪ 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 ; 𝝈𝟐𝟏 𝒆𝒕 𝝈𝟐𝟐 𝒄𝒐𝒏𝒏𝒖𝒔


(𝑋̅ −𝑌̅ ) − 𝜃0
l’utilisation de la statistique qui suit sous 𝐻0 une loi normale 𝒩(0 , 1)
𝜎2 𝜎2
√ 1 + 2
𝑛1 𝑛2

nous donne la région critique 𝑊 de niveau 𝛼 suivante :

1) 𝜃1 > 𝜃0 𝑜𝑢 𝜃 > 𝜃0 test unilatéral à droite :

𝑛1 +𝑛2
𝜎12 𝜎22
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / (𝑥̅ − 𝑦̅ ) ∈ ]𝜃0 + √ + 𝜙 ; +∞ [}
𝑛1 𝑛2 1−𝛼

Pr. El Abdi F. INSEA


142

2) 𝜃1 < 𝜃0 𝑜𝑢 𝜃 < 𝜃0 test unilatéral à gauche

𝑛1 +𝑛2
𝜎12 𝜎22
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / (𝑥̅ − 𝑦̅ ) ∈ ]−∞ ; 𝜃0 − √ + 𝜙1−𝛼 [}
𝑛1 𝑛2

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 − 𝛼

▪ 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 ; 𝝈𝟐𝟏 𝒆𝒕 𝝈𝟐𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖𝒔

Le traitement ne peut être qu’asymptotique cependant si 𝑚𝑖𝑛(𝑛1 ; 𝑛2 ) assez


(𝑋̅−𝑌̅ ) − 𝜃0
grand. L’utilisation de la qui suit asymptotiquement sous 𝐻0 la loi
𝑆′2
𝑋 𝑆′2
𝑌
√ +
𝑛1 𝑛2

normale 𝒩(0 , 1) lorsque 𝑚𝑖𝑛(𝑛1 ; 𝑛2 ) est assez grand (le théorème central
limite) nous donne la région critique 𝑊 de niveau 𝛼 suivante :

1) 𝜃1 > 𝜃0 𝑜𝑢 𝜃 > 𝜃0 test unilatéral à droite :

𝑛1 +𝑛2
𝑆𝑋′2 𝑆𝑌′2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / (𝑥̅ − 𝑦̅ ) ∈ ]𝜃0 + √ + 𝜙 ; +∞ [}
𝑛1 𝑛2 1−𝛼

2) 𝜃1 < 𝜃0 𝑜𝑢 𝜃 < 𝜃0 test unilatéral à gauche

𝑛1 +𝑛2
𝑆𝑋′2 𝑆𝑌′2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / (𝑥̅ − 𝑦̅ ) ∈ ]−∞ ; 𝜃0 − √ + 𝜙1−𝛼 [}
𝑛1 𝑛2

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 − 𝛼

Pr. El Abdi F. INSEA


143

𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 ∶ " 𝜃 ≠ 𝜃0 "

On utilise 𝑋̅ − 𝑌̅ comme variable de décision et la règle de décision est la


(𝑋̅ − 𝑌̅) > 𝑘1 𝑠𝑖 𝜃 > 𝜃0
suivante : { 𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
(𝑋̅ − 𝑌̅) < 𝑘2 𝑠𝑖 𝜃 < 𝜃0

▪ 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 ; 𝝈𝟐 𝒄𝒐𝒏𝒏𝒖


(𝑋̅ −𝑌̅ ) − 𝜃0
l’utilisation de la statistique 1 1
qui suit sous 𝐻0 une loi normale 𝒩(0 , 1)
𝜎√ +
𝑛1 𝑛2

̅ symétrique de niveau 𝛼 suivante :


nous donne la région d’acceptation 𝑊

1 1 1 1
̅ = {(𝐱 , 𝐲) ∈ ℝ𝑛1 +𝑛2 / (𝑥
𝑊 ̅ − 𝑦̅ ) ∈ ]𝜃0 − 𝜎√ + 𝜙1−𝛼 ; 𝜃0 + 𝜎√ + 𝜙 𝛼 [}
𝑛1 𝑛2 2 𝑛1 𝑛2 1− 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ; 𝑊 = (𝑊
𝛼
𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 −
2 2
▪ 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 ; 𝝈𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖

′2 (𝑋̅ −𝑌̅ ) − 𝜃0
On estime 𝜎 2 par 𝑆𝑋𝑌 et l’utilisation de la statistique 1 1
qui suit sous

𝑆𝑋𝑌 +
√ 𝑛1 𝑛2

𝐻0 la loi 𝑇𝑛1+𝑛2 −2 de Student à 𝑛1 + 𝑛2 − 2 nous donne la région d’acceptation


̅ symétrique de niveau 𝛼 suivante :
𝑊

1 1 1 1
̅ = {(𝐱 , 𝐲) ∈ ℝ𝑛1 +𝑛2 / (𝑥̅ − 𝑦̅ ) ∈ ]𝜃0 − 𝑆𝑋𝑌
𝑊 ′ √
+ ′ √
𝑡1−𝛼 ; 𝜃0 + 𝑆𝑋𝑌 + 𝑡 𝛼 [}
𝑛1 𝑛2 2 𝑛1 𝑛2 1− 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ; 𝑊 = (𝑊
𝛼
𝑡1−𝛼 = 𝑡(𝑛 𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝑇𝑛1+𝑛2 −2 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 −
2 1 +𝑛2 −2) ; 1− 2 2

Pr. El Abdi F. INSEA


144

▪ 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 ; 𝝈𝟐𝟏 𝒆𝒕 𝝈𝟐𝟐 𝒊𝒏𝒄𝒐𝒏𝒏𝒖𝒔

Le traitement ne peut être qu’asymptotique si 𝑚𝑖𝑛(𝑛1 ; 𝑛2 ) est assez grand. Dans


(𝑋̅ −𝑌̅ ) − 𝜃0
ce cas l’utilisation de la statistique qui suit asymptotiquement sous 𝐻0
𝑆′2
𝑋 𝑆′2
𝑌
√ +
𝑛1 𝑛2

la loi normale 𝒩(0 , 1) lorsque 𝑚𝑖𝑛(𝑛1 ; 𝑛2 ) est assez grand (le théorème central
̅ de niveau 𝛼 suivante :
limite) nous donne la région d’acceptation symétrique 𝑊

𝑆′2
𝑋 𝑆′2
𝑌 𝑆′2
𝑋 𝑆′2
𝑌
̅ = {(𝐱 , 𝐲) ∈ ℝ𝑛1 +𝑛2 / (𝑥
𝑊 ̅ − 𝑦̅ ) ∈ ]𝜃0 − √ + 𝜙1−𝛼 ; 𝜃0 + 𝜎 √ + 𝜙 𝛼 [}
𝑛1 𝑛2 2 𝑛1 𝑛2 1− 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ; la région critique est 𝑊 = (𝑊
𝛼
𝜙1−𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝒩(0 , 1) 𝑎𝑠𝑠𝑜𝑐𝑖é𝑒 à 1 −
2 2
Remarque : la décision du test bilatéral précédent peut se faire à travers les
intervalles de confiance IC1−𝛼 (𝜃) de la différence 𝜃 = (𝑚1 − 𝑚2 ) de niveau 𝛼.
En effet, le rejet de 𝐻0 se fera si 𝜃0 ∉ IC1−𝛼 (𝜃).

E. Test d’égalité des variances de deux lois normales


indépendantes

Soient 𝑋 ↝ 𝒩(𝑚1 , 𝜎12 ) et 𝑌 ↝ 𝒩(𝑚2 , 𝜎22 ) deux variables indépendantes,


(𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon de 𝑋 et (𝑌1 , 𝑌2 , . . , 𝑌𝑛2 ) un 𝑛2 -échantillon de 𝑌.

On se propose d’effectuer les tests sur l’égalité des variances 𝜎12 et 𝜎22 pour se
faire on distingue les tests suivants :

𝜎22 𝜎22
1) 𝐻0 ∶ " 𝜎12 = 𝜎22 " contre 𝐻1 ∶ " 𝜎22 > 𝜎12 " ⇐ 𝐻0 : " = 1" contre 𝐻1 ∶ " > 1"
𝜎12 𝜎12

𝜎22 𝜎22
2) 𝐻0 ∶ " 𝜎12 = 𝜎22 " contre 𝐻1 ∶ " 𝜎22 < 𝜎12 " ⇐ 𝐻0 : " = 1" contre 𝐻1 ∶ " < 1"
𝜎12 𝜎12

Pr. El Abdi F. INSEA


145

▪ 𝒎𝟏 et 𝒎𝟐 connus

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑚1 )2 et 𝜎̂22 = 𝑆𝑌2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑚2 )2
𝑛1 𝑛2

𝑆𝑌2 𝜎22
On utilise la variable 2 qui est le meilleurs estimateur de comme variable de
𝑆𝑋 𝜎12

décision et la règle de décision est la suivante :

𝑆𝑌2
>𝑘 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋2
𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌2
<𝑘 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋2

2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ𝑛1 ; 𝑛2 nous
𝜎12 𝑆𝑌2

donne la région critique 𝑊 de niveau 1 − 𝛼 suivante :

1) 𝝈𝟐𝟐 > 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] 2 ℱ𝑛1 ; 𝑛2 ; 1− 𝛼 ; +∞ [}
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ𝑛1 ; 𝑛2 ; 1− 𝛼 = quantile de la loi ℱ𝑛1 ; 𝑛2 associé à 𝛼

2) 𝝈𝟐𝟐 < 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] 0 ; 2 ℱ𝑛1 ; 𝑛2 ; 𝛼 [ }
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ𝑛1 ; 𝑛2 ; 𝛼 = quantile de la loi ℱ𝑛1 ; 𝑛2 associé à 𝛼

Pr. El Abdi F. INSEA


146

▪ 𝒎𝟏 𝐜𝐨𝐧𝐧𝐮 et 𝒎𝟐 inconnu

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑚1 )2 et 𝜎̂22 = 𝑆𝑌′2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑌̅)2
𝑛1 𝑛2 −1

𝑆𝑌′2 𝜎22
On utilise la variable 2 qui est le meilleurs estimateur de comme variable
𝑆𝑋 𝜎12

de décision et la règle de décision est la suivante :

𝑆𝑌′2
>𝑘 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋2
𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌′2
<𝑘 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋2

2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ𝑛1; (𝑛2−1)
𝜎12 𝑆𝑌′2

nous donne la région critique 𝑊 de niveau 1 − 𝛼 suivante :

1) 𝝈𝟐𝟐 > 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌′2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] 2 ℱ𝑛1; (𝑛2 −1); 1− 𝛼 ; +∞ [}
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ𝑛1; (𝑛2−1);1− 𝛼 = quantile de la loi ℱ𝑛1; (𝑛2−1) associé à 1 − 𝛼

2) 𝝈𝟐𝟐 < 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌′2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈]0 ; ℱ (𝑛 [}
𝜎1 𝑆𝑋2 𝑛1 ; 2−1); 𝛼

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ𝑛1; (𝑛2−1); 𝛼 = quantile de la loi ℱ𝑛1; (𝑛2−1) associé à 𝛼

Pr. El Abdi F. INSEA


147

▪ 𝒎𝟏 inconnu et 𝒎𝟐 connu

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋′2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑋̅ )2 et 𝜎̂22 = 𝑆𝑌2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑚2 )2
𝑛1 −1 𝑛2

𝑆𝑌2 𝜎22
On utilise la variable ′2 qui est le meilleurs estimateur de comme variable
𝑆𝑋 𝜎12

de décision et la règle de décision est la suivante :

𝑆𝑌2
>𝑘 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋′2
𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌2
<𝑘 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋′2

′2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ(𝑛1 −1) ; 𝑛2
𝜎12 𝑆𝑌2

nous donne la région critique 𝑊 de niveau 1 − 𝛼 suivante :

1) 𝝈𝟐𝟐 > 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] ′2 ℱ(𝑛1 −1) ; 𝑛2 ; 1− 𝛼 ; +∞ [}
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ(𝑛1−1) ; 𝑛2 ; 1− 𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à 1 − 𝛼

2) 𝝈𝟐𝟐 < 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] 0 ; ′2 ℱ(𝑛1 −1) ; 𝑛2 ; 𝛼 [ }
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ(𝑛1−1) ; 𝑛2 ; 𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à 𝛼

Pr. El Abdi F. INSEA


148

▪ 𝒎𝟏 et 𝒎𝟐 inconnus

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋′2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑋̅ )2 et 𝜎̂22 = 𝑆𝑌′2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑌̅)2
𝑛1 −1 𝑛2 −1

𝑆𝑌′2 𝜎22
On utilise la variable ′2 qui est le meilleurs estimateur de comme variable
𝑆𝑋 𝜎12

de décision et la règle de décision est la suivante :

𝑆𝑌′2
>𝑘 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋′2
𝑒𝑡 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌′2
<𝑘 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋′2

′2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ(𝑛1 −1) ; (𝑛2 −1)
𝜎12 𝑆𝑌2

nous donne la région critique 𝑊 de niveau 1 − 𝛼 suivante :

1) 𝝈𝟐𝟐 > 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌′2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] ′2 ℱ(𝑛1 −1) ; (𝑛2 −1) ; 1− 𝛼 ; +∞ [}
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ(𝑛1−1) ; 𝑛2 ; 1− 𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à 1 − 𝛼

2) 𝝈𝟐𝟐 < 𝝈𝟐𝟏

𝑛1 +𝑛2
𝜎22 𝑆𝑌′2
𝑊 = {(𝐱 , 𝐲) ∈ ℝ / 2 ∈ ] 0 ; ′2 ℱ(𝑛1 −1) ; (𝑛2 −1) ; 𝛼 [ }
𝜎1 𝑆𝑋

avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) ;

ℱ(𝑛1−1) ; (𝑛2−1) ; 𝛼 = quantile de la loi ℱ(𝑛1−1) ; (𝑛2−1) associé à 𝛼.

Pr. El Abdi F. INSEA


149

𝜎22 𝜎22
𝐻0 ∶ " 𝜎12 = 𝜎22 " contre 𝐻1 ∶ " 𝜎22 ≠ 𝜎12 " ⇐ 𝐻0 ∶ " = 1" contre 𝐻1 ∶ " ≠ 1"
𝜎21 𝜎21

▪ 𝒎𝟏 et 𝒎𝟐 connus

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑚1 )2 et 𝜎̂22 = 𝑆𝑌2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑚2 )2
𝑛1 𝑛2

𝑆𝑌2 𝜎22
On utilise la variable 2 qui est le meilleurs estimateur de comme variable de
𝑆𝑋 𝜎12

décision et la règle de décision est la suivante :

𝑆𝑌2
> 𝑘1 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋2
𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌2
< 𝑘2 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋2

2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ𝑛1 ; 𝑛2 nous
𝜎12 𝑆𝑌2

̅ de niveau 1 − 𝛼 suivante :
donne la région d’acceptation 𝑊

𝜎22 𝑆𝑌2 𝑆𝑌2


̅ = {(𝐱 , 𝐲) ∈ ℝ𝑛1 +𝑛2 /
𝑊 ∈ ] 2 ℱ𝑛 ; 𝑛 ; 𝛼 ; 2 ℱ𝑛 ; 𝑛 ;1− 𝛼 [}
𝜎12 𝑆𝑋 1 2 2 𝑆𝑋 1 2 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) et 𝑊 = (𝑊
𝛼
ℱ𝑛 𝛼 = quantile de la loi ℱ𝑛1 ; 𝑛2 associé à
1 ; 𝑛2 ; 2 2
𝛼
ℱ𝑛 𝛼 = quantile de la loi ℱ𝑛1 ; 𝑛2 associé à 1 −
1 ; 𝑛2 ;1− 2 2

Pr. El Abdi F. INSEA


150

▪ 𝒎𝟏 𝐜𝐨𝐧𝐧𝐮 et 𝒎𝟐 inconnu

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :

1 1
𝜎̂12 = 𝑆𝑋2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑚1 )2 et 𝜎̂22 = 𝑆𝑌′2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑌̅)2
𝑛1 𝑛2 −1

𝑆𝑌′2 𝜎22
On utilise la variable 2 qui est le meilleurs estimateur de comme variable
𝑆𝑋 𝜎12

de décision et la règle de décision est la suivante :

𝑆𝑌′2
> 𝑘1 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋2
𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌′2
< 𝑘2 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋2

2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ𝑛1; (𝑛2−1)
𝜎12 𝑆𝑌′2
̅ de niveau 1 − 𝛼 suivante :
nous donne la région d’acceptation 𝑊
𝜎22 𝑆𝑌′2 𝑆𝑌′2
̅ = {(𝐱 , 𝐲) ∈ ℝ𝑛1+𝑛2 /
𝑊 ∈ ] 2 ℱ𝑛 ; (𝑛 −1) ; 𝛼 ; 2 ℱ𝑛 ; (𝑛 −1) ;1− 𝛼 [}
𝜎12 𝑆𝑋 1 2 2 𝑆𝑋 1 2 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) et 𝑊 = (𝑊
𝛼
ℱ𝑛 𝛼 = quantile de la loi ℱ𝑛1; (𝑛2−1) associé à
1 ; (𝑛2 −1); 2 2
𝛼
ℱ𝑛 𝛼 = quantile de la loi ℱ𝑛1; (𝑛2−1) associé à 1 −
1 ; (𝑛2 −1);1− 2 2
▪ 𝒎𝟏 inconnu et 𝒎𝟐 connu
Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :
1 1
𝜎̂12 = 𝑆𝑋′2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑋̅ )2 et 𝜎̂22 = 𝑆𝑌2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑚2 )2
𝑛1 −1 𝑛2

𝑆𝑌2 𝜎22
On utilise la variable ′2 qui est le meilleurs estimateur de comme variable
𝑆𝑋 𝜎12
de décision et la règle de décision est la suivante :

Pr. El Abdi F. INSEA


151

𝑆𝑌2
>𝑘 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋′2
𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌2
<𝑘 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋′2
′2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ(𝑛1 −1) ; 𝑛2
𝜎12 𝑆𝑌2
̅ de niveau 1 − 𝛼 suivante :
nous donne la région d’acceptation 𝑊
𝜎22 𝑆𝑌2 𝑆𝑌2
̅ = {(𝐱 , 𝐲) ∈ ℝ
𝑊 𝑛1 +𝑛2
/ 2 ∈ ] ′2 ℱ(𝑛 −1) ; 𝑛 ; 𝛼 ; ′2 ℱ(𝑛 −1) ; 𝑛 ;1− 𝛼 [}
𝜎1 𝑆𝑋 1 2 2 𝑆𝑋 1 2 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) et 𝑊 = (𝑊
𝛼
ℱ(𝑛 𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à
1 −1) ; 𝑛2 ; 2 2
𝛼
ℱ(𝑛 𝛼 = quantile de la loi ℱ(𝑛1−1) ; 𝑛2 associé à 1 −
1 −1) ; 𝑛2 ;1− 2 2

▪ 𝒎𝟏 et 𝒎𝟐 inconnus

Les meilleurs estimateurs de 𝜎12 et 𝜎22 sont donnés par :


1 1
𝜎̂12 = 𝑆𝑋′2 = ∑𝑛𝑖=1
1
(𝑋𝑖 − 𝑋̅ )2 et 𝜎̂22 = 𝑆𝑌′2 = ∑𝑛𝑖=1
2
(𝑌𝑖 − 𝑌̅)2
𝑛1 −1 𝑛2 −1

𝑆𝑌′2 𝜎22
On utilise la variable ′2 qui est le meilleurs estimateur de comme variable
𝑆𝑋 𝜎12

de décision et la règle de décision est la suivante :

𝑆𝑌′2
>𝑘 𝑠𝑖 𝜎22 > 𝜎12
𝑆𝑋′2
𝑜𝑢 (𝑟𝑒𝑗𝑒𝑡 𝑑𝑒 𝐻0 )
𝑆𝑌′2
<𝑘 𝑠𝑖 𝜎22 < 𝜎12
{ 𝑆𝑋′2

′2
𝜎22 𝑆𝑋
L’utilisation de la statistique ℱ = qui suit une loi de Fisher ℱ(𝑛1 −1) ; (𝑛2 −1)
𝜎12 𝑆𝑌2

̅ de niveau 1 − 𝛼 suivante :
nous donne la région d’acceptation 𝑊

Pr. El Abdi F. INSEA


152

𝜎22 𝑆𝑌′2 𝑆𝑌′2


̅ = {(𝐱 , 𝐲) ∈ ℝ𝑛1+𝑛2 /
𝑊 ∈ ] ′2 ℱ(𝑛 −1) ; (𝑛 −1) ; 𝛼 ; ′2 ℱ(𝑛 −1) ; (𝑛 −1) ;1− 𝛼 [}
𝜎12 𝑆𝑋 1 2 2 𝑆𝑋 1 2 2

̅ )𝑐
avec (𝐱 , 𝐲) = (𝑥1 , . . , 𝑥𝑛1 , 𝑦1 , . . , 𝑦𝑛2 ) et 𝑊 = (𝑊
𝛼
ℱ(𝑛 𝛼 = quantile de la loi ℱ(𝑛1−1) ; (𝑛2−1) associé à
1 −1) ; (𝑛2 −1); 2 2
𝛼
ℱ(𝑛 𝛼 = quantile de la loi ℱ(𝑛1−1) ; (𝑛2−1) associé à 1 −
1 −1) ; (𝑛2 −1);1− 2 2

Remarque : la décision du test bilatéral précédent peut se faire à travers les


𝜎2 𝜎22
intervalles de confiance IC1−𝛼 ( 22) du rapport de niveau 𝛼. En effet, le rejet
𝜎1 𝜎12

𝜎2
de 𝐻0 se fera si 1 ∉ IC1−𝛼 ( 22).
𝜎1

F. Test de comparaison de proportions de deux populations


indépendantes

Soient (𝑋1 , 𝑋2 , … , 𝑋𝑛1 ) un 𝑛1 -échantillon issu de 𝑋 ↝ 𝑏(𝑝1 ) et (𝑌1 , 𝑌2 , . . , 𝑌𝑛2 ) un


𝑛2 -échantillon de 𝑌 ↝ 𝑏(𝑝2 ). On suppose que les deux échantillons sont
indépendants. On pose 𝑝 = 𝑝1 − 𝑝2 et on se propose d’effectuer les tests :

Test unilatéral : 1) 𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 : " 𝑝 = 𝑝01 " (𝑝01 > 𝑝0 )

ou 2) 𝐻0 : " 𝑝 = 𝑝0 " contre 𝐻1 : " 𝑝 > 𝑝0 "

ou 3) 𝐻0 ∶ " 𝑝 = 𝑝0 " contre 𝐻1 : " 𝑝 = 𝑝01 " (𝑝𝑝01 < 𝑝0 )

ou 4) 𝐻0 : " 𝑝 = 𝑝0 " contre 𝐻1 : " 𝑝 < 𝑝0 "

Test bilatéral : 5) 𝐻0 : " 𝑝 = 𝑝0 " contre 𝐻1 : " 𝑝 ≠ 𝑝0 "

A priori, il paraît évident d’utiliser l’estimateur 𝑝̂ de 𝑝 = 𝑝1 − 𝑝2 qui découle des


meilleurs estimateurs de 𝑝1 et 𝑝2 qui ne sont autre que les fréquences

Pr. El Abdi F. INSEA


153

empiriques 𝐹1,𝑛1 et 𝐹2,𝑛2 . On a alors : 𝑝̂ = 𝑝̂1 − 𝑝̂2 = 𝐹1,𝑛1 − 𝐹2,𝑛2 ,


malheureusement la variance de (𝐹1,𝑛1 − 𝐹2,𝑛2 ) dépend de 𝑝1 et 𝑝2 puisque :

𝑝1 (1−𝑝1 ) 𝑝2 (1−𝑝2 )
𝑉(𝐹1,𝑛1 − 𝐹2,𝑛2 ) = 𝑉(𝐹1,𝑛1 ) + 𝑉(𝐹2,𝑛2 ) = +
𝑛1 𝑛2

Il n’est donc pas facile de trouver une statistique de décision qui a une loi connue
sous 𝐻0 . Cependant, si min (𝑛1 , 𝑛2 ) est assez grand on peut utiliser le théorème
de limite central qui nous assure que la variable 𝑍𝑛1,𝑛2 définie par :

𝐹1,𝑛1 − 𝐹2,𝑛2 − (𝑝1 − 𝑝2 ) ℒ


𝑍𝑛1,𝑛2 = → 𝒩(0,1)
𝑝 (1 − 𝑝1 ) 𝑝 (1 − 𝑝2 )
√ 1 + 2
𝑛1 𝑛2

Le problème persiste encore puisque, sous 𝐻0 , le dénominateur de


𝑍𝑛1,𝑛2 dépend toujours des paramètres 𝑝1 et 𝑝2 . Pour palier à ce problème on
remplace 𝑝1 et 𝑝2 leurs estimateurs dans la partie dénominateur pour avoir
finalement la statistique du test :
𝐹1,𝑛1 − 𝐹2,𝑛2 − 𝑝0 ℒ
𝑍𝑛1,𝑛2 = → 𝒩(0,1) 𝑠𝑜𝑢𝑠 𝐻0
𝐹1,𝑛1 (1 − 𝐹1,𝑛1 ) 𝐹2,𝑛2 (1 − 𝐹2,𝑛2 )
√ +
𝑛1 𝑛2

Qui permettra d’effectuer le tests unilatéraux et bilatéral précédent.

En particulier pour tester l’égalité des proportions des deux populations on


prendra la statistique :
𝐹1,𝑛1 − 𝐹2,𝑛2 ℒ
𝑍𝑛1,𝑛2 = → 𝒩(0,1) 𝑠𝑜𝑢𝑠 𝐻0
𝐹1,𝑛1 (1 − 𝐹1,𝑛1 ) 𝐹2,𝑛2 (1 − 𝐹2,𝑛2 )
√ +
𝑛1 𝑛2

Pr. El Abdi F. INSEA


154

VI. Test entre deux hypothèses multiples (test de


Lehmann)
A. Famille à rapport de vraisemblance monotone

𝐻0 ∶ " 𝜃 ∈ Θ0 " contre 𝐻1 : " 𝜃 ∈ Θ1 " (Θ0 ⊂ ℝ ; Θ1 ⊂ ℝ ; Θ0 ∩ Θ1 = ∅)


Si 𝐻0 est composite, le risque de première espèce est une fonction de 𝜃,
et le niveau du test est : 𝛼 = 𝑠𝑢𝑝 𝛼(𝜃) ( 𝛼(𝜃) ≤ 𝛼 donné)
𝜃 ∈Θ0

Définition 6 : Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon issu de 𝑋. La loi de 𝑋 est dite


à rapport de vraisemblance monotone s’il existe une statistique 𝑇 à valeur dans
ℝ tel que :
𝐿(𝐱 , 𝜃1 )
= 𝑔(𝜃0;𝜃1) (𝑡) = 𝑔(𝜃0;𝜃1) (𝑇(𝐱)) 𝐱 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝐿(𝐱 , 𝜃0 )
est strictement croissante en 𝑡 𝑠𝑖 𝜃0 < 𝜃1

Exemple : pour le cas de famille exponentielle on a :


ln 𝑓(𝑥 , 𝜃) = 𝑎(𝑥)𝑞(𝜃) + 𝐴(𝜃) + 𝐵(𝑥)
𝑛
𝐿(𝐱 , 𝜃1 )
ln ( ) = [𝑞(𝜃1 ) − 𝑞(𝜃0 )] ∑ 𝑎( 𝑥𝑖 ) + 𝑛 [𝐴(𝜃1 ) − 𝐴(𝜃0 )]
𝐿(𝐱 , 𝜃0 )
𝑖=1

𝑇 = ∑𝑛𝑖=1 𝑎( 𝑋𝑖 ) est une statistique exhaustive.


𝐿(𝐱 , 𝜃1 )
est une fonction monotone croissante en 𝑇
𝐿(𝐱 , 𝜃0 )

∀ 𝜃1 > 𝜃0 ; 𝑞(𝜃1 ) − 𝑞(𝜃0 ) > 0 (𝑖. 𝑒) 𝑞 𝑑𝑜𝑖𝑡 ê𝑡𝑟𝑒 𝑢𝑛 𝑓𝑜𝑛𝑐𝑡𝑖𝑜𝑛 𝑐𝑟𝑜𝑖𝑠𝑠𝑎𝑛𝑡𝑒.

Tests de la forme :
Test 1) 𝐻0 ∶ " 𝜃 ≤ 𝜃0 " contre 𝐻1 : " 𝜃 > 𝜃0 "
ou Test 2) 𝐻0 ∶ " 𝜃 ≥ 𝜃0 " contre 𝐻1 : " 𝜃 < 𝜃0 "

Pr. El Abdi F. INSEA


155

Soit 𝑋 une variable aléatoire de densité 𝑓(𝑥 , 𝜃), si

la loi de 𝑋 est à rapport de vraisemblance monotone en une statistique 𝑇, alors


il existe (pour les deux tests précédents) un test uniformément le plus puissant
dont la région critique et de la forme :
Test 1) 𝐻0 ∶ " 𝜃 ≤ 𝜃0 " contre 𝐻1 : " 𝜃 > 𝜃0 "
𝑊 = {𝐱 ∈ ℝ𝑛 / 𝑇(𝐱) = 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) > 𝑘𝛼 }
Test 2) 𝐻0 ∶ " 𝜃 ≥ 𝜃0 " contre 𝐻1 : " 𝜃 < 𝜃0 "
𝑊 = {𝐱 ∈ ℝ𝑛 / 𝑇(𝐱) = 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) < 𝑘𝛼 }

Exemples :
1. Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon issu de 𝑋 ↝ 𝑏(𝑝)
Tester : 𝐻0 ∶ " 𝑝 ≤ 𝑝0 " contre 𝐻1 : " 𝑝 > 𝑝0 "
𝑝
𝑓(𝑥 , 𝑝) = 𝑝 𝑥 (1 − 𝑝)(1−𝑥) ⇒ ln 𝑓(𝑥 , 𝜃) = 𝑥 ln ( ) + ln(1 − 𝑝)
1−𝑝
= 𝑎(𝑥)𝑞(𝑝) + 𝐴(𝑝)
𝑝 1 1
Avec 𝑞(𝑝) = ln ( )⇒ 𝑞 ′ (𝑝) = + >0 ⇒ 𝑞(. )𝑒𝑠𝑡 𝑐𝑟𝑜𝑖𝑠𝑠𝑎𝑛𝑡𝑒 𝑒𝑛 𝑝
1−𝑝 𝑝 1−𝑝

D’où la loi 𝑏(𝑝) est à rapport de vraisemblance monotone en 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 ce


qui donne la région critique 𝑊 de niveau 1 − 𝛼 suivante :
𝑛

𝑊 = {𝐱 ∈ ℝ𝑛 / ∑ 𝑥𝑖 > 𝑘𝛼 }
𝑖=1

Or 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 ↝ 𝐵(𝑛 , 𝑝0 ) sous 𝐻0 qui est tabulée par conséquent :


𝑃𝐻0 (𝑊) = 𝑃𝐻0 (𝑇 > 𝑘𝛼 ) = 𝛼 ⇐ 𝑃𝐻0 (𝑇 ≤ 𝑘𝛼 ) = 1 − 𝛼

𝑘𝛼 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) 𝑎𝑠𝑠𝑜𝑐𝑖é à 1 − 𝛼, de plus ce test est UPP.


L’autre test unilatérale 𝐻0 ∶ " 𝑝 ≥ 𝑝0 " contre 𝐻1 : " 𝑝 < 𝑝0 " se détermine de
la même manière et donne la région critique 𝑊 de niveau 1 − 𝛼 suivante :

Pr. El Abdi F. INSEA


156

𝑛 𝑛

𝑊 = {𝐱 ∈ ℝ𝑛 / ∑ 𝑥𝑖 < 𝑘𝛼 } = 𝑊 = {𝐱 ∈ ℝ𝑛 / ∑ 𝑥𝑖 ≤ [𝑘𝛼 ]}
𝑖=1 𝑖=1

[𝑘𝛼 ] = 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝐵(𝑛 , 𝑝0 ) 𝑎𝑠𝑠𝑜𝑐𝑖é à 𝛼 , de plus ce test est UPP


1 1
2. Soit (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) un 𝑛-échantillon issu de 𝑋 ↝ 𝜉 ( ) = 𝐺(1, ). Tester :
𝜃 𝜃

𝐻0 ∶ " 𝜃 ≥ 𝜃0 " contre 𝐻1 : " 𝜃 < 𝜃0 "


1 𝑥 𝑥
𝑓(𝑥 , 𝜃) = exp (− ) ⇒ ln 𝑓(𝑥 , 𝜃) = − ln(𝜃) −
𝜃 𝜃 𝜃
1 1
𝑞(𝜃) = − croissante en 𝜃 d’où 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 . La loi 𝜉 ( ) est à rapport de
𝜃 𝜃

vraisemblance monotone en 𝑇. Par conséquent la région critique 𝑊 de niveau


1 − 𝛼 est la suivante :
𝑛

𝑊 = {𝐱 ∈ ℝ𝑛 / ∑ 𝑥𝑖 < 𝑘𝛼 }
𝑖=1

Avec 𝑃𝐻0 (𝑊) = 𝑃𝐻0 (𝑇 < 𝑘𝛼 ) = 𝛼 de plus ce test est UPP


2 2
Or la loi de 𝑋𝑖 sous est une 𝜒12 ∀𝑖 = 1; 𝑛 ce qui donne ∑𝑛𝑖=1 𝑋𝑖 ↝ 𝜒2𝑛
2
et
𝜃0 𝜃0
2 2
donc : 𝑘𝛼 = 𝜒𝑛;𝛼 𝑞𝑢𝑎𝑛𝑡𝑖𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑙𝑜𝑖 𝜒𝑛2 𝑎𝑠𝑠𝑜𝑐𝑖é à 𝛼. Finalement on obtient :
𝜃0
𝑛
𝜃0 2
𝑊 = {𝐱 ∈ ℝ𝑛 / ∑ 𝑥𝑖 𝜖 [0 ; 𝜒 [}
2 𝑛;𝛼
𝑖=1

Tests de la forme :
Test 1) 𝐻0 ∶ " 𝜃 ≤ 𝜃0 𝑜𝑢 𝜃 ≥ 𝜃1 " contre 𝐻1 : " 𝜃0 < 𝜃 < 𝜃1 "
Test 2) 𝐻0 ∶ " 𝜃0 ≤ 𝜃 ≤ 𝜃1 " contre 𝐻1 : " 𝜃 < 𝜃0 𝑜𝑢 𝜃 > 𝜃1 "

Pr. El Abdi F. INSEA


157

Soit 𝑋 une variable aléatoire de densité 𝑓(𝑥 , 𝜃), si

la loi de 𝑋 est à rapport de vraisemblance monotone en une statistique 𝑇, alors


il existe (pour les deux tests précédents) un test uniformément le plus puissant
dont la région critique et de la forme :
Test 1) 𝐻0 ∶ " 𝜃 ≤ 𝜃0 𝑜𝑢 𝜃 ≥ 𝜃1 " contre 𝐻1 : " 𝜃0 < 𝜃 < 𝜃1 "
𝑊 = {𝐱 ∈ ℝ𝑛 / 𝑘1 < 𝑇(𝐱) = 𝑇(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) < 𝑘2 }
Les constantes 𝑘1 est 𝑘2 sont déterminées par : 𝑃𝐻0 (𝑊) = 𝛼
𝛼
𝑃𝜃1 (𝑇(𝐱) < 𝑘2 ) = 𝑃𝜃0 (𝑇(𝐱) > 𝑘1 ) =
2
Test 2) 𝐻0 ∶ " 𝜃0 ≤ 𝜃 ≤ 𝜃1 " contre 𝐻1 : " 𝜃 < 𝜃0 𝑜𝑢 𝜃 > 𝜃1 "
𝑊 = {𝐱 ∈ ℝ𝑛 / 𝑇(𝐱) < 𝐶1 𝑜𝑢 𝑇(𝐱) > 𝐶2 }
Les constantes 𝑘1 est 𝑘2 sont déterminées :
𝛼
𝑃𝜃0 (𝑇(𝐱) > 𝐶1 ) = 𝑃𝜃1 (𝑇(𝐱) < 𝐶2 ) =
2

B. Test de rapport de vraisemblance maximal


Ce test est utilisé dans le cas où les méthodes précédentes ne marchent pas.
𝐻0 ∶ " 𝜃 = 𝜃0 " contre 𝐻1 : " 𝜃 ≠ 𝜃0 " où 𝜃 ∈ ℝ𝑑
Posons :
𝐿(𝐱 , 𝜃0 )
Λ=
max 𝐿(𝐱 , 𝜃)
𝜃𝜖Θ

Remarque : 0 < Λ ≤ 1 , plus Λ est grand, plus 𝐻0 est vraisemblable, cela


revient à remplacer sous 𝐻1 , 𝜃 par son estimation du maximum de
vraisemblance. La région critique du test sera donnée par :
𝑊 = {𝐱 ∈ ℝ𝑛 / Λ < 𝑘𝛼 }
Où la constante 𝑘𝛼 est déterminée par : 𝑃𝐻0 (𝑊) = 𝑃𝐻0 (Λ < 𝑘𝛼 ) = 𝛼

Pr. El Abdi F. INSEA


158

Si 𝑋(Ω) ne dépend pas de θ alors ∶



−2 ln Λ → 𝜒𝑑2 sous 𝐻0

Démonstration : pour 𝑑 = 1
𝑝𝑠
ln Λ = ln 𝐿(𝐱 , 𝜃0 ) − ln 𝐿(𝐱 , 𝜃̂) où 𝜃̂ est l’EMV de 𝜃, On a 𝜃̂ → 𝜃0 sous 𝐻0
Le développement de Taylor à l’ordre au voisinage de 𝜃̂ nous assure l’existence
d’une constante 𝜃 ∗ ∈ [ 𝜃0 ; 𝜃̂ ] tel que :
2
𝜕 1 2 𝜕
ln 𝐿(𝐱 , 𝜃0 ) = ln 𝐿(𝐱 , 𝜃̂) + (𝜃0 − 𝜃̂) ̂ ̂
ln 𝐿(𝐱 , 𝜃) + (𝜃0 − 𝜃) ln 𝐿(𝐱 , 𝜃 ∗ )
𝜕𝜃 2 𝜕𝜃 2
1 2 𝜕 2
⇒ ln Λ =
2
(𝜃0 − 𝜃̂) 𝜕𝜃2 ln 𝐿(𝐱 , 𝜃 ∗ ) avec 𝜃 ∗ ∈ [ 𝜃0 ; 𝜃̂ ]
1 2 𝜕2
⇒ ln Λ =
2
(𝜃0 − 𝜃̂ ) 𝜕𝜃2
∑𝑛𝑖=1 ln 𝑓(𝑥𝑖 , 𝜃 ∗ ) avec 𝜃 ∗ ∈ [ 𝜃0 ; 𝜃̂ ]
1 2 𝜕2
⇒ ln Λ =
2
(𝜃0 − 𝜃̂ ) ∑𝑛𝑖=1 𝜕𝜃2 ln 𝑓(𝑥𝑖 , 𝜃 ∗ ) avec 𝜃 ∗ ∈ [ 𝜃0 ; 𝜃̂ ]
𝑛 2 1 𝜕 2
⇒ ln Λ =
2
(𝜃0 − 𝜃̂) [ 𝑛 ∑𝑛𝑖=1 𝜕𝜃2 ln 𝑓(𝑥𝑖 , 𝜃 ∗ ) ]
𝑝𝑠 𝑝𝑠
Or 𝜃̂ → 𝜃0 sous 𝐻0 ⇒ 𝜃∗ → 𝜃0 sous 𝐻0
1 𝜕2 1 𝜕2
⇒ ∑𝑛𝑖=1 2
ln 𝑓(𝑥𝑖 , 𝜃 ∗ ) ≈ ∑𝑛𝑖=1 ln 𝑓(𝑥𝑖 , 𝜃0 ) sous 𝐻0
𝑛 𝜕𝜃 𝑛 𝜕𝜃2

De plus la loi des grands nombres nous donne


𝑛
1 𝜕2 𝑃𝑆 𝜕2
∑ 2 ln 𝑓(𝑋𝑖 , 𝜃0 ) → 𝐸 ( 2 ln 𝑓(𝑋𝑖 , 𝜃0 ) ) = −𝐼(𝜃0 )
𝑛 𝜕𝜃 𝜕𝜃
𝑖=1

Ce qui montre que :


𝑛 2 2
ln Λ ≈ − (𝜃0 − 𝜃̂) 𝐼(𝜃0 ) ⇐ −2 ln Λ ≈ (𝜃0 − 𝜃̂) 𝐼𝑛 (𝜃0 )
2
D’autre part on sait que :
(𝜃0 − 𝜃̂) ℒ 2 ℒ
→ 𝒩(0,1) ⇒ (𝜃0 − 𝜃̂) 𝐼𝑛 (𝜃0 ) → 𝜒12
1

𝐼𝑛 (𝜃0 )

⇒ − 2 ln Λ → 𝜒12 sous 𝐻0 c.q.f.d.

Pr. El Abdi F. INSEA

Vous aimerez peut-être aussi