Resume Du Cours D'econometrie
Resume Du Cours D'econometrie
Resume Du Cours D'econometrie
2
Définition................................................................................................................................2
Utilité et démarche..................................................................................................................2
Type de données et notations..................................................................................................2
Objet du cours.........................................................................................................................3
L’ESSENTIEL A RETENIR SUR LA CORRELATION..........................................................4
1 Définition et caractéristiques..............................................................................................4
2 Étude de la corrélation linéaire...........................................................................................4
2.1 Vérification des conditions de validité de l’étude.......................................................4
2.2 Coefficients de corrélation linéaire.............................................................................6
2.3 Différences entre Spearman vs Bravais-Pearson........................................................8
2.4 Significativité du coefficient de corrélation................................................................8
2.5 Interprétation...............................................................................................................9
2.6 Limites......................................................................................................................10
1 Définition..........................................................................................................................11
2 Modèle et hypothèses........................................................................................................11
2.1 Modèle linéaire simple..............................................................................................11
2.2 Hypothèses................................................................................................................11
3 Estimateurs des MCO des paramètres..............................................................................11
3.1 Estimateurs pour un modèle avec constante.............................................................12
3.2 Estimateurs pour un modèle sans constante..............................................................12
4 Modèle estimé...................................................................................................................12
5 Qualité des estimateurs.....................................................................................................12
6 Estimation de variances....................................................................................................12
7 Adéquation du modèle......................................................................................................12
8 Significativité....................................................................................................................13
8.1 Significativité globale...............................................................................................13
8.2 Significativité individuelle........................................................................................13
9 Diagnostic des résidus.......................................................................................................14
9.1 Hétéroscédasticité.....................................................................................................14
9.2 Autocorrélation des résidus.......................................................................................14
9.3 Normalité..................................................................................................................15
1
INTRODUCTION GENERALE
Définition
« l’union de l’analyse économique, des mathématiques et de l’inférence statistique » (cf. A.
Pirotte cité par Bresson).1
Au sens large, c’est un ensemble de techniques utilisant la statistique mathématique
pour vérifier la validité empirique des relations supposées entre les phénomènes
économiques et pour en mesurer les paramètres.
Au sens strict, c’est l’art de construire et d’estimer des modèles empiriques adéquats
par rapport aux caractéristiques de la réalité, et intelligibles au regard de la théorie
économique.
Utilité et démarche
L’économétrie est un outil d’aide à la décision dont les quatre principales fonctions sont :
1) Tester les théories économiques ou certaines hypothèses de la théorie économique
2) Évaluer les paramètres des relations économiques.
3) Prévoir l’évolution des variables économiques : si la théorie n’est pas rejetée, on peut
utiliser le modèle pour prédire les valeurs futures du phénomène étudié.
4) Contrôle ou politique économique
L’analyse économétrique dérive d’une démarche en 8 étapes :
1) Énoncer la théorie ou les hypothèses à étudier
2) Spécifier le modèle mathématique de la théorie en question ;
3) Spécifier le modèle statistique ou économétrique qui en découle ;
4) Collecter les données ;
5) Estimer les paramètres du modèle économétrique ;
6) Tester les hypothèses sur les paramètres du modèle ;
7) Faire des prévisions ou prédictions en cas de validité du modèle
8) Contrôle ou de politique économique
En général, c’est la théorie (économique,) qui doit guider l’économètre pour la spécification
du modèle, les données ne doivent servir qu’à valider ou invalider les hypothèses émises.
Type de données et notations
1
Raguar Frisch définit l’économétrie comme tel dans son éditorial du premier numéro de
la revue Econometrica paru en 1993.
2
i=1, …, n. Ici i désigne un individu, un ménage, une entreprise, un secteur, un pays…
correspondant à l’observation considérée. N est le nombre total d’observation
(individus) disponibles.
Données de panel ou donnée individuelles-temporelles ou encore coupes répétées
intègrent les deux dimensions, individuelle et temporelle, puisqu’elles correspondent à
l’observation d’individus suivis dans le temps. Les variables de la fonction étudiée
seront alors marquées simultanément d’un indice d’individu et d’un indice de
EXERCICE D’APPLICATION
i C R
1 100 114
2 104 118
3 106 126
4 108 130
5 120 140
6 124 140
7 126 148
8 128 156
9 140 160
10 146 164
11 148 170
12 152 178
1 Définition et caractéristiques
Des phénomènes (économique) sont dits « corrélés » lorsqu’ils ont une évolution commune.
3
La corrélation peut être simple ou multiple (partielle). Dans le premier cas il s’agit de
la liaison existante entre deux phénomènes représentés par des variables, tandis que
dans le deuxième cas, il s’agit de la liaison entre trois variables ou plus.
La corrélation est dite positive lorsqu’il y a une augmentation (ou diminution, ou
constance) simultanée des valeurs des deux variables, tandis qu’elle est dite négative,
lorsque les valeurs de l’une augmentent, les valeurs de l’autre diminuent. Il y a non
corrélé, s’il n’y a aucune relation entre les variations des valeurs de l’une des variables
et les valeurs de l’autre.
La corrélation peut être linéaire ou non linéaire.
y I y II
x x
y III IV
La corrélation est linéaire, lorsque tous les points du couple de valeurs (x, y) des deux
variables semblent alignés sur une droite.
x Par exemple les pointsx des nuages I et II
sont presque alignés, mais de directions différentes traduisant une x corrélation linéaire
respectivement y positive (I) et négative (II) entre les variables x et y.
La corrélation non linéaire lorsque le couple de valeurs se trouve sur une même courbe
d’allure quelconque. Par exemple, le nuage IV décrit une courbe régulière qui n'est pas
une droite traduisant une corrélation non-linéaire entre les variables x et y .
4
Le nuage III ne présente pas de structure particulière, traduisant ainsi une absence il
n’y a donc pas de corrélation entre les variables x et y.
On peut utiliser des tests de normalité dont le test de Jarque-Bera et le test de Shapiro-Wilk.
[
n
JB= S 2 +
6 4]
( K −3 )2
SKEWNESS
Soit une variables aléatoire réelle X de moyenne μ et d’écart-type σ on définit son coefficient
d’asymétrie comme le moment d’ordre trois de la variables aléatoire réelle
[( ) ]
3
x −μ
γ 1=E
σ
Lorsque cette espérance existe alors on a :
μ3
γ 1= 3
σ
γ 1 <0 distribution décalée à droite de la médiane et donc une queue de distribution étalée vers
la gauche
γ 1 >0 distribution décalée à gauche de la médiane et donc une queue de distribution étalée vers
la droite
γ 1=0 distribution symétrique mais pas forcement
KURTOSIS
[( ) ]
4
x −μ
β 2=E
σ
Lorsque cette espérance existe alors on a :
5
μ4
β 2= 4
σ
β 2=3, on parle de distribution mésokurtique.
β 2> 3, on parle de distribution leptokurtique .
β 2< 3, on parle de distribution platikurtique .
La loi normale est un cas particulier de distribution mésokurtique pour laquelle le skewness
est nul γ 1=0
μk =E [ ( x−E(x ) ) ]
k
Test de Shapiro-Wilk
[∑ ]
j 2
a j ( x( n−i+1 )−x( i) )
i=1
W= n
∑ ( x (i )− x̄ )2
i=1
Où n est la taille de l’échantillon, j est la partie entière du rapport (n/2), x(i) correspond à la
série des données triées en ordre croissant, a i sont des valeurs lues dans la table des
coefficients de Shapiro et Wilk sachant n et j. Sous l’hypothèse nulle (H 0) « la variable est
gaussienne», on rejette H0 si W < WTable(n) au seuil α, la variable est non gaussienne.
COV ( X ,Y ) COV (X , Y )
r xy = =
√VAR ( X ) . VAR(Y ) σxσ y
Ce coefficient est un chiffre se situant toujours entre -1 (relation linéaire parfaite avec pente
négative) et +1 (relation linéaire parfaite avec pente positive).
Les propriétés de ce coefficient sont :
Il est de même signe que la variance, avec les mêmes interprétations.
1. Le coefficient de corrélation est indépendant des unités de mesure des variables, ce qui
permet les comparaisons.
2. Le coefficient de corrélation est une mesure normalisée qui prend des valeurs entre -1 et
1;
6
3. r =+ 1, la liaison entre X et Y est linéaire, positive et parfaite c.-à-d. la connaissance de
X nous fournit la valeur deY (et inversement) ;
4. r =−1 , la liaison est linéaire négative ;
5. Si X et Y sont indépendants, alors r xy =0. La réciproque est fausse car il peut exister
une liaison fonctionnelle, mais non monotone entre les variables une corrélation que le
coefficient Bravais-Pearson ne permet pas de révéler.
6. L’intensité de la corrélation d’une variable avec elle-même est r xx =1
7. il s’agit d’une mesure symétrique qui n’établit pas de distinction entre les variables
dépendantes et indépendantes
∑ ( x i−x ) ( y i− y) ∑ x i y i −n x y
i=1
r^ = =
√ √∑ √ x i2−n x 2 √ y i2−n y 2
n n
∑ ( xi −x) 2
( y i− y )
2
i=1 i=1
Le coefficient de corrélation empirique est un estimateur biaisé. Fort heureusement, le biais devient
négligeable lorsque l’effectif augmente. L’espérance de l’estimateur s’écrit :
2
r (1−r )
E [ r^ ] =r −
2n
Pour cette raison, on peut être amené à utiliser un coefficient de corrélation ajusté :
r^aj = 1−
√ n−1
n−2
(1−r^ 2 )
Bien entendu, l’ajustement est d’autant plus sensible que l’effectif est faible. Lorsque n est élevé, r^
et r^aj se confondent.
Outre le coefficient de corrélation linéaire de Bravais-Pearson, on utilise souvent le
coefficient de rangs de Spearman.
Ce coefficient est une mesure non paramétrique du degré de liaison linéaire entre deux
variables quantitatives X et Y.
7
n
6 ∑ D2i
i=1
rh o XY =1− 2
n (n −1)
Où Di = Ri - Si, où Ri est le rang de x et Si est le rang de y ; n est le nombre d’observations.
Avant d’appliquer la formule, il faut déterminer les rangs Ri et Si. Pour ce faire, il faut affecter
des rangs entre 1 et n à chaque observation sachant que la plus petite observation reçoit le
rang 1 et la plus grande observation reçoit le rang n. En présence d’ex aequo dans les
observations, on leur affecte la moyenne arithmétique de leurs rangs respectifs.
Lorsque la liaison entre les variables est non linéaire mais monotone
rhoxy est approprié, car il estime mieux le rxy donne une idée sur le sens de la liaison mais
sens et la force de la liaison entre x et y. estime mal sa force de la liaison entre x et y.
En présence de points atypiques ou aberrants des déviants
Le rhoxy résiste Le rxy très influencé.
Si la liaison entre les deux variables étudiées est non linéaire et non monotone, les
deux coefficients rxy et rhoxy ne sont plus adaptés.
8
2.4.2 Seuil de confiance
La décision de favoriser H0 est basée sur une information partielle, résultant d’un échantillon.
Ainsi, il est statistiquement impossible de prendre toujours la bonne décision. Le seuil de
confiance α est le risque de rejeter l’hypothèse nulle H 0 alors qu’elle est vraie. On l’appelle
aussi seuil de significativité ou erreur de première espèce.
9
En présence des variables qualitatives comme la paix, la religion, etc., ces coefficients
ne sont plus adaptés.
Ile coefficient de corrélation n’informe ni sur l’impact ni sur la causalité. Il ne permet
pas d’établir une causalité mais, rendre compte du sens et du degré d’association
éventuelle entre variables.
La corrélation peut être fortuite ou fallacieuse : un coefficient de corrélation différent
de zéro n’implique pas toujours une liaison d’ordre économique. Les deux variables
peuvent être liés à un même phénomène (troisième variable) dont il faut neutraliser
l’effet.
1 Définition
« méthode statistique visant à analyser la relation (association) entre une variable
dépendante particulière et une ou plusieurs variables indépendantes ».
2 Modèle et hypothèses
2.1 Modèle linéaire simple
Le modèle linéaire simple est modèle qui établit une relation linéaire entre une seule variable
explicative (X) et une variable à expliquer (Y).
Il peut se présente sous forme :
Théorique : Y = β0+ β1X
Econométrique : Y = β0+ β1X+ε
Le bruit ε, ou erreur, ou terme d’erreurs regroupe trois types d'erreurs :
10
Erreur de spécification (omissions): d’autres variables omises peuvent avoir une
influence sur y. L’estimation de β 1 est biaisée car sa vraie valeur est surestimée ou
sous-estime par le modèle.
Erreur de mesure : les données ne représentent pas pleinement le phénomène. Cela
arrive lorsqu’on utilise des « proxy ».
Erreur de fluctuation d'échantillonnage : les observations varient d'un échantillon à
l’autre provoquant des fluctuations de y autour de sa moyenne. Les estimations seront
différentes.
2.2 Hypothèses
La théorie économique postule parfois des relations dans lesquelles a0 = 0 : c’est le cas par
exemple pour une fonction de production de produit industriel où le facteur de production
(unique) nul entraîne une production nulle. L’estimation de a1 est alors donnée par la formule
suivante :
4 Modèle estimé
11
5 Qualité des estimateurs
Théorème de Gauss-Markov: les estimateurs des MCO sont « the Best Linear Unbiased
Estimator (BLUE) » c’est-à-dire qu’ils sont les meilleurs estimateurs linéaires sans biais.
6 Estimation de variances
7 Adéquation du modèle
Décomposition de la variance :
Tableau ANOVA
Source de variation Somme des carrés Degré de liberté Carré F
moyen
Régression SCE 1 SCE
Résiduelle SCR n-2 SCR/(n-2)
Totale SCT n-1 SCT/n-1
Coefficient de détermination :
et
12
8 Significativité
8.1 Significativité globale
1) Hypothèses du test : H0: β1=0 vs H1: β1≠0 (test bilatéral)
2) Seuil de confiance α=5%
3) Calcul de la statistique:
4) Décision
a. Si ou on rejette H0 avec un risque α=5%
Elle porte sur la pente de la droite de régression (β1) et l’ordonnée à l’origine (β0).
Test pour β1
3) Calcul de la statistique :
4) Décision
a. Si ou on rejette H0 avec un risque α=5%
b. Si ou on rejette H0 au seuil α=5%
Test pour β0
1) Hypothèses du test : H0: β0=0 vs H1: β0≠0 (test bilatéral)
2) Seuil de confiance α=5%
3) Calcul de la statistique :
4) Décision
a. Si ou on rejette H0 avec un risque α=5%
b. Si ou on rejette H0 au seuil α=5
9.1 Hétéroscédasticité
Définition : il y a hétéroscédasticité des résidus lorsque l’hypothèse E(ε i²) =σ² est
violée c’est-à-dire si E(εi²) ≠ σ². Ainsi E(εi²) dépend des valeurs de la variable
explicative.
Problème : les estimateurs des paramètres sont sans biais, mais inefficaces puisque les
estimateurs de leur variance sont biaisés.
13
Détection graphique: nuage de points des résidus normalisés en fonction des valeurs
de la variable explicative ou des valeurs prédites de la variable expliquée. Les points
du nuage décrivent un éparpillement autour de la valeur 0, sans comportement
particulier. Dans notre exemple, les résidus se situent à l’intérieur d’une bande
horizontale et les points ne présentent pas d’écart plus ou moins important à mesure
que X augmente, les erreurs sont homoscédastiques.
Rési
dus 2
norm
0
alisés x
-2
Détection par tests : On utilise le test de Durbin-Watson qui vérifie l’existence d’une
autocorrélation d’ordre 1 de la forme :
Hypothèses du test
o H0 : ρ=0
o H1 : ρ≠0
Statistique du test :
Règle de décision: on compare le DW calculé avec les seuils d1 et d2 fournis par la
table de Durbin et Watson
o Si 0 < DW < d1 alors ρ > 0 : il y a autocorrélation positive
o Si d2 < DW < 4-d2 alors ρ = 0 : il y a absence d’autocorrélation
o Si 4-d²<DW<4 alors ρ < 0 : il y a autocorrélation négative
14
9.3 Normalité
Problème: une non-normalité des résidus ne remet pas en cause l’équation du modèle
mais elle empêche d’estimer les intervalles de confiance des paramètres.
Détection par tests: Jarque-Bera (applicable à de grand échantillon : n˃88) et
Shapiro-Wilk (applicable à des petits échantillons : n ≤50)
Détection graphique: histogramme des résidus et des résidus studentisés ou nuage
de points des résidus en fonction des quantiles normalisés (courbe de Henry). Les
résidus normalement distribués si les points sont alignés selon une droite. Ainsi, tout
écart systématique indiquerait que les résidus ne sont pas normalement distribués.
Résidu
s
Quantiles normalisés
15