Nothing Special   »   [go: up one dir, main page]

Regression Linéaire Simple PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 7

Rgression linaire simple

Rgression linaire simple


Rsum
Ce chapitre introduit la notion de modle linaire par la version la
plus lmentaire : expliquer Y par une fonction affine de X. Aprs
avoir expliciter les hypothses ncessaires et les termes du modle,
les notions destimation des paramtres du modle, de prvision par
intervalle de confiance, la signification des tests dhypothse sont
discutes. Enfin une attention particulire est faite aux outils de
diagnostics disponibles : valeurs influentes, et surtout graphe des
rsidus.
Retour au plan du cours.

F IGURE 1 Exemple de rgression du poids dun arbre en fonction de la


variable diamtre hauteur et diamtre hauteur au carr
variable explicative homogne un volume semble plus judicieux pour estimer
le poids dun arbre.

Introduction

Ce chapitre est une introduction la modlisation linaire par le modle


le plus lmentaire, la rgression linaire simple o une variable X est explique, modlise par une fonction affine dune autre variable y. La finalit
dun tel modle est multiple et dpend donc du contexte et surtout des questions sous-jacentes. Ce peut-tre juste une approche exploratoire ou alors la
recherche dune rponse une question du type : une variable quantitative X
(e.g. la concentration dune molcule) a-t-elle une influence sur la variable
quantitative Y (e.g. une culture bactrienne) ? Ou enfin la recherche dun modle de prvision de Y en fonction de X : calibration dun appareil de mesure
dune concentration partir dune mesure optique. Des concepts clefs : modle, estimations, tests, diagnostics sont introduits et dclins dans ce contexte
lmentaire. Leur emploi et leur signification dpendent des objectifs. Ils se retrouvent dans une prsentation plus gnral du modle de rgression multiple
et ce chapitre sert donc dintroduction.

Modle

On note Y la variable alatoire relle expliquer (variable endogne, dpendante ou rponse) et X la variable explicative ou effet fixe (exogne). Le
modle revient supposer, quen moyenne, E(Y ), est une fonction affine de
X. Lcriture du modle suppose implicitement une notion pralable de causalit dans le sens o Y dpend de X car le modle nest pas symtrique.
E(Y ) = f (X) = 0 + 1 X

ou

Y = 0 + 1 X +

Remarque : Nous supposerons pour simplifier que X est dterministe. Dans


le cas contraire, X alatoire, le modle scrit alors conditionnellement aux
observations de X : E(Y |X = x) = 0 + 1 x et conduit aux mmes estimations.
Les hypothses relatives ce modle sont les suivantes :
1. la distribution de lerreur est indpendante de X ou X est fixe,
2. lerreur est centre et de variance constante (homoscdasticit) :

Avant tout travail de modlisation, une approche descriptive ou exploratoire


est ncessaire pour dpister au plus tt des difficults dans les donnes : dissymtrie des distributions, valeurs atypiques, liaison non linaire entre les variables. En fonction des rsultats obtenus, une transformation pralable des variables peut savrer ncessaire. Dans lexemple de la figure 1, le choix dune

i = 1, . . . , n

E(i ) = 0,

Var(i ) = 2 .

3. 0 et 1 sont constants, pas de rupture du modle.

Rgression linaire simple

4. Hypothse complmentaire pour les infrences : N (0, 2 ).

3
3.1

les rsidus calculs ou estims sont :


ei = yi ybi .

Estimation

La variance 2 est estime par la variation rsiduelle :

Paramtres

1 X 2
e .
s =
n 2 i=1 i

Lestimation des paramtres 0 , 1 , 2 est obtenue en maximisant la vraisemblance, sous lhypothse que les erreurs sont gaussiennes, ou encore par
minimisation de la somme des carrs des carts entre observations et modle
(moindres carrs). Les deux approches conduisent aux mmes estimation tandis que le maximum de vraisemblance induit de meilleure proprits des estimateurs. Pour une squence dobservations {(xi , yi )i = 1 . . . , n}, le critre
des moindres carrs scrit :
n
X
(yi 0 1 xi )2 .
min
0 ,1

Exemple : Analyse de rgression : Poids en fonction de D2xH


Lquation de rgression est
Poids = 0,0200 + 0,00829 D2xH
Rgresseur
Constante
D2xH

i=1

(1)
(2)
(3)
(4)

On pose :
n

x
=

1X
xi ,
n i=1

y =

s2x =
sxy =

1 X
(xi x
)2 ,
n 1 i=1
1
n1

1X
yi ,
n i=1

3.2

s2y =

n
X

(xi x
)(yi y),

r=

i=1

1 X
(yi y)2 ,
n 1 i=1

Coef
Er-T coef
0,01999(1)
0,01365(3)
0,0082897(2) 0,0002390(4)

T
1,46
34,68

P
0,160
0,000

b0
b1
c0 : sb
cart-type de
0
c
cart-type de 1 : sb1

Qualit dajustement

Il est dusage de dcomposer les sommes de carrs des carts la moyenne


sous la forme ci-dessous ; les notations sont celles de la plupart des logiciels :

sxy
;
sx sy

Les moindres carrs sont minimiss par :


sxy
b1 =
,
s2x
b0 = y b1 x

= (n 1)s2y ,

Total sum of squares

SST

Regression sum of squares


Error sum of squares

SSR = (n 1) sxy
2 ,
x
2
SSE = (n 2)s ,

s2

et on vrifie : SST = SSR + SSE.


On appelle coefficient de dtermination la quantit

c0 et
c1 . On montre que ces estimaqui sont les ralisations des estimateurs
teurs sans biais et de variance minimum parmi les estimateurs fonctions linaires des yi (resp. parmi tous les estimateurs dans le cas gaussien). chaque
valeur de X correspond la valeur estime ou ajuste de Y :

R2 = r 2 =

s2xy
n 2 s2
SSR
=1
=
2
2
sx sy
n 1 s2y
SST

qui exprime le rapport entre la variance explique par le modle et la variance


totale.

ybi = b0 + b1 xi ,

Rgression linaire simple

intervalles de confiance :

Exemple : Analyse de rgression : Poids en fonction de D2xH


Analyse de variance
Source
DL
Rgression
1(1)
Erreur rsid
18
Total
19
S = 0,03880(7)

(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)

4
4.1

1/2
1
x
2
+
,
n (n 1)s2x

1/2
1
.
t/2;(n2) s
(n 1)s2x


SC
1,8108(2)
0,0271(3)
1,8379(4)

CM
1,8108(5)
0,0015(6)

R-carr = 98,5%(8)

F
1202,89

P
0,000

R-carr (ajust) = 98,4%

b0

b1

t/2;(n2) s

Attention : une infrence conjointe sur 0 et 1 ne peut tre obtenue en considrant sparment les intervalles de confiance. La rgion de confiance est en
effet une ellipse dquation :

degrs de libert de la loi de Fisher du test global (H0 : 1 = 0)


SSR
SSE ou dviance
SST=SSE+SSR
SSR/DF
s2 =MSE=SSE/DF est lestimation de 2
s =racine de MSE
Coefficient de dtermination R2 ou carr du coefficient de corrlation.

n(b0 0 )2 + 2(b0 0 )(b1 1 )

n
X

xi + (b1 1 )2

i=1

n
X

x2i = 2s2 F;2,(n2)

i=1

qui est inclue dans le rectangle dfini par les intervalles. Un grande part des
valeurs du couple (0 , 1 ) est donc exclue de la rgion de confiance et ce
dautant plus que b0 et b1 sont corrls.

Infrence

Sous lhypothse : 1 = 0, la statistique

Loi des paramtres

(n 2)

R2
SSR
= (n 2)
2
1R
SSE

c0 et
c1 sont des variables alatoires relles de matrice de
Les estimateurs
suit une distribution de Fisher F1,(n2) . Cette statistique est le carr de la stacovariance :
"
#
1
x
2
x

tistique de Student correspondant la mme hypothse.


+
(n1)s2
2
x
x
2 n (n1)s
1
x

(n1)s2
(n1)s2
x

4.2

Prvision par intervalle de confiance

qui est estime en remplaant par son estimation s2 . Sous lhypothse que
Connaissant une valeur x0 , on dfinit deux intervalles de confiance de prles rsidus sont gaussiens, on montre que
vision partir de la valeur prdite yb0 = b0 + b1 x0 . Le premier encadre E(Y )
sachant X = x0 ; le deuxime, qui encadre yb0 est plus grand car il tient compte
(n 2)S 2
2(n2)
de la variance totale : 2 + Var(yb0 ) :
2

1/2

(x0 x
)2
1
et donc que les statistiques
+
,
yb0 t/2;(n2) s
n (n 1)s2x
,
, 
1/2

1/2

1/2
x
2
1
1
(x0 x
)2
c1 1 ) s
c0 0 ) s 1 +
et
(

(
y
b

t
s
1
+
+
.
2
2
0
/2;(n2)
n (n 1)sx
(n 1)sx
n (n 1)s2x
suivent des lois de Student (n 2) degrs de libert. Ceci permet de tesLes logiciels proposent galement une bande de confiance entre deux arcs
ter lhypothse de nullit dun de ces paramtres ainsi que de construire les dhyperboles pour la droite de rgression. chaque point (b0 , b1 ) de lellipse

Rgression linaire simple

de confiance de (0 , 1 ) correspond une droite dquation yb = b0 +b1 x. Toutes


ces droites sont comprises entre les bornes :

Enfin, le test de lhypothse H0 : 0 = 0 qui signifie : la droite passe


par lorigine, a un intrt limit des situations trs particulires comme la
0|
calibration du zro dun appareil de mesure. Elle est rejete si t0 = |b
sb0 >
tn2;1/2


1/2
q
1
(x x
)2
yb s F1,(n2)
+
.
n (n 1)s2x

Ceci signifie que cette bande recouvre la vraie ligne avec une probabilit
1 . Elle est plus grande que celle associe aux intervalles de confiance des
E(Y ).

Influence

Le critre des moindres carrs, comme la vraisemblance applique une distribution gaussienne douteuse, est trs sensible des observations atypiques,
Attention : la prvision par intervalle nest justifie que pour des observa- hors norme (outliers) cest--dire qui prsentent des valeurs trop singulires.
tions appartenant la population chantillonne et condition que les hypo- Ltude descriptive initiale permet sans doute dj den reprer mais cest inthses : linarit, erreurs i.i.d., (normalit), homoscdasticit, soient valides. suffisant. Un diagnostic doit tre tabli dans le cadre spcifique du modle
viter les extrapolations.
recherch afin didentifier les observations influentes cest--dire celles dont
une faible variation du couple (xi , yi ) induisent une modification importante
4.3 Tests dhypothse
des caractristiques du modle.
Les tests prcdents prennent une signification particulire avec un objectif
Ces observations repres, il ny a pas de remde universel : supprimer un
explicatif ; dsigne le niveau des tests, souvent = 5%. Comme pour valeur aberrante, corriger une erreur de mesure, construire une estimation rotous les tests usuels de comparaison dchantillon, les logiciels fournissent les buste (en norme L1 ), ne rien faire. . . , cela dpend du contexte et doit tre
probabilits critiques ou P -valeurs qui, en pratique, sont compares avec le ngoci avec le commanditaire de ltude.
seuil prdtermin.

5.1

Le test de Fisher sintresse la significativit globale dun modle. Dans le


cas de la rgression simple, seul le paramtre 1 est concern :

Effet levier

Une premire indication est donne par lloignement de xi par rapport la


moyenne
x
. En effet, crivons les prdicteurs ybi comme combinaisons linaires
R2
SSR
des
observations
:
F = (n 2)
= (n 2)
1 R2
SSE
n
X
1
(xi x
)(xj x
)
y
b
=
b
+
b
x
=
hij yj avec hij = + Pn
;
i
0
1 i
2
suit une loi de Fisher (1, n 2) degrs de libert. Lhypothse H0 : 1 = 0,
n
(x

)
j
j=1
j=1
est rejete si F > f1;n2;1/2 ou si la P -valeur associe est infrieure .
Plus prcisment, lhypothse H0 : 1 = 0 rpond aussi la question de en notant H la matrice (hat matrix) des hij ceci sexprime encore matriciellelinfluence de X sur Y . La rponse est ngative si H0 est accepte : la pente ment :
b = Hy.
y
de la droite de rgression est nulle, le nuage de point est rparti sans structure
linaire significative. La rponse est positive lorsque le test est significatif et Les lments diagonaux hii de cette matrice mesurent ainsi limpact ou limdonc lhypothse rejete. Ce paramtre suit une loi de Student et H0 rejete portance du rle que joue yi dans lestimation de ybi .
1|
lorsque t1 = |b
sb1 > tn2;1/2 ou si la P -valeur associe est infrieure . 5.2
Rsidus et PRESS
Ce test est strictement quivalent au test de Fisher prcdent, il conduit la
mme P -valeur.
Diffrents types de rsidus sont dfinis afin daffiner leurs proprits.

Rgression linaire simple

Rsidus : ei = yi ybi
ei
Rsidus(i) : e(i)i = yi yd
(i)i = 1hii
o yd
(i)i est la prvision de yi calcule sans la ime observation (xi , yi ).
Ce type de rsidu conduit la dfinition du PRESS (predicted residual
sum of squares) dit de Allen :
2
n
n 
1X 2
1X
ei
PRESS =
e(i)i =
n i=1
n i=1 1 hii

Sous hypothse de normalit, on montre que ces rsidus suivent une loi
de Student (n 3) degrs de libert.
Il est ainsi possible de construire un test afin tester la prsence dune observation atypique ou de plusieurs en utilisant lingalit de Bonferroni. Plus
concrtement, en pratique, les rsidus studentiss sont compars aux bornes
2.

Cest une estimation sans biais de la qualit de prvision dun modle car
une mme observation nest pas utilise, la fois, pour estimer le modle et lerreur de prvision. Le PRESS est trs utile pour comparer les
qualits prdictives de plusieurs modles. Ce point important sera dvelopp dans le cas du modle linaire multiple : le coefficient R2 permet
de comparer les qualits dajustement mais la meilleure prvision nest
pas ncessairement fournie par un modle de R2 maximum. Le PRESS
encore appel leave one out cross validation (loo CV) est plus pertinent
pour atteindre cet objectif. Remarquer que dans le cas particulier du modle linaire, le PRESS est calcul directement partir des rsidus initiaux
et des termes diagonaux hii de la matrice H. Pour dautres modles, le
calcul du PRESS ncessite lestimation, ventuellement coteuse, de n
modles.
Rsidus standardiss : Mme si lhypothse dhomoscdasticit est vrifie,
ceux-ci nont pas la mme variance : E(ei ) = 0 et Var(ei ) = 2 (1 hii ).
Il est donc dusage den calculer des versions standardises afin de les
rendre comparables :
ei
ri =
.
s 1 hii
Rsidus studentiss : La standardisation (interne) dpend de ei dans le calcul de s estimation de Var(ei ). Une estimation non biaise de cette variance est base sur


e2i
s2(i) = (n 2)s2
/(n 3)
1 hii

Diagnostics

6.1

Distance de Cook

Les deux critres prcdents contribuent dceler des observations potentiellement influentes par leur loignement x
ou la taille des rsidus. Ces informations sont synthtises dans des critres valuant directement linfluence
dune observation sur certains paramtres : les prvisions ybi , les paramtres
b0 , b1 , le dterminant de la matrice de covariance des estimateurs. Tous ces
indicateurs proposent de comparer un paramtre estim sans la i-me observation et ce mme paramtre estim avec toutes les observations.
Le plus couramment utilis est la distance de Cook :
Pn
2
hii
(i)j ybj )
j=1 (yd
Di =
r2
pour i = 1, . . . , n
=
2s2
2(1 hii ) i
qui mesure donc linfluence dune observation sur lensemble des prvisions
en prenant en compte effet levier et importance des rsidus.
La stratgie de dtection consiste le plus souvent reprer les points atypiques en comparant les distances de Cook avec la valeur 1 puis expliquer
cette influence en considrant, pour ces observations, leur rsidu ainsi que leur
effet levier.

6.2

Graphe des rsidus

Attention : la prsentation pdagogique des concepts de la rgression linaire


ne doit pas faire ngliger ltape de diagnostic des rsidus. Concrtequi ne tient pas compte de la ime observation. On dfinit alors les rsidus
ment,
le
graphe des rsidus est la premire chose consulter aprs lestimastudentiss par :
ei
tion dun modle linaire. Lapprciation de sa forme, mme si celle-ci reste

ti =
.
subjective, renseigne prcisment sur la validit des hypothses implicites
s(i) 1 hii

Rgression linaire simple

F IGURE 3 Distribution des variables revenus et nombre dappartements

F IGURE 2 Les rsidus ( gauche) de la rgression du poids en fonction du


produit (diamtre hauteur) montre clairement un problme de linarit. La
transformation de la variable diamtre (carr) amliore ce diagnostic mais
soulve ( droite) une problme dhtroscdasticit

du modle dont surtout celle de linarit et celle dhomoscdasticit. Dans le


cas contraire, toutes les dcisions issues de tests et les intervalles de confiances F IGURE 4 Les rsidus de la rgression du revenu sur le nombre dappartenont plus de lgitimit. Si certaines des hypothses ne sont pas vrifies, des ments ( gauche) met nettement en vidence un problme dhtroscdasticit ;
mesures simposent comme la recherche de transformation des variables.
problme rsolu ( droite) par des transformations des variables.
Lhomoscdasticit et la linarit du modle sont valus par un graphique
des rsidus studentiss ou non : (xi , ti ) qui doit se disperser normalement
de part et dautre de laxe y = 0 : symtriquement et sans forme particulire. 7.1 Revenu fonction du nombre dappartements
Des formes dentonnoir, ou de diabolo du nuage font suspecter une htLa variable Y est le revenu dun immeuble exprim en fonction de la varoscdasticit des rsidus, celle dune banane indique une possible relation riable x, nombre dappartement ; 47 observations sont disponibles. Lerreur
non linaire entre Y et X.
nave consiste se prcipiter sur le premier modle venu. Les rsultats numMme si cette hypothse est moins sensible, le modle est robuste surtout riques ci-dessous sont satisfaisants, le modle est significatif avec une qualit
en cas de grand chantillon, il est sage de vrifier la normalit des rsidus en correcte dajustement (R2 proche de 0,8).
tudiant leur distribution par exemple par une simple droite de Henri.
Mais le graphique des rsidus (figure 4) est nettement moins sympathique.
Enfin lauto-corrlation des rsidus dans le cas par exemple o la variable Le statisticien amateur est all trop vite, il a saut ltape descriptive des vaexplicative est le temps pose galement des problmes. Une modlisation de riables. Les diagrammes boites (figure 3)montrent des distributions trs distype srie chronologique (ARMA, SARIMA) des rsidus serait tester.
symtriques, une transformation par la fonction logarithme dgrade certes un
peu lajustement mais amliore considrable la dispersion des rsidus. Attention, le R2 nest surtout pas le premier critre regarder pour comparer des
7 Exemples
modles.

Rgression linaire simple

Regression Analysis: Revenu versus Nb_appart


The regression equation is
Revenu = - 4872 + 2351 Nb_appart
Predictor
Constant
Nb_appart

Coef
-4872
2350,7

S = 51240,8

SE Coef
10655
183,8

R-Sq = 78,4%

T
-0,46
12,79

P
0,650
0,000

R-Sq(adj) = 77,9%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
45
46

SS
4,29512E+11
1,18153E+11
5,47665E+11

MS
4,29512E+11
2625616822

F
163,59

F IGURE 5 Droite de Henri et graphe des rsidus de lappareil de spectromtrie.

P
0,000

S = 0,663595

Regression Analysis: LRevenu versus LNb_appart

PRESS = 12,3132

The regression equation is


LRevenu = 6,87 + 1,19 LNb_appart
Predictor
Constant
LNb_appart

Coef
6,8678
1,18863

S = 0,496742

SE Coef
0,3332
0,09593

R-Sq = 77,3%

T
20,61
12,39

P
0,000
0,000

R-Sq(adj) = 76,8%

Analysis of Variance
Source
Regression
Residual Error
Total

7.2

DF
1
45
46

SS
37,886
11,104
48,990

MS
37,886
0,247

F
153,54

P
0,000

talonnage dun appareil de mesure

Il sagit de tester le bon calibrage dun spectromtre dans le proche infra-rouge (SPIR) valuant le taux de
protines de varits de bl. La mesure de rfrence (TxProtRef) prend plusieurs heures et celle-ci est compare
avec une mesure par le spectromtre (TxprotIR) qui est quasi instantane. Lopration est rpte sur n = 26
chantillons.
Regression Analysis: TxprotIR versus TxProtRef
The regression equation is
TxprotIR = 0,16 + 0,981 TxProtRef
Predictor
Constant
TxProtRef

Coef
0,157
0,9808

SE Coef
1,174
0,1046

T
0,13
9,38

R-Sq = 78,6%

P
0,895
0,000

R-Sq(adj) = 77,7%

R-Sq(pred) = 75,02%

Vous aimerez peut-être aussi