Mathematics">
Nothing Special   »   [go: up one dir, main page]

Cours Géostatistique

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 266

E´ COLE NATIONALE DES SCIENCES GEOGRAPHIQUES

Cours au Maste`re spe´ cialise´ De´ sige´ o

Introduction `a la G
´eostatistique
Variographie, krigeage, interpolation et simulation

Yann M´eneroux

Ann´ee scolaire 2018-2019

Contact : yann.meneroux(at)ign.fr
Laboratoire en Sciences et Technologies de l’Information G´eographique (LaSTIG)
Institut National de l’Information G´eographique et Foresti`ere (IGN)
Abstract

Ce document est un support de cours destin´e aux ´etudiants du Mast`ere sp´ecialis´e D´ecision
et Syst`eme d’Information G´eolocalis´ee (D´esig´eo) de l’E´ cole Nationale des Sciences G
´eographiques. Il permet une introduction autoditacte `a la G´eostatistique lin´eaire, appliqu´ee
plus particuli`erement au domaine de la G´eomatique. Il comprend de nombreux exemples, des
travaux dirig´es `a r´ealiser sur papier ainsi que des travaux pratiques sur machine (dans la
langage de programmation R).

Les ressources n´ecessaires (jeux de donn´ees, code informatique...) peuvent ˆetre t´el´echarg´ees
`a l’adresse suivante, dans la section Math´ematiques → G´eostatistique :

http://cours-fad-public.ensg.eu/
Notations

En r`egle g´en´erale, on note en majuscule les variables al´eatoires et en minuscule les r´ealisations
corre- spondantes. Ainsi, par exemple si X est une variable al´eatoire distribu´ee suivant une loi
normale, on note x1, x2,... xn des r´ealisations de X et :

1 n
m= Lxi
n
i=1

est la moyenne empirique des n r´ealisations. Lorsqu’on souhaite ´etudier les propri´et´es statistiques
de cette moyenne, on remplace les minuscules par des majuscules :

1 n
M= LX i
n
i=1

et M devient une variable al´eatoire dont la loi d´epend de celles des Xi.

Dans le probl`eme mod`ele, on consid`ere une fonction z : D ⊂ R2 → R, repr´esentant le relief du terrain


: pour un site x du domaine d’´etude D, la variable r´eelle z(x) d´esigne l’altitude du terrain en x.
La variable al´eatoire associ´ee est Z(x). La fonction de covariance du processus Z est not´ee C,
et le
variogramme est not´e γ. Tous deux d´ependent de h qui d´esigne suivant les cas, ou bien un vecteur de
D s´eparant deux sites xi et xj, ou bien simplement la norme de ce mˆeme vecteur lorsque le ph
´enom`ene consid´er´e est isotrope. De la mˆeme mani`ere, la notation xi − xj peut d´esigner
`a la fois la distance ou bien le vecteur s´eparant xi et xj.

Lorsqu’on consid`ere des signaux al´eatoires uni-dimensionnels (en g´e n´e r al dans un but p
´edagogique), on note X le processus, et X(t) sa valeur en un point t du domaine (par analogie
avec les signaux
temporels). Une r´ealisation x de X est donc une fonction classique de R dans R. Covariance
et variogramme sont alors fonctions de l’´ecart τ entre les points consid´er´es : τ = t2 − t1.

Dans ce cours, nous utiliserons fr´equemment 4 loi de probabilit´es : N (m, σ2), la loi normale de
moyenne m et d’´ecart-type σ ; U ([a, b]), la loi uniforme sur le segment [a, b] ∈ R ; B(n, p), la loi
binomiale d´ecrivant le nombre de succ`es de n ´epreuves de Bernoulli de probabilit´e p et E
(λ), la loi exponentielle d’intensit´e λ (i.e. de moyenne 1/λ). Ainsi, la notation X ∼ N (0, 1) d
´esigne une vari- able al´eatoire distribu´ee suivant la loi normale standard, et avec un l´eger
abus de notation, on ´ecrira
x ∼ N (0, 1) pour d´esigner une variable r´eelle (fix´ee) ayant ´e t ´e tir´ee suivant la loi N (0, 1).

Pour un crit`ere f donn´e, lorsqu’une variable θ peut prendre un ensemble de valeurs dans un
ensemble d´efini Θ, on note θ∗ une valeur optimale. Par exemple dans le cas o u` on cherche `a
minimiser f :

θ∗ ∈ argmin f (θ) = {θ ∈ Θ | ∀ t ∈ Θ : f (θ) :( f (t)}


θ

Remarquons que l’ensemble argmin est non-vide si, et seulement si, f est born´ee en valeurs inf
´erieures et atteint sa borne. En g´e n´er al, f est continue, et Θ est un p av´e (donc compact) de
Rp : l’ensemble argmin est donc non-vide et θ∗ existe (mais n’est pas n´ecessairement unique).

1
Lorsqu’une fonction f d´efinie sur R+ admet une limite (finie) l en l’infini, on note f (∞) = l.

Pour une variable inconnue z donn´ee, on note � z son estimateur. Lorsqu’on souhaite estimer les
pro- pr i´e t´es statistiques de cet estimateur, on le consid`ere comme une variable al´eatoire et�
on le note Z. L’erreur d’estimation,
� Z − Z est elle-mˆeme une variable al´eatoire.

En g´en´eral, on note en caract`eres gras les quantit´es matricielles et vectorielles. Ainsi, Z est le
vecteur contenant les valeurs prises par Z en n sites : x1, x2, ...xn. Dans ce cas, nous n’op´erons plus
de dis- tinction entre la variable al´eatoire et ses r´ealisations.

Pour un ´ev`enement quelconque A, on note ]_A la fonction indicatrice de A, c’est-`a - dire telle que
]_A(x) vaut 1 si x v´erifie l’´el´ement A et 0 sinon. Par exemple, pour un MNT z et un seuil s ∈ R,
la fonction indicatrice ]_z(x)�s vaut 1 en tout point x d’altitude sup´erieure `a s et 0 sinon.

Pour un ensemble A quelconque, on note |A| le nombre d’´el´ements contenus dans A (appel´e
cardinal de A) et P(A) l’ensemble des parties de A, i.e. l’ensembles des ensembles B ⊆ A. Par
exemple, si A = {1, 2, 3}, alors P(A) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, A}. On montre
facilement que
|P(A)| = 2|A|, d’ou` la notation parfois rencontr´ee : P(A) = 2A.

Lorsqu’elle −existe, A−−11 est la matrice inverse de A Rn×n, c’est-`a - dire l’unique
n×n
matrice de RTn×n
telle que A A = AA = In o u` In d´esigne la matrice
1
∈ identit´e de R . Par ailleurs, A d
´esigne la matrice transpos´ee de A : (AT )ij = (A)ji.

Si f est une fonction r´eelle de p variables : x1, x2,...xp, alors ∂f/∂xi est la d´e r i v´e e partielle de
f par rapport `a la i-eme variable. Le vecteur f de terme g´en´e r al ( f )i = ∂f/∂xi est le
vecteur gradient ∇
de f . Si en plus f est `a valeurs dans Rm, on note f1, f2, ... fm ses m composantes scalaires et
m×p
alors la matrice J ∈ R de terme g´en´eral (J)ij = ∂fi/∂xj est la matrice jacobienne de f , c’est-
`a - dire la matrice compos´ee des m vecteurs lignes gradients des m composantes de f .

Si X et Y sont deux variables al´eatoires, alors P(X = x|Y = y) d´esigne la probabilit´e


conditionnelle de X sachant que Y prend la valeur y. Elle vaut par d´efinition :

P(X = x, Y = y)
P(X = x Y = y) = P(Y = y)
|

De la mˆeme mani`ere on peut d´efinir l’esp´erance conditionnelle E[X|Y = y] comme l’esp


´erance de la variable X soumise `a la loi conditionnelle P(X = x|Y = y).

2
Contents

1 Rappels statistiques 10
1.1 Espace probabilis´e......................................................................................................................10
1.2 Variable al´eatoire r´eelle.............................................................................................................11
1.3 Fonction de r´epartition...............................................................................................................12
1.4 Densit´e de probabilit´e................................................................................................................14
1.5 Esp´erance....................................................................................................................................15
1.6 Variance..........................................................................................................................................17
1.7 Covariance......................................................................................................................................19
1.8 Moments statistiques.....................................................................................................................23
1.9 Exemple de synth`ese..................................................................................................................25

2 Analyse variographique 29
2.1 Processus stochastique.................................................................................................................29
2.2 Une premi`ere approche informelle..............................................................................................34
2.3 Les hypoth`eses fondamentales.....................................................................................................35
2.3.1 La Stationnarit´e.............................................................................................................35
2.3.2 L’ergodicit´e.....................................................................................................................38
2.3.3 Les hypoth`eses en pratique.............................................................................................41
2.4 Le variogramme............................................................................................................................47
2.4.1 Variogramme exp´erimental..........................................................................................50
2.4.2 Interpr´eter le variogramme.............................................................................................59
2.4.3 Les mod`eles de variogramme..........................................................................................62
2.4.4 L’estimation du variogramme.........................................................................................70
2.4.5 Pour aller plus loin............................................................................................................77
2.5 Bilan...............................................................................................................................................82

3 Interpolation par Krigeage 83


3.1 Introduction...................................................................................................................................83
3.2 Les contraintes du krigeage..........................................................................................................90
3.2.1 Contrainte de lin´earite.................................................................................................90
3.2.2 Contrainte d’autorisation.................................................................................................91
3.2.3 Contrainte d’universalit´e..............................................................................................92
3.2.4 Contrainte d’optimalit´e.................................................................................................93
3.2.5 Formulation du probl`eme..............................................................................................93
3.3 Le krigeage.....................................................................................................................................94
3.3.1 Le krigeage ordinaire.......................................................................................................95
3.3.2 Le krigeage intrins`eque.................................................................................................97
3.4 Mise en oeuvre du krigeage.........................................................................................................99
3.5 Propri´et´e du krigeage...............................................................................................................108
3.5.1 Exactitude........................................................................................................................109
3.5.2 Multiplication du variogramme......................................................................................109
3.5.3 Lin´earit´e....................................................................................................................110
3.5.4 Lissage..............................................................................................................................113

3
3.6 Formulation duale........................................................................................................................114
3.7 Les variantes du krigeage............................................................................................................116
3.7.1 Krigeage simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7.2 Krigeage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.3 Krigeage par blocs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.7.4 Krigeage universel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.7.5 Krigeage avec d´erive externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.7.6 Autres variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.8 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4 Compl´ements 131
4.1 La validation crois´ee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.2 Application `a l’optimisation bay´esienne . . . . . . . . . . . . . . . . . . . . . . . 140
. . .
4.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4.2.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.2.3 Pour aller plus loin... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.3 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.3.1 Simulation non-conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.2 Simulation conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

A R´egularit´e d’un processus stochastique 176


A.1 D´efinitions.................................................................................................................................176
A.2 Liens avec le variogramme..........................................................................................................177
A.3 R´egularis´ee d’un variogramme..................................................................................................178

B Contre-exemples pratiques 180


B.1 Deux variables al´eatoires d´ecorr´el´ees mais pas ind´ependantes.......................................180
B.2 Une variable al´eatoire qui ne poss`ede pas d’esp´erance......................................................181
B.3 Une variable al´eatoire qui ne poss`ede pas de variance..........................................................181
B.4 Un processus stationnaire mais non-ergodique.........................................................................182
B.5 Un processus ergodique `a l’ordre 1 mais pas `a l’ordre 2.....................................................182
B.6 Un processus strictement intrins`eque.....................................................................................183
B.7 Un processus continu en m.q. dont toutes les r´ealisations sont discontinues......................184

4
Introduction

Une mani`ere simple et convenue de d´efinir la G´eostatistique pourrait ˆetre la suivante :

Ensemble de techniques et m´ethodes permettant d’´etudier les ph´enom`enes qui s’´etendent dans
l’espace et y pr´esentent une organisation ou une structure.

Autrement dit, la G´eostatistique permet de r´epondre `a des questions sur les ph´enom`enes poss
´edant une certaine forme de continuit´e dans l’espace (nous parlerons par la suite d’autocorr´elation
spatiale), mais dont la complexit´e interdit toutefois toute approche purement analytique du
probl`eme. Ainsi, parmi de nombreux exemples de domaines d’application, nous pourrions citer
l’interpolation continue des conditions m´et´eorologiques sur un territoire donn´e, la prospection
mini`ere (p´etrole, or...), l’analyse de champs de d´eformation crustale ou encore l’inventaire forestier.
En particulier, dans le domaine de la g´eomatique, les exemples peuvent se trouver `a foison :

• Production de mod`ele num´erique de terrain haute d´efinition (par interpolation d’un


semis d’observations locales type GPS ou LIDAR (Yang et al., 2004).

• Calcul d’isochrones pour un v´ehicule terrestre : une isochrone Γ(t) est d´efinie par le lieu
des points accessibles en un temps t depuis un point de r´ef´erence donn´e. L’ensemble des
courbes Γ calcul´ees pour une s´erie de valeurs t1, t2, ...tn est appel´e une carte isochrone.

• Estimation ( `a l’´echelle mondiale) des retards induits par la ionosph`ere sur les signaux GPS.

• Analyse des erreurs cartographiques de sources anciennes de donn´ees (Dumenieu, 2015).

• Calcul d’un mod`ele de geo¨ıde1 `a partir d’observations combin´ees de GPS et de nivellement.

• Calcul d’un champ de d´eformation (mod`ele de grille ´elastique) pour mettre en


correspondance plusieurs sources de donn´ees vectorielles (e.g. bati, parcelles cadastrales et r
´eseau routier).

• Estimation d’un mod`ele num´erique de bˆatiments 3D (Lafarge, 2007).

Cette d´efinition est pourtant quelque peu restrictive. Dans un cadre plus g´en´e ral, on pourrait d
´efinir la G´eostatistique comme une m´ethode d’analyse et de manipulations de grandeurs continues
et corr´el´ees. En statistique classique, l’hypoth`ese d’ind´ependance des variables al´eatoires
permet une simplification des calculs. Par exemple, si X et Y sont deux variables al´eatoires ind
´ependantes, alors les variances sont additives :

Var[X + Y ] = Var[X − Y ] = Var[X] + Var[Y ] (1)

Traduite en termes d’´ecarts-types, cette propri´et´e donne une relation analogue au th´eor`eme de
Pythagore en g´eom´etrie euclidienne : le carr´e de l’´ecart-type d’une somme d’erreurs ind
´ependantes vaut la
1
Le g´eo¨ıde est la surface de r´ef´erence des altitudes, i.e. le niveau moyen des mers prolong´e sous les continents.
5
somme des carr´es des ´ecarts-types des erreurs prises individuellement. Au sens math´ematique
strict, l’hypoth`ese d’ind´ependance est suffisante mais non n´ecessaire pour obtenir cette ´egalit´e. Il
est suffisant que X et Y soient non-corr´el´ees (i.e. de covariance nulle) pour ˆetre valide.

Dans un cadre plus g´en´eral, si les variables sont corr´el´ees, on doit ajouter un terme correctif :

Var[X + Y ] = Var[X] + Var[Y ] + 2Cov(X, Y ) (2)

On peut prendre un exemple assez ´edifiant en consid´erant un mod`ele num´erique de terrain


(MNT) d´efini sur une grille de r´esolution 5 m, sur laquelle on prend deux noeuds voisins
d’altitudes X et Y .
Si l’erreur typique d’altitude est ´e va l u´e e `a ±1 m (σX = σY = 1 et donc Var[X] = Var[Y ] = 1) par

les sp´ecifications, alors l’erreur sur le d´en i ve l´e X − Y entre 2 cellules voisines vaut 2 ≈ 1.41 m, soit

une erreur typique de pr`es de 15 sur la pente du terrain, ce qui rendrait le MNT inutilisable pour
la plupart des applications. En pratique, l’erreur entˆachant les mesures d’altitude poss`ede une
au-
tocorr´elation spatiale assez marqu´ee 2 , impliquant ainsi que deux cellules voisines sont erron´ees
d’une quantit´e statistiquement semblable, r´eduisant ainsi d’autant l’erreur commise lors du calcul de
la pente par diff´erentiation.

Fig. 1. Si X et Y sont des variables al´eatoires d´ecorr´el´ees, l’erreur typique sur leur somme S = X +Y
est ´egale `a la somme quadratique des erreurs individuelles : σ2 = σ2 + σ2
S X Y
.

Le mod`ele des variables ind´ependantes est donc certes fort commode en premi`ere approximation
pour simplifier les calculs, mais rapidement inop´erant d`e s lors que les corr´elations entre variables
ne peuvent plus ˆetre n´eglig´ees. La G´eostatistique vient combler ce manque, et si son domaine
d’application est bien souvent li´e `a la g´eographie en vertu de la premi`ere loi de Tobler3, on
pourrait donc la d´efinir, au risque de grossir un peu le trait, comme une m´ethode de traitement
des corr´elations.

Cette observation offre donc un cadre d’application beaucoup plus vaste `a la G´eostatistique. En
par- ticulier, les s´eries temporelles (e.g. les indices boursiers, la temp´erature en un lieu donn´e
au fil des jours...), sont suffisamment autocorr´el´ees pour qu’on ne puisse se permettre de ne pas en
tenir compte. De mani`ere similaire, l’espace de travail peut parfaitement ˆetre abstrait, par
exemple, si on souhaite
´etudier les performances (e.g. le temps de calcul) d’un algorithme en fonction de ses inputs afin
d’en d´eterminer un param´etrage optimal.

Notons que la G´eostatistique est une discipline relativement ancienne, mais qu’elle a trouv´e un
essort particulier dans les ann´ees 50 sous l’impulsion de la prospective mini`ere en Afrique du Sud,
notammant avec les travaux pr´ecurseurs de Danie Gerhardus Krige : A statistical approach to
some basic mine valuation problems on the Witwatersrand (Krige, 1951). Ces recherches ont par la
suite ´e t ´e reprises
2
Cette autocorr´elation, souvent assez difficile a` quantifier, se retrouve sous diverse formes dans tous les produits
6
cartographiques, et r´esulte des autocorr´elations individuelles des ´etapes de la chaˆıne de production : distorsion r´esiduelle
de la cam´era, erreur d’orthorectification des clich´es, d´erive locale d’un chantier topographique, bruit de g´en´eralisation...
3
Tout interagit avec tout mais deux choses voisines ont plus de chances d’entrer en interaction que deux choses
lointaines (Waldo Tobler, 1970).

7
et formalis´ees dans un cadre th´eorique `a l’E´ cole des Mines par Matheron (1962) dans son
Trait´e de g´eostatistique appliqu´ee. Par nature, elles poss`edent des interconnexions profondes
avec le domaine du traitement des signaux al´eatoires notamment via les filtres de Kolmogorov-
Zurbenko (1941) et de Wiener (1949).

Ce cours est subdivis´e en quatre parties. Apr`es un bref rappel des pr´erequis statistiques dans
un premier chapitre, nous verrons dans un deuxi`eme temps comment d´efinir et caract´eriser une
variable r´egionalis´ee d’un point de vue stochastique4. Pour ce faire, nous utiliserons le
variogramme, un outil simple et puissant, qui nous permettra de quantifier (jusqu’`a un certain degr
´e de pr´ecision) la ressem- blance de la valeur prise par le ph´enom`ene en deux points donn´es
quelconques du domaine d’´etude. Dans un troisi`eme temps, nous ´etudierons le krigeage (et ses d
´eriv´ees), une technique d’interpolation avanc´ee, reposant sur l’analyse variographique effectu
´ee en premi`ere partie. Sur ce point, il pour- rait ˆetre instructif au pr´ealable, de jeter un oeil
aux m´ethodes d’interpolation d´eterministes dont on pourra trouver une pr´esentation
compl`ete et p´edagogique dans les ouvrages de Mitas et Mitasova (1999), Arnaud et Emery
(2000) ou encore Bosser (2011). Enfin, dans un dernier chapitre, nous ver- rons quelques compl
´ements aux notions vues dans les deux chapitres pr´ec´edents : une m´ethode de validation num
´erique de la proc´edure d’interpolation, l’optimisation bay´esienne, ainsi que la simula- tion qui
joue un r ˆole important pour contourner certaines limitations du krigeage.

Dans tout ce document, nous nous r´ef´ererons r´eguli`erement au probl`eme mod`ele suivant : on
suppose que n points x1, x2, ...xn d’un domaine D quelconque ont ´e t ´e observ´es par GPS afin de d
´eterminer leurs altitudes respectives z1, z2, ...zn. Le probl`eme consiste `a produire une carte du
relief du domaine,
i.e. formellement de d´eterminer une fonction z : D → R, qui `a tout point x ∈ D associe l’altitude
correspondante z(x), avec z(xi) = zi pour tout i ∈ {0, 1, ...n}.

Fig. 2. Objet central de la g´eostatistique, la variable r´egionalis´ee est une fonction poss´edant
une certaine organisation spatiale, mais dont la complexit´e interdit toute description analytique
simple.
.

Trois remarques importantes avant de d´ebuter l’´etude :

• Que faire quand on a plusieurs variables de sortie ? En effet, ce cas de figure peut survenir,
par exemple si on souhaite interpoler le champ de vecteur vitesse du vent dans un volume
donn´e. La fonction f `a d´eterminer est alors d´efinie de R3 dans R3 (3 coordonn´ees
d’espace en entr´ee, 3 coordonn´ees des vecteurs vitesse en sortie). En premi`ere
approximation, on peut
8
4
C’est-`a-dire d’un point de vue al´eatoire, par opposition aux m´ethodes d´eterministes qui ne requierent aucun fonde-
ment probabiliste (e.g plus proche voisin, interpolation lin´eaire, splines de lissage...) .

9
s’en sortir en ´etudiant s´eparemment chaque variable. On d´efinit ainsi trois fonctions r
´eelles scalaires fx, fy et fz chacune prenant en entr´ee un point de R3 et retournant la
composante du vecteur vitesse dans l’une des trois dimension d’espace. Formellement,
nous avons ainsi
d´ecomp os´e un probl`eme d’inf´erence d’une fonction `a valeurs vectorielles f : R33 → R3
`a trois probl`emes ind´ependants d’estimation de fonctions scalaires fx, fy, fz : R → R.
Dans certains cas cependant, l’interd´ependance des composantes individuelles ne rend pas
souhaitable cette
d´emarche, et on devra avoir recours `a des m´ethodes plus sp´ecifiques, telles que le co-
krigeage, dont nous donnerons une pr´esentation succinte dans le chapitre 3.

• Dans le cadre de ce document, toutes les variables entrant en jeu (sorties et entr´ees de f ) doivent
ˆetre continues, ou au moins ordinales (c’est-`a - dire qu’elles doivent pouvoir ˆetre tri´ees
dans un ordre naturel). Exemples : temp´erature, vitesse du vent, altitude du relief,
pourcentage de votants pour tel ou tel parti politique aux l´egislatives... sont des valeurs
continues. L’ˆage (en ann´ees) des arbres d’une forˆet est une valeur discr`ete mais
ordinale donc on peut utiliser les m´ethodes pr´esent´ees dans ce document. En revanche,
la couleur politique des maires de communes, la langue parl´ee par les habitants d’un pays,
la marque de t´el´evision des foyers... sont des variables cat´egorielles non-ordinales, et donc
en l’´etat peu adapt´ees aux outils propos´es par la G´eostatistique.

• Dans ce document, nous nous limiterons `a la G´eostatistique lin´eaire, i.e. un pan du


domaine qui se restreint `a estimer les variables inconnues uniquement `a l’aide de
combinaison lin´eaires des observations effectu´ees. Cela peut paraˆıtre r´educteur au premier
regard, mais couvre d ´e j `a en r´eali t´e la grande majorit´e des besoins pratiques. Nous
essayerons toutefois d’exhiber les limites de la G´eostatistique lin´eaire, auxquelles nous
proposerons des palliatifs dans le chapitre 4.

Fig. 3. Danie G. Krige ( `a gauche), ing´enieur minier sud-africain et Georges Matheron ( `a


droite) math´ematicien et g´eologue fran¸cais : les p`eres fondateurs de la discipline.
.

Comment utiliser ce fascicule

Il existe deux options principales pour suivre ce cours. La premi`ere consiste `a prendre les sections
dans l’ordre du document ( `a l’exception du chapitre 1 qui pourra ˆetre pass´e par le lecteur
disposant d ´e j `a d’une solide base en statistiques et probabilit´es), puis `a consid´erer les activit´es
comme des travaux pra- tiques, `a r´ealiser si possible dans un premier temps sans la correction. La

10
seconde mani`ere de proc´eder, plus empirique, consiste `a r´ealiser l’ensemble des activit´es (dans
l’ordre indiqu´e par la num´erotation

11
en chiffres romains), puis compl´eter les points bloquants en ciblant ( `a l’aide de l’index
grammatical et de la table des mati`eres) les sections de cours `a parcourir. Une lecture compl`ete
du document peut alors ˆetre envisag´ee dans un deuxi`eme temps lorsque les notions des bases vues
dans les activit´es sont maˆıtris´ees. Les sections les plus techniques du cours, pouvant
all`egrement ˆetre pass´ees en premi`ere lecture, sont intitul´ees ”Pour aller plus loin...”.

Dans chaque activit´e n´ecessitant des manipulations informatiques, la partie centrale du code est
re- group´ee dans un cadre gris, dont l’entˆete comprend le nom (et le num´ero) de l’activit´e
ainsi que le nom du fichier de script R correspondant dans le r´epertoire des corrections.

Attention : le copier-coller du code depuis le pdf ne fonctionne pas toujours correctement (ajout
in- tempestif d’espaces, en particulier sur les mots-cl´e s R). Il y a trois solutions principales pour r
´esoudre ce probl`eme :

• Faire du copier-coller et rectifier le code, ´eventuellement avec les messages d’erreur de R (n


´ecessite une maˆıtrise minimale du langage).

• Recopier le code au clavier.

• Aller chercher `a chaque ´etap e la portion de code correspondante dans les corrig´es.

12
Chapter 1

Rappels statistiques

Afin de pouvoir manipuler des quantit´es al´eatoires, nous devons au pr´ealable nous placer
dans un cadre de travail ad´equat. La g´eostatistique lin´eaire se circonscrit `a l’utilisation des deux
premiers mo- ments statistiques. L’objectif de cette section est donc de rappeler les ´el´e ments th
´eoriques n´ecessaires
`a la compr´ehension des notions d’esp´erance et de covariance. Le lecteur int´eress´e pourra
trouver une pr´esentation plus compl`ete dans l’excellent ouvrage de Lecoutre (2002).

1.1 Espace probabilis´e


Soit Ω un ensemble quelconque (´eventuellement continu), repr´esentant l’ensemble des ´eventualit´es
´el´ementaires d’une exp´erience al´eatoire. A` partir de Ω, on construit l’ensemble1 A contenant tous
les ´ev`enements pouvant ˆetre produits par l’exp´erience al´eatoire. Enfin, on doit d´efinir une
mesure de probabilit´e P sur A, afin d’attribuer une probabilit´e d’apparition `a tout
´ev`enement α ∈ A :

P : A → R
(1.1)
α 1→ P(α)

o u` P respecte les 3 axiomes fondamentaux de la th´eorie des probabilit´es (axiomes de Kolmogorov) :

• Pour tout ´ev`enement A ∈ A0 :( P(A) :( 1.


• P(Ω) = 1, autrement dit, la probabilit´e de l’´ev`enement certain vaut 1.

• Soient A1, A2, ...An, une suite de n ´ev`enements incompatibles de A, i.e. d’intersections
mutelles vides (i /= j ⇒ Ai ∩ Aj = ∅) :

n
n
P Ai = LP(Ai) (1.2)
[
i=1 i=1

Ce trois`eme axiome stipule que la probabilit´e de l’union d’un ensemble d’´ev`enements disjoints est
tou- jours ´egale `a la somme des probabilit´es d’apparition des ´ev`enements pris
individuellement. Lorsque les ´ev`enements ne sont plus disjoints, la relation 1.2 se transforme en une
in´egalit´e, comme le montre l’exemple ci-apr`es.

Exemple 1.1. L’E´ ducation Nationale indique qu’en 2010, 10.8 % des coll´egiens ont suivi
l’option d’enseignement du Latin, et 7.1 % celle du Grec ancien. En notant AL et AG les
´ev`enements corre- spondants, on a donc P(AL) = 0.108 et P(AG) = 0.071. Pour autant, selon la
mˆem e source, seuls 11.9
1
Formellement, A est une tribu sur Ω, c’est-a-dire un sous-ensemble de l’ensemble P(Ω) des parties de Ω,
assurant ainsi certaines propri´et´es de stabilit´e n´ecessaires pour ´etablir une th´eorie probabiliste. En pratique, lorsque Ω
13
est discret, on peu prendre sans vergogne A = P(Ω).

14
% ont suivi au moins une des deux options : P(AL ∪AG) = 0.119 :( P(AL) +P(AG) = 0.179, puisqu’on
doit retrancher `a la somme la probabilit´e qu’un coll´egien ait choisi les deux options.

Dans le cas non-disjoint et avec deux ´ev`enements A et B, on obtient la formule bien connue :

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (1.3)

D´emonstration. On peut facilement d´ecomposer A ∪ B en 3 sous-ensembles : A \ B, B \ A


et A ∩ B, dont on montre facilement qu’ils sont deux-`a - deux disjoints. Puis, on peut d
´ecomposer A en 2 sous-ensembles disjoints : A \ B et A ∩ B. On fait de mˆe me pour B. En
appliquant le troisi`eme axiome de Kolmogorov, il vient :

t )
P(A ∪ B) = P (A \ B) ∪ (B \ A) ∪ (A ∩ B)
= P(A \ B) + P(B \ A) + P(A ∩ B)
t ) t ) (1.4)
= P(A) − P(A ∩ B) + P(B) − P(A ∩ B) + P(A ∩
B)
= P(A) + P(B) − P(A ∩ B)

En combinant l’ensemble des ´eventualit´es ´el´ementaires Ω, son ensemble d’´ev`enements A et une


mesure de probabilit´e P on obtient ainsi une structure math´ematique appel´ee espace probabilis
´e (Ω, A, P).

Exemple 1.2. On prend place `a bord d’un v´ehicule et on s’int´eresse `a l’´etat du prochain feu
tricolore rencontr´e. L’ensemble Ω est donc compos´e de trois ´el´ements correpondants aux ´etats
possibles : vert (V ), orange (O) et rouge (R), d ’ o u` Ω = {V, O, R}. En particulier, le passage est
autoris´e A1 = {V, O}
ou interdit A2 = {R}. L’ensemble des ´ev`enements possibles est alors A = {∅, A1, A2, Ω}. Si on
suppose que chaque feu est programm´e pour ˆetre au rouge pendant 60 % du temps, au vert pendant
35 % du temps et enfin `a l’orange le temps restant, on en d´eduit la mesure de probabilit´e
associ´ee : P(∅) = 0, P(A1) = 0.35 + 0.05 = 0.4, P(A2) = 0.6 et P(Ω) = 1. On v´erifiera alors `a
titre d’exercice que les 3 axiomes de Kolmogorov sont v´erifi´es.

Remarquons que le choix de l’ensemble des ´ev`enements A `a partir de Ω n’est pas unique. En
fonction des besoins, on aurait pu proposer la mod´elisation suivante : le passage est s´ec ur i s´e B1 =
{V } ou alors, le passage est d´econseill´e, voire interdit B2 = {O, R}, ce qui donne : A = {∅, B1,
B2, Ω}. Pour un niveau de granularit´e maximale, on peut combiner tous les ´ev`enements, en
ajoutant donc C1 = {R, V } (les consignes donn´ees par la feu sont claires) et C2 = {O} (le passage
est laiss´e `a l’appr´eciation du conducteur). On obtient alors : A = P(Ω) = {∅, A1, A2, B1, B2, C1,
C2, Ω}. Nous laissons le soin au lecteur de calculer, `a titre d’exercice, les probabilit´es des diff
´erents ´ev`enements.

En g´en´eral, l’ensemble A n’est pas d´efini explicitement. Dans ce cours, nous utiliserons le symbole
ω ∈ Ω pour d´esigner une r´ealisation stochastique quelconque, i.e. l’issue d’une exp´erience al´eatoire.

1.2 Variable al´eatoire r´eelle


Afin de quantifier les ph´enom`enes ´etudi´es, on cherche souvent `a associer une valeur num´erique
`a chaque issue possible de l’exp´erience. C’est ici qu’intervient la notion de variable al´eatoire.

Formellement, on peut d´efinir une variable al´eatoire r´eelle X comme une fonction qui, `a chaque
´eventualit´e ´el´ementaire ω associe une valeur r´eelle x = X(ω).

15
X : Ω → R
(1.5)
ω 1→ X(ω)

Traditionnellement, on note en majuscule une variable al´eatoire, et en miniscule une r´ealisation donn
´ee (quelconque) de cette variable.

Exemple 1.3. Dans une version simplifi´ee du Loto, un joueur choisit 5 num´eros dans une
grille de nombres allant de 1 `a 49. On admet que les gains varient de la mani`ere suivante en fonction
du nombre de num´eros corrects : 4 e (2 num), 21 e (3 num), 490 e (4 num) et 95200 e (5 num).

L’ensemble fondamental correspondant est donc Ω = {1, 2, ...49}5 et il contient pr`es de 300
millions d’´el´ements. Parmi tous les ´ev`enements possibles, on note :

Ai : le tirage du jour contient i num´eros s´electionn´es par le joueur

et on s’int´eresse plus particuli`erement aux ´ev`enements 2 A2, A3, A4 et A5. On d´efinit alors la
variable al´eatoire r´eelle X d´enotant le gain du joueur :

4 si ω ∈ A2

X(ω) =   49021 sisiωω∈∈A4


A
 3 95200 si ω ∈ A5
0 sinon.

Supposons que le choix du joueur est le suivant (37, 5, 48, 15, 29). Une r´ealisation al´eatoire
particuli`ere, par exemple ω = (5, 42, 2, 29, 37) produira donc la variable x = X(ω) = 21.

1.3 Fonction de r´epartition


Si la fonction X poss`ede les propri´et´es th´eoriques ad´equates (en particulier celle d’ˆetre
mesurable), on peut transf´erer la loi de probabilit´e P sur la variable al´eatoire. Pour tout
intervalle A ⊆ R (en
toute g´en´eralit´e, A peut ˆetre un ´el´ement de la tribu bor´elienne B(R), ce qui inclu entre autres les
intervalles), on peut d´efinir la loi PX :

PX(A) = P(X ∈ A) = P(X−1(A)) (1.6)

o u` X−1(A) = {ω ∈ Ω | X(ω) ∈ A}, autrement dit, l’ensemble des ´ev`enements ´el´ementaires


ω qui, lorsqu’ils sont r´ealis´es, produisent une variable x inclue dans l’intervalle r´eel A.

La fonction PX n’´etant pas commode `a manipuler (en particulier, il est tr`es difficile de la repr
´esenter graphiquement puisqu’elle prend en entr´ee un intervalle de nombres r´eels), on la r
´eduit `a une seule variable scalaire en ne consid´erant que les intervalles r´eels du type ] − ∞;
x]. On obtient alors une
fonction r´eelle classique : la fonction de r´epartition.

2
Notons que tous ces ´ev`enements ne comportent pas le mˆeme nombre d’´eventualit´es ω. Par exemple, il n’y a qu’un
seul tirage qui satisfasse A5, alors que A4 par exemple comporte 5 × 44 = 220 ´el´ements.

16
D´efinition 1 (Fonction de r´epartition)

Soit (Ω, A, P) un espace probabilis´e, et X : Ω → R une variable al´eatoire r´eelle. On appelle


fonction de r´epartition de X, la fonction FX d´efinie par :

FX(x) = P(X ∈ ] − ∞; x]) = P(X :( x)

Lorsqu’il n’y a pas d’ambigu¨ıt´e sur la variable concern´ee, nous noterons F cette fonction. Par ailleurs,
`a l’aide des axiomes de Kolmogorov, on d´emontre facilement les propri´et´es suivantes.

Propri´et´e 2 (Fonction de r´epartition)

Soit X une variable al´eatoire r´eelle et FX sa fonction de r´epartition.

(i ) FX est croissante et `a valeurs dans [0, 1].

∀ a, b ∈ R avec a :( b : P(X ∈ [a, b]) = FX(b) − FX(a)


lim FX(x) = 0 etlim FX(x) = 1
x→−∞ x→+∞

Le passage de la loi de probabilit´e PX `a la fonction de r´epartition FX induit bien ´evidemment


une perte d’information, mais la propri´et´e (ii ) en particulier, montre que la fonction de r´epartition
permet de calculer la probabilit´e que la variable X appartienne `a tout intervalle I ⊆ R, ce qui est
largement
suffisant en pratique.

Exemple 1.4. On donne ci-dessous en figure 1.1 la fonction de r´epartition de l’erreur (en m)
com- mise par un r´ecepteur GPS de randonn´ee (i.e. la distance entre la position vraie et la
position es- tim´ee). Cette fonction permet la d´etermination imm´ediate de plusieurs indicateurs,
comme la m´ediane
m = F−1(0.5)
X = 1.91 m. On y observe ´egalement que 95% des erreurs sont inf´erieures `a 6.63 m.
1

95 %
0
0
Probabili

50 %
0
0
0

1.91 m 6.63 m
0 5 10 15
Erreur (m)

Fig. 1.1. Fonction de r´epartition FX de la variable al´eatoire r´eelle X d’erreur GPS (en m).

17
1.4 Densit´e de probabilit´e
La fonction de r´epartition est un outil pratique, mais ne donne cependant que des informations
globales sur la loi P (c’est-`a - dire des valeurs de probabilit´es int´egr´ees sur des intervalles plus ou
moins larges). Si on reprend l’exemple de l’erreur commise par un GPS, on observe qu’il existe une
infinit´e (qui plus est non denombrable) de valeurs possibles entre 0 et 15 m. Chacune d’elles a
donc logiquement une probabilit´e nulle d’apparaˆıtre. Qu’en est-il si on souhaite tout de mˆem e
quantifier la contribution d’une valeur particuli`ere x dans la loi totale ? On peut s’en sortir en se
pla¸cant sur un voisinage tr`es local de x, par exemple sur l’intervalle I = [x; x + dx], puis en
calculant la probabilit´e qu’une r´ealisation de X appartienne `a I, rapport´ee `a la largeur de I.
Le point (ii ) de la propri´et´e 2 indique
que cette probabilit´e s’exprime par P(X ∈ I) = FX(x + dx) − FX(x). Apr`es division par la largeur dx
de l’intervalle et passage `a la limite dx → 0, on obtient pr´ecisemment la d´eriv´ee de FX.

D´efinition 3 (Densit´e de probabilit´e)

Soit X une variable al´eatoire r´eelle et FX sa fonction de r´epartition. Si FX est d´erivable


sur R, alors on peut d´efinir la densit´e de probabilit´e π par :

dFX
π(x) = dx (x)

Remarque : inversement, ´etant donn´ee la densit´e f d’une variable al´eatoire r´eelle, on peut
retrouver sa fonction de r´epartition :

-x
F (x) = f (t)dt (1.7)
−∞

Plus g´en´eralement on a les propri´et´es


suivantes :

Propri´et´e 4 (Densit´e de probabilit´e)

Soit X une variable al´eatoire r´eelle de densit´e π, alors :

(i ) ∀ x ∈ R π(x) � 0.
fb
(ii ) ∀ a, b ∈ R a π(x)dx = P(X ∈ [a, b])
(iii ) fR π(x)dx = 1

Preuves : (i ) d´ecoule imm´ediatement du fait que FX est croissante, d’apr`es le point (i ) de la


pro- pri´et´e 2. Par ailleurs, d’apr`es le th´eor`eme fondamental de l’analyse :

-b b
dF
π(x)dx = - X(x)dx = F (b) − F (a)
a
a dx

ce qui montre le point (ii ). Enfin, en faisant tendre a et b vers l’infini, et `a l’aide du point (iii ) de la
propri´et´e 2, on obtient que l’int´egrale de π sur R vaut 1 (iii ).

18
Attention : lorsqu’elle existe, la densit´e π est positive et son aire sous la courbe vaut 1. Mais il faut
ˆetre vigilant au fait que π n’est pas un probabilit´e ! Elle peut prendre des valeurs sup´erieures `a
1. Pour obtenir une probabilit´e, on doit int´egrer π, comme stipul´e par le point (ii ) de la propri´et
´e 4.

Exemple 1.5. On reprend l’exemple 1.4, et on en d´eduit en figure 1.2 la densit´e de probabilit´e
des erreurs commises par le GPS.

0
Densi

0.02
0

7 8
0 5 10 15

Erreur (m)

Fig. 1.2. Densit´e de probabilit´e π de la variable al´eatoire r´eelle X d’erreur GPS (en m).

Lorsque l’intervalle est petit devant les variations de π, on peut approcher le calcul de la probabilit´e
P(x ∈ ∆x) par π(x)∆x. Par exemple, la probabilit´e que l’erreur commise soit comprise entre 7 et 8
m est : P(7 :( X :( 8) ≈ π(7.5) × (8 − 7) = 2%.

1.5 Esp´erance
Partant `a nouveau de l’exemple 1.4, on peut chercher `a d´eterminer la valeur moyenne des
erreurs commises pas le GPS. On appelle esp´erance math´ematique d’une variable al´eatoire X la
moyenne des valeurs prises par X sur un t r`e s grand nombre de r´ealisations 3 .

D´efinition 5 (Esp´erance)

Soit (Ω, A, P) un espace probabilis´e et X une variable al´eatoire (discr`ete ou continue).


On d´efinit l’esp´erance de X comme le centre de masse (lorsqu’il existe) du support de X
suivant la mesure P :

E[X] = - X(ω)dP(ω)

Suivant que la loi de X est discr`ete ou continue, la d´efinition 5 admet une forme plus explicite :

3
Cette caract´erisation intuitive de l’esp´erance n’a en r´ealit´e rien de trivial, et constitue l’objet d’un th´eor`eme fonda-
mental de la statistique : la loi forte des grands nombres (Lecoutre, 2002).

19
• Dans le cas discret, E[X] est la moyenne des valeurs xi potentiellement prises par X p ond´er
´ees par les probabilit´es d’apparition associ´ees pi :

+∞
L
E[X] = xipi (1.8)
i=0

sous r´eserve que la suite de terme g´en´eral xipi soit sommable.

• Dans le cas continu, si X admet π pour densit´e et si la fonction xπ(x) est int´egrable :

E[X] = - xπ(x)dx (1.9)


+∞
−∞

Exemple 1.6. En reprenant l’exemple 1.3, on calcule la probabilit´e pi d’obtenir l’´ev`enement Ai :


le tirage du jour contient i num´eros s´electionn´es par le joueur. Le nombre total de tirages possibles
est t
)
´egal au nombre des fa¸cons de tirer 5 ´el´ements parmi 49 : c’est donc le coefficient 49 . Par
5
ailleurs, le nombre de tirages al´eatoires ω v´erifiant l’´ev`enement Ai est ´egal au nombre de
mani`eres de tirer i
´el´ements parmis les 5 ´el´ements choisis par le joueur, multipli´e par le nombre de mani`eres de
choisir les 5 − i autres ´el´ements parmi les 44 ´el´ements restants :

t5i )t544
−i )
pi = P(A i) = t49)
5

L’application num´erique donne


:

9460 440 10
132440 + 21 × + 490 × + 95200 ×
E[X] = 4 × 19068 19068 19068
19068

D’ou` une esp´erance de gain4 de 0.99 e... `a la quelle on doit soustraire le prix du ticket (2.20 e).

Exemple 1.7. Lorsque la variable al´eatoire X peut prendre un nombre infini de modalit´es, ´evaluer
l’esp´erance n´ecessite l’emploi de techniques de s´eries num´eriques ou de calul int´egral. Par exemple,
consid´erons la loi binomiale B(n, p) qui donne la probabilit´e d’obtenir k succ`es `a l’issue de la r´ep
´etition de n exp´eriences al´eatoires identiques de probabilit´e de succ`es individuelle p :

n
P n(X = k) = k p (1 − p)
k n− k
(1.10)

On calcule alors l’esp´erance de la loi discr`ete 1.10 par :

L
+∞ L
+∞
n!
E[X] = n− k
n p (1 − p) =
k k pk(1 − p)n−k
k=0 k k=1
k k!(n − k)!
4
En comptabilisant le num´ero chance, l’esp´erance augmente mais reste toujours n´egative.
20
+∞ +∞
L (n − 1)! L (n − 1)!
= np (k − 1)!(n − 1 − (k −
k=1
pk−1(1 − p)n−k = npk=0 k!(n − 1 − k)! pk(1 −
p)n−1−1))!
k

+∞
L
= np Pn−1(X = k) = np
k=0

On proc`ede de mˆeme avec une loi continue, par exemple la loi norma le standard N (0, 1) (moyenne

nulle et variance unitaire), d´efinie par sa densit´e : p(x) = exp(−x2/2)/ 2π

-
1 x2 i+∞
+∞
1
E[X] = x2 dx =h =
√ x − √ − − 2 0
2π − 2 2π

0 0
0.2 0.4
0 1

0 0
0

−3−2−1 0 1 2 3 −3−2−1 0 1 2 3

Fig. 1.3. Fonction de r´epartition et densit´e de probabilit´e de la loi normale standard.

Propri´et´e 6 (Esp´erance)
Soient X et Y deux variables al´eatoires r´eelles quelconques et a ∈ R : (i ) Esp´erance d’une constante : E[
(ii ) Lin´earit´e de l’esp´erance : E[aX + Y ] = aE[X] + E[Y ]

Remarque : l’esp´erance ´etant un op´erateur lin´eaire, en g´en´eral, pour une fonction f non lin
´eaire, on a E[f (X)] /= f (E[X]) (la moyenne des carr´es des notes d’´etudiants par exemple, n’est
en g´en´eral pas
´egale au carr´e de la moyenne de la classe). De mˆeme, en g´en´eral E[XY ] /= E[X] × E[Y ] (l’´egalit´e
est
cependant v´erifi´ee quand X et Y sont d´ecor´el´ees, cf section 1.7).

1.6 Variance
L’esp´erance d’une variable al´eatoire permet de localiser le centre d’une distribution. Pour caract
´eriser la dispersion de la distribution autour de cette valeur centrale, on a besoin d’un second
indicateur. C’est pr´ecisemment le rˆole de la variance.

21
D´efinition 7 (Variance)

Soit X une variable al´eatoire (discr`ete ou continue). On d´efinit la variance de X comme la valeur moyen

Var[X] = EhtX − E[X])2i

A` nouveau, on a deux expressions explicites diff´erentes suivant que la variable est discr`ete ( `a
gauche) ou continue et `a densit´e ( `a droite) :

L
+∞ -
Var[X] = pi(xi − E[X])2 Var[X] = (x − E[X])2π(x)dx (1.11)
i=0
R
Pour pouvoir donner une interpr´etation physique `a Var[X] on en extrait souvent la racine carr´ee :

D´efinition 8 (Ecart-type)

On appelle ´ecart-type d’une variable al´eatoire X la quantit´e :

σX = pVar[X]

Exemple 1.8. Un thermom`etre (dont la pr´ecision de mesure sera suppos´ee absolue, mais qui n’affiche
que des valeurs enti`eres) indique 17◦C. On peut◦ donc supposer que la temp´erature T r´eelle est
dis- tribu´ee suivant une loi uniforme entre 16.5 et 17.5◦ (on note U ([16.5; 17.5[]) cette loi) :

�1 si 16.5 :( t < 17.5


π(t) = 0 sinon.

On peut alors estimer l’incertitude sur la valeur affich´ee en calculant la variance de T :

- -17.5
tt − E[T
Var[T ] = π(t)dt = (t − 17)2dt
)2 16.5
R
]

Par changement de variable t 1→ t + 17, on r´eduit le probl`eme `a :

- +1/2 1
Var[T ] = t2dt =
−1/2 12

L’´ecart-type de la mesure est donc ´egal `a √1 ≈ 0.29◦C. Ce bruit sur la lecture d’un capteur est appel´e
1
bruit de num´erisation ou encore bruit d’arrondi.

22
Propri´et´e 9 (Variance)

Soient X et Y deux variables al´eatoires r´eelles ind´ependantes et a ∈ R : (i ) Variance d’une constante


(ii ) Combinaison lin´eaire ind´ependante : Var[aX + Y ] = a2Var[X] + Var[Y ]

La propri´et´e (ii ) confirme la validit´e du changement de variable de l’exemple du


thermom`etre : Var[T − 17] = Var[T ] + Var[17] = Var[T ]. La variance est insensible `a toute
translation.

1.7 Covariance
Pour traiter le cas de la somme de variables d´ependantes, on doit introduire la notion de covariance.

D´efinition 10 (Covariance)

Soit (X, Y ) un couple de variables al´eatoires r´eelles. On d´efinit la covariance par la quantit´e :

Cov(X, Y ) = EhtX − E[X])tY − E[Y ])i

Remarque 1. L’op´erateur de covariance peut ˆetre consid´er´ee comme un produit scalaire de


l’espace pr´ehilbertien des variables al´eatoires de carr´e int´egrable. Il h´erite donc de toutes
les propri´et´es alg´ebriques des produits scalaires. En particulier il est sym´etrique : Cov(X,
Y ) = Cov(Y, X) et bilin´eaire : Cov(aX + Y, Z) = aCov(X, Y ) + Cov(Y, Z).

Remarque 2. Il est important de le mentionner, la covariance ne mesure que la d´ependance lin


´eaire. On peut exhiber deux variables d´ependantes de covariance nulle, e.g. X et X2 avec X ∼ U
([−1; 1]). On pourra trouver un contre-exemple similaire dans Hauchecorne (2007), page 360.

Afin d’obtenir une mesure facilement interpr´etable du degr´e de d´ependance, on peut


normaliser le r´esultat par le produit des ´ecarts-types de chacune des deux variables.

D´efinition 11 (Corr´elation)

Soit (X, Y ) un couple de variables al´eatoires r´eelles. On d´efinit la corr´elation par la quantit´e :

Cov(X,Y)
ρXY =
σX σY

L’in´egalit´e de Cauchy-Schwarz nous montre alors que ρXY est compris entre −1 et 1.

Remarque s´emantique : on parle d’autocorr´elation (spatiale, temporelle ou autre) lorsque les deux
vari- ables ont ´e t ´e g´en´e r´ees par le mˆeme ph´enom`ene. Par exemple si Z(t) d´esigne l’altitude du
Mont-Blanc

23
`a l’ann´ee t, alors on pourra parler de l’autocorr´elation entre Z(t1) et Z(t2). Lorsque le ph
´enom`ene Z ´e t u d i´e est implicite, on pourra noter par abus de langage ρ(t1, t2) et Cov(t1, t2). Un
couple de variables (X, Y ) est dit d´e c o r r´e l´e lorsque ρXY = Cov(X, Y ) = 0. Attention au pi`ege
en pratique : Cov(X, Y ) proche de 0 n’implique pas ρXY proche de 0 et r´eciproquement ! Enfin, un
ph´enom`ene est dit d´ecorr´el´e lorsque les valeurs qu’il prend sont deux-`a - deux d´ecor´el´ees.

Fig. 1.4. De gauche `a droite : champ al´eatoire d´e co rr´el´e (ρ = 0), champ anti-corr´el´e (ρ <
0), champ faiblement corr´el´e (ρ > 0) et champ fortement corr´el´e (ρ » 0).

Remarque : Var[X] = Cov(X, X). Ainsi, pour un ensemble de n variables al´eatoires X1, X2, ...Xn,
on peut formuler toutes les informations de variances et de covariances dans une unique matrice carr
´ee de dimension n et de terme g´e n´e r a l (Σ)ij = Cov(Xi, Xj). On l’appelle la matrice de
covariance. Si les variables sont d´ecor´el´e es (et a fortiori si elles sont ind´ependantes), Σ est
une matrice diagonale.

 
Var(X1) Cov(X1, X2) · · · Cov(X1, Xn)
 Cov(X 2, X1) Var(X2) · · · Cov(X2, Xn)  (1.12)

Σ X=  ..
 . ··· . . 
Cov(Xn, X1) ··· ··· Var(Xn)
La matrice de covariance est un outil fondamental dans le domaine de la propagation des incertitudes.
Soit X = (X1, X2, ...Xn)T un vecteur al´eatoire (i.e. un vecteur contenant un ensemble de variables al
´eatoires). Si on se donne une matrice A ∈ Rm×n, l’application X 1→ AX est une application lin
´eaire
transformant un groupe de n variables al´eatoires en un second groupe de m variables al´eatoires. Le
th´eor`eme suivant permet de propager les incertitudes des variables d’entr´ee aux variables de sortie.

Th´eor`eme 12 (Propagation des variances)

Soit X un vecteur al´eatoire de matrice de covariance ΣX et A ∈ Rm×n. Alors, la matrice


de covariance ΣY sur Y = AX est :

ΣY = AΣXAT

En particulier, en posant A = [1, 1], on retrouve directement l’expression 2 de la variance d’une


somme de 2 variables al´eatoires corr´el´ees : Var[X + Y ] = Var[X] + Var[Y ] + 2Cov(X, Y )

Que faire lorsque l’application n’est pas lin´eaire ? Soit f une fonction scalaire non-lin´eaire, et X
une variable al´eatoire de variance Var(X). Pour ´evaluer la variance de Y = f (X) une solution
prˆete `a l’emploi consiste `a lin´eariser f autour d’une valeur de r´ef´erence a :
24
(2) (n)
f (a) f (a) t )
f (X) = f (a) + f t(a)(X − a) + (X − a)2 + ... + (X − a)n + o (X − a)n
2 n

Alors, par les propri´et´es de la variance, et en se limitant `a un d´eveloppement limit´e `a l’ordre 2,

[ ] [ ]
on a : Var[f (X)] ≈ Var f (a) + f t(a)(X − a) = Var f (a) + f t(a)2 Var[X − a] = f t (a)2Var[X]

Prenons le cas de f : x 1→ x2, et supposons que l’on travaille au voisinnage de a = 1. On a alors :

Var[X2] = (2a)2Var[X] = 4Var[X]

Bilan : si x = 1 ± 0.02 ( ou` 0.02 repr´esente l’´ecart-type de x), alors f (x) = x2 = 1 ± 0.04.

On peut g´en´eraliser cette m´ethode pour une fonction f : Rn Rm, dont on peut calculer
1
la matrice jacobienne J de terme g´en´eral (J)ij = , o u` f1, f2, ...fm sont les composantes de
∂fi

f.

Th´eor`eme 13 (Propagation des variances : cas non-lin´eaire)

Soit f : Rn 1→ Rm, une fonction r´eguli`ere de matrice jacobienne J et X un vecteur al´eatoire


de Rn de matrice de covariance ΣX :

Σf (X) = JΣX JT

Exemple 1.9. On reprend l’exemple du thermom`etre. Nous avons vu que le bruit de num
´erisation induit une erreur de lecture d’´ecart-type environ ´egal `a trois dixi`emes de degr´e.
On fait un second relev´e, et on lit `a pr´esent la valeur 20◦, soit une augmentation de temp
´erature ∆T de 3◦. Quelle est
l’incertitude sur la valeur de ∆T ?

On note σ = 0.3 l’incertitude de lecture sur une mesure, et X1 et X2 les deux mesures effectu´ees.
Elles sont d´e co r´e l´e es , donc de matrice de covariance diagonale : Σ = σ2I2 o u` I2 est l’indentit
´e de R2. En exprimant ∆T sous la forme matricielle ∆T = [−1 + 1]X, le th´eor`e me de
propagation des variances
nous donne imm´ediatement la matrice de covariance (ne contenant qu’un ´e l´e ment) de ∆T :

[ ] σ2 0 −1
Σ∆T −1 = 2
0 +


On en d´eduit l’´ecart-type sur la diff´erence de temp´erature : σ∆T = σ 2. La diff´erence de temp
´erature mesur´ee est donc : ∆T = 3 (±0.41) ◦C.

Exemple 1.10. A l’issue d’un examen, un ´etudiant re¸coit 5 notes (sur 20 points) : math
´ematiques (coeff 12), physique-chimie (coeff 7), informatique (coeff 7), fran¸cais (coeff 4) et
anglais (coeff 2). On suppose que l’´ecart-type de l’erreur d’´evaluation de chaque copie est de 3
points. Par ailleurs un seul et mˆem e ´evaluateur corrige les copies de math´ematiques et
d’informatique, ce que nous mod´eliserons par une corr´elation (ρ = 50%) des erreurs
25
d’´evaluation sur ces deux ´epreuves. Calculer l’incertitude sur la moyenne de l’´etudiant. Qu’en
est-t-il si on suppose `a pr´esent les corrections de math´ematique

26
et d’informatique comme ´etant parfaitement d´ecorr´el´ees ?

On exprime sous forme matricielle la moyenne de l’´etudiant : µ = 1 AX, avec A le vecteur des
3
coefficients et X le vecteur al´eatoire des notes obtenues. Par ailleurs, on a Var[X]
2 = σ = 9 et
2

Cov(X , X ) = 0 sauf pour le couple maths-info o u` on a : Cov(X , X ) = ρ σ σ = σ


= 4.5
i j i j ij Xi Xj 2

La matrice de covariance de X traduisant l’incertitude sur l’´evaluation s’exprime par :

9 0 4.5 0 0 
0 9 0 0 0
ΣX 4.5 0 9 0 0 
= 
0 0 0 9 0 

0 0 0 0 9

Une application num´erique nous donne imm´ediatement : Var[µ] = 1


2 AΣXAT = 3.03
3

La note moyenne de l’´etudiant au module est donc entˆach´ee d’une erreur d’´evaluation d’´ecart-type
√3.03 = 1.74 points. En utilisant le graphique 1.3 de la fonction de r´epartition de la loi normale,
on peut (en premi`ere approximation) annoncer qu’avec une probabilit´e de 95% l’impact de
l’erreur d’´evaluation sur la moyenne obtenue par l’´etudiant `a l’examen, sera inf´erieure `a 2 ×
1.74 = 3.48 points.
En supposant `a pr´esent que les copies de math´ematiques et d’informatique sont corrig´ees par deux
´evaluateurs diff´erents, la matrice ΣX devient diagonale et on a :

Var[µ] = 1 A(9I )AT = 9 AAT = 2.28


5
322 322
.

On remarque donc que l’erreur sur la moyenne d’examen est amplifi´ee par le fait qu’un mˆeme
´evaluateur corrige deux ´epreuves. Il s’agit d’une r`egle g´en´erale : les corr´elations positives d
´emultiplient les erreurs de calculs alg´ebriques de type int´egral (somme, cumul, moyenne...) et r
´eduisent les erreurs de calculs diff´erentiels (d´eriv´ees, pentes, vitesse...). L’inverse est aussi v
´erifi´e pour les corr´elations n´egatives.

+ Fonction additive :
moyenne, somme, décompte, intégration...

Signal anti-corrélé Bruit blanc Signal corrélé

- Fonction soustractive :
différence, pente, vitesse, accélération...

Fig. 1.5. Impact d’un bruit `a corr´elation n´egative ( `a gauche), d´ecorr´el´e (au centre) et `a corr
´elation positive ( `a droite) sur des applications de type additif (en haut) et soustractif (en bas).

27
1.8 Moments statistiques
Dans cette derni`ere section, qui pourra ˆetre pass´ee en premi`ere lecture, nous g´en´eralisons les
notions d’esp´erance et de variance, et nous tentons par la mˆeme occasion de montrer qu’elles ne
constituent que les premiers coefficients d’une caract´erisation des lois de probabilit´es par un d
´eveloppement en s´erie de fonctions `a base de quantit´es appel´es moments. Cette discussion
devrait nous permettre de comprendre le concept (et les limites) de la g´eostatistique dite lin´eaire.

Dans le but de simplifier la pr´esentation, nous nous placerons `a pr´esent exclusivement dans le
cas d’une variable al´eatoire continue, la g´en´eralisation au cas discret ´etant imm´ediate.

D´efinition 14 (Moment statistique)


Soit X une variable al´eatoire r´eelle. Alors, pour k ∈ N, on d´efinit le moment d’ordre k par :

mk = E[Xk]

Remarque : l’esp´erance correspond au moment m1. De mˆeme, le d´eveloppement suivant permet


d’exprimer la variance uniquement en fonction des 2 premiers moments :

1t )2l 1 l
E X − E[X] = E X2 − 2XE[X] + E[X]2 = E[X2] − 2E[X]2 + E[X]2 = E[X2] − E[X]2

Var[X] = m2 − m2 (1.13)
1

Cette relation, plus fondamentale qu’il y paraˆıt au premier abord, appelle deux observations :

• D’une part, d’un point de vue informatique, il est possible de calculer la variance (et donc l’´ecart-
type) en une seule passe sur les donn´ees (l `a o u` l’utilisation de la formule classique n
´ecessite 2 passes : une pour calculer la moyenne m1, et une pour calculer les ´ecarts `a m1).
On prendera garde cependant au risque accru d’erreurs d’arrondi num´erique avec cette
formulation.

• D’autre part, sur un plan plus th´eorique, si X repr´esente l’amplitude d’une erreur
commise, alors le terme d’erreur quadratique E[X2] (aussi appel´e MSE pour Mean Square
Error dans la litt´erature anglo-saxonne), peut s’exprimer en fonction de deux composantes
distinctes :

E[X2] = E[X]2 + Var[X]

En remarquant que E[X] est la moyenne des erreurs, c’est-`a - dire le biais, on peut aussi ´ecrire :

E[X2] = Biais2 + Variance (1.14)

28
Biais élevé Biais élevé Biais faible Biais modéré
Variance élevée Variance faible Variance élevée Variance modérée

Fig. 1.6. Illustration des deux composantes de l’erreur de point´e dans un jeu de f´echettes : le biais,
i.e. l’erreur syst´ematique, et la variance, i.e. l’incapacit´e `a produire des jets identiques.

D´efinition 15 (Fonction g´en´eratrice des moments)


Soit X une variable al´eatoire r´eelle.On appelle fonction g´en´eratrice des moments, la fonction MX : R →
MX(t) = E[etX ]

On justifie a posteriori le nom de cette fonction par le fait que ses d´e ri v´ees successives d’ordre k prises
en l’origine co¨ıncident exactement avec la suite (mk)k∈N des moment de X.

Propri´et´e 16 (Fonction g´en´eratrice des moments)

Soit X une variable al´eatoire r´eelle de fonction g´en´eratrice des moments MX et k ∈ N :

dkMX(t)
= E[Xk]
dtk I
t=0

Preuve : par lin´earit´e des op´erateurs d


et E :
d
dkMX
1 dketX l = E[ ]
(t) dkE[etX] = e
k tX et donc dkMX (0) = E[ k ] =
dtk dtk dtk
d

29
Th´eor`eme 17 (Relation univoque FGM ↔ DDP)

Soit f : R → R une fonction. Il existe au plus une unique densit´e de probabilit´e π admettant
f pour fonction g´en´eratrice des moments, i.e. solution de l’´equation :

- +∞
f (t) = −∞ etxπ(x)dx

30
Preuve : imm´ediate en posant t = iτ (avec i2 = −1) et `a l’aide de la transformation de Fourier.

Le th´eor`eme 17 revˆet une importance capitale pour la compr´ehension du rˆole des moments
dans la caract´erisation statistique d’une variable. Pour mieux s’en convaincre, effectuons une d
´eveloppement en s´erie enti`ere de la fonction exponentielle dans la d´efinition 15 :

1 l
t2 X + t3 X3
MX(t) = E[etX ] = E 1 + tX 2 + ...
2 3!
+

A` nouveau, par lin´earit´e de l’esp´erance :

2 3 t2m t3m
MX(t) = 1 + tE[X] + t E[X 2] + t E[X 3] + ... = 1 + tm + + + ... (1.15)
2 3! 2 3!

Si on met bout-`a - bout toutes les informations dont nous disposons jusqu’`a pr´esent :

• La fonction g´en´eratrice des moments se calcule par une somme ne n´ecessitant que la
connaissance de la suite (infinie) des moments de X (´equation 1.15).

• A partir de cette mˆeme fonction, le th´eor`eme 17 stipule qu’il est possible de reconstruire
sans ambigu¨ıt´e la densit´e de probabilit´e de X.

• L’int´egrale 1.7 nous donne alors la fonction de r´epartition de X sur l’ensemble des r´eels.

Autrement dit, la suite des moments est une caract´erisation compl`ete 5 d’une variable al´eatoire r´eelle.

La g´eostatistique lin´eaire, qui se retraint `a l’estimation de quantit´es inconnues par des


combinaisons lin´eaires d’observations, ne n´ecessite en retour que l’emploi des 2 premiers
moments. Tout se passe donc virtuellement comme si on op´erait une troncature au second ordre d’un
genre de dev´eloppement analytique de la loi de la variable al´eatoire.

1.9 Exemple de synth`ese


Un usager attend le bus `a une station desservie par 2 lignes diff´erentes. Les bus y passent `a un
intervalle r´egulier de 10 minutes. Les 2 lignes sont suppos´ees ind´ependantes. L’usager
prendra le premier des deux bus qui arrive. Combien de temps doit-il attendre en moyenne ? On
peut mod´eliser l’exp´erience par un ensemble fondamental Ω = [0, 10]2. La mesure de probabilit
´e P est celle d’une loi uniforme sur Ω. Soit X la variable al´eatoire d´enotant le temps d’attente
de l’usager :

X : [0, 10]2 R
→ (1.16)
(ω1, ω2) 1→ min(ω1, ω2)

Soit x ∈ [0, 10] une r´ealisation de la variable de temps d’attente. Une analyse graphique rapide
(cf fig. 1.7) permet de d´eterminer la valeur de FX(x) :

5Sous r´eserve d’existence de la fonction g´en´eratrice M , sinon l’unicit´e n’est pas garantie sur R. On pourra trouver
X
un contre-exemple avec la loi log-normale. C’est l’objet du probl`eme de Hamburger (1920).

31
x2 + x(10 − x) + (10 − x(20 − x)
FX(x) = PX ([0, x]) 100
= x)x
100 =

En particulier, on s’assure bien que FX v´erifie les propri´et´es des fonctions de r´epartitions : FX est
croissante, FX(−∞) = FX(0) = 0 et FX(∞) = FX(10) = 1.

Fig. 1.7. Illustration de l’espace fondamental Ω. Chaque point ω = (ω1, ω2) repr´esente une r´ealisation al
´eatoire, avec ωi le temps d’attente du bus i. X(ω) = min(ω1, ω2) est le temps d’attente de l’usager.

Plus g´en´eralement, on peut transposer la loi P sur l’ensemble fondamental `a une loi PX sur la variable al
´eatoire X, d´efinie pour tout intervalle [a, b] ∈ [0, 10] par :

PX([a, b]) = P({(ω1, ω2) ∈ Ω ; a :( min(ω1, ω2) :( b}) = P([a, b]2) a2 − b2 + 20(b − a)
= 100

S’ensuit alors la densit´e de probabilit´e : pX(x) = dFX (x) = 10−x


dx 50

Puis l’esp´erance du temps d’attente


:

1 - 10
- 10 xpX(x)dx = x(10 x)dx = 10
E(X) = 50 0 − 3
0

L’usager attendra donc en moyenne 3 min 20. On peut ´evaluer de la mˆem e mani`ere
l’incertitude autour de cette valeur moyenne `a l’aide de la notion de variance. On utilise la
formule 1.13 : Var[X] = E[X2] − E[X]2 (pour profiter du fait que nous avons d ´e j `a calcul´e l’esp
´erance).

-
1 1 x3 x3 l10
2 10
2 50
E ] x pX(x)dx = =
0 3 4 3
50

J
100 2
D ’o u` : Var[X] = 3 −
50
9= 9 . On en d´eduit alors l’incertitude σX =
50
Var[X] = 5
3 ≈ 2.35, soit
un ´ecart-type sur le temps d’attente de 2 min
32
A titre d’exercice, on g´en´eralisera cette ´etude au cas d’un arrˆet desservi par n lignes de bus.
Par ailleurs, on peut pousser le sc´enario un peu plus loin, en supposant que le premier bus
arrivant est syst´ematiquement complet. L’usager doit alors attendre le second bus.

On pose Y : (ω1, ω2) 1→ max(ω1, ω2) la variable al´eatoire qui `a une r´ealisation donn´ee associe le
temps d’attente de cet usager. Par sym´etrie du probl`eme, on trouve ais´ement la densit´e de Y :

pY (y) = 10 − pX(y) = y
50

puis son esp´erance E[Y ] = 10 − E[X] = 20


et sa variance Var[Y ] = Var[X] = 50
.
3 9
On peut ´egalement exprimer la covariance des temps d’attente entre les deux cas de
figures. A` nou-
veau, de mani`ere similaire `a l’´equation 1.13, on cherche une expression alternative pour Cov(X, Y
), afin de r´eutiliser les r´esultats trouv´es pour E[X] et E[Y ] :

1 l
Cov(X, Y ) = E (X − E[X])(Y − E[Y ])
1 l
= E XY − Y E[X] − XE[Y ] + E[X]E[Y ] (1.17)

= E[XY ] − E[X]E[Y ]

Il ne nous reste alors plus qu’`a ´evaluer l’esp´erance de la variable Z = XY . On doit exprimer la
densit´e de probabilit´e p(x, y). Malheureusement, X et Y n’´etant pas ind´ependantes comme
nous allons le voir, p(x, y) /= p(x)p(y). En revanche on peut ´ecrire : p(x, y) = p(x|y)p(y) o u`
p(x|y) est la probabilit´e
conditionnelle de X sachant Y . Par exemple, si on sait que le second bus (Y ) est arriv´e apr`es 8
minutes d’attente, alors on en d´eduit que le temps d’attente du premier bus suit n´ecessairement
une loi uniforme entre 0 et 8 : Y ∼ U ([0, 8]). D ’ o u` :

( 1) ( y ) 1
p(x|y) ∼ U ([0, y]) et donc : p(z) = p(x, y) = × =
y 5 5

On en d´eduit alors l’esp´erance de la variable Z = XY :

-
- 10 - 1 - 10 -
E[Z] =
zp(z)dz = y xyp(x, y)dxdy = y xydxdy = 25
R x=0 50 y=0 x=0
y=0

( )( )
10 20
Par ailleurs, on ´evalue E[X]E[Y ] = = 200
, ce qui nous permet de terminer le calcul :
3 3 9

Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 25 200 25


− =
9 9

Au passage, on peut d´eterminer la corr´elation entre ces deux variables :

33
Cov(X, Y )
ρXY = = 50%
σXσY

34
Enfin, supposons que deux personnes attendent `a la station, et que le bus ne contienne plus qu’une
place libre. Calculons le retard R pris par l’un des usagers par rapport `a l’autre.

Avec les notations utilis´ees jusqu’ici, on a R = Y −X. On cherche `a calculer la moyenne et la


variance de R. Nous disposons `a ce stade de toutes les informations n´ecessaires. D’un part, l’esp
´erance ´etant
un op´erateur lin´eaire, on peut ´ecrire (quand bien mˆeme X et Y sont corr´el´ees) :

20 10
E[R] = E[Y − X] = E[Y ] − E[X] = − = 3.33 min
3 3

Pour la variance, on utilise la formule de propagation donn´ee par le t h´eor`eme 12 :

Var[Y − X] = Var[Y ] + Var[X] − 2Cov(X, Y )


50 50 25 50
= + − 2× =
9 9 9 9

On a donc un ´ecart-type de 2 min 21.

On remarque que la moyenne et l’´ecart-type de l’avance d’un usager par rapport `a l’autre, sont
stricte- ment ´egaux `a ceux du temps d’attente de l’usager qui prend le premier bus, ce qui paraˆıt
intuitif. Tout se passe comme si R correspondait au temps d’attente d’un usager arrivant `a la
station au moment du d´epart de X.

35
Chapter 2

Analyse variographique

En tant qu’outil central de la G´eostatistique, le variogramme constitue une signature


probabiliste (partielle mais suffisante) de l’autocorr´elation des ph´enom`enes. Dans ce chapitre,
nous d´efinissons en premier lieu plus rigoureusement la notion de ph´enom`ene `a l’aide des
processus stochastiques. Nous
´etablirons alors les conditions sous lesquelles il est possible d’en extraire un variogramme, dont nous
´etudierons les propri´et´es th´eoriques, avant de pr´esenter la m´ethode standard d’estimation
du vari- ogramme (inconnu par nature) `a partir d’un semis d’observations ponctuelles.

2.1 Processus stochastique


Reprenons notre probl`eme mod`ele : nous disposons d’un semis d’observations ponctuelles
d’altitudes z1, z2, ...zn mesur´ees par GPS sur un domaine D (par exemple un massif montagneux d
´elimit´e). L’objectif du probl`eme de production d’un Mod`ele Num´erique de Terrain (MNT)
consiste `a estimer une fonction z retournant l’altitude en chaque point de D et telle qu’en chaque
point xi sur lequelle une observation zi a ´e t ´e effectu´ee, la contrainte zi = z(xi) soit respect´ee.
Il s’agit d’un probl`eme
classique d’interpolation spatiale.

Nous l’avons dit en introduction, il existe un certain nombre de m´ethodes d´eterministes


permettant de traiter ce probl`eme : la m´ethode du plus proche voisin, l’interpolation lin´eaire, bilin
´eaire, p ond´er´ee par l’inverse des distances aux sites d’observations, les splines de lissages et de r
´egression... (Mitas et Mitasova, 1999; Arnaud et Emery, 2000). Toutes ces m´ethodes pr´esentent
l’avantage de ne n´ecessiter aucune hypoth`ese forte sur le ph´enom`ene `a estimer (ici le relief du
terrain). Nomm´ement, la seule sup-
position effectu´ee est que l’altitude sur le domaine D puisse ˆetre d´ecrite par une fonction z : D
→ R. En un couple de coordonn´ees cartographiques x donn´e, il ne peut donc y avoir qu’une seule
altitude
correspondante z(x), ce qui interdit donc la mod´elisation des d´evers, grottes, sous-terrains,
tunnels... Cette fonction z est appel´ee une variable r´egionalis´ee.

En G´eostatistique, nous devons ajouter une seconde couche d’abstraction `a ce mod`ele


primaire, afin de prendre en compte la nature stochastique du ph´enom`ene ´etud i´e . Nous
supposons `a pr´esent que la variable r´egionalis´ee z est une r´ealisation Z(ω) d’une variable al
´eatoire fonctionnelle Z. Nous allons voir par la suite que ce niveau suppl´ementaire d’abstraction n
´ecessite de poser des hypoth`eses un peu plus lourdes sur le ph´enom`ene.

36
D´efinition 18 (Processus stochastique)

Soit (Ω, A, P) un espace probabilis´e, et D un espace quelconque. On appelle processus


stochastique toute fonction Z :

Z : D×Ω→R

Remarque : dans le probl`eme mod`ele, D est un sous-ensemble de R2.

Cette variable al´eatoire Z est appel´ee fonction al´eatoire (FA), processus stochastique ou encore
signal al´eatoire. Quand le domaine D contient plusieurs dimensions, on parle aussi de champ al
´eatoire .

La fonction Z est une fonction de 2 variables : x d´efinie sur un domaine analytique quelconque
(i.e. sur un espace physique perceptible, par exemple l’espace g´eographique) et ω d´efinie sur
une espace probabilis´e. L’espace produit cart´esien D × Ω est donc un espace dit topo-
probabiliste. Il peut ˆetre
instructif de regarder ce qu’il advient quand on fixe l’une des 2 variables :

• Pour une ´eventualit´e ω ∈ Ω donn´ee, la r´ealisation z(.) = Z(., ω) est une trajectoire du
proces- sus. C’est une fonction classique de D → R : la variable r´egionalis´ee.
• En un lieu x ∈ D donn´e, la variable Z(x,.) est une variable al´eatoire r´eelle classique,
dont la valeur ne d´epend plus que de la r´ealisation ω consid´er´ee.

Remarquons ´egalement qu’un processus stochastique n’est que la g´en´eralisation continue de la


notion de vecteur al´eatoire. Nous avons vu dans le chapitre 1 qu’il peut ˆetre avantageux de
regrouper un ensemble de variables al´eatoires Z1, Z2, ...Zn au sein d’un unique vecteur Z = [Z1,
Z2, ...Zn]T . Dans le cadre d’un processus stochastique, les variables individuelles sont index´ees
par les positions (con- tinues) du domaine : Z(x1), Z(x2), .... Informellement, Z peut donc ˆetre
consid´er´e comme un vecteur al´eatoire contenant une infinit´e d’´el´ements.

Fig. 2.1. 3 exemples de r´ealisations d’un processus stochastique X : R × Ω → R, o u` R repr


´esente la dimension analytique et Ω (en pratique non-sp´ecif i´e) est la dimension stochastique
que l’on peut
consid´erer informellement comme un ensemble d’univers parall`eles. Source : Antoni (2013).

Pour r´ealiser un processus stochastique, un protocole simple et ne n´ecessitant que peu de mat´eriel
(et que l’on pourra mˆeme faire en pens´ee si on ne souhaite pas heurter sa sensibilit´e ´ecologique),
consiste
37
`a prendre une feuille de papier, `a la froisser, puis `a essayer de la remettre `a peu pr`es `a plat sur
la table. Le motif obtenu est alors parfaitement al´eatoire, et en r´eit´erant l’exp´erience, on
obtiendra en toute probabilit´e une g´eom´etrie de pliage diff´erente. Malgr´e tout, la forme et la
longueur typique des lignes de brisure (i.e. certaines des caract´eristiques d’autocorr´elation spatiale
du processus de froissage) vont rester fortement similaires d’une r´ealisation `a l’autre. La mˆeme
observation pourrait ˆetre effectu´ee sur le processus de formation du relief montagneux (si
toutefois nous pouvions rejouer le temps en quelques sortes). Dans les deux cas d’exemple, les
forces globales externes (pression des mains sur la feuille, convergence des plaques tectoniques) sont
sensiblement les mˆemes. C’est la pr´esence de petites variations locales qui vont g´en´erer l’al
´eatoire des r´ealisations. Tout au long de ce cours, il pourra
ˆetre int´eressant de revenir `a cette exp´erience de la feuille de papier, qui contrairement au
processus orog´enique, pr´esente l’avantage de pouvoir ˆetre conceptuellement rejou´ee).

La figure 2.2 donne un exemple de 8 r´ealisations d’un processus stochastique de MNT. En r´eali t´e ,
une et une seule de ces r´ealisations correspond au relief d’une zone existant r´eellement. Les 7
autres sont des simulations informatiques programm´ees pour reproduire les caract´eristiques
statistiques du champ r´eel. La difficult´e certaine `a identifier le champ mod`ele parmi ces 8 r
´ealisations, valide l’efficacit´e de la simulation. La r´eponse au probl`eme sera donn´ee dans le
chapitre 4.

Fig. 2.2. 8 r´ealisations d’un processus stochastique Z : R2 × Ω → R pour 8 tirages ω1, ω2, ...ω8.
Le champs z(.) = Z(., ωi) est la carte de relief g ´e n ´e r ´e e par la i-eme r´ealisation. La quantit´e
Z(x,.) est une variable al´eatoire traduisant l’incertitude sur l’altitude au lieu x ∈ R2 de la carte.

Activit´e I. Simulation informatique d’un processus stochastique


Bien ´evidemment, la nature finie de l’espace m´emoire de la machine ne nous permet que de cr
´eer des processus discrets. Cette activit´e devrait cependant permettre de rendre plus concret la
notion de processus stochastique.

Q1. On appelle marche al´eatoire sur R `a temps discret1 la r´ealisation d’une suite de variables al´eatoires
X0, X1, X2... d´efinie `a chaque pas de temps t ∈ N par :

0 si t =
0 =
X � (2.1)
Xt−1 + εt sinon.
t

o u` εt ∼ N (µ, σ2) est une suite de variables al´eatoires d´ecorr´el´ees, distribu´ees suivant une loi
normale de moyenne µ et d’´ecart-type σ.

De mani`ere informelle, X repr´esente la position d’une personne se d´epla¸cant sur un axe uni-
dimensionnel en partant d’un position arbitrairement fix´ee `a 0. A` chaque pas de temps t, elle peut
se d´eplacer d’une

38
1
On parle aussi de mani`ere imag´ee de marche de l’ivrogne.

39
quantit´e εt (en arri`ere si εt < 0 et en avant sinon). La quantit´e εt est ´echantillonn´ee al´eatoirement (et
`a chaque pas de temps t) suivant la loi normale (cf fig. 1.3). On pourra trouver une analyse th
´eorique de ce processus dans Barret (2009).

Remarque : observons que εt est lui mˆeme un processus stochastique. Il est enti`erement d´ecorr
´el´e et se rencontre sous le nom de bruit blanc dans litt´erature (Picinbono, 1998)).

On ´ecrira une fonction random_walk(N,m,s) prenant en entr´ee le nombre N de pas de temps `a g´en
´erer ainsi que les param`etres (moyenne m et ´ecart-type s) du processus de d´eplacement εt.

Script 1. Generation d’une marche al´eatoire [code1.r]

random_walk = function(N,m,s){
X = rep(0, N) # Initialisation

for (i in 2:N){
X[i] = X[i-1] + rnorm(1,m,s) # Simulation
}

return(X)
}

Le code ci-dessus est une transcription directe de la d´efinition 2.1. La fonction R rnorm(n,m,s) g
´e n`e r e un vecteur de n r´ealisations d’une loi normale de moyenne m et d’´ecart-type s.

Lorsqu’un signal al´eatoire est d´efini de mani`ere r´ecursive, `a l’instar de 2.1, on parle de repr
´esentation markovienne du processus. Un processus admettant une repr´esentation markovienne est
qualifi´ee de markovien. Remarquons que 2.1 peut ˆetre programm´e de mani`ere plus concise `a
l’aide de la fonction cumsum(Y) qui effectue une somme cumul´ee des termes de Y : X =
cumsum(rnorm(N,m,s)).

Q2. Apr`es avoir sp´ecifi´e les valeurs des param`etres (par exemple N=500, m=0 et s=1 pour
commencer) repr´esenter une r´ealisation du processus `a l’aide de la fonction plot :

plot(random_walk(N,m,s), type=’l’)

Faire varier les param`etres et observer les r´ealisations produites. En particulier, on pourra
modifier la tendance globale avec le param`etre m.

Q3. Pour un triplet de param`etres (N,m,s) fix´e, repr´esenter (sur le mˆeme graphe) 10 r
´ealisations du processus stochastique X.

Q4. On se place au niveau d’un ´epoque donn´ee tps (par exemple 150). Compiler dans un
unique vecteur les valeurs prises par le processus X `a l’abscisse tps sur 10 r´ealisations diff
´erentes.

Q5. Repr´esenter la distribution des valeurs prises par le processus X `a l’abscisse tps. Si L
est le vecteur contenant les r´ealisations de Xtps, on pourra utiliser la commande :
plot(density(L)).

40
Script 2. Generation d’une marche al´eatoire [code1.r]

N = 500; m = 0; s = 1 # Parametres

par(mfrow=c(1,2)) # Pour tracer 2 graphes

tps = 150; L=c()

plot(0,xlim=c(0,500),ylim=c(-100,100))# On initialise le graphique

for (realisation in 1:10){ # On genere 10 realisations


X = random_walk(N,m,s) L = c(L, X[tps]) lines(X)
# Generation du processus
}
# Representation graphique

abline(v=tps, lty=2)
plot(density(L)) # Distribution de X[tps]

Pour aller plus loin, on pourra ´etendre le code pour repr´esenter simultan´ement les distributions
au niveau de deux ´epoques diff´erentes, par exemple 100 et 350. La figure 2.3 illustre le r´esultat
obtenu.
1
0

0.
3
0

5
0
2
0

0.
1
0

Den
X

0
0

0.

5

1

2

0.

0 100 200 300 400 500 0 100 200 300 400 500 −100 −50 0 50 100

Fig. 2.3. R´esultat de code1.r : g´en´eration d’une r´ealisation du processus al´eatoire ( `a


gauche), g´en´eration de 10 r´ealisations (au centre) avec les coupes `a t = 100 (en rouge) et t =
350 (en bleu), et distributions de probabilit´es des variables Xt correspondantes ( `a droite).

La figure 2.3 illustre bien le concept d’espace topo-probabiliste. A` gauche, la r´ealisation ω ∈ Ω est
fix´ee, et on observe l’´evolution de la r´ealisation sur son domaine A` droite le lieu du do-
analytique.
maine est f ix´e : t = 100 (en rouge) ou t = 350 (en bleu), et on observe la variabilit´e stochastique
de Xt sur Ω, i.e. la densit´e de probabilit´e π(Xt) `a t fix´e. Au centre, on essaye de combiner la repr
´esentation des deux espaces (R en abscisse et Ω en superposant les courbes).

Par ailleurs, on observe que la variance Var[Xt] augmente `a mesure que t augmente (ce qui est
assez intuitif, la position du mobile est d’autant plus incertaine que le temps passe). En revanche l’esp
´erance E[Xt] est constante et ´egale `a 0. Nous dirons par la suite que le processus est
stationnaire `a l’ordre 1 (i.e. pour son moment d’ordre 1, l’esp´erance) mais non-stationnaire `a
l’ordre 2.

Nous programmerons d’autres processus stochastiques plus loin.


41
42
2.2 Une premi`ere approche informelle

Dans cette section, nous allons essayer d’acqu´erir une compr´ehension empirique de l’approche
em- ploy´ee par la G´eostatistique, en particulier pour r´esoudre le probl`eme d’interpolation.
Pour ce faire, nous utilisons une comparaison inspir´ee de Arnaud et Emery (2000) : on
consid`ere 6 exp´eriences al´eatoires (que nous repr´esenterons de mani`ere sch´ematique par
une collection de d´es `a jouer), dont la r´ealisation est observ´e pour 5 d’entres elles (x1 `a x5) et
inconnue pour la derni`ere (x6). On nous demande de pronostiquer le r´esultat de cette derni`ere
exp´erience.

x1 x2 x3 x4 x5 x6

En l’´etat des connaissances, on serait bien en peine de r´epondre. Probablement, le mieux que
l’on puisse faire pour minimiser les risques d’un ´ecart trop important `a la v´e r i t´e , ce serait de
parier sur l’esp´erance a priori de chaque exp´erience al´eatoire individuelle (i.e. 3.5 pour le cas du
d ´e `a 6 faces), ce qui est avouons-le, un prognostic relativement pauvre. L’´ecart-type associ´e, on
pourra le v´erifier `a titre d’entraˆınement, vaut 1.71.

En revanche, qu’en est-il si on sait `a pr´esent que les r´esultats de l’exp´erience sont spatialement corr
´el´es, ce que nous mod´eliserons graphiquement par des ressorts entre les diff´erentes r
´ealisations ?

+/- 1

x1 x2 x3 x4 x5 x6

On va alors intuitivement chercher `a regarder ce qui se passe sur la portion observ´ee pour
quantifier cette corr´elation. On y observe que les valeurs prises par deux r´ealisations voisines
ne diff`erent (en r`egle g´en´erale) pas plus d’une unit´e. Une estimation sur x6 serait alors
vraisemblablement 2 ± 1.

G´en´eralisons cette analogie pour le cas de l’interpolation des valeurs d’un MNT (fig. 2.4). Le
semis de relev´es d’altitudes nous permet d’´etudier les corr´elations statistiques du ph´enom`ene.

Dans une seconde phase, le mod`ele de corr´elation ainsi i nf´er´e va ˆetre utilis´e pour pr´edire plus
finement les valeurs inconnues (fig. 2.5). Nous ´etudierons cette seconde ´etape dans le chapitre 3.

Cette mani`ere de proc´eder suppose toutefois deux hypoth`eses importantes :

• Collecter des informations aux points observ´es pour les transf´erer aux sites inconnus n
´ecessite une uniformit´e des propri´et´es statistiques du ph´enom`ene sur tout le domaine
d’´etude. C’est la stationnarit´e.

• Nous disposons initialement de n mesures d’altitude, mais il ne faut pas oublier que ces

43
obser- vations appartiennent toutes `a une unique r´ealisation Z(ω) du processus
stochastique. Pouvoir inf´erer des informations de nature statistique `a partir d’une unique r
´ealisation n’est absolument

44
pas trivial, et requiert une second hypoth`ese un peu plus technique : l’ergodicit´e.

y4 y4
? ? ?
y3
? ? y3
? ? ?
y2 ? y2
? ? ?
y1 ?? y1
?
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6

Fig. 2.4.
A` gauche : probl`eme d’interpolation consistant `a trouver les valeurs des r´ealisations
inconnues (en rouge) `a partir des sites observ´es (en A` droite : ´etude des corr´elations entre les
noir). r´ealisations (uniquement `a l’aide des
observations).

y4

y3

y2

y1

x1 x2 x3 x4 x5 x6

Fig. 2.5. R´esultat de la proc´edure d’interpolation

2.3 Les hypoth`eses fondamentales

Un processus Z est enti`erement d´etermin´e par ses lois jointes fini-dimensionnelles :

FX(z1, ...zk) = P[Z(x1) :( z1, ....Z(xk) :( zk] (2.2)

o u` X = [x1, x2, ...xn] est un vecteur (de dimension finie) r´epertoriant les n sites concern´es par la
loi fini-dimensionnelle. Remarquons que pour un domaine de taille finie p, il y a autant de lois FX
que de vecteurs X possibles, `a savoir 2p, le nombre de D partitions de . Pour un domaine continu
D en pratique, et on choisit
(e.g. R), la connaissance de la famille (infinie) de ces lois est impossible
de caract´eriser Z uniquement `a l’aide de ses 2 premiers moments : moyenne et covariance.

2.3.1 La Stationnarit´e
Informellement, la propri´et´e de stationnarit´e d’un processus stochastique d´ecrit l’uniformit´e
de ses propri´et´es statistiques sur son domaine de d´efinition analytique. Cela ne signifie en
aucun cas qu’il est constant, mais seulement que ses r´ealisations ont les mˆemes chances de produire
les mˆemes motifs en tout lieu x du domaine.

45
On distingue plusieurs types de stationnarit´e en fonction des propri´et´es cibl´ees.

D´efinition 19 (Stationnarit´e au sens fort (SSS))

Un processus stochastique est dit stationnaire au sens fort, ou au sens strict si, et seulement si, toutes ses lo

FX(z1, z2, ...zn) = FX+h(z1, z2, ...zn)

Remarque : h est un vecteur de mˆeme dimension que les points du domaine D. Donc, dans le
cas du probl`eme mod`ele du MNT, h est un vecteur 2D, avec deux composante Est-Ouest et Sud-
Nord.

L’hypoth`ese de stationnarit´e au sens fort est beaucoup trop lourde en pratique, puisque impossible
`a v´erifier, mˆeme de mani`ere approch´ee.

D´efinition 20 (Stationnarit´e `a l’ordre 2 (WSS))


Un processus stochastique est dit stationnaire au sens faible, ou au sens large, si et seulement si, ses de
E[Z(x)] = E[Z(x + h)]
Cov[Z(x1), Z(x2)] = Cov[Z(x1 + h), Z(x2 + h)]

Le point (i ) peut ˆetre reformul´e comme suit : il existe une valeur m telle que E[Z(x)] = m pour
tout point x ∈ D. Par ailleurs, un processus v´erifiant cette condition (i ), sans n´ecessairement v
´erifier (ii ), est qualifi´e de stationnaire `a l’ordre 1.

Propri´et´e 21 (Stationnarit´e `a l’ordre 2)

Soit Z un processus stationnaire au sens faible, alors sa covariance ne d´epend que du


vecteur s´eparant les sites :

Cov[Z(x1), Z(x2)] = f (x1 − x2)

Preuve : Z ´etant stationnaire `a l’ordre 2, sa covariance est invariante par translation h ∈ D :


Cov[Z(x1), Z(x2)] = Cov[Z(x1 + h), Z(x2 + h)]. En particulier, on peut choisir h = −x2 et on obtient
alors : Cov[Z(x1), Z(x2)] = Cov[Z(x1 − x2), Z(x2 − x2)] = Cov[Z(x1 − x2), Z(0)]. Cette fonction ne d
´epend que de x1 − x2, le vecteur s´eparant les deux sites, d’ou` le r´esultat.

Cette propri´et´e (et sa d´emonstration) mettent clairement en ´evidence que la covariance des
valeurs prises pas le ph´enom`ene entre deux sites s´epar´es d’un vecteur _v , est ´egale `a la
covariance entre la valeur prise en l’origine et celle prise en un point _v . Autrement dit, la
ressemblance statistique en- tre les valeurs prises en deux sites, ne d´epend que de leur position
relative, et non de l’origine du rep`ere.

A` titre d’exemple, le processus de marche al´eatoire ´etu d i´e dans l’activit´e I (fig. 2.3) est
stationnaire `a l’ordre 1 (la valeur moyenne des signaux est uniforme) mais non-stationnaire `a
l’ordre 2 (la variance,
46
traduite ici par la dispersion des r´ealisations, augmente le long de l’axe des abscisses). Il n’est
donc pas stationnaire au sens faible, et a fortiori, il n’est pas non plus stationnaire au sens strict.
Nous d´emontrerons rigoureusement cette affirmation plus loin.

Par commodit´e, nous ajoutons une hypoth`ese subsidiaire, qui n’est pas indispensable (et pourra
facile- ment ˆetre relax´ee), mais qui simplifiera la pr´esentation : l’isotropie.

D´efinition 22 (Isotropie)

Soit Z un processus stationnaire au sens faible. On dit que Z est isotrope si, et seulement si, sa covariance n

Cov[Z(x1), Z(x2)] = C(||x1 − x2||)

On appelle covariogramme cette fonction C. C’est une fonction classique de R+ dans R+, prenant
en entr´ee la distance hij s´eparant deux sites xi et xj et retournant la covariance des valeurs
prises par le ph´enom`ene en ces deux sites : Cov[Zi, Zj]. On donne un exemple de covariogramme en
figure 2.6.
1
0
0
C

0
0
0

0 200 400 600 800 1000

Fig. 2.6. Pour une distance h donn´ee s´eparant 2 lieux, le covariogramme C(h) d´esigne la
covariance (ou si on pr´ef`ere la ressemblance) entre les valeurs prises par le ph´enom`ene en ces
2 lieux.

On a syst´ematiquement C(0) = σ2 , l’´ecart-type du processus. En effet, C(0) = Cov[Z(x), Z(x)] =


Z
Var[Z(x)] = Var[Z] (par stationnarit´e du processus). En g´en´eral 2 , la fonction C tend vers 0 en
l’infini (les variables tendent `a se d´ecorr´eler `a mesure qu’elles sont ´eloign´ees g
´eographiquement.

Plus le covariogramme d´ec r oˆı t rapidement, plus la structure du ph´enom`ene sous-jacent est
locale. Par exemple, on peut parfaitement imaginer que la figure 2.6 repr´esente le covariogramme
du relief sur une zone montagneuse. Pour h > 600 m, on observe que la corr´elation entre sites est
quasi-nulle. Cette valeur critique (que nous appellerons port´ee par la suite) correspond
47
typiquement `a la taille
2
Il existe des contre-exemples artificiels, mais cette propri´et´e est vraie en g´en´eral pour des ph´enom`enes naturels.

48
caract´eristique d’une structure : vall´ee, colline...

2.3.2 L’ergodicit´e
Pour estimer le covariogramme en pratique, nous devons partir des observations z1, z2, ...zn, qui ne
sont que des mesures ponctuelles pr´elev´ees sur une unique r´ealisation. Il est important ici de
bien saisir l’importance de cette limitation. Dans le cadre de la G´eostatistique, les donn´ees collect
´ees sur la variable r´egionalis´ee (altitudes, temp´eratures...) sont le r´esultat d’un double
´echantillonnage, d’abord dans l’espace probabiliste Ω, puisque seule une r´ealisation est disponible,
puis dans l’espace analytique
D (i.e. l’espace physique r´eel) puisqu’on ne peut observer qu’un nombre fini de sites.

Observation
Réalisation

Fig. 2.7. Tout l’enjeu du probl`eme consiste `a inf´erer des informations statistiques sur un ph
´enom`ene (mo d´elis´e par le processus stochastique X) `a partir des donn´ees disponibles x˜ ,
qui ne sont que des observations partielles d’une unique r´ealisation de ce ph´enom`ene.

D`e s lors, se pose la question de savoir comment d´eduire des informations de nature statistique `a
partir d’une unique r´ep´etition d’une exp´erience al´eatoire. L’id´ee centrale va consister (lorsque
c’est possible)
`a compenser le manque de r´ealisations par l’´etendue spatiale des informations collect´ees.

Imaginons que nous puissions observer une r´ealisation d’un processus (supposons par exemple
un MNT), sur une domaine tr`es grand (e.g. sur un carr´e de plusieurs dizaines de km de c ˆo t´e ) .
Si le do- maine d’´etude D est suffisamment grand, on peut alors envisager de le segmenter en un
certain nombre
de zones, nous permettant ainsi d’obtenir virtuellement plusieurs r´ealisations (quasi-ind´ependantes)
du processus.

Fig. 2.8. Cr´eation artificielle de plusieurs r´ealisations ω1, ω2... du ph´enom`ene par segmentation.

Remarquons que le domaine initial doit ˆetre suffisamment grand pour que cette approximation ait une

49
chance d’ˆetre valide. En effet, si par exemple on segmente `a nouveau la r´ealisation ω9 (portion du
coin sud-est) du domaine de la figure 2.8, on sent bien intuitivement que les sous-zones qui en r
´esulteront

50
ne poss´ederont alors plus les mˆemes caract´eristiques statistiques que ω9.

En quelques sortes, on ´echange de l’information sur le domaine g´eographique D, contre de


l’information sur l’espace probabiliste Ω. Pour que cette substitution soit rigoureusement
correcte, le processus
´etudi´e doit poss´eder une propri´et´e statistique suppl´ementaire : l’ergodicit´e.

L’hypoth`ese ergodique3 consiste `a admettre que l’´etude d’un processus sur son domaine analytique
(e.g. au cours du temps pour un signal, ou sur l’espace g´eographique pour un MNT), apporte
rigoureusement la mˆeme information qu’une suite de r´ealisations al´eatoires.

Fig. 2.9. Illustration du concept d’ergodicit´e : la distribution statistique des valeurs prises au cours
du temps par une r´ealisation quelconque du signal, tend `a devenir ´egale `a la loi de probabilit´e
d’un
´echantillon X(ti) pris `a un temps ti quelconque. Source : Antoni (2013)

Cette d´efinition de l’ergodicit´e, dite ergodicit´e au sens strict est beaucoup trop forte en pratique.
Nous nous restreindrons aux notions d’egocidicit´e au premier et second ordre.

D´efinition 23 (Ergodicit´e `a l’ordre 1)

Soit Z un processus stochastique.On dit que Z est ergodique a` l’ordre 1, ou encore


ergodique pour la moyenne, si et seulement si, pour toute r´ealisation z du processus :

- -
1
z(x)dx−→Z(x, ω)dP(ω) = E[Z]
D D |D|→∞ Ω

avec |D| qui d´esigne la taille de D (longueur, surface, volume...).

Autrement dit, la moyenne spatiale des ´echantillons d’une r´ealisation doit ˆetre ´egale `a la
moyenne statistique de la variable al´eatoire d´esignant la valeur prise par le processus en un lieu
donn´e. Dit de mani`ere imag´ee, et en reprenant l’exemple de la feuille de papier froiss´ee, on
dira que ce processus est ergodique si la hauteur moyenne de la feuille (calcul´ee en moyennant la
hauteur de tous les points
3
Ethymologiquement, le terme ergodique a ´et´e introduit dans le domaine de la physique statistique, pour d´esigner

51
la propri´et´e d’un ensemble de particules, dont l’´etude statistique de la trajectoire de l’une d’entre elles (arbitrairement
choisie) est repr´esentative des caract´eristiques (vitesse, acc´el´erations, etc.) de l’ensembles des particules

52
d’une feuille apr`es la r´ealisation d’une exp´erience al´eatoire), est ´egale `a la hauteur d’un point
donn´e arbitraire (par exemple le centre) de le feuille, moyenn´ee sur un grand nombre de r
´ealisation.

Remarque : pour qu’une moyenne calcul´ee sur tout le domaine analytique D converge vers une
unique valeur d’esp´erance qui ne d´epende pas du lieu donn´e, n´ecessairement, pour ˆetre
ergodique `a
l’ordre 1, un processus doit a minima ˆetre stationnaire `a l’ordre 1.

Exemple 2.1. On peut donner un exemple simple de processus non-ergodique : le signal al


´eatoire constant sur chacune de ses r´ealisations Z(x, ω) = A(ω). Concr`etement : on souhaite g
´e n´e r e r al´eatoirement le relief du terrain sur une zone donn´ee. Pour ce faire, on propose de tirer
al´eatoirement un nombre `a l’aide d’un d ´e `a 6 faces, puis on affecte la valeur obtenue `a toutes
les cellules du terrain. Le processus est bien stationnaire `a l’ordre 1, toutes les cellules ont la
mˆeme esp´erance d’altitude :
E[Z] = 3.5. Prenons une r´ealisation quelconque ω ∈ Ω = {1, 2, 3, 4, 5, 6}, par exemple ω = 2, et
calcu- lons une moyenne spatiale du MNT g ´e n ´e r ´e . Toutes les cellules ayant pris la valeur 2,
cette moyenne vaut ´egalement 2 /= E[Z], quelque soit la taille du terrain. Ce processus n’est donc
pas ergodique.

De mani`ere compl`etement analogue, on d´efinit l’ergodicit´e `a l’ordre 2 comme ´etant la


propri´et´e d’un signal al´eatoire dont chaque r´ealisation comporte individuellement toute
l’information n´ecessaire au calcul de la covariance :

D´efinition 24 (Ergodicit´e `a l’ordre 2)

Soit Z un processus stochastique ergodique `a l’ordre 1. On dit que Z est ergodique `a l’ordre
2, ou encore ergodique pour la covariance, si et seulement si, pour toute r´ealisation z du processus (de m

-
1 t )t ) −→Cov[Z(x + h), Z(x)]
D z(x + h) − mz(x)
z − m dxz
D |D|→∞

avec |D| qui d´esigne la taille de D (longueur, surface, volume...).

Remarque : ´etant donn´e que Z est suppos´e ˆetre ergodique `a l’ordre 1, l’ergodicit´e `a l’ordre 2 peut
ˆetre caract´eris´ee par une relation asymptotique ne requi´erant pas la connaissance de mz:

1 - [ ]
z(x + h)z(x)dx E Z(x + h)Z(x)
D− D→ |D|
→ ∞

En effet, en partant du membre de gauche de la d´efinition 24, on a :

- - -
1 t )t ) 1 1
z(x + h) − m z(x) − m dx = z(x + h)z(x)dx − z(x)dx + m2dx
z z
D D- D D D
2mz
z
- - D D D
1 1 [ ]
= z(x+h)z(x)dx−2m2z+m2z = z(x+h)z(x)dx−m2z −→ E Z(x+h)Z(x) −m2z
D D D D |D|
53
[ ] [ ] [ ]
Et `a droite : Cov Z(x + h), Z(x) = E Z(x + h)Z(x) − E[Z(x + h)]E[Z(x)] = E Z(x + h)Z(x) − m2
z

54
2.3.3 Les hypoth`eses en pratique
Pour pouvoir appliquer les techniques de la G´eostatistique lin´eaire, on doit ˆetre en mesure de
calculer le covariogramme du ph´enom`ene ´etudi´e, qui donc en ´echange doit pouvoir ˆetre mod
´elis´e de mani`ere satisfaisante par une processus stochastique stationnaire 4 et ergodique au second
ordre. L’isotropie est une propri´et´e souhaitable pour all´eger les calculs, mais non-indispensable. Si
ces hypoth`eses sont par- faitement v´erifiables (ou r´efutables) pour des processus stochastiques
formels (i.e. des signaux d´efinis de mani`ere th´eorique par des ´equations) comme nous allons le
voir dans l’activit´e II, la situation est en revanche beaucoup plus compliqu´ee dans le cas de ph
´enom`enes r´eels :

• La stationnarit´e `a l’ordre 1 est v´erifi´ee lorsque le signal observ´e ne pr´esente pas de


tendance de fond. Cependant, on peut facilement rendre le processus stationnaire, en estimant
la tendance, en l’´eliminant, puis en appliquant l’analyse variographique sur le signal r´esiduel
qui en principe doit ˆetre stationnaire pour la moyenne.

• La stationnarit´e `a l’ordre 2 stipule que la variabilit´e du signal doit ˆetre `a peu pr`es la
mˆeme sur tout le domaine. Si ce n’est pas le cas (et si la taille du domaine est suffisamment
importante pour le permettre), il faudra n´ecessairement segmenter le signal de sorte `a le
rendre approximativement stationnaire pour la covariance sur chaque zone.

• L’ergodicit´e (au premier et second ordre) est impossible `a v´erifier en pratique.

• L’isotropie stipule que le ph´enom`ene est insensible aux directions. En g´e n´e ra l ,
hormis en pr´esence de pathologies g´eomorphologiques marqu´ees (failles, rift...) un MNT peut
ˆetre consid´er´e comme isotrope.

• Dans tous les cas, on peut se r´ef´erer `a la litt´erature pour s’savoir si la classe de ph
´enom`enes
´etud i´ee (gisement d’or, altitude du terrain, pression atmosph´erique, etc.) est reput´ee poss
´eder les propri´et´es souhait´ees.

Activit´e II. Stationnarit´e


Dans la section 2.1, nous avons d´efini le concept de processus stochastique, que nous avons manipul
´e dans l’activit´e I. La section 2.3 a ´en o nc´e les 2 hypoth`eses fondamentales pour pouvoir
calculer le co- variogramme d’un processus `a partir d’un semis de points observ´es : la stationnarit
´e et l’ergodicit´e au second ordre. Dans cette activit´e, nous proposons 6 exemples concrets de
processus stochastiques uni-dimensionnels, pour lesquels nous allons chercher `a valider ou r´efuter
l’hypoth`ese de stationnarit´e :

a) Xt = wt avec wt ∼ N (µ, σ)
b) Xt+1 = Xt + kwt + b avec (k, b) ∈ R2 et wt ∼ N (0, 1)
c) Xt+1 = ρXt + c + wt avec (ρ, c) ∈ R2 wt ∼ N (0, 1)
d) Xt = A cos(ωt), Yt = B sin(ωt) et Zt = Xt + Yt, avec ω ∈ R et A, B ind´ependantes ∼ N (0, 1)
e) Xt = r cos(ωt + ϕ), avec (ω, ϕ) ∈ R2 et r ∼ N (0, 1)
f) Xt = r cos(ωt + ψ), avec (ω, r) ∈ R2 et ψ ∼ U ([−π; π])

4
Par la suite, nous verrons que l’hypoth`ese moints exigeante de stationnarit´e intrins`eque est suffisante en pratique.

55
On rappelle que la notation x ∼ N (µ, σ) signifie que la variable x est distribu´ee al´eatoirement
suivant une loi normale de moyenne µ et d’´ecart-type σ. De mˆeme, x ∼ U ([a; b]) signifie que x
est distribu´ee al´eatoirement et uniform´ement dans l’interavalle [a, b].

L’objectif de ces travaux pratiques est de valider ou invalider les hypoth`eses suivantes :

Stationnarit´e D Non D A` l’ordre 1 D A` l’ordre 2

On pourra utiliser au choix l’une des deux strat´egies suivantes pour r´esoudre le prob`eme : (1)
ex- primer analytiquement les esp´erances et les variances des processus ou bien (2) proc´eder de
mani`ere similaire `a celle employ´ee dans le script 1 (page 32), i.e. simuler informatiquement un
certain nombre de r´ealisations du processus et les repr´esenter graphiquement.

Correction :

On commence par donner la r´esolution analytique du probl`eme pour chaque processus, puis on
´ecrit le code n´ecessaire `a la simulation informatique.

a) Il s’agit d’un bruit blanc classique. On a E[Xt] = E[wt] = µ, ind´ependant de t donc X est station-
naire `a l’ordre 1. Par ailleurs, la covariance de deux ´echantillons s´ep ar´es d’un intervalle τ est :


σ2 si τ = 0
Cov(Xt, Xt+τ ) 0 sinon.

Cette covariance ne d´epend que de τ donc le processus X est ´egalement stationnaire `a l’ordre 2.

Stationnarit´e D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2

b) Le processus X est une marche al´eatoire r´eelle `a temps discret, similaire `a celle d´efinie
par l’´equation 2.1. On a : E[Xt+1] = E[Xt + kwt + b] = E[Xt] + kE[wt] + b = E[Xt] + b. L’esp
´erance du signal est donc constante au cours du temps si, et seulement si, b = 0. Dans ce
cas, X est
stationnaire `a l’ordre 1. Sous l’hypoth`ese o u` b = 0, ´etudions `a pr´esent la variance du proces-
sus5 : Var[Xt+1] = Var[Xt + kwt] = Var[Xt] + k2Var[wt] (puisque les 2 termes sont ind´ependants)
= Var[Xt] + k2. Ici aussi, le processus ne peut ˆetre stationnaire `a l’ordre 1 que si k = 0. Dans
ce cas, l’´equation du processus est r´eduite `a : Xt+1 = Xt autrement dit, X est une suite
constante,
compl`etement d´etermin´ee par son premier terme. Elle est donc stationnaire au sens strict. Dans
le cas g´e n´e r a l cependant, k /= 0, b /= 0 et le r´esultat est :

Stationnarit´e D✓ Non D A` l’ordre 1 D A` l’ordre 2

Etudions quand mˆeme la covariance du processus pour le cas k /= 0 : Xt+1 = Xt + kwt. On a alors,
pour un d´ecalage τ � 0 : Xt+τ = Xt + kwt + kwt+1 + ... + kwt+τ−1. D ’ o u` :

5
Pour d´eterminer si le processus est stationnaire a` l’ordre 2, c’est bien la covariance qu’il faut ´etudier, mais si on
trouve que la variance est d´ej`a non-stationnaire, on aura montr´e a` moindre frais que X n’est pas stationnaire `a l’ordre 2.

56
( τ ) τ
−1 −1
Cov(Xt, Xt+τ ) = Xt, Xt + Lwt+n = Cov(Xt, Xt) + LCov(Xt, wt+n)
Cov k k
n=0 n=0
= Var[Xt] = Var[X0] + tk2

Donc, en supposant d´eterministe le premier ´echantillon X0 (comme c’est le cas dans 2.1) :

Cov(Xt , Xt ) = k2 min(t1, t2) (2.4)


1

La ressemblance entre deux ´echantillons Xt1 et Xt2 ne d´epend donc pas de l’´ecart de temps τ = |t1

−t2|
les s´eparant, mais uniquement de la date du premier des deux ´echantillons.

c) X est un processus autor´egressif d’ordre 1 : AR(1). Il g´en´eralise les deux processus pr´ec
´edents : avec ρ = 1 on obtient une marche al´eatoire, et avec ρ = 0 on a un bruit blanc gaussien.

[ ]
E[Xt+1] = E ρXt + c + wt = ρE[Xt] + c (2.5)

Var[Xt+1] = Var[ρXt + c + wt] = ρ2Var[Xt] + 1 (2.6)

Le processus ne peut ˆetre stationnaire `a l’ordre 2 que si E[Xt+1] = E[Xt] et Var[Xt+1] =


Var[Xt]. Les ´equations de r´ecurrence 2.5 et 2.6 imposent donc les 2 conditions suivantes sur les
param`etres (en supposant ρ /= 1 dont le cas a d´e j `a ´e t ´e ´etudi´e pr´ec´edemment) :

c
E[X ] = 1
Var[X ] = (2.7)
t t
1− ρ 1 − ρ2
La positivit´e de la quantit´e Var[Xt] impose donc n´ecessairement la condition ρ < 1. Calculons `a pr
´esent la covariance entre deux ´echantillons successifs Xt et Xt+1 :

ρ
Cov(Xt+1, Xt) = Cov(ρXt + c + wt, Xt) = ρCov(Xt, Xt) = ρVar[Xt] =
1 − ρ2
ρ2
Cov(Xt+2, Xt) = Cov(ρXt+1 + c + wt+1, Xt) = ρCov(Xt+1, Xt) =
1 − ρ2
... = ...
ρτ
Cov(Xt+τ , Xt) = Cov(ρXt+τ−1 + c + wt+τ−1, Xt) = ρCov(Xt+τ , Xt) =
1 − ρ2

La covariance ne d´epend que de l’´ecart τ entre les ´echantillons, et non de la date absolue t. Donc, le
processus X est stationnaire au second ordre, sous les conditions :
c 1
ρ < 1 et X0 distribu´e suivant une loi de moyenne µ = et d’´ecart-type σ =J
1− ρ 1 − ρ2
57
Stationnarit´e D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2

58
d) X et Y sont deux signaux sinuso¨ıdaux d’amplitudes al´eatoires, `a phases fix´ees et
mutuellement en opposition de phase. On[ a : E[Xt] ]= E A cos(ωt) = E[A] cos(ωt) = 0, puisque A
est d’esp´erance nulle. Le processus est donc stationnaire pour la moyenne. En revanche Var[Xt]
= Var[A] cos2(ωt) = cos2(ωt), d´ependant de t et donc X n’est pas stationnaire `a l’ordre 2. Par
sym´etrie, on obtient la mˆeme conclusion pour le processus Y . Int´eressons-nous `a pr´esent
`a la somme des deux processus :

E[Zt] = E X[ t + Yt =] E[A] cos(ωt) + E[B] sin(ωt) = 0


[ ]
Var[Zt] = Var Xt + Yt = Var[A] cos2(ωt) + Var[B] sin2(ωt) = cos2(ωt) + sin2(ωt) = 1

Plus g´en´eralement, pour la covariance, en consid´erant s et t deux instants quelconques :

Cov(Zs, Zt) = Cov tXs + Ys, Xt + Yt )= Cov(Xs, Xt) + Cov(Xs, Yt) + Cov(Ys, Xt) + Cov(Ys, Yt)
=E A [ 2 cos(ωs) cos(ωt) ]+ E[A]E[B] tcos(ωs) sin(ωt) + sin(ωs) cos(ωt) )+ E [B2 sin(ωs) sin(ωt) ]

= E A[ 2 cos(ωs)
] cos(ωt) + E [B2 ]sin(ωs) sin(ωt)
= cos(ωs) cos(ωt) + sin(ωs) sin(ωt)
t )
= cos ω(s − t) = cos(ωτ )

La covariance entre deux ´echantillons Zt et Zs ne d´epend donc que de l’´ecart τ = |s − t|. Le


pro- cessus Z est donc stationnaire `a l’ordre 2 (malgr´e la non-stationnarit´e de ses 2 composantes
additives).

Stationnarit´e de Z D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2

e) Il s’agit d’un signal sinuso¨ıdal `a phase et fr´equence fix´ees et d’amplitude al´eatoire.

E[Xt] = E r[ cos(ωt + ϕ) ]= E[r] cos(ωt + ϕ) = 0


Var[Xt] = Var[r] cos2(ωt + ϕ) = cos2(ωt + ϕ)

La variance est fonction du temps t donc le processus X n’est pas stationnaire `a l’ordre 2.

Stationnarit´e D Non D✓ A` l’ordre 1 D A` l’ordre 2

f) Il s’agit d’un signal sinuso¨ıdal `a fr´equence et amplitude fix´ees et de d´ephasage al´eatoire.

[
E[Xt] = rE cos(ωt + ψ)] = r - πcos(ωt + ψ)dψ = r [sin(ωt + ψ) π] = 0
2π π 2π −π

[ ] 2 -π
Cov(Xs, Xt) = r2E cos(ωs + ψ) cos(ωt + ψ) = r cos(ωs + ψ) cos(ωt + ψ)dψ
2π −π

t )
En utilisant l’identit´e trigonom´etrique cos p cos q = 1
cos(p + q) + cos(p − q) , on obtient :
2
59
r2 - π t 2 -π t ) t )
Cov(Xs, Xt) = )dψ + r
2π −π cos ω(s + t) + cos ω(s−t) dψ = r2 cos ω(s−t) = r2 cos(ωτ )
2ψ 2π −π

Le processus X est donc stationnaire `a l’ordre 2 :

Stationnarit´e D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2

On donne ci-dessous le code R pour programmer ces 6 processus et contrˆoler de mani`ere exp
´erimentale l’hypoth`ese de stationnarit´e. On utilise les param`etres par d´efaut suivants :

a) µ = 0 et σ = 1

b) k = 1 et b = 0

c) ρ = 0.99 (non-stationnarit´e pour ρ � 1) et c = 1 (C dans le code)


d) ω = 1 (not´e w dans le code)

e) ω = 1 (not´e w dans le code) et ϕ = 0

f) ω = 1 (not´e w dans le code) et r = 1

On pourra g´e n´e re r n variables al´eatoires gaussiennes µ, σ ou uniformes U ([�; l]), respectivement
avec les commandes R : rnorm(n,mu,sigma) et runif(n,a,b).

Le script 3 donne la fonction generate_process permettant de simuler al´eatoirement l’un des 6


pro- cessus dans un vecteur de longueur N. On peut alors repr´esenter 500 ´echantillons, par
exemple du processus (c) par :

plot(generate_process(3,500), type="l")

Pour repr´esenter R r´ealisations de chacun des 6 processus (simultan´ement dans 6 fenˆetres


graphiques distinctes), on pourra utiliser le script 4. Si besoin, pour faciliter la visualisation, on peut
repr´esenter chaque r´ealisation d’une couleur diff´erente en ajoutant l’argument suivant `a la
fonction lines.

col=rgb(runif(1,0,1),runif(1,0,1),runif(1,0,1),1)

On peut alors tester de faire varier les param`etres des processus pour trouver les conditions sous
lesquelles les hypoth`eses de stationnarit´e (au premier et second ordre) sont v´erifi´ees.

60
Script 3. Stationnarit´e [code2.r]

# Parametres
C = 1; k = 1; b = 0; w = 1; r = 1; rho = 0.99; phi = 0; mu = 0; sigma = 1

par(mfrow=c(2,3)) # Pour tracer les 6 graphes dans une matrice

[2x3] #
# Fonction de generation des processus
# Entrees : indice i (1 a 6) du processus, longueur
N # Sortie : vecteur X de N echantillons du
processus i #
generate_process = function(id, N){

T = 10*(0:(N-1))/(N-1) # Initialisation du vecteur de pas de temps

# Simulation
if (id == 1){ # Bruit blanc gaussien
X = rnorm(N,mu,sigma)
}

if (id == 2){ # Marche aleatoire discrete


X = cumsum(k*rnorm(N,0,1) + rep(b,N))
}

if (id == 3){ # Processus auto-regressif AR(1)


X = rep(0, N)
X[1] = rnorm(1, C/(1-rho), 1/sqrt(1-rho*rho))
for (i in 2:N){
X[i] = rho*X[i-1] + C + rnorm(1,0,1)
}
}

if (id == 4){ # Somme de signaux sinusoidaux d’amplitudes aleatoires


S1 = rnorm(1,0,1)*cos(w*T)
S2 = rnorm(1,0,1)*sin(w*T)
X = S1+S2
}

if (id == 5){ # Signal sinusoidal d’amplitude aleatoire


X = rnorm(1,0,1)*cos(w*T + phi)
}

if (id == 6){ # Signal sinusoidal a dephasage aleatoire


X = r*cos(w*T + runif(1,-pi, pi))
}

return(X)

61
Script 4. Repr´esentation graphique de la stationnarit´e [code2.r]

N = 500 # Longueur du processus


R = 10 # Nombre de realisations

for (id in 1:6){


X = generate_process(id, N) marge = c(-1,1)*(max(X)-min(X))
plot(X, type="l", xlab="t", ylab="X", ylim=c(min(X), max(X))+marge)

for (realisation in 2:R){ lines(generate_process(id,N))


}
}

2.4 Le variogramme

Nous avons introduit la notion de covariogramme `a la fin de la section 2.3.1. Pour un proces-
sus stationnaire au second ordre et isotrope, le covariogramme est une fonction C qui, `a
tout r´eel positif h associe la covariance C(h) entre deux observations lorsque la seule information
dont on dispose a priori est la distance h s´eparant les deux sites sur lesquelles ont ´e t ´e effectu´ees ces
observations.

Il existe cependant des cas pratiques o u` la variance d’une loi n’existe pas. Il suffit par exemple de
consid´erer, dans le cas uni-dimensionnel, la loi de densit´e π d´efinie sur [1; +∞[ par π(x) = 2/x3,
dont la moyenne vaut 1, mais dont la variance est infinie, comme illustr´e sur la figure 2.10. On
pourra
trouver deux autres exemples de lois de variance infinie dans Hauchecorne (2007).
2
1
1
p

0
0

2 4 6 8 10

Fig. 2.10. Illustration d’une loi de probabilit´e de variance infinie : π : x 1→ 2/x3. Cette
pathologie est caract´eristique des lois dont la densit´e ne d´ec roˆıt pas suffisamment rapidement
vers 0 `a mesure
que x augmente. Ces lois sont dites `a longue traˆıne.

Notons que cette limitation, qui pourrait sembler th´eorique au premier abord, n’est absolument
pas anecdotique. Arnaud et Emery (2000) par exemple, rapportent le cas de densit´e de minerais
dont la variance croˆıt ind´efiniment `a mesure que l’extension spatiale du gisement consid´er´e
augmente.
62
On pr´ef`ere donc utiliser un outil l´eg`erement plus g´en´eral : le variogramme, qui op`ere
directement sur les accroissements : c’est l’hypoth`ese intrins`eque.

D´efinition 25 (Hypoth`ese intrins`eque et Variogramme)

Un processus stochastique Z est dit intrins`equement stationnaire (ou intrins`eque ) s’il est
stationnaire pour la moyenne et si la variance de la diff´erence entre deux sites x et x + h
du domaine D distants de h, existe et ne d´epend que de h :
1 [ ]
γ(h) =Var Z(x + h) − Z(x)
2

La fonction γ : R+ → R+ est appel´ee variogramme (ou parfois semi-variogramme) de Z.

Remarque : si Z n’est pas+ isotrope, alors h est un vecteur de D, et le variogramme γ devient


une fonction de D dans R . Par la suite, sauf mention contraire, l’hypoth`ese d’isotropie sera
implicitement suppos´ee. Par ailleurs, nous motiverons plus loin l’introduction du facteur 1/2.

A` l’aide de l’identit´e 1.13, on obtient une expression plus interpr´etable de γ :

1 [ ]
1( [ 2 ] [ ]2)
γ(h) = Var Z(x + h) =
2 2 E (Z(x + h) − E Z(x + h)
[ ]
Or, Z est stationnaire pour la moyenne donc E Z(x + h) − Z(x) = E[Z(x + h)] − E[Z(x)] = 0 d ’ o u` :

1 1t )2l
γ(h) = E Z(x + h) − Z(x) (2.8)
2
Le variogramme indique donc, pour toute distance h, la moiti´e de l’esp´erance des ´ecarts entre
les valeurs prises par le processus en deux sites s´epa r´e s de h.
1020


2
0

●●●
●●● ●● ● ●●● ●
● ●●● ● ● ● ● ●●● ●● ●●●●●
●● ● ● ●

● ● ●● ● ● ● ● ●●●●● ●● ●
● ● ● ●● ● ●●●● ● ● ●● ● ●● ●●● ● ●●
● ● ●● ● ●● ● ●● ●● ● ●●● ● ●● ●
1
0

● ●● ● ●●● ●● ●●● ●●●●●


2
0

● ●● ● ●● ●
● ●●
● ● ● ● ●●●● ●●●●●●●●● ● ● ● ●●●●● ●●
● ●●● ● ●●●● ●●● ●●●● ●● ● ●●●●●●● ●●● ●● ● ● ● ●

● ● ● ●●● ●● ●●●●●● ● ●● ● ● ● ● ● ●
● ● ● ● ● ●● ●● ● ●● ● ● ● ●●● ●● ● ● ●

● ● ● ● ● ● ● ●● ● ●●●●●●●●●● ●●●● ●●●● ●●●●●●●●●●●●●●●●●● ●●● ● ● ●
●● ● ● ●● ●●●●● ●●●●●●● ●● ●●●● ●
● ● ●● ●
● ●● ●● ● ● ●●●● ●● ●●●●●●●●●●●●●●● ●●● ●●●●● ●●●●● ●●● ● ●●●● ●●● ● ●●
● ● ● ● ● ●● ● ● ●● ●●● ●● ●●●●●●●●●●●●● ●● ● ●●● ● ●● ● ●
● ●
● ●
● ● ● ● ● ● ● ● ●●●●●●●●●● ●●●●● ●●● ●●● ●●●●●●●●●●●● ● ●●● ●●
● ● ● ●●● ● ● ● ●● ● ● ●●●●●●● ●●●●● ●●●●●●●●●●●●● ●● ●● ●● ●●
● ●● ●
●● ●● ●●●● ●●● ●● ● ● ●● ●● ● ● ● ●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ●● ● ●
●● ● ● ● ● ●● ● ● ●●●●● ●●●● ●●●●●●● ●●● ●● ●●●●● ●●●●●●● ● ●●●●● ● ● ● ● ● ●
● ● ● ●● ● ● ● ●● ●
● ● ●● ● ● ● ●● ●●●● ●●● ● ●●● ●● ● ●●●●●●●●●● ●●● ●● ●● ●● ●● ●
● ● ● ● ● ● ● ●● ●
1
0

● ● ● ●●●●●●●● ●● ●● ●●●●● ●●●●●●●●●●●●● ●●● ●●●●●● ●●●


●● ● ● ● ● ● ● ●
● ● ● ●● ● ● ●●●● ●●● ●●●●●●●●●● ●●●●●●●
● ●● ● ●● ●● ● ●●●● ● ●●● ● ● ●● ● ● ●●●●● ● ●●●●●●● ● ●●● ●●●● ●●● ● ●
● ● ● ● ● ●● ● ●● ● ● ●
● ●● ● ●●●●● ● ●●● ● ● ●●●●●● ● ●● ● ● ●● ● ● ● ●● ●● ●●●●●● ●●●●●● ●●●
●●● ●●● ●●●●
●● ●●● ●●●●●●
●●●●●● ● ●●● ● ●
● ● ● ● ●● ●● ● ●● ●●● ●
● ● ● ●● ● ●
● ● ● ●●●●●●● ● ●●● ● ● ● ●●●● ● ●●●●● ● ●●●●●●●●●● ●● ● ●●●● ●●●● ● ●● ●
● ●● ● ●●●●
● ● ● ●● ● ●● ● ● ● ●
● ●● ● ● ●● ●●
●●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ●
−100

● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ●● ●● ●●●●●● ● ●● ●● ● ●●
−20−100

● ● ●● ●● ● ●● ● ● ● ● ● ●● ●●●●● ●●●● ● ●●●●●● ●●● ●●● ● ● ●●●


● ● ●
● ●● ● ●● ●
●● ●● ●● ●● ● ●●● ●●●● ●●●● ● ●●● ●●● ●●●●● ●● ●●
● ●●●●
●●●● ●●
●● ●● ●● ●●●●
●●● ● ●● ●● ● ● ● ● ● ● ● ● ●●●●● ●● ● ●●●●●● ●
● ● ●●●●● ● ● ● ●●● ● ●●●● ● ● ●● ●●● ● ● ● ●
●● ● ● ● ●● ● ● ● ●●●
●● ●● ●●●● ●●●
● ●● ● ●● ● ●● ●●● ● ●●●●
●●● ●● ● ●●● ●●●●●
●● ● ● ● ● ●

● ● ● ●●●● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●
● ● ●● ●● ● ●● ● ● ●● ●● ● ●● ● ●
● ●
● ●
● ● ● ●●
● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ●●
● ● ● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●●
● ● ●● ●●●● ● ● ●

●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ●●
● ●●● ● ● ● ● ●● ● ●● ● ● ● ● ●
●● ● ●● ●●● ● ●● ● ● ● ● ●

● ●●● ● ●● ● ● ● ● ●●●●●●●● ●●●● ●●●● ●●● ●●●


● ●● ●●●●● ●●●●●●● ●● ●●●●●● ●●●●● ●● ● ●
0

● ● ●●
●● ●●● ●●●●●●● ● ●●● ●●●●●●●●●●● ●●●●●●●● ●
●● ● ● ●●● ●●● ● ●● ●●●● ●● ●●●●●●●●●●●●●● ● ●
● ●● ●●●●●●● ●●● ●●●●●●● ● ●● ●● ●●●●●●●●●●●●●●●● ● ●●● ●
● ● ●● ● ● ●●● ●●● ●●● ●●●●● ●●●●●●●● ●●●●●●●●●● ● ●● ●●● ● ● ● ●

●●● ● ● ● ● ● ● ● ● ●● ● ●●● ●● ●●●● ●●●●●●●●●●●● ●●●●●●●●●●●● ●● ●● ● ● ●

●●● ● ● ● ● ●● ●●●●● ● ●● ●●●●●●●●●●● ●●●●●●●●●●● ●●●●●●● ● ●●● ● ● ●
●● ●●
● ● ●●●●● ●● ●● ● ●●●●●●●●●●●●●●●●●●● ●●● ● ●●●●●● ● ●● ●● ● ● ●
● ●● ● ● ● ●● ●●● ●● ●● ●● ● ●●●●●●●●●●●●●●●●●● ●●●● ●● ● ●●● ● ●
● ● ● ●●
● ● ●● ● ● ● ●●● ● ●●● ●●●●●●●●●●●●●● ●●● ●●●● ●● ●
● ●●● ●● ● ●●●●● ●●● ● ●●●●●●●●●● ●● ● ●●●●●●●●●● ● ●● ● ● ●
●● ● ●● ●●●●●● ●● ●
●● ●●●●● ● ●●● ●●●● ● ●● ● ● ●● ●● ●●● ● ● ●●●● ●●●●●●●●●●●● ● ●● ● ● ● ●
● ● ●
● ●●
●●●
● ●● ● ●
●●●● ●● ●● ●● ●● ●●●●● ●●●●●●● ●● ●●●●●●●● ● ●●●●●●●● ●●● ●●●●● ● ● ●●
●● ● ● ●●● ●●●
●● ● ● ● ●●● ●●

2
0

● ●● ●●● ● ●●
● ● ● ●
●● ● ●●● ● ● ●● ● ● ●●●● ● ●●● ●●●●● ●●●●
● ●●●●●●
●●●●●●●
● ●●●●●●
●●●●●●●●●●●
●●●●●●● ●●●●● ● ●● ●● ●
● ● ● ● ● ● ●● ● ●●● ● ● ●●●● ● ●●●●●●●● ●●●● ●●●●● ●●● ●●●●●●●●●● ● ●●●
●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●●● ● ●●●● ●●●●●● ●●●●●●●● ●● ●
● ● ●●● ● ●
● ●● ● ●● ●● ●●● ● ● ● ● ●●●● ●●●●●●●●●●● ●● ●●●● ● ● ●●●● ●
● ● ● ● ● ●●● ●●●●●●● ● ●● ●●● ●● ●● ● ● ● ● ●
● ●● ● ●● ●● ●
● ● ●● ● ●●● ●● ● ● ●●●● ●● ●●●●●●●●●● ● ●● ● ●
● ●●●
●●● ●●● ●● ●●●● ●
● ●
● ●● ●●●●● ●●● ● ●
● ●● ●●● ● ● ●● ● ● ●●●●● ●●● ●
●● ● ●● ●● ●●● ●●● ●● ●● ● ● ●●●
●●● ● ●●
●● ● ● ●
● ● ● ● ●●● ●● ●● ●● ●● ● ●● ●
●● ●●
● ●● ●● ● ● ●● ● ●●● ●
●●● ● ● ●● ● ● ● ●
●● ● ●● ●● ● ● ● ●●● ●● ● ●●● ● ●
● ●
● ●● ● ●●
● ● ●● ● ●● ●●●●●● ● ●● ● ● ●●●●●● ●
●●●● ●●●● ● ● ● ●
● ● ● ● ● ●● ● ● ● ● ● ●
● ●●● ●●● ●● ● ● ● ● ●

● ● ●●● ● ● ●● ●

● ●
●● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ● ● ● ●
● ● ● ●● ●●
● ● ● ●●● ● ● ●

● ●● ●●●
●●● ●●● ●●
● ● ● ● ● ● ● ●
● ●● ● ● ●
● ● ●
● ● ● ●●● ● ● ●
● ●● ● ●● ● ●● ●●● ● ● ●
● ● ● ●
● ● ●●● ●
● ● ●


● ●
● ●


●● ●● ●
●●
● ●
●●● ●●●● ● ●●●

● ●●


−20−10 0 10 20
● ●●● ●●● ● ●●
● ● ●
●●●
● ●● ●
●●
● ● ● ● ● ● ● ●● ●
● ●
● ● ●●●
● ● ● ● ● ●● ●
● ● ● ●● ●

● ●●●● ●● ●●● ●● ● ●
●●
●●● ● ● ●●●
● ●●
● ● ●
● −20−10 0 10 20

● ● ●● ●




● ●





−20−100 10 20

50


2
0


40
● ●
● ● ●●

● ●
●● ●● ●
● ● ● ● ●● ● ● ●
● ● ● ●● ● ● ● ●●● ● ●● ● ● ●
● ● ●● ● ●●●● ● ● ●
●● ●
● ● ●●● ●● ● ●●● ● ● ● ●
1
0

● ●●●●● ● ●● ● ● ●● ● ●● ● ● ●
● ●● ●● ●● ●●● ● ● ● ● ●●●●● ●●●●●●● ● ● ● ● ●
● ●● ● ●●● ● ●● ● ●●● ● ●● ●●●● ●●●●● ●● ● ● ●●
● ● ● ● ●●● ● ●● ●●●● ●●● ● ●● ●●● ● ● ●●● ●●
● ● ● ● ●● ● ● ● ●●●●●● ●●
●●●●●●●
●●●●●●●● ●●● ●●●●
● ●● ●● ● ● ● ● ● ● ● ●
● ● ● ●● ● ● ●●● ●● ● ●● ● ●●●●●●●●●● ● ●●● ●●●● ●●●● ●●● ●● ● ● ●

30
● ●●●● ● ●●●●● ●● ●● ●●●●●●●●●●●●● ●●●●● ●●● ● ●●● ●
●● ●● ● ● ● ●● ●●●●●●●●●●● ●●● ●●●●●●●●●● ●● ●●● ●●●●● ●● ●● ●●●● ● ● ●● ● ●
● ● ● ● ●● ●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●● ●●● ● ●●●● ● ● ● ●
● ●● ● ● ●● ● ● ●●●●●●●●●●● ●●●●●● ●● ●●●● ●●● ●●●●
● ● ●●● ●●● ●●●●●●● ● ●●●●● ●●●●●●●●●● ●● ●● ● ● ● ●
● ● ● ●● ●●●● ●●●●●● ● ●●●●●● ●●●●●●● ●●●● ● ● ●● ● ● ● ●●
● ● ●●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●
● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●● ●●●●● ● ●●● ●
0

●● ●●● ●●●●● ●● ●●● ●●●●●●● ●● ●●● ● ● ● ● ●● ● ●


Varia

● ● ●● ● ● ● ●●●●●●●●●●●●● ●● ●● ●● ● ●●● ●●●●●●●●●● ● ● ●●



●● ●● ● ● ●● ●● ●●●●●●●●● ●● ●●●●●●● ●● ●●● ● ● ●●
● ●● ●● ● ● ● ● ● ●●●●● ●●●●●● ●● ●●● ●● ●
● ●
● ● ● ● ●●● ● ●●● ●● ● ● ● ●● ● ●●●●●●●●●●●●● ● ● ●
● ●● ● ●
● ● ● ●● ● ●● ●● ●●●● ● ● ● ●●● ● ● ●●●● ● ● ●
1020

●●●● ● ● ● ● ● ●●● ●●●● ●● ● ●● ● ●●●●●● ●● ● ●● ●


● ●●● ● ● ● ● ● ●● ●●●● ● ●● ●● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ●●● ●●
●● ●●●● ●●
● ● ●● ●●● ●●● ●● ● ●● ● ● ●

20
●● ●●●●● ●●● ● ●●●●●● ●● ●●●● ● ● ● ●
● ●●● ● ●●●●●● ●
●● ●● ●● ● ●●●●● ●● ● ●● ● ●● ●●● ● ● ● ●

1
0

● ●● ● ●●●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●

● ●●● ● ● ●●● ●●●●● ●●●●● ● ●
● ● ●●●●●●●● ●● ●● ●●●●●● ●●●●● ● ●
● ●● ●● ●●●●● ●●●●●●● ● ●●●●●●●●●● ● ●● ●
● ● ● ●
● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●
● ●●
● ● ● ● ●

●●

●●
●●
●●
●●
●●
●●


●●

●●


●●
●●
● ● ●

● ● ●
● ●●●●●● ●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ●● ● ●
●● ● ●
●●
●●
●●


●●

●●


●●

●●
●●
●●
●●
●●
●●
●● ●●● ● ●● ●
● ● ●● ●● ● ● ●
●●
●●●
●●
●●
●●
●●
●●


●●

●●


●●

●●
●●
●● ● ●
● ●
●● ●
● ● ● ● ●
● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●
● ● ● ● ● ●

● ● ●
●●
●●


●● ● ●
●●●
●●


●●

●●


●●
●●
●●
●●
●●
●●
●● ●● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●● ● ●●●●● ●●● ●
●● ●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●● ● ● ●



●●



●●

●● ●
●●

●●

●●


●●
●●
●●

●●
●●
●●
●●

●● ●●
●●
●● ● −20−10 0 10

10

●● ●● ●


●●

●●


●●

●●


●●

●●


●●

●●


●●
●●
●●
●●
●● ●
●●●

● ● ●
● ●●●●● ●● ●●●●●●●●●●●●●●● ●●● ●● ● ● ●

● ● ● ● ●●●● ●● ●●
●●



●●

●●



●●



●●




●●

●●●●●●●●

● ●
●●●●●
● ●●●● ●●●●●●
● ●●●●●●●●●●●● ● ●● ●●● ●
● ● ●● ●●● ●● ● ●●●●
●●●●●
●●●●●● ●
●●●
●●
●●
●●●
●●
●●●

● ●●● ●
● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●● ●
0

●●● ●● ● ●
● ●● ●●● ● ● ● ●
●●●●● ●●● ●
● ● ● ●●● ●●● ●
●● ● ●
● ●
●●● ●

0


2
0

0 100 200 300 400


500
−20−10 0 10 20

Distance entre sites h (m)

Fig. 2.11. Chaque valeur γ(h) du variogramme traduit la dissemblance entre deux sites s´epar´es
63
d’une distance h. Plus γ(h) est faible plus les valeurs prises sur les deux sites sont statistiquement
similaires.

64
L `a o u` le covariogramme C(h) mesure la ressemblance entre sites, le variogramme γ(h) est quant
`a lui un indicateur de la dissemblance. On s’attend donc `a avoir une relation antagoniste entre les
fonctions C et γ. C’est la relation fondamentale de la G´eostatistique :

Th´e or`eme 26 (Relation fondamentale variogramme/covariogramme)

Pour un champ stationnaire au sens large, pour toute distance h, variogramme et covari-
ogramme sont li´es par la relation :

γ(h) = C(0) − C(h)

Preuve : en consid´erant x et x + h deux sites quelconques s´e p a r´e s d’une distance h, on a : 2γ(h)
= Var[ Z(x) − Z(x + h)] = Var[Z(x)] + Var[Z(x + h)] − 2Cov(Z(x), Z(x + h)) = 2Var[Z] − 2C(h).
En
faisant remarquer que Var[Z] = Cov(Z(x), Z(x)) = C(0) et en divisant les deux membres de l’´equation
par 2, on obtient la relation fondamentale de la G´eostatistique.
1
0
0
C

0
0
0

0 200 400 600 800 1000

Fig. 2.12. Lorsque le covariogramme C existe, il est l i ´e au variogramme γ par la relation γ =


C(0) − C(h). A l’infini, le variogramme atteint donc le pallier C(0) = σ2.

Une mani`ere simple de comprendre le variogramme est de consid´erer γ(h) comme l’incertitude
en- tourant la valeur prise par le ph´enom`ene en un lieu donn´e, ´etant donn´ee l’observation
d’une valeur prise en un site distant de h. Cette incertitude est donc intuitivement maximale quand
les deux sites sont s´ep ar´e s d’une distance qui tend `a devenir infinie6. A` l’inverse, si les deux
sites sont voisins (typ- iquement quelques m`etres de distance dans le cas du MNT), alors
l’observation de Z(x1) d´etermine pratiquement la valeur prise par Z en x2.

Lorsqu’ils existent tous deux, variogramme et covariogramme contiennent la mˆeme information.


S’ils sont donn´es par un oracle (i.e. s’ils sont parfaitement connus et qu’il n’est pas n´ecessaire de les
estimer
`a partir d’un semis d’observation), alors on obtient th´eoriquement les mˆemes r´esultats ind
´ependemment du choix effectu´e entre γ et C. En revanche, lorsqu’on doit les estimer, on peut
d´emontrer que
6
Dans ce cas, remarquer que γ(h) vaut la variance a priori revient a` consid´erer que les deux sites x1 et x2 sont s´epar
´es d’une distance h si importante, que les valeurs qui y sont prises par le ph´enom`ene ne sont plus corr´el´ees.
65
L’observation
de Z(x1) n’apporte alors aucune information sur les valeurs que l’on peut esp´erer observer en x2 et vis-versa.

66
l’estimateur de C est plus robuste mais biais´e. On pr´ef`ere donc en pratique utiliser le
variogramme γ, d’autant qu’il est plus g´en´erique (γ peut exister sans C alors que l’inverse n’est
pas vrai.

Remarque : l’hypoth`ese de stationnarit´e intrins`eque, qui suppose uniquement la stationnarit


´e au 1er ordre ainsi que l’existence de la variance des accroissements (def. 25) est donc une version
affaiblie de la stationnarit´e au 2nd ordre, qui est malgr´e tout suffisante pour travailler en G
´eostatistique.

Exemple 2.2. On propose ici un exemple de cas o u` seul le variogramme existe. On pose Z1 =
A+C et Z2 = B + C, avec A, B ∼ N (0, 1) deux variables al´eatoires gaussiennes ind´ependantes et C
distribu´ee suivant une loi π n’admettant pas de variance (par exemple π est la loi `a densit´e
de la fig. 2.10).
On a alors, par bilin´earit´e de l’op´erateur de covariance : Cov(Z1, Z2) = Cov(A, B) + Cov(A, C) +
Cov(C, B) + Cov(C, C) = Cov(C, C) (puisque A, B et C sont ind´ependantes) = Var[C] qui
n’existe pas ! En revanche, la variance de l’accroissement est bien d´efinie : Var[Z1 − Z2] =
Var[A − B] =
Var[A] + Var[B] = 2. Nous laissons le soin au lecteur de v´erifier que si π est `a variance finie, alors
Cov(Z1, Z2) existe et la relation ´enon c´ee par le th´eor`eme 26 est v´erifi´ee. On pourra trouver un
exemple moins artificiel de processus strictement intrins`eque dans l’annexe B.6.

2.4.1 Variogramme exp´erimental


Sous l’hypoth`ese d’ergodicit´e au second ordre, on peut estimer γ `a partir d’un ensemble d’observations
ponctuelles, pr´elev´ees sur une unique r´ealisation du processus. Son estimateur (que l’on γ� ,
note prononc´e gamma chapeau) est appel´e variogramme exp´erimental.

Pour construire le variogramme exp´erimental, on doit donc estimer les valeurs de γ(h) pour
toutes les distances h possibles, ce qui est bien ´evidemment impossible en pratique. On discr
´etise alors le probl`eme en une s´equence de nombres r´eels h1, h2, ... r´eguli`erement
´echantillonn´es (i.e. ∀ k ∈ N∗ hk =
h0 + k∆h, avec ∆h et h0 des param`etres `a calibrer en fonction du nombre de donn´ees disponibles).

Par d´efinition γˆ(200) par exemple, repr´esente la dissemblance entre deux sites du terrain s´epar´es
de 200 m. Disposant d’un nombre limit´e d’observations, il est en r´e a l i t´e peu probable que
nous soyons capable de trouver ne serait-ce qu’un couple de sites distants d’exactement 200 m. On
doit donc s’autoriser une tol´erance, par exemple on recherchera tous les couples de sites (xi, xj) s
´ep ar´e s d’une distance comprise entre 150 et 250 m. Les couples s´electionn´es sont alors utilis´es
pour estimer la
� γ(h) pour h = 200 (en toute rigueur pour h = 200 ± 50).
quantit´e 2.8, ce qui nous donne un estimateur

Formellement : disposant d’un semis de points d’observations z(x1), z(x2), ...z(xn) d’un ph´enom`ene
Z, on peut estimer le variogramme de Z par :

1 L
γ�(h) = t )2
z(x )i − z(x j) (2.9)
2|N (i,j)∈N

o u` N (h) d´esigne l’ensemble des couples d’indices (i, j) tels que les sites xi et xj sont s´e pa r´e s d’une
distance h ± dh : N (h) = {(i, j), i < j t.q. h − dh :( ||xi − xj || :( h + dh }, et o u` |N (h)| d´esigne le
2 2 2
nombre de couples contenus dans l’ensemble N (h).

Informellement : de mani`ere imag´ee dans le cas du probl`eme mod`ele du MNT, pour une
distance horizontale h, le variogramme exp´erimental
� γ(h) vaut la moiti´e de la moyenne des carr´es

67
des d´enivel´es entre les points s´ep ar´es (approximativement) d’une distance h.

68
Fig. 2.13. Calcul du variogramme exp´erimental pour un ensemble d’observations ponctuelles collect
´es sur une r´ealisation z du processus. Le couple de sites (x1, x2) appartient `a l’ensemble N (h) des
couples de sites approximativement s´ep a r´e s d’une distance h.

Activit´e III. Variogramme exp´erimental

Cette activit´e ne n´ecessite pas obligatoirement de resources informatiques, mais seulement un d


´ecim`etre, une calculatrice... et de la patience. On consid`ere en semis d’observations (d’un ph
´enom`eme Z quel- conque), dispos´ees comme repr´esent´e sur la figure ci-dessous, dont on donne
l’´echelle graphique (dans un syst`eme d’unit´es terrain arbitraire) en bas `a gauche.

z(x1) = 12

z(x9) = 14.5
z(x ) = 13.5
8
z(x4) = 12.5

z(x2) = 12
z(x5) =
12.5

z(x7) =
z(x10) = 14
12.5

z(x3) = 13

z(x11) = 14

z(x6) = 12
0 5 10 30 20

Sur une version papier de ce cours, l’´echelle graphique doit ˆe tre de 1 unit´e / mm, si bien que la
distance entre x1 et x2 par exemple, doit valoir 28 cm = 28 unit´es (sous r´eserve que l’impression ait
´e t ´e r´ealis´ee en format A4). Sur une version num´erique, on pourra ajuster l’´echelle du
lecteur PDF de sorte `a obtenir une conversion ais´ee entre les tailles mesur´ees en mm sur l’´ecran,
et le syst`eme d’unit´es ter- rain. Dans une optique plus professionnelle, on pourra sauvegarder
l’image ci-dessous (capture d’´ecran ou autres) dans une taille arbitraire, puis mesurer les distances `a
l’aide d’un logiciel graphique (Paint, Inkscape...) et enfin normaliser les mesures obtenues `a l’aide
d’un produit en croix pour obtenir des distances dans le syst`eme d’unit´es terrain.

69
Calculer le variogramme exp´erimental du semis de points. On utilisera un pas de discr´etisation
∆h = 10 unit´es, en d´emarrant de h0 = 5 : hk = 5 + k∆h.

Correction. On commence par mesurer les distances (exprim´ees dans les syst`eme d’unit´es
terrain) pour tous les couples de points, et on les regroupe dans une matrice de taille n × n. Cette
matrice
´etant sym´etrique, on ne pr´esente que la partie triangulaire sup´erieure.

- 1 2 3 4 5 6 7 8 9 10 11
1 0 28 56 37 35 71 62 59 82 83 97
2 - 0 28 47 24 46 53 69 91 79 86
3 - - 0 67 39 30 56 86 99 86 81
4 - - - 0 28 64 38 22 46 48 69
5 - - - - 0 39 28 48 68 55 64
6 - - - - - 0 37 78 94 64 53
7 - - - - - - 0 43 57 30 35
8 - - - - - - - 0 23 39 66
9 - - - - - - - - 0 38 68
10 - - - - - - - - - 0 30
11 - - - - - - - - - - 0

Il ne reste alors plus q u’ `a appliquer la formule 2.9 pour tous les pas h : 5, 15, 25, ...95. D
´etaillons un exemple avec le cas h = 65. Dans un premier temps, on r´ec up`ere l’ensemble N
(65) de tous les cou- ples (i, j) avec i < j, tels que la distance entre les deux sites xi et xj est comprise
entre 60 et 70 m`etres :

N (65) = {(i, j) i < j | 60 :( ||xi − xj || :( 70}


= {(1, 7)(1, 8)(3, 4)(4, 6)(4, 11)(5, 9)(5, 11)(6, 10)(8, 11)(9, 11)}

On d´enombre |N (65)| = 10 couples. Le calcul de γ�(65) par 2.9 est alors imm´ediat :
1
γ�(65) = (z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2
1
1 7 1 8 3 4 4 6 4 1 5 9 5 1 6 1
2× l
+(z8 − z11)2 + (z9 − z11)2 = 0.8

On proc`ede de mani`ere similaire pour les autres valeurs de h, ce qui donne :

h 5 15 25 35 45 55 65 75 85 95
N (h) 11 0 10 12 6 7 10 3 6 4
γ(h)
� 0.0 - 0.33 0.30 0.71 1.0 0.8 1.04 1.38 2.34
Table 2.1: Nombre de couples N (h) et variogramme exp´erimental�γ(h) pour chaque valeur de distance
h. Remarquons que γ(15) n’a pas pu ˆetre estim´e faute de donn´ees.

70
La figure 2.14 donne une repr´esentation graphique du variogramme exp´erimental. La courbe
en pointill´es pr´esente une r´egression polynomiale f (h) = ah2 (avec a = 2.5.10−4) des points
calcul´es. De cette mani`ere, il sera possible d’estimer le variogramme pour toute distance h sur la
plage [0; 100].
Nous reparlerons plus loin des fonctions de r´egression.


point estimé
régression polynomiale
2
1


1



0

● ●
0

20 40 60 80

Fig. 2.14. Suite des points estim´es `a partir du semis d’observation et r´egression polynomiale.

A` travers l’exemple de l’activit´e III, on mesure l’importance de calibrer soigneusement le pas de


discr´etisation ∆h. Comme illustr´e sur la figure 2.15, lorsque le pas est trop petit, le
variogramme est bien ´echantillonn´e, mais chaque point est calcul´e avec un faible nombre
d’observations ( `a l’extrˆeme, certains points peuvent mˆeme ˆetre impossibles `a estimer, `a
l’instar du point h = 15 dans l’activit´e
pr´ec A` l’inverse, si ∆h est trop grand, chaque point est statistiquement tr`es pr´ecis, mais on
´edente).
dispose de trop peu de points pour d´ecrire fid`element le comportement du variogramme th´eorique.

Variogramme théorique Variogramme expérimental Variogramme théorique Variogramme expérimental


71
Distance entre sites h Distance entre sites h

Fig. 2.15. Variogramme th´eorique inconnu (courbes pointill´ees) et estimations ponctuelles du var-
iogramme empirique. A` gauche : pas de discr´etisation ∆h trop fin, le variogramme estim´e est r´esolu
mais peu pr´ecis. A` droite : ∆h trop grand, le variogramme estim´e est pr´ecis, mais peu r´esolu.

Le choix du param`etre ∆h doit donc ob´eir `a un compromis entre robustesse et r´esolution.


Plus le nombre n d’observations est grand, plus on a de couples de distances, et plus on pourra se
permettre

72
de r´eduire la taille de ∆h. Une r`egle simple consiste `a choisir ∆h le plus fin possible tout en
assur- ant la pr´esence d’au moins 30 couples pour chaque point estim´e sur le variogramme exp
´erimental. En g´en´eral, on proc`ede par essai-erreur, en partant d’une r´esolution assez
grossi`ere, et en l’affinant jusqu’`a ce que le variogramme obtenu commence `a pr´esenter des
signes d’instabilit´e. En parall`ele, on contrˆolera les effectifs de couples dans chaque classe de
distance.

Variogramme théorique Variogramme expérimental

Distance entre sites h

Fig. 2.16. Compromis id´eal sur le pas de discr´etisation ∆h pour le calcul du variogramme exp
´erimental. L’estimateur γ ainsi
� obtenu est relativement pr´ecis, et suffisamment r´e´esolu pour esp
´erer pouvoir reconstruire le variogramme th´eorique en pointill´e.

Disposant d’un estimateur γ �du variogramme th´eorique inconnu γ, on doit pouvoir s’assurer de la
qualit´e de celui-ci. Nous l’avons vu dans l’´equation 1.14, la justesse d’un estimateur se mesure
sur deux composantes : son biais (i.e. son erreur syst´ematique quelque soit le jeu de donn´ees
consid´er´e) et sa variance (i.e. sa sensibilit´e aux petites variations al´eatoires dans les donn
´ees).

Th´eor`eme 27 (Biais du variogramme exp´erimental)

Le variogramme exp´erimental est un estimateur non-biais´e du variogramme th´eorique :

∀ h ∈ R+E[γ�(h)] = γ(h)

Autrement dit, quelque soit la distance h consid´er´ee, la valeur prise par le variogramme exp
´erimental
� γ en h n’a pas de raison d’ˆetre syst´ematiquement en dessous ou au dessus de la
valeur r´eelle γ(h), ce qui est une propri´et´e souhaitable pour tout estimateur digne de ce nom.

Preuve : nous donnons ici une ´ebauche de d´emonstration, faisant abstraction du fait que le calcul
de
� γ(h) fait appel `a des couples de sites s´ep ar´es d’une distance qui ne vaut pas exactement h. En
partant de la d´efinition 2.9 du variogramme exp´erimental, et en remarquant que N (h) est d
´eterministe :

73
(i,j)∈N
]
L 1t
1 )l 1 L ( [ ]2 ])
E[γ(h)] = E Z −Z 2 = EZ −Z + −Z
� i
2|N (i,j)∈N
[
Var Z
j i j i j
1 L 2|N
= [ 1
Var Z i− Z j = × |N (h)|γ(h) = γ(h)
2|N (i,j)∈N
2|N

74
o u` le passage de la premi`ere `a la deuxi`eme ligne r´esulte du fait que le processus est
stationnaire, et donc que l’esp´erance de ses accroissement est nulle : E[Zi − Zj ] = E[Zi] − E[Zj ] =
E[Z] − E[Z] = 0.

Th´eo r`e me 28 (Variance du variogramme exp´erimental)

La dispersion du variogramme exp´erimental autour du variogramme th´eorique, est inverse-


ment proportionnelle au nombre N (h) de couples de sites utilis´es dans l’estimation :

γ(h)2
Var[γ�(h)] ∝ N (h)

Nous ne donnerons pas de d´emonstration du th´eor`eme 28, mais on peut remarquer qu’il s’agit
d’une application plus ou moins directe du th´eor`eme 12, dit de propagation des variances.

Le variogramme exp´erimental est donc d’autant moins pr´ecis que h augmente. En effet, on
peut montrer que, dans le cas o u` les sites sont r´epartis uniform´ement, le nombre de couples de sites
s´ep a r´es d’une distance (plus ou moins la marge de tol´erance) d´e cr oˆıt `a mesure que la
distance h s’approche du diam`etre de la zone consid´er´ee (i.e. de la plus grande distance s
´eparant deux sites sur la zone). En cons´equence N (h) diminue, � et l’incertitude sur l’estimation
γ(h) augmente naturellement, comme illustr´e sur la figure 2.17.

En pratique, on consid´erera que le variogramme exp´erimental n’est plus un estimateur robuste pour
des distances de s´eparation h sup´erieures `a la moiti´e du diam`etre du domaine D.

Bandes d'erreur d'estimation

Variogramme théorique
Variogramme expérimental

Distance entre sites h

Fig. 2.17. Le variogramme exp´erimental est d’autant plus incertain que h augmente.

Exemple 2.3. Pour 150 sites observ´es sur une zone montagneuse de 1 km × 1 km, le diam`etre du

domaine vaut 2 ≈ 1.4 km. On ne calculera le variogramme exp´erimental que pour h ∈ [0; 0.7] km.

75
Activit´e IV. Variogramme exp´erimental (bis repetita)

Dans cette activit´e, nous allons ´ecrire un code R pour calculer un variogramme exp´erimental, `a
partir de donn´ees r´eelles d’altitude. Pour collecter les donn´ees, nous allons utiliser l’application
Google Maps find altitude, disponible gratuitement en ligne `a l’adresse suivante :

https://www.daftlogic.com/sandbox-google-maps-find-altitude.htm

En cas de difficult´e bloquante dans la phase de collecte des donn´ees, on pourra r´ecup´erer
directe- ment l’un des deux fichiers sample data1.txt ou sample data2.txt disponibles dans le r
´epertoire de mat´eriel p´edagogique. Dans ce cas, on passera directement `a la question Q4.

Q1. Acc´eder `a l’application Google Maps find altitude et positionner la carte sur une zone
rectangulaire (de pr´ef´erence montagneuse ou au moins vallonn´ee), de taille au plus de l’ordre de
quelques km de cˆot´e.

Q2. Effectuer un clic bref sur la carte pour saisir un point d’observation. Un marqueur bleu doit
alors apparaˆıtre. Rep´eter l’op´eration jusqu’`a obtenir un nombre n de points. Plus la zone s
´electionn´ee est grande, plus il faudra un nombre important d’observations. Pour cette activit´e,
un semis de l’ordre de 50 observations devrait ˆetre suffisant, cependant les activit´es du chapitre 3
n´ecessiteront un nombre plus cons´equent de donn´ees pour construire des MNT relativement
fid`eles `a la r´eali t´e. Dans cette optique, on pourra d`e s maintenant saisir 200 `a 300 points
d’observation. On essaiera de produire une couverture homog`ene de la zone, mais sans n
´ecessairement former une grille r´eguli`ere.

Q3. Les observations collect´ees sont list´ees dans une fenˆetre de texte, un peu plus bas dans la
page web. Copier le contenu de cette fenˆetre dans un fichier sample data.txt.

Q4. Charger le contenu du fichier dans l’environnement R, avec la commande :

obs = read.csv("sample_data.txt")

Visualiser les valeurs des diff´erents champs. On remarque que les positions de points sont exprim
´ees en coordonn´ees g´eographiques (degr´es d´ecimaux). Cela va poser probl`eme par la suite
pour calculer des distances entre points. On va donc convertir ces donn´ees dans un syst`eme de
coordonn´ees planes :

R = 6378137.0
obs$longitude = obs$longitude*pi/180.0
obs$latitude = obs$latitude*pi/180.0
X = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
Y = (obs$latitude - min(obs$latitude))*R
Z = obs$meters

o u` R d´esigne le rayon moyen de la Terre (en m). Les deux lignes suivantes assurent la conversion
des angles des degr´es d´ecimaux vers les radians. Le facteur cos(mean(obs$latitude))*R
corresond `a la longueur m´etrique d’un arc de parall`ele de 1 radian, `a la latitude moyenne
mean(obs$latitude) du chantier. Par commodit´e, les coordonn´ees m´etriques des points sont
stock´ees dans 3 vecteurs num´eriques de mˆeme longueur : X, Y et Z.

Q5. R´ecup´erer les coordonn´ees extr´emales et en d´eduire le diam`etre L de la zone d’´etude.

Q6. Calculer et repr´esenter le variogramme en 30 points h1, h2, ...h30 r´eguli`erement espac´es
dans l’intervalle [0, L ].
2
76
Correction :

Script 5. Variogramme exp´erimental (bis repetita) [code3.r]

n = length(X) # Nombre

d’observations # Calcul du diametre

de la zone
dX = max(X)-min(X);
dY = max(Y)-min(Y);
diam = sqrt(dX*dX + dY*dY)

# Vecteur de distances a evaluer


dmax = diam/2
dh = dmax/30
H = (dh/2) + (0:30)*dh

#
# Calcul du
variogramme #
GAMMA = rep(0, length(H))
for (k in 1:length(H)){
ck = 0
for (i in 1:n){
for (j in 1:n){
dX = X[i]-X[j];
dY = Y[i]-Y[j];
d = sqrt(dX*dX+dY*dY)
if ((d >= H[k]-dh/2) && (d <= H[k]+dh/2)){
dZ = Z[i]-Z[j]
GAMMA[k] = GAMMA[k] + dZ*dZ
ck = ck + 1
}
}
}
cat(paste("Step", k, H[k], ck, GAMMA[k], "\r\n", sep=" "))
GAMMA[k] = GAMMA[k]/(2*ck)
}

plot(H, GAMMA, pch=3)

On remarque que dans le code propos´e ci-dessus, on parcourt chaque couple (i, j) de sites, deux
fois, ainsi que tous les couples (i, i), qui ne contribuent pourtant pas au calcul du variogramme. On
peut acc´el´erer le code (d’un facteur 2 environ), en ajustant ad´equatement les param`etres de
boucle :

for (i in 1:(n-1)){
for (j in (i+1):n){
# On traite ici le couple (i,j)...
}
}

Pour acc´el´erer davantage le calcul du variogramme (qui peut ˆetre une ´etape tr`es chronophage lorsque

77
plusieurs milliers de points d’observation sont disponibles), on peut adopter la strat´egie
suivante : plutˆot que de parcourir tous les couples de sites pour chaque valeur h en laquelle on
souhaite ´evaluer le variogramme, une solution alternative consiste `a ne parcourir qu’une seule fois
l’ensemble des couples d’observations, puis pour chaque couple, ´evaluer sa distance et l’affecter `a a
la classe correspondante. En retour, notons que cela n´ecessite de garder en m´emoire le d´ecompte
des nombres de couples utilis´es dans l’estimation pour chaque valeur de h.

Script 6. Version optimis´ee [code3.r]

GAMMA = rep(0, length(H)) COUNT = rep(0, length(H))

for (i in 1:(n-1)){
for (j in (i+1):n){
dX = X[i]-X[j]; dY = Y[i]-Y[j]; dZ = Z[i]-Z[j];
d = sqrt(dX*dX+dY*dY) if (d > max(H)+dh/2){
next
}
id = round((d+dh/2)/dh) GAMMA[id] = GAMMA[id] + dZ*dZ COUNT[id] = COUNT[id] + 1
}
}

GAMMA = GAMMA / (2*COUNT)

Avec cette nouvelle version, sur le jeu de donn´ees sample data1.txt (393 observations), on divise
par 10 environ le temps de calcul. On pourra alors inspecter visuellement le variogramme. En
particulier, on observe que les 3 derniers points semblent d´evier de la tendance globale. On entre
dans la zone non-robuste dont nous parlions pr´ec´edemment.


4


4

4e+05


● ● ●
● ● ●

● ● ●● ●
● ●

● ● ●● ● ●
● ●●● ●●● ● ● ● ●
3e+05


3

● ● ● ●
●● ● ●
3


● ● ●● ● ●
● ●
●●● ●●
● ●

●●● ● ●●
● ● ●●
● ●
● ● ● ●●
●●
GA



● ● ●●
● ● ● ●●
●●
2
2

●●●●●

● ●●●

● ●●
● ● ●●
● ●
●●
2


●●
● ●

● ● ●
1


● ●
0e+00


● ●●
●●
● ●
●●
0e+001e+05



0 2000 4000 6000 8000
2000 4000 6000 8000

0 2000 4000 6000 8000

H H H

Fig. 2.18. Calcul du variogramme pour 3 pas de discr´etisation diff


A` gauche : ∆h = 850
´erents.
m (10 ´echantillons) - le variogramme est peu r´esolu, mais les points calcul´es sont pr´ecis (except´e
probablement le dernier point). A` droite : ∆h = 85 m (100 ´echantillons) - le variogramme est tr`es
r´esolu, mais compl`etement instable. Au centre : ∆h = 280 m (30 ´echantillons) - compromis id´eal.

78
2.4.2 Interpr´eter le variogramme
Etre capable de calculer programmer informatiquement le calcul d’un variogramme est certes une
comp´etence int´eressante, mais pas indispensable, dans la mesure il existe d ´e j `a de nombreuses
bib- lioth`eques 7 qui le font tr`es bien dans dans les principaux langages de programmation. En
revanche, il est capital de savoir interpr´eter graphiquement un variogramme.

On donne ci-dessous en figure 2.19 la repr´esentation sch´ematique d’un variogramme born´e.

Palier C
0.95 C
Varia

Pépite
Portée hmax

Distance entre sites h

Fig. 2.19. Les 3 ´el´ements caract´eristiques d’un variogramme : palier C, port´ee hmax et p´epite η.

Le palier
Nous avons expliqu´e pr´ec´edemment qu’un variogramme pouvait tendre vers l’infini `a mesure
que h augmente. Il s’agit d’un cas particulier o u` la covariance n’existe pas. Dans la grande
majorit´e des cas rencontr´es en pratique, le variogramme converge vers une valeur C, le palier,
correspondant `a la dissemblance maximale entre sites lointains. Informellement, on peut dire que
lorsque deux sites xi et xj sont s´epar´es d’une grande distance, les valeurs Zi et Zj prises par le ph
´enom`ene respectivement en chacun des sites, deviennent compl`etement d´ecorr´el´ees. La
covariance C(h) tend vers 0, et le th´eor`eme 26 nous montre alors que le variogramme γ(h) tend `a
devenir ´egal `a C(0) = Var[Z]. Autrement dit, la connaissance de Zi n’apporte aucune
information (statistiquement, on dit que cette connaissance ne r´eduit pas la variance) sur Zj, et r
´eciproquement.

Dans le cas pratique de la figure 2.18, on peut r´ecup´erer une appoximation du palier en
moyennant par exemple les 5 derni`eres valeurs de γ (pour h compris entre 7.2 et 8.4 km) :

C = mean(GAMMA[26:30]) On trouve 394 678 m2


sqrtC = sqrt(C) On trouve 628.234 m

On compare alors cette valeur `a l’´ecart-type a priori du champ, que l’on approxime par
l’´ecart-type des observations d’altitudes :

sigma = sd(Z) On trouve 556.495 m

7
Par exemple gstat pour le langage R, variogram (Matlab), VARFIT (FORTRAN) ou encore scikit-gstat (Python).

79
D´efinition 29 (Palier)

Le palier C d’un variogramme γ (lorsqu’il existe) est la limite de γ en l’infini :

C = limγ(h)
h→+∞

A` nouveau, ici aussi, la locution ”lorsqu’il existe” pr´ecise que C peut prendre une valeur infinie,
auquel cas on ne peut pas lui donner de sens physique.

La p ort´ee
La valeur `a partir de laquelle le variogramme atteint `a peu pr`es son palier est appel´ee la port
´ee. Elle repr´esente la distance `a partir de laquelle le processus n’est plus autocorr´el´e. On
retient tradition- nellement la premi`ere valeur qui d´epasse 95% de la valeur du palier (notons que si
cette r`egle simpliste fonctionne dans la grande majorit´e des cas, elle peut poser probl`eme avec les
variogrammes dits `a effet de trou, comme nous le verrons plus loin) :

hmax = H[min(which(GAMMA > 0.95*C))]

On obtient une port´ee de 7.8 km environ (7786 m). Dans le cas d’un MNT, on s’attend donc `a
trouver des montagnes et vall´ees de taille caract´eristique (on pourrait parler de p´eriodicit´e
spatiale) 8 km.

D´efinition 30 (Port´ee)

Pour un seuil de tol´erance ε > 0 fix´e, la port´ee d’un variogramme γ de palier C est la plus
petite valeur hmax telle que :

γ(h)
∀ h � hmax :1 − ε :( C :( 1 + ε

La p´epite
Tout variogramme est th´eoriquement nul en 0. En effet, d’apr`es la d´efinition 25 :

1
γ(0) = Var[Z(x) − Z(x)] = 0
2

En revanche, rien n’interdit d’avoir une discontinuit´e en 0, i.e. un saut faisant passer le
variogramme de la valeur 0 `a une valeur η, pour h > 0 aussi petit soit-il.

Cette valeur η, appel´ee p´epite 8 (ou nugget en anglais) d´enote la pr´esence d’un bruit de fond
dans le processus. D’un point de vue variographique, cela signifie que l’accroissement entre deux
sites in- finit´esimalement voisins (mais distincts) x1 et x2 aura toujours une variabilit´e r
´esiduelle, ce qui, au niveau des r´ealisations, se traduit par des discontinuit´es locales dans la
variable r´egionalis´ee.

80
8
En r´ef´erence a` la variographie des gisments d’or

81
D´efinition 31 (P´epite)

Soit γ un variogramme quelconque (non-n´ecessairement born´e).On appelle p´epite du


variogramme, la quantit´e (´eventuellement nulle) :

η = lim γ(h)
h→0+

Remarque : lorsque la p´epite est non nulle, on dit que le variogramme, et par extension le processus
stochastique ainsi que ses r´ealisations, sont p´epitiques.

Signal aléatoire Variogramme Signal aléatoire + bruit blanc Variogramme

8e
8e

var var

4e
4e
N

h(m) h(m)

0e
0e

E(m) 0 2000 4000 6000 8000 10000 E(m) 0 2000 4000 6000 8000 10000

Fig. 2.20. Illustration de l’effet de p


A` gauche : r´ealisation d’un processus stochastique sans
´epite.
effet de p´epite et variogramme associ´e. A` gauche √: idem avec effet de p´epite. On mesure η ≈ 2.105,

donc l’´ecart type du bruit additif vaut σ = η = 2.105 ≈ 440 m.

Notons que l’effet de p´epite peut ˆetre utilis´e pour mod´eliser le comportement d’un ph
´enom`ene, mais aussi (et surtout) pour mod´eliser un bruit dans le processus d’observation. Par
exemple, si on souhaite construire un MNT `a partir de mesures d’altitudes effectu´ees avec un GPS
de randonn´ee (pr´ecision
±5 m), on pourra alors utiliser un variogramme p´epitique avec η = 52 = 25 m2.

Pour aller plus loin...


Le comportement du variogramme au voisinage de l’origine (et plus sp´ecifiquement son rythme
de croissance) fournit en r´eali t´e beaucoup d’information sur la r´egularit´e des r´ealisations.
L’effet de p´epite n’en est qu’un cas particulier, comme le montre la propri´et´e suivante :

Propr i´e t´e 32 (Comportement du variogramme `a l’origine)

La pente en 0 du variogramme refl`ete le degr´e de r´egularit´e de la variable r´egionalis´ee :

Parabolique : (γt(0) = 0), la variable r´egionalis´ee est d´erivable.

Lin´eaire : (γt(0) = a), la variable r´egionalis´ee est continue mais non-d´erivable.

Discontinu : (γt(0) = +∞) la variable r´egionalis´ee est discontinue.

82
Remarque : chaque r´ealisation du processus ´etant par nature diff´erente, la fonction dont on cherche
`a quantifier la r´egularit´e est une fonction al´eatoire. Les notions de continuit´e et de d´erivabilit
´e telles qu’on les connaˆıt ne sont alors plus op´erantes, et on devrait en toute rigueur introduire
les notions probabilistes de continuit´e et d´erivabilit´e dites en moyenne quatratique. Ici, par
abus de langage on dit qu’une variable r´egionalis´ee est continue (resp. d´erivable) lorsque les r
´ealisations du processus associ´es `a cette variable sont statistiquement localement continues
(resp. d´erivables). L’annexe A donne quelques cl´es suppl´ementaires pour saisir cette notion.
On pourra trouver une d´emonstration de cette propri´et´e dans Picinbono (1998) ou encore dans
Allard (2012).

Grossi`erement, le comportement `a l’origine du variogramme est un indicateur du rythme avec


lequel les valeurs prises par un ph´enom`ene en deux sites x1 et x2 infinit´esimalement proches se
d´ecorr`elent
`a mesure qu’on les ´eloigne mutuellement. Un comportement parabolique indique une pente
de γ nulle en 0, et donc que γ croˆıt lentement `a l’origine, `a l’instar de la fonction parabolique x
1→ x2. Les r´ealisations du processus sont alors suffisamment lisses pour ˆetre d´erivables.
Dans le cas d’un comportement lin´eaire, γt(h) = a la d´ecorr´elation se produit `a un rythme plus
rapide, les r´ealisations restent continues mais ne sont plus d´erivables. Enfin, remarquons qu’un
comportement discontinu est synonyme d’effet de p´epite. Il s’agit du cas limite du
comportement lin´eaire pour a = +∞.
N(m)

N(m)
var

var
0

0
0

0.0 0.2 0.4 0.6 0.8 1.0 0


0 2000 4000 6000 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000

E(m) h(m) E(m) h(m)

0 2000 4000 6000 0.0 0.2 0.4 0.6 0.8 1.0


0.8

800
N(m)
var
N(m)

400
0

0
0

0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000

E(m) h(m) E(m) h(m)

Fig. 2.21. Illustration du lien entre la r´egularit´e de la variable r´egionalis´ee ( `a gauche en


couleur) et le comportement `a l’origine de son variogramme ( `a droite en noir et blanc). En haut
`a gauche : p´epite pur. En haut `a droite : comportement parabolique + p´epite. En bas `a
gauche : comportement parabolique. En bas `a droite : comportement lin´eaire.

La figure 2.21 illustre l’importance du comportement `a l’origine du variogramme sur l’aspect local
(lisse ou erratique) de ses r´ealisations. En particulier, on remarque que le champ `a comportement
lin´eaire (en bas `a droite) ressemble dans une certaine mesure au comportement p´epitique et
parabolique (en haut `a droite). Parfois, seule l’analyse variographique permet de diff´erencier
deux processus dont les r´ealisations semblent similaires au premier abord.

2.4.3 Les mod`eles de variogramme


Consid´erons une fonction quelconque f : R+ → R+. Nous l’avons vu pr´ecedemment, la contrainte
f (0) = 0 est une condition n´ecessaire pour que f puisse ˆetre un variogramme. Est-ce une condition
suffisante ? La r´eponse est non : la nature statistique du variogramme impose que f poss`ede
une propri´et´e suppl´ementaire. Voyons cela `a travers un exemple simple.
83
Exemple 2.4. On consid`ere l’exemple d’une fonction γ˜ d´efinie
par :

� (2.10)
0 si h < ξ
γ˜(h) = Γ sinon.

avec Γ et ξ deux valeurs r´eelles positives quelconques. Prenons 3 sites, positionn´es comme ci-
dessous ( `a droite), pour lesquels on note Z1, Z2 et Z3 les valeurs prises par le ph´enom`ene de
variogramme γ˜ .

On rel`eve alors une contradiction : les variables (Z1, Z3) d’une part et (Z2, Z3) d’autre part, ´etant
s´epar´ees d’une distance inf´erieure au seuil ξ, elles sont compl`etement corr´el´ees et elles sont
donc li´ees par une relation affine. On montre alors ais´ement que Z1 et Z2 sont n´ecessairement
aussi li´ees par une relation affine, et donc ´egalement parfaitement corr´el´ees. Or, Z1 et Z2 sont s
´epar´ees d’une distance
sup´erieure `a ξ, donc Cov(Z1, Z2) = γ˜ (∞) − γ˜(h 12 ) = 0, ce qui est une contradiction 9. La
fonction γ˜ ne peut donc pas ˆetre un mod`ele de variogramme.

D’apr`es l’exemple 2.4, il apparaˆıt clairement qu’on ne peut pas choisir n’importe quelle fonction
pour mod´eliser le variogramme. Plus formellement, γ doit v´erifier une propri´et´e de d´efini-n
´egativit´e condi- tionnelle, qui assure que le quantit´es alg´ebriques calcul´ees `a l’aide du
variogramme et auxquelles on peut donner le sens d’une variance, sont toujours positives Allard
(2012). Nous reviendrons sur ce point quelqe peu technique dans la section 2.4.5.

En cons´equence, le variogramme doit appartenir `a une classe particuli`ere de mod`eles, dont nous
don- nons les principaux repr´esentants dans cette section.

Le mod`ele lin´eaire

γ(h) = kh (2.11)

o u` k est une constante r´eelle positive.

Le variogramme lin´eaire permet de mod´eliser une d´ecorr´elation progressive des valeurs prises
par le ph´enom`ene, `a mesure que les sites consid´er´es sont ´eloign´es spatialement. Il ne
converge pas vers une valeur palier, et n’a donc pas non plus de valeur de port´ee d´efinie. En cons
´equence, il n’existe pas de covariogramme associ´e10 . Son comportement `a l’origine est bien
´evidemment lin´eaire.

Le mod`ele lin´eaire pr´esente l’avantage d’ˆetre extrˆemement simple `a estimer. Par ailleurs,
dans cer- taines applications comme l’interpolation par krigeage (cf chapitre 3), le r´esultat obtenu
est invariant par une multiplication du variogramme par un scalaire. Dans cette optique, le
coefficient k n’a pas
84
9
Sauf si ξ est nul, auquel cas on est r´eduit au variogramme purement p´epitiques, qui est parfaitement valide
10
Ce mod`ele de variogramme convient particuli`erement pour les processus stochastiques ne respectant que
l’hypoth`ese de stationnarit´e intrins`eque, et non celle de stationnarit´e au sens large, comme expliqu´e dans l’exemple
2.2.

85
besoin d’ˆetre estim´e, et on pourra utiliser arbitrairement le mod`ele de variogramme prˆet-`a -
l’emploi γ : h 1→ h. Le mod`ele lin´eaire devra ˆetre utilis´e pour les processus stochastiques
dont la dispersion explose `a mesure que grandit la taille de la zone d’´etude (Arnaud et Emery,
2000). Il convient en
particulier pour la mod´elisation des gisements de cuivre.

C
Vari

Vari
a

Distance entre sites h Distance entre sites h

Fig. 2.22. Variogramme lin´eaire ( `a gauche) et lin´eaire avec palier ( `a droite).

Si k = 0, le variogramme d´e g´e n`e r e en γ : h 1→ 0, traduisant un champ al´eatoire constant.

Le mod`ele lin´eaire avec


palier
�C
γ(h) = a h si h :( (2.12)
C sinon.
a

o u` C et a sont deux constantes r´eelles positives.

Dans une version simplifi´ee, comme nous le verrons dans l’activit´e V, les param`etres du mod`ele
sont ajust´es en d´eterminant empiriquement la port´ee a, puis en effectuant une r´egression lin
´eaire sur la portion [0, a]. Ce mod`ele pr´esente l’avantage de fournir une approximation
relativement fiable de mod`eles analytiquement plus complexes.

Ce variogramme d´e g´e n`e r e en un mod`ele p´epitique pur quand a tend `a s’annuler.

Le mod`ele puissance

γ(h) = khθ avec 0 < θ :( 2 (2.13)

Quand θ = 1, on retrouve le mod`ele lin´eaire. Pour θ > 1, on a γt(h) = θkhθ−1 et donc γt(0) = 0, le
variogramme a un comportement paraboliquet `a l’origine, traduisant ainsi des r´ealisations plus
lisses que le mod`ele lin´eaire. Pour θ < 1, γ (0) est infini, le comportement `a l’origine est quasi-
p´epitique. Tout comme pour le mod`ele lin´eaire, la covariance n’existe pas.

L’estimation des param`etres est imm´ediate par r´egression affine dans l’espace log-log. Un i nt
´e rˆe t principal de ce mod`ele est de pouvoir mod´eliser des comportements `a l’origine
parabolique, lin´eaire et quasi-p´epitique avec un unique jeu de param`etres, ce qui offre une grand
variabilit´e de cas d’application. Le variogramme puissance devrait donc ˆetre utilis´e lorsque l’on n’a
a priori aucune id´ee du comporte- ment variographique du ph´enom`ene ´etudi´e. Remarquons
que le cas sp´ecial θ = 2 bien que licite

86
(comme nous le verrons dans la section 2.4.5), r´esulte en un processus non-ergodique, et donc inutil-
isable en G´eostatistique.

Vari

Vari
Distance entre sites h Distance entre sites h

Fig. 2.23. Variogramme puissance au comportement supra-lin´eaire ( `a gauche) et sub-lin´eaire


( `a droite). Le comportement `a l’origine parabolique du variogramme de gauche produira
statistiquement des r´ealisations plus lisses que celles du variogramme de droite.

On pourra trouver un exemple p´edagogique d’utilisation de ce variogramme, avec θ ≈ 1.31 pour


la mod´elisation de l’indice de porosit´e du sol en fonction de la profondeur (Gringarten et Deutsch,
2001).

Le mod`ele exponentiel

γ(h) = C(1 − e− ah) (2.14)

o u` C et a sont deux constantes r´eelles positives.

Le palier n’est jamais rigoureusement atteint. La port´ee est d´efinie comme la distance `a
laquelle on atteint 95% de la limite asymptotique C du variogramme. Elle vaut donc hmax = 3a.

C C
0.95C 0.95C
Vari

Vari

3a
2a

Distance entre sites h Distance entre sites h

Fig. 2.24. Variogramme exponentiel ( `a gauche) et gaussien ( `a droite).

t
t C a et
h γ (0) = C
> 0, le comportement `a l’origine est lin´eaire.
a a
Le mod`ele exponentiel convient en particulier pour mod´eliser les erreurs GPS, et pourra donc
dans ce cadre ˆetre utilis´e par exemple pour am´eliorer les syst`emes de guidage (Grejner-
Brzezinska et al., 2005) et de navigation (Meneroux, 2019).

Il caract´erise notamment un bruit rouge, c’est-`a - dire dont la puissance d´ecroit comme le carr´e
de la fr´equence. En 1827, le botaniste ´ecossais Robert Brown, d´ecouvre que les particules du
pollen sont

87
soumise `a un tel type de bruit. En particulier, il est solution de l’´equation de Langevin, caract
´erisant le mouvement d’une particule ponctuelle soumise `a un frottememt proportionnel `a la
vitesse ainsi qu ’`a une force de collision al´eatoire. Ce bruit, depuis rebaptis´e bruit brownien, sera
plus tard `a la base des hypoth`eses n´ecessaires `a l’´etablissement d’une loi c´el`ebre reliant temp
´erature, pression et volume d’un gaz, dite loi des gaz parfaits. En acoustique, un signal brownien
´evoque le bruit des vagues et aurait des vertus th´erapeutiques contre l’hyperacousie.

Le mod`ele gaussien

C’est avec le mod`ele exponentiel, l’un des deux mod`eles les plus couramment utilis´es.

h2

γ(h) = C(1 − e a2 ) (2.15)

o u` C et a sont deux constantes r´eelles positives.

La port´ee est d´efinie comme la distance `a laquelle on atteint 95% de la limite asymptotique C
du variogramme. Elle vaut hmax =J ln(20)a ≈ 1.73a.

Par ailleurs, γt(h) = 2Ch exp(−h2/a2) et γt(0) = 0, le comportement `a l’origine est parabolique. Plus g
´en´eralement, on montre a facilement que la d´eriv´ee n-eme γ(n) du mod`ele, est nulle en l’origine,
pour
tout entier n � 0, d’ o u` l’aspect t r`es lisse des r´ealisations d’un processus de variogramme γ, ce
qui convient en particulier `a la mod´elisation topographique.

Par ailleurs, la fonction gaussienne poss`ede de nombreuses propri´et´es ´el´egantes, voire


fondamentales11 (qu’il serait malheureusement trop long d’exposer ici), lui conf´erant ainsi un rˆole
central `a la fois en th´eorie des probabilit´es et en traitement du signal. C’est donc tout
naturellement qu’on la retrouve `a une place de choix dans la liste des mod`eles de variogramme.

Le mod`ele sph
´erique
( ( )
3h 1 h3
C − si h :( a
γ(h) 2 2 (2.1
C

o u` C et a sont deux constantes r´eelles positives.

Ici aussi, on retrouve le mod`ele p´epitique pur quand a tend `a s’annuler. Par ailleurs, on a : γt(h) =
− 3 h ) et donc γt(0) = > 0, le comportement est lin´eaire `a l’origine.
2
C(
3 a 2
2
3

Le variogramme sph´erique a une interpr´etation physique simple : il mod´elise les corr´elations


entre point d’un espace 3D, en supposant que l’aire d’influence de chaque point est une sph`ere de
diam`etre
a. La corr´elation entre deux points est d´efinie comme ´etant ´egale au volume de l’intersection des
11
En particulier, le th´eor`eme central limite, stipule que toute somme de variables al´eatoires identiquement distribu
´ees converge vers la loi gaussienne, comme l’illustre parfaitement l’exp´erience de la planche de Galton. La th´eorie de
l’entropie d´emontre que c’est la loi la moins arbitraire que l’on puisse choisir lorsqu’on ne connait que l’esp´erance et la
variance d’une variable al´eatoire. On peut ´egalement montrer que l’observation d’un signal sur une fenˆetre gaussienne
88
r´ealise le meilleur compromis pour le d´eterminer a` la fois d’un point de vue temporel et fr´equentiel...

89
C
C

Vari

Vari
a a

Distance entre sites h Distance entre sites h

Fig. 2.25. Variogramme sph´erique ( `a gauche) et cubique ( `a droite).

int´erieurs de deux sph`eres d’influence. Lorsque les points sont s´epar´es d’une distance sup
´erieure `a a, on retrouve naturellement que la corr´elation est nulle, et le variogramme atteint
son palier. Le variogramme sph´erique est donc un ´equivalent tri-dimensionnel du variogramme lin
´eaire avec palier, qui lui mesure la corr´elation entre deux points par la longueur de l’intersection
des int´erieurs de deux segments de longueur a (Allard, 2012).

Le mod`ele sph´erique peut ˆetre employ´e comme une version analytiquement simplifi´ee du variogramme
exponentiel. Il se g´en´eralise pour toutes les dimensions d’espace.

Le mod`ele
cubique
( ( 2 )
35 h3 5
3 h7
C 7h − + 7 h
− si h :( a
γ(h) a 4 2 4 (2.1
C

o u` C et a sont deux constantes r´eelles positives.

On a γt(0) = 0 donc le comportement `a l’origine est parabolique. Le mod`ele cubique, qui


partage avec le mod`ele sph´erique la propri´et´e d’atteindre son palier, mais qui diff`ere par son
comportement `a
l’origine, peut ˆetre consid´er´e comme une version simplifi´ee du variogramme gaussien.

Le mod`ele `a effet de
trou
sin(h/a)
γ(h) = C (1 ) (2.18)
h/a

o u` C et a sont deux constantes r´eelles positives.

90
Ici aussi, le palier n’est jamais rigoureusement atteint. La port´ee peut ˆetre d´efinie au niveau de
l’une des premi`eres intersections de la courbe avec la limite asymptotique C du variogramme. Diff
´erentes mesures du ph´enom`ene peuvent ˆetre effectu´ee sur le variogramme (abscisse du
premier pic, ´ecart inter-pics, distance du premier creux, etc.) et traduites en termes de caract
´eristiques de la variable r´egionalis´ee (largeur typique des ondulations, etc.). Pour plus
d’informations nous renvoyons le lecteur au travail complet de Pyrcz et Deutsch (2003).

Le comportement `a l’origine est parabolique : γt(0) = 0.

Physiquement, nous savons depuis le d´ebut du XIXe si`ecle et les ´etudes de Joseph Fourier, que
tout signal peut ˆetre consid´er´e comme une somme (potentiellement infinie) de sinuso¨ıdes : la
nature est intrins`equement oscillatoire. Un ph´enom`ene dont la p´eriodicit´e nous est apparente
est un signal dont n’ont ´e t ´e conserv´e que les basses fr´equences. Comme nous le verrons dans
le paragraphe 2.4.5, le variogramme `a effet de trou ne d´ecrit pas autre chose : c’est la caract
´erisation d’un mod`ele p´epitique pur pass´e en entr´ee d’un filtre passe-bas id´eal.

Le mod`ele `a effet de trou est adapt´e pour mod´eliser les ph´enom`enes (en particulier spatio-
temporels) cycliques : la pluviom´etrie, le niveau de la mer (et d’une mani`ere g´en´e ra le tous
les ph´enom`enes li´es d’une mani`ere ou d’une autre `a la rotation ou `a l’orbite de la Terre),
l’imagerie par r´esonnance magn´etique, ainsi que certains ph´enom`enes topographiques pr
´esentant une forme de p´eriodicit´e spa- tiale (plissements, dunes...).

D’une mani`ere plus g´en´erale, la litt´erature de r´ef´erence d´esigne par l’appellation


variogramme `a effet de trou, tout mod`ele non-monotone (Journel et Huijbregts, 1978).

C C
Vari

Vari

Distance entre sites h Distance entre sites h

Fig. 2.26. Variogramme p´epitique pur ( `a gauche) et variogramme `a effet de trou ( `a droite).

Le mod`ele p´epitique pur

C’est le cas d’un processus compl`etement d´e c o r r´e l´e . On parle de bruit blanc au sens faible
(Picinbono, 1998). Utilis´e seul, il ne pr´esente aucun int´erˆet.

�0 si h =
γ(h) =
0 (2.19)
C sinon.

o u` C une constante r´eelle positive.

γ a un comportement discontinu `a l’origine.

91
Le mod`ele `a effet de p´epite

Notons qu’il est possible de combiner l’effet de p´epite `a tous les mod`eles de variogrammes pr´ec
´edents. Par exemple, on peut fabriquer un variogramme cubique `a effet de p´epite.

� 2
35 h3 5
3 h7
C(7 h − + 7 h
− ) si h :( a
γ(h) a 4 2 4 (2.2
C

o u` C, C0 et a sont trois constantes r´eelles positives.

C
Vari

Distance entre sites h

Fig. 2.27. Variogramme cubique avec effet de p´epite.

Les gisments d’or par exemple, peuvent se mod´eliser par un variogramme au comportement erratique
(fort effet de p´epite), une faible port´ee et une croissance lin´eaire `a l’origine, donc a priori
avec un variogramme exponentiel ou sph´erique avec p´epite. Le mod`ele cubique ou gaussien `a
effet de p´epite peut permettre de mod´eliser les erreurs de mesures (GPS par exemple) sur un
MNT.

Les mod`ele gigognes

Les mod`eles de variogrammes sont additifs. Autrement dit, si γ1 et γ2 sont des variogrammes
valides, alors γ1 +γ2 en est un aussi12 Avec ce proc´ed´e, on peut facilement construire des
variogrammes ´etag´es, dits variogrammes en gigogne.

γ(h) = γ1(h) + γ2(h) + ... + γn(h) (2.21)

o u` γ1, γ2... γn sont des mod`eles de variogramme licites.

Il est possible de regrouper ces mod`eles en trois classes (Baillargeon, 2005) : les mod`eles sans
palier (lin´eaire, puissance) avec palier exact (lin´eaire avec palier, p´epitique pur, sph´erique
et cubique) et enfin avec palier asymptotique (gaussien, exponentiel et `a effet de trou). Il existe
par ailleurs de nombreux autres mod`eles moins classiques : Mat´ern, Legendre, Bessel... qui g´en
´eralisent et compl`etent les variogrammes ci-dessus.

12
Notons que ceci n’est pas vrai pour la soustraction.

92
C

Varia
a1 a2

Distance entre sites h

Fig. 2.28. Variogramme gigogne.

Nous pr´esentons en figure 2.29 les 6 mod`eles de variogramme les plus fr´equemment utilis´es,
avec `a chaque fois un exemple de r´ealisation associ´ee.

Fig. 2.29. Pr´esentations de 6 mod`eles de variogramme avec un exemple de r´ealisation associ´ee.

2.4.4 L’estimation du variogramme


Au bilan, nous avons manipul´e jusqu’ici trois concepts diff´erents du variogramme. Il
peut ˆetre int´eressant de les r´ecapituler `a ce stade :

• Le variogramme th´eorique : introduit au d´ebut de la section 2.4, variogramme r´eel


du ph´enom`ene que l’on cherche `a mod´eliser. De par le nombre fini de points d’observation,
il s’agit
93
d’un objet conceptuel, inconnu en pratique, et que l’on cherchera `a estimer.

• Le variogramme exp´erimental : ou variogramme empirique (2.4.1), est une estimation


du variogramme th´eorique, calcul´ee `a l’aide des observations disponibles. C’est un estimateur
bruit´e (variance statistique d’estimation) et fragmentaire (connu en quelques points
seulement).

• Les mod`eles de variogrammes : biblioth`eque de fonctions math´ematiques


satisfaisants les propri´et´es du variogramme th´eorique (d´efini-n´egativit´e conditionnelle),
et dont les param`etres sont estim´es `a partir des observations (2.4.3). Les mod`eles de
variogrammes permettent d’´etablir un pont entre le variogramme th´eorique insaisissable et
son estimation bruit´ee, le variogramme exp´erimental.

Apr`es avoir choisi un mod`ele de variogramme, on effectue l’estimation de ses param`etres `a


l’aide de m´ethodes statistiques classiques : moindres carr´es lin´eaires, non-lin´eaires, pond´er
´es... dont l’´etude exhaustive sort malheureusement du cadre de ce cours, et au sujet desquelles
nous ne saurions faire mieux que de renvoyer le lecteur int´eress´e `a l’excellent ouvrage de Sillard
(2001). Soulignons toutefois que cette phase d’estimation (que l’on r´esume sur la figure 2.30) est g
´en´eralement enti`erement prise en charge en boˆıte noire par les solutions logicielles.

Erreur d'estimation
Varian

Modèle de variogramme Variogramme empirique Variogramme théorique

Distance entre sites h

Fig. 2.30. Variogramme th´eorique inconnu (en ligne pointill´ee), variogramme exp´erimental
(croix rouges), mod`ele de variogramme i n f´e r´e par estimation param´etrique (trait plein) et erreur
d’estimation.

Notons qu’il peut parfois se r´e v´e l e r difficile de choisir le bon mod`ele de variogramme. Certains
travaux ont ´e t ´e men´es en ce sens pour permettre une s´election automatique (Barry et al., 1996).
En g´en´eral, les approches employ´ees consistent `a tester l’ajustement sur une collection de
mod`eles candidats. Le mod`ele retenu est alors celui qui offre le meilleur compromis entre parcimonie
et qualit´e d’ajustement13.

Activit´e V. S´election et estimation d’un mod`ele de variogamme

Dans cette activit´e nous allons apprendre concr`etement comment choisir un bon mod`ele de
vari- ogramme et estimer ses param`etres (dans un premier temps `a la main, puis
informatiquement) en fonction des caract´eristiques suppos´ees de la variable r´egionalis´ee.

94
13 ´
E tant entendu qu’un mod`ele avec plus de degr´es de libert´e permet en g´en´eral un meilleur ajustement, une
approche classique pour ´eviter le sur-apprentissage consiste a` p´enaliser le nombre de param`etres du mod`ele.

95
On donne en figure 2.31 cinq exemples de r´ealisations d’un processus stochastiques (A `a E), avec leurs
cinq variogrammes empiriques associ´es (dans le d´esordre : I `a V).

Fig. 2.31. 5 exemples de r´ealisations d’un processus stochastiques (colonne de gauche) et les
5 variogrammes empiriques associ´es (colonne de droite dans le d´esordre).

96
Q1. Associer chaque r´ealisation avec son variogramme correspondant.

Q2. On consid`ere le variogramme exp´erimental de la fig. 2.32, construit `a partir d’un semis de relev´es
d’altitude. Choisir (en justifiant) un mod`ele de variogramme, et le repr´esenter sur le graphique.

50

Variance 40

30

20

10

0
0 100 200 300 400 500

Distance entre sites h (m)

Fig. 2.32. Le variogramme exp´erimental d’un ensemble de relev´es altim´etriques.

Q3. Reprendre la question Q2 et calculer informatiquement les param`etres du variogramme.

Correction :

Q1. La r´ealisation B est un bruit blanc (signal sans aucune structure de corr´elation spatiale).
Son variogramme est donc `a p´epite pure, donc constant et ´egal `a Γ > 0 sur ]0; +∞[ et nul en
0 : c’est le variogramme III. La r´ealisation C poss`ede un motif d’ondulations p´eriodiques, ce qui
se mod´elise
`a l’aide d’un variogramme non-monotone dit `a effet de trou : le mod`ele V. Parmi les 3 r
´ealisations restantes A, D et E, seule la variable r´egionalis´ee E semble bruit´ee. On
recherche donc un effet de p´epite dans le variogramme, que l’on trouve dans le mod`ele I. Au
passage, la repr´esentation vari- ographique nous permet de calculer le ration signal sur bruit (ou
SNR pour Signal to Noise Ratio en anglais) du processus : c’est le rapport de la variance de
l’information utile sur la variance du bruit14. En termes variographiques, c’est le rapport de la diff
´erence palier - p´epite sur la p´epite :

C− η C
SNR = = −1
η η

Pour une p´epite pure (η = C) et on retrouve bien un SNR nul (aucun signal dans le bruit). Ici, dans
le cas du variogramme I, on a C ≈ 1200 et η ≈ 450, d’ ou` un SNR de l’ordre de 1.7 dans la r
´ealisation E (1.7× plus de signal que de bruit). Les SNR de tous les autres mod`eles (hormis I et
III) sont infinis.

Enfin, entre les deux r´ealisations restantes (A et D), A paraˆıt plus r´eguli`ere, on lui associe
donc II, pour son comportement parabolique `a l’origine (notons que le processus ayant g´e n ´e r ´e A
semble ˆetre une version d´ebruit´ee de celui ayant g ´e n ´e r ´e E). La r´ealisation D, plus irr
´eguli`ere, correspond donc au

97
14
Physiquement, cette quantit´e correspond ´egalement au rapport de la puissance du signal utile sur le bruit de fond.
En t´el´ecommunication, plus le SNR est r´eduit, plus la r´eception du signal est d´elicate.

98
variogramme IV, au comportement clairement lin´eaire `a l’origine.

R Variogramme Mod`ele Port´ee


´ealisation (m)
A II Gaussien/Cubique 3000
B III P´epite pure 0
C V Effet de trou 5000
D IV Exp/Sph´erique/Puissance 3000
E I [Gaussien/Cubique] + p 3000
´epite

Q2. Par simplicit´e, on propose d’utiliser une mod`ele de variogramme lin´eaire avec palier.

50

40
Variance

30

20

10

0
0 100 200 300 400 500

Distance entre sites h (m)

Fig. 2.33. Variogramme exp´erimental d’un ensemble de relev´es altim´etriques et ajustement


em- pirique d’un mod`ele de variogramme lin´eaire avec palier.

On estime alors graphiquement : port´ee a = 410 m, p´epite η = 5 m2 et palier C = 41 m2, soit une
pente (C − a)/η = 0.088 m-1 et un ratio signal sur bruit de 7.2.

Remarquons que ce choix simplificateur a un prix : la topographie est en g´e n´e r a l assez lisse,
alors que le mod`ele utilis´e ici a un comportement lin´eaire `a l’origine. En fonction de la g
´eologie du milieu consid´er´e, peut-ˆetre qu’un mod`ele gaussien ou cubique avec p´epite serait
plus adapt´e.

Q3. Informatiquement, on peut estimer les param`etres plus rigoureusement. On commence par
relever les valeurs du graphe pour les consigner informatiquement :

G = c(10,13.5,17,23.5,27,31,34.5,40.5,42,40,42)
n = length(G); H = (1:n)*50

On peut alors estimer les param`etres optimaux du variogramme. On rappelle que la droite de r´egression
y(x) = β1x + β2 entre deux s´eries de nombres X et Y a pour param`etres optimaux :

β�1 = Cov(X,Y)
β�2 = E[Y ] − β�1 E[X] (2.22)
Var[X]

On donne alors le code suivant, permettant, pour un entier a donn´e, d’effectuer la r´egression lin´eaire
2.22 sur les a premiers points du variogramme exp´erimental, puis de calculer la droite de r´egression
99
horizontale (qui correspond simplement `a l’ordonn´ee moyenne) des (n − a) points restants. Le code

100
retourne (en plus des param`etres ajust´es), un indice de la qualit´e de l’ajustement, le RMSE,
calcul´e par la racine carr´ee de la moyenne des carr´es des ´ecarts entre le mod`ele et les points de
donn´ees.

Script 7. Calcul des param`etres d’un variogramme [code4.r]

a = 7 # Test d’une coupure

possible #
# Estimation
#
slope = cov(H[1:a],G[1:a])/var(H[1:a])
intersept = mean(G[1:a])-slope*mean(H[1:a])

model1 = intersept + slope*H

palier = mean(G[(a+1):n])
model2 = rep(palier, n)

erreur = c(model1[1:a]-G[1:a], model2[(a+1):n]-G[(a+1):n])


rmse = sqrt(mean(erreur*erreur))

# Interpolation lineaire de la portee


id = min(which(model1 > palier))
weight = (palier-model1[id-1])/(model1[id]-model1[id-
1]) scope = H[id-1]*(1-weight) + H[id]*weight

slope = (palier-intersept)/scope

#
# Sorties graphique
#
plot(H, G, pch=16)
lines(H, model1,
lty=2) lines(H,
model2, lty=2)
abline(v=scope, lty=2)

#
# Sorties consoles
#
cat("---------------------------------------------\r\n")
cat(paste("Portee:", round(scope,2),"\r\n"))
cat(paste("Pente:", round(slope,3),"\r\n"))
cat(paste("Pepite:", round(intersept,2),"\r\n"))
cat(paste("Palier:", round(palier,2),"\r\n"))
cat("---------------------------------------------\r\n")
cat(paste("RMSE:", round(rmse,2),"\r\n"))
cat("---------------------------------------------\r\n")

On peut alors lancer le code ci-dessus pour toutes les valeurs de coupure possibles (nomm´ement pour
a allant de 2 `a 10) et ne conserver que celle qui donne le meilleur ajustement (i.e. le RMSE le plus
faible). La meilleure estimation est obtenue pour la coupure a = 7 (soit entre le 7eme et le 8eme

101
point), avec une erreur RMSE de 0.77 m2. Les param`etres estim´es sont :

Portee = 421.73 m Pente = 0.085 /m Pepite = 5.43 m2 Palier = 41.12 m2

ce qui correspond `a peu de chose pr`es aux param`etres estim´es `a la main. La valeu r du palier
nous donne l’amplitude verticale caract´eristique de variation du champ : σ Z = 41.12,√soit de l’ordre
de 6 `a 7 m. Le bruit blanc additif a une amplitude caract´eristique σ = √5.43, soit environ 2 m. La
taille horizontale typique des ´el´ements structurants du relief (colline, vall´ees...) serait d’environ 400 m.

Nous concluons cette activit´e avec une repr´esentation p´edagogique du variogramme, inspir´ee de
l’excellent ouvrage de Gringarten et Deutsch (2001).

2
0

● ●
●●●
● ● ● ●●● ● ● ● ● ●● ●
● ● ● ●● ● ● ● ● ●
● ● ● ● ● ● ●

2
0
● ●● ●●●● ●● ●● ● ● ●
● ● ● ● ●●● ●●● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ●● ● ● ●● ● ● ● ●
1
0

●● ● ● ● ● ●● ● ●●● ●●● ●● ● ● ● ●● ●
● ●●● ● ●● ● ● ● ● ●●●●●●●● ●●●● ●●●● ●●● ●●
●● ●●●●● ●●●●●●● ●● ●●●● ● ●●● ●●●●●●●●●●●●●●
● ● ●●● ● ●● ● ● ●
● ●● ●● ●●● ●●●●●● ● ●●● ●●●●●●●●●● ● ● ●● ●●●● ●
● ● ● ●●● ●●●●●●●● ●●●●● ●● ●●●●●● ●●
●● ●● ●●●●●● ●● ●● ● ● ●● ● ● ●● ● ●● ● ●
● ●●●●●●●●●●●●●● ●●●●●●● ●●●● ●● ●●●●●●●●●●●● ●●● ● ● ● ● ● ● ● ●●●●● ● ●
● ● ●● ●● ● ●●●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●● ●●● ●● ● ● ● ● ●
● ● ● ● ●● ●● ●●● ●● ●●●●●●●●●●●●● ●●●●●●●●●● ●●●● ●● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ●
● ●●● ● ● ●●● ●● ● ●● ●● ●●●●●●●●●●●●● ●● ●●●
●●● ●●●●● ●●●●●●● ●● ● ● ● ● ●● ● ●● ●●●●● ●● ● ●● ● ● ●●●●●● ●● ●●● ● ● ●● ● ●●

1
0
●● ●
2
0

● ●●●●●●●● ●●●●●●●●●●●●●● ● ●● ●●●●● ●●● ● ●● ● ●


● ● ● ●● ● ● ●●
●●●●● ●● ●●●●●●●●● ●●●● ●●●
●●●●● ●● ●● ●●● ●
● ● ●●● ●●●●●●● ●● ●●●●●●●● ●●●● ●●● ●● ●● ● ● ● ● ● ● ● ●● ●●●● ●●●●●●●●●●● ● ● ●●●● ●● ●
●● ●●●●

●● ● ● ●●●●● ●●●● ● ●●●●●●●●● ●●● ●●● ●●●●●●●●● ●●●● ● ● ● ● ●
● ● ●● ●● ●● ●●● ●●●● ●●●● ● ●●●●●●●●●●●●● ● ● ● ●● ● ● ● ● ●●● ●●● ●●●●●●●●●●●● ●● ● ● ● ● ● ● ●
●● ●●● ● ●●●● ● ●●●●●●● ●●●●●●●●●●●●●●● ●●●● ●● ● ●
● ●● ●
● ● ● ●●●●●● ●●●● ● ● ●●●●●●● ● ●●● ● ●●●● ●●●●● ● ● ●● ● ● ● ● ● ● ●
● ● ●● ●● ●● ●●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ● ● ●
● ● ●● ● ● ● ● ●● ● ●●●●● ● ●● ● ●● ●●●●●●●● ●●●●● ● ●● ● ●● ●
● ●● ● ●●●●●● ●●● ●●●●●●● ●●●●●●●●●● ● ● ●●●● ●
● ●● ● ●●● ● ● ●●●● ● ●● ●●●● ●●●● ●●● ● ●●●● ●●● ● ●●● ● ●●● ● ●●●● ●●●●●● ● ● ●●●●●
●●●●●●●●● ●●●●●●●●●
● ● ●●● ●●●●●●●
● ●●●●● ●●●●
●● ●
●● ● ● ● ● ●●●● ● ●●●● ●●●●● ●●●●●●●● ●● ● ● ●● ●●●● ●●●●●●● ●●●●●●●●
●●●● ●●●●●● ●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●●
● ●●●●●●● ● ● ●●
● ● ● ● ● ● ●●●● ●●●●●●●●●● ● ●●●● ● ●●●● ●● ●
● ● ● ● ●●● ●●●●●●● ● ● ●●● ●●● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ●●●●●●●● ●● ●●●●●●●●●●● ●● ●● ● ● ● ●●
●● ● ● ● ● ● ● ●●●●●●●●●●●●● ●●●●●●●●●●●●●● ●●●●●●● ● ●●●● ●●
● ● ● ●●●●●●
● ● ● ●●● ●● ● ● ●●●● ●● ●●●●●●●●●● ● ●● ● ● ●● ● ●● ●●●●●● ●●●●● ●●●●● ●●●●●●●●●●●●●●●●● ● ●●●●● ●●● ● ●●● ● ●
● ● ● ● ● ●● ● ●
●● ● ●●● ● ● ●● ●●● ● ●●●● ● ● ●●●●● ●●● ● ●● ●●● ●●● ●●●●●● ●● ●● ●●● ●●●●● ●●●● ●●● ●● ●●●● ●
1
0

0
● ●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●●●●●●●●●●● ●●●●● ●●●●● ● ●
●● ●
0

● ●● ●● ● ●● ● ●●● ●● ● ● ●● ●
● ●●
● ● ●●● ●●●● ● ● ●●● ●●●●●● ● ●● ● ●●●●●● ● ●
●● ●
● ●●● ● ●●● ●●●● ●●● ●● ●● ● ● ● ●●
●● ●● ● ● ● ● ●●●● ● ● ●

●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●
●● ● ●●●●● ● ●●●●●●●●●●●●●●● ●●●
●● ●●●● ●●●●●●● ● ●●
● ● ● ● ● ● ● ● ●●● ●● ●● ●●● ● ● ● ●● ●●● ● ●●●●● ●●●● ●●●●● ● ●● ● ● ●● ●
● ● ● ●●● ●● ● ●
● ●● ●
●● ● ●● ● ● ●●● ●● ● ● ● ● ● ●●●● ● ● ●● ● ●● ●● ●● ●●●●●●● ●●● ●● ●● ●●●

● ● ●●● ●● ● ●●● ●
●● ●●●● ●● ●●●● ● ● ● ●● ● ●
● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ●●●●●●● ●●●● ●● ●● ●● ●●●
● ● ● ●●●● ● ●●● ●●● ●● ● ● ● ● ●●●
●● ●●●●●● ●● ● ●●●●
● ●●●●●●●●●●●● ●●● ●●● ● ●●●
● ●●● ●● ●●●●●● ●●
●● ●●●●●
● ●●● ● ● ● ●● ● ● ●
● ● ●●●●● ●●● ●● ●●●
● ● ● ● ●● ●● ●●●● ●● ● ●● ● ● ● ● ● ●●● ●●●
● ● ●● ●● ● ●● ● ●●●● ● ●●●●● ● ● ● ● ●
●●● ●●● ●● ●● ●●●●●● ● ● ●●●● ● ● ●●●● ●● ● ●● ● ● ● ● ● ●
● ● ●●● ●●●●● ●● ●●
● ●●● ● ●● ● ●●● ● ●●● ● ● ●
● ● ●● ●●● ●●●● ●●● ● ● ● ● ● ●●● ●● ●
●●● ●●● ●
● ●●● ●●●●●● ●●●●● ● ●● ● ●●●● ●●●● ●●● ● ●● ●●● ●●


● ● ●●● ● ●● ●● ●●●● ●●

1
● ● ● ● ●● ●● ● ●
● ● ● ●●
●● ● ●●

● ● ● ●●● ●● ● ● ● ● ●● ● ●
2

● ●● ●●●● ● ●●●●●●● ● ● ●● ●●●●● ●●●


●●
●● ● ●● ● ●●●●
●●● ●● ● ● ●● ● ● ●● ● ●●●● ● ● ● ● ● ● ●●● ● ●
● ● ●●● ●● ●● ●●●● ●●●●● ●● ●● ●●
●●●● ● ● ● ● ●● ● ● ● ● ● ●●● ●
●●●● ●●●●●● ●●● ●●● ●●●●●● ●●●●● ● ● ●●●●●●●● ● ●● ● ● ● ● ● ●●

●●●●●●●●●●●●● ●●● ● ● ●● ● ● ● ●●
●●●●●● ● ●● ●● ● ●●●●●●
● ●
●●● ● ● ●● ●●●●● ●●●●
−20−10 0 10 20 ● ● ●
●●●●●●● ●●●● ●●● ● ●
● ● ● ●●●
●●● ●●● ●● ●●● ●● ●
0

● ●● ●●●●●● ●● ●
● ● ●●●●●●● ●●●●●●●●●●
●● ●●●●●●● ●●●●
●●● ● ● ●●●●●●●●●●
●●● ●●● ● ●
● ●● ●● ●●
●● ● ●● ●● ●●●●●
● ●●
●● ●●● ● −20−10 0 10 20

● ● ● ● ●●●
● ●● ●●●●●
● ●●
●●
● ● ● ●● ● ●● ●●●● ●● ● ●●

● ● ●●● ● ● ●●●● ●
●●●●●● ● ● ● ● ●●
●●● ● ●●● ● ●●● ●
● ●●●●
● ● ●●●●● ●● ●

2

● ●● ●
●● ● ●●●●● ● ● ● ● ●●●● ● ●● ●● ●●● ●
● ● ● ●●●●●● ●●●

−20−10 0 10 20

50

2
0

● ●

40

●●●


●● ●
●● ●● ●
● ● ● ● ●● ● ● ●●
●● ● ●● ● ● ● ●●● ● ●● ● ● ●
●● ● ●● ● ●●●● ● ● ●
● ● ●●● ●● ● ●●● ● ● ● ● ●

1
0
● ●●●●● ● ●● ● ● ●● ● ●● ● ● ●
● ●● ●● ●● ●●● ● ● ● ●●●●● ●●●●●●● ● ● ● ● ●
● ●● ● ●●● ● ●● ● ●● ● ●● ●●●● ●●●●● ●● ● ● ●●
● ● ● ● ●●● ●●● ●●●●● ●●● ● ●● ●●● ● ● ●●● ●●
● ● ● ● ●●● ●● ●●●●●● ●● ●●●●●●●●●●●●●●●● ● ●●●●
●● ●● ● ●● ● ●● ● ● ●●

● ● ● ●● ● ● ●●● ●● ● ● ●●●●●●●●●● ● ●●● ● ● ● ●●● ●● ● ● ●

30
● ●●●● ● ●●●●●●●●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●
● ● ●● ●● ● ● ● ●● ●●●●●●●●●●● ●●●●●●●●●●●●● ●● ●●● ●●●●● ●● ●● ●●●● ● ● ● ● ● ●
● ● ●● ●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●● ●●● ● ●●●● ● ● ●●
● ●● ● ● ●● ● ● ●●●●●●●●●●● ●●●●●● ●● ●●●●●●● ●●●●
● ● ●●● ●●● ●●●●●●● ● ●●●●● ●●●●●●●●●● ●● ●● ● ● ● ●
● ● ● ●● ●●●● ●●●●●● ● ●●●●●● ●●●●●●● ●●●● ● ● ●● ● ● ● ●●
● ●●●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●
● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●● ●●●●● ● ●●● ●

0
● ● ●●● ●●●●● ●● ●●● ●●●●●●● ●● ●●● ● ● ● ● ●● ● ●

2
0

●● ● ● ● ●●●●●●●●●●●●● ●● ●● ●● ● ●●● ●●●●●●●●●● ● ● ●●


● ●● ●● ● ● ●● ●● ●●●●●●●●● ●● ●●●●●●● ●● ●●● ● ● ●●
●● ●● ● ● ●● ● ●●●●● ●●●●●● ●● ●●● ●● ●
● ●●● ● ●●● ●● ● ● ● ●● ● ●●●●●●●●●●●●● ● ● ● ●
●● ●● ● ●● ●●● ● ● ●●● ● ●●●● ● ● ● ●
● ●●● ● ●●●● ●● ● ● ● ● ●●●● ● ●● ● ●● ●
● ● ● ● ● ● ● ●●●● ● ● ● ● ●●●●● ●● ●
● ● ● ● ● ●●● ● ●
●● ● ● ●●● ● ●●●●●● ●● ● ●● ●●● ●● ● ●
● ●●●● ● ● ● ● ●●●● ●● ● ● ● ● ●● ● ●
● ●●●●● ●●● ●● ● ●●●●●● ●● ● ●●●● ● ● ● ●
● ● ●● ●●●●● ●●● ● ● ● ● ●
● ● ● ● ●●● ●● ●● ● ●

20
● ●●● ●●●●●●●● ●● ●●●
●● ●


1
●● ●● ●● ● ●●●●● ●● ●
●● ●● ●● ● ●● ●● ●●●●
●● ● ● ● ● ●● ●●● ●
1
0

●● ● ●●●●●●●● ●●●●● ● ● ● ●
● ● ●●●●●●●● ●● ●● ●●●●●●●●●●● ●
●●● ● ●
● ●● ●● ●●●●● ●●●●●●●● ●●●●●●●● ● ●●
● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●●●
●●● ● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ●●●● ● ●●● ●
● ●●●●●● ●● ●●●●●●●●●●●●●●●● ●●●●●● ●
●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●
● ● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●
●●●
●● ●●●● ●
● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●
●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●
●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●●●●●●●● ●●● ●
● ● ●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●● ● ● ●
● ●●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●
● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●
−20−10 0 10
● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●
● ●●●●● ●● ●●●●●●●●●●●●●●● ●●● ●● ● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●●●●● ●●●●●●
● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●
● ●●●●●●●●●●●● ● ●● ●●● ●
● ●● ●●●●●●●●●●● ●●●●●●●●●●●
● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●●
● ● ● ●●● ●●●●● ●●●●●●● ●●● ● ● 1
0

●●● ●● ● ●
● ●● ●●● ● ● ● ●
●●●●● ●●● ●
● ● ● ●●● ●●● ● ●
●● ● ●
● ●

0
●●● ●


2

0 100 200 300 400


500
−20−10 0 10 20

Distance entre sites h (m)

Fig. 2.34. Variogramme du processus, et corr´elation lin´eaire ρ entre deux sites distants de h =
0, 100, 200, 300 et 500 m. Remarquons q u’ `a cause de l’effet de p´epite, la corr´elation n’est
jamais parfaite, y compris pour deux sites infinit´esimalement voisins (h ≈ 0).

Le lecteur pourra v´erifier les valeurs de corr´elation, en utilisant la d´efinition 11 et le th´eor`eme 26 :

Cov(Z(x), Z(x + h)) C(h) γ(∞) − γ(h)


ρ(h) = σ(Z(x))σ(Z(x + h)) = C(0) =
γ(∞)

Par exemple, pour h = 200 m, on calcule `a l’aide des param`etres estim´es : γ(200) = 0.085×200+5.43 =
22.43. Par ailleurs, l’asympote du variogramme est γ(∞) = 41.12, d’ou` la corr´elation liant des
obser- vations effectu´ees en des sites s´epar´es de 200 m :

41.12 − 22.43
ρ(200) = 41.12 45 %

102
2.4.5 Pour aller plus loin

Anisotropie
Si le processus stochastique est anisotrope, son variogramme ne peut plus ˆetre d´ecrit par une
fonction d’une seule variable, puisqu’il d´epend `a present `a la fois de la distance h et de l’angle θ
s´eparant les sites. L’estimation du variogramme exp´erimental se fait d’une mani`ere analogue `a
2.9 mais en ajoutant en plus une discr´etisation sur l’angle θ. Formellement : disposant d’un semis
de points d’observations z(x1), z(x2), ...z(xn) d’un ph´enom`ene anisotrope Z, on peut estimer le
variogramme de Z par :

1 L i j)
γ�(h, θ) = t 2
z(x ) − z(x ) (2.23)
2|N (h, (i,j)∈N

o u` N (h, θ) d´esigne l’ensemble des couples d’indices (i, j) tels que les sites xi et xj sont s´epar´es d’une
distance h ± dh suivant une direction θ ± dθ et o u` |N (h, θ)| d´esigne le nombre de couples contenus
2 2
dans N (h, θ). En g´e n´e r a l 2 directions (0◦ et 90◦) ou 4 directions (0◦, 45◦, 90◦ et 135◦) sont suffisantes15.

Fig. 2.35. Anisotropie d’un processus stochastique : le variogramme exp´erimental est calcul´e
dans deux directions orthogonales : verticale (variogramme `a effet de trou en vert) et horizontale
(vari- ogramme gaussien ou cubique en bleu). Source : Pyrcz et Deutsch (2003).

Les variogrammes anisotropiques permettent de mod´eliser des processus g´eologiques complexes


(strates, failles, couches s´edimentaires, etc.) mais peuvent aussi ˆetre utilis´es pour g´erer des
processus spatio- temporels (la coordonn´ee temps ´etant en g´en´eral sujette `a un variogramme diff
´erent des coordonn´ees espace) ou encore les espaces non-euclidiens (par exemple localement en
coordonn´ees g´eographiques pour prendre en compte la diff´erence de m´etrique en latitude et
en longitude). Parmi les diff´erents types d’anisotropie, on distingue deux mode caract´eristiques
:

• L’anisotropie g´eom´etrique, dont les variogrammes sont de palier identiques mais de port
´ees diff´erentes suivant les directions, et qui peut ˆetre facilement corrig´ee par un
changement de rep`ere. Dans ce mode d’anisotropie, la variabilit´e pr´ef´erentielle du
processus dans certaines directions est souvent due `a un mauvais choix de syst`eme de
coordonn´ees.
• L’anisotropie zonale, aux variogrammes de port´ees identiques mais de palier diff´erents, qui
car- act´erise une anisotropie plus intrins`equement li´ee au processus, et donc plus difficile `a
mod´eliser.

103
Le lecteur pourra trouver plus d’informations sur ce sujet dans (Allard, 2012).

15
Les angles sont donn´es a` une rotation globale pr`es, d´ependant de l’orientation du rep`ere.

104
De la validit´e d’un mod`ele variographique

Comment savoir si une fonction γ (nulle `a l’origine) est un mod`ele de variogramme licite ?

En th´eorie, il suffit de s’assurer que γ est conditionnellement d´efinie-n´egative, i.e. pour tout
n-uplet de points du domaine : (x1, x2, ..., xn) ∈ D et pour tout n-uplet de poids (λ1, λ2..., λn) ∈ Rn :

n n n
L L
λi = 0 ⇒ L λiλjγ(xi − xj) :( 0 (2.24)
i=1 i=1 j=1

Exemple 2.5. Reprenons l’exemple 2.4 de la fonction de Heaviside (fonction ´echelon unit´e), dont
nous avions montr´e empiriquement qu’elle ne pouvait pas ˆetre un variogramme. On montre
facilement que
γ˜ ne v´erifie pas la contrainte de d´efini-n´egativit´e conditionnelle. En effet, en reprenant les trois
mˆemes points x1, x2 et x3, avec ||x1 − x3|| = ||x2 − x3|| < ξ et ||x1 − x2|| � ξ, on peut consid´erer
le syst`eme
de poids : λ1 = λ2 = −1 et λ3 = 2. On a bien λ1 + λ2 + λ3 = 0, et pour autant :

n n
L
L λi λj γ˜(x i − xj) = λ 1 λ 2 γ˜(x 1 − x2) = Γ > 0
i=1 j=1

donc la fonction γ˜ n’est pas CDN, et ne peut donc pas ˆetre un mod`ele de variogramme.

Si la contrainte 2.24 est parfois facile `a r´efuter, elle est en g´e n´e r al tr`es difficile `a v´erifier, et on
pourra alors trouver un salut dans les deux th´eor`emes suivants. Tout d’abord, dans le cas o u` γ
est born´ee : si γ est un mod`ele de variogramme licite, alors on sait que la covariance C doit
exister et la relation fondamentale 26 nous permet d’obtenir son expression. Il suffit alors de v
´erifier que C est bien une fonction de covariance licite, et pour cela, on peut utiliser le puissant th
´eor`eme de Bochner :

Th´eor`eme 33 (Th´eor`eme de Bochner)

Une fonction C : R+ → R+ est la covariance d’un processus stationnaire au sens large si,
et seulement si, elle est la transform´ee de Fourier d’une mesure positive finie sur R :

C(h) = - eiωhF (dω)

Autrement dit, dans la plupart des cas, pour savoir si une fonction γ quelconque born´ee est un
mod`ele de variogramme licite, il suffit :

• d’´evaluer la fonction covariance candidate associ´ee : C(h) = γ(t) − γ(h)


lim
t→∞

• de calculer la transform´ee de Fourier µ de C (Cottet, 2015) : µ = F[C]


• et enfin, de v´erifier que µ est positive sur R.

Remarque : pour calculer la transformation de Fourier sur l’intervalle r´eel, on sym´etrise la


105
fonction de covariance candidate : C(−h) = C(h).

106
Linéaire Exponentiel Gaussien A effet de trou

0
0
Variogram

0.8
3

0
0

0
0

0
0
0
0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 5 10 20 30
Covariogramm

0.6
3

0
0


−100−50 0 50 100 −100−50
0 0 50 100 −100−50 0 50 100 −30−10 10 30

0
0.
Fouri

0
0
0.

0
0.

−100−50 0 50 100 −100−50 0 50 100 −100−50 0 50 100 −4−2 0 2 4

Fig. 2.36. Pour chaque fonction γ (ligne du haut) dont on souhaite v´erifier la validit´e en tant
que mod`ele de variogramme, on calcule le covariogramme candidat associ´e (ligne du milieu), et on v
´erifie que sa transform´ee de Fourier (ligne du bas) est une fonction positive.

On donne en figure 2.36 quatre exemples de v´erifications.

Remarque : si C est bien une covariance, F est sa densit´e spectrale de puissance, c’est-`a -
dire la r´epartition probabiliste des puissances des signaux g ´e n ´e r ´e s par le processus en fonction de la
fr´equence. Elle fournit donc de pr´ecieuses informations sur le processus.

Exemple 2.6.
nouveau, en reprenant l’exemple 2.4, si γ˜ ´etait un variogramme licite, alors sa co-
A`
variance associ´ee serait ( `a un facteur d’´echelle Γ pr`es) la fonction porte Πξ, d´efinie
par :

� (2.25)
1 si |h| :(
Π ξ(h) =
ξ0

Fig. 2.37. La fonction ´echelon unit´e γ˜ n’est pas un mod`ele licite de


variogramme.

107
Remarquons qu’il s’agit de la fonction en bas `a droite de la figure 2.36. Sa transformation de
Fourier est un sinus cardinal (par sym´etrie de la transform´ee de Fourier, on retrouve naturellement la
fonction

108
au milieu `a droite sur cette mˆeme figure), qui n’est pas une mesure positive. Donc la fonction
porte n’est pas un mod`ele licite de fonction de covariance, et nous avons `a pr´esent montr´e
rigoureusement que γ˜ ne peut pas ˆetre un variogramme.

Et pour les fonctions non born´es ?

Nous l’avons dit pr´ec´edemment, un variogramme non-born´e, est la caract´erisation d’un


processus stochastique stationnaire intrins`eque (et non stationnaire au sens large). Sa covariance
n’existe pas et on ne peut donc pas utiliser la m´ethode ci-dessus. Nous pouvons alors avoir
recours `a un second th´eor`eme, qui g´en´eralise en quelques sortes le th´eor`eme de Bochner
(Allard, 2012).

Th´eor`eme 34 (Th´eor`eme : validit´e d’un mod`ele de variogramme)

Une fonction γ : R+ → R+ (´eventuellement non-born´ee), telle que γ(0) = 0, est le vari-


ogramme d’un processus stochastique stationnaire intrins`eque si, et seulement si la fonction
ψ(h) = e−tγ(h) est une fonction de covariance quelque soit t > 0.

Exemple 2.7. Montrons que la fonction puissance 2.13 : γ : h 1→ hθ est bien le variogramme d’un
processus stochastique intrins`eque. On a bien γ(0) = 0. Par ailleurs, formons la fonction :
( )
ψ(h) = exp − thθ

Traitons alors diff´erents cas en fonction de la valeur de θ :

• θ = 1 : ψ(h) est une fonction exponentielle d´ecroissante (c’est la fonction de la deuxi`eme


colonne de la figure 2.36). Sa tranform´ee de Fourier est une fonction lorentzienne, donc
positive sur R. Le variogramme lin´eaire est bien un mod`ele licite de variogramme.

• θ = 2 : ψ(h) est une fonction gaussienne (c’est la fonction de la troisi`eme colonne de la


figure 2.36). Sa tranform´ee de Fourier est ´egalement une gaussienne, donc positive sur R.
Le vari- ogramme quadratique est bien un mod`ele licite de variogramme.

Plus g´en´eralement, on montre que le mod`ele de variogramme en puissance est licite pour tout θ ∈
]0; 2]. Allard (2012) propose une m´ethode ne n´ecessitant pas le calcul de la transformation de
Fourier, pour
montrer que la puissance θ ne peut pas ˆetre sup´erieure `a 2. L’id´ee centrale du d
´eveloppement est de proc´eder de mani`ere similaire `a l’exemple 2.4 de la fonction ´echelon unit´e,
en ´etablissant une in´egalit´e triangulaire sur le variogramme. Formellement, en consid´erant h
et ht deux vecteurs du domaine :

t
1 1t
γ(h + h ) = E Z
)2l 1 1t )2l
− Zx+h+h = E Zx − Z x+h + Zx+h − Z x+h+h
x
12 1t )2 t 2 ) )t
= E Z − Zx+h + Z x+h − Zx+h+h 2 + − Zx+h Z x+h − Zx+h+h )l
x
2 t
2 Zx
[ ]
= γ(h) + γ(ht) + E (Zx − Zx+h)(Zx+h − Zx+h+h )

109
Or, d’apr`es l’in´egalit´e de Cauchy-Schwarz on a :

110
[
E (Zx − Zx+h)(Zx+h − Zx+h+h ) = Cov(Zx − Zx+h, Zx+h − Zx+h+h )
(2.26)
t )
21
:( Var[Zx − Zx+h] × Var[Zx+h − Zx+h+h ]

D’ou` la contrainte d’in´egalit´e triangulaire sur le variogramme :

t ) 1
γ(h + ht) :( γ(h) + γ(ht) + 2 γ(h)γ(ht) 2
(2.27)

En particulier, la fonction ´echelon unit´e (2.4) ne respecte pas cette contrainte

( ξ ξ) ( ξ) ( ξ)
2 ) 2= γ˜
puisque : Γ = γ˜(ξ 2+ >2γ˜ + 2γ˜ 2 +

r
( ξ) ( ξ)
2 γ˜ γ˜ =0

De mani`ere plus g´en´erale, l’in´egalite 2.27 montre que le variogramme ne peut pas croˆıtre plus rapide-
ment qu’une parabole : γ(h) = O(h2). En effet, en consid´erant h = ht on obtient : γ(2h) :( 4γ(h), et
donc, si γ(h) = hθ, on a (pour h > 0) : 2θhθ :( 4hθ ⇔ θ :( 2.

Il est int´eressant de constater que dans le cas limite θ = 2, l’in´equation 2.26 nous montre que les
accroissements du processus sont compl`etement corr´el´es, et on aboutit `a un cas d´e g´e n´e r´e o u`
les
r´ealisations sont rigoureusement des plans inclin´es, de pentes al´eatoires. Par exemple, on peut
con- sid´erer le processus uni-dimensionnel X(t) = At, avec A ∼ N (0, 1). On v´erifie alors
facilement que X
est bien stationnaire intrins`eque : E[X(t+h) −X(t)] = E[Ah] = 0 et Var[X(t+h) −X(t)] = Var[Ah] =
h ,2qui est donc bien un variogramme quadratique. Le cas θ = 2 est un mod`ele licite de variogramme,
mais d’aucune utilit´e en pratique. Lors de utilisation d’un mod`ele en puissance, on veillera `a
bien contraindre l’ajustement param´etrique de θ dans l’intervalle ouvert ]0; 2[.

Exemple 2.8. La lin´earit´e de la transformation de Fourier nous dit que si C1 et C2 sont deux
fonctions de covariance, alors leur somme C1 + C2 en est une aussi. L’implication est moins triviale
pour les variogrammes, mais les th´eor`eme 33 et 34 nous permettent d’arriver `a nos fins.

Soient γ1 et γ2 deux variogrammes licites. Consid´erons la fonction γ : h 1→ γ1(h) + γ2(h). La


condition γ(0) = 0 est trivialement v´erif i´ee puisque γ1(0) = γ2(0) = 0. Par ailleurs, formons la
fonction : ψ(h)
t = exp) −tγ(h) . On a alors : ψ(h)t = exp −t(γ1(h) + )γ2(h)) =t exp −tγ)1(h) exp
t −tγ2(h)
)
= ψ1(h)ψ2(h), o u` ψi(h) est, d’apr`es le th´eor`eme 34, une fonction de covariance. Le th´eor`eme
33 nous dit
alors qu’il existe deux mesures positives µ1 et µ2 dont ψ1 et ψ2 sont respectivement les transform´ees
de Fourier. Par analogie de la multiplication et du produit de convolution (dit th´eor`eme de
Plancherel), la fonction ψ en tant que produit de transform´ee de Fourier de fonctions, est aussi la
transform´ee de Fourier de leur produit de convolution) :

ψ = ψ1 × ψ2 = F[µ1] × F[µ2] = F[µ1 ∗ µ2]


111
Par ailleurs, µ1 et µ2 ´etant des mesures positives, leur produit de convolution µ = µ1 µ2 l’est aussi

et ψ, en tant que transform´ee de Fourier d’une mesure positive est une fonction de covariance. A`
nou- veau, en utilisant le th´eor`eme 34, la fonction γ est donc un variogramme licite. On pourra g´en
´eraliser ce raisonnement, par r´ecurrence, pour une somme de n variogrammes. Nous avons donc
montr´e que le variogramme en gigogne 2.28 est valide d`e s lors que ses n composantes individuelles
le sont ´egalement.

112
2.5 Bilan
Le variogramme, qui indique pour toute distance de s´eparation h, la variance de la diff´erence
entre deux sites distants de h, caract´erise ( `a l’ordre 2) le ph´enom`ene `a ´etudier. En
particulier, le comporte- ment `a l’origine du variogramme traduit la r´egularit´e du ph´enom`ene
(continuit´e et d´erivabilit´e) tandis que la valeur num´erique de sa port´ee est un indicateur de la
taille caract´eristique des ´el´ements (e.g. vall´ees, collines) structurant ses r´ealisations.

On utilise le semis d’observations ponctuelles pour estimer un variogramme exp´erimental,


moyen- nant quelques hypoth`eses th´eoriques sur le processus ´etudi´e, `a savoir la stationnarit´e
et l’ergodicit´e, ce `a quoi on ajoute souvent par commodit´e l’isotropie. La quantit´e
d’observations ´etant toujours insuffisante, on r´egularise l’estimation avec une biblioth`eque de
fonctions param´etriques permettant d’assurer que la fonction estim´ee poss`ede bien le sens
physique d’une variance statistique. Le mod`ele de variogramme est choisi par le praticien en
fonction de la structure du variogramme exp´erimental, ainsi que des connaissances disponibles a
priori sur le ph´enom`ene ´etudi´e, tandis que les param`etres sont a just´es automatiquement
de sorte `a minimiser l’erreur d’estimation.

Tous les calculs subs´equents (en particulier ceux l i´es au krigeage, comme nous allons le voir
dans le chapitre 3) sont men´es `a partir du mod`ele de variogramme i n f´e r´e (coh´erence avec la th
´eorie, stabilit´e num´erique des matrices, positivit´e des variances d’estimation...).

113
Chapter 3

Interpolation par Krigeage

Dans ce chapitre, nous traitons le probl`eme mod`ele ´e n o n c´e dans l’introduction : disposant
d’un semis d’observations d’altitude z1, z2, ...zn en n sites x1, x2, ...xn, d´eterminer une fonction
interpolante
z : D → R qui en chaque lieu x du domaine retourne une estimation z(x) de l’altitude, avec la con-
trainte que la surface z co¨ıncide1 aux observations au niveau des sites : ∀ i ∈ [1..n], zi = (xi).

Nous l’avons vu pr´ec´edemment, le krigeage, comme toutes les m´ethodes de G´eostatistique,


aborde le probl`eme d’un point de vue probabiliste, en posant l’hypoth`ese que la variable r
´egionalis´ee z est une r´ealisation d’un processus stochastique Z, dont on suppose qu’il
poss`ede les propri´et´es minimales n´ecessaires au calcul de son variogramme `a partir d’un
semis d’observations ponctuelles.

Nous supposons disposer d’un mod`ele de variogramme γ dont les param`etres ont ´e t ´e estim´es
avec les techniques pr´esent´ees dans le chapitre 2. Le krigeage utilise alors les informations
fournies par γ pour construire un estimateur de variance minimale de z.

Nous montrons en premier lieu et de mani`ere empirique, comment la th´eorie des processus
stochas- tiques peut ˆetre employ´ee pour traiter le probl`eme d’interpolation. Nous pr
´esentons ensuite les
´equations de krigeage et illustrons la m´ethode `a l’aide de plusieurs cas concrets. Nous
concluons enfin le chapitre en pr´esentant quelques variantes et d´eriv´ees de la technique.

3.1 Introduction
Pour montrer empiriquement comment les processus stochastiques (et la connaissance fine des
vari- ogrammes associ´es) peut permettre de r´esoudre un probl`eme d’interpolation, nous proposons
ci-dessous un activit´e sur machine. Notons qu’elle requiert un peu plus d’aisance dans le langage
R que les ac- tivit´es pr´ec´edentes, mais apporte une perspective int´eressante sur les
fondements de ce chapitre.

Activit´e VI. Une premi`ere approche de l’interpolation


Pour en faciliter la prise en main de cette activit´e, nous progressons pas `a pas avec une
correction apr`es chaque question. Par ailleurs, pour rendre le code reproductible (et ainsi
permettre au lecteur d’obtenir exactement les mˆemes r´esultats que ceux pr´esent´es en guise de
correction) nous sugg´erons d’utiliser une graine informatique : set.seed(123). Cette commande, `a
ins´erer tout en haut du code, permet de fixer l’initialisation du g´en´erateur de nombres al
´eatoires. En cons´equence, pour une valeur de graine donn´ee (ici 123 par exemple), les r´esultats
obtenus seront identiques sur plusieurs ex´ecutions du code (et ne devrait en principe pas d´ependre
de la machine sur laquelle le code est ex´ecut´e). A la fin de cette activit´e, il sera possible de
114
changer la valeur de la graine, ou mˆem e de supprimer
1
Nous relaxerons quelque peu cette contrainte par la suite pour mod´eliser le cas ou` les observations sont impr´ecises.
La contrainte stipulera alors que la variable zi−z(xi) poss`ede un ´ecart-type ´egal a` celui de l’erreur entˆachant les
observations.

115
compl`etement cette ligne, pour pouvoir observer diff´erentes r´ealisations al´eatoires.

Dans un premier temps, nous allons programmer un processus stochastique l´eg`erement plus
sophis- tiqu´e que la marche al´eatoire 2.1 de l’activit´e I. Pour ce faire, nous allons avoir besoin
d’une fonction (qui malheureusement n’existe pas dans la biblioth`eque standard de R)
permettent de d´ecaler les
´e l´em e nts d’un vecteur d’un nombre donn´e de rangs vers la gauche ou vers la droite :

shift = function(x, lag) {


n = length(x)
xnew = rep(0, n)
if (lag < 0) {
xnew[1:(n-abs(lag))] = x[(abs(lag)+1):n]
} else if (lag > 0)
{ xnew[(lag+1):n] = x[1:(n-lag)]
} else {
xnew = x
}
return(xnew)
}

On pourra trouver plus de d´etails sur le fonctionnement interne du module shift sur le site
internet de Richards (2016). Pour l’heure, il est suffisant de savoir que, pour un vecteur X =
c(1,2,3,4,5,6) par exemple, l’instruction shift(X,2) va retourner le vecteur X d´e c a l´e de 2 ´el
´ements vers la droite :
X = [0,0,1,2,3,4]. De mˆeme lorsque le param`etre est n´egatif, shift(X,-3) par exemple, va
retourner le vecteur X d´e c a l´e de 3 ´el´ements vers la gauche X = [4,5,6,0,0,0].

Cette fonction va nous permettre de construire des versions translat´ees d’un mˆeme signal. Par
exem- ple, pla¸cons-nous sur l’intervalle [0; 1000] et consid´erons une fonction gaussienne (ici not´ee
h) centr´ee au milieu de l’intervalle, et d’´ecart-type (l’´echelle) 100 :

x = 0:999
h = exp(-((500-x)/100)**2)

Avec la fonction shift, on peut construire des r´eplications translat´ees de h :

plot(x,h,type="l") # On trace la gaussienne de base


lines(x,shift(h,150),col="blue",lty=2) # Translation vers la droite (en
bleu) lines(x,shift(h,220),col="blue",lty=2) # Translation vers la droite (en
bleu) lines(x,shift(h,-210),col="blue",lty=2) # Translation vers la gauche (en
bleu)
0
h

0
0

0 200 400 600 800 1000

Fig. 3.1. Trac´e de la gaussienne de base (en noir) et de 3 r´eplications translat´ees (en pointill´es).

116
En g´en´eral, on appelle noyau une fonction sym´etrique destin´ee `a ˆetre r´epliqu´ee, translat´ee
et chang´ee d’´echelle. Ici, h est donc un noyau gaussien. On peut alors construire un processus
stochastique en sommant un certain nombre N de r´eplications de h translat´ees et amplifi´ees al
´eatoirement :

N
L
Z(x) = xih(x − τi) (3.1)
i=1

o u` xi est distribu´ee suivant la loi normale standard, et τi est distribu´ee suivant la loi uniforme
sur la plage des translations possibles [-500; 500].

Q1. Programmer le processus Z sous forme d’une fonction generate prenant en entr´ee un noyau h
de taille quelconque (dans notre cadre nous travaillerons toujours sur des signaux de taille 1000),
et g´en`erant une r´ealisation al´eatoire.

generate = function(h){
X =
rep(0,length(h))
for (i in 1:100){
d = sample((-length(h):length(h))/2, 1)
X = X + rnorm(1,0,1)*shift(h,d)
}
return(X)
}

La fonction generate somme 100 r´eplications de la gaussienne, translat´ees (fonction sample) et


am- plifi´ees (fonction rnorm) al´eatoirement.

Q2. Sur un mˆeme graphique, tracer 5 r´ealisations du processus Z. On pourra r´eit´erer l’exp
´erience en changeant l’´echelle du noyau h, par exemple `a 50 ou 200.

par(mfrow=c(1,3)) # Pour tracer trois graphiques

h = exp(-((500-x)/200)**2) # Definition du noyau gaussien


1 plot(c(), xlim=c(0,1000), ylim=c(-10,10)) # Initialisation
for (i in 1:5){lines(generate(h), type="l")} # Representation des realisations

h = exp(-((500-x)/100)**2) # Definition du noyau gaussien


2 plot(c(), xlim=c(0,1000), ylim=c(-10,10)) # Initialisation
for (i in 1:5){lines(generate(h), type="l")} # Representation des realisations

h = exp(-((500-x)/50)**2) # Definition du noyau gaussien


3 plot(c(), xlim=c(0,1000), ylim=c(-10,10)) # Initialisation
for (i in 1:5){lines(generate(h), type="l")} # Representation des realisations

Par souci de clart´e, on ne repr´esente ci-dessous en figure 3.2 qu’une seule r´ealisation par graphique.
Re- marquons que la port´ee d’autocorr´elation des processus est, comme on pouvait s’y attendre,
d’autant plus grande que l’´echelle du noyau l’est aussi.

Q3. Pour la suite, et jusqu’`a la question Q5 nous n’utiliserons que la version d’´echelle 100 du noyau.

117
1

1
.

.
0

0
.

.
0

0
.

.
1
0

1
0

1
0
5

5
0

0
−1

−1

−1
0 200 400 600 800 1000 0 200 400 600 800 1000 0 200 400 600 800 1000

Fig. 3.2. Trois r´ealisations d’un signal al´eatoire (en bas) et les noyaux de base associ´es (en
haut). E´ chelles des noyaux : 200 ( `a gauche), 100 (au centre) et 50 ( `a droite).

Nous cherchons `a pr´esent `a estimer une fonction inconnue z sur l’intervalle [0, 1000]. Pour ce
faire, nous disposons de trois observations : z(300) = 1, z(500) = 5 et z(800) = −1, et le probl`eme
est donc r´eduit `a un probl`eme d’interpolation. Nous allons montrer ici qu’il est possible de r
´esoudre ce probl`eme
avec des simulations al´eatoires. Commen¸cons par tracer ces donn´ees dans un nouveau graphique :

SITES = c(300,500,800)
OBS = c(1,5,-3)
plot(SITES, OBS, pch=16, ylim=c(-10,10))

En utilisant directement la fonction generate, cr´eer 5000 r´ealisations du processus al´eatoire,


et ne repr´esenter dans le graphique que celles qui satisfont les contraintes d’interpolation `a ε
pr`es, i.e. uniquement les r´ealisations z telles que les valeurs prises en chacun des 3 points
observ´es (vecteur
SITES) soient `a une distance verticale inf´erieure `a ε des valeurs observ´ees (vecteur OBS) : |z(xi)−zi|
:( ε. On utilisera une valeur seuil ε = 1.

plot(SITES, OBS, pch=16, ylim=c(-10,10))

epsilon = 1
for (i in 1:5000){
if (i %% 1000== 0){print(i)}
X = generate(h)
ok = TRUE
for (j in 1:length(OBS)){
ok = ok && (abs(X[SITES[j]]-OBS[j])<epsilon)
}
if (ok){
lines(X, type="l")
}
}

Quelques explications sur le code ci-dessus : pour chacune des 5000 r´ep´etitions, on g´e n`e r e
une r´ealisations X. On d´eclare alors la variable ok permettant de s’assurer que la r´ealisation
courante X v´erifie les contraintes d’interpolation. Pour chaque point de donn´ee j, on teste la
contrainte. Si cette derni`ere n’est pas v´erifi´ee sur l’un (ou plus) des points du vecteur SITES,
alors on ne repr´esente pas la r´ealisation. Notons que l’instruction if (i %% 1000== 0){print(i)}
permet de suivre la trace du calcul en cours, qui peut prendre un certain temps (en fonction des
resources de la machine utilis´ee).

118
● ●

● ●

● ●
1
0

1
0

1
0

5

5


0

0


300 400 500 600 700 800 300 400 500 600 700 800 300 400 500 600 700 800

Fig. 3.3.
A` gauche : une r´ealisation respectant la contrainte d’interpolation `a ε pr`es. Au centre : 16
r´ealisations (sur 5000 tirages) respectant la contrainte d’interpolation. A` droite : 4 r´ealisations (sur
5000 tirages) respectant la contrainte d’interpolation pour une tol´erance plus stricte (ε = 0.5).

Si on le souhaite, on pourra ˆet re plus exigeant sur la tol´erance, en choisissant par exemple ε =
0.5, mais attention, le nombre de solutions chute t r`es rapidement `a mesure que la tol´erance est
plus stricte, comme illustr´e sur la figure 3.3.

Q4. Toujours pour un nombre total de 5000 r´ealisations, repr´esenter la courbe moyenne de
l’ensemble des r´ealisations respectant la contrainte d’interpolation. Formellement, si zi d´esigne la i-
eme r´ealisation valide, on calculera la courbe moyenne µ par la moyenne point-`a - point des zi :

1 L
n
zi (x) µ(x) = (3.2)
n
i
o u` n d´esigne le nombre de r´ealisations respectant la contrainte d’interpolation. Dans la litt
´erature de r´ef´erence, la courbe µ est appell´ee moyenne d’ensemble. On peut ´egalement
calculer les courbes d’incertitude :

L(x) = µ(x) − σ(x) (3.3)


U (x) = µ(x) + σ(x) (3.4)

o u` la fonction σ d´esigne l’´ecart-type point-`a - point des zi :

1
σ2(x) = n
N L t )2
zi(x) − µ(x) (3.5)
i=1

On compl`ete le code pr´ec´edent en incr´ementant `a chaque it´eration de boucle trois variables


fonction- nelles : la moyenne des courbes (INTERPOLATION), la moyenne des carr´es des courbes
INTERPOLATION2 et un d´ecompte des r´ealisations valides (COUNT).

plot(SITES, OBS, pch=16, ylim=c(-10,10))

INTERPOLATION = rep(0,1000)

119
INTERPOLATION2= rep(0,1000)
COUNT = 0

epsilon = 1
for (i in 1:5000){
if (i %% 1000== 0){print(i)}
X = generate(h)

120
ok = TRUE
for (j in 1:length(OBS)){
ok = ok && (abs(X[SITES[j]]-OBS[j])<epsilon)
}
if (ok){
INTERPOLATION = INTERPOLATION + X
INTERPOLATION2= INTERPOLATION2+ X**2
COUNT = COUNT + 1
lines(X, type="l")
}
}

INTERPOLATION = INTERPOLATION/COUNT
INTERPOLATION2= INTERPOLATION2/COUNT
SIGMA = sqrt(INTERPOLATION2- INTERPOLATION**2)

lines(INTERPOLATION, col="red", lwd=2)


lines(INTERPOLATION+SIGMA, col="blue",
lwd=2) lines(INTERPOLATION-SIGMA,
col="blue", lwd=2)

Remarquons que le calcul de la courbe d’´ecart-type a ´e t ´e effectu´e `a partir de la formulation


1.13 de la variance, ne n´ecessitant qu’une seule it´eration de boucle sur les donn´ees : σ2 = E[z2]
− E[z]2. On obtient alors le r´esultat de la figure suivante :
1
0

1
0

● ●
5

● ●
O

O
0

● ●


5

5


1

300 400 500 600 700 800 300 400 500 600 700 800

SITES SITES

Fig. 3.4.
A` gauche : les 16 r´ealisations respectant la contrainte d’interpolation et la moyenne
d’ensemble de ces r´ealisations (en A` droite : le r´esultat de la proc´edure d’interpolation :
rouge).
la courbe interpol´ee (en trait plein vert) et les bandes de confiance (en pointill´es). La vraie courbe
(inconnue) se situe probablement dans la zone verte.

Q5. Lorsque le code la question Q4 est op´erationnel, r´ei t´er er la proc´edure d’interpolation pour le
jeu de donn´ees suivant (contenant un point suppl´ementaire) :

SITES = c(300,450,500,800)
OBS = c(1,1,5,-3)

et en g´en´erant un total de 100 000 r´ealisations (l’ex´ecution du code peut alors prendre quelques
min- utes). Relancer la proc´edure pour plusieurs ´echelles de noyaux, par exemple 100, 50 et 25.

Pour ce faire, il suffit de changer la d´efinition du noyau, de mani`ere similaire au code ayant permi
l’obtention de la figure 3.2 :

121
h = exp(-((500-x)/100)**2) # Definition du noyau gaussien 1
h = exp(-((500-x)/50)**2) # Definition du noyau gaussien
2 h = exp(-((500-x)/25)**2) # Definition du noyau
gaussien 3
1
0

1
0

1
0
5

5
● ●

● ● ● ●

● ●

● ●


0

0

300 400 500 600 700 800 300 400 500 600 700 800 − 300 400 500 600 700 800

Fig. 3.5. R´esultat de la proc´edure d’interpolation pour 3 noyaux d’´echelles diff´erentes :


100 ( `a gauche), 50 (au centre) et 25 ( `a droite).

Remarque. Pour un noyau d’´echelle 200, le jeu de points d’interpolation est trop contraignant
pour pouvoir ˆetre facilement interpol´e par un processus si r´egulier. Le programme ne trouve
donc pas de candidat en un temps raisonnable, et on ne peut pas calculer de courbe moyenne.
Nous atteignons malheureusement l `a les limites de la m´ethode par simulation.

Bilan :

Dans cette activit´e, nous avons montr´e comment la simulation d’un processus pouvait ˆetre
utilis´ee pour interpoler un semis de points d’observations. Quelques remarques s’imposent
toutefois :

• La solution du probl`eme d’interpolation est une courbe moyenne des r´ealisations.


D’apr`es les propri´et´es statistiques de la moyenne, nous pouvons dire qu’il s’agit de la
courbe qui minimise l’´ecart quadratique moyen de l’estimation par rapport `a la v´erit´e.
Nous verrons par la suite que le krigeage fonctionne de mani`ere similaire : il propose la
solution minimisant la variance de l’erreur d’estimation. Le calcul sera cependant
effectu´e alg´ebriquement et ne n´ecessitera donc pas de simulations.

• Le recours `a la simulation permettra toutefois (et moyennant un couˆ t de calcul important)


de contourner quelques limitations du krigeage. Nous verrons cela plus en d´etail dans la
partie consacr´ee aux simulations conditionnelles dans le chapitre 4.

• La figure 3.5 nous montre l’importance de bien mod´eliser le variogramme du processus


stochas- tique. Ici, pour trois variogrammes de port´ees diff´erentes (i.e. pour trois processus g
´e n´e r´e s par des noyaux d’´echelles diff´erentes), nous obtenons trois interpolations
122
sensiblement diff´erentes. Concr`etement, employ´ee avec un variogramme de mauvaise qualit
´e (i.e. peu fid`ele `a la r´ealit´e), les techniques de G´eostatistique de ce chapitre 3 ne
donneront pas de r´esultats sensiblement meilleurs que les techniques d’interpolation non-
probabilistes (splines, etc).

• Le graphique de droite de la fig. 3.5 r ´e v`e l e une limite naturelle de la m´ethode. Si le


semis d’observations est trop lˆache par rapport `a la p ort´ee du variogramme,
l’interpolation donne des r´esultats tr`es m´ediocres entre les sites d’observation. C’est
naturel, par exemple en x = 650,

123
les deux sites d’observations les plus proches (500 et 800) sont situ´es bien au-del`a de la port
´ee du variogramme (qui est de l’ordre de 3 fois le facteur d’´echelle du noyau gaussien, soit
environ 75). L’estimation n’a donc pas d’autre choix que de retourner l’esp´erance a priori
du processus, `a savoir 0. Nous verrons un ph´enom`ene similaire lorsque nous parlerons du
krigeage simple (3.7.1).

• Le graphique de gauche de la fig. 3.5 nous le montre clairement : l’interpolation n’est pas
con- vexe, autrement dit, les valeurs estim´ees peuvent ˆetre au dessus ou en de¸ca des valeurs
extrˆemes des observations, ce qui est une propri´et´e souhaitable que ne partagent pas,
par exemple, les m´ethodes plus basiques telles que l’interpolation lin´eaire ou en inverse
des distances.

3.2 Les contraintes du krigeage


Le krigeage est une technique g´eostatistique d’estimation locale, initialement mise au point par Danie
G. Krige en 1951 et th´eor is´e plus par Georges Matheron (1962). Il permet d’estimer la valeur
prise par la variable r´egionalis´ee en un site non-´echantillonn´e, en tenant en compte des corr
´elations avec les valeurs prises en d’autres sites. C’est donc une m´ethode probabiliste
d’interpolation de donn´ees, qui contrairement `a ses homologues d´eterministes, pr´esente
l’avantage de quantifier ´egalement l’incertitude formelle de l’estimation en chaque point.

L’interpolation par krigeage est intrins´equement li´ee `a l’analyse variographique du ph´enom`ene `a


´etudier mais n’est pas sa seule application pratique, nous en verrons d’autres dans le chapitre 4.

Nous avons vu dans l’activit´e VI comment la d´efinition d’un processus stochastique permet, par
moyennage d’un ensemble de simulations, d’interpoler un semis de points d’observation. La
solution obtenue peut alors ˆetre consid´er´ee comme la plus repr´esentative (ou la plus centrale
plutˆot devrait-on dire) d’une collection de variables r´egionalis´ees passant toutes par les points `a
interpoler et poss´edant les propri´et´es statistiques (moyenne et covariance) du processus mod
´elisant le ph´enom`ene. C’est `a peu de chose pr`es ce que propose de faire le krigeage avec une
diff´erence capitale2 toutefois : le krigeage pose alg´ebriquement les contraintes souhait´ees sur
la solution, et la r´esolution du probl`eme se fait donc `a l’aide des techniques matricielles
classiques.

Dans la pr´esentation qui suit, nous montrons comment interpoler la fonction en un point x pr
´ecis du domaine d’´etude. La r´esolution compl`ete du probl`eme d’interpolation n´ecessitera
alors d’it´erer la m´ethode sur une grille de valeurs, comme nous le ferons dans l’activit´e VIII.

3.2.1 Contrainte de lin´earite


Moyenne et covariance ne sont que les 2 premi`eres composantes d’une repr´esentation de la loi
de probabilit´e `a base de moments. Lorsqu’on d´ecide de ne travailler qu’avec ces deux quantit´es,
on op`ere en quelques sortes une lin´earisation de la loi compl`ete du processus. Avec cette
information r´eduite, il devient alors impossible de manipuler des quantit´es qui ne soient pas des
combinaisons lin´eaires de variables al´eatoires. Par cons´equent, le krigeage ne peut ˆetre qu’un
estimateur lin´eaire :

2
Nous verrons d’autres diff´erences plus pr´ecisemment dans le chapitre 4

124
Contrainte 1 (Lin´earit´e)

La valeur �
z(x) interpol´ee au site x est une combinaison lin´eaire des observations :

Ln T
z�
(x) =w z(x )ii = W Z
i=1

o u` wi ∈ R correspond au poid affect´e `a l’observation z(xi).

Pour une r´esolution matricielle du probl`eme, nous noterons : W = [w1, w2, ..., wn]T , le vecteur
de Rn contenant les poids de la combinaison lin´eaire, et Z = [z(x1), z(x2), ..., z(xn)]T le vecteur de Rn
contenant (dans le mˆeme ordre) les observations. Intuitivement, plus une observation sera proche
du site `a interpoler, plus elle aura des chances de recevoir une pond´eration importante. Cette
formulation paraˆıt assez peu rigoureuse : en pratique, et c’est l `a un atout du krigeage, la valeur du
poids affect´e `a une observations va aussi d´ependre de la configuration g´eom´etrique de toutes
les autres observations. En particulier, une observation proche mais redondante peu recevoir un
poids plus faible qu’une ob- servation plus lointaine mais isol´ee.

D`e s lors, l’objectif du probl`eme est clair : � estimer z(x) revient `a estimer le vecteur W.
Attention : ce vecteur W va d´ependre du point x sur lequel on r´ealise l’interpolation ! En toute
rigueur, on devrait
´ecrire W(x), mais nous ferons abstraction de x pour ne pas alourdir la pr´esentation.

Remarquons qu’aucune contrainte n’impose que les poids wi soient positifs. Imaginons un instant
le cas d’un ´etudiant qui calcule la moyenne de ses deux notes 10 et 15, avec les coefficients
respectifs
-1 et 2, comme si la premi`ere note ´etait en quelques sortes r´epulsive. On dit que le krigeage
est un estimateur non-convexe3 ce qui est une propri´et´e tr`es int´eressante pour une
interpolation, comme nous le verrons plus loin.

La solution z�(x) obtenue est appel´ee valeur krig´ee en x.

3.2.2 Contrainte d’autorisation


C’est certainement la moins intuitive des 4 contraintes, certainement parce qu’elle ne semble pas
pr´esenter d’int´erˆet au premier abord. La contrainte pr´ec´edente implique que, une fois les
poids wi d´etermin´es, l’erreur d’estimation en x s’exprime par :

z(x) − z(x) = wi zi − z0 (3.6)


� i=1

L la qualit´e du krigeage, on doit ˆetre capable de calculer


Pour pouvoir contrˆoler statistiquement
la moyenne et la variance de cette erreur. En effet, si la variance ne peut s’exprimer, comment
peut-on avoir des garanties sur l’exactitude du r´esultat ? Calculer une solution munie d’une
variance infinie n’a aucun sens en pratique, et ne pr´esente gu`ere plus d’int´erˆet que d’essayer
de deviner `a l’aveugle la valeur `a estimer. Il est donc important de s’assurer que la combinaison
lin´eaire 3.6 poss`ede une esp´erance et une variance finies. Une telle combinaison est dite
autoris´ee.

3
En g´eom´etrie, un ensemble est dit convexe lorsque 2 de ses points quelconques peuvent toujours ˆetre reli´es en
ligne droite sans sortir de l’ensemble. Un disque par exemple est un ensemble convexe, contrairement a` un croissant de
lune. Ici, dire que l’estimateur est convexe signifierait que les valeurs qu’il prend son comprises entre la plus basse et la
plus haute des valeurs observ´es. Clairement, l’interpolateur du graphe de gauche de la fig. 3.2 est non-convexe.
125
Contrainte 2 (Autorisation)

L’erreur d’estimation Z�(x) − Z(x) doit ˆetre d’esp´erance et de variance finies.

Lorsque le variogramme est born´e, nous l’avons dit pr´ec´edemment, le processus est
stationnaire au sens large, sa covariance existe et on peut la relier au variogramme par la relation
fondamentale 26. Le t h´eor`em e 12 de propagation des incertitudes, nous montre alors comment
calculer la variance d’une combinaison lin´eaire `a l’aide de la matrice de covariance. La contrainte
d’autorisation ne pose donc aucun probl`eme. En revanche, nous verrons plus loin dans la section
3.3.2 que lorsque le variogramme diverge vers l’infini (i.e. quand le processus v´erifie seulement
l’hypoth`ese plus faible de stationnarit´e intrins`eque), seules certaines combinaisons de poids sont
autoris´ees. Plus pr´ecis´ement, nous verrons que les combinaisons lin´eaires autoris´ees
forment un sous-espace vectoriel de Rn.

Remarque : la contrainte d’autorisation n’a donc d’implication pratique que pour les
variogrammes non-born´es. Elle ne doit pas ˆetre n´eglig´ee pour autant, car c’est elle qui garantit
la validit´e statistique des calculs.

3.2.3 Contrainte d’universalit´e


On souhaite que l’estimateur ne produise pas d’erreur syst´ematique. Statistiquement, on cherche donc
que l’esp´erance de l’erreur (sign´ee) soit nulle.

Contrainte 3 (Universalit´e)

L’erreur d’estimation doit ˆetre nulle en moyenne : E[Z�(x) − Z(x)] = 0.

Autrement dit, sur un nombre infini de r´ep´etitions de l’exp´erience, la moyenne des valeurs estim
´ees par le krigeage est exactement ´egale `a la valeur r´eelle.

Alg´ebriquement, cette contrainte se traduit par :

n
E[Z� (x) − Z(x)] 1
n l L
=E wiZ(xi) − E[Z(x)] = wiE[Z(xi)] − E[Z(x)]
i=1
L
i=1
L (
n n ) Ln
= wiE[Z] − E[Z] = w − 1 =0 ⇔ wi = 1
L i
i=1 E[Z] i=1
i=1

La contrainte d’universalit´e impose donc que la somme des poids soit ´egale `a 1. Soyons clair quant
`a l’implication pratique : si le variogramme est born´e, le processus est stationnaire au sens
large, la contrainte d’autorisation n’a aucun effet, mais la contrainte d’universalit´e impose de
travailler avec des combinaisons de poids total unitaire. Si le variogramme est non-born´e, le
processus est seulement intrins`equement stationnaire, et dans ce cas, les contraintes d’autoraisation et
d’universalit´e ont toutes deux pour effet d’imposer que la somme des poids soit unitaire.

Ayant fix´e cette contrainte de non-biais, seule la composante de variance va d´eterminer la qualit´e
de l’estimateur, comme le montre la formulation 1.13 de l’erreur quadratique moyenne. C’est pr
´ecisemment le rˆole de la quatri`eme et derni`ere contrainte de minimiser cette quantit´e.

126
3.2.4 Contrainte d’optimalit´e
Parmi tous les estimateurs qui sont des combinaisons lin´eaires autoris´ees et sans biais on retient celle
qui minimise la variance de l’erreur.

Contrainte 4 (Optimalit´e)

La variance de l’estimateur Var[Z�(x) − Z(x)] doit ˆetre minimale.

Empiriquement, on peut dire qu’on cherche l’estimateur le plus pr´ecis possible.

3.2.5 Formulation du probl`eme


En combinant les quatre contraintes pr´ec´edentes, on recherche un estimateur qui soit une
combi- naison lin´eaire autoris´ee, non-bais´ee et dont l’erreur est de variance minimale. Dans la
litt´erature anglo-saxonne, on rencontre fr´equemment l’acronyme d’estimateur BLUE, pour Best
Linear Unbiased Estimator, qui fournit un bonne astuce mn´emotechnique, mais qui poss`ede l’inconv
´enient de rel´eguer la contrainte d’autorisation au secon plan.

Remarquons que ces quatre contraintes sont emb oˆıt´ees : le contrainte d’autorisation ne permet
de travailler qu’avec des combinaisons lin´eaires, ce qui suppose donc implicitement que la
contrainte de lin´earit´e est v´erifi´ee. Les contraintes d’universalit´e et d’optimalit´e requi`erent
quant `a elles de pouvoir calculer les deux premiers moments de l’erreur d’estimation, ce qui suppose la
contrainte d’autorisation. Enfin, la variance de l’erreur d’estimation, que minimise la contrainte
d’optimalit´e, n’est vraiment un indicateur de la pr´ecision que si l’erreur est de moyenne nulle, ce
qui suppose donc que la contrainte d’universalit´e est elle aussi v´erifi´ee.

D’un point de vue math´ematique, la recherche de la combinaison optimale W∗ s’´ecrit sous forme
d’un probl`eme de mininimisation sous contrainte :

1
n l Ln
W∗ argmin Var wiZ(xi) − z(x) sous la contrainte : wiZ(xi) = 1 (3.7)
∈ W∈Rn i=1
L
i=1

o u` argmin f (x) d´esigne l’ensemble des valeurs x telles que la fonction f (x) est minimale :

{ }
argmin
x f (x) = x ∈ A | ∀ y ∈ A, f (x) :( f (y)

Notons que cet ensemble n’est pas n´ecessairement r´eduit `a un ´el´ement. Si c’est le cas, les contraintes
de krigeage suscit´ees ne pr´econisent que le choix arbitraire d’une solution optimale (parmi
potentielle- ment de nombreuses autres). En pratique, except´e dans quelques cas pathologiques
(par exemple lorsque deux sites sont confondus), la solution du probl`eme est unique.

127
3.3 Le krigeage
Le probl`eme 3.7 se r´esout `a l’aide des multiplicateurs de Lagrange, dont nous effectuons un bref
rappel ici. Pour plus d’information, on pourra consulter le cours d’optimisation de Dumont et al.
(2019).

Consid´erons deux fonctions r´eelles `a p variables x = (x1, x2, ...xp) Rp : une fonction objectif

(aussi appel´ee fonction de co uˆ t ) : f : Rp R, ainsi qu’une fonction contrainte g : Rp R. Le

probl`eme suivant, consiste `a minimiser f sur Rp, sous la contrainte g :

x∗ argmin f (x) sous la contrainte : g(x) = 0 (3.8)


∈ x∈Rp

On suppose que f et g poss`edent des d´eriv´ees partielles, et on note L : Rp+1 → R la fonction


lagrangienne :

L(x, λ) = f (x) − λg(x) (3.9)

o u` λ est un r´eel appel´e multiplicateur de Lagrange. On utilise alors le th´eor`eme suivant :

T h´e o r`e m e 35 (Minimisation par multiplicateurs de Lagrange)

Si x0 est un point d’extremum local de f , aussi appel´e point stationnaire, alors :

∇L(x0) = 0

Remarque : est l’op´erateur gradient, qui `a une fonction d´erivable f prenant p variable en

entr´ee, associe le vecteur de Rp de ses p d´e riv´ees partielles :

∂f
∂x1
 ∂x∂2 
∇ : f 1→  
∂f.
∂xp

Consid´erant ∇f comme un vecteur de l’espace `a p dimensions, le th´eor`eme 35 nous dit que,


qu’en un point x0 solution du probl`eme, il existe un r´eel λ tel que ∇f (x0) = λ∇g(x0), autrement
dit, le gradient de la surface `a minimiser est perpendiculaire `a la ligne de contrainte, comme
l’illustre la figure 3.6.
C’est assez intuitif, si ce n’´etait pas le cas, il serait possible de r´eduire davantage la fonction
objec- tif en se d´epla ¸cant sur la ligne de contrainte, ce qui est contradictoire puisque x0 est un
minimum local.

Remarque : le th´eor`eme 35 ne donne que les conditions n´ecessaires. Une fois les points
stationnaires trouv´es, on doit en th´eorie v´erifier que l’un d’eux est bien un extrema.

Exemple 3.1. En guise de mise en pratique, consid´erons une nappe de terrain (infinie) de la
forme d’un parabolo¨ıde de r´evolution, et d´efinie par l’´equation : z = f (x, y) = x2 + y2. Nous
savons qu’une ligne `a haute tension parcours le terrain en ligne droite suivant l’´equation y = 2x
+ 75. D´eterminer un point minimal de cette ligne.

128
On pose g, la fonction de contrainte d´efinie par : g(x, y) = y − 2x − 75. On forme alors le lagrangien,
`a 3 param`etres x, y et le multiplicateur de Lagrange
1 λ:

L t )
L(x, y, λ) = f (x, y) − λg(x, y) = x2 + y2 − λ y − 2x − 75

  2y − λ
On calcule alors le gradient de L : ∇L(x, y, λ) = ∂
2x + 2λ
∂x
 ∂∂y  = 

L
∂ y − 2x −

On r´esout enfin l’´equation vectorielle ∇L(x, y, λ) = 0 pour obtenir une solution : x∗ = (−30, 15).

2500
2000
1500
4

500


2
0
−40−

−40−20 0 20 40

Fig. 3.6. Le terrain f (isolignes noires), la contrainte g (en rouge) et le point optimal x∗ = (∗ 30,
15). On voit clairement, que le gradient du terrain est orthogonal `a la ligne de contrainte en−x .

Dans le cadre du probl`eme initial 3.7, la fonction f correspond `a la variance de l’erreur


d’estimation, et la fonction g traduit la contrainte imposant que la somme des poids soit nulle. En
notant zi = z(xi) les relev´es effectu´es au niveau des sites, on forme alors le lagrangien L : Rn+1 →
R:

L(w1, w2, ...wn, λ) = n l n )


− (
Var wiZi − z0 wi − 1 (3.10)
i=1 2λ L
i=1

o u` λ ∈ R est un multiplicateur de Lagrange, variable latente inconnue du probl`eme. Le facteur


2 devant le λ est purement arbitraire, et permettra par la suite de simplifier les calculs.

3.3.1 Le krigeage ordinaire


Supposons dans un premier temps que Z est un processus stationnaire au sens large. On peut alors
utiliser la covariance et en vertu du t h´eor`eme 26 on : C(h) = C(0) − γ(h), o u` C(0) = Var[Z] est
le palier du variogramme. D ’ o u` :

1 l 1 l ( ) Ln n
VarL wiZi − Z0 = VarL wiZi + Var[Z0] − L wi Zi , Z0 = wiwjCov(Zi, Zj)
n n n L
2Cov
i=1 i=1 i=1 i=1 j=1
n n n n
129
L L L t ) L t
+Var[Z] − 2 wiCov(Zi, Z0) = wi wj Var[Z] − γ(hij) + Var[Z] − 2 wi Var[Z] − γ(hi0))
i i=1 i

130
o u` hij d´esigne la distance entre les sites d’observation xi et xj. De mˆeme hi0 d´esigne la distance
entre le site d’observation xi et le site x sur lequel on souhaite calculer l’estimateur. En
L, L,
remarquant que i L,wiL,
wj Var[Z] = Var[Z] L, L,wiwj = Var[Z] wi( wj) = Var[Z] wi
j i j i j i
L,
= Var[Z], puisque
les sommes de poids valent 1, et en abr´egant γij = γ(hij), on obtient :

1 l L L wi Var[Z] + 2
wi wj γij + Var[Z] − 2
Var L wi Zi − Z0 = wi wj Var[Z] − L L wiγi0
n L n Ln n n n n

i=1 i=1 j=1 i=1 j=1 i=1 i=1


n n n n n n
L L L L L L
= Var[Z] − wiwjγij + Var[Z] − 2Var[Z] + 2 wiγi0 = 2 wiγi0 − wiwjγij
i=1 i i i=1

En ajoutant le terme de contrainte, nous obtenons une expression plus explicite du lagrangien :

L(W, λ) = 2
L L L ( )
n
wiγi0 − n n wiwjγij − wi − 1
L
2λ n
i=1 i=1 j=1 i=1

Il ne reste alors plus qu’`a calculer les d´eriv´ees partielles (en wi et λ, soit n + 1 d´eriv´ees au total). La d
´eri v´e e partielle par rapport `a un poids wi arbitraire s’´ecrit :

∂L n
∂wi = L
−2 wjγij − 2λ
2γi0 j=1

En divisant cette ´equation par 2, puis ajoutant l’´equation sur la d´eri v´ee partielle en λ on
obtient le syst`eme d’´equations de krigeage de n + 1 ´equations `a n + 1 inconnues :

∂ =γ − wjγij − λ = 0
�∂wLi L,n i0

L,n (3.11)
∂L j
= w i− 1 = 0
∂ i

Remarquons que la derni`ere ´equation n’est rien d’autre que la contrainte de somme des poids
uni- taire (contrainte d’autorisation et/ou d’universalit´e). La r´esolution de 3.11 s’effectue
finalement
`a l’aide de l’alg`ebre lin´eaire : on note Γ ∈ Rn×n la matrice des variances entre sites observ
´es : Γij = γij = γ(hij) = γ(||xi − xj ||) ∀ i, j ∈ [1..n]

γ11 γ12 ... γ1n 


γ21 γ22 ...
 γ2n 

Γ=
... ... ... ...
131
γn1 γn2 ... γnn

Grˆace `a la mod´elisation variographique, cette matrice Γ poss`ede n´ecessairement les propri´et´es alg
´ebriques ad´equates, et nous n’aurons pas de mauvaise surprise par la suite.

132
De mˆeme on note Γ0 ∈ Rn le vecteur des variances entre les sites observ´es et le site `a estimer x0 :

[ ]T
Γ 0= γ 10
γ 20
... γ

On v´erifie alors facilement que 3.11 s’´ecrit matriciellement sous la forme :

−1
Γ 1 W Γ 1 Γ0
1
T
0 = Γ0 W T
0
λ ⇒ = 1 1
1 λ

o u` 1 = [1, 1, ...1]T est un vecteur colonne contenant n fois la valeur 1.

Remarque : la matrice `a inverser ne d´epend que des configurations des sites d’observation. Elle peut
donc ˆetre invers´ee une fois pour toutes en amont de la proc´edure d’interpolation.

On r´ecup`ere alors les n premi`eres composantes du vecteur solution : w1, w2, ...wn et on peut calculer
l’estimateur du krigeage en x par :

n
z(x) = wiz(xi) (3.12)
� i=1

L
La variance de l’erreur associ´ee, appel´ee variance de krigeage, s’exprime par :

n n n
L L L L
Var[Z� (x) − Z(x)] = 2 wiγi0 − wiwjγij = wiγi0 − λ (3.13)
i i=1 i

o u` la derni`ere ´egalit´e r´esulte d’une transformation op´er´ee grˆace `a la premi`ere ´equation du syst`eme
3.11.

Elle traduit la pr´ecision de l’estimation, au sens de l’´ecart quadratique moyen entre la variable estim
´ee et la valeur vraie au site consid´er´e. Elle d´epend donc naturellement du site sur lequel
l’interpolation est effectu´ee. Intuitivement, plus le site est ´eloign´e des observations, plus sa
variance va ˆetre ´elev´ee.

Remarquons que la variance d’estimation en un site ne d´epend que de sa configuration g´eom


´etrique relativement aux autres sites, et non des valeurs observ´ees. La variance peut donc ˆetre
calcul´ee a pri- ori, avant d’effectuer les observations sur le terrain, ce qui constitue un atout ind
´eniable pour valider en amont les plans d’exp´erimentation.

3.3.2 Le krigeage intrins`eque


Qu’en est-il dans la cas strictement intrins`eque ? Le passage du variogramme `a la covariance
grˆace au t h´eo r`e me 26 n’est plus possible, et on doit de surcroix s’assurer que les
combinaisons lin´eaires manipul´ees sont autoris´ees, comme le stipule la contrainte 2. On
consid`ere l’erreur de l’estimation
3.6. Remarquons qu’il s’agit bien d’une combinaison lin´eaire des observations (Z1, Z2, ...Zn, Z0) par
133
les poids (w1, w2, ...wn, −1).

134
Pour pouvoir calculer l’esp´erance et la variance de cette quantit´e, on doit ˆetre capable
d’exprimer variables al´eatoires sous forme d’accroissement, i.e. sous la forme Zi − Zj avec i et j
deux indices quelconques, puisque sous l’hypoth`ese intrins`eque, l’existence de l’esp´erance et de la
variance ne sont
garanties que pour les accroissements. On v´erifie facilement que ceci n’est possible que si la
somme des poids de la combinaison est nulle. En effet, dans ce cas, la somme des wi est n
´ecessairement ´egale
`a 1 et on peut ´ecrire :

n n n n
L L L L
ε= wiZi − Z0 = wiZi − wiZ0 = wi(Zi − Z0)
i i i i

Sous cette formulation, on d´erive facilement l’expression de l’esp´erance de l’erreur d’estimation :

n l L
1 n
wiE[Zi − Z0] = 0
E[ε] = E wi(Zi − Z0 ) =
i=1
L
i=1

o u` la seconde ´egalit´e r´esulte de la lin´earit´e de l’esp´erance et de l’existence des esp´erances des


accroisse- ments Zi −Z0, tandis que la derni`ere ´egalit´e r´esulte de la stationnarit´e de ces
accroissements. On peut faire de mˆem e pour la variance :

1
n l 1 n )2 l
Var[ε] = Var
wi(Zi − Z0) = wi(Zi − Z0)
t
L E
i=1 L i=1

L l LL [ ]
=E 1 n wn w (Z − Z )(Z − Z ) = n w
i j i 0 j 0
n w E (Z − Z )(Z − Z )
i j i 0 j 0
i=1 i=1 i=1 i=1
L
[ ]
Pa[ r ailleurs, o]n p eu[ t ´ecrire : 2]γij = V[ ar[Z i −Zj ] = Var[Z]i −Z0 + Z0 −Zj ] = E (Zi −Z0 + Z0 −Zj)2 =
E (Zi − + E (Zj − − 2E (Zi − Z0)(Zj − et

[ ]
E (Zi − Z0)(Zj − Z0) = −γij + γi0 + γj0

En substituant dans l’expression de Var[ε], on obtient une formulation ne d´ependant que de γ :

n n n n n n n n n n
L L L L L L L L L L
Var[ε] = wiwjγi0 + wiwjγj0 − wiwjγij = wiγi0 + wjγj0 −
wiwjγij i=1 i=1 i=1 i j i=1

Et donc, en faisant le changemente de la variable muette j 1→ i dans la seconde sommation, on obtient :

n n n
L L L
Var[ε] = 2 wiγi0 − wiwjγij
i i=1

135
On retrouve exactement l’expression 3.13 de la variance d’erreur d’estimation du krigeage
ordinaire. L’´equation lagrangienne `a minimiser sera donc exactement la mˆeme et on peut
conclure :

Le krigeage ordinaire (i.e. sous l’hypoth`ese de stationnarit´e au sens large du processus) et le


krigeage intrins`eque (sous l’hypoth`ese plus faible de stationnarit´e des incr´ements du processus)
ont exactement la mˆe m e solution lorsqu’elle est exprim´ee en termes de variogramme.

On comprend ici que le variogramme est un outil plus g´en´erique que la covariance.
Remarquons toutefois une diff´erence dans le sens donn´e aux contraintes : dans le cas
stationnaire, la contrainte d’autorisation n’a aucun impact, puisque toutes les combinaisons lin
´eaires sont autoris´ees. En re- vanche, la contrainte d’universalit´e stipule que la somme des
poids doit valoir 1 pour que l’estimateur soit non-biais´e. Dans le cas intrins`eque la contrainte
d’autorisation stipule que les combinaisons lin´eaires dont on souhaite exprimer l’esp´erance ou la
variance doivent ˆetre de poids total nul (afin de pouvoir les exprimer comme des incr´ements).
Pour pouvoir calculer la variance de l’erreur, la somme des poids total doit donc valoir 1 et la
contrainte d’autorisation est redondante avec la contrainte d’universalit´e.

Au passage, on peut mener les mˆemes d´eveloppements pour une combinaison lin´eaire quelconque
des observations, et on trouve :

1 Ln l Ln L
n
Var wiZi =− wiwjγij (3.14)
i=1 i=1 j=1

La variance ´etant une quantit´e n´ecessairement positive, on retrouve la contrainte 2.24 de d´efini- n
´egativit´e conditionnelle du variogramme :

n n n
L L
wi = 0 ⇒ L wiwjγij :( 0
i=1 i=1 j=1

3.4 Mise en oeuvre du krigeage


Dans cette section, nous voyons des exemples pratiques d’interpolation par krigeage `a partir d’un
semis de points d’observation, dans un premier temps en mode local (une seul estimation) et `a la
main (ac- tivit´e VII). Nous verrons un exemple plus op´erationnel par la suite, dans lequel nous r
´esolverons le probl`eme mod`ele et construirons notre premier MNT par krigeage (activit´e
VIII).

La m´ethodologie est la suivante (en supposant que γ est un mod`ele de variogramme licite, dont
les param`etres ont ´e t ´e estim´es ´eventuellement `a partir d’un variogramme exp´erimental) :

• Calcul de la matrice H contenant toutes les distances hij = ||xi − xj || entre les sites observ´es
(en g´en´eral, cette matrice a d´e j `a ´e t ´e ´evalu´ee pr´ec´edemment lors de l’estimation du
variogramme exp´erimental), et du vecteur H0 contenant les distances hi0 = ||xi − x0|| entre les
sites observ´es et le site `a interpoler.

• Transformation de H et H0 par la fonction γ : Γ = γ(H) et Γ0 = γ(H0).

136
• Formation de la matrice A en compl´etant H par une colonne et une ligne de 1 et en ajoutant
un 0 dans le coin inf´erieur droit.

• Formation de la matrice B en compl´etant le vecteur H0 par un 1.

• Calcul de la solution X du syst`eme : AX = B et r´ecup´eration de ses n premiers ´el


´ements dans un vecteur colonne de poids W.
• Calcul de l’estimation par le produit scalaire : z(x ) = WT Z
� 0
• Calcul de la variance d’estimation associ´ee : σ2 = WT Γ0 − λ, o u` λ est le dernier terme de X.

Activit´e VII. Un krigeage en 7 lignes de code


On consid`ere le jeu de donn´ees, compos´e de 5 sites x1, x2, ...x5 dispos´es comme repr´esent´e sur
la fig- ure 3.7 ci-dessous. Une observation zi (d’un ph´enom`ene quelconque Z) a ´e t ´e relev´ee sur
chaque site xi.

Fig. 3.7. On donne 5 points d’observation. L’objectif du probl`eme consiste `a estimer z0.

Par ailleurs, on donne les distances hij entre les 5 sites dans une matrice H :
0.0 24.2 30.5 44.0 46.3 
24.2 0.0 33.0 47.4 36.2
H= 30.5 33.0 0.0 14.8 22.1 

44.0 47.4 14.8 0.0 25.7 

46.3 36.2 22.1 25.7 0.0

[ de 33 m. On donne ´egalement
Par exemple, H23 = 33 signifie que les sites xi et xj sont distants ] les
distances hi0 entre ces 5 sites et le site `a interpoler : H0 = 20.6 19.0 14.4 29.1 25.8 T . Nous

utiliserons un variogramme lin´eaire avec palier :


h si h :(
γ(h) =
40 (3.15)
40 sinon.

Toutes les op´erations effectu´ees ci-dessous peuvent ˆetre reproduites par le lecteur, `a l’aide d’un
lan- gage de programmation disposant des fonctionnalit´es classiques d’alg`ebre lin´eaire (somme,
produit et
137
inversion de matrice notamment). Le code R correspondant est donn´e `a la fin de ce paragraphe.

On calcule tout d’abord la matrice Γ = γ(H), ce qui consiste simplement `a seuiller les ´el´ements
sup´erieurs `a 40. On forme ensuite la matrice A en compl´etant Γ avec une colonne de 1, une
ligne de 1 et un 0 dans le coin inf´erieur droit.

 0.0 1 
 24.2 30.5 40.0 40.0
0.0 24.2 30.5 40.0 40.0 24.2 0.0 1
24.2 0.0 33.0 33.0 40.0 36.2
 40.0 36.2   
Γ = 30.5 33.0 0.0 22.1 30.5 33.0 0.0 14.8 22.1 1
14.8  A=

40.0 40.0 14.8 25.7 40.0 40.0 14.8 0.0 25.7 1
0.0 40.0 1 
 36.2 22.1 25.7 0.0 
40.0 36.2 22.1 25.7 0.0
1 1 1 1 1 0

Par souci de clart´e, on figure en gras les ´el´ements ajout´es ou modifi´es `a chaque ´etape

du calcul. On effectue alors la mˆem e op´eration pour le vecteur H0 :


[ ]
Γ0 = γ(H0) = 20.6 19.0 14.4 29.1 25.8 T

[ ]T
B = 20.6 19.0 14.4 29.1 25.8 1

On r´esout informatiquement le syst`eme AX = B, en rappelant que X = [WT , λ]T est un vecteur


compos´e des n = 5 poids et du multiplicateur de Lagrange :

[ ]T
X = A−1B = 0.195 0.304 0.553 −0.147 0.093 −1.501
[ ]T
W = 0.195 0.304 0.553 −0.147 0.093

L’estimation finale s’obtient alors imm´ediatement par combinaison lin´eaire :

5
T
z(x0) = W Z = wizi ≈ 12.7
� i=1

L
ainsi que l’´ecart-type associ´e : σ2 = WT Γ0 − λ = 17.38 = 4.16

Le r´esultat final de l’estimation est donc�z(x0) = 12.7 ± 4.16. Notons que l’´ecart-type associ´e est
rela- tivement ´e le v´e, ce `a quoi on pouvait s’attendre ´etant donn´e le faible nombre d’observations
disponibles.

Comment interpr´eter la variance de l’erreur d’estimation en pratique ? C’est une question qui
n’admet pas de r´eponse pleinement satisfaisante. Le ph´enom`ene ´e t ud i´e et le jeu de donn´ees
`a disposition sont par nature uniques, et la notion de variance d’une estimation autour de sa valeur
vraie ne fait pas n´ecessairement sens. En statistique classique, on p r`e f`e r e souvent exprimer
l’incertitude sous la forme d’un intervalle de confiance : par exemple, on dira qu’avec une risque de
5%, l’altitude en un point x0 du terrain vaut z� plus ou moins une marge d’erreur ∆z. Cependant,
pour d´efinir l’intervalle de

138
confiance, on doit connaˆıtre la loi de probabilit´e de l’estimateur, ce qui en G´eostatistique est
impos- sible du fait de la complexit´e de cette loi. On peut alors poser l’hypoth`ese (plus ou
moins valide en fonction des situations) que l’erreur d’estimation est distribu´ee suivant une loi
normale. La largeur de l’intervalle de confiance est alors compl`etement d´etermin´ee par l’´ecart-
type. En particulier, pour un risque de 5%, on ∆z = 1.96σ. Dans cet exemple p´edagogique on a σ =
4.16, et donc on pourra dire qu’avec un taux de confiance de 95%, la valeur vraie est comprise entre
4.38 et 21.02.

On donne ci-dessous le code R permettant de reproduire les calculs. Notons que la multiplication
matricielle s’´ecrit avec l’op´erateur %*%.

Script 8. Un krigeage en 7 lignes de code [code6.r]

#
# Donnees #
H = matrix(
c(0.00, 24.2, 30.5, 44.0, 46.3,

24.2, 0.00, 33.0, 47.4, 36.2,


30.5, 33.0, 0.00, 14.8, 22.1,
44.0, 47.4, 14.8, 0.00, 25.7,
46.3, 36.2, 22.1, 25.7, 0.00),
nrow=5, ncol=5)
h = matrix(c(20.6,19.0,14.4,29.1,25.8), nrow=5, ncol=1) Z = matrix(c(10,11,15.5,17,14), nrow=5,
#

# Variogramme H[which(H > 40)] = 40


h[which(h > 40)] = 40

# Completion de 1 et 0 A = rbind(H,rep(1,5))
A = cbind(A,c(rep(1,5),0))
B = rbind(h,1)

# Resolution
W = solve(A,B)[1:5] z0 = (W%*%Z)[1]

Remarquons que les instructions solve(A,B) et solve(A)%*%B sont ´equivalentes (aux erreurs
d’arrondi pr`es), mais si la seconde est plus proche de la notation formelle A−1B, la premi`ere
reste la plus ef- ficace d’un point de vue informatique. L’indexation [1:5] qui s’y ajoute permet de
ne r´ecup´erer que
les 5 premiers ´el´ements du vecteur r´esultat, `a savoir les 5 poids solution. L’instruction which(H
> 40) permet de lister tous les indices de la matrice H contenant un ´el´ement sup´erieur `a 40.
La commande H[which(H > 40)] = 40 permet donc de plafonner les ´e l´e me nts de la matrice H `a
la valeur 40.

Quelques remarques sur le r´esultat de cette activit´e :

• La somme des poids affect´es aux mesures est bien ´egale `a 1, mais comme nous l’avions
139
fait observer pr´ec´edemment, l’estimation n’est en g´e n´e ra l pas convexe et certains poids
peuvent ˆetre

140
n´egatifs comme c’est le cas ici pour w4 = −0.147. La figure 3.7 nous r ´e v`e l e que le site x4
est en quelques sortes cach´e derri`ere le site x3. On parle d’effet d’´ecran. C’est donc x3
qui va
principalement d´eterminer la valeur interpol´ee (w3 = 0.553, qui est le plus ´e l ´e v ´e des
poids). Le site x3, align´e avec x0 et x5, agit comme un pivot, et on comprend que la rigidit´e
de la surface
`a interpoler conduit z5 `a avoir une influence r´epulsive : pour une valeur de pivot z3 fix
´ee, plus z5 est ´el e v´e e , plus z0 est faible et inversement. Cet exemple simple nous permet
donc de com- prendre l’i nt´erˆet capital d’autoriser des combinaisons lin´eaires non-convexes
des observations.

• On remarque que la matrice A ne d´epend pas des observations zi effectivement mesur´ees


mais uniquement des positions xi des sites d’observation. Dans un contexte o u` on
souhaiterait es- timer l’int´egralit´e du domaine d’´etude (comme nous allons le faire dans
l’activit´e suivante), il peut ˆet re avantageux de calculer l’inverse de A une seule fois en
amont. Chaque estimation
ne n´ecessite alors plus que de calculer H0, B, puis d’effectuer la multiplication matricielle A−1B.

• Lorsqu’on dispose d’un t r`es grand nombre d’observations (typiquement plusieurs dizaine
de milliers), le calcul de l’inversion peut ˆetre relativement couˆteux, d’autant que les
observations lointaines se verront tr`es vraisemblablement affecter des poids n´egligeables.
Une solution clas- sique consiste `a retirer, en amont de la proc´edure d’interpolation de x0, tous
les sites situ´es `a une distance sup´erieure `a un certain seuil (par exemple 3 fois la port´ee
effective du variogramme). on parle de voisinage glissant. En contre-partie, cela n´ecessite
de recalculer la matrice A (et donc aussi son inverse) pour chaque nouvelle estimation.

Activit´e VIII. Calcul d’un Mod`ele Num´erique de Terrain


On consid`ere un semis de points sur lesquels ont ´e t ´e effectu´es un relev´e d’altitude. Chaque ligne
du jeu de donn´ees contient : les coordonn´ees g´eographiques (longitude et latitude) d’un point,
et l’altitude (en m`etres) mesur´ee sur ce point. L’objectif du probl`eme consiste `a construire un
mod`ele num´erique de terrain sur la zone d’´etude (on d´efinit ici la zone d’´etude comme le
rectangle englobant dont les coins sont d´efinis par les coordonn´ees extr´emales du semis de
points d’observation).

Ici aussi, tout comme pour l’activit´e IV on pourra r´eutiliser le jeu de donn´ees saisi sur
l’application Google Maps, ou alors r´ecup´erer l’un des deux fichiers de donn´ees disponibles dans
le r´epertoire de mat´eriel p´edagogique. Pour les exemples ci-dessous, nous travaillerons avec le
fichier sample data2.txt.

Dans cette activit´e, on utilisera un mod`ele de variogramme lin´eaire (sans palier) : γ : h 1→ h.

Correction :

Comme pour l’activit´e IV, on commence par charger les donn´ees et convertir les coordonn´ees
dans un syst`eme m´etrique de coordonn´ees plane (cette ´etape est importante pour que les deux
dimensions Ouest-Est et Nord-Sud aient la mˆe me importance dans le calcul des distances entre
sites) :

# Import des fichier


obs = read.csv("sample_data1.txt", sep=",", header=1)

# Conversion en coordonnees planes


R = 6378137.0
obs$longitude = obs$longitude*pi/180.0
141
obs$latitude = obs$latitude*pi/180.0
obs$longitude = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
obs$latitude = (obs$latitude - min(obs$latitude))*R

142
Pour simplifier les manipulations, nous s´eparons les coordonn´ees des sites et les relev´es effectu´es :

# Table des sites


sites = obs[c("longitude", "latitude")]

# Table des observations


Z = obs["meters"]
Z = rbind(Z,0)

# Nombre de donnees
N = nrow(sites)

Remarquons qu’un 0 est a jout´e `a la fin du vecteur d’observations, de sorte que le produit de Z
par le vecteur solution du syst`eme de krigeage ´elimine automatiquement le multiplicateur de
Lagrange dans le calcul de l’estimation.

On d´efinit ensuite l’emprise g´eom´etrique de la zone d’´etude, ainsi que la r´esolution de la


grille d’interpolation. Cette r´esolution est exprim´ee dans l’unit´e des points d’observation, donc
en m`etres ici dans notre cas puisque nous avons pro jet´e les coordonn´ees des sites.

# Resolution
resolution = 25

# Calcul de l’emprise
xmin = min(sites$longitude)
xmax = max(sites$longitude)
ymin = min(sites$latitude)
ymax = max(sites$latitude)

On d´efinit alors l’objet informatique zhat qui va contenir le MNT estim´e. On d´efinit
´egalement une seconde grille vhat pour stocker l’incertitude de la valeur d’altitude estim´ee en
chaque cellule.

# Parcours des sites


DX = (xmin/resolution):(xmax/resolution)*resolution
DY = (ymin/resolution):(ymax/resolution)*resolution

# Output
zhat = matrix(ncol=length(DX), nrow=length(DY))
vhat = matrix(ncol=length(DX), nrow=length(DY))

A` ce stade, il peut ˆetre judicieux de tester le code ci-dessus, pour v´erifier que les matrices zhat et
vhat ont des tailles raisonnables, `a l’aide des fonctions nrow et ncol (typiquement ces deux
valeurs ne devraient pas d´epasser 100 ´el´ements pour commencer). Si besoin, ne pas h´esiter `a
augmenter la valeur de la variable resolution.

Remarquons que pour cet exemple, nous consid´erons dans un premier temps un variogramme identit
´e : γ : h 1→ h, et donc l’application du variogramme aux distances h calcul´ees est une ´etape
transparente. Malgr´e tout, dans le but de pouvoir changer cette fonction par la suite, nous
construisons la fonction γ :

vario = function(h){
return(h)
}

143
On effectue les calculs de krigeage qui sont ind´ependants du site `a interpoler, `a savoir : le
calcul de la matrice D des distances entre sites observ´es, le passage par le variogramme et l’ajout
des colon- nes/lignes de 1 pour compl´eter le syst`eme. On pr´e-calcule ´egalement l’inverse de la
matrice obtenue.

# Calcul de la matrice de distance


D = data.matrix(dist(sites, diag=TRUE, upper=TRUE))
D = vario(D)

# Completion avec des 1


D = rbind(D, rep(1,N))
D = cbind(D, c(rep(1,N),0))

# Pre-calcul de l’inversion
I = solve(D)

L’instruction dist(A, diag=TRUE, upper=TRUE), o u` A est un tableau de donn´ees contenant n points


dans un espace de p dimensions, retourne un tableau de taille n × n contenant les distances
euclidiennes entre tous les couples de points. Combin´ee avec l’instruction data.matrix, la commande
globale permet
de retourner ces distances sous forme d’une matrice.

Il ne reste alors plus qu’`a parcourir la grille, ce qui se fait `a l’aide d’une double boucle sur les ´e l
´em e nt s de DX et DY. Chaque it´eration de la boucle interne correspond `a l’estimation d’un
noeud de la grille.

Script 9. Calcul d’un Mod`ele Num´erique de Terrain [code7.r]

for (ix in 1:length(DX)){


for (iy in 1:length(DY)){

# Position x = DX[ix] y = DY[iy]

# Distance entre les sites et (x,y)


D0 = sqrt((sites$longitude - x)**2+(sites$latitude - y)**2) D0 = vario(D0)

# Completion avec un 1 D0 = c(D0, 1)

# Resolution
W = (I %*% D0)

# Estimation zhat[iy,ix] = sum(W*Z)


vhat[iy,ix] = sum(W*D0) - W[N+1]

}
}

Le calcul pouvant prendre un certain temps, on pourra introduire les deux lignes suivantes entre le

144
boucle externe et le boucle interne, pour visualiser `a l’´ecran l’´etat du traitement :

# Barre de progression
pourcent = floor(100*ix/length(DX)); cat("Computing interpolation:",min(pourcent,100), "%\r")
A l’issue du calcul, on pourra visualiser le MNT (et son incertitude associ´ee) :

par(mfrow=c(1,2))
image(DX, DY, t(zhat), col=terrain.colors(255), xlab="Estimation")
contour(DX, DY, t(zhat), add=TRUE, nlevels=20)
image(DX, DY, t(vhat), col=terrain.colors(8), xlab="Variance")

590

560

530
2

2
520

580

600 550
1

1
620
D

D
Y

Y
1

1
640
650
5
0

5
0
0

0 200 400 600 800 1000 1200 1400 0 200 400 600 800 1000 1200 1400

Estimation Variance

Fig. 3.8. Estimation par krigeage d’un MNT ( `a gauche) et de son incertitude associ´ee ( `a droite).

On remarque que l’incertitue de la valeur interpol´ee augmente `a mesure qu’on s’´eloigne des
sites observ´es, ce qui paraˆıt intuitif. Relancer le calcul avec diff´erents mod`eles de variogrammes.
En partic- ulier, on testera plusieurs variogrammes lin´eaires avec des coefficients vari´es, e.g. γ(h) =
2h, γ(h) = 3h, etc. Observe-t-on des diff´erences dans les r´esultats produits ? Peut-on l’expliquer ?

Pour g´erer plusieurs variogrammes on doit compl´eter la fonction vario. Pour s´electionner un
mod`ele de variogramme, il suffit de d´ecommenter la ligne correspondante. Lorsqu’aucune ligne n’est
d´ecomment´ee (except´ee l’instruction return bien entendu), le variogramme retenu est le mod`ele
de base γ : h 1→ h.

vario = function(h){

#h = 2*h # Lineaire coeff 2


#h = 100*h # Lineaire coeff 100

#h[which(h>8000)] = 8000 # Lineaire avec palier et portee 8000m


#h[which(h>4000)] = 4000 # Lineaire avec palier et portee 4000m
#h[which(h>2000)] = 2000 # Lineaire avec palier et portee
2000m

#h = h**0.1 # Puissance 0.1


#h = h**1.9 # Puissance 1.9
#h = 1-exp(-h/1000) # Exponentiel avec palier et portee

1000m return(h)

145
On pourra ´egalement tester le mod`ele gaussien si on le souhaite, mais en faisant attention au
fait que celui-ci a souvent tendance `a produire des erreurs d’arrondi num´erique, menant `a
l’impossibilit´e d’inverser le syst`eme de krigeage. On pourra contourner ce probl`eme en
introduisant une p´epite de
petite amplitude (e.g. ici 10−3) dans le mod`ele.

pepite = 10**(-3)
y = pepite+1-exp(-
h**2/578**2) y[which(h == 0)]
= 0; h = y

La port´ee a = 578 est calcul´ee en divisant la port´ee pratique souhait´ee (ici 1 km) par 1.73,
comme expliqu´e dans la section 2.15. Une autre solution consiste `a utiliser un mod`ele cubique.

On pourra alors effectuer des comparaisons entre les r´esultats. En particulier, si on dispose de
deux estimations zhat1 et zhat2 (par exemple calcul´ees avec 2 mod`eles variographiques diff´erents),
on pourra calculer le champ diff´erentiel diff=abs(zhat1-zhat2) et :

• le repr´esenter `a l’aide de la fonction image

• calculer l’erreur quadratique moyenne sqrt(mean(diff**2)) ou l’erreur maximale max(diff) entre


les deux estimations

En effectuant ce test, on montre exp´erimentalement que le coefficient de la pente du mod`ele lin


´eaire n’a absolument aucun impact sur les valeurs estim´ees, mais seulement sur les incertitudes
associ´ees. Nous tenterons d’expliquer cette observation dans la section suivante.

On peut ensuite tester d’autres mod`eles de variogramme, en particulier le mod`ele lin´eaire avec
palier, dont nous avions montr´e dans la section 2.4.2 qu’il ´etait un bon candidat pour le jeu de
donn´ees sample data2.txt. Nous avions mˆeme estim´e la valeur du palier `a 7.7 km. Ici nous
consid´ererons donc un variogramme lin´eaire avec palier et port´ee de 8 km. Pour tester
l’influence du param`etre de port´ee sur les r´esultats, nous testons ´egalement avec des
variogrammes de diff´erentes port´ees, ainsi que pour d’autres mod`eles.

La figure 3.9 montre les MNT obtenus pour 6 mod`eles de variogramme diff´erents : sur la
premi`ere ligne : lin´eaire avec palier et port´ees 8 km, 2 km et 500 m, et sur la seconde ligne :
mod`ele puissance avec θ = 0.1 et θ = 1.9 (on rappelle que ce mod`ele n’est d´efini que pour θ
strictement compris entre 0 et 2), et mod`ele exponentiel avec port´ee pratique de 8 km.

On observe les faits suivants :

• La valeur de la port´ee du variogramme lin´eaire n’est pas critique jusqu’`a 3 ou 4 km de port


´ee. Pour des valeurs inf´erieures, la qualit´e du mod`ele obtenu se d´egrade rapidement.

• Le r´esultats obtenus pour les deux param`etres θ = 0.1 et θ = 1.9 de variogramme en


puissance sont assez similaires. On remarque cependant que le mod`ele θ = 0.1 semble
moins lisse, ce qui s’explique par son comportement lin´eaire `a l’origine, contrairement au
mod`ele θ = 1.9 qui est parabolique.

• Le variogramme exponentiel avec port´ee de 8 km semble donner des r´esultats tr`es


proches du mod`ele lin´eaire avec palier et port´ee de 8 km. Cela s’explique par les formes
146
semblables de ces

147
Fig. 3.9.
A` gauche : Estimation par krigeage d’un MNT avec diff´erents A` droite :
variogramme.
diff´erence des estimations entre les deux mod`eles puissance θ = 0.1 et θ = 1.9. Plus la couleur est
claire, plus la diff´erence absolue entre les deux estimations ets grande.

deux variogrammes. Le mod`ele lin´eaire avec palier constitue donc en g´e n´e r al une bonne
approx- imation du mod`ele exponentiel (et dont les param`etres sont plus faciles `a inf´erer
comme nous l’avons vu dans l’activit´e IV).

On peut faire des comparaisons num´eriques entre les champs estim´es :

Mod`ele 1 Mod`ele 2 Erreur RMSE (m) Erreur max (m)


Lin´eaire (8 Exponentiel (8 km) 0.33 4.41
km)
Puissance (0.1) Puissance (1.9) 13.94 62
Lin´eaire (8 Lin´eaire (500 m) 44.89 188
km)

Il peut ˆetre assez instructif ´egalement d’effectuer une comparaison visuelle du champ calcul´e
par la diff´erence des deux mod`eles en puissance (fig. 3.9 `a droite). On observe que les diff
´erences sont maxi- males au niveau des zones o u` les courbures sont les plus prononc´ees (sommet
et fond de vall´ee), ce qui peut s’expliquer par la diff´erence de r´egularit´e des deux mod`eles de
variogramme (lin´eaire `a l’origine
pour θ :( 1 et parabolique `a l’origine pour θ > A` l’inverse, les diff´erences sont quasi-nulles au
1).
niveau des points observ´es mais aussi au niveau des lignes d’inflexion.

Ces quelques exp´erimentations montrent que le choix du variogramme n’est pas critique, tant
que le mod`ele choisi reste fid`ele `a la structure sous-jacente des donn´ees, estim´ee par le
variogramme exp´erimental. C’est ce que montre en particulier la comparaison entre le mod`ele
lin´eaire avec palier et le mod`ele exponentiel, dont les diff´erences obtenues sur l’estimation sont en
g´en´eral plutˆot faibles. En revanche, lorsqu’un mauvais mod`ele est s´electionn´e, ou alors que
les param`etres du mod`ele sont trop grossi`erement estim´es, la qualit´e de l’estimation se d
´egrade tr`es rapidement.

3.5 Propri´et´e du krigeage


Nous l’avons vu dans la section 3.3.2, les solutions du krigeage ordinaire et du krigeage
intrins`eque poss`edent exactement la mˆeme formulation alg´ebrique. Dans cette section nous
148
parlerons donc de krigeage sans plus de pr´ecision.

149
3.5.1 Exactitude
Un interpolateur est dit exact lorsqu’il passe exactement par toutes les donn´ees qui ont ´e t ´e utilis
´ees pour le construire. Si on reprend l’exemple p´edagogique de l’activit´e VI, nous avions
clairement un interpolateur non-exact, sauf si on fixe la tol´ereance ε `a 0. Formellement :

LePropri´et´e
krigeage est un36 (Exactitude du
interpolateur krigeage)
exact, autrement dit, pour tout jeu de donn´ees {xi, zi}i=1..n, la valeur krig

Preuve. En un point xi donn´e, la solution z(xi) = zi v´erifie les 4 contraintes de krigeage. En


effet, zi est bien une combinaison lin´eaire � des observations de poids total unitaire donc les
contraintes de lin´earit´e, d’universalit´e et d’autorisation sont v´erifi´ees. Par ailleurs, l’erreur
d’estimation ´etant nulle lorsqu’on choisit zi, la contrainte d’optimalit´e est ´egalement v´erifi´ee.
En toute rigueur, il resterait `a v´erifier que la solution z(xi) = zi est l’unique solution possible au
syst`eme de krigeage. � Lorsque tous les sites sont distincts, on peut montrer que la solution du
syst`eme est unique, zi est donc la seule solution admissible et l’interpolateur est n´ecessairement
exact.

Cette propri´et´e peut ˆetre d´esavantageuse lorsque les observations (ou que les positions des
sites sur lesquelles elles ont ´e t ´e effectu´ees) sont bruit´ees. Une m´ethode pour contourner ce
probl`eme, consiste
`a utiliser un variogramme `a p´epite. Dans ce cas, comme nous l’avons vu dans la section 2.20
(ou plus g´en´eralement dans la propri´et´e 32), les r´ealisations du processus sont discontinues, et il
en va de mˆeme pour la variable r´egionalis´ee estim´ee par krigeage. La valeur de la p´epite est
calcul´ee `a partir de la variance du bruit de l’appareil ayant ´e t ´e utilis´e pour relever les
observations. Par exemple, pour un GPS grand public d’erreur typique sur l’altitude σ = 5 m, on
choisira une p´epite η = σ2 = 25 m2.

3.5.2 Multiplication du variogramme

Propr i´et´e 37 (Multiplication du variogramme par un scalaire)


Soient α ∈ R+∗. Consid´erons γ et γ˜ deux variogrammes tels que γ˜ (h) = αγ(h). Alors, en tout point x du
les estimations de krigeage men´ees avec ces deux variogrammes co¨ıncident
les variance d’estimations sont ´egales `a un facteur α pr`es

L,n
Preuve. Notons z�(x; γ) = wizi l’estimation calcul´ee par krigeage en x, o u` wi d´esigne les poids
i
solution du syst`eme de krigeage 3.11, form´e avec le variogramme γ. En multipliant les n premi`eres
´equations de ce syst`eme par α /= 0, on ne change pas la solution et on obtient :

n n
αγi0 − α Lwjγij − αλ = 0 L
γ˜i0 − w j γ˜ i j − λ2 = 0
j=1

j=1

150
avec la notation : λ2 = αλ. On retrouve l’´equation du syst`eme de krigeage pour le variogramme
γ˜ . La solution est donc invariante par multiplication par un scalaire (strictement positif).

151
Autrement dit, multiplier le variogramme par une constante α > 0 ne modifie pas les r´esultats
d’estimation. C’est assez intuitif puisque toutes les relations de d´ependance statistique aux autres
points sont multipli´ees par un mˆe me facteur, il n’y a donc pas de raison que certaines
observations prennent plus de poids que d’autres, et l’estimation finale en est donc invariante. En
revanche, l’incertitude autour de cette estimation est multipli´ee par α :

n n
[ ] L L [
Var z�(x, γ˜ ) − z(x) = w i γ˜i0 − λ2 = wiαγi0 − αλ = αVar z�(x, γ) −
i i]
z(x)

On pourra se servir de cette propri´et´e, par exemple si on ne souhaite calculer que l’estimateur (et
non son incertitude) et qu’on sait que le variogramme est lin´eaire, on pourra alors se dispenser de
chercher
`a estimer la pente de ce variogramme. Pour tous les variogrammes `a palier (lin´eaire,
exponentiel, gaussien, cubique, sph´erique...), la valeur num´erique du palier n’a pas d’importance
dans ce cas, et il est suffisant de connaˆıtre la valeur port´ee. De mˆeme, pour un processus entˆach´e
d’un bruit d´ecorr´el´e, la valeur num´erique de la p´epite n’a pas d’importance, seul compte le ratio
signal sur bruit, qui parfois est plus simple `a estimer.

3.5.3 Lin´earit´e
Soit AL une application lin´eaire quelconque, prenant en entr´ee tout ou partie d’une variable r´egionalis
´ee et retournant un r´esultat (sous forme d’un nombre, d’un vecteur ou mˆeme d’une variable r
´egionalis´ee). Alors, le krigeage du r´esultat de AL ou l’application de AL `a l’estimation par
krigeage produisent exactement les mˆemes r´esultats :

Propri´et´e 38 (Lin´earit´e du krigeage)


Pour toute application lin´eaire AL :
AL[z�] = A\L[z] o u` q� d´enote la valeur krig´ee d’une quantit´e inconnue q.

Cette propri´et´e poss`ede de nombreuses applications pratiques :

• Sommes : si X et Y repr´esentent deux ph´enom`enes, alors le krigeage d’observations


ponctuelles de la variable X + Y donne le mˆe me r´esultat que la somme des krigeages
d’observations de X et Y prises s´eparemment. Il en va de mˆeme pour la diff´erence : par
exemple, si Z1 traduit le
relief d’un terrain donn´e au temps t1, et Z2 celui au temps t2, alors le krigeage des diff
´erences d’altitudes Z2 − Z1 mesur´ees en plusieurs points, est ´egal `a la diff´erence des
estimations par krigeage de Z1 et Z2.

• Moyennes : le krigeage de la moyenne de n ph´enom`enes est ´egal `a la moyenne des


krigeages des n ph´enom`enes pris s´epar´ement.

• D´erivation : la d´erivation est une op´eration lin´eaire. Le krigeage des pentes du


terrain est donc ´egal `a la pente d’un terrain estim´e par krigeage. Par ailleurs, on pourra
´enoncer ici une re- lation (d´emontr´ee dans l’annexe A) liant le variogramme d’un processus
152
avec celui de sa d´e ri v´ee :

153
D´erivation d’un processus. Soit X un processus stochastique uni-dimensionnel stationnaire
au sens large, dont la covariance CX est d´erivable deux fois en l’origine. Alors, la
covariance CX de la d´e r i v´e e Xt de X vaut :

CX (τ ) = −
d2CX(τ )
dτ 2

On pourra g´en´eraliser cette propri´et´e pour des processus d´efinis sur un domaine `a plusieurs di-
mensions, en consid´erant des d´eri v´ees uni-directionnelles.

Au niveau du variogramme on a :

γX (τ ) = CX (0) − CX (τ ) = K
d2CX(τ ) d2γX(τ )
+
=K dτ 2
−2

o u` K est une constante que l’on peut facilement d´eterminer avec la contrainte : γ(0) = 0.

En guise d’exemple d’application, supposons qu’on souhaite estimer la pente du terrain sur
une zone donn´ee dont on ne connait que des observations de pente4. Si par ailleurs on sait
grˆace
`a des ´etudes ant´erieures que le MNT sur ce mˆeme type de terrain peut-ˆetre mo d´elis
´e par un variogramme gaussien, alors pour mod´eliser le processus de pente, on pourra
s’orienter vers le choix du mod`ele de variogramme suivant :

γ(h) = K − (
d2 1
2
h2
l− = 1 h 2 )− h 2
1− e 1 a2 e
a
dh2 −
a2

C’est un variogramme non-monotone, donc `a effet de trou. Cela traduit l’anti-corr´elation


des pentes `a une distance caract´eristique a (fig. 3.10). Par ailleurs, il est int´eressant de
remarquer que le variogramme d´e r i v´e γ a aussi un comportement parabolique `a l’origine, ce
qui signifie que le pente est elle-mˆeme d´erivable. Plus g´en´eralement, un processus
stochastique est d´erivable `a l’ordre n si et seulement si son variogramme est 2n fois d
´erivable (Allard, 2012). Un processus de variogramme gaussien est donc infiniment d
´erivable, ce qui explique son aspect tr`es lisse.

• Int´egration : en reprenant l’exemple des MNT Z1 et Z2 `a 2 dates successives, on d´efinit


f : Z2 − Z1, o u` l’int´egrale est
l’application AL comme ´etant l’int´egrale de la diff´erence
prise sur le domaine d’´etude. Alors le r´esultat de AL n’est autre que le volume du terrain
perdu (ou gagn´e) entre les deux dates. L’application AL ´etant lin´eaire, on sait alors que
l’estimation de ce volume par int´egration du champ krig´e des diff´erences mesur´ees, est
correcte.

• Convolution : en pratique, les observations effectu´ees ne sont pas strictement ponctuelles. Par
154
exemple, pour mesurer la teneur d’un ´el´ement min´eralogique dans le sol en un lieu donn
´e, on doit proc´eder `a l’analyse chimique d’un bloc de terre d’extension spatiale non-nulle.
En fonc- tion des techniques employ´ees (et de l’´el´ement recherch´e), il peut arriver que
la taille de bloc
4
Par exemple pour la surveillance volcanologique, ou` les mesures sont fournies par un r´eseau d’inclinom`etres.

155
1

1
0

0
0

0
g
g

0
0

0
0

0
0 500 1000 1500 2000 2500 3000 0 500 1000 1500 2000 2500 3000

Index Index

Fig. 3.10.
A` gauche : variogramme gaussien du terrain (port´ee a = 1000 m et palier arbitrairement
fix´e `a 1.0). A` droite : variogramme d´er i v´ee seconde de la pente du terrain.

ne puisse plus ˆetre n´eglig´ee devant l’´ecart typique entre les observations. Dans ce cas, on
peut consid´erer qu’une mesure en un site x est en r´eali t´e une moyenne spatiale sur une zone
centr´ee en x, ce qui math´ematiquement se traduit par une convolution, et donc une op
´eration `a nouveau lin´eaire. Si les observations sont des convolutions de la variable r
´egionalis´ee, alors le krigeage de ces observations sera ´egal `a la convolution du krigeage
des mesures ponctuelles. Ici aussi, on peut citer un th´eor`eme bien pratique liant les covariances
d’un champ avant et apr`es convolution :

Covariance de convolutions. Soit X un processus stochastique stationnaire au sens large, de


covariance CX. On note Y la convolution de X sur le domaine d’´etude D par un noyau h :

-
Y (t) = (X ∗ h)(t) = X(τ )h(t − τ )dτ
D

Alors, la covariance du champ Y est li´ee `a celle de X par :

CY (τ ) = CX∗h(τ ) = (CX ∗ h ∗ h)(τ )

Pour un processus 1D et dans le cas particulier o u` les observations sont des moyennes, h est
une fonction porte et l’autoconvolution h ∗ h = Π ∗ Π est une fonction triangle de support
´egal au double de la zone sur laquelle la moyenne est calcul´ee. La covariance du champ liss
´e Y est donc
´egale au produit de convolution de CY par une fonction triangle. Plus les blocs de mesures
sont grands, plus la fonction triangle a un support large et plus la covariance de Y est d
´ef or m´e e par rapport `a celle de X : le champ est liss´e. A` l’inverse, si la mesure est
parfaitement ponctuelle, h
est le dirac δ, et la covariance de Y s’exprime par : CY = CX ∗ δ ∗ δ = CX (le dirac est l’´el
´ement neutre de la convolution) et on retrouve bien que les deux champs sont de
covariances ´egales.

Ces consid´erations appartiennent `a une th´eorie plus g´en´erale de la G´eostatistique, dite th


´eorie de la r´egularisation, dont l’objectif consiste `a transf´erer les propri´et´es d’un
champ al´eatoire au processus d’observation de ce champ sur des blocs d’extension spatiale
non-nulle. Nous en reparlerons dans la section 3.7.3 lorsque nous pr´esenterons le principe

156
de l’estimation globale.

157
3.5.4 Lissage
Le champ interpol´e par krigeage est en g´en´eral plus lisse que la variable r´egionalis´ee vraie (et
incon- nue). De mani`ere formelle :

Propri´et´e 39 (Effet de lissage)

La variance d’une variable krig´ee�Z en tout point donn´e x du champ0 est plus faible que
celle de la variable al´eatoire prise par le processus en ce mˆem e point :

Var[Z�(x0)] :( Var[Z(x0)]

La d´emonstration formelle de cette propri´et´e dans le cas du krigeage ordinaire n’est pas triviale,
mais elle peut ˆetre mise en ´evidence `a l’aide d’exp´erimentations, par exemple ci-dessous pour un
processus 1D (fig. 3.11). Sur cette figure, on observe ´egalement deux ph´enom`enes : (1)
l’interpolation tend `a devenir rapidement mauvaise sur les bords du domaine5 et (2) l’interpol´ee
est non-convexe (on le voit en particulier autour de l’abscisse 675, o u` la courbe rouge d´epasse le
maxima des observations).
2



5

● ●

0


0 200 400 600 800 1000

Fig. 3.11. Interpolation par krigeage (en rouge) d’un signal al´eatoire 1D (trait noir) `a partir d’un
´echantillon de 1% de ses points (points noirs).

Remarquons que cette d´eformation ne r´esulte pas d’un manque de connaissance du


variogramme, mais d’une propri´et´e intrins`eque au krigeage. On repr´esente par exemple ci-
dessous en figure 3.12 une exp´erimentation, o u` nous avons utilis´e un champ (connu de mani`ere
exhaustif) dont nous pouvons calculer une estimation relativement fid`ele du variogramme γ. Cette
estimation γ est alors utilis´ee comme mod`ele de base dans une estimation par krigeage de
l’ensemble du champ `a partir d’un sous-
´echantillon (environ une centaine de points). On observe alors que l’interpol´ee est plus lisse
que le champ r´eel, et en particulier, on voit que son variogramme poss`ede un comportement `a
l’origine parabolique, `a comparer avec le comportement lin´eaire `a l’origine du variogramme de
base.

L’estimateur par krigeage est victime d’un ph´enom`eme analogue `a la non-repr´esentativit´e


de la moyenne. Il est construit de sorte `a limiter l’erreur de pr´ediction. En ce sens, la variable r
´egionalis´ee estim´ee est la plus centrale possible, et n’est donc pas une r´ealisation quelconque
parmi tant d’autres. Paradoxalement, cette contrainte d’optimalit´e empˆeche l’estimateur d’ˆetre
pleinement repr´esentatif du ph´enom`ene. On peut faire une comparaison assez simple : si une
entreprise emploie 9 ouvriers au salaire mensuel de 2000 e, `a la tˆet e desquels on place un PDG
158
`a 22 000 e, le revenu mensuel
5
D’une mani`ere g´en´erale, hors de l’enveloppe convexe du semis d’observations. On parle alors d’extrapolation.

159
1

1
.

4e+05
0

0
.

.
Variogramme reel Variogramme du krigeage

0
.

.
N

N
(

a
v

2e+05
0

0
.

.
0

1
.

0
0

0
.

.
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000 6000

E(m) E(m) h(m)

Fig. 3.12. Le champ vrai ( `a gauche) et son estimation par krigeage `a partir d’un semis constitu´e
d’une centaine de points d’observation (au centre). A` droite : le variogramme du champ vrai (en
rouge) et celui du champ interpol´e (en bleu).

moyen des salari´es s’´el`eve `a 4000 e, ce qui n’est absolument pas repr´esentatif, ni des
ouvriers, ni du directeur. Pourtant, s’il fallait parier sur le revenu d’un salari´e pris au hasard
parmi les 10 membres de l’entreprise, c’est bien cette valeur moyenne de 4000 e qui minimiserait
la variance de l’erreur.

Autrement dit, dans le cas du krigeage, s’il fallait parier sur une valeur en x0, de mani`ere `a
limiter le risque d’erreur quadratique, une d´ecision rationnelle serait de � prendre z(x0). Pourtant,
l’ensemble de l’interpol´ee
� z ne constitue en g´en´eral pas un bon repr´esentant du ph´enom`ene.
Cette observation justifiera par la suite le recours aux m´ethodes de simulations.

3.6 Formulation duale


Comme nous l’avons vu dans la section 3.3 ainsi que dans l’activit´e VIII, le calcul de
l’estimation z en un site x0 donn´e, n´ecessite de multiplier une matrice A−1 (l’op´eration

d’inversion ayant ´e t ´e effectu´ee une seule fois en amont du parcours des sites `a interpoler) par
un vecteur B (d´ependant du
mod`ele de variogramme et de x0) puis `a effectuer le produit scalaire du r´esultat obtenu par le vecteur
Z = [z1,2 , ...zn, 0]T . Dans le formalisme matriciel, l’estim´ee s’´ecrit :

z = (A−1B, Z)

o u` (u, v) d´esigne le produit scalaire de deux vecteurs u et v de Rn. On peut alors ´ecrire :
t )T t )T
z� = (Z, A−1B) = ZT A−1B = ZT A−1 B = A−1Z B = (A−1Z, B)

o u` la troisi`eme ´egalit´e r´esulte du fait que A, et donc A−1 ´egalement, sont sym´etriques par
construc- tion. Avec cette nouvelle formulation, on peut traiter en amont tout ce qui ne d´epend
pas du site `a
interpoler ( `a savoir l’inverse de A et le produit par Z), puis `a chaque it´eration de boucle, il ne
reste plus qu’`a effectuer le produit scalaire avec le vecteur B.

On suppose que le domaine `a interpoler est assez vaste pour que le temps de calcul en dehors de
la boucle de parcours des sites soit n´egligeable (c’est en pratique le cas sur tous les probl`emes
concrets d’interpolation). Dans la version de base du krigeage, chaque interpolation n´ecessite une
multiplica-
tion d’une matrice carr´ee (de taille n) par un vecteur, soit n2 multiplications, ce `a quoi on ajoute
un produit scalaire de n multiplications, soit un algorithme d’interpolation en O(n2). Avec la
version

160
duale, chaque interpolation ne n´ecessite plus qu’un produit scalaire, soit O(n) multiplications.

161
En contre-partie, le vecteur X = [W, λ], contenant les poids de la combinaison lin´eaire ainsi que
le multiplicateur de Lagrange, n’´etant plus disponible, on ne peut plus calculer la variance de
l’estimation avec l’expression 3.13, ce qui limite l’int´erˆet pratique du krigeage dual.

En partant de l’activit´e VIII, le code ne n´ecessite que trois modifications :

• Au niveau du pr´ecalcul, on ajoute la multiplication par Z :


# Pre-calcul de l’inversion
I = solve(D) %*% data.matrix(Z)

• Au niveau du calcul de l’estimation, suppression de W = (I %*% D0) et modification :


# Estimation
zhat[iy,ix] = sum(t(I)*D0)

• Et suppression du calcul de la variance de l’estimation :


vhat[iy,ix] = sum(W*D0) - W[N+1]

A` titre d’exemple, le calcul d’un MNT au pas de 25 m `a partir des donn´ees du fichier sample
data1.txt (393 points d’observation) n´ecessite environ 3 minutes avec le krigeage de base, contre 13
secondes avec le krigeage dual. Pour une zone de taille fix´ee, le gain de calcul est proportionnel au
nombre n de sites.

Fig. 3.13. Interpolation d’un MNT pour deux niveaux de r´esolution diff´erents, `a gauche par
krigeage standard et `a droite par krigeage dual, pour un temps de calcul identique de l’ordre de 1
seconde.

L’int´erˆet du krigeage dual est toutefois `a relativiser au regard des recommandations de la litt
´erature, qui pr´econise d’utiliser un nombre limit´e de sites pour chaque interpolation. Par exemple,
la m´ethode
des octants, utilise pour chaque point `a interpoler une zone de recherche ellipso¨ıdale (pr´ef
´erentiellement orient´ee suivant les anisotropies du champ) divis´ee en 8 secteurs de 45◦. Les 3
points les plus proches sont alors s´electionn´es dans chaque secteur, de sorte `a limiter la taille du
syst`eme de krigeage `a une matrice de taille 8 × 3 + 1 = 25. En contre-partie, l’inversion doit
ˆetre effectu´ee `a chaque ´etape.

On pourra trouver plus d’informations sur la recherche de donn´ees par octants dans Zoraster
(1996). Il s’agit d’un cas particulier de krigeage dit `a voisinage glissant. Dans le cas contraire,
lorsque le krigeage est effectu´e avec tous les points d’observations, on parle de krigeage `a
voisinage unique.

162
3.7 Les variantes du krigeage
Nous pr´esentons ici plusieurs r´esolutions possibles du probl`eme d’interpolation `a l’aide de la
technique pr´esent´ee ci-dessus et pour diverses variations dans les hypoth`eses sous-jacentes.
Nous verrons ainsi que le krigeage est un outil g´en´erique facilement personnalisable pour des
besoins propres.

Pr´ecisions un peu la terminologie : on d´esigne en g´en´eral par krigeage ordinaire `a la fois le


krigeage ordinaire et le kriegage intrins`eque puisque les deux m´ethodes sont identiques. On
utilise le terme krigeage intrins`eque lorsqu’on souhaite insister sur le fait que le ph´enom`ene
consid´er´e est strictement intrins`eque. Par opposition, toutes les m´ethodes pr´esent´ees ci-
dessous sont des alternatives au krigeage ordinaire.

3.7.1 Krigeage simple


On se place dans les hypoth`eses du krigeage ordinaire, i.e. avec un processus stochastique Z
station- naire au sens large, observ´e en n sites ponctuels. Supposons que la moyenne m = E[Z] du
processus soit connue, et supposons sans perte de g´en´erali t´e 6 que m est nulle. La contrainte
d’autorisation est n´ecessairement respect´ee puisque Z est stationnaire au sens large et donc toute
combinaison lin´eaire est autoris´ee. Par ailleurs, la contrainte d’universalit´e impose :

n n
L L
E[Z� (x) − Z(x)] = wiE[Z(xi)] − E[Z(x)] = m wi − m = 0
i i

La contrainte d’universalit´e est donc automatiquement respect´ee (puisque m = 0) et le probl`eme


du krigeage est alors r´eduit `a un probl`eme d’optimisation sans contrainte, qu’on exprime plus
facilement
`a l’aide de la fonction de covariance Cij = γ(∞) − γij :
 
 C11 C12 ... C1n  
w1
C01
C21 C22 ... C2n w2 (3.16)
 C02   =  
  
 . . . .   . 
  C
 . 
Cn1 Cn2 ...
w

La matrice de terme g´e n´e r a l Cij est exactement la matrice de covariances Σ du vecteur al
´eatoire d’observations Z. La solution s’exprime alors : W = Σ−1C0 et on retrouve un ´equivalent
multi- dimensionnel du filtre de Wiener (Barret, 2009).

La variance de l’erreur d’estimation est la mˆem e que celle du krigeage ordinaire `a laquelle on
aurait retir´e le multiplicateur de Lagrange λ. On peut montrer que λ < 0, et donc, pour un
mˆem e jeu d’observations et en un point x0 donn´e, la variance d’estimation du krigeage simple
(KS) est inf´erieure
`a celle du krigeage ordinaire (KO). C’est intuitivement coh´erent : la connaissance a priori de la
moyenne guide le calcul et contribue `a r´eduire l’incertitude finale sur l’estimation.

Pour bien visualiser la diff´erence entre KS et KO, une m´ethode consiste `a repr´esenter le r
´esultat d’une interpolation 1D avec un variogramme de port´ee inf´erieure `a l’´ecart typique s

163
´eparant deux observa- tions (fig. 3.14). En un site x0 ´eloign´e des observations (typiquement au
point m´edian entre deux
´echantillons), les donn´ees ne sont plus significativement corr´el´ees `a Z(x0) et l’estimateur tend
`a re- tourner la valeur moyenne du champ. En revanche, dans les zones o u` la densit´e de points
d’observation
6
Si m /= 0, on peut facilment se ramener au cas m = 0 en ´etudiant la variable auxiliaire Y (x) = Z(x) − m.

164
est grande au regard de la port´ee du variogramme, KS et KO donnent sensiblement les mˆemes r´esultats.

0
Y

Y



200 400 600 800 200 400 600 800

X X

Fig. 3.14.
A` gauche : krigeage ordinaire ( `a moyenne A` droite : krigeage simple `a
inconnue).
moyenne m = 0. Dans les deux cas, le variogramme est un mod`ele gaussien de port´ee 45.

En pratique, il est t r`e s rare de connaˆıtre la moyenne d’un processus et l’emploi du krigeage
simple reste relativement peu fr´equent.

3.7.2 Krigeage de la moyenne


Si le KO permet d’estimer une variable r´egionalis´ee (et au passage sa moyenne) tandis que le
KS n´ecessite en pr´erequis la connaissance de la moyenne pour estimer la variable, il doit exister
une m´ethode compl´ementaire qui n’estime que la moyenne de la variable.

Comme pour les versions pr´ec´edentes, on part des contraintes de krigeage. On cherche donc :

• Un estimateur de la moyenne m (inconnue) du processus sous la forme d’une combinaison


L wiZi.
lin´eaire des observations : m� =
,

• On se place dans le cas stationnaire donc toutes les combinaisons lin´eaires sont autoris´ees.

• La contrainte d’universalit´e impose :

n
l L n )
E1 wiE[Zi] − m = (
wiZi − m wi − 1 = 0
i=1 nm i=1
L = L
i=1

et donc, tout comme pour le krigeage ordinaire, on souhaite que la somme des poids soit unitaire.

• Enfin, l’optimalit´e consiste `a minimiser la quantit


´e :
l
n wiZi − m
1
Var[m�− m] = Var
i=1
L

165
Remarquons que m n’est pas une variable al´eatoire mais bien un param`etre du mod`ele.
Elle n’entre donc pas en jeu dans la variance, ce qui donne la simplification :

166
n n

Var[m − m] = L wiwjCij
L
� i=1 j=1

On forme alors le lagrangien du probl`eme d’optimisation :


LL (
L
L(W, λ) = wi wj Cij + 2λ
n )
n n
wi − 1
i=1 j=1 i=1

La r´esolution du probl`eme avec les techniques pr´esent´ees dans la section 3.3 donne le syst`eme :

 
C11C12 ... C1n 1 w1 0
C21C22 ... C2n 1     
0
w2  
   .  .

 . = (3.17)
 . .
. .
. .
. 1  .  .
Cn1 Cn2 ... Cnn 1 wn 0
1 1 ... 1 0 λ 1
La variance associ´ee vaut :

n n n n
L L L tL )
Var[m� − m] = Var[m� ] = wiwjCij = wi wjCij
i=1 i j

L,
Or pour tout indice i la somme wjCij vaut −λ d’apr`es le syst`eme 3.17. Donc :

Var[m − m] = −λ wi = −λ
� i=1

L
N´ecessairement λ :( 0 (sinon, la variance perd son sens physique).

En notant KM le krigeage de la moyenne, on peut dire informellement que :

KO = KM + KS (3.18)

Autrement dit, tant du point de vue de l’estimateur que de sa variance d’erreur, appliquer un krigeage
ordinaire revient `a : (1) estimer la moyenne m� du processus par le krigeage de la moyenne puis (2) `a
fixer m = m �dans un krigeage simple7. La diff´erence de variance entre KS et KO vaut le multiplica-
teur de Lagrange, qui correspond donc `a la part de variance expliqu´ee par la connaissance a
priori de la moyenne du processus.

7
En fait il s’agit d’un cas particulier d’application de la propri´et´e 38 de lin´earit´e du krigeage.

167
3.7.3 Krigeage par blocs
Nous avons vu comment estimer la moyenne m d’un processus stochastique stationnaire au sens
large dans la section pr´ec´edente. Rappelons que m est un param`etre du mod`ele, sa valeur
vraie inconnue (si tant est qu’on veuille bien lui donner un sens) ne doit en th´eorie pas d´ependre
de la r´ealisation `a
´etudier. Pour rappatrier ce concept dans le monde physique, on pourrait dire que m serait la
valeur moyenn´ee du ph´enom`ene si le domaine d’´etude ´etait de taille infinie. Or, ce qui
nous int´eresse en g´en´eral, c’est la valeur moyenne prise par le ph´enom`ene sur la r´ealisation
courante, ´eventuellement restreinte `a un sous-domaine V .

On peut donner l’exemple d’application suivant : un prospecteur minier a fait r´ealiser des pr
´el`evements 8 de la teneur en cuivre du sol. Disposant d’un temps limit´e, il ne peut exploiter
qu’une unique carri`ere d’emprise spatiale V d´elimit´ee a priori par le mat´eriel et la main
d’oeuvre `a disposition. D`e s lors, la question se pose du choix du site d’implantation. En g´e n
´e ra l, le nombre de candidats est limit´e par des facteurs externes (fleuves, pentes, commodit´e
d’acc`es...) et le prospecteur doit choisir le bloc qui lui permettra statistiquement d’extraire le plus
de cuivre.

Une solution intuitive pourrait consister `a subdiviser chaque bloc `a l’aide d’une grille r´eguli`ere,
`a ap- pliquer le krigeage ordinaire en chaque noeud de cette grille, puis `a sommer les
estimations obtenues pour comparer les r´esultats. La propri´et´e 38 de lin´earit´e du krigeage
nous assure la validit´e th´eorique de cette solution. Cependant, en plus de n´ecesssiter
potentiellement un temps de calcul consid´erable, cette d´emrache ne permet pas d’´evaluer la
variance d’estimation sur chaque bloc. Nous allons voir ici une mani`ere de calculer la valeur
moyenne (et sa variance) d’un bloc en une seule estimation.

Pour ce faire, nous devons d’abord introduire la notion de covariance r´egularis´ee. Soit V ⊆
D un sous-domaine du champ d’´etude de forme quelconque (V peut mˆeme all`egrement ˆetre non-
connexe).
La moyenne de la variable r´egionalis´ee z sur V s’exprime par :

1
z(V ) = -
|V | z(x)dx (3.19)
V

o u` |V | d´esigne l’extension spatiale de V (longueur, aire, volume, etc. suivant la dimension de


l’espace de travail) et dx est une parcelle infinit´esimale du domaine V .

En rempla¸cant les minuscules par des majuscules, la quantit´e 3.19 devient une variable al
´eatoire et on peut calculer sa variance. Le th´eor`eme 12 de propagation des incertitudes nous
indique comment calculer la variance d’une somme de variables corr´el´ees. On peut proposer une
expression analogue pour la variance d’une int´egrale :

1
Var[Z(V )] = -
|V |2 - C(x − y)dxdy (3.20)
x,y∈V

La d´emonstration s’´etablit facilement en utilisant la bilin´earit´e de l’op´erateur de covariance,


puis en transformant l’int´egrale en une somme de Riemann et enfin par passage `a la limite.
Concr`etement, la variance d’une moyenne sur une domaine est la moyenne des covariances entre
tous les couples de points possibles du domaine.

8
On suppose que ces pr´el`evements sont ponctuels, ou au moins d’extension spatiale n´egligeable devant les autres
168
grandeurs entrant en jeu dans le probl`eme : taille du domaine, taille du bloc, port´ee du variogramme...

169
Remarquons par ailleurs que pour un processus strictement intrins`eque, on peut r´eexprimer 3.20
uniquement `a l’aide du variogramme, et on retrouve une expression analogue `a 3.14.

Plus g´en´eralement, on peut d´efinir l’op´erateur de covariance entre deux sous-domaines :

D´efinition 40 (Covariance r´egularis´ee)

Soient V1 et V2 deux sous-domaines de D potentiellement d’intersection non-vide.On


d´efinit la covariance r´egularis´ee C de Z par la covariance des moyennes des valeurs prises
par Z en V1 et V2 :

--
1
C(V12, V ) = Cov(Z(V1 ), Z(V2 )) = C(x − y)dxdy
|V12 ||
V | V1 V2

On retrouve bien entendu C(V, V ) = Var[Z(V )].

Fig. 3.15. La covariance r´egularis´ee C est la moyenne des covariances entre tous les couples possibles
de valeurs (x, y) avec x ∈ V1 et (y ∈ V2). Le concept reste valide pour des ensembles discrets, par
exemple `a droite, dans le cas de la covariance r´egularis´ee entre un ensemble V et le singleton
{x0}.

Remarque 1. Si V1 est un ensemble fini, on obtient une expression mˆelant somme et int´egrale :

|V1|
(1 1 ) 1 L|
LZ(xi),
C(V1, V2) = Cov Z(x)dx = V1 | - C(x − xi)dx
|V1 i |V |2 - |V 1||V 2 V
V
| | i

o u` |V1| est le cardinal de l’ensemble fini de points xi ∈ V1. Lorsque V1 et V2 sont tous les deux
discrets, on retrouve les expressions classiques de la covariance entre sommes de variables al
´eatoires.

Remarque 2. La notion de covariance r´egularis´ee se g´en´eralise au variogramme afin de traiter


le cas des processus strictement intrins`eques : γ(V1, V2) = C(0) − C(V1, V2).

Lorsque les deux blocs ont la mˆeme forme, par analogie avec le covariogramme, on peut d´efinir
le covariogramme r´egularis´e Ch qui mesure la ressemblance des valeurs moyennes prises par deux
blocs identiques V s´ep a r´e s d’un vecteur de translation h.

170
D´efinition 41 (Covariogramme r´egularis´ee)

Soient V un sous-domaines de D. On d´efinit le covariogramme r´egularis´ee CV de Z par la


covariance des valeurs moyennes prise par Z en V et Vh :

CV (h) = C(V, Vh) avec :Vh = {x + h | x ∈ V }

A` nouveau, ici aussi, on peut d´efinir le variogramme r´egularis´e γV (h) = C(V, V ) − CV (h). De plus si
Z est isotrope, CV et γV ne d´ependent que de la norme du vecteur h.

Fig. 3.16. Covariogramme r´egularis´e Ch d’un domaine V .

D’un point de vue graphique, la r´egularisation m`en e `a aplanir le variogramme au voisinage de


l’origine. Pour des distances de s´eparation grande devant la taille caract´eristique du bloc V , on
retrouve le com- portement du variogramme de Z avec un d´ecalage qui peut s’interpr´eter de
deux mani`eres : (1)
horizontalement, comme un allongement de l’ordre de |V | de la port´ee du variogramme r´egularis´e ou
(2) verticalement comme une perte de variance d uˆ au fait de moyenner sur des blocs.

Fig. 3.17. Le variogramme du processus (en bleu) et sa r´egularis´ee (en rouge) dans la cas
strictement intrins`eque ( `a gauche) et stationnaire au second ordre ( `a droite). La ligne verticale en
pointill´es repr´esente la dimension |V | du bloc.

Remarque 3. Le calcul formel des r´egularis´ees CV et γV est en g´en´eral assez compliqu´e. Un


exemple sur un cas simple est donn´e dans l’annexe A.3. On pourra avoir recours si besoin `a un
langage de calcul scientifique (R, Matlab...).

On peut alors construire un estimateur de la moyenne Z(V ) en utilisant le variogramme r´egularis´e.

171
Pla¸cons-nous en premier lieu dans le cadre stationnaire, et examinons les contraintes de krigeage :

• Lin´earit´e : on estime z(V ) par combinaison lin´eaire des sites observ´es : z�(V )
L,n wiz(xi)
= i

• Autorisation : toutes les combinaisons lin´eaires sont autoris´ees

• Universalit´e :

1n l 1 |V
1 | l Ln − 1
E[Z� (V ) − Z(V )] wiZ(xi) − Z(x)dx wiE[Z] E[Z(x)]dx
- |V |
=E L
i=1
E
V
= V
-
i=1
n
− 1 ) n )
=m ( (
wi |V | dx = m w i − 1
i=1 V i=1
L - L
Donc seules les combinaisons de poids unitaires respectent la contrainte d’universalit´e.

• Optimalit´e : calculons la variance de l’erreur avec la notion de covariance r´egularis´ee :

Var[Z� (V ) − Z(V )] = Var[Z� (V )] + Var[Z(V )] − 2Cov(Z� (V ), Z(V ))


L Ln n Ln
= wiwjC(xi − xj) + C(V, V ) − 2 wiC(xi, V )
i=1 i

En formant le Lagrangien et en annulant toutes ses d´eri v´ee s partielles (par rapport `a wi et λ),
on trouve facilement le syst`eme de krigeage :

 
C(0) C(x1 −x2) ... C(x1 − xn) 1  
 w1 C(x1, V )
C(x2 − x1) C(0) ... C(x2 − xn) 1 w2 C(x , V )
  .    2 
 = .  (3.21)
 .. .. .. .. 1  .   . 
C(xn − x1) C(xn − x2) ... C(xn − xn) 1 wn C(xn, V )
1 1 ... 1 0 λ 1

On montre qu’un syst`eme identique peut-ˆetre form´e avec γ et γ dans le cadre intrins`eque :

 
γ(0) γ(x1 −x2) ... γ(x1 − xn) 1  
 w1 γ(x1 , V )
γ(x2 − x1) γ(0) ... γ(x2 − xn) 1 w2 γ(x2, V ) 
  .   .  (3.22)
    =
.. .. .. .. 1 . . 
γ(xn − x1) γ(xn − x2) ... γ(xn − xn) 1 wn γ(xn, V )
1 1 ... 1 0 λ 1

172
n

La variance d’estimation vaut alors : Var[Z(V


� ) − Z(V )] = γ(xi, V ) − γ(V, V ) − λ
i=1
L

173
Si V est ponctuel, on retrouve les ´equations 3.11 et 3.13 du krigeage ordinaire. Par ailleurs, on
remar- que que l’estimateur et sa variance ne font appel qu’au variogramme, ainsi qu’`a sa r
´egularis´ee entre un point xi et un bloc. Le variogramme r´egularis´e bloc-`a - bloc γ(V1, V2) avec
V1 /= V2 (en g´en´eral plus
difficile `a calculer) n’est pas n´ecessaire.

Cette extension laisse entrevoir les inombrables possibilit´es de g´en´eralisation du krigeage. Ici,
nous avons collect´e des valeurs ponctuelles pour estimer une grandeur moyenn´ee sur un bloc.
Certains probl`emes peuvent n´ecessiter `a l’inverse d’estimer une grandeur ponctuelle `a partir
d’informations
zonales. A` titre d’exercice, on pourra s’interroger sur les deux applications suivantes. Pour chaque
cas, on d´etaillera la syst`eme de krigeage correspondant en suivant les 4 contraintes usuelles. On
com- mencera par se placer dans le cas stationnaire au sens large, avant de g´en´eraliser au cas
intrins`eque.

Exercice 3.1. Dans une r´egion r´epu t´ee riche en minerais, un terrain V est `a vendre. Aucun pr
´el`evement n’a ´e t ´e effectu´e par le pass´e sur V , si bien qu’un acheteur potentiel n’a aucune
id´e e a priori de la rentabilit´e de son investissement. En revanche, on sait que n terrains V1, V2,...
Vn, de formes et de tailles diverses ont ´e t ´e exploit´ees par des concurrents, et on connait pour
chacun d’eux, le quantit´e totale de minerais qui en a ´e t ´e extraite. Par ailleurs, on suppose
connaˆıtre le variogramme de la teneur min´erale sur la r´egion (par exemple apr`es analyse d’une
r´egion voisine). Estimer la quantit´e de minerais contenue sur V , ainsi que la variance de l’erreur
d’estimation.

Exercice 3.2. On suppose que la quantit´e estim´ee sur V a conduit le propsecteur a acheter le
ter- rain. Pour rentabiliser rapidement son investissement, il souhaite commencer par exploiter la
zone la plus prometteuse, mais sans perdre de temps `a effectuer des sondages au pr´ealable.
Comment peut-il utiliser les valeurs de teneurs moyennes des terrains voisins pour estimer le point
de V poss´edant la plus forte densit´e de minerais ? Nous reparlerons d’un probl`eme similaire
dans la section 4.2 traitant de l’optimisation bay´esienne.

3.7.4 Krigeage universel


Dans certains cas, le ph´enom`ene `a ´etudier pr´esente un tendance significative qui ne peut plus
ˆetre consid´er´ee comme une manifestation al´eatoire. Un exemple typique peut ˆetre trouv´e en m
´et´eorologie, si on cherche `a interpoler des valeurs de temp´eratures (dans un volume
d’atmosph`ere). On sait alors qu’`a une fluctuation spatiale al´eatoire des temp´eratures (d
´ependant essentiellement des conditions
m´et´eorologiques du moment) s’ajoute une d´erive d´eterministe de -6◦ par tranche de 1000 m
d’altitude au dessus du sol.

L’hypoth`ese stationnaire n’est alors plus satisfaisante et on d´ecompose le processus Z sous la


forme d’une somme de deux fonctions :

Z(x) = Y (x) + m(x) (3.23)

o u` Z est un processus stationnaire tel qu’´etudi´e jusqu’`a pr´esent, et m est une fonction d
´eterministe traduisant l’esp´erance du processus en un site x. Cependant, la covariance n’´etant
pas sensible `a la moyenne, on v´erifie ais´ement que la fonction de covariance de Z ne d´epend
que de la distance en- tre les sites. On mod´elise alors la tendance d´eterministe sous forme d’une
somme de fonctions de base :

174
l
m(x) = Lapfp(x) (3.24)
p=1

175
o u` les ap sont des coefficients r´eels et o u` chaque fonction de base fp ne d´epend que d’une seule
coor- donn´ee. En r`egle g´en´erale, on prend des fonctions classiques comme des exponentielles ou des
monˆomes x, x2, x3,... et on fixe par convention la premi`ere fonction de base f1(x) = 1.

2
1
0

0 200 400 600 800 1000

Fig. 3.18. Un processus stochastique non-stationnaire Z (en noir), mo d´e lis´e comme somme
d’un processus stationnaire Y et d’une tendance d´eterministe m (en rouge).

Le krigeage universel consiste alors `a estimer simultan´ement la tendance m et la fluctuation al


´eatoire Y en x0. La r´esolution du probl`eme s’effectue de mani`ere similaire aux sections pr´ec
´edentes (en pra- tique, seule la contrainte d’universalit´e est fonci`erement diff´erente, d’o u` le
nom de cette variante du krigeage) et on obtient un syst`eme de n + l inconnues :

     
C(0) C(x1 − x2) ... C(x1 − xn) f 1(x1) ... fl(x1) w1 γ(x1 − x0)
C(x
 2 − x 1 ) C(0) ... C(x2 − xn) f 1(x2) ... fl(x2) w2 γ(x2 − x0)
. . . .
 . ... . .   . 
 C(x n − x1) C(x n − x2 ) ... C(x n − xn ) f (x
1
n ) ... fl
(x ) w
n   n = γ(x
 n − (3.25)
x0)
f 1(x1) f 1(x2) ... f 1(xn) 0 ...   λ f 1(x0)
 0  
 . . . . ...   
 . .   . . 
  fl
(x
f (x1)
l
f (x2)
l
... f (xn)
l
0 ... 0 0

λ
qui se g´en´eralise sans probl`eme au cas intrins`eque en rempla¸cant comme `a l’accoutum´ee C
par −γ. La variance de krigeage s’´ecrit :

n l
L L
Var[Z� − Z] = C(0) − wiC(xi − x0) − λpfp(x0) (3.26)
i p

On peut donc consid´erer le krigeage universel comme la combinaison d’une r´egression lin´eaire et
d’un krigeage ordinaire, permettant ainsi une estimation conjointe (et donc de qualit´e sup´erieure)
des poids de krigeage et des param`etres du mod`ele de tendance (mˆeme si les coefficients ap ne sont
pas explicite- ment retourn´es par la m´ethode). En particulier, en l’absence de tendance, seule la
fonction de base f 1 subsiste dans le mod`ele et les ´equations 3.25 et 3.26 se r´eduisent au
krigeage ordinaire.

176
Prenons un exemple dans un espace `a deux dimensions, avec x0 = (x0, y0) ∈ R2 un point `a interpoler
`a partir d’un semis d’observations x1, x2,...xn. On suppose que la tendance est lin´eaire, i.e. la
moyenne

177
du processus sur la zone est un plan inclin´e. On a alors 3 fonctions de base f 1(x, y) = 1, f 2(x,
y) = x et f 3(x, y) = y. En notant hij = ||xi − xj ||2 o u` ||.||2 est la distance euclidienne classique
de R2, le syst`eme de krigeage s’´ecrit :

C(0) C(h) ... C(h1n) 1 x1 y1   


C(h21) C(0) ... C(h2n) 1 x2 y2  γ(h10)
 
w1
 . w γ(h20)

.. . . . . . ... .   .   

C(h ) C(h. ) .... C(h. ) 1 x y   .  . .  (3.27)
 n1 n2 nn n = γ(h )
w 30
1 1 ... 1n 0 ... 0  1 

 x1  λ  x0


. xn 0 ...  .   

x2 0 ... 0 λ2
. yn 
 y
y1 y2 
λ

En pratique, se pose toutefois la question de l’inf´erence du variogramme, puisque la tendance struc-


turelle vient s’ajouter `a l’estimateur. En effet :

1 1 1t )2l 1 1t )2 l
γ� = E Y
(h) = Var[Zx+h − Zx] = Zx+h − x+h + mx+h − Yx −
12 ) l ) l 2 l
= 2 1 2
x+h − + x+h − mx + x+h mx+h − Yx+hmx − mx+h + mx
1t2 Yx 2 Y Yx
1t 1 x
E Y
E m E Y
1 t ) 2
= γ(h) + m(x + h) − m(x)
2

Le variogramme est donc biais´e d’une quantit´e fonction de la diff´erence entre la valeur moyenne
prise par le processus en x et x + h. Lorsque la tendance varie lentement `a l’´echelle de la port´ee
du vari-
ogramme, on a m(x + h) ≈ m(x) et l’estimateur γ peut � ˆetre satisfaisant. Sinon, il faudra recourir `a
d’autres strat´egies. Nous en exposons quatre bri`evement.

• Il y a des cas de figures o u` on sait a priori que la tendance est invariante par translation
suivant une des coordonn´ees du rep`ere. Notamment, Emery (2001) mentionne le cas de la
bathym´etrie sur le littoral. On sait que la tendance induit une augmentation de la
profondeur moyenne `a mesure que le sondeur s’´eloigne de la cˆote, mais on peut supposer
que les coupes de terrain par- all`eles `a la ligne de c ˆote ne sont globalement pas soumise `a
cette tendance. On peut donc estimer le variogramme uniquement suivant cette direction (qui
peut ˆe tre consid´er´ee sinon stationnaire, au moins intrins`eque), puis supposer le ph
´enom`ene isotrope.

• On peut rechercher une zone sur laquelle on sait que la tendance est de valeur relativement
constante pour y estimer le variogramme `a l’aide des m´ethodes classiques. Remarquons
que si la zone est une coupe `a coordonn´ee constante dans le rep`ere, on se ram`ene `a la
premi`ere option.

• Une m´ethode it´erative peut consister `a calculer une premi`ere estimation m� de la tendance `a
178
l’aide de m´ethodes d´eterministes classiques, souvent `a base de moindres carr´es (r´egression
poly- nomiales, splines de lissage...), puis `a calculer le variogramme de la variable r´esidu Z
− m. On op`ere alors un krigeage universel sur la variable Z (Bourgine, 1995). �

• Enfin, une derni`ere option, qui est sans doute la plus satisfaisante d’un point de vue th
´eorique, consiste `a se placer dans le cadre de l’hypoth`ese intrins`eque d’ordre k, et de ne
consid´erer que des

179
accroissements insensibles `a la tendance (quelque soit les valeurs prises par les param`etres
ap). Remarquons qu’il s’agit bien d’une g´en´eralisation de l’hypoth`ese intrins`eque qui elle
ne travaille que sur des combinaisons lin´eaires de poids nul, et est donc insensible `a la
valeur moyenne. En retour, cet ´elargissement du champ th´eorique offre un choix plus
vaste de fonctions de covari- ance (appel´ees covariances g´en´eralis´ees) dont les
covariances de l’hypoth`ese stationnaire et les variogrammes de l’hypoth`ese intrins`eque ne
sont que des cas particuliers. On pourra trouver plus de d´etails sur ce vaste sujet dans
Droesbeke et al. (2006).

3.7.5 Krigeage avec d´erive externe


Parfois, la tendance de le variable r´egionalis´ee est connue a priori, ou bien de mani`ere
analytique (r´esultat de la th´eorie g´en´erale ou d’´etudes sp´ecifiques ant´erieures), ou alors
num´eriquement, par ex- emple si la variable d’int´erˆet fluctue autour d’une valeur d´ependant li
´enairement d’un autre variable ϕ (la d´erive externe). Pour que le krigeage `a d´erive externe
(KDE) soit op´erant, la fonction ϕ doit
ˆetre connue sur une grille de r´esolution beaucoup plus fine que celle du semis d’observations, de
sorte qu’il soit possible de connaˆıtre avec un bon niveau de pr´ecison la valeur prise par ϕ en tout
point du domaine (et en particulier au niveau des sites d’observations et des sites `a interpoler).
Remarquons que contrairement au cas du krigeage universel, ici la tendance est parfaitement
connue et calculable num´eriquement. On mod´elise alors le processus sous la forme :

Z(x) = Y (x) + aϕ(x) + b

o u` Y est un processus stationnaire de moyenne nulle, a, b ∈ R sont des coeffcients inconnus et ϕ


est une fonction d´eterministe connue en tout point du domaine.

La connaissance de ϕ r´esulte en g´e n´e r a l de l’observation d’une variable annexe. Bourgine (1995)
donne en particulier un exemple de cas d’application : en g´eothermie, la temp´erature T (x)
s’exprime par Y (x) + aP (x) + b o u` P est la profondeur d’un site x. D’une mani`ere g´en´erale, le
KDE peut ˆetre utilis´e pour calculer les fluctuations d’un variable autour d’un niveau de r´ef
´erence d´eterministe.

Nous laissons au lecteur le soin de v´erifier que l’´ecriture des contraintes de krigeage produit
un syst`eme d’´equations identique `a celui du krigeage ordinaire, avec un ligne suppl´ementaire
pour as- surer l’abscence de biais, soit, en notant ϕi = ϕ(xi) :

C11   
C12 ... C1n 1 ϕ1 w1 C01
C21 C22 ... C2n 1 ϕ2  C 
  w
.   . 

 .. . . . . .   .  .  (3.28)
Cn1 Cn2. .... Cnn. 1. ϕn. C0n
 w = 
 
 1 1 ... 1 0 0  1 
ϕ1 ϕ2 ... ϕn 0 0 λ1 λ ϕ

Dans le cas o u` le mod`ele sous-jacent Y est intrins`eque C est remplac´e par −γ.

Le KDE peut ˆetre particuli`erement int´eressant pour mod´eliser les discontinuit´es ( `a condition
qu’elles soient connues a priori), comme illustr´e sur la figure 3.19.

180
Nous pr´esentons ci-dessous un cas d’application concret issu des travaux de Peraudin (2003), dont
l’objet ´etait d’´etudier la concentration spatiale du benz`ene (C6H6) sur la ville de Rouen, `a partir
de

181
● ●



● ● ● ●

● ● ● ●
● ● ●
● ●

30
● ●

20

● ● ●
● ● ●

10
● ●

300

● ● ● ●

● ● ● ●
● ● ●
● ●

20
● ●

10

● ● ●
● ● ●

250
20
15
10
5
0
−5
0 200 400 600 800 1000

Fig. 3.19. Comparaison du r´esultat du krigeage ordinaire � ZKO et du krigeage avec d´erive
externe
� ZKDE pour un processus 1D stationnaire avec d´erive m(x) = 20 × ]_x�300.
L’´echantillonnage du semis d’observations a ´e t ´e o p´e r´e `a une r´esolution de 1 point toutes
les 35 unit´es.

l’observation de 73 sites. L’estimation a ´e t ´e effectu´ee par krigeage avec d´erive externe, en consid
´erant une variable annexe, d´ecrivant la densit´e de population et l’altitude du terrain, deux
facteurs qui peuvent avoir une influence indirecte sur la concentration de benz`ene. Le mod`ele est
alors ´eva l u´e ob- jectivement par validation crois´ee (cf chapitre 4) et compar´e aux estimations
obtenus par un krigeage ordinaire. Le r´esultat de l’´etude met en ´evidence une meilleure pr
´ecision d’estimation avec le KDE.

Fig. 3.20. Estimation de la concentration de C6H6 par KO (au centre) et par KDE ( `a droite) tenant
compte de la densit´e de population et de la topographie ( `a gauche). Source : Peraudin (2003).

3.7.6 Autres variantes


Iles existent de nombreuses autres variantes et extensions du krigeage, que nous ne pouvons mal-
heureusement pas d´etailler ici. Nous citons cependant bri`evement les plus utilis´ees en pratique :

• Krigeage al´eatoire : lorsque les position des sites sont elle-mˆemes significativement bruit
´ees 9 , on peut avoir recours au krigeage al´eatoire qui suppose que les sites xi sont al
´eatoirement et ind´ependamment distribu´es dans un voisinage locale propre Vi. La r
´esolution, qui s’op`ere clas- siquement `a partir des 4 contraintes usuelles, permet d’aboutir `a
un syst`eme d’´equations faisant intervenir le variogramme r´egularis´e γ entre les
voisinages (cf section 3.7.3 sur le krigeage par blocs). Notons que ce bruit de positionnement
impacte ´egalement l’estimation du variogramme, et fait en g´en´eral apparaˆıtre une p´epite
artificielle (Emery, 2001).

9
Ce qui arrive souvent en bathym´etrie par exemple comme le mentionne Emery (2001).
182
• Co-krigeage : nous avons vu comment utiliser le krigeage `a d´erive externe lorsque la
ten- dance globale de la variable est perturb´ee par une variable annexe. Toutefois
l’utilisation du KDE en n´ecessite la connaissance exhaustive (ou moins sur une grille de r
´esolution suffisamment fine). Lorsque cette variable annexe n’est connue qu’au niveau de
quelques sites d’observations, la g´eostatistique multivari´ee (Rivoirard, 2003) permet de
traiter le probl`eme en estimant les quantit´es inconnues `a l’aide de combinaisons lin
´eaires mixtes de la variable d’int´erˆet Z et de la variable annexe Y :

m n
L L
z�(x 0 ) = viyi + w i zi (3.29)
i i

o u` m et n d´esignent respectivement les effectifs des observations des champs Y et Z.


Moyennant la connaissance des variogrammes γZ et γY ainsi que d’un variogramme crois´e γY
Z traduisant les influences mutuelles des deux variables, on peut d´eterminer la solution z(x0)
non-biais´ee et de variance minimale. Dans le cas du co-krigeage simple �et stationnaire, le
vecteur des poids inconnus : X = [v, w]T = [v1, v2, ...vn, w1, w2, ...wn]T est solution de
l’´equation matricielle :

CY CY Z v C0
(3.30)
= 0Y
CY Z CZ w CX

o u` CAB(h) = γAB(∞)−γAB(h) d´enote la covariance entre les deux variables A et B en deux sites
xi et xj s´epar´es d’une distance h, CA = CAA et C0 est la covariance de la variable A entre un site
A
xi et le site `a interpoler x0. Dans un cas d´efavorable, γY Z a un comportement p´epitique pur
et la connaissance de la variable auxiliaire n’apporte rien `a la r´esolution du probl`eme.
L’´equation 3.30 se g´en´eralise pour le cas du cokrigeage ordinaire (avec deux
multiplicateurs de Lagrange pour assurer la contrainte d’universalit´e) ainsi que dans le cas
strictement intrins`eque (avec l’emploi exclusif du variogramme).

Le co-krigeage se g´en´eralise facilement au cas de p variables (une variable d’int´erˆet Z1 et p


− 1 variables annexes Z2, Z3,...Zp). L’estimateur 3.29 devient alors :

n p
z(x0) = L wijzij (3.31)
L
� i=1 j=1

o u` wij est le poids affect´e `a la i-eme observation de la variable Zj, en g´en´eral d’autant
plus fort et que les sites x0 et xi sont proches, et que les variables Z1 et Zj sont corr´el´ees.
Remarquons que les sites ne co¨ıncident pas n´ecessairement entre les diff´erentes variables.
Le cokrigeage constitue un outil de choix pour l’interpolation des champs vectoriels (avec des r
´esultats en g´en´eral plus pr´ecis qu’un d´ecoupage en n champs scalaires). On le recontre fr
´equemment dans les ´etudes li´ees
`a la pollution atmosph´erique, qui font souvent intervenir un grand nombre de variables corr´el
´ees telles que les concentrations d’une large gamme de particules et des param`etres m´et
´eorologiques (Deraisme et Bobbia, 2003). Notons toutefois que le nombre de variogrammes `a
mod´eliser aug- mente quadratiquement avec p, ce qui limite en g´en´eral le co-krigeage `a
un maximum pratique d’une dizaine de variables annexes).

183
Pour illustrer cette m´ethode, nous nous appuyons `a nouveau sur les travaux de Peraudin
(2003), qui a ´e t u d i´e la concentration de dioxye d’azote (NO2) sur la r´egion Ile-de-France
`a partir des relev´es fournis par 20 capteurs. Pour affiner les r´esultats, l’auteur propose
d’ajouter en variable auxiliaire le logarithme de la concentration en NOx.

Fig. 3.21.
E´ stimation de la concentration de NO2 par krigeage ordinaire ( `a gauche) et par co-krigeage
crois´e avec le logarithme des emissions de NOx ( `a droite). Source : Peraudin (2003).

• Krigeage d’indicatrice : on peut utiliser toutes les techniques de krigeage vues pr´ec
´edemment pour interpoler une variable binaire, par exemple la pr´esence d’un ´e l´e m e nt
chimique dans
� le sol. La variable z estim´ee peut ˆetre consid´er´ee comme ´etant l’esp
´erance (conditionn´ee aux observa- tions) d’une fonction indicatrice valant 1 si l’´el´ement
est pr´esent et 0 sinon :

E[Z(x)] = 0 × P[Z(x) = 0] + 1 × P[Z(x) = 1] = P[Z(x) = 1]


z�(x
)=

Autrement, dit la valeur krig´ee en un site x peut ˆetre consid´er´ee comme la probabilit´e de pr
´esence de l’´el´ement chimique en x sachant les observations. Remarquons toutefois que le
krigeage peut produire des valeurs en dehors de l’intervalle [0, 1], ce qui n´ecessite donc quelques
op´erations de r´egularisation pour que la valeur krig´ee puisse l´egitimement ˆetre consid
´er´ee comme une proba- bilit´e en tout point du domaine.

De mani`ere similaire, si Z est une variable continue, comme par exemple la teneur de l’´el
´ement, on peut la transformer en une variable binaire avec la foncion indicatrice Yc(x) =
]_Z(x):(c, ou`

c ∈ R est un seuil arbitrairement fix´e. La fonction Yc prend la valeur 0 en tous les sites o u` Z
d´epasse c et 1 sinon. Si on calcule un krigeage de la variable Yc on obtient :

P[Y (x) = 1] = P[Z(x) :( c] = F (c)


y� (x) =c Y
(x)

L’estimation en x correspond donc `a la valeur prise en c par la fonction de r´epartition de la


variable al´eatoire Y (x). On peut alors r´eit´erer l’op´eration pour une s´erie de valeurs r
´eguli`eres de seuils : c1, c2,... cn, permettant ainsi de reconstruire la fonction de r
´epartition de Z(x) en chaque site x, et ainsi d’en d´eriver des intervalles de confiance plus
robustes que ceux qu’on peut obtenir sous l’hypoth`ese de normalit´e avec la variance de
l’erreur de krigeage.

184
Remarquons toutefois que rien ne garantit la monotonie de la fonction de r´epartition ainsi
es- tim´ee. En pratique, ici aussi, un post-traitement est n´ecessaire pour r´egulariser la
solution.

Mentionnons ´egalement le fait que l’obtention de F a un c ouˆ t de calcul important


puisqu’un variogramme doit ˆetre calcul´e pour chaque valeur c du seuil. Par ailleurs, la
fonction indicatrice Yc ´etant par nature discontinue, le variogramme ne pourra pas ˆetre
parabolique `a l’origine, ce qui interdit d’embl´ee le choix des mod`eles gaussien et cubique.

• Soft-kriging : ou krigeage mou, il permet de combiner des observations formelles, avec des
informations plus vagues. Par exemple, en bathym´etrie, on peut combiner des informations
de profondeur exactes (obtenues par sonar) avec des indications du type : en ce point, la
profondeur est sup´erieure `a x m, dans le cas de figure ou la port´ee du sondeur n’a pas
permi d’y d´eterminer la profondeur. Le soft-kriging utilise en particulier des techniques de
krigeage sous contraintes d’in´egalit´es. Pr´ecisons que lorsque le nombre de contraintes floues
reste mo d´er´e, les techniques de simulations pr´esent´ees dans le chapitre 4 pourront
avantageusement ˆetre employ´ees.

3.8 Bilan
Dans ce chapitre nous avons vu comment utiliser la notion de processus stochastique pour estimer
une variable r´egionalis´ee observ´ee en seulement quelques points. En particulier, nous avons
appris `a utiliser les contraintes de krigeage pour d´eriver le syst`eme d’´equations menant `a un
vecteur de poids solution. Rappelons que ces contraintes, qui sont la marque de fabrique du
krigeage, sont toujours les mˆemes : lin´earit´e, autorisation, universalit´e et optimalit´e. Seules
les hypoth`eses sur le mod`ele du processus vont mener ces contraintes `a produire des ´equations
diff´erentes. En particulier, nous avons vu que le krigeage peut-ˆetre facilement personnalis´e pour r
´epondre `a des besoins sp´ecifiques.

Toutes les variantes du krigeage qui ont ´e t ´e ´etudi´ees dans ce chapitre ( `a l’exception du
krigeage de la moyenne et du krigeage simple qui n´ecessitent imp´erativement une stationnarit´e du
processus pour que la notion de valeur moyenne du champ ait un sens), peuvent s’exprimer aussi bien
sous l’hypoth`ese stationnaire avec la covariance que sous l’hypoth`ese intrins`eque avec le
variogramme. De mˆeme, si les observations sont pr´elev´ees sur des zones d’emprise spatiale non-n
´egligeable, on peut avoir recours au krigeage par blocs avec le variogramme r´egularis´e. Toutes
ces caract´eristiques sont combinables
`a volont´e. Ainsi, on peut parler de co-krigeage intrins`eque par blocs d’indicatrices, ce qui
illustre ici aussi la grande polyvalence de la m´ethode.

Par ailleurs, le krigeage permet de d´eriver une incertitude formelle sur la pr´ediction : la
variance de l’erreur d’estimation, ce qui est une propri´et´e fondamentale des m´ethodes
probabilistes. De plus nous avons vu que cette variance ne d´epend que de l’implantation des sites
d’observation, et pas des mesures effectivement collect´ees, ce qui permet en amont de contrˆoler la
qualit´e d’un plan d’exp´eriences.

Enfin, si nous devions retenir une faiblesse capitale du krigeage, ce serait sans aucun doute son
inap- titude `a estimer des quantit´es non-lin´eaires, ce qui combin´e `a sa propri´et´e de lissage,
peut conduire
`a des estimations assez ´eloign´ees de la v´e r it´e . Cette limitation va motiver le besoin de
simulations num´eriques, dont nous parlerons dans le chapitre suivant.

185
Chapter 4

Compl´ements

Dans ce dernier chapitre nous ´etudions quelques compl´ements utiles aux notions vues pr´ec
´edemment. En particulier, nous verrons une m´ethode objective de validation, qui peut
s’apparenter `a la m´ethode dite Leave One Out Cross Validation en apprentissage automatique.
Nous verrons ´egalement comment utiliser le krigeage pour trouver la valeur optimale d’une fonction
num´erique en minimisant le nombre d’observations n´ecessaires. Nous ´etudierons par ailleurs des
techniques de simulations, conditionnelles et non-conditionnelles, offrant une vaste gamme de
possibilit´es, allant de l’interpolation sous contrainte
`a l’´etude de propagation d’erreurs, en passant par l’estimation de quantit´es non-lin´eaires,
propri´et´e capitale pour contourner les faiblesses du krigeage. Nous conclurons ce cette section
par une activit´e de synth`ese, permettant de mettre en application (et de comparer) le krigeage
et les techniques de simulation, sur un probl`eme concret.

4.1 La validation crois´ee


Comme nous l’avons vu dans le chapitre pr´ec´edent, quelques soient les configurations
d’hypoth`eses retenues (processus stationnaire ou intrins`eque, `a moyenne connue ou inconnue,
observations et vari- ables `a inf´erer ponctuelles ou par blocs, ...) il est possible de d´eriver une
incertitude formelle sur la pr´ediction : la variance de l’erreur d’estimation. Le krigeage
d’indicatrice nous permet mˆem e d’aller plus loin et de connaˆıtre la fonction de r´epartition (et
donc un intervalle de confiance sur la pr´ediction) de la variable estim´ee en chaque point.

Cependant, la propri´et´e 37 nous montre que les estimations du krigeage sont invariantes par
multipli- cation scalaire du variogramme tandis que la variance de l’erreur d’estimation se retrouve
affect´ee d’un facteur ´equivalent. Cela nous montre qu’il est toujours possible de r´eduire
artificiellement l’incertitude formelle de la pr´ediction en divisant le variogramme par une constante.
Une erreur dans la mod´elisation variographique (ou pire, en amont dans les hypoth`eses du
mod`ele) peut donc rapidement conduire `a la double sanction d’une variable mal estim´ee et
d’une variance d’erreur optimistiquement faible. L’incertitude formelle doit donc ˆetre consid´er´ee
comme un indicateur a priori de pr´ecision int´eressant pour valider en amont un plan d’exp
´erimentation. N´eanmoins le mod`ele et les estimations obtenues doivent toujours ˆetre pass
´ees `a l’´epreuve d’une validation objective. C’est ce que nous ´etudions dans cette section.

On note x ∈ D un site quelconque du domaine, et X = [x1, x2, ...xn] ∈ Dn et Z = [z1, z2, ...zn] ∈ Rn
les vecteurs contenant respectivement les sites et les observations qui y ont ´e t ´e relev´ees. Ces deux
vecteurs ayant la mˆem e taille, on peut les regrouper dans une matrice Y = [X, Z] `a n lignes, et
telle que le vecteur ligne yi = (xi, zi) d´esigne les donn´ees relatives au site i. Pour une configura-
tion Θ de param`etres (mod`ele, palier, port´ee et p´epite du variogramme, type de krigeage,
nombre d’observations utilis´ees pour chaque estimation...) on note f (x, Y, Θ) l’estimateur par
krigeage de la variable Z(x), `a partir du semis d’observations Y et avec le param´etrage Θ.
Remarquons que le vecteur Θ peut alternativement ˆetre consid´er´e comme un ensemble

186
d’hypoth`eses. Par exemple, on

187
peut avoir : Θ1 = [variogramme lin´eaire avec palier, p´epite nulle, port´ee 200 m, moyenne
connue...] et Θ2 = [ variogramme cubique, p´epite nulle, port´ee 250 m, moyenne inconnue... ].
L’objectif du probl`eme consiste `a trouver une mesure de qualit´e de pr´ediction permettant
d’´evaluer et de comparer les performances respectives des sets1 d’hypoth`eses Θ1 et Θ2 afin de ne
retenir que le meilleur.

Dans le chapitre pr´ec´edent, nous avons d´efini l’erreur d’estimation en x par la quantit´e (al´eatoire) :

E(x) = Z� (x) − Z(x) = f (x, Y, Θ) − Z(x) (4.1)

Notons que l’erreur E est positive lorsque le krigeage sur-estime la valeur Z(x) et n´egative sinon.
Par ailleurs, il est int´eressant de noter que E est lui-mˆeme un processsus stochastique,
clairement non- stationnaire (l’erreur ´etant statistiquement plus faible au voisinage des points du
semis d’observations).

Pour estimer l’erreur E en x, on doit bien ´evidemment connaˆıtre la valeur vraie Z(x). Sur des
probl`emes de benchmarks exp´erimentaux, la v´eri t´e terrain est connue de mani`ere quasi-
exhaustive, et les erreurs de toutes les grandeurs physiquement mesurables peuvent ˆetre ´evalu
´ees. En revanche, dans un contexte op´erationnel, la valeur vraie est justement inconnue
puisqu’on cherche `a l’estimer. La validation crois´ee apporte une solution `a se probl`eme.

On note Y−i le jeu de donn´ees Y dans lequel on a supprim´e la ligne i. Le principe consiste alors
`a r´eestimer la valeur Zi prise en xi `a partir des valeurs Z−i prises en tous les autres sites.
L’erreur d’estimation 4.1 se calcule alors par :

ELOOCV (xi) = Z� (x i ) − Z(xi) = f (xi, Y−i, Θ) − Z(xi) (4.2)

La varance de l’erreur commise est alors calcul´ee en moyennant 4.2 sur tous les sites observ´es :

n 1
1 l
MSE = L 2
f (xi, Y−i, Θ) − Z(xi) (4.3)
n
i=1

et on peut calculer un ´ecart-type d’estimation en extrayant la racine carr´ee de 4.3.

Il s’agit d’un cas particulier de validation crois´ee (CV). Dans une validation crois´ee `a k folds
on d´ecompose l’ensemble des observations disponibles en k groupes de tailles homog`enes. On utilise
alors k − 1 groupes pour estimer les valeurs prises par le groupe restant, et on calcule l’erreur
d’estimation
en comparant les valeurs pr´edites aux valeurs observ´ees. Le processus est r ´e p ´e t ´e (k fois au total)
jusqu’`a ce que toutes les observations aient ´e t ´e r´eestim´ees une fois. La validation 4.3 est
donc un cas particulier de validation crois´ee avec : k = n. Comme chaque groupe ne comporte
qu’une seule observation, on parle de leave-one-out cross validation (LOOCV).

Il existe une vaste litt´erature sur le sujet de la validation crois´ee (Bengio et Grandvalet, 2004),
en particulier sur le contrˆole statistique de son biais et de sa variance. En g´en´eral, il est admis
que plus les groupes sont d’effectifs r´eduits moins l’erreur d’estimation est biais´ee, ce qui peut se
comprendre
1En th´eorie, l’ensemble des valeurs possibles de Θ est infini, et on ne peut comparer qu’un nombre fini de sets Θ ,
1
Θ2,... Θk, qui seront choisis de mani`ere a` balayer l’ensemble des hypoth`eses cr´edibles pour le ph´enom`ene a` mod´eliser.

188
intuitivement par le fait que Y−i ≈ Y et donc :

ELOOCV (xi) = f (xi, Y−i, Θ) − Z(xi) ≈ f (xi, Y, Θ) − Z(xi) = E(xi) (4.4)

En revanche, dans cette configuration, les estimateurs sont fortement corr´el´es, i.e. mˆeme pour i /= j :
f (x, Y−i, Θ) ≈ f (x, Y−j, Θ), et donc la variance de ELOOCV tend `a augmenter (Efron, 1983).

Comme bien souvent, le compromis biais-variance 1.14 sugg`ere que la configuration optimale
corre- spond `a des groupes d’effectif interm´ediaire. En pratique, la conclusion semble moins
directe, et est principalement fonction des d´ependances entre les ´echantillons observ´es. Plusieurs
travaux (Burman, 1989; Tian et al., 2007; Zhang et Yang, 2015) ont relev´e des cas o u` biais et
variances diminuent de mani`ere monotone avec le nombre de groupes utilis´es, indiquant ainsi que
le LOOCV peut ˆetre optimal.

Remarquons ´egalement que la plupart de ces consid´erations concernent la communaut´e de


l’apprentissage machine, dans laquelle les ´echantillons utilis´es peuvent bien souvent ˆetre consid´er´es
comme ind´ependants, ce qui n’est pas le cas en G´eostatistique.

En pratique, comme nous allons le voir dans l’activit´e suivante, avant de former la diff´erence 4.2,
on stocke les r´esultats dans deux vecteurs
� : Z, contenant les estimations par krigeage et Z
contenant les valeurs r´eelles observ´ees. On peut alors extraire de nombreux indicateurs de
performance :

Le coefficient de corr´elation ρ entre les �



` vecteurs Z et Z. Lorsque l’estimation est
aparfaite,
z�i = zi on
sur tous les sites, et donc ρ = 1. A l’inverse, plus ρ est proche de z´er o (il peut mˆeme
ˆetre n´egatif dans des cas particuli`erement d´efavorables) moins l’estimation est
satisfaisante. Le calcul de ρ s’accompagne souvent d’une repr´esentation graphique du nuage �
de points (zi, zi).
En R, on peut le calculer avec la commande cor(x,y). Lorsque le nombre de donn´ees est
faible et qu’on souhaite caract´eriser la corr´elation `a l’aide d’indicateurs statistiques plus
pouss´es, tels que la p-valeur qui permet de s’assurer que la corr´elation obtenue n’est pas
due au hasard, on pourra utiliser l’instruction cor.test(x,y).
• La distribution des erreurs peut s’obtenir avec un histogramme hist(E) (en supposant
que E est le vecteur contenant
� les ´ecarts zi − zi ou avec une estimation liss´ee par noyaux
( `a ma- nipuler avec pr´ecaution) : . On peut calculer de nombreux indicateurs `a
partir de density
E, notamment le biais mean(E), l’erreur L1 mean(abs(E)), le RMSE sqrt(mean(E**2)) (aussi ap-
(E)
p el´ee erreur L2), les valeurs extrˆemes min(E) et max(E), les quantiles quantile(E) et les
indices des sites contenant des erreurs anormalement ´ele v´ees which(E > 1.96*sd(E)) ( o u`
ici, le facteur 1.96 est choisi en supposant la distribution des erreurs comme ´etant
gaussienne). On pourra
´egalement repr´esenter ces erreurs sur la carte pour inspecter leur distribution spatiale. Si
les erreurs anormales sont group´ees sur la carte, cela peut ˆetre le signe d’une valeur ab
´erante dans les observations, ou bien encore de l’invalidit´e de l’hypoth`ese de stationnarit´e
du processus.

• La part de variance expliqu´ee


:
L,n
(zi − zi)2

1 L in=1
, i (z�i −
189
o u` z d´esigne la moyenne des valeurs de zi. Cet indicateur permet de mesurer le rapport de
l’erreur commise avant et apr`es l’estimation par krigeage (´etant entendu qu’avant l’estimation,

190
la meilleure pr´ediction qui puisse ˆetre faite est bien la moyenne z). Ainsi, le d
´enominateur de la fraction indique l’erreur commise si on affectait en chaque site la valeur
moyenne de tous les sites (c’est la variabilit´e intrins`eque de Z). Le num´erateur quantifie
lui l’erreur r´esiduelle.
i

• Enfin, l’erreur normalis´ee


:

|zi�− zi|
κ i= σ� i

o u`�σi designe la racine carr´ee de la variance de l’erreur d’estimation pour le site i. Le


coeffi- cient κi permet donc de mesurer pour chaque site l’ad´equation de l’estimation
effectu´ee avec son incertitude formelle (´eva lu´ee elle aussi par le krigeage). Si l’erreur zi

− zi est trop grande

relativement `a l’´ecart-type σi, cela signifie que la variance d’estimation est trop optimiste, ce
qui est le signe d’une mauvaise analyse variographique. En g´en´eral, on se contente d’examiner
la proportion p des κi sup´erieurs `a A` nouveau, ici aussi, sous l’hypoth`ese de normalit´e
1.96.
des erreurs, cette proportion ne devrait pas d´epasser 5%. Lorsque le nombre d’´echantillons est
important (typiquement plusieurs milliers, on peut aussi ´evaluer la proportion des κi sup´erieurs
`a 3, et on s’assurera qu’elle est inf´erieure `a 0.3 %. Par ailleurs, la r´epr´esentation
spatiale et fr´equentielle des κi peut permettre d’identifier des donn´ees aberrantes.

Il revient alors `a l’utilisateur de d´efinir le ou les indicateurs les plus pertinents pour son
application, afin de d´efinir une m´etrique d’´evaluation lui permettant de retenir le mod`ele le
plus performant. Par exemple, si on retient la m´etrique L1, le choix de l’hypoth`eses optimale Θ∗
se fera par :

Θ∗ = argmin 1 Ln
If (x , , Θ) − z(x )I (4.5)
Θ
n
Y i − i

o u` H = {Θ1, Θ2, ...Θk} est un ensemble r´eduit d’hypoth`eses sur lesquels on op`ere la comparaison.

Remarquons pour finir que la validation crois´ee LOOCV poss`ede un couˆ t de calcul important
(notam- ment d uˆ au fait que la matrice principale doit ˆetre invers´ee pour chaque estimation).
Dans certains cas, si le nombre de donn´ees disponibles est consid´erable, on pourra op´erer la
proc´edure de LOOCV sur un sous-´echantillon des sites.

Activit´e IX. La validation crois´ee en pratique


Dans cette activit´e, nous reprenons l’exemple d’interpolation d’un MNT ´etu d i´e dans l’activit´e
VIII et nous illustrons de mani`ere concr`ete toutes les m´etriques bri`evement pr´esent´ees ci-
dessus.

Nous commen¸cons par reconditionner le code pour l’adapter `a cette activit´e. En premier lieu,
nous r´ecup´erons la portion des instructions permettant de lire le fichier de points
d’observations et d’en transformer les coordonn´ees dans un rep`ere m´etrique local. En
particulier, pour simplifier le code, nous renommons les colonnes de la strcuture sites en x, y.

191
# Import des fichier
obs = read.csv("sample_data2.txt", sep=",", header=1)

192
# Conversion en coordonnees planes
R = 6378137.0
obs$longitude = obs$longitude*pi/180.0
obs$latitude = obs$latitude*pi/180.0
obs$longitude = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
obs$latitude = (obs$latitude - min(obs$latitude))*R

# Table des sites


sites = obs[c("longitude", "latitude")]; names(sites) = c("x","y")

# Table des observations


Z = obs["meters"]; Z = rbind(Z,0)

Nous utilisons `a pr´esent un variogramme lin´eaire de port´ee hmax = 7.7 km avec palier C = 395
m2, comme nous l’avions d´etermin´e sur la figure 2.18 et dans la section 2.4.2.

vario = function(h){
h[which(h > 7700)] = 7700; h=0.051*h
return(h)
}

La pente de γ est calcul´ee par : C/hmax = 0.051 m.

Pour simplifier la suite des manipulations, nous allons cr´eer la fonction f (x, Y, Θ) sous la forme
estimate(x,y,sites,Z), avec x un site du domaine (de coordonn´ees x, y dans le code), Y un
ensemble de semis d’observations (sites pour les coordonn´ees des sites et Z pour les observations
qui y on ´e t ´e effectu´ees) et Θ les param`etres du variogramme (qui ici n’interviennent qu’`a
travers la fonction glob- ale vario). Remarquons que, tout comme dans l’activit´e VIII, le vecteur Z
est c om p l´et´e par un 0 en pr´evision de la produit scalaire final avec le multiplicateur de
Lagrange.

estimate = function(x,y,sites,Z){

N = nrow(sites)

# Calcul de la matrice de distance


D = data.matrix(dist(sites, diag=TRUE, upper=TRUE))
D = vario(D); D = rbind(D, rep(1,N)); D = cbind(D, c(rep(1,N),0))

# Pre-calcul de l’inversion
I = solve(D)

# Distance entre les sites et (x,y)


D0 = sqrt((sites$x - x)**2+(sites$y - y)**2)
D0 = vario(D0); D0= c(D0, 1)

# Resolution
W = (I %*% D0)
return(c(sum(W*Z),sum(W*D0) - W[N+1]))

La fonction estimate retourne la valeur pr´edite par krigeage�z(x) ainsi que sa variance associ´ee.

193
Il ne reste alors plus qu’`a faire tourner une boucle sur les points du semis d’observations. Pour
chaque point (de coordonn´ees (sites$x,sites$y) et en lequel a ´e t ´e observ´e la valeur Z[i]), on r
´eestime la valeur prise par Z `a partir des donn´ees amput´ees du site i : sites[-i] et Z[-i].

Script 10. La validation crois´ee en pratique [code8.r]

N = nrow(sites) zhat = rep(0,N) variance = rep(0,N) for (i in 1:N){


pourcent = floor(100*i/N)
cat("Computing interpolation : ",min(pourcent,100), "%\r") prediction = estimate(sites$x[i], sites
variance[i] = prediction[2]
}
zvrai = Z[1:N,] e = zvrai-zhat cat("\r\n")
cat("Cross validation done\r\n")

A` l’issue de l’ex´ecution de ce morceau de code, les vecteurs zvrai et zhat contiennent respectivement
le observations (r´eelles) des N sites et les valeurs r´eestim´ees par krigeage. Id´ealement, on
souhaite que ces deux vecteurs soient les plus similaires possibles. On forme alors leur diff´erence e
= zvrai-zhat, le vecteur d’erreur. Remarquons que le calcul peut prendre un certain temps. Il est
conseill´e en premier lieu d’utiliser un jeu de donn´ees ne contenant pas plus de 500 observations.
Nous avons alors tous les outils n´ecessaires pour ´etudier la pr´ecision de la proc´edure
d’interpolation de l’activit´e VIII.
0
.

●●
●●●
● ● ●
● ●



●●


80



●●

●●
Freque

●●
550600650700

0
Den


.
60

●●● ●
z

●●
●●
●● ●
● ●
●●●
● ●●
40

● ●●
●●●● ●
●●●
●●●
●●●
0
.

●●

● ●●
20

●●●
●●●● ●
● ●●● ●
●●

●●●●●●●
●●●
●●●
0


●●●●
0
.

● ●
●●
● ●●
●●●
●●●●●
●●●
●●●●

550 600 650 700 −15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 15


●●●
●● ●
● ●●●●
●●●●●
●●●●●
●●
●●

zvrai e N = 432 Bandwidth = 0.3117


●●●
●●●
●●●●
●●●●●
●●

Fig. 4.1.
A` gauche : droite de corr´elation entre les valeurs r´eelles (en abscisse) et pr´edites par
krigeage (en ordonn´ee). Au centre : histogramme des erreurs d’estimation pour k = 30 classes.
A` droite : densit´e de probabilit´e des erreurs d’estimation.

En premier lieu, on commence par repr´esenter le nuage de points (zi, z�i), `a l’aide de l’instruction
plot(zvrai, zhat, pch=16, cex=.5). Pour aider la visualisation, on peut ´egalement repr´esenter
la premi`ere bissectrice du rep`ere : lines(1:max(zvrai), 1:max(zvrai), lty=2).

194
Alternativement, on peut repr´esenter l’histogramme2 des erreurs hist(e,k), o u` k d´enote le nombre
de classes souhait´ees, ou la densit´e des erreurs plot(density(e)) .

Remarquons que la densit´e de probabilit´e des erreurs est calcul´ee par la m´ethode des noyaux
(Rosen- blatt, 1956; Parzen, 1962), qui s’apparente un peu `a ce qui a ´e t ´e fait dans l’activit´e VI :
les donn´ees sont liss´ees `a l’aide d’une fonction gaussienne. La largeur du noyau est un
param`etre c l´e de la proc´edure, et est d´etermin´ee `a partir des donn´ees (Nadaraya,
1965). Dans le cas des donn´ees du fichier sample data2.txt, le noyau de lissage de la figure 4.1 a
une largeur de 0.31 m environ. Plus le nombre de donn´ees augmente, plus le noyau a tendance `a
ˆetre compact et moins les donn´ees sont liss´ees par l’estimateur de la densit´e.

On peut alors calculer 4 indicateurs int´eressants : le biais (3 cm), la moyenne des erreurs non-sign
´ees (1.17 m), la racine carr´ee de l’erreur quadratique moyenne (2.25 m) et le coefficient de corr
´elation (99.87 %). L’´ecart important r´esidant entre l’erreur L1 et l’erreur L2 indique la pr
´esence d’outliers dans l’estimation (i.e. d’erreurs anormalement grandes), qu’il faudra investiguer par
la suite. La faible valeur de biais confirme que la contrainte d’universalit´e du krigeage a bien ´e t ´e
respect´ee.

bias = mean(e) # Biais


emoy = sqrt(mean(abs(e))) # Erreur L1
rmse = sqrt(mean(e**2)) # Erreur
L2 rho = cor(zvrai, zhat) # Biais

On peut ´egalement calculer la part de variance expliqu´ee (99.7 %) :

var_explained = 1-mean(e**2)/var(zvrai)

On recherche dans un second temps les erreurs anormalement ´elev´ees, c’est-`a - dire les indices des
points en lesquels l’erreur d’estimation est sup´erieur `a 1.96 fois l’´ecart-type des erreurs. On repr
´esente alors la distribution spatiale de ces sites (par rapport `a tous les autres sites) pour rechercher
un motif singulier.

id = which(e > 1.96*rmse)


plot(sites, pch=3); points(sites[id,], pch=16)


● ●
1
1
5
100015002000

e
y


0

● ●


−10−5



0500

0 500 1000 1500 550 600 650 700

x zvrai

Fig. 4.2.
A` gauche : r´epartition des sites l’erreur d’estimation est anormalement ´e l e v´e e (en
ou`
losange plein). A` droite : ´evolution de l’erreur en fonction de la valeur vraie.
2
La fonction hist permet a` la fois le calcul et le trac´e de l’histogramme. La fonction density en revanche, n´ecessite
d’ˆetre compl´et´ee par un appel a` plot.

195
On trouve 10 sites en lesquels l’erreur est sup´erieure `a 1.96 × rmse = 4.42 m. La figure 4.2 ( `a
gauche) en particulier, montre que les points concern´es sont situ´es en bord de domaine, ce qui
explique les
erreurs observ´ees. On note cependant deux clusters de points, au milieu `a gauche, et en bas `a
droite, ce qui peut inciter `a aller v´erifier si un des points voisins n’a pas ´e t ´e mal saisi.

Il peut ˆetre instructif ´egalement de r´epr´esenter les erreurs commises en fonction de la valeur vraie
(fig. 4.2 `a droite) avec la commande plot(zvrai, e). Sur ce graphique, on observe que l’erreur est en g
´e n´e r a l d’autant plus ´e le v´ee que la valeur `a estimer est elle-mˆeme ´elev´ee. On parle d’effet de
proportionnalit´e (Wackernagel, 2013b).

On peut g´en´eraliser le principe du graphique de gauche de la figure 4.2. Puisqu’on connaˆıt


l’erreur commise en chaque site xi du domaine, on peut calculer une estimation par krigeage de
l’erreur sur l’ensemble du domaine. Pour connaˆıtre l’erreur en un site (x,y) quelconque, on cherche
`a inter-
poler les observations d’erreurs : e(xi) = z(x
� i) − z(xi). Pour ce faire, il suffit d’appeler la fonction
estimate(x,y,sites,E), o u` E est un vecteur analogue `a Z, dans lequel les valeurs d’altitudes sont rem-
plac´ees par les erreurs d’estimations calcul´ees par la validation crois´ee. On donne ci-dessous (fig.
4.3) les r´esultat obtenu.

On v´erifie que l’erreur est `a peu pr`es homog`ene `a l’int´erieur du domaine. En particulier, les
zones o u` l’erreur est la plus faible (en jaune orang´e) correspondent aux zones de plus forte densit
´e de points.
1

+6.0 krigeage ppv


1

+4.0
0

+2.0
1

Dens

0.0
1

-2.0
1

-4.0
8
0

-6.0
0
6
0

Erreur (m) −15−10−5 0 5 10 15


200 400 600 800 1000 1200 1400

E (m) Erreur (m)

Fig. 4.3. A` gauche : interpolation par krigeage ordinaire des erreurs calcul´ees par validation crois´ee.
Le semis de points d’observations est repr´esent´e par des croix. A` droite : densit´es des erreurs
commises par le krigeage (en trait plein) et par la m´ethode des plus proches voisins (en pointill
´e)

On peut ´egalement comparer les r´esultats obtenus avec une m´ethode d’interpolation d´eterministe,
par exemple celle du plus proche voisin (ppv), qui consiste `a affecter en un site x, la valeur observ
´ee Z(xi) du site i le plus proche de x. Ici, on ne cherche pas `a effectuer l’interpolation ppv sur tout
le champ mais seulement au niveau des sites. Pour ce faire, on commence par ´ecrire une fonction
argmin prenant en entr´ee un vecteur de nombres et retournant l’indice du minimum :

argmin = function(x){return(which.min(as.vector(x)))}

Par exemple, si x = c(5,8,7,6,4,1,2,4,8,6), alors argmin(x) va retourner la valeur 6, correspondant


`a l’indice de x[6] = 1 qui est bien le minimum de la s´erie. Notons que si x contient en plusieurs
exemplaires le nombre qui r´ealise le minimum, alors a fonction retourne arbitrairement le plus
petit indice de ces nombres.

On calcule par la
suite la matrice des distances entre tous les sites : M =
data.matrix(dist(sites)). Ainsi, le vecteur ligne M[i,] contient les distances s´eparant le site xi `a
196
tous les autres sites. En passant ce vecteur dans la fonction argmin on doit pouvoir r´ecup´erer le
site le plus proche. Mais il faut ˆetre vigilant : les entr´ees diagonales de la matrice M valent 0, et
donc l’application directe de argmin `a M[i,]

197
va n´ecessairement renvoyer l’entier i (en supposant qu’il n’y a pas deux sites confondus). On va donc
artificiellement augmenter la diagonale de M, par exemple en posant :

M[which(M == 0)] = max(M)+1

qui va avoir pour effet de : (1) r´ecup´erer la distance maximale entre deux sites, (2) l’incr
´ementer d’une unit´e, et enfin (3) d’affecter le r´esultat obtenu aux ´el´ements diagonaux de M. De
cette mani`ere,
l’instruction argmin(M[i,]) renverra bien le site xj (avec j /= i) le plus proche de xi. La proc´edure de
validation crois´ee de la m´ethode ppv est alors imm´ediate, en bouclant sur les sites :

eppv = rep(0,N)

for (i in 1:N){
eppv[i] = Z[argmin(M[i,]),]-Z[i,]
}

En effet, si argmin(M[i,]) est l’indice du ppv de xi, alors, Z[argmin(M[i,]),] est l’estimation fppv(xi,
Y−i) de z(xi) `a partir des donn´ees Y dont on a supprim´e la i-eme ligne. Il ne reste alors plus qu’`a
repr´esenter
(sur la m ˆe m u` e les histogrammes liss´es des vecteurs d’erreur e et eppv :

plot(density(e))
lines(density(eppv), lty=2)

Le r´esultat obtenu est donn´e en figure 4.3 ( `a droite). En particulier, on peut comparer le
RMSE de la proc´edure de krigeage (2.25 m pour m´emoire) avec celui du ppv : 7.36 m, ce qui
montre la nette sup´eriorit´e du krigeage, y compris avec un choix arbitraire de variogramme. De
mˆeme, on remarque que contrairement au krigeage, la m´ethode ppv est significativement biais
´ee (-1.13 m), ce qui peut probablement s’expliquer par la g´eom´etrie particuli`ere des sites sur la
surface du terrain.

Inspectons `a pr´esent la variance formelle de l’erreur d’estimation. Pour ce faire, on commence


par former le vecteur κ des r´esidus normalis´es : kap = e/sqrt(variance). On cherche alors les
outliers, avec la commande which(kap > 1.96), qui retourne un vecteur de 14 ´el´ements, ce qui
signifie que 96.7% des erreurs sont comprises dans l’intervalle de confiance th´eorique `a 95%, sugg
´erant ainsi que les incer-
titudes formelles ´eval u´e es par le krigeage sont relativement A` nouveau, une repr´esentation
fiables.
graphique similaire `a celle de la figure 4.2 permet de mettre en ´evidence le fait que les sites concern
´es sont situ´es en bord de domaine. Ici aussi, on identifie la pr´esence de deux clusters de valeurs
erron´ees.
0
2


● ● ●
0
.
1

0
.
Den
(m
N


0


.

● ●
0
.



0


.
0

0 500 1000 1500 −5 0 5

E (m) Erreur (m)

Fig. 4.4. A` gauche : r´epartition des sites o u` l’erreur d’estimation est anormalement ´elev´ee (κ ∈
198
[1.96; 3[ en bleu et κ � 3 en rouge). A` droite : distribution des erreurs normalis´ees κ.

199
4.2 Application `a l’optimisation bay´esienne
Dans cette section, nous allons pr´esenter une utilisation concr`ete du krigeage pour trouver le
maximum d’une fonction een minimisant le nombre d’observations effectu´ees.

4.2.1 Introduction
Formellement, on se donne une fonction inconnuep f : X → R, o u` X repr´esente l’espace des
param`etres de la fonction. En g´e n´e r a l X ⊆ R . On note f ∗ la valeur optimale de f , et x∗ un
param´etrage de X qui permet d’atteindre f :

x∗ argmax f (x) f ∗ = f (x∗)


∈ x∈X

Dans la suite nous supposerons que est un domaine b orn´e de Rp, et que la fonction f est
continue, si bien que x∗ existe et f∗ X
a une valeur finie. L’objectif du probl`eme consiste `a trouver
le param´etrage
optimal x∗ en minimisant le nombre n d’observations .
La d´emarche employ´ee ici consistera, pour chaque it´eration, `a analyser les n observations
effectu´ees jusque lors, `a affiner les informations disponibles sur f , puis `a choisir un nouveau
point xn+1 `a ob- server. Nous verrons par la suite que le choix de xn+1 peut r´epondre `a
plusieurs crit`eres diff´erents, mais en r`egle g´en´erale, il vise `a r´epondre `a 2 exigences
compl´ementaires :

• Exploitation : on cherche `a positionner xn+1 dans une zone `a fort potentiel, i.e. dans une
zone o u` ont d´ej`a ´e t´e observ´ees des valeurs ´elev´ees de f .

• Exploration : on veut avoir une connaissance grossi`ere du paysage f (X ), ce qui n


´ecessite de positionner des sites d’observations dans les zones peu connues.

De mani`ere plus concise, on cherche `a placer l’observation xn+1 dans des zones qui sont `a la
fois prometteuses et peu observ´ees. Nous verrons que ces deux objectifs en apparence
contradictoires peuvent ˆetre combin´es de mani`ere ´el´egante `a l’aide des fonctions dites de
bande de confiance.

Le probl`eme du bandit manchot constitue certainement le probl`eme mod`ele le plus simple : un


joueur se trouve face `a une rang´ee de machines `a sous, qu’il peut utiliser N fois, en r
´epartissant ses essais de la mani`ere qu’il souhaite entre les diff´erentes machines. Chaque
machine poss`ede une esp´erance de gain fix´ee et inconnue du joueur. Quelle strat´egie le joueur
doit-il adopter pour maximiser ses gains ?

Il est int´eressant de remarquer que cette strat´egie de compromis exploitation/exploration


(parfois aussi appel´ee intensification/diversification) est pr´esente dans de nombreux processus
naturels. Par exemple, en g´en´etique, la th´eorie de Darwin nous enseigne que seules les
g`enes les plus adapt´es
`a l’environnement survivent aux g´en´erations suivantes, ce qui constitue une forme
d’exploitation, compl´et´ee par l’exploration des mutations al´eatoires. Les strat´egies de chasse et
de recherche de nour- riture de nombreuses esp`eces animales sont ´egalement fond´ees sur ce
principe (Mehlhorn et al., 2015).

Puisque le choix du plan d’exp´erience est fait simultan´ement `a la proc´edure d’interpolation, on


parle d’optimisation s´equentielle. Par ailleurs, le processus de recherche consiste `a consid´erer f
200
comme une fonction al´eatoire, puis `a inf´erer ses param`etres de mani`ere it´erative avec les
donn´ees disponibles au fil de l’eau, d’ou` l’appellation d’optimisation bay´esienne.

201
Remarquons que si on cherche `a minimiser la fonction f , toutes les consid´erations qui suivent peuvent
ˆetre transpos´ees sans probl`eme en consid´erant la fonction g = −f .

Donnons en premier lieu quelques exemples concrets motivant le recours `a l’optimisation s´equentielle.

• Dans le domaine des essais cliniques, on peut souhaiter d´eterminer un protocole de soin optimal
pour traiter une maladie. Chaque protocole est d´efini par un certains nombre de
param`etres (composition et grammage du m´edicament, posologie, soins annexes...) et la r
´eponse du patient est mesur´ee `a l’issue du traitement. De par la nature statistique des
´evaluations, chaque test n´ecessite plusieurs dizaines de patients, et un temps consid
´erable pour suivre le protocole et analyser les r´esultats. Dans ces conditions, il n’est pas
envisageable de tester tous les proto- coles possibles, et l’optimisation bay´esienne nous
permettra de d´efinir s´equentiellement un plan
d’exp´erimentation X = {x1, x2,. . .xn}, de sorte `a trouver un protocole quasi-optimal x∗ ∈ X.
• En ing´eni´erie, et en particulier dans l’´etude de la r´esistance des mat´eriaux, chaque exp
´erimentation peut n´ecessiter la destruction d’un ouvrage, occasionnant ainsi des frais colossaux
pour l’entreprise. Par exemple, trouver la structure x d’un v´ehicule permettant de limiter les d
´e g ˆa t s caus´es par un choc frontal, n´ecessite de sacrifier n v´ehicules avec diff´erentes
structures x1, x2,... xn, et
´evaluer dans chaque cas les d´e g ˆa ts caus´es f (x1), f (x2),... f (xn). On comprend alors ais
´ement l’importance de minimiser le nombre n d’exp´erimentations.

• En ing´eni´erie logicielle ou dans la recherche scientifique, on peut chercher `a optimiser les


per- formances d’un code f travaillant `a partir d’un ensemble x d’arguments. Si le
programme est relativement long `a ex´ecuter, on ne peut raisonnablement pas tester f pour
tous les arguments x possibles. Ici aussi, l’optimisation s´equentielle permettra de trouver un
param´etrage satisfaisant du code tout en minimisant le temps de conception. On parle
d’hyper-param´etrage.

D’une mani`ere g´en´erale, l’optimisation bay´esienne est un outil de choix dans tous les probl`emes de
recherche dans un espace dans lequel la collecte d’informations est longue, couˆteuse ou risqu´ee.

4.2.2 Principe
Pour illustrer la m´ethode, nous prendrons l’exemple d’une fonction f `a une dimension, dont nous
supposerons disposer de 3 observations z1, z2 et z3 en trois points donn´es x1, x2 et x3.
2


0


f



0 200 400 600 800 1000

Fig. 4.5. Une fonction uni-dimensionnelle f et trois ´echantillons al´eatoires x1, x2, x3 ∈ X .
202
Dans un premier temps nous consid´ererons que ces observations ne sont pas entˆa ch´ees
d’erreurs, autrement dit on a les ´egalit´es exactes zi = f (xi) pour i = 1, 2, 3. Par ailleurs, on
suppose avoir un mod`ele de variogramme γ caract´erisant le processus stochastique dont f est
une r´ealisation.

Connaissant γ ainsi qu’un semis de points d’observations, on peut caluler une estimation de f par
krigeage en tout point du domaine X . On note f� cette estimation et σ l’´ecart-type de l’erreur
d’estimation. Insistons bien sur le fait que f et
� σ sont des fonctions d´efinie sur le mˆeme support
que f . On les repr´esente sur la figure 4.6
2


0


f



0 200 400 600 800 1000

Fig. 4.6. La fonction f inconnue (en pointill´e noir), son estimation �f par krigeage `a l’aide
des 3 premiers points de donn´ees (en rouge) et la bande de confiance asscoi´ee (en vert).

On forme alors deux fonctions, traditionnellement not´ees U (pour UCB ou Upper Confidence Band
) et L (pour LCB ou Lower Confidence Band ) :

U (x) = f�(x) +
qσ(x) (4.6)
L(x) = f�(x) −
qσ(x)

o u` q > 0 est un coefficient de suret´e. Plus q est grand, plus la marge d’erreur to l´er´ee est
grande. La zone comprise entre les courbes L et U est appel´ee la bande de�confiance de f :
pour un point x donn´e quelconque, la valeur vraie de f (x) appartient `a l’intervalle [L(x); U (x)]
avec une probabilit´e d´ependant uniquement du coefficient de suret´e. En particulier, sous
l’hypoth`ese normale et pour q = 1.96, cette probabilit´e vaut 95%.

On choisit alors un point x4 qui maximise la bande de confiance sup´erieure, autrement dit, on
cherche le site qui a le plus haut potentiel : x4 = 732 (ligne verticale pointill´ee sur la fig. 4.6). On
mesure alors la valeur prise par la fonction en x4 et on ajoute cette nouvelle donn´ee aux
observations, ce qui permet d’effectuer une nouvelle estimation par krigeage de f , puis d’en d
´eduire un nouveau point x5 et ainsi de suite.

Formellement, l’algorithme effectue `a chaque it´eration les op´erations suivantes :

• Calcul de fk,�l’estimation par krigeage effectu´ee `a l’aide des k premiers points observ´es, et de
σk, l’´ecart-type correspondant.
203
• D´etermination du point `a observer `a l’´etape suivante :

xk+1 argmax fk(x) + qσk(x) (4.7)


�∈
x∈X

• Calcul de f (xk+1) et ajout dans les donn´ees.

L’algorithme est initialis´e en tirant 2 ou 3 sites al´eatoirement et se termine lorsque l’une des
conditions suivantes est remplie :

• L’algorithme a converg´e, i.e. la distance (dans X ) s´eparant deux points cons´ecutifs est inf´erieure
`a un crit`ere pr´ed´etermin´e : ||xk+1 − xk|| :( ε.
• Le nombre maximal d’it´eration a ´e t ´e atteint.

• Une valeur f (xk) satisfaisante a ´e t ´e obtenue.

La figure 4.7 illustre le d´eroulement de 6 it´erations de l’algorithme `a partir de l’´evaluation des 3


pre- miers points. Pour un crit`ere d’arrˆet fix´e `a ε = 1, la convergence est atteinte en x10 = 579,
soit apr`es 10 ´evaluations de la fonction objectif f . La position du maximum vrai de la
fonction est x∗ = 578,
et l’erreur commise par l’algorithme est de l’ordre de la tol´erance ε. L’erreur sur f ∗ , rapport´ee `a
l’amplitude de f , est de l’ordre de 0.02%. Pour obtenir un r´esultat d’une qualit´e ´equivalente avec une
recherche exhaustive, il aurait fallut de l’ordre d’un millier d’´evaluations de la fonction objectif.

● ● ●
● ●
2

● ●

● ●
−6−4−20

● ● ● ●
● ●
2

● ●
● ●

● ●
−6−4−20

● ● ●

● ●
● ● ● ●
● ●
2

● ●
● ●

● ●
−6−4−20

0 200 400 600 800 1000 0 200 400 600 800 1000

Fig. 4.7. 6 it´erations de l’algorithme (apr`es ´evaluations des 3 premiers points) pour un
variogramme gaussien de port´ee 100 et un coefficient de suret´e q = 3.

On remarquera que le coefficient de suret´e q est un pond´erateur entre les strat´egies


d’exploitation et d’exploration. Lorsque q est faible, la bande de confiance est relativement
compacte autour de l’estimation, et les zones `a fort potentiel ont tendance `a ˆetre des zones o u`
l’estimation est elle-mˆeme
´elev ´ee.
204
A`
l’extr
ˆeme,
si q =
0, et
l’´equ
ation
4.7 d
´e g
´e n`e
r e en
une
recher
che
du
point
maxi
misan
t

205
l’estimateur f� sans tenir compte de l’incertitude σ. L’algorithme a ainsi tendance `a ´echantillonner les
zones de valeurs ´elev´ees, et donc `a favoriser A
l’inverse, quand q → ∞,
est pr´epond´erante dans le calcul de la bande U , l’algorithme ne tient plus compte de �
l’estimateur f et adopte une strat´egie purement exploratoire.

A` ce titre il est instructif de rejouer le sc´enario d’optimisation de la figure 4.7 pour un coefficient de
suret´e q = 2. Le r´esultat est repr´esent´e sur la figure 4.8 et montre que l’algorithme converge
vers la mˆeme valeur optimale, mais suivant un sch´ema diff´erent. En particulier, il commence
par exploiter plus intensivement la premi`ere zone prometteuse (aux alentours de x = 800) avant
d’explorer la zone contenant le maximum final. La convergence est dans ce cas l´eg`erement plus
longue et est atteinte apr`es 12 ´evaluations de f .


2

● ● ● ●


−6−4−20

● ●●
2


● ●●


−6−4−20

● ● ● ●●


● ●● ● ●●
2

● ●

● ●
−6−4−20

0 200 400 600 800 1000 0 200 400 600 800 1000

Fig. 4.8. 6 it´erations de l’algorithme (apr`es ´evaluations des 3 premiers points) pour un variogramme
gaussien de port´ee 100 et un coefficient de suret´e q = 2.

4.2.3 Pour aller plus loin...


Plusieurs am´eliorations peuvent ˆetre apport´ees `a l’algorithme.

Crit`ere de choix de xk+1


La recherche du nouveau site `a exploiter xk+1 se fait en maximisant une fonction analytique g, estim´ee
`a partir des k premi`eres donn´ees. Ci-dessus, nous avons utilis´ee la fonction g(x|x1, x2, ...xk) = U
(x), o u` U (x) est d´efinie de mani`ere implicite par l’´equation :

P[f (x) :( U (x)|x1 , x2, ...xk] = α

206
avec α une marge de confiance, d´ependant de q.


On peut utiliser d’autres crit`eres, en notant f k le maximum courant de f trouv´e `a l’it´eration
k et en d´efinissant la fonction g par

• Probability of improvement :


g(x|x1 , x2, ...xk) = P[f (x) � f k |x1 , x2, ...xk]

Maximiser g revient donc `a trouver le point xk+1 du domaine tel que la probabilit´e que la
valeur prise par f en xk+1 soit sup´erieure au maximum courant est la plus grande possible.

• Expectancy of improvement :


g(x|x1 , x2, ...xk) = E[f (x) − f k |x1 , x2, ...xk]

Maximiser g revient `a trouver le point xk+1 du domaine tel que le gain moyen sur f par rapport
au maximum courant soit le plus grand possible.

Remarquons que, contrairement `a la d´efinition g(x) = U (x), dans les deux alternatives ci-
dessus, la fonction g d´epend directement du maximum courant. On pourra trouver plus de d
´etails sur ces diff´erents crit`eres dans Snoek et al. (2012).

Bruit d’observation

Lorsque les mesures effectu´ees sont bruit´ees, c’est-`a - dire que les donn´ees disponibles sont zi = f (xi)±ση
o u` ση est un bruit inh´erent au processus d’observation, on peut utiliser un variogramme `a p´epite,
comme illustr´e sur la figure 4.9. La variance d’estimation de f n’est donc jamais nulle, y compris au
niveau des points d’observations o u` elle est justement ´egale `a la valeur de la p´epite.

● ●
2

● ●
f

● ●
−6−4

−6−4

0 200 400 600 800 1000 0 200 400 600 800 1000

x x

Fig. 4.9. Proc´edure d’optimisation bay´esienne `a partir de 3 ´echantillons observ´es et avec


un vari- ogramme gaussien de p´epite η = 1% ( `a gauche) et η = 5% ( `a droite).

207
Activit´e X. Optimisation bay´esienne par krigeage
Dans cette activit´e nous utilisons une fonction f , ´echantillonn´ee en 1000 points et g´e n´e r´e e al´eatoirement
`a l’aide de la fonction generate, d´efinie dans l’activit´e VI et d’un noyau gaussien h d’´ecart-
type 100. E´ crire le code R permettant de trouver le maximum de f `a l’aide de l’optimisation bay
´esienne. On utilisera pour ce faire un mod`ele de variogramme gaussien de port´ee 100, un
nombre maximal de 10 it´erations et un crit`ere de convergence fix´e `a ε = 1.

Le code solution ne sera pas pr´esent´e ici, puisqu’il s’agit d’un assemblage de modules d ´e j `a
expliqu´es dans les activit´es pr´ec´edentes. On pourra trouver une correction dans le fichier
code9.r.

4.3 Simulations
Nous avons vu pr´ec´edemment dans la section 3.5.4 que l’interpolation par krigeage d’un semis
de points d’observations produit syst´ematiquement des fonctions plus lisses que les r´ealisations
typiques du processus ayant g ´e n ´e r ´e le semis. Cet effet ´etait particuli`erement visible sur les
figure 3.11 et 3.12.

Or dans certaines probl´ematiques (dont nous donnerons des exemples concrets par la suite), il
est important de pouvoir disposer d’une reproduction fid`ele des r´ealisations. C’est justement ce
que pro- posent de faire les simulations. Notons qu’il existe deux types de simulations :

• La simulation non-conditionnelle permet, moyennant la connaissance d’un mod`ele de vari-


ogramme, de g´en´erer un nombre arbitraire de r´ealisations du processus sur un domaine D.

• La simulation conditionnelle permet, moyennant la connaissance d’un mod`ele de


variogramme et d’un semis de points d’observations, de g´e n´e r e r sur un domaine D un
nombre arbitraire de r´ealisations du processus co¨ıncidant toutes au niveau des points du
semis d’observations.
1
0

1
0
5

● ●
0

● ●
O

● ●


5

5


1

200 300 400 500 600 700 800 900 200 300 400 500 600 700 800 900

SITES SITES

Fig. 4.10.
A` gauche : 5 simulations non-conditionnelles. A` droite : 5 simulations conditionn´ees aux
3 points de donn´ees : y(300) = 1, y(500) = 5 et y(800) = −3. Dans les deux cas, un variogramme
gaussien de port´ee 100 et de p´epite d’´ecart-type 0.5 a ´e t ´e utilis´e.

Notons que la distinction entre ces deux types de simulation est arbitraire et `a vocation
uniquement p´edagogique : une simulation non-conditionnelle n’est autre qu’une simulation
208
conditionn´ee `a un en- semble vide d’observations. Malgr´e tout, les contextes n´ecessitant le
recours `a l’un ou l’autre de ces

209
types ´etant en g´e n´e r al assez diff´erents, nous maintiendrons cette distinction dans la suite du cours.

En th´eorie le domaine peut ˆetre discret (e.g. un semis de points, une grille r´eguli`ere...) ou
D
continu (e.g. un sous-domaine de R, R2...). N´eanmoins, d’un point de vue informatique, toutes les
quantit´es adressables en machine ´etant n´ecessairement finies, toute simulation sur un support
continu devra au pr´ealable passer par une discr´etisation de r´esolution aussi fine que les capacit
´es de calculs le perme- ttent. Ainsi, par exemple, la simulation d’un MNT se fait en g´en´e ra nt
une collection de variables al´eatoires (corr´el´ees via le variogramme γ) sur un semis de points
d’observations en forme de grille r´eguli`ere.

Remarquons ´egalement que nous avons d ´e j `a effectu´e des simulations au d´ebut du chapitre 3,
plus sp´ecifiquement dans l’activit´e VI. Notamment, la figure 3.3 pr´esentent des exemples de
simulations conditionn´ees3 `a trois points observ´es.

4.3.1 Simulation non-conditionnelle


On consid`ere le probl`eme suivant : disposant du mod`ele de variogramme γ d’un processus Z d
´efini sur un domaine D, comment simuler al´eatoirement des r´ealisations z ?

Comme pr´ecis´e en introduction, on commence n´ecessairement par discr´etiser le domaine D,


et nous noterons x1, x2,...xn ∈ D les sites ne lesquels on souhaite simuler Z.

Une solution intuitive pourrait consiter `a proc´eder it´erativement et de mani`ere similaire `a ce


que nous avons vu dans la section traitant de l’optimisation bay´esienne. Supposons que nous
soyons capable de simuler Z sur les k premiers sites. En utilisant ces k valeurs g ´e n ´e r ´e e s
comme un semis de points d’observation, on peut calculer une estimation zk+1 par krigeage de la
valeur prise par le processus sur le (k + 1)-eme site. Grˆace `a la nature probabiliste du krigeage,
l’estimateur
variance dez� k+1 est accompagn´e d’une
l’erreur d’estimation k . Informellement, cela signifie que pour ˆetre coh´erente
k premiers tirages, la valeur en xk+1 doit ˆetre distribu´ee suivant une loi normale de moyenne z�k+1 et
de variance k
. Il suffit donc de g´e n´e re r : zk+1 ∼ N
). On ajoute ce nouveau point
observations etk on(z� continue
k + 1 , σ ainsi de suite jusqu’`a avoir simul´e Z sur tous les sites. L’algorithme est
2

initialis´e en tirant arbitrairement la valeur du premier site : z1 ∼ N (0, γ(∞)).

Cette m´ethode poss`ede l’avantage d’ˆetre conceptuellement simple et facilement interpr´etable,


mais requiert un couˆt de calcul particuli`erement ´e l e v´e : chaque nouvelle simulation ponctuelle zk
n´ecessite de calculer une estimation par krigeage `a partir des k 1 points pr´ec´edents. Le couˆ t
d’une estimation ponctuelle par krigeage ´etant un Θ(k − 3), on en d´eduit la complexit´e de la proc
´edure :

n
L
C(n) = Θ(k3) = Θ(n4)
k=1

Le couˆ t d’une simulation ´evolue donc comme la puissance quatri`eme du nombre de sites `a
simuler, ce qui est consid´erable. Il est possible de le r´eduire `a l’aide des techniques de voisinage
glissants. C’est en particulier l’approche employ´ee par la bibiloth`eque gstat que nous allons utiliser
`a la fin de ce chapitre.

Dans un but p´edagogique, nous pr´esentons ici une m´ethode purement alg´ebrique permettant de
simuler les valeurs prises par tout les sites simultan´ement, moyennant l’hypoth`ese que le champ
soit station- naire, et qu’il soit donc possible de manipuler sa fonction de covariance. Pour ce faire,
nous allons
3
Pour abr´eger le temps de calcul, nous avions autoris´e une tol´erance ε, impliquant ainsi que les simulations ne
210
passent pas exactement par les points conditionnants. Formellement, on peut consid´erer qu’il s’agit d’une simulation
conditionnelle d’un processus a` variogramme p´epitique.

211
avoir recours au th´eor`eme 12 de propagation des variances : si A est une matrice de Rm×n et X ∈ Rn
un vecteur al´eatoire de matrice de covariance Σ, alors Y = AX a pour covariance AΣAT .

Soit Σ la matrice de terme g´en´er al (Σ)ij = γ(0) − γ(hij) avec hij = ||xi − xj ||. Comme γ est
parfaite- ment connu, le calcul de la matrice Σ ne pose aucun probl`eme.

On pose X un vecteur de n nombres al´eatoires ind´ependants et identiquement distribu´es


suivant une loi normale standard. La matrice de covariance de X est ΣX = In, la matrice identit´e
d’ordre n.

Enfin, consid´erons A ∈ Rm×n une matrice quelconque de r´eels. Le produit Y = AX est une variable al
´eatoire et sa matrice de covariances vaut :

ΣY = AΣXAT = AAT

Donc, pour que la variable Y ait pour matrice de covariances Σ, il faut et il suffit que Σ = AAT ,
autrement dit, on souhaite que A soit une d´ecomposition de Cholesky de Σ.

Th´eo r`e me 42 (Factorisatsation de Cholesky)

Soit A une matrice sym´etrique d´efinie-positive.Alors elle admet une factorisation de


Cholesky, i.e. il existe une matrice L triangulaire inf´erieure telle que :

A = LLT

La matrice L est en quelques sortes une racine carr´ee de A.

La matrice Σ ´etant une matrice de covariance, elle est sym´etrique d´efinie-positive 4, et on peut
donc en extraire une d´ecomposition de Cholesky. Nous avons donc une m´ethode cl´es en main
pour simuler le processus en n sites. On en donne les ´etapes ci-dessous :

• Former la matrice de covariance Σ entre les n sites ( `a l’aide de la fonction de covariance ou


du variogramme γ). C’est une matrice carr´ee de taille n.

• Calculer sa d´ecomposition de Cholesky, i.e. trouver une matrice L telle que : Σ = LLT . Cette
´etap e s’effectue `a l’aide des bibiloth`eques de calcul matriciel, disponibles dans tous les
langages de programmation. En particulier, en R on utilise la fonction chol.

• Calculer le vecteur Z = LX

Et c’est tout ! On sait d’apr`es ce qui p r´e c`e d e que Z est un vecteur dont la covariance est celle
prise par le processus au niveau des sites `a simuler. Voyons cela en pratique dans l’activit´e qui
suit.

4
D’ou` l’importance de mod´eliser le variogramme avec une fonction licite, i.e. une fonction conditionnellement d´efinie-
n´egative, comme nous l’avons vu dans la section 2.4.5.
212
Activit´e XI. Une premi`ere simulation
On se place en 1D, avec un variogramme lin´eaire avec palier (port´ee 100) :

vario = function(h)
{ h[which(h > 100)] = 100
return(h)
}

On c r ´e ´e alors une fonction C qui transforme le variogramme en covariance :

C = function(h){
return(100-vario(h))
}

On c r ´e ´e ensuite 500 sites r´eguli`erement espac´es, puis on calcule les distances (le long de la droite r
´eelle) entre ces sites et on forme la matrice de covariances D :

x = 0:500; n = length(x)
D = C(data.matrix(dist(x, diag=TRUE, upper=TRUE)))

Le coeur de la simulation r´eside alors en trois lignes : la g´en´eration du vecteur normal X, la d


´ecomposition de Cholesky L et le produit matriciel LX.

Script 11. Une premi`ere simulation [code10.r]

X = rnorm(n,0,1) L = chol(D)
Z = t(L) %*% X

Il ne reste plus qu’`a tracer le processus simul´e avec l’instruction plot(x,Z,type="l"). La figure
4.11 illustre une des simulations obtenues.
1020
Z

−100
−20

0 100 200 300 400 500

Fig. 4.11. Simulation non-conditionnelle d’un processus stochastique de variogramme lin´eaire avec
palier et port´ee hmax = 100. Calcul r´e a l i s´e par factorisation de Cholesky.

Remarquons que cette simulation n’a ´e t ´e effectu´ee qu’avec les fonctions de la librairie standard de R.
Aucun appel `a une biblioth`eque externe n’a ´e t ´e requis. N´eanmoins, cette apparente simplicit´e
cache un

213
´ecueil majeur. Il faut ˆetre vigilant aux erreurs d’arrondi num´eriques. Si la d´ecomposition de
Cholesky se passe en g´en´e ra l bien avec des variogrammes au comportement lin´eaire `a
l’origine, il n’en va pas de mˆem e avec des processus `a variogramme gaussien et cubique, qui posent
souvent des probl`emes de stabilit´e num´erique. Parfois, le probl`eme peut ˆetre r´esolu en
ajoutant une p´epite infinit´esimale dans le mod`ele, mais sans garantie.

Pour faire de la simulation sur des applications concr`etes (avec diff´erents variogrammes et avec
po- tentiellement des milliers, voire des millions, de valeurs `a g´en´ere r simultan´ement, il est
fortement recommand´e de passer par une biblioth`eque, telle que gstat (Pebesma, 2020) par
exemple que nous utiliserons dans le cadre de la simulation non-conditionnelle.

En particulier, la simulation non-conditionnelle a permi de g´e n´e r e r l’image 2.2, le Mod`ele Num
´erique de Terrain r´e el ´etant le deuxi`eme `a partir de la gauche sur la seconde ligne, relev´e
sur la Mer de Glace dans le massif du Mont-Blanc. On reconnaˆıt au demeurant ce mˆeme terrain
sur la figure 3.12 ( `a gauche). Les 7 autres r´ealisations de la figure 2.2 sont donc des simulations
imitant la structure d’autocorr´elation du terrain r´eel.

Voyons `a pr´esent quelques exemples d’applications de la simulation non-conditionnelle.

• Analyse de sensibilit´e : il s’agit d’un domaine d’application fondamental. Prenons un


cas formel : on dispose d’une fonction f qui transforme un ensemble x de donn´ees en une
sortie y = f (x). Par exemple, x peut ˆetre une collection de mod`eles num´eriques de
bˆatiments (sous forme de polygones 2D) et y peut repr´esenter l’aire visible depuis une point
d’observation donn´e, comme illustr´e sur la figure 4.12 ci dessous.

Fig. 4.12. Zone visible depuis un point d’observation. Donn´ees IGN BD TOPO@ sur la commune
d’Aubervilliers (93). La surface visible est ´e va l u´e e `a 22 275 m2.

Cependant, en pratique, les donn´ees x utilis´ees sont entˆach´ees d’erreurs, et il est


important de contrˆoler l’impact de cette impr´ecision sur le r´esultat y : on parle
d’analyse de sensibilit´e de l’application f (Saltelli et al., 2000). Connaˆıtre l’influcence du
bruit de x sur une application f est primordial pour (1) quantifier l’incertitude sur le r´esultat
obtenu `a l’issue de l’application, (2) d´eterminer les param`etres et donn´ees critiques sur
lesquels on doit investir le plus d’efforts afin de les d´eterminer pr´ecis´ement et (3) d
´eterminer la plage de fonctionnement de f , i.e. sp´ecifier la qualit´e minimale des donn´ees
utilis´ees en entr´ee garantissant le fonctionnement nominal de f .

Il existe dans la litt´erature trois grandes classes de m´ethodes pour propager l’erreur de x `a
f (x). La premi`ere consiste `a d´eterminer les amplitudes de variation ∆x sur les entr´ees,
puis `a les
214
transf´erer sur ∆f `a l’aide d’une diff´erentielle totale :

∂f ∂f ∂f
∆f = II ∆x I+ II ∆x I+ ... + I ∆x (4.8)
1 2 nI
I I
∂x ∂x ∂x

o u` ∆xi d´esigne l’intervalle de variation de la i-eme composante des donn´ees x.

Exemple 4.1. Entre 11h29 et 11h40, un randonneur parcours une distance qu’il ´evalue ( `a l’aide
d’une carte papier et d’un d´ecim`etre) `a L = 1 km ± 50 m. On cherche `a calculer
l’incertitude
sur sa vitesse moyenne. On ´evalue d’abord le temps de parcours : t = t2 − t1 = 11 minutes,
avec une incertitude ∆L de 2 minutes (1 min sur chacun de deux relev´es chronom´etriques). Sa
vitesse moyenne est v = f (L, t) = L/t = 5.45 km/h. L’incertitude sur v s’obtient par 4.8 :

I I ∂f II I I ∂f II I I ∆LI I I I II
∆v = ∂L ∆L + ∆t = t + t2 = 0.27 + 0.50 = 0.77
km.h−1 ∂t

Sa vitesse v est donc estim´ee `a 5.45 ± 0.77 km/h. En particulier, on peut quantifier
l’importance relative les deux sources d’incertitude : 35% de l’impr´ecision est due `a l’erreur
sur la mesure de
distance et 65% `a celle sur le relev´e du temps.

Cette m´ethode, simple `a mettre en oeuvre, n´ecessite toutefois que f soit suffisament r
´eguli`ere pour ˆetre approch´ee par une lin´earisation au voisinage du point de
fonctionnement. Par ailleurs, une de ses limites majeures et de ne fournir qu’un intervalle
absolu ∆f , i.e. une plage de l’ensemble des valeurs potentiellement prises par f sans tenir
compte de leurs probabilit´es d’apparition respectives, et va donc fournir en g´e n´e r a l des
intervalles tr`es larges et pessimistes.

Une autre m´ethode consiste `a utiliser le th´eor`eme 12 de propagation des variances (ou le th
´eor`eme 13 lorsque f est non lin´eaire). Ainsi, si f peut ˆetre fid`element repr´esent´ee par
sa jacobienne J et si la matrice de covariance des entr´ees est connue, alors on peut ´evaluer la
variance de la sortie de l’application. Cette m´ethode pr´esente l’avantage de fournir un
intervalle probabiliste, donc tou- jours plus compact (mais plus repr´esentatif) que l’intervalle
absolu de la m´ethode de diff´erentielle totale 4.8. Par ailleurs, elle permet de prendre en
compte, via la matrice de covariance, les in- tercorr´elations entre les diff´erentes variables, ce
qui est une propri´et´e indispensable lorsque les donn´ees en entr´ees sont de nature g
´eographique. On pourra trouver deux cas d’applications dans les exemples 1.9 et 1.10.

Cependant, si f est fortement non-lin´eaire (notamment avec des effets de seuil) alors la lin
´earisation de f n’est pas satisfaisante et la variance de sortie n’est plus r´ealiste. C’est le cas
dans l’exemple donn´e en figure 4.12 : l’intervisibilit´e est un ph´enom`ene binaire (une zone
est visible ou ne l’est pas mais il n’y a pas de situation interm´ediaire) donc typiquement non-lin
´eaire. Par ailleurs, lorsque f n’a pas d’expression analytique (c’est la cas ici aussi, et en g´en´eral
dans toutes les appli- cations o u` f est calcul´ee avec un algorithme complexe), ces deux
premi`eres m´ethodes d’analyse de sensibilit´e sont inop´erantes.

Il reste alors une troisi`eme approche, fond´ee sur des simulations. Le principe est

215
extrˆemement simple : on introduit un bruit dans l’entr´ee x, et on observe l’impact sur f
(x) pour un grand nombre de r´ealisations. On peut alors ´evaluer tous les indicateurs
statistiques souhait´es sur

216
la population de sortie (biais, ´ecart-type, erreur RMSE, percentiles, valeurs extrˆemes...).
On peut r´eit´erer l’exp´erience pour diff´erents niveaux de bruits en entr´ee. Par exemple,
sur la figure 4.13, on ajoute un bruit sur les coordonn´ees des batiments (d’´ecart-type σ = 5
m sur la rang´ee d’images sup´erieure, et σ = 10 m sur la rang´ee inf´erieure) et on
´etudie l’impact sur la surface visible calcul´ee.

Fig. 4.13. Analyse de sensibilit´e de la surface visible pour deux niveaux de pr´ecision des
bˆatiments (σ = 5 m en haut en σ = 10 m en bas).

Les r´esultats montrent un RMSE de 1304 m2 (soit environ 6% de l’aire totale) sur la surface
visible pour une pr´ecision de 5 m en entr´ee. Cette valeur passe `a 2484 m2 (11% de l’aire
totale) pour σ = 10 m. Dans les deux cas, le biais d’estimation est n´egatif et repr´esente
environ les deux tiers de l’erreur total, ce qui laisse penser que le bruit sur les donn´ees
induit plutˆot une erreur syst´ematique tendant `a sous-estimer l’aire visible.

On pourra trouver une ´etude similaire compl`ete dans les travaux de Biljecki et al. (2015) qui
´etudient l’impact de l’erreur du bati sur l’´evaluation du potentiel solaire.

Malgr´e l’apparente simplicit´e de cette m´ethode, il faut veiller `a ce que le bruit


introduit soit repr´esentatif de l’erreur typique entˆachant les donn´ees d’entr´ee. Comme
expliqu´e empirique- ment sur la figure 1.5, l’utilisation d’un bruit blanc (i.e. non-corr´el´e)
pour perturber l’entr´ee x, peut mener `a une sous-´evaluation, ou au contraire `a une sur-
´evaluation de l’impact sur f (x). En particulier, quand f est plutˆot de type additive
(sommes, cumuls, moyennes, int´egrations...) le bruit blanc a une tendance syst´ematique `a
sous-estimer l’impact. A` l’inverse, une fonction de type soustractive (diff´erentielle, pente,
vitesse, acc´el´eration, ´ecart...) aura tendance `a ˆetre plus sensible au bruit blanc qu’`a
l’erreur typique entˆachant les donn´ees en r´ealit´e. Dans l’exemple 4.13, le bruitage ind
´ependant des coordonn´ees des sommets n’est pas une solution satisfaisante, et pour deux
raisons principales : en premier lieu, le bruit blanc sur les coordonn´ees a tendance
`a facilement bloquer les lignes de vues. Dans la pratique, les erreurs entˆachant les
batiments sont spatialement corr´el´ees, et les lignes de vues ont globalement tendance `a
ˆetre conserv´ees (au moins jusqu’`a la port´ee de corr´elation des erreurs).
Deuxi`emement d’un point de vue plus pragmatique, l’introduction d’un bruit ind´ependant
sur des donn´ees vectorielles (polylignes, polygones...), en plus de produire des formes irr
´ealistes, peut r´esulter en des erreurs tpologiques (auto-intersections, chevauchements...),
risquant ainsi de planter la fonction f .

Si on dispose d’un mod`ele de variogramme γ caract´erisant le type d’erreurs susceptibles


217
d’entˆacher les donn´ees, la simulation non-conditionnelle nous permet de g´e n´erer un nombre
arbitrairement

218
grand de versions bruit´ees de x. On donne ci-dessous en figure 4.14 un exemple concret :
on suppose que la donn´ee x est un ensemble de profils de vitesse de v´ehicules. Chaque
profil de vitesse vi : [0, 100] → R+ est une fonction qui `a un site s d’un axe de route de
longueur 100
m, associe la vitesse instantan´ee vi(s) du v´ehicule i `a l’instant o u` il passe la position s. On
dispose d’un profil pour chaque v´ehicule ayant emprunt´e l’axe sur un intervalle de temps donn
´e. L’application f est un algorithme d’apprentissage statistique ayant ´e t ´e entraˆın´e pour
d´etecter des ´elements de signalisation routi`ere (feux tricolores, stops, passages pi
´etons...) `a partir de la collection de profils observ´es (Meneroux, 2019). L’objectif de
l’analyse de sensibilit´e est de d´eterminer l’impact de la pr´ecision des profils sur le taux
de d´etection.
1

1
1

1
V

V
5

5
0

0
0 20 40 60 80 100
0 20 40 60 80 100 0 20 40 60 80 100

Fig. 4.14.
A` gauche : profils de vitesses spatiaux observ´es sur un axe de longueur 100 m. Au centre
: perturbation v(s) + ε(s) o u` ε est un bruit A` droite : perturbation v(s) + ε(s) o u` ε est un
blanc.
processus de bruit de variogramme exponentiel et de port´ee 600 m.

La figure 4.14 `a gauche illustre les profils r´eels observ´es. La figure centrale repr´esente les
mˆemes profils perturb´es par un bruit blanc, i.e. qu’`a chaque position v(s) on ajoute une
quantit´e al´eatoire εs, ind´ependante des quantit´es εs−1 et εs+1 ajout´ees aux points
voisins de s. On ne
peut esp´erer repr´esenter fid`element le bruit de mesure avec ce genre de mod`ele simpliste. Enfin,
A` droite, on bruite les profils avec bruit corr´el´e, de variogramme exponentiel d’une port´ee de
l’ordre de 600 m. Les analyses effectu´ees ont permis de montrer que le taux de d´etection
reste relativement stable jusqu’`a un certain niveau de bruit σc puis chute ensuite
rapidement. La valeur critique σc `a laquelle s’op`ere le changement de r´egime d´efinit la
plage de fonctionnement nominal de f .

On pourra trouver de nombreux exemples dans la litt´erature, par exemple pour le


contrˆole de qualit´e des donn´ees g´eographiques lin´eaires (Vauglin, 1997), pour
l’´evaluation de la stabilit´e du calcul d’isochrones (Bonin, 1998), pour le recalage de points GPS
sur le r´eseau routier (M´eneroux et al., 2017), ou encore pour la mesure des surfaces sur un
MNT (Li et al., 2018).

• R´e a l i t´e virtuelle : dans un domaine plus ludique, on peut citer la g´en´eration al
´eatoire de terrain comme application potentielle de la simulation.

• Test de corr´elation : pour introduire cette section, consid´erons un exemple tir´e du site
hu- moristique spurious correlation5. On donne ci-apr`es deux s´eries temporelles x et y relev
´ees sur 11 ann´ees cons´ecutives (de 1999 `a 2009), o u` x d´esigne le nombre (annuel)
d’accidents mortels impliquant un h´elicopt`ere, et y d´esigne la diff´erence de points s´eparant
219
les deux ´equipes finalistes du championnat de football am´ericain (Super Bowl ).
5
https://tylervigen.com/

220
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
x 59 64 56 48 79 75 42 49 47 69 43
y 15 7 27 3 27 3 3 11 12 3 4

On c r ´e ´e les donn´ees correspondantes dans l’environnement R avec les 2 instructions suivantes :

x = c(59,64,56,48,79,75,42,49,47,69,43)
y = c(15,7,27,3,27,3,3,11,12,3,4)

L’´etude de la corr´elation lin´eaire entre ces deux s´eries ( `a l’aide de la commande cor(x,y))
nous donne un coefficient ρ = 0.30, ce qui montre un certains degr´e de d´ependance entre
ces deux variables n’ayant pourtant en apparence aucun lien de causalit´e, ni aucun facteur
sous-jacent commun. Peut-on alors imputer cette valeur de corr´elation au hasard seul ?

Pour d´eterminer si un r´esultat est significatif, la m´ethode du bootstrap statistique


(Efron et Tibshirani, 1994) poss`ede une redoutable efficacit´e. Appliqu´e dans le contexte
particulier de notre exemple, le principe en est le suivant : si la corr´elation entre les s´eries x
et y est imputable au hasard seul, alors on peut obtenir facilement (i.e. avec une probabilit´e
non-n´egligeable, typ- iquement plus de 5%) une corr´elation similaire, voire encore plus
marqu´ee, avec des donn´ees reg´en´er´ees al´eatoirement.

Dans un cadre plus g´en´eral, pour d´emontrer la significativit´e statistique d’un r´esultat, on
compt- abilise le nombre de g´en´erations al´eatoires qui produisent un r´esultat plus
singulier ou plus extrˆeme que le r´esultat effectivement observ´e. Pour reg´en´erer al
´eatoirement les donn´ees, la m´ethode du bootstrap statistique pr´econise d’utiliser un
tirage avec remise sur les donn´ees disponibles.

Concr`etement, si x est la s´erie de donn´ees observ´ees, alors on peut consid´erer que


la s´erie r´e´echantillonn´ee avec remise sample(x, length(x),replace=TRUE) est une r
´ealisation alternative,
i.e. une s´erie de valeurs, en g´en´eral distincte de x mais poss´edant les mˆemes propri´et
´es statis- tiques que x. Il suffit donc de g´e n´e re r un grand nombre de r´ealisations de x,
puis pour chacune d’elles, calculer sa corr´elation empirique avec la s´erie y, et enfin
comptabiliser le nombre de cas pour lesquels la corr´elation obtenue est sup´erieur `a la corr
´elation r´eelle ρ = 0.30.

Nous choisissons ici de g´en´erer 1000 ´echantillons.

B = rep(0,1000)

for (i in 1:length(B)){
B[i] = cor(sample(x, length(x),replace=TRUE), y)
}

nb = length(which(B > 0.3))

Remarquons que le choix de perturber le vecteur x est arbitraire. Nous aurions ´egalement
pu perturber le vecteur y, ou mˆem e les deux vecteurs x et y simultan´ement.

A l’issue de l’exp´erimentation, nous obtenons nb = 175 r´ealisations produisant une corr


´elation plus forte que 0.3, soit 17.5% des cas. Remarquons que si la corr´elation est consid´er
´ee en valeurs absolue, alors 36.4% des cas produissent une corr´elation plus ´eloign´ee de la
valeur nulle que 0.3.

221
On peut donc raisonnablement conclure que la corr´elation entre les accidents d’h
´elicopt`eres et les diff´erences de scores du Super Bowl sur ces 11 ann´ees n’est pas
significative. Autrement dit, soit la corr´elation est fortuite, soit si elle existe vraiment, nous
n’avons pas assez de donn´ees `a disposition pour la mettre en ´evidence.

0.0 0.2 0.4 0.6 0.8

−1.0 0.0 1.0

Fig. 4.15. Corr´elations relev´ees sur 1000 simulations al´eatoires de bootstrap et comparaison avec la corr
´elation r´eellement observ´ee ρ = 0.30.

En effet, nous savons intuitivement que plus le nombre de donn´ees disponibles est grand, plus
les corr´elations fortuites sont A` l’extrˆeme, avec un ´echantillon de taille infini, la
improbables.
th´eorie nous montre que la corr´elation entre deux variables ind´ependantes est rigoureusement
´egale `a 0.

Cependant, `a tailles d’´echantillon similaires, la corr´elation entre deux variables ind


´ependantes paraˆıt statistiquement plus forte (en valeur absolue) lorsque les ph´enom`enes
´etudi´es sont spa- tialement autocorr´el´es. Et plus la port´ee de cette autocorr´elation
est longue (relativement `a l’emprise de la zone ´etudi´ee) plus l’effet est accentu´e. Dit de
mani`ere imag´ee, deux champs lisses vont apparaˆıtre plus significativement corr´el´es (ou
anti-corr´el´es) qu’ils ne le sont en r´ealit´e. C’est ce qu’illustre la figure 4.16 : pour 4 port´ees
de corr´elation diff´erentes (de 750 `a 6000 m), 2 MNT ind´ependants on ´e t ´e simul´es
et dans chaque cas on indique la corr´elation ρ obtenue avec une probabilit´e de 5%
(autrement dit, par exemple, si on siule 100 fois un couple de deux MNT ind´ependants et
autocorr´el´es sur une port´ee de 6000 m, alors dans 5 cas la corr´elation mesur´ee sur le
couple sera en valeur absolue sup´erieure `a 0.44). A` titre de comparaison, la mˆeme corr
´elation calcul´ee sur un couple de r´ealisations d’un bruit blanc n’exc`ede que rarement 0.02.

Fig. 4.16. Deux simulations z1 et z2 de variables r´egionalis´ees pour 4 port´ees de


variogrammes diff´erentes (de 750 `a 6000 m), et valeur de corr´elation ρ(z1, z2) obtenue sur 5%
des r´ealisations. La zone d’´etude est un carr´e de 10 × 10 km.

Remarquons que l’autocorr´elation ne posait pas de probl`eme sur l’exemple consid´er´e ci-

222
avant. En effet, on peut raisonnablement supposer que le nombre d’accidents mortels d’h
´elicopt`eres est

223
suffisamment rare pour ˆetre temporellement d´ec or r´e l´e . Pour le cas du Super Bowl, c’est
plus compliqu´e, les mˆemes ´equipes pouvant statistiquement se recontrer plusieurs fois
successivement en finale, rendant ainsi plus probable la reproduction de scores semblables.
En pratique, la repr´esentation graphique de la s´erie y montre l’abscence d’autocorr´elation
significative.

Comment proc´eder alors lorsque les variables en jeu sont significativement autocorr´el
´ees ? C’est pr´ecis´ement dans ce contexte que les techniques de simulation non-
conditionnelle vues pr´ec´edemment peuvent nous venir en aide.

Nous illustrerons la m´ethode avec un exemple tir´e des travaux de stage de Conte (2018) r´ealis´es
`a l’institut national de l’information g´eographique et foresti`ere (IGN), et dont l’objectif
´etait de quantifier le changement climatique en comparant la r´epartition des toponymes
du houx `a la r´epartition de l’esp`ece aujourd’hui. En effet, si l’´etymologie d’un toponyme
renvoie `a une esp`ece v´eg´etale cela signifie probablement que cette esp`ece se trouvait
dans les environs du toponyme
`a une certaine ´epoque. Un examen toponymique pouss´e peut donc constituer une
source de donn´ees ancienne sur la pr´esence du houx dans le pass´e. Cependant, on se
heurte bien vite `a une probl´ematique sp´ecifique : la toponymie d´epend de la g´eographie
linguistique. Pour obtenir un r´esultat exhaustif et exploitable sur l’ensemble du territoire m
´etropolitain, il est important au pr´ealable de tester l’ind´ependance de la r´epartition des
toponymes relatifs au houx (issus de toutes les langues) et la g´eographie de ces langues.

En pratique, ce questionnement est apparu apr`es comparaison (sur la fig. 4.17) de la pr


´evalence des toponymes li´es au houx ( `a gauche) avec la carte des r´egions linguistiques
( `a droite). No- tamment, on rel`eve certains similarit´es de motifs, en particulier au niveau
des r´egions catalane et basque. Sur le reste du territoire, il ne semble pas y avoir de d
´ependance significative, pour autant, le coefficient de corr´elation ρ entre les deux champs
vaut 0.71, ce qui semble traduire une d´ependance plutˆot marqu´ee6 .

Fig. 4.17.
A` gauche : fr´equence des toponymes relatifs au houx. A` droite : r´egions linguistiques en
France m´etropolitaine. D’apr`es Conte (2018).

Pour tester la significativit´e de ce r´esultat, nous avons commenc´e par calculer le


variogramme empirique du champ de pr´evalence des toponymes, auquel nous avons just´e un
mod`ele exponen- tiel (sans p´epite et d’une port´ee de l’ordre de 1000 km, traduisant ainsi
une autocorr´elation du

224
6
Remarquons que la variable des r´egions linguistiques ´etant cat´egorielle (et non ordinale), nous avons duˆ utiliser une
variante d’indice de corr´elation, mais qui s’interprˆete de la mˆeme mani`ere : de 0 a` 1 a` mesure que les deux variables
´etudi´ees sont mutuellement corr´el´ees.

225
champ sur l’ensemble du territoire m´etropolitain). Il est alors possible de simuler des r
´ealisations du processus ; nous en pr´esentons trois (arbitrairement s´electionn´ees) ci-
dessous.

Fig. 4.18. Variogramme empirique et ajustement d’un mod`ele exponentiel (en haut `a gauche) et 3
simulations non-conditionnelles du processus.

Un total de 1000 simulations ont ´e t ´e g´e n´er´ees. Pour chaque r´ealisation, on calcule son
indice de corr´elation avec la carte des r´egions linguistiques, et on repr´esente la distribution
des valeurs prises par cet indice en figure 4.19. En particulier, on comptabilise 174 cas o u` la
simulation a produit un indice de corr´elation sup´erieur `a 0.71, soit une probabilit´e de
17.4 %. On peut donc en conclure que les champs de r´egions linguistiques et de fr´equence
des toponymes du houx ne sont pas significativement corr´el´es.

Résultat du test d'hypothèse

0.0 0.2 0.4 0.6 0.8 1.0

Indices de corrélation

Fig. 4.19. Densit´e des indices de corr´elation sur 1000 simulations al´eatoires et comparaison
avec l’indice observ´e (ligne pointill´ee verticale).

Pour conclure cette section, nous pr´eciserons qu’il existe d’autres m´ethodes de simulations non-
conditionnelles, notamment celle dite des bandes tournantes, `a base de d´ecomposition LU, ou encore
`a l’aide des m´ethodes de M´ethode de Monte-Carlo par chaˆınes de Markov (Marcotte, 2003).

4.3.2 Simulation conditionnelle


On parle de simulation conditionnelle lorsque le champ g ´e n ´e r ´e al´eatoirement est contraint `a
passer par un semis de points d’observations.

Formellement, on suppose avoir `a disposition un semis d’observations Z ∈ Rn en n sites x, et on


cherche `a produire des r´ealisations al´eatoires d’un champ Z stationnaire, de fonction de
covariance C(h) = γ(∞) − γ(h) (la fonction γ ´etant donn´ee) entre m sites non-observ´es xt et
telles que pour tout
i ∈ [1..n], Z prenne la valeur Zi en xi.

226
Pour simuler le champ en m sites, comme pour la m´ethode non-conditionnelle, on commence par
calculer la d´ecomposition de Cholesky de la matrice de covariance Σ (de dimension n + m) prise
au niveau de tous les sites (sites de conditionnement x et sites `a simuler xt) :

C(xi − xj) C(xi − xtj) C Ct


Σ= =
C(xti − xj) C(xti − xtj) Ct Ctt

en notant C la matrice de covariance entre les n sites conditionnants x, Ctt la matrice de covariance
entre les m sites `a simuler xt et Ct la matrice de covariance crois´ee entre ces deux cat´egories de
sites.

On calcule la factorisation de Cholesky de Σ, i.e. on trouve la matrice L telle que :

Σ = LLT

On ´echantillonne ensuite un vecteur al´eatoire A suivant une loi normale standard multivari´ee de
di- mension m et de covariance identit´e, et on forme le vecteur al´eatoire B, dont on pr´ecise la
matrice de covariance ΣB (en remarquant bien que la quantit´e L−1Z est d´eterministe) :

L−1Z
B= 0 0
A ΣB =
0 In

On v´erifie alors facilement que le vecteur al´eatoire Y = LB est une simulation conditionnelle du
processus. En effet :

• La matrice de covariance de Y est (en vertu du th´eor`eme 12 de propagation des variances) :

0 0 0 0
ΣY = L 0 LT = 0

ce qui correspond bien `a la matrice de covariance entre les n + m sites.

• Les n premi`eres valeurs de Y sont : Y1:n = (LB)1:n = LL−1Z = Z.

Il est int´eressant de constater que la moyenne de k simulations conditionn´ees `a Z tend vers


l’estimateur du krigeage simple 3.7.1 `a mesure que k augmente . En effet on a :

E[L−1Z] L−1Z
E[Y] = L E[A] =L Z
0 = 0

227
Donc Y est d’esp´erance nulle en dehors des sites observ´es. Or, on sait que la moyenne arithm
´etique minimise l’´ecart quadratique moyen aux donn´ees, donc la moyenne d’une infinit´e de
simulations con- ditionnelles est un estimateur interpolant les donn´ees, de moyenne nulle en
dehors des sites et de variance minimale : c’est donc bien un krigeage simple des donn´ees. On
pourra trouver une illustra- tion graphique de cette propri´et´e sur la figure 3.4.

Par ailleurs, remarquons que lorsque n = 0, le vecteur Z est vide et on retrouve la m´ethode de
simu- lation non-conditionnelle pr´esent´ee dans la section pr´ec´edente.

La figure 4.20 pr´esente le r´esultat de la proc´edure de simulation conditionnelle sur un semis


de 393 observations collect´ees sur le MNT de la vall´ee de Chamonix (jeu de donn´ees sample
data1.txt).

Fig. 4.20. 6 exemples de simulations conditionnelles `a partir d’un semis d’observations collect
´ees sur le champ mod`ele (en haut `a gauche). En bas `a droite : comparaison avec les r´esultat
obtenu par krigeage ordinaire du semis d’observations.

Le r´esultat obtenu est donc un exemple (parmi une infinit´e d’autres) de champ respectant `a la
fois la structure du ph´enom`ene et les observations. Contrairement au krigeage, la solution
obtenue ne poss`ede pas de propri´et´e de minimalit´e de la variance d’estimation. Une simulation
donn´ee est donc a priori moins pr´ecise que la solution du krigeage. En revanche, la simulation
conditionnelle poss`ede l’avantage de fournir une solution diff´erente `a chaque tirage. Lorsque les
quantit´es `a estimer sont forte- ment non-lin´eaires (e.g. effets de seuillage) la moyenne des
solutions ainsi obtenues est en pratique
plus robuste que la solution du krigeage. En effet, nous l’avons vu pr´ec´edemment, si F est lin
´eaire, alors l’application de F `a l’estimation x est ´egale `a l’estimation de F(x) : F(x) = F---
(x) � �

Cette propri´et´e est fondamentale puisqu’elle indique que � F(x)ilest un estimateur optimale de
F(x), mais elle n’est garantie que si F est lin´eaire. Or, en pratique, existe de nombreux cas o u` la
quantit´e d’int´erˆet est une fonction non-lin´eaire de la variable r´egionalis´ee. Un exemple
classique est le seuil-
lage : lorsqu’on souhaite estimer la surface totale d´epassant une certaine valeur (e.g. altitude,
risque acceptable, teneur en minerais assurant la rentabilit´e ´economique...), alors, l’application F
s’´ecrit :

-
F[z] = ]_z(x)�sdx
D

o u` D est le domaine d’´etude et s ∈ R est le niveau du seuillage op´er´e.

228
Clairement, du fait de la fonction indicatrice ]_z(x)�s, l’application F est non lin´eaire, et�F[z] n’est
pas un estimateur optimal de F[z]. Autrement dit, le seuillage d’une variable krig´ee n’est en g´en
´eral pas
´egal au krigeage de la variable seuill´ee.

Par ailleurs, du fait de la propri´et´e de lissage du krigeage, le seuillage d’une valeur krig´ee produira
des valeurs syst´ematiquement biais´ees. Par exemple, dans le cadre d’une analyse de risque
d’inondation en zone cˆoti`ere, la surface inondable sera syst´ematiquement sous-estim´ee. Nous
verrons un exemple concret par la suite.

La capacit´e de la simulation conditionnelle `a produire des estimations interpolantes moins liss´ees va ici
ˆetre mise `a contribution pour contourner les faiblesses de la G´eostatistique lin´eaire. Nous allons
voir tois exemples typiques (dont l’un sera ´e t ud i´e sous forme d’activit´e) : l’estimation de la surface
d’une
ˆıle par relev´es bathym´etriques (Wackernagel, 2013a), le calcul de la longueur d’un cˆable sous-marin
(Marcotte, 2003) et l’´evaluation d’une surface de danger en zone cˆoti`ere.

Surface insulaire
Cet exemple est tir´e des travaux de Wackernagel (2013a). Au total, 23 mesures bathym´etriques ont
´e t ´e r´ealis´ees au large de l’Ile-d’Yeu en Vend´ee, suivant 8 profils rectilignes, comme illustr´e sur la figure
4.21 ( `a gauche). On dispose de mesures de profondeurs z et des coordonn´ees g´eographiques x
associ´ees et on suppose que les incertitudes sur ces observations sont suffisamment r´eduites pour
ˆetre n´eglig´ees.

Fig. 4.21.
A` gauche : 23 mesures bathym´etriques effectu´ees autour de l’Ile-d’Yeu (points rouges).
`
A droite : 9 exemples (arbitrairement choisis) de simulations conditionnelles et seuillage des altitudes
n´egatives (en bleu) pour extraire uniquement l’ˆıle. Source : Wackernagel (2013a)

L’objectif du probl`eme consiste `a estimer la surface de l’ˆıle.

Une premi`ere approche pourrait consister `a interpoler les mesures bathym´etriques (x, z) pour
recon- struire le plancher marin z. La surface insulaire est alors intuitivement d´efinie comme la
surface (plane) totale d’altitude z sup´erieure `a 0. Informatiquement, l’op´eration consiste donc
`a calculer un estimateur�par krigeage z de l’altitude du terrain sur une grille de r´esolution r, puis
`a multiplier le nombre de cellules d’altitude positive par r2. Malheureusement, comme nous
allons le voir, cette solution simpliste n’est pas satisfaisante : la quantit´e estim´ee est non-lin
´eaire et on ne poss`ede donc pas de garantie sur la robustesse de l’estimation.

Une m´ethode aternative consiste `a calculer des simulations conditionnelles de Z, et `a ´evaluer


pour cha- cune d’elles une estimation de la surface insulaire, comme repr´esent´e sur la figure 4.21
`a droite. Avec cette m´ethode, la surface totale estim´ee varie entre 15.4 et 31.9 km2 (cette

229
grande variabilit´e ´etant imputable au faible effectif du jeu de donn´ees). Cependant, en
moyennant les estimations calcul´ees sur les simulations, l’auteur de l’´etude indique obtenir une
valeur de surface de 23.2 km2, `a mettre en

230
perspective aux 23.3 km2 de la v´e r i t´e terrain. En comparaison, l’estimation directe `a partir du
krigeage r´esulte en une valeur de 22.9 km2, soit une erreur 4 fois plus importante. Cette sous-
estimation du krigeage s’explique simplement par sa propri´et´e de lissage � : l’estimateur z est plus
lisse que la r´ealit´e, ce qui0 r´eduit donc la probabilit´e d’obtenir des valeurs extrˆemes. Par
ailleurs, la majorit´e de la zone d’´etude ´etant maritime, la surface insulaire est justement d
´efinie par les valeurs extrˆemes d’altitude. La proportion de cellules d’altitude positive est donc plus
forte en r´e al i t´e que dans l’estimation krig´ee. La moyenne de simulations ne pr´esente en
revanche pas ce d´efaut de biais syst´ematique.

Grˆace `a la simulation conditionnelle, on peut obtenir une estimation fiable de la surface d’une ˆıle
exculsivement `a partir de mesures bathym A` titre d’exercice, on pourra s’interroger sur la
´etriques.
marche `a suivre pour estimer, `a l’inverse, la surface (ou encore le volume ou la profondeur maximale)
d’un lac `a partir de relev´es d’altitudes effectu´es exclusivement sur terre.

Longueur de cˆable marin


On reste dans le domaine maritime, avec un exemple ti r´e du cours de (Marcotte, 2003) : une
com- pagnie de t´el´ecommunication souhaite installer un cˆable sous-marin sur le plancher oc
´eanique, dont le profil est repr´esent´e sur la figure 4.22. On sait que la distance horizontale
entre les deux points `a connecter est de l = 100 km. On souhaite ´evaluer le longueur de cˆable n
´ecessaire. Pour ce faire, on effectue des relev´es bathym´etriques sur 20 sites ´echantillonn´es r
´eguli`erement le long du trajet du cˆable.

Fig. 4.22. Profil d’´el´evation du plancher oc´eanique (en noir) et relev´es bathym´etriques (en rouge)
´echantillonn´es tous les 5 km. Source : Marcotte (2003).

Connaissant le profil z : [0, l] → R du fond marin qui `a un lieu x associe la profondeur z(x), la longueur
L du cˆable est tr`es clairement une op´eration non-lin´eaire :

L = F[z] = - l
J -l dz -l
dx2 + dz2 = r 1 + (2 ) dx = J 1 + zt(x)2dx
0 0
dx

On sait donc que le calcul de la longueur de la variable krig´ee F[z] est un mauvais estimateur de
L. En effet, avec cette m´ethode, on obtient 104.2 km, contre une�longueur r´eelle de 110 km. La
longueur
n´ecessaire a donc ´e t ´e sous-estim´ee de pr`es de 6%, ce qui peut entraˆıner des cons´equences
´economiques relativement lourdes pour l’entreprise.

231
A` nouveau, on peut contourner le probl`eme en g´e n´era nt des simulations conditionnelles et en
moyen- nant les longueurs de cˆable estim´ees sur toutes les r´ealisations, ce qui donne une
longueur
� estim´ee L = 110 km, avec une intervalle de confiance `a 95% associ´e : [108.8; 113.5].
L’estimation par moyenne des simulations conditionnelles est donc bien plus satisfaisante.

232
Activit´e XII. E´ valuation du risque de crue par simulations
Dans cette activit´e, qui constitue en quelques sortes un travail de synth`ese des notions vues
dans ce cours, nous allons ´evaluer la surface inondable d’un terrain donn´e, dont nous disposons
d’un semis de relev´es d’altitude heights.txt (disponible dans le r´epertoire associ´e `a ce
cours, cf en deuxi`eme de couverture). Pour contrˆoler la qualit´e de notre estimation, nous
utiliserons ´egalement le MNT (de r´esolution r = 250 m) de la zone : mnt.asc. Ces deux fichiers
peuvent ˆetre inspect´es `a l’aide d’un
´editeur de text type bloc-notes.

Jusqu’`a pr´esent, dans un but purement p´edagogique, nous n’avons utilis´e que les fonctions de
base du langage R. En pratique, le traitement num´erique des probl`emes concrets de G´eostatistique
pr´esentent une multitude d’ecueils (erreus d’arrondi, probl`eme de conditionnement des matrices,
non-convergence des r´egressions param´etriques...) rendant ainsi quasi-indispensable le recours `a
des librairies d´e d i´ees qui prennent en charge ces probl`emes de mani`ere transparente pour
l’utilsateur.

Nous allons utiliser la librairie R gstat (Pebesma, 2020), qui pourra ˆetre install´ee `a l’aide de
l’instruction install.packages("gstat"), puis en s´electionnant un serveur dans la liste propos´ee.
Pour pouvoir facilement manipuler des donn´ees g´eographiques, nous utiliserons ´egalement le
package sp (Pebesma et Bivand, 2005) : install.packages("sp"). Pour activer ces librairies, on
placera les deux lignes d’instructions suivantes en entˆete du code :

library("gstat") # Librairie de Geostatistique


library("sp") # Librairie de gestion de donnees spatiales

Malgr´e le soin p ort´e `a la mise-`a - jour de ce document, il est n’est pas impossible que certaines
fonction- nalit´es de gstat pr´esent´ees ci-dessous ne soient plus disponibles exactement sous le
mˆeme formalisme syntaxique. On pourra en g´en´eral facilement r´esoudre le probl`eme en se r´ef
´erant au manuel d’utilisation (Pebesma, 2001) le plus r´ecent.

Enfin, pr´ecisons que cette activit´e n’est en principe pas trop sensible au caract`ere al´eatoire
des r´ealisations. Malgr´e tout, dans un souci de reproductibilit´e et de d´ebuggage ´eventuel des
probl`emes, nous mentionnons que les r´esultats ci-dessous ont ´e t ´e obtenus avec la graine :
set.seed(1).

On consid`ere une r´egion cˆoti`ere, d’altitude comprise entre 0 et 154 m, et soumise `a un risque de
mont´ee des eaux, dont une analyse pr´ealable a permis de montrer que tous les terrains situ´es
`a une altitude inf´erieure `a 5 m pouvaient potentiellement ˆetre impact´es. L’objectif de
l’´etude est de d´eterminer la surface totale (en km2) `a ´evacuer.

Q1. Dans un premier temps, nous allons ´evaluer cette surface dans l’hypoth`ese o u` le MNT de la
zone est connu. La valeur trouv´ee `a l’issue de cette ´etape pr´eliminaire constituera une v´erit´e
terrain pour pouvoir comparer par la suite les r´esultats obtenus respectivement par krigeage et par
simulations.

On commence par fixer deux param`etres : la r´esolution du MNT `a disposition (r) et le seuil
d’altitude en dessous duquel un terrain est situ´e en zone inondable (threshold). On d´efinit
´egalement une fonc- tion estimate permettant de calculer la surface inondable totale d’un MNT.

r = 250
threshold = 5

estimate = function(Z){
return(length(which(Z < threshold))*r**2/10**6)
233
}

234
Notons que threshold est une variable globale. Sa modification entraˆıne automatiquement celle de
la fonction estimate. Par ailleurs, soulignons la multiplication par r2 (qui permet d’exprimer un
nombre de cellules en une surface) puis la division par 10 6 (qui assure la conversion en km2).

Charger le MNT du fichier mnt.asc et calculer la surface inondable sur la zone d’´etude.

S = as.matrix(read.table("mnt.asc"))
svrai = estimate(S)
gx = (1:nrow(S))*r-r/2
gy = (1:ncol(S))*r-r/2
image(gx, gy, S, col=terrain.colors(255))

Les vecteurs gx et gy contiennent les coordonn´ees (suivant chacune des deux directions) des noeuds
de la grille de MNT. On obtient une estimation svrai de 30.81 km2, soit environ 6% de la zone
totale. Par ailleurs, on peut repr´esenter graphiquement la zone inondable en r´eduisant la valeur
d’altitude de tous les sites concern´es de mani`ere `a marquer plus nettement la distinction dans
l’´echelle des couleurs, puis en choisissant un code couleur composite :

S[which(S<threshold)] = 0
map = c(topo.colors(255)[50:60], terrain.colors(255))
image(gx, gy, S, col=map)

Fig. 4.23.
A` gauche : le MNT de la zone d’´etude avec le semis de points observ A` droite : la
´es.
zone inondable calcul´ee `a partir du MNT, repr´esentant une surface totale de 30.81 km2.

Q2. On suppose `a pr´esent ne pas avoir de MNT `a disposition. L’ing´enieur charg´e de l’´etude
d´ecide alors de relever `a l’aide d’un GPS professionel de pr´ecision centim´etrique un total de
150 points d’altitude r´epartis al´eatoirement et uniform´ement sur la zone. Le r´esultat de la
campagne est con- sign´e dans le fichier heights.txt, dans lequel chaque ligne repr´esente les
coordonn´ees g´eographiques (X, Y ) d’un site, exprim´ees dans une projection plane quelconque, et
l’altitude Z qui y a ´e t ´e mesur´ee. L’objectif consiste `a essayer d’estimer avec la meilleure pr
´ecision possible, la surface de la zone inond- able `a partir de ces donn´ees r´eduites.

Charger le semis de points dans l’environnemment R, et le repr´esenter graphiquement pour


contrˆoler l’homo g´en´ei t´e spatiale des sites. Calculer (en choisissant judicieusement les
param`etres) le vari- ogramme empirique du semis d’observations.

Le chargement du jeu de donn´ees ne pose aucun probl`eme avec les fonctions de base R :

235
PTS = read.csv("heights.txt")

Pour pouvoir profiter pleinement des fonctionnalit´es de gstat, on doit sp´ecifier que les colonnes
X et Y du tableau PTS sont des coordonn´ees. Au passage, on en profite ´egalement pour grouper
les obser- vations d’altitudes dans un vecteur Z :

coordinates(PTS)= X+Y
Z = PTS$Z ∼

Attention, ici en particulier, le caract`ere ∼ est parfois r´ecalcitrant au copier-coller.

Le choix des param`etres du variogramme se fait `a l’aide des notions vues dans la section 2.4.1 :
on commence par d´efinir la plage de valeurs sur laquelle on va calculer le variogramme exp
´erimental en prenant la moiti´e de l’emprise totale du semis de points :

D = sqrt((max(PTS$X)-min(PTS$X))**2+(max(PTS$Y)-min(PTS$Y))**2)/2

On trouve une valeur D de 15.7 km environ. Au d el`a de cette valeur, le nombre de couples
d’observations disponibles est a priori trop faible pour garantir la robustesse statistique de
l’estimateur du vari- ogramme. On d´efinit alors un pas de calcul h = 1 km, ce qui permet d’avoir
un variogramme d´efini en une quinzaine de points, et permettra ainsi un ajustement de qualit´e.
Par ailleurs, on v´erifiera a posteriori que ce choix conduit `a disposer d’un nombre suffisant de
couples de points dans chaque intervalle. Le calcul du variogramme exp´erimental est alors imm
´ediat avec gstat :

vario = variogram(Z∼1, data=PTS, cutoff=D, width=1000)

Les diff´erents arguments `a sp´ecifier sont :

• Une tendance globale, permettant de g´erer le cas du krigeage `a d´erive externe, i.e.
lorsque l’altitude est soumise `a une tendance de fond que l’on souhaite prendre en compte dans
l’analyse. Ici, le processus est suppos´e stationnaire, la moyenne de Z est donc une constante sur
l’ensemble
de la zone, ce qu’on exprime avec la formule : Z∼1 (qui signifie que la moyenne de Z est propor-
tionnelle `a la constante 1, ind´ependante des coordonn´ees du site).

• Le jeu de donn´ees utilis´e PTS, qui doit donc contenir une colonne Z, et un nombre
arbitraire de colonnes ayant un format de coordonn´ees.

• La plage de valeurs sur laquelle est ´e val u´e e le variogramme : cutoff=D, (dans l’unit´e
des co- ordnn´ees de PTS).

• La r´esolution de calcul (dans l’unit´e des coordonn´ees de PTS) : ici 1000 m.

On peut alors repr´esenter le variogramme exp´erimental :

plot(vario$dist, vario$gamma, pch=3)

Afin de s’assurer que le choix de la r´esolution r =1000 m est raisonnable, on peut calculer et repr
´esenter le variogramme exp´erimental pour diff´erentes valeurs de pas de discr´etisation (fig.
4.24). On voit `a nouveau apparaˆıtre le compromis biais-variance : lorsque le pas est trop fin, le
variogramme est tr`es

236
r´esolu mais insuffisamment A` l’inverse, pour un pas trop lˆache, le variogramme est pr´ecis
robuste. mais peu r´esolu.

1000

1000
800
vario$ga

vario$ga

vario$ga
600

400600800

400600800
400

2
0

2
0
2
0
0

0
0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000

vario$dist vario$dist vario$dist

Fig. 4.24. Variogramme exp´erimental du semis de points d’altitude pour diff´erents pas de
discr´etisation : 300 m ( `a gauche), 1 km (au centre) et 3 km ( `a droite).

Par ailleurs, il peut ˆetre instructif de repr´esenter les effectifs de couples d’observations utilis´es
pour chaque point du variogramme exp´erimental. Ces nombres sont consign´es dans le champ np
du vari- ogramme estim´e, si bien que l’instruction suivante permet la repr´esentation graphique
des effectifs :

plot(vario$dist, vario$np, type="l")

Le r´esultat obtenu est repr´esent´e en figure 4.25 et met en ´evidence une chute brutale du
nombre de couples disponibles `a mesure que l’on s’approche de la moiti´e du diam`etre du champ
(~ 15 km). Plus sp´ecifiquement, on pourra consid´erer que le variogramme exp´erimental n’est plus
suffisamment robuste
pour h > 13 km.


● ●
7


● ●

● ●


5


vario



3


1

5000 10000 15000

vario$dist

Fig. 4.25. Nombre de couples d’observations pour chaque classe de distance.

Q3. Proposer un mod`ele de variogramme et estimer ses param`etres.

Apr`es inspection graphique du r´esultat, il paraˆıt raisonnable de choisir un mod`ele de variogramme


ex- ponentiel (notons qu’un variogramme sph´erique, ou mˆeme lin´eaire avec pallier semblent ˆetre
´egalement des solutions convenables). Dans gstat, chaque mod`ele est d´efini par un code de 3
lettres. On pourra consulter la liste des mod`eles disponibles avec l’instruction vgm(). La r´egression
param´etrique se fait avec la commande fit.variogram, ce qui dans notre cas donne :

vmod = fit.variogram(vario, vgm("Exp"))

237
On pourra inspecter le r´esultat vmod :

model psill range


Nug 0.000 0.00
Exp 1308.601 10797.69

Le r´esultat standard de gstat est un variogramme en gigogne, i.e. une somme de plusieurs
mod`eles de variogrammes diff´erents (ici une p´epite Nug et un mod`ele exponentiel Exp), avec
pour chacun d’eux un param`etre de pallier (psill) et une port´ee (range). Remarquons que par d
´efinition, la port´ee de la p´epite est n´ecessairement nulle. Par ailleurs, on remarque que le
palier de la p´epite est ´egalement nul, ce qui signifie que le mod`ele inf´e r´e ici est purement
exponentiel. On peut repr´esenter le r´esultat de la r´egression (en superposition du variogramme exp
´erimental) en r´e´ecrivant l’expression analytique
2.24 du mod`ele exponentiel avec C = 1308.601 m2 et a = 10797.69 m :

h = 0:D
g = vmod$psill[1] + vmod$psill[2]*(1-exp(-h/vmod$range[2]))
plot(vario$dist, vario$gamma, pch=3)
lines(h, g, col="blue")

Remarquons que la partie p´epitique vmod$psill[1] n’a aucune influence ici. Le r´esultat obtenu
est repr´esent´e en figure 4.26 ( `a gauche).
8

8
6

6
vario$gam

vario$gam

4
200400

2
0

0 2000 4000 6000 8000 10000 12000 0 2000 4000 6000 8000 10000 12000

vario$dist vario$dist

Fig. 4.26. Variogramme exp´erimental (pour h compris entre 0 et 13 km et un pas de 1 km) et r


´egression param´etrique d’un mod`ele exponentiel ( `a gauche) ou gaussien ( `a droite).

Remarque. Nous avons vu pr´ec´edemment que la topographie est en g´e n´e ra l suffisamment lisse pour
ˆetre caract´eris´ee par un variogramme au comportement parabolique `a l’origine. D`e s lors se
pose la question du choix d’un mod`ele exponentiel, qui poss`ede la caract´eristique notable
d’ˆetre lin´eaire `a l’origine. En r´eali t´e, le comportement `a l’origine (d’apparence lin´eaire) du
variogramme exp´erimental s’explique par la densit´e trop faible de points d’observations,
n’autorisant pas une repr´esentation fine de l’allure du variogramme au voisinage de 0. Si on le
souhaite, on peut malgr´e tout utiliser un mod`ele gaussien avec l’instruction :

vmod = fit.variogram(vario, vgm("Gau"))

et la repr´esentation graphique se fait `a l’aide de la suite de commandes :

238
h = 0:D
g = vmod$psill[1] + vmod$psill[2]*(1-exp(-(h/vmod$range[2])**2))
plot(vario$dist, vario$gamma, pch=3)
lines(h, g, col="blue")

Q4. Calculer par krigeage le relief du terrain `a partir du semis de points observ´es et en d
´eduire une estimation de la surface inondable.

Pour calculer le champ par krigeage, tout comme dans l’activit´e VIII (code7.r), on doit
commencer par d´efinir la grille d’interpolation. Afin de travailler sur une zone identique `a la v
´e r i t´e terrain, on lui donne les mˆemes param`etres (r´esolution et taille) que le MNT, et donc,
nous allons r´eutiliser les vecteurs gx et gy d´efinis pr´ec´edemment dans la question Q1 :

GRID = expand.grid(x=gx, y=gy)


gridded(GRID)=∼x+y

On peut alors effectuer l’estimation par krigeage `a l’aide de la fonction krige :

krigeage = krige(Z∼1, PTS, GRID, model=vmod, nmax=50, debug.level=-1)

A` nouveau, ici aussi, la formule Z∼1 sp´ecifie qu’on se place dans le cadre du krigeage ordinaire (sans
d´erive externe) et donc que la moyenne du processus Z est constante sur la zone d’´etude. Les deux
arguments suivants de la fonction krige sont : les donn´ees observ´ees PTS, et l’ensemble des
sites sur lesquels on souhaite r´ealiser l’estimation GRID. On sp´ecifie ensuite le mod`ele th´eorique
de variogramme utilis´e vmod, puis le nombre maximal d’observations utilis´ees pour chaque
estimation (par d´efaut, la fonction travaille en voisinage globale et effectue chaque estimation avec
toutes les observations, ce qui peut s’av´erer relativement p´enalisant en termes de temps de
calcul). Ici, on travaille sur un voisinage glissant de 50 observations. Remarquons qu’il existe
d’autres mani`eres de param´etrer ce voisinage, notamment `a l’aide d’un crit`ere de distance
maximale. Enfin, le param`etre debug.level=-1 permet d’afficher l’´etat du calcul dans la
console).

Pour repr´esenter graphiquement le champ interpol´e, on doit convertir la sortie de la fonction krige
en une matrice R :

K = matrix(krigeage$var1.pred, length(gx), length(gy))

La repr´esentation graphique se fait alors comme pr´ecd´emment dans la question Q1, en


rempla¸cant le MNT v´e r i t´e terrain S par l’estimateur de krigeage K :

image(gx, gy, K, col=terrain.colors(255))

De mˆeme, le calcul de la surface inondable est imm´ediat `a l’aide de la fonction estimate :

skrig = estimate(K)

On obtient une surface inondable estim´ee `a 16.88 km 2, soit une sous-estimation d’un facteur 2
par rapport `a la valeur vraie svrai. On donne en figure 4.27 une repr´esentation du krigeage ( `a
gauche) et de la surface inondable estim´ee ( `a droite).

En particulier, on remarque bien que l’estimateur par krigeage est trop lisse par rapport `a la r
´eali t´e, impliquant ainsi une sous-estimation syst´ematique des queues de distributions.
Il peut ˆetre int´eressant de comparer l’estimateur par krigeage de la surface inondable, avec un
simple produit en croix sur les observations, i.e. on calcule le ratio du nombre de sites en dessous de
l’altitude

239
seuil, et on le multiplie par la surface totale de la zone d’´etude :

length(which(PTS$Z < threshold))/length(Z)*max(gx)*max(gy)/10**6

On obtient un estimateur de 38.02 km2, soit une erreur de l’ordre de 23%, ce qui reste tout de
mˆem e meilleur7 que l’estimateur du krigeage.

En pr´esence de fortes non-lin´earit´es (ici c’est le cas puisqu’on calcule la quantit´e r´esultant d’un
seuil- lage, par nature non-lin´eaire), nous avons vu que l’estimateur par krigeage n’est plus
optimal. On doit donc recourir aux simulations conditionnelles.

Fig. 4.27.
A` gauche : l’estimateur par krigeage du MNT sur la zone A` droite : la zone
d’´etude.
inondable calcul´ee `a partir du MNT krig´e, repr´esentant une surface totale de 16.88 km2.

Q5. Calculer 50 simulations conditionnn´ees au semis de points observ´es. Pour chaque


simulation g´e n ´e r ´e e , on ´evaluera la surface de la zone inondable et on stockera la valeur
obtenue. Calculer la moyenne des estimations obtenues (on pourra ´egalement d´eriver un ´ecart-
type et des bandes de con- fiance). Cette nouvelle valeur est-elle plus pr´ecise que l’estimateur du
krigeage ?

Pour effectuer des simulations conditionnelles avec la biblioth`eque gstat, on utilise exactement
la mˆeme fonction que pour le krigeage `a laquelle on ajoute une entr´ee nsim permettant de sp
´ecifier le nombre de simulations `a calculer :

simulation = krige(Z∼1, PTS, GRID, model=vmod, nmax=50, nsim=50, debug.level=-1)

En fonction des resources de la machine utilis´ee, le calcul peut prendre jusqu’`a quelques
minutes. L’objet R simulation contient alors un jeu de 50 simulations r´ealis´ees sur GRID, de
variogramme vmod et conditionn´ees aux observations PTS.

On repr´esente en figure 4.28 les 8 premi`eres simulations obtenues. Il faut bien garder `a l’esprit
que chaque r´ealisation d’une simulation conditionnelle est en g´en´erale assez loin de la r´ealit´e.
La force de la m´ethode r´eside dans le nombre, i.e. dans la combinaison de l’ensemble des r
´ealisations.

Chaque simulation i peut-ˆetre r´e c u p´e r´e e `a l’aide de l’instruction simulation[[names(simulation)


[i]]]. On peut alors ´evaluer la surface inondable sur chacun des 50 simulations `a l’aide d’une
boucle :

7
En r´ealit´e, si l’estimateur brut a` partir du semis donne de meilleurs r´esultats que le krigeage, cela s’explique par le
fait que le tirage des points observ´es a ´et´e effectu´e suivant une loi rigoureusement uniforme. Si l’echantillonnage avait
240
´et´e plus inhomog`ene, comme c’est bien souvent le cas puisqu’il d´epend de consid´erations pratiques telles que la facilit´e
d’acc`es a` un site, l’estimateur brut par produit en croix sur les observations aurait ´et´e bien plus mauvais.

241
SURFACES = rep(0,50)

for (repetition in 1:length(SURFACES)){


SURFACES[repetition] = estimate(simulation[[names(simulation)[repetition]]])
}

Fig. 4.28. 8 simulations conditionnelles et dans chaque cas, l’´evaluations de la surface inondable.

A` l’issue de l’ex´ecution de cette boucle, le vecteur SURFACES contient les 50 estimations de surfaces
inondables associ´ees aux 50 simulations. On peut alors calculer plusieurs statistiques int´eressantes `a
partir de cet ´echantillon :

• En premier lieu ´evidemmment, la moyenne m du vecteur nous donne un estimateur


robuste de la quantit´e non-lin´eaire recherch´ee ( `a condition que le nombre d’´echantillons
soit suffisant, ce dont on s’assurera en augmentant le nombre de simulations g ´e n´e r´e e s
jusqu’`a convergence de m) :

m = mean(SURFACES)

Nous trouvons ici une valeur de 29.29 km2, soit une erreur relative de l’ordre de 5%, donc
bien plus faible que celle obtenue par le krigeage.

• Par ailleurs, un point positif important de la simulation est de disposer d’une population
d’´echantillons, ce qui permet d’´evaluer finement l’incertitude entˆachant la quantit´e estim
´ee. Il existe deux mani`eres de proc´eder : la premi`ere consiste `a supposer que la quantit´e
`a estimer est distribu´ee suivant une loi normale puis `a ´evaluer une bande de confiance en
multipliant l’´ecart- type de la population par un coefficient d´ependant du risque d’erreur
souhait´e (par exemple 1.96 si on souhaite calculer un intervalle de confiance `a 95%) :

b_inf = m - 1.96*sd(SURFACES)
b_sup = m + 1.96*sd(SURFACES)

Cependant l’hypoth`ese de normalit´e n’est pas toujours valide, et dans certains cas, elle
peut mˆeme conduire `a des intervalles compl`etement irr´ealistes, voire physiquement incoh
´erent (par exemple, on pourrait trouver une borne inf´erieure n´egative sur la surface
inondable, ou encore

242
une borne sup´erieure qui d´epasse la surface totale de la zone d’´etude).

Dans ce cas, pourquoi ne pas profiter du fait de disposer d’un ´echantillon de r´ealisations
pour estimer plus finement encore les bandes de confiance `a l’aide de quantiles ?

b_inf = as.vector(quantile(SURFACES, 0.05))


b_sup = as.vector(quantile(SURFACES, 0.95))

Avec cette seconde m´ethode, on peut dire qu’avec une marge d’erreur de 5%, la valeur vraie
de la surface inondable est comprise entre 21.3 et 36.2 km 2. En particulier, on remarque que
l’estimation faite par le krigeage est mˆeme en dehors de cet interval ! De mˆeme souligons le
fait que, `a cause de la non-lin´earit´e de la quantit´e `a estimer, le krigeage ne permettait pas
de donner une incertitude formelle sur la zone inondable.

Un avantage ind´eniable de cette seconde option est de produire en g´en´er al des intervalles
dis- sym´etriques (environ 7 km2 d’incertitude vers le haut, et 8 km 2 vers le bas) , ce qui est
une propri´et´e int´eressante, en particulier dans les cas o u` la quantit´e `a estimer est
proche8 de ses bornes physiques).

• Enfin pour synth´etiser graphiquement le r´esultat de toutes les simulations, on peut calculer un
histogramme ou une densit´e des valeurs estim´ees :

d = density(SURFACES)
plot(d$x, d$y, type="l", xlab="surface (km2)", ylab="freq")

Le r´esultat graphique obtenu est repr´esent´e en figure 4.29, sur lequel on voit clairement
la pr´edominance de la m´ethode par simulations par rapport au krigeage.

krigeage
0.
0.
fr

0.

valeur
simulationvraie
0.

10 15 20 25 30 35 40 45

2
surface (km )

Fig. 4.29. Distribution des surfaces de zone inondable estim´ees sur les 50 simulations
conditionnelles et moyenne des valeurs estim´ees (trait vertical noir). En rouge : valeur estim´ee
par le krigeage. En bleu : valeur vraie. En pointill´es : bandes de confiance associ´ees `a
l’estimation par simulation.

Du point de vue du d´ecideur publique, il peut ˆetre int´eressant ´egalement de disposer d’une
carte de probabilit´e d’inondation, i.e. un raster indiquant la probabilit´e que chaque cellule soit
situ´ee `a une
8
Par exemple, quand la grandeur q a` estimer est un pourcentage, si q_, est proche de 0 ou de 100, on s’attend a` ce que
l’intervalle soit plus lache du cot´e oppos´e `a la borne.
243
altitude inf´erieure au niveau de crue pr´edit. Pour ce faire, on commence par g´en´erer un
nombre plus important de simulations, typiquement 500 :

simulation = krige(Z∼1, PTS, GRID, model=vmod, nmax=50, nsim=500, debug.level=-1)

Pour chaque simulation, on calcule alors une carte d’indicatrice ]_z<t valant 1 si la cellule de
MNT est situ´ee `a une altitude z inf´erieure au niveau t de la crue et 0 sinon. Comme nous
l’avons fait remarquer pr´ec´edemment dans la section 3.7.6, la moyenne d’indicatrices ]_z<t sur un
grand nombre de r´ealisations est ´egale `a la probabilit´e P[Z < t]. On appelle RISQUE la matrice
contenant cette valeur de probabilit´e.

RISQUE = matrix(simulation$sim1*0, length(gx), length(gy))

for (k in 1:500){
VAL = matrix(simulation[[names(simulation)[k]]], length(gx), length(gy))
Ik = 0 + (VAL < threshold)
RISQUE = RISQUE + Ik
}

RISQUE = RISQUE/500

image(gx, gy, sqrt(RISQUE-0.001), col=rainbow(255))



Dans la repr´esentation graphique, nous op´erons la transformation p 1→ p − 0.001 pour deux raisons :
(1) pour diluer le bleu sur l’ensemble des zones de forte probabilit´e d’inondation (typiquement quand
p est sup´erieure `a 50% de risque) et (2) pour repr´esenter en blanc les zones pratiquement d
´epourvues de risques (p < 0.1%). On donne le r´esultat graphique obtenu en figure 4.30.

Fig. 4.30. Risque d’inondation pour une crue pr´edite `a 5 m. La probabilit´e d’inondation
´evolue de 0 (cellules rouges) `a 1 (cellules bleues). Les cellules blanches ont un risque nul d’ˆetre
impact´ees.

Par exemple, supposons qu’un site strat´egique (refuge, cellule de crise, site d’approvisionnement, cen-
trale nucl´eaire, etc.) soit situ´e au point de coordonn´ees (X = 11000 m, Y = 10000 m). Une
division par la r´esolution r =250 m nous donne imm´ediatement les indice (44,40) du point
dans la grille, et la valeur RISQUE[44,40] = 0.138 nous indique alors que le site en question a une
probabilit´e d’ˆetre en zone inondable de l’ordre de 14%.

Il est important de remarquer que, jusqu’`a pr´esent l’incertitude sur le fait d’ˆetre en zone
inondable r´esulte uniquement d’un manque de connaissance du MNT. Dans un cadre plus r´ealiste,
on doit ajouter

244
`a cette incertitude, celle li´ee `a la difficult´e de pr´evision. En effet, le niveau de la crue n’est pas
connu exactement en amont de l’´ev`enement, en g´en´eral on ne dispose que d’une estimation
avec un degr´e d’incertitude associ´e. Dans certains cas, les ´etudes hydrographiques r´ealis´ees en
amont sont suffisam- ment pouss´ees pour permettre d’associer une loi de probabilit´e `a cette
variable inconnue, e.g. : le niveau atteint par la crue sera distribu´e uniform´ement entre 0 et 30 m...
On est `a pr´esent dans un cadre bay´esien, autrement dit, la variable de niveau de crue qui jusqu’`a
pr´esent ´etait consid´er´ee comme un param`etre (fix´e `a 5 m) est `a pr´esent une variable al
´eatoire. Cela ne pose aucun probl`eme en simulation.

Une premi`ere m´ethode peut consister `a g´e n´e r e r des cartes de risque Rt pour un grand
nombre de niveaux de crue t = t1, t2, ... diff´erents, puis `a calculer la moyenne de ces cartes p ond
´er´ees par la probabilit´e p(t) d’avoir une crue de niveau t :

- L,
+∞ p(tk)Rt
R = [Z
P :( t] (4.
= t=−∞ P[Z :( t]p(t)dt ≈ L,k p(tk)
k

La carte R obtenue indique alors, en chaque lieu de la zone, la probabilit´e totale d’inondation (prenant
en compte tous les niveaux de crues possibles).

Une seconde m´ethode, plus directe en termes de d´eveloppement, exploite encore un peu plus la strat
´egie de type Monte-Carlo, en tirant le niveau de crue al´eatoirement et pour chaque simulation
suivant sa distribution p. Par exemple, si le niveau de crue est distribu´e uniform´ement entre 0
et 30 m, le code devient :

RISQUE = matrix(simulation$sim1*0, length(gx), length(gy))


T = runif(500,0,30)

for (k in 1:500){
VAL = matrix(simulation[[names(simulation)[k]]], nx, ny)
Ik = 0 + (VAL < threshold)
RISQUE = RISQUE + Ik
}

RISQUE = RISQUE/500)

image(gx, gy, sqrt(RISQUE-0.001), col=rainbow(255))

On donne en figure 4.31 le r´esultat de cette analyse bay´esienne pour 4 sc´enarii diff´erents
sur la pr´ediction a priori du niveau de la crue. Dans le premier cas (a) on consid`ere que la
niveau de crue est parfaitement connu et ´egal `a 15 m : formellement, il est donc distribu´e
suivant une loi de dirac δ15. Dans les trois autres cas (b `a d), il est al´eatoire et distribu´e
respectivement suivant une loi uniforme entre -10 et 40 m, suivant une loi normale de moyenne et
d’´ecart-type 15 m et suivant une loi exponentielle de moyenne 15 m.

Remarquons que dans ces trois derniers cas, la variable al´eatoire de niveau de crue a
approximative- ment la mˆem e moyenne et le mˆem e ´ecart-type, autrement dit les trois scenarii
pronostiquent le mˆem e niveau de crue en moyenne, et sont entˆach´es de la mˆeme quantit´e
globale d’incertitude. Pour autant, les cartes de risques g´e n´e r ´e e s sont significativement diff
´erentes : en particulier, la loi exponentielle (d)
´etant une distribution `a queue lourde (et donc favorisant l’apparition d’´ev`enements rares), elle rend
possible l’impact de la crue en des zones syst´ematiquement ´epargn´ees par les autres distributions. A`
l’inverse, le risque de crue `a basse altitude (typiquement dans la vall´ee) y est
proportionnellement moins important.

245
De mˆeme, si on reprend le site strat´egique (situ´e aux coordonn´ees X = 11000 m, Y = 10000
m), on obtient des probabilit´es d’inondation relativement diff´erentes en fonction du mod`ele de pr
´ediction de crue utilis´e : 43% avec les mod`eles d´eterministe et uniforme (a et b), 47% avec le
mod`ele normal et 36% avec le mod`ele exponentiel.

a. b. c. d.
2

2
1

1
5

5
0

0
0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000

a. b. c. d.
1

0
.

0
.
0.6

0.0100.020

0
0.010

.
0.4

0.005

0
.
0.2

0
0

0
0

.
.

0 20 40 60 0 20 40 60 0 20 40 60 0 20 40 60

Fig. 4.31. Cartes de risque d’inondation (en haut) pour 4 pr´edictions hydrographiques diff
´erentes (en bas), suivant que le niveau de la cure est : (a) d´eterministe δ15, (b) distribu´e
suivant la loi uniforme U ([−10; 40]), (c) distribu´e suivant la loi normale N (15, 152) ou (d) distribu
´e suivant une loi
exponentielle E (1/15).

Un atout important de la simulation est qu’une mˆem e population de r´ealisations peut


permettre de r´epondre `a une large gamme de questions. En particulier, on peut ´evaluer des
quantit´es qui ne poss`edent mˆeme pas d’expression analytique simple, comme par exemple : d
´eterminer la probabilit´e d’apparition d’enclaves apr`es la crue, calculer la loi de probabilit´e de la
plus grande surface ´epargn´ee, ou encore ´evaluer l’allongement moyen des temps de trajets en
prenant en compte la coupure de ponts, etc. On illustre ce propos avec un exemple simple, en consid
´erant une ligne ´electrique dont on donne ci-dessous les coordonn´ees planes du trac´e (grossier)
:

X = c(0,5,12,15,15.5,17.5)*10**3
Y = c(24,24.75,20.3,15,14.5,12)*10**3

Dans un premier temps, on affine la pr´ecision de la ligne en sur-´echantillonnant ses coordonn´ees :

LINE = approx(X,Y,xout=seq(0,17000,100))

o u` la valeur 17000 repr´esente la coordonn´ee X maximale de la zone et la valeur 100 repr´esente le nom-
bre de points souhait´es en A` l’issue de la proc´edure d’interpolation, l’objet LINE contient les
sortie.
coordonn´ees sur-´echantillonn´ees LINE$x et LINE$y de la ligne. On peut alors convertir ces coordonn
´ees en indice de cellules du MNT, en les divisant par la r´esolution r :

LX = floor(LINE$x/r)+1
LY = floor(LINE$y/r)+1

On suppose dans un premier temps que la ligne est positionn´ee `a une hauteur de 3 m par rapport au sol :

hgt_line = 3

On peut alors ´ecrire une fonction coupure permettant de tester si la ligne est impact´ee par la
crue. Pour ce faire, on parcourt toutes les coordonn´ees de la ligne (d’ou` l’int´erˆet de l’avoir
246
´echantillonn´ee

247
suffisemment finement), et pour chaque point, on r´ecup`ere son altitude dans le MNT et on y
ajoute la hauteur de ligne hgt_line. Si pour au moins un point cette valeur est inf´erieure au niveau
de la crue, alors la ligne est coup´ee.

coupure = function(Z){
for (i in 1:length(LX)){
if (Z[LX[i], LY[i]] + hgt_line < threshold){
return(TRUE)
}
}
return(FALSE)
}

Dans cette derni`ere section, on suppose `a nouveau que le niveau de la crue threshold est d
´eterministe et f ix´e `a 5 m. On applique alors la fonction coupure sur chaque simulation g ´e n
´e r ´e e et on calcule la proportion de cas o u` la ligne est coup´ee.

COUPURE = rep(FALSE, 500)

for (k in 1:500){
Z = matrix(simulation[[names(simulation)[k]]], length(gx), length(gy))
COUPURE[k] = coupure(Z)
}

proba_coupure = sum(COUPURE)/length(COUPURE)

Avec 500 simulations, on trouve une probabilit´e de coupure de 17.6 %. Pour complexifier
l’exercice, on peut chercher `a d´eterminer la hauteur d’installation hgt_line de la ligne (par
rapport au sol) per- mettant de garantir que le risque de coupure en cas de crue est inf´erieur `a
5%. Sur le mˆe me jeu de simulations, on trouve que la ligne doit ˆetre install´ee `a une hauteur
minimale de 9.10 m.
2

0
.

● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●● ●●●●●
●●●●●●
●●●●●●
2

●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●

● ●●●

●●●

●●●

●●●
●●●

●●●

●●●

●●●
●●●
0
.

●●●

● ●●●●
1

● ●●●
●●●
R
g

g
y

●●●
●●●
●●●

1

0
.
5

0
.
0

0 5000 10000 15000 0 5000 10000 15000 4 6 8 10 12 14

gx gx H

Fig. 4.32. A` gauche : MNT r´eel et trac´e de la ligne ´electrique. Au centre : un exemple de simulation
avec la crue associ´ee et discr´etisation de la ligne A` droite : probabilit´e de coupure de la
´electrique.
ligne en fonction de sa hauteur par rapport au sol. L’installation est consid´er´ee comme suˆ re (risque inf
´erieur `a 5%) pour une hauteur de 9.10 m.

248
4.4 Bilan
En comparaison des m´ethodes d´eterministes, le krigeage poss`ede l’avantage de permettre le
calcul d’une variance de l’erreur d’estimation, qui peut ˆetre interpr´et´ee comme le degr´e
d’incertitude en- tourant la pr´ediction effectu´ee. Cependant, si le mod`ele de variogramme utilis
´e n’est pas satisfaisant (variogramme exp´erimental mal estim´e, choix non pertinent du mod`ele
th´eorique de variogramme ou non-convergence de la r´egression param´etrique) on obtient en g
´e n´e r a l des variances d’estimations compl`etement fauss´ees et qui peuvent induˆment faire pr
´esumer que l’estimation est d’une qualit´e meilleure qu’elle ne l’est r´eellement. Il est donc n
´ecessaire de disposer de m´ethodes objectives de validation des pr´edictions effectu´ees par
krigeage. Dans le cadre particulier de l’interpolation, la vali- dation crois´ee consiste `a r´eestimer
les valeurs prises par le ph´enom`ene au niveau de chacun des points du semis d’observations, et `a
l’aide de toutes les autres donn´ees. La diff´erence entre la valeur pr´edite et la valeur effectivement
observ´ee, moyenn´ee sur l’ensemble de la zone, produit un bon estimateur de la qualit´e globale de
la proc´edure.

Dans un seconde partie, nous avons ´e t u d i´e une application alternative du krigeage :
l’optimisation bay´esienne (ou s´equentielle), qui consiste `a alterner des ´etapes
d’interpolation et d’observation pour d´eterminer l’optimum d’une fonction num´erique f en
minimisant le nombre de relev´es n´ecessaires. �A` chaque ´etape, la m´ethode calcule une
estimation fn de la fonction inconnue `a l’aide des n points de donn´ees observ´es dans le pass´e.
La position du (n�+ 1)-eme point `a observer est d´etermin´ee `a l’aide de l’estimateur fn et de ses
bandes de confiance, et on it`ere le processus jusqu’`a un nombre maximal p r´e f i x´e
d’observations, ou alors jusqu’`a atteindre un optimum satisfaisant. L’optimisation bay´esienne est un
outil de choix lorsque les observations sont couˆteuses, chronophages ou risqu´ees.

Enfin, dans une troisi`eme section, nous avons introduit le concept important de simulations. Une
sim- ulation conditionnelle est une r´ealisation al´eatoire d’un processus stochastique (de
variogramme connu) passant par tous les points du jeu de donn´ees. Il s’agit donc en quelques
sortes d’une r´eali t´e alternative compatibles avec les observations. Lorsque le semis de points est
vide, la simulation n’est pas contrainte, et on parle de simulation non-conditionnelle. Nous avons
vu comment effectuer ces deux types de simulations, `a l’aide de la factorisation de Cholesky ou
encore par krigeage s´equentiel. Elles poss`edent deux applications fondamentales : l’analyse de
propagation d’erreurs et l’estimation de quantit´es non-lin´eaires. Dans ce second cardre en
particulier, nous avons vu `a travers de nombreux exemples, que le krigeage est syst´ematiquement
plus lisse que la r´ealit´e, induisant ainsi un biais dans l’estimation des d´epassements de seuil.
Nous avons vu dans le chapitre pr´ec´edent que de nombreux es- timateurs s’expriment de mani`ere
lin´eaire (somme, diff´erence, moyenne, cumul, pente, convolution...), ce qui est remarquable eut
´egard au fait que ces fonctions lin´eaires ne repr´esente qu’une infime partie de l’ensemble des
fonctions calculables sur une variable r´egionnalis´ee. En pratique, la majorit´e des grandeurs qui
vont nous int´eresser in fine, sont non-lin´eaires : surface d´epassant un seuil, pente max- imale,
probabilit´e de coupure d’un r´eseau ´electrique par une inondation, ´etendue visible depuis un
point d’observation... L’´evaluation direct de ces quantit´es sur la variable krig´ee ne sera en g´en
´eral pas un bon estimateur. La technique de simulation conditionnelle, qui pr´econise de moyenner
la quantit´e d’int´erˆet obtenue sur un grand nombre de r´ealisations, offre une solution simple `a
ce probl`eme, per- mettant de s’´epargner le recours `a la G´eostatistique non-lin´eaire.

249
Appendix A

R´egularit´e d’un processus stochastique

E´ tudier la r´egularit´e d’un processus stochastique Z (en particulier sa continuit´e et sa d


´erivabilit´e) permet de se faire une id´ee de la r´egularit´e de ses r´ealisations z. Il faut avoir les id
´ees claires : il s’agit bien d’une notion probabiliste. Dire qu’un processus stochastique est continu ne
signifie pas que toutes ses r´ealisations sont syst´ematiquement continues en tout point, comme le
montre le contre-exemple
B.7. L’implication est plus modeste et de mani`ere informelle on pourrait l’´enoncer comme suit :
en un point donn´e du domaine, une r´ealisation va probablement ˆetre continue. Dans cette
annexe, pour la clart´e de l’expos´e, nous nous limitons au cas d’un processus uni-dimensionnel X. La
g´en´eralisation aux dimensions sup´erieurs ne pose pas de probl`eme 1 .

A.1 D´efinitions
Une fonction r´eelle f est continue si la valeur qu’elle prend en deux points infinit´esimalement
proches tendent `a devenir ´egales, i.e. si f (t + ∆t) tend vers f (t) `a mesure que ∆t tend `a
s’annuler.

Pour une r´ealisation particuli`ere x d’un processus X, cette d´efinition a un sens, mais on souhaiterait
ˆetre plus g´en´eral, et pouvoir caract´eriser la capacit´e du processus X `a produire des r
´ealisations con- tinues. On doit donc v´erifier que la variable al´eatoire X(t + ∆t) converge vers
X(t) en tout point t du domaine. Or, pour une variable al´eatoire, il existe de nombreux modes de
convergences diff´erents (Lecoutre, 2002) : convergence en loi, en probabilit´e, presque suˆre, en
moyenne d’ordre r... Pour car- act´eriser la r´egularit´e des signaux al´eatoires, on utilise en g´en
´eral la convergence en moyenne d’ordre 2, dite en moyenne quadratique, consistant `a v´erifier que
l’esp´erance du carr´e de l’´ecart entre la variable et sa limite tend vers 0.

Continuit´e en moyenne quadratique. Un processus stochastique X : R × Ω → R est dit


continue en moyenne quadratique (m.q.) si, et seulement si, pour tout point t ∈ R :

1t )l
lim E X(t + ∆t) − X(t) 2 = 0 (A.1)
∆t→0

De la mˆeme mani`ere, on peut d´efinir la notion de d´erivabilit´e en moyenne quadratique :

D´erivabilit´e en moyenne quadratique. Un processus stochastique X : R × Ω → R est dit d


´erivable en moyenne quadratique si, et seulement si, pour tout point t ∈ R :

1( X(t + ∆t) − X (t) )2l


lim E (A.2)
∆t→0 ∆
1
Notamment en se ramenant a` des processus 1D avec des d´eriv´ees directionnelles.

250
existe et est une quantit´e finie Zt(t) : la d´eriv´ee du processus Z en t.

Remarquons que si Z est d´erivable en moyenne quadratique, Zt estt aussi un processus stochastique.
On montre facilement que si Z est stationnaire, alors sa d´eriv´ee Z l’est aussi. La r´eciproque n’est
pas
n´ecessairement vraie : il suffit de consid´erer l’exemple d’une marche al´eatoire Z (non-
stationnaire) dont les incr´ements Zt sont stationnaires.

A.2 Liens avec le variogramme


Les notions de continuit´e et de d´erivabilit´e ´etant intrins`equement locales, il n’est pas
surprenant de le voir ´etroitement li´ees avec le comportement du variogramme (et de la fonction
de covariance) au voisinage de l’origine (i.e. pour des distances infinit´esimales entre sites).

Dans cette section, nous consid´ererons la cas particulier d’un processus stationnaire `a l’ordre 2 et
nous nous autoriserons donc `a utiliser la fonction de covariance. Notons que les mˆemes r´esultats
peuvent
ˆetre obtenus directement `a partir du variogramme, c’est-`a - dire pour un processus dont la
stationnarit´e est strictement intrins`eque.

Th´eo r`em e : un processus stochastique X est continue en moyenne quadratique si, et


seulement si, son variogramme γ est continu en 0.

La d´emonstration est imm´ediate `a partir de la d´efintion A.1 et de l’expression 2.8 du variogramme :

1t )2l
E X(t + ∆t) − X(t) = 2γ(∆t)

et donc, la quantit´e A.1 converge quand ∆t → 0 si, et seulement si, γ(t) tend vers γ(0) = 0, i.e. si le
variogramme γ est continu en l’origine.

Par application de ce th´eor`eme, tout variogramme muni d’une composante p´epitique (non-
nulle) est irr´evocablement discontinu en moyenne quadratique.

Il est int´eressant de noter que la r`egle est exactement la mˆeme pour les processus
stationnaires `a l’ordre 2 : d’apr`es le t h´e or`em e 26, C(h) = C(0) − γ(h), et donc γ(h) tend vers
0 si et seulement si C(h) tend vers C(0), et donc la fonction de covariance doit ˆetre continue en
l’origine.

Remarque. On peut montrer que le variogramme est continu en 0 si, et seulement si, il est
continu sur R. En effet, consid´erons la diff´erence des valeurs prises par le variogramme pour deux
´ecarts τ et τt :

|γ(τ ) − γ(τ t)| = |C(0) − C(τ ) − C(0) + C(τt)| = |C(τ ) − C(τt)| = Cov[X(τ ), X(0)] − Cov[X(τt), X(0)]

J J
= Cov[X(τ ) − X(τt), X(0)] :( Var[X(τ ) − X(τt)]Var[X(0)] = σX 2γ(τ − τt)

et donc, si γ(τ −τ t ) tend vers 0 quand la quantit´e τ −τ t s’annule, n´ecessairement γ(τ ) tend vers
γ(τt), ce qui montre la continuit´e de γ sur .
R

251
Consid´erons `a pr´esent un processus X continue en m.q. et examinons les conditions sous lesquelles la d
´erivabilit´e de X est garantie.

Th´eo r`eme : le processus stochastique X est d´erivable en m.q. si, et seulement si, son variogramme
γ est deux fois d´erivable en 0.

Pour la preuve, on consid`ere le processus Xt, diff´erence finie de X :

X(t + ∆t) − X(t)


Xt(t) = ∆t

∆t est une quantit´e finie, donc ont peut utiliser Xt mˆeme sans avoir au pr´ealable d´emontr´e la d
´erivabilit´e de X. Par ailleurs X est un accroissement, i.e une combinaison lin´eaire de variables
al´eatoires de poids total nul, on peut donc utiliser la covariance, mˆeme dans le cas intrins`eque :

1
C (τ ) = Cov[Xt(t + τ ), Xt(t)] = Cov[X(t + ∆t + τ )X(t + τ ) X(t + ∆t) + X(t)]
X ∆t 2 −
1 CX (∆t + τ ) − 2C(τ ) + CX (τ − ∆t)
= Cov[X(∆t + τ ) − X(τ ) − X(∆t) + X(0)] =
∆ ∆

La fonction de covariance CX (τ ) est donc ´egale `a la diff´erence finie d’ordre 2 de la covariance


de X. Pour que la d´e ri v´ee de X existe, il faut pouvoir faire tendre ∆t vers 0. La diff´erence
finie d’ordre 2 tend donc vers une d´eriv´ee seconde, et le processus X est d´erivable en m.q.
si et seulement si sa fonction de covariance est deux fois d´erivable. Le variogramme doit donc v
´erifier cette mˆeme propri´et´e.

Remarque : tout comme pour la continuit´e, on peut montrer que cette condition est
´equivalente `a la d´erivabilit´e d’ordre 2 du variogramme en 0.

A.3 R´egularis´ee d’un variogramme


Dans cette section, nous ´etablissons un lien entre la notion de variogramme r´egularis´e et la r
´egularit´e du processus sous-jacent.

On se place en 1D sur la droite r´eelle et on consid`ere un processus Z de variogramme lin´eaire γ : h


1→ h. Soit V = [0, 1] un sous-domaine de . Calculons le variogramme r´egularis´e sur V (on ne
consid´erera que la cas h > 0 puisque R le variogramme est sym´etrique) : γ (h) = γ(V, Vh) − γ(V,
V
V ) avec :

- - - 1 - 1
1
γ(V, Vh) =
γ(x − y)dxdy |y + h − x|
|V ||V h | V V 0 0
Par ailleurs, en supposant dans un premier temps h < 1 (i.e. que les blocs V et Vh se recouvrent) on
peut d´ecomposer le domaine d’int´egration en 3 parties en fonction du signe de y + h − x :

- h - - 1 - - 1-
γh(V ) = 1 (y + h − x)dydx 1 (y + h − x)dydx x−h (x − y − h)dydx
+ +
0 0 h x−h h 0

252
On peut r´esoudre chaque int´egrale individuellement et sommer les r´esultats obtenus.
Alternativement, on peut consid´erer le probl`eme de mani`ere purement g´eom´etrique. L’objectif
consiste `a calculer le vol-
ume contenu entre le plan z = 0 et la surface d’´equation z(x, y) = |y + h − x|. Remarquons que sans
la valeur absolue, l’int´egrale recherch´ee vaut h. Pour tenir compte de la valeur absolue, on doit
ajouter
`a cette valeur moyenne deux fois le volume de la pyramide qui a ´e t ´e comptabilis´ee en dessous du plan
z = 0. La base de cette pyramide est un triangle rectangle isoc`ele de c ˆo t ´e et de hauteur 1 − h.

Fig. A.1. L’int´egrale de |y + h − x| vaut h plus deux fois le volume de la pyramide `a droite.

3
On obtient alors : γ(V, ) = h + (1−h) . Au passage, on en d´eduit que γ(V, V ) = 1 et donc :
V
h 3 3

(1 − h)3 1
2 h3 si h :( 1
γV (h) = h + 3 − =h
3 3


On trouve bien un comportement parabolique `a l’origine. La r´egularisation du variogramme
corre- spond `a un lissage des r´ealisations, ce qui semble intuitif puisque le fait de moyenner le
champ sur des blocs r´eduit d’autant la variabilit´e du processus.

Lorsque h > 1, la quantit´e y+h−x est toujours positive et le calcul de l’int´egrale donne imm
´ediatement γV (h) = h− 1 . On retrouve un comportement lin´eaire lorsque les moyennes sont
calcul´e sur des
3 blocs disjoints. En particulier, on v´erifie que la fonction γV est bien continue en
h = 1.
1
1
0
0

0.0 0.5 1.0 1.5

Fig. A.2. Variogramme d’un processus 1D (en bleu) et variogramme r´egularis´e sur le bloc V = [0,
1] (en rouge). Pour h � 1 le variogramme r´egularis´e reprend son aspect lin´eaire.

253
Appendix B

Contre-exemples pratiques

B.1 Deux variables al´eatoires d´ecorr´el´ees mais pas ind´ependantes


Prenons X ∼ U ([−1, 1]), une variable al´eatoire distribu´ee suivant une loi uniforme sur [−1, 1],
et posons Y = X . Le couple (X, Y ) est un couple de variables al´eatoires r´eelles. Etant donn´e que
Y est 2 ´
d´efini en fonction de X, les deux variables ne sont pas ind´ependantes. Pour s’en convaincre, on peut
regarder les probabilit´es conditionnelles :

1
P[X = 1|Y = 1] = P[X = 1|X 2 = 1] = P[X = 1|X ∈ {−1, 1}] =
2

Or, la loi de X ´etant continue, on a P[X = 1] = 0, donc :

P[X = 1|Y = 1] /= P[X = 1]

Les variables X et Y sont donc d´ependantes. Calculons leur covariance :

- +1 3
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] = E[X 3] = 1 x dx = 0
2 −1

o u` la seconde ´egalit´e r´esulte du fait que E[X] = 0. On a donc :

Cov(X, Y )
ρXY = J =0
Var[X]Var[Y ]

Le couple de v.a. (X, Y ) est donc d´ependant et d´e c o r r´e l´e `a la fois. Cet exemple nous
montre que l’ind´ependance est une notion plus forte que la d´ecorr´elation. L’ind´ependance
implique que ρXY = 0, mais la r´eciproque n’est pas vrai en g´en´eral.

Le coefficient de corr´elation et la covariance ne mesurent que la d´ependance lin´eaire de deux


variables. On peut rencontrer des sch´emas de d´ependance plus complexes (comme ici en X2),
impliquant une d´ecorr´elation des variables.

254
B.2 Une variable al´eatoire qui ne poss`ede pas d’esp´erance
On consid`ere la loi de Cauchy centr´ee en 0 et de param`etre 1, d´efinie par la densit´e :

1
p(x) =
π(x2 + 1)

On v´erifie que π est bien une densit


´e :

- +∞ dx 1
- +∞ = arctan(x) ]+∞ = 1
π(x)dx = −∞ π(x2 + 1) π −∞
−∞ [

Calculons l’esp´erance de la loi :

E[X] = +∞
x
- +∞ - π(x2 + 1)
xπ(x)dx = dx
−∞ −∞

x
π(x2+1) 1 en l’infini, donc n’est pas int´egrable. La queue de la distribution est trop lourde et
O x

donc l’esp´erance n’existe pas.

Cela peut sembler d’autant plus ´etonnant que la loi est sym´etrique et que sa m´ediane vaut
donc 0.Pourtant, lorsqu’on tente d’appliquer la loi des grands nombres, on observe empiriquement
que la moyenne d’une s´erie de valeurs distribu´ees suivant cette loi ne converge pas vers 0.
Informellement, on peut dire que la probabilit´e d’apparition de valeurs extrˆemes n’est pas
suffisamment faible pour que la moyenne des tirages se stabilise.

On peut facilement simuler une loi de Cauchy en R, par exemple en prenant le quotient de deux
variables gaussiennes : rnorm(1,0,1)/rnorm(1,0,1). On peut alors r´ealiser l’exp´erience ci-dessus
avec l’instruction :

plot(cumsum(rnorm(N,0,1)/rnorm(N,0,1))/N, type="l")

o u` N est un entier qu’on pourra faire croˆıtre progressivement, en commen¸cant par une centaine.
Ce r´esultat n’est pas contradictoire, puisque la loi des grands nombres ne s’applique que pour
une suite de variables al´eatoires dont l’esp´erance existe.

B.3 Une variable al´eatoire qui ne poss`ede pas de variance


De la mˆeme mani`ere que pour le contre-exemple B.2, il faut trouver une loi dont le produit
de la densit´e par x2 n’est pas int´egrable. On peut prendre la loi d´efinie sur [1; +∞[ par p : x
1→ 2/x3. On v´erifie que p est bien une densit´e de probabilit´e :

1 −3
+∞ - ∞
1
- p(x)dx = + 2
x
255
1
dx = −x − 2
+∞
l
=1
1

256
De mˆeme, on v´erifie ´egalement que l’esp´erance existe bien :

- - 1
+∞ +∞ 2 l +∞
E[X] 1
xp(x)dx 2 − =
dx
x2 x
1

On montre alors que la variance est infinie :

-
2 2 +∞
dx − 4 =2
lim ln x
Var[X] = ]− =
1 x
La fonction 2/x n’est pas int´egrable sur [1; +∞[ donc la variance est infinie.

B.4 Un processus stationnaire mais non-ergodique


Il suffit de consid´erer le signal al´eatoire constant sur chaque r´ealisation : Z(x, ω) = A(ω), o u` A
est une variable al´eatoire r´eelle d’une loi quelconque, prenant au moins deux valeurs possibles diff
´erentes. La d´efinition de Z ne d´epend pas de x donc ce processus est clairement stationnaire (au
sens strict). Il y a
donc au moins une r´ealisation ω0 ∈ Ω telle que A(ω0) /= E[A], et donc : la moyenne sur le domaine
an- alytique de Z(., ω0) vaut A(ω0) /= E[A] = E[Z(x)]. Le processus Z n’est donc pas ergodique `a
l’ordre 1.

B.5 Un processus ergodique `a l’ordre 1 mais pas `a l’ordre 2


On peut consid´erer le processus Z(x, ω) = A(ω)Y (x, ω(x)) o u` A est une variable al´eatoire r´eelle
d’une loi quelconque, prenant au moins deux valeurs possibles diff´erentes, et Y (0, 1) est un
bruit blanc. ∼
On a alors E[Z(x)] = E[A]E[Z(x)] = 0 (puisque A et Y sont ind´ependantes). Par ailleurs, la
moyenne analytique d’une r´ealisation quelconque ω0 ∈ Ω est :
- -
Z(x, ω0)dx = A(ω0)Y (x, ω(x))dx = A(ω0) - Y (x, ω(x))dx = 0
R R
R

Le processus est donc ergodique `a l’ordre 1. En revanche, on a E[Z2] = Var[Z(x, ω)] = Var[A]Var[Y (x, ω(x)]
= Var[A]. Or, le moment d’ordre 2 calcul´e sur une r´ealisation ω0 est :

- -
Z(x, ω0) dx = A(ω0)
2 2
Y (x, ω(x))2dx = A(ω0)2
R R

et en g´en´eral, A(ω0)2 /= Var[A]. Le processus n’est donc pas ergodique `a l’ordre 2.

257
B.6 Un processus strictement intrins`eque
Un processus stochastique X est dit strictement intrins`eque lorsqu’il v´erifie l’hypoth`ese de
station- narit´e intrins`eque (def. 26) sans ˆetre stationnaire au second ordre (def. 20).

On peut reprendre l’exemple de la marche al´eatoire de l’activit´e II, dont nous avions montr´e
que la fonction de covariance valait :

Cov(X(t), X(t + τ )) ∝ min(t, t + τ ) = t

en supposant l’intervalle τ � 0, et o u` le symbole ∝ signifie que la covariance est exprim´ee `a un


facteur multiplicatif pr`es d´ependant de la variance des incr´ements individuels. La covariance d
´epend du temps
absolu t et pas uniquement de l’intervalle de temps τ s´eparant les deux ´echantillons. Le
processus n’est donc pas stationnaire au second ordre 1.

Etudions alors le processus form´e par les accroissements de X :

Y (t) = X(t) − X(t − 1)

On a : E[Y (t)] = E[X(t)] − E[X(t − 1)] = 0. Par ailleurs :

Cov(Y (t), Y (t + τ )) = Cov(X(t) − X(t − 1), X(t + τ ) − X(t + τ − 1)) = Cov(X(t), X(t + τ ))−
Cov(X(t), X(t+τ−1))−Cov(X(t−1), X(t+τ ))+Cov(X(t−1), X(t+τ−1)) ∝ t−t−(t−1)+(t−1) = 0

Les incr´ements sont donc d´e co r r´e l´es et le processus Y est stationnaire au second ordre. X est
donc un processus strictement intrins`eque. L’implication pratique en g´eostatistique est qu’on ne
peut pas calculer le covariogramme de X puisqu’il ne d´epend pas que de l’´ecart τ entre les sites.
En revanche, le variogramme est bien d´efini et on a :

1 1( ) 1t )
γX(τ ) = Var[X(t+τ )−X(t)] =
Var[X(t+τ )]+Var[X(t)]−2Cov(X(t+τ ), 2 t+τ
2

Et donc, le variogramme ne d´epend bien que de l’´ecart τ :

τ
γX(τ ) =
2

C’est un variogramme lin´eaire sans palier (hypoth`ese intrins`eque donc variogramme non-born
´e). Son comportement `a l’origine est lin´eaire, donc d’apr`es l’annexe A, le processus X est
continu mais non- d´erivable en moyenne quadratique, ce qui explique l’aspect erratique d’une
marche al´eatoire.

1
Nous avions vu cependant dans l’activit´e II qu’il ´etait tout de mˆeme stationnaire au premier ordre.

258
B.7 Un processus continu en m.q. dont toutes les r´ealisations
sont discontinues
Le contre-exemple suivant, ti r´e de Picinbono (1998), est int´eressant pour bien comprendre que la
con- tinuit´e en m.q. n’est qu’une notion probabiliste, elle ne s’applique donc pas syst
´ematiquement en tout point du domaine et pour toutes les r´ealisations.

On consid`ere une variable al´eatoire r´eelle S ∼ U ([0, 1]), distribu´e suivant une loi uniforme sur
l’intervalle [0, 1], ainsi qu’un processus X : [0, 1] × Ω → R d´efini par :

0 si t :( S
X = �1 sinon.
(B.1)
t

Fig. B.1. Processus stochastique X ´echelon unit´e au temps S al´eatoire.

Tr`es clairement, toute r´ealisation x de ce processus est discontinue (la position S du lieu ou
survient cette discontinuit´e ´etant toutefois al´eatoire). Pourtant on peut montrer que le
processus X est con-
tinu en m.q. : consid´erons la grandeur al´eatoire X(t) − X(t + ∆t). Elle ne peut prendre que
deux valeurs possibles, `a savoir 1 si s ∈ [t; t + ∆t[ et 0 sinon. Cette quantit´e est donc distribu
´ee suivant une loi de Bernoulli dont la probabilit´e de succ`es est ´egale `a la largeur de
l’intervalle consid´er´e :
P[X(t) − X(t + ∆t) = 1] = ∆t, d ’ou` l’esp´erance quadratique :

[ ]
E (X(t) − X(t + ∆t))2 = P[X(t) − X(t + ∆t) = 1] = ∆t −→ 0
∆t

Le processus est donc continu en m.q., malgr´e la discontinuit´e syst´ematique de ses r´ealisations.

259
Index

Accroissements, 48, 98 Eventualit´es ´el´ementaires, 10


Analyse de sensibilit´e, Exactitude, 109
150 Anisotropie, 77 Exp´erience al´eatoire, 10
autocorr´elation, 19
Autorisation (contrainte), 92 Fonction al´eatoire, 30
Fonction de r´epartition, 13
Biais, 23, 54, 132, 137 fonction g´en´eratrice des moments, 24
Bilin´earit´e, 19 Fonction objectif, 94
Bochner (th´eor`eme), 78 Fourier, Joseph, 68
Bruit blanc, 68, 73
Bruit brownien, 66 G´eostatistique multivari´ee, 128
Bruit de num´erisation, 18, 21 Georges Matheron, 7
GPS, 7, 13, 15, 29, 61, 65, 69
Cauchy-Schwarz (in´egalit´e), 19 Gradient, 94
Champ al´eatoire, 30
Champ scalaire, 8 Heaviside (fonction, 78
Champ vectoriel, 7
Cholesky (factorisation), 148 Interpolateur exact, 109
Co-krigeage, 128 Interpolation, 29, 83
Coefficient de suret´e, 142 Intervalle de confiance, 101, 142
Compromis biais-variance, 133 Intrins`eque (hypoth`ese), 48
Compromis biais-variances, 23 Continuit Isotropie, 37
´e en moyenne quadratique, 62 Kolmogorov (axiomes), 10
Convolution, 81, 111 Krigeage, 83
Corr´elation, 19 Krigeage al´eatoire, 127
Covariance, 19 Krigeage avec d´erive externe,
Covariance r´egularis´ee, 120 126 Krigeage d’indicatrice, 129
Covariogramme, 37 Krigeage de la moyenne, 117
D´efini-n´egativit´e conditionnelle, 78 Krigeage dual, 114
D´erivabilit´e en moyenne quadratique, 62, Krigeage intrins`eque, 97
111 Danie Gerhardus Krige, 6 Krigeage mou, 130
Densit´e de probabilit´e, 14 Krigeage ordinaire, 95
Densit´e spectrale de puissance, 79 Krigeage par blocs, 119
Krigeage s´equentiel, 147
Ecart-type, 18 Krigeage simple, 116
Echelon unit´e, 78 Krigeage universel, 123
Effet de lissage, 113
Ensemble fondamental, 12 Lagragien, 94
Ergodicit´e `a l’ordre 1, 39 Lin´earit´e (contrainte), 91
Ergodicit´e `a l’ordre 2, 40 Loi binomiale, 16
Erreur d’estimation, 91 Loi jointe fini-dimensionnelle, 35
Erreur normalis´ee, 134 Loi log-normale, 25
Erreur syst´ematique, 24 Loi normale, 17, 31, 66
Esp´erance, 15 LOOCV, 132
Espace probabilis´e, 10 M´ethodes d´eterministes, 29, 138
Espace topo-probabiliste, 30 Marche al´eatoire, 31, 36

260
Matrice de covariances, 20 Universalit´e (contrainte), 92
MNT, 6, 7, 29, 56, 60, 69, 103
Mod`ele `a effet de p´epite, 69 Validation crois´ee, 131
Mod`ele `a effet de trou, 67 Variable al´eatoire, 12
Mod`ele cubique, 67 Variable auxiliaire, 128
Mod`ele de variogramme, Variable r´egionalis´ee, 7, 29, 30
62 Mod`ele exponentiel, Variables d´ecorr´el´ees, 20
65 Variables ind´ependantes, 20
Mod`ele gaussien, 66 Variance, 18
Mod`ele gigogne, 69 Variance expliqu´ee, 133
Mod`ele lin´eaire, 63 Variogramme, 48
Mod`ele lin´eaire avec palier, Variogramme exp´erimental, 50
64 Mod`ele p´epitique pur, Variogramme p´epitique, 61
68 Mod`ele puissance, 64 Variogramme r´egularis´e, 120
Mod`ele sph´erique, 66 Vecteur al´eatoire, 30
Moments statistiques, 23
Multiplicateur de Lagrange, 94

Noyau, 85
noyau, 137

Optimalit´e (contrainte), 93
Optimisation bay´esienne, 140

P´epite, 60, 145


P´epite pure, 73
Palier, 59
Parabolique, 61
Plus proche voisin, 138 Port
´ee, 60
Probabilit´e, 10
Probl`eme mod`ele, 7, 29
Processus markovien, 32
Processus stochastique, 30
Propagation d’incertitudes, 20

R´egression lin´eaire, 74
R´egularisation, 121
Ratio signal sur bruit, 73
RMSE, 75, 137

Semi-variogramme, 48
Signal al´eatoire, 30
Simulation conditionnelle, 157
Simulation non-conditionnelle, 147
Simulations, 146
Splines, 29
Stationnarit´e, 35
Stationnarit´e `a l’ordre 1, 36
Stationnarit´e `a l’ordre 2, 36
Stationnarit´e au sens faible, 36
Stationnarit´e au sens fort, 36
Stationnarit´e au sens large, 36
Stationnarit´e au sens strict, 36

Transformation de Fourier, 78

261
Bibliography

Allard, D. (2012). Statistiques spatiales: introductiona la g´eostatistique. Lecture notes, University


of Montpellier.

Antoni, J. (2013). Cours de Signaux Al´eatoires : Master MGEA, INSA-Lyon.

Arnaud, M. et Emery, X. (2000). Estimation et interpolation spatiale: m´ethodes d´eterministes


et m´ethodes g´eostatistiques. Herm`es.

Baillargeon, S. (2005). Le krigeage: revue de la th´eorie et application `a l’interpolation spatiale


de donn´ees de pr´ecipitations.

Barret, M. (2009). Traitement statistique du signal: Estimation, filtrage de Wiener, m´ethodes r


´ecursives, d´etection.

Barry, R. P., Jay, M., et Hoef, V. (1996). Blackbox kriging: spatial prediction without specifying
variogram models. Journal of Agricultural, Biological, and Environmental Statistics, pages
297– 322.

Bengio, Y. et Grandvalet, Y. (2004). No unbiased estimator of the variance of k-fold cross-validation.


Journal of machine learning research, 5(Sep):1089–1105.

Biljecki, F., Heuvelink, G. B., Ledoux, H., et Stoter, J. (2015). Propagation of positional error in
3d gis: estimation of the solar irradiation of building roofs. International Journal of
Geographical Information Science, 29(12):2269–2294.

Bonin, O. (1998). Attribute uncertainty propagation in vector geographic information systems:


sensi- tivity analysis. In Proceedings. Tenth International Conference on Scientific and Statistical
Database Management (Cat. No. 98TB100243), pages 254–259. IEEE.

Bosser, P. (2011). Interpolation spatiale.

Bourgine, B. (1995). Logiciels g´eostatistiques de gdm, manuel de l’utilisateur. aouˆt, 37842.

Burman, P. (1989). A comparative study of ordinary cross-validation, v-fold cross-validation and


the repeated learning-testing methods. Biometrika, 76(3):503–514.

Conte, E. (2018). Changement climatique et toponymie : ´ecologie historique du houx et du buis


`a travers leurs traces toponymiques. M´emoire de fin d’´etude Master 2 Carthag´eo.

Cottet, F. (2015). Traitement des signaux et acquisition de donn´ees-4e ´e d . Dunod.

Deraisme, J. et Bobbia, M. (2003). Geostatistics in the study of air pollution-related risks. Environ-
nement, Risques & Sant´e, 2(3):168–175.

Droesbeke, J.-J., Lejeune, M., et Saporta, G. (2006). Analyse statistique des donn´ees spatiales.
Editions TECHNIP.

Dumenieu, B. (2015). Un syst`eme d’information g´eographique pour le suivi d’objets historiques urbains
`a travers l’espace et le temps. PhD thesis, Paris, EHESS.

262
Dumont, T., L´eonard, C., Mary, X., et Mohamed, H. (2019). Cours d’optimisation. Notes de
cours de L1 - ´economie-Gestion - analyse 2.

Efron, B. (1983). Estimating the error rate of a prediction rule: improvement on cross-validation.
Journal of the American statistical association, 78(382):316–331.

Efron, B. et Tibshirani, R. J. (1994). An introduction to the bootstrap. CRC press.

Emery, X. (2001). Cours de G´eostatistique lin´eaire. Document de cours `a l’Ecole des Mines.

Grejner-Brzezinska, D., Toth, C., et Yi, Y. (2005). On improving navigation accuracy of gps/ins
systems. Photogrammetric engineering & remote sensing, 71(4):377–389.

Gringarten, E. et Deutsch, C. V. (2001). Teacher’s aide variogram interpretation and modeling.


Mathematical Geology, 33(4):507–534.

Hauchecorne, B. (2007). Les contre-exemples en math´ematiques. Ellipses Paris.

Journel, A. G. et Huijbregts, C. J. (1978). Mining geostatistics, volume 600. Academic press London.

Krige, D. G. (1951). A statistical approach to some basic mine valuation problems on the witwater-
srand. Journal of the Southern African Institute of Mining and Metallurgy, 52(6):119–139.

Lafarge, F. (2007). Mod`eles stochastiques pour la reconstruction tridimensionnelle d’environnements


urbains. PhD thesis.

Lecoutre, J.-P. (2002). Statistique et probabilit´es. Dunod.

Li, C., Zhao, S., Wang, Q., et Shi, W. (2018). Uncertainty modeling and analysis of surface area
calcu- lation based on a regular grid digital elevation model (dem). International Journal of
Geographical Information Science, 32(9):1837–1859.

Marcotte, D. (2003). Cours de g´eostatistiques, E´ cole polytechnique - glq340.

Matheron, G. (1962). Trait´e de g´eostatistique appliqu´ee. 1 (1962), volume 1. Editions Technip.

Mehlhorn, K., Newell, B. R., Todd, P. M., Lee, M. D., Morgan, K., Braithwaite, V. A., Hausmann, D.,
Fiedler, K., et Gonzalez, C. (2015). Unpacking the exploration–exploitation tradeoff: A synthesis
of human and animal literatures. Decision, 2(3):191.

Meneroux, Y. (2019). M´ethodes d’apprentissage statistique pour la d´etection de la signalisation routi`ere


`a partir de v´ehicules traceurs. PhD thesis, Paris Est.

M´eneroux, Y., Le Guilcher, A., Orfila, O., Lusetti, B., Saint Pierre, G., et Musti`ere, S. (2017).
Using surrogate road network for map-matching a sensitivity analysis of positional accuracy.
Geocompu- tation 2017.

Mitas, L. et Mitasova, H. (1999). Spatial interpolation. Geographical information systems: principles,


techniques, management and applications, 1(2).

Nadaraya, E. (1965). On non-parametric estimates of density functions and regression curves. Theory
of Probability & Its Applications, 10(1):186–190.

Parzen, E. (1962). On estimation of a probability density function and mode. The annals of mathe-
matical statistics, 33(3):1065–1076.

Pebesma, E. (2020). The meuse data set: a brief tutorial for the gstat r package.

Pebesma, E. J. (2001). Gstat user’s manual. Dept. of Physical Geography, Utrecht University, Utrecht,
The Netherlands.

Pebesma, E. J. et Bivand, R. S. (2005). Classes and methods for spatial data in R. R News, 5(2):9–13.

263
Peraudin, J.-J. (2003). Surveillance de la qualit´e de l’air par cartographie : l’apport de la g´eostatistique.

Picinbono, B. (1998). Signaux al´eatoires: avec probl`emes r´esolus. Fonctions al´eatoires et mod`eles.
Dunod.

Pyrcz, M. et Deutsch, C. (2003). The whole story on the hole effect. Geostatistical Association of
Australasia, Newsletter, 18:3–5.

Richards, C. (2016). An r function to shift vectors by a specified lag, https://clarkrichards.org/.

Rivoirard, J. (2003). Cours de G´eostatistique multivariable. Centre de G´eostatistique de

Fontainebleau.

Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density function. The


Annals of Mathematical Statistics, pages 832–837.

Saltelli, A., Chan, K., et Scott, E. M., editors (2000). Sensitivity analysis. Wiley series in probability
and statistics. J. Wiley & sons, New York, Chichester, Weinheim.

Sillard, P. (2001). Estimation par moindres carr´es. Herm`es Science Publications.

Snoek, J., Larochelle, H., et Adams, R. P. (2012). Practical bayesian optimization of machine
learning algorithms. In Advances in neural information processing systems, pages 2951–2959.

Tian, L., Cai, T., Goetghebeur, E., et Wei, L. (2007). Model evaluation based on the sampling
distribution of estimated absolute prediction error. Biometrika, 94(2):297–311.

Vauglin, F. (1997). Mod`eles statistiques des impr´ecisions g´eom´etriques des objets g


´eographiques lin´eaires. PhD thesis, Universit´e de Marne-la-Vall´ee.

Wackernagel, H. (2013a). Basics in geostatistics 3: Geostatistical monte-carlo methods - conditional


simulationconditional simulation.

Wackernagel, H. (2013b). Multivariate geostatistics: an introduction with applications. Springer


Science & Business Media.

Yang, C.-S., Kao, S.-P., Lee, F.-B., et Hung, P.-S. (2004). Twelve different interpolation methods: A
case study of surfer 8.0. In Proceedings of the XXth ISPRS Congress, volume 35, pages 778–785.

Zhang, Y. et Yang, Y. (2015). Cross-validation for selecting a model selection procedure. Journal of
Econometrics, 187(1):95–112.

Zoraster, S. (1996). Imposing geologic interpretations on computer-generated contours using distance


transformations. Mathematical geology, 28(8):969–985.

264

Vous aimerez peut-être aussi