Cours Géostatistique

E´ COLE NATIONALE DES SCIENCES GEOGRAPHIQUES
Cours au Maste`re spe´ cialise´ De´ sige´ o
Introduction à la G
éostatistique
Variographie, krigeage, interpolation et simulation
Yann Méneroux
Année scolaire 2018-2019
Contact : yann.meneroux(at)ign.fr
Laboratoire en Sciences et Technologies de l’Information Géographique (LaSTIG)
Institut National de l’Information Géographique et Forestière (IGN)
Abstract
Ce document est un support de cours destiné aux étudiants du Mastère spécialisé Décision
et Système d’Information Géolocalisée (Désigéo) de l’E´ cole Nationale des Sciences G
éographiques. Il permet une introduction autoditacte à la Géostatistique linéaire, appliquée
plus particulièrement au domaine de la Géomatique. Il comprend de nombreux exemples, des
travaux dirigés à réaliser sur papier ainsi que des travaux pratiques sur machine (dans la
langage de programmation R).
Les ressources nécessaires (jeux de données, code informatique...) peuvent être téléchargées
à l’adresse suivante, dans la section Mathématiques → Géostatistique :
http://cours-fad-public.ensg.eu/
Notations
En règle générale, on note en majuscule les variables aléatoires et en minuscule les réalisations
correspondantes. Ainsi, par exemple si X est une variable aléatoire distribuée suivant une loi
normale, on note x1, x2,... xn des réalisations de X et :
1 n
m= Lxi
n
i=1
est la moyenne empirique des n réalisations. Lorsqu’on souhaite étudier les propriétés statistiques
de cette moyenne, on remplace les minuscules par des majuscules :
1 n
M= LX i
n
i=1
et M devient une variable aléatoire dont la loi dépend de celles des Xi.
Dans le problème modèle, on considère une fonction z : D ⊂ R2 → R, représentant le relief du terrain

: pour un site x du domaine d’étude D, la variable réelle z(x) désigne l’altitude du terrain en x.
La variable aléatoire associée est Z(x). La fonction de covariance du processus Z est notée C,
et le
variogramme est noté γ. Tous deux dépendent de h qui désigne suivant les cas, ou bien un vecteur de
D séparant deux sites xi et xj, ou bien simplement la norme de ce même vecteur lorsque le ph
énomène considéré est isotrope. De la même manière, la notation xi − xj peut désigner
à la fois la distance ou bien le vecteur séparant xi et xj.
Lorsqu’on considère des signaux aléatoires uni-dimensionnels (en gé né r al dans un but p
édagogique), on note X le processus, et X(t) sa valeur en un point t du domaine (par analogie
avec les signaux
temporels). Une réalisation x de X est donc une fonction classique de R dans R. Covariance
et variogramme sont alors fonctions de l’écart τ entre les points considérés : τ = t2 − t1.
Dans ce cours, nous utiliserons fréquemment 4 loi de probabilités : N (m, σ2), la loi normale de
moyenne m et d’écart-type σ ; U ([a, b]), la loi uniforme sur le segment [a, b] ∈ R ; B(n, p), la loi
binomiale décrivant le nombre de succès de n épreuves de Bernoulli de probabilité p et E
(λ), la loi exponentielle d’intensité λ (i.e. de moyenne 1/λ). Ainsi, la notation X ∼ N (0, 1) d
ésigne une variable aléatoire distribuée suivant la loi normale standard, et avec un léger
abus de notation, on écrira
x ∼ N (0, 1) pour désigner une variable réelle (fixée) ayant é t é tirée suivant la loi N (0, 1).
Pour un critère f donné, lorsqu’une variable θ peut prendre un ensemble de valeurs dans un
ensemble défini Θ, on note θ∗ une valeur optimale. Par exemple dans le cas o u` on cherche à
minimiser f :
θ∗ ∈ argmin f (θ) = {θ ∈ Θ | ∀ t ∈ Θ : f (θ) :( f (t)}

θ
Remarquons que l’ensemble argmin est non-vide si, et seulement si, f est bornée en valeurs inf
érieures et atteint sa borne. En gé nér al, f est continue, et Θ est un p avé (donc compact) de
Rp : l’ensemble argmin est donc non-vide et θ∗ existe (mais n’est pas nécessairement unique).
1
Lorsqu’une fonction f définie sur R+ admet une limite (finie) l en l’infini, on note f (∞) = l.
Pour une variable inconnue z donnée, on note � z son estimateur. Lorsqu’on souhaite estimer les
propr ié tés statistiques de cet estimateur, on le considère comme une variable aléatoire et�
on le note Z. L’erreur d’estimation,
� Z − Z est elle-même une variable aléatoire.
En général, on note en caractères gras les quantités matricielles et vectorielles. Ainsi, Z est le
vecteur contenant les valeurs prises par Z en n sites : x1, x2, ...xn. Dans ce cas, nous n’opérons plus
de distinction entre la variable aléatoire et ses réalisations.
Pour un évènement quelconque A, on note ]_A la fonction indicatrice de A, c’est-à - dire telle que
]_A(x) vaut 1 si x vérifie l’élément A et 0 sinon. Par exemple, pour un MNT z et un seuil s ∈ R,
la fonction indicatrice ]_z(x)�s vaut 1 en tout point x d’altitude supérieure à s et 0 sinon.
Pour un ensemble A quelconque, on note |A| le nombre d’éléments contenus dans A (appelé
cardinal de A) et P(A) l’ensemble des parties de A, i.e. l’ensembles des ensembles B ⊆ A. Par
exemple, si A = {1, 2, 3}, alors P(A) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, A}. On montre
facilement que
|P(A)| = 2|A|, d’ou` la notation parfois rencontrée : P(A) = 2A.
Lorsqu’elle −existe, A−−11 est la matrice inverse de A Rn×n, c’est-à - dire l’unique
n×n
matrice de RTn×n
telle que A A = AA = In o u` In désigne la matrice
1
∈ identité de R . Par ailleurs, A d
ésigne la matrice transposée de A : (AT )ij = (A)ji.
Si f est une fonction réelle de p variables : x1, x2,...xp, alors ∂f/∂xi est la dé r i vé e partielle de
f par rapport à la i-eme variable. Le vecteur f de terme géné r al ( f )i = ∂f/∂xi est le
vecteur gradient ∇
de f . Si en plus f est à valeurs dans Rm, on note f1, f2, ... fm ses m composantes scalaires et
m×p
alors la matrice J ∈ R de terme général (J)ij = ∂fi/∂xj est la matrice jacobienne de f , c’est-
à - dire la matrice composée des m vecteurs lignes gradients des m composantes de f .
Si X et Y sont deux variables aléatoires, alors P(X = x|Y = y) désigne la probabilité

conditionnelle de X sachant que Y prend la valeur y. Elle vaut par définition :
P(X = x, Y = y)
P(X = x Y = y) = P(Y = y)
|
De la même manière on peut définir l’espérance conditionnelle E[X|Y = y] comme l’esp

érance de la variable X soumise à la loi conditionnelle P(X = x|Y = y).
2
Contents
1 Rappels statistiques 10
1.1 Espace probabilisé......................................................................................................................10
1.2 Variable aléatoire réelle.............................................................................................................11
1.3 Fonction de répartition...............................................................................................................12
1.4 Densité de probabilité................................................................................................................14
1.5 Espérance....................................................................................................................................15
1.6 Variance..........................................................................................................................................17
1.7 Covariance......................................................................................................................................19
1.8 Moments statistiques.....................................................................................................................23
1.9 Exemple de synthèse..................................................................................................................25
2 Analyse variographique 29
2.1 Processus stochastique.................................................................................................................29
2.2 Une première approche informelle..............................................................................................34
2.3 Les hypothèses fondamentales.....................................................................................................35
2.3.1 La Stationnarité.............................................................................................................35
2.3.2 L’ergodicité.....................................................................................................................38
2.3.3 Les hypothèses en pratique.............................................................................................41
2.4 Le variogramme............................................................................................................................47
2.4.1 Variogramme expérimental..........................................................................................50
2.4.2 Interpréter le variogramme.............................................................................................59
2.4.3 Les modèles de variogramme..........................................................................................62
2.4.4 L’estimation du variogramme.........................................................................................70
2.4.5 Pour aller plus loin............................................................................................................77
2.5 Bilan...............................................................................................................................................82
3 Interpolation par Krigeage 83

3.1 Introduction...................................................................................................................................83
3.2 Les contraintes du krigeage..........................................................................................................90
3.2.1 Contrainte de linéarite.................................................................................................90
3.2.2 Contrainte d’autorisation.................................................................................................91
3.2.3 Contrainte d’universalité..............................................................................................92
3.2.4 Contrainte d’optimalité.................................................................................................93
3.2.5 Formulation du problème..............................................................................................93
3.3 Le krigeage.....................................................................................................................................94
3.3.1 Le krigeage ordinaire.......................................................................................................95
3.3.2 Le krigeage intrinsèque.................................................................................................97
3.4 Mise en oeuvre du krigeage.........................................................................................................99
3.5 Propriété du krigeage...............................................................................................................108
3.5.1 Exactitude........................................................................................................................109
3.5.2 Multiplication du variogramme......................................................................................109
3.5.3 Linéarité....................................................................................................................110
3.5.4 Lissage..............................................................................................................................113
3
3.6 Formulation duale........................................................................................................................114
3.7 Les variantes du krigeage............................................................................................................116
3.7.1 Krigeage simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7.2 Krigeage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.3 Krigeage par blocs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.7.4 Krigeage universel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.7.5 Krigeage avec dérive externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.7.6 Autres variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.8 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4 Compléments 131
4.1 La validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.2 Application à l’optimisation bayésienne . . . . . . . . . . . . . . . . . . . . . . . 140
. . .
4.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4.2.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.2.3 Pour aller plus loin... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.3 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.3.1 Simulation non-conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.2 Simulation conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
A Régularité d’un processus stochastique 176

A.1 Définitions.................................................................................................................................176
A.2 Liens avec le variogramme..........................................................................................................177
A.3 Régularisée d’un variogramme..................................................................................................178
B Contre-exemples pratiques 180

B.1 Deux variables aléatoires décorrélées mais pas indépendantes.......................................180
B.2 Une variable aléatoire qui ne possède pas d’espérance......................................................181
B.3 Une variable aléatoire qui ne possède pas de variance..........................................................181
B.4 Un processus stationnaire mais non-ergodique.........................................................................182
B.5 Un processus ergodique à l’ordre 1 mais pas à l’ordre 2.....................................................182
B.6 Un processus strictement intrinsèque.....................................................................................183
B.7 Un processus continu en m.q. dont toutes les réalisations sont discontinues......................184
4
Introduction
Une manière simple et convenue de définir la Géostatistique pourrait être la suivante :
Ensemble de techniques et méthodes permettant d’étudier les phénomènes qui s’étendent dans
l’espace et y présentent une organisation ou une structure.
Autrement dit, la Géostatistique permet de répondre à des questions sur les phénomènes poss
édant une certaine forme de continuité dans l’espace (nous parlerons par la suite d’autocorrélation
spatiale), mais dont la complexité interdit toutefois toute approche purement analytique du
problème. Ainsi, parmi de nombreux exemples de domaines d’application, nous pourrions citer
l’interpolation continue des conditions météorologiques sur un territoire donné, la prospection
minière (pétrole, or...), l’analyse de champs de déformation crustale ou encore l’inventaire forestier.
En particulier, dans le domaine de la géomatique, les exemples peuvent se trouver à foison :
• Production de modèle numérique de terrain haute définition (par interpolation d’un

semis d’observations locales type GPS ou LIDAR (Yang et al., 2004).
• Calcul d’isochrones pour un véhicule terrestre : une isochrone Γ(t) est définie par le lieu
des points accessibles en un temps t depuis un point de référence donné. L’ensemble des
courbes Γ calculées pour une série de valeurs t1, t2, ...tn est appelé une carte isochrone.
• Estimation ( à l’échelle mondiale) des retards induits par la ionosphère sur les signaux GPS.
• Analyse des erreurs cartographiques de sources anciennes de données (Dumenieu, 2015).
• Calcul d’un modèle de geo¨ıde1 à partir d’observations combinées de GPS et de nivellement.
• Calcul d’un champ de déformation (modèle de grille élastique) pour mettre en

correspondance plusieurs sources de données vectorielles (e.g. bati, parcelles cadastrales et r
éseau routier).
• Estimation d’un modèle numérique de bâtiments 3D (Lafarge, 2007).
Cette définition est pourtant quelque peu restrictive. Dans un cadre plus géné ral, on pourrait d
éfinir la Géostatistique comme une méthode d’analyse et de manipulations de grandeurs continues
et corrélées. En statistique classique, l’hypothèse d’indépendance des variables aléatoires
permet une simplification des calculs. Par exemple, si X et Y sont deux variables aléatoires ind
épendantes, alors les variances sont additives :
Var[X + Y ] = Var[X − Y ] = Var[X] + Var[Y ] (1)
Traduite en termes d’écarts-types, cette propriété donne une relation analogue au théorème de
Pythagore en géométrie euclidienne : le carré de l’écart-type d’une somme d’erreurs ind
épendantes vaut la
1
Le géo¨ıde est la surface de référence des altitudes, i.e. le niveau moyen des mers prolongé sous les continents.
5
somme des carrés des écarts-types des erreurs prises individuellement. Au sens mathématique
strict, l’hypothèse d’indépendance est suffisante mais non nécessaire pour obtenir cette égalité. Il
est suffisant que X et Y soient non-corrélées (i.e. de covariance nulle) pour être valide.
Dans un cadre plus général, si les variables sont corrélées, on doit ajouter un terme correctif :
Var[X + Y ] = Var[X] + Var[Y ] + 2Cov(X, Y ) (2)
On peut prendre un exemple assez édifiant en considérant un modèle numérique de terrain

(MNT) défini sur une grille de résolution 5 m, sur laquelle on prend deux noeuds voisins
d’altitudes X et Y .
Si l’erreur typique d’altitude est é va l ué e à ±1 m (σX = σY = 1 et donc Var[X] = Var[Y ] = 1) par
√
les spécifications, alors l’erreur sur le dén i ve lé X − Y entre 2 cellules voisines vaut 2 ≈ 1.41 m, soit
◦
une erreur typique de près de 15 sur la pente du terrain, ce qui rendrait le MNT inutilisable pour
la plupart des applications. En pratique, l’erreur entâchant les mesures d’altitude possède une
au-
tocorrélation spatiale assez marquée 2 , impliquant ainsi que deux cellules voisines sont erronées
d’une quantité statistiquement semblable, réduisant ainsi d’autant l’erreur commise lors du calcul de
la pente par différentiation.
Fig. 1. Si X et Y sont des variables aléatoires décorrélées, l’erreur typique sur leur somme S = X +Y
est égale à la somme quadratique des erreurs individuelles : σ2 = σ2 + σ2
S X Y
.
Le modèle des variables indépendantes est donc certes fort commode en première approximation
pour simplifier les calculs, mais rapidement inopérant dè s lors que les corrélations entre variables
ne peuvent plus être négligées. La Géostatistique vient combler ce manque, et si son domaine
d’application est bien souvent lié à la géographie en vertu de la première loi de Tobler3, on
pourrait donc la définir, au risque de grossir un peu le trait, comme une méthode de traitement
des corrélations.
Cette observation offre donc un cadre d’application beaucoup plus vaste à la Géostatistique. En
particulier, les séries temporelles (e.g. les indices boursiers, la température en un lieu donné
au fil des jours...), sont suffisamment autocorrélées pour qu’on ne puisse se permettre de ne pas en
tenir compte. De manière similaire, l’espace de travail peut parfaitement être abstrait, par
exemple, si on souhaite
étudier les performances (e.g. le temps de calcul) d’un algorithme en fonction de ses inputs afin
d’en déterminer un paramétrage optimal.
Notons que la Géostatistique est une discipline relativement ancienne, mais qu’elle a trouvé un
essort particulier dans les années 50 sous l’impulsion de la prospective minière en Afrique du Sud,
notammant avec les travaux précurseurs de Danie Gerhardus Krige : A statistical approach to
some basic mine valuation problems on the Witwatersrand (Krige, 1951). Ces recherches ont par la
suite é t é reprises
2
Cette autocorrélation, souvent assez difficile a` quantifier, se retrouve sous diverse formes dans tous les produits
6
cartographiques, et résulte des autocorrélations individuelles des étapes de la chaˆıne de production : distorsion résiduelle
de la caméra, erreur d’orthorectification des clichés, dérive locale d’un chantier topographique, bruit de généralisation...
3
Tout interagit avec tout mais deux choses voisines ont plus de chances d’entrer en interaction que deux choses
lointaines (Waldo Tobler, 1970).
7
et formalisées dans un cadre théorique à l’E´ cole des Mines par Matheron (1962) dans son
Traité de géostatistique appliquée. Par nature, elles possèdent des interconnexions profondes
avec le domaine du traitement des signaux aléatoires notamment via les filtres de Kolmogorov-
Zurbenko (1941) et de Wiener (1949).
Ce cours est subdivisé en quatre parties. Après un bref rappel des prérequis statistiques dans
un premier chapitre, nous verrons dans un deuxième temps comment définir et caractériser une
variable régionalisée d’un point de vue stochastique4. Pour ce faire, nous utiliserons le
variogramme, un outil simple et puissant, qui nous permettra de quantifier (jusqu’à un certain degr
é de précision) la ressemblance de la valeur prise par le phénomène en deux points donnés
quelconques du domaine d’étude. Dans un troisième temps, nous étudierons le krigeage (et ses d
érivées), une technique d’interpolation avancée, reposant sur l’analyse variographique effectu
ée en première partie. Sur ce point, il pourrait être instructif au préalable, de jeter un oeil
aux méthodes d’interpolation déterministes dont on pourra trouver une présentation
complète et pédagogique dans les ouvrages de Mitas et Mitasova (1999), Arnaud et Emery
(2000) ou encore Bosser (2011). Enfin, dans un dernier chapitre, nous verrons quelques compl
éments aux notions vues dans les deux chapitres précédents : une méthode de validation num
érique de la procédure d’interpolation, l’optimisation bayésienne, ainsi que la simulation qui
joue un r ôle important pour contourner certaines limitations du krigeage.
Dans tout ce document, nous nous référerons régulièrement au problème modèle suivant : on
suppose que n points x1, x2, ...xn d’un domaine D quelconque ont é t é observés par GPS afin de d
éterminer leurs altitudes respectives z1, z2, ...zn. Le problème consiste à produire une carte du
relief du domaine,
i.e. formellement de déterminer une fonction z : D → R, qui à tout point x ∈ D associe l’altitude
correspondante z(x), avec z(xi) = zi pour tout i ∈ {0, 1, ...n}.
Fig. 2. Objet central de la géostatistique, la variable régionalisée est une fonction possédant
une certaine organisation spatiale, mais dont la complexité interdit toute description analytique
simple.
.
Trois remarques importantes avant de débuter l’étude :
• Que faire quand on a plusieurs variables de sortie ? En effet, ce cas de figure peut survenir,
par exemple si on souhaite interpoler le champ de vecteur vitesse du vent dans un volume
donné. La fonction f à déterminer est alors définie de R3 dans R3 (3 coordonnées
d’espace en entrée, 3 coordonnées des vecteurs vitesse en sortie). En première
approximation, on peut
8
4
C’est-à-dire d’un point de vue aléatoire, par opposition aux méthodes déterministes qui ne requierent aucun fonde-
ment probabiliste (e.g plus proche voisin, interpolation linéaire, splines de lissage...) .
9
s’en sortir en étudiant séparemment chaque variable. On définit ainsi trois fonctions r
éelles scalaires fx, fy et fz chacune prenant en entrée un point de R3 et retournant la
composante du vecteur vitesse dans l’une des trois dimension d’espace. Formellement,
nous avons ainsi
décomp osé un problème d’inférence d’une fonction à valeurs vectorielles f : R33 → R3
à trois problèmes indépendants d’estimation de fonctions scalaires fx, fy, fz : R → R.
Dans certains cas cependant, l’interdépendance des composantes individuelles ne rend pas
souhaitable cette
démarche, et on devra avoir recours à des méthodes plus spécifiques, telles que le co-
krigeage, dont nous donnerons une présentation succinte dans le chapitre 3.
• Dans le cadre de ce document, toutes les variables entrant en jeu (sorties et entrées de f ) doivent
être continues, ou au moins ordinales (c’est-à - dire qu’elles doivent pouvoir être triées
dans un ordre naturel). Exemples : température, vitesse du vent, altitude du relief,
pourcentage de votants pour tel ou tel parti politique aux législatives... sont des valeurs
continues. L’âge (en années) des arbres d’une forêt est une valeur discrète mais
ordinale donc on peut utiliser les méthodes présentées dans ce document. En revanche,
la couleur politique des maires de communes, la langue parlée par les habitants d’un pays,
la marque de télévision des foyers... sont des variables catégorielles non-ordinales, et donc
en l’état peu adaptées aux outils proposés par la Géostatistique.
• Dans ce document, nous nous limiterons à la Géostatistique linéaire, i.e. un pan du

domaine qui se restreint à estimer les variables inconnues uniquement à l’aide de
combinaison linéaires des observations effectuées. Cela peut paraˆıtre réducteur au premier
regard, mais couvre d é j à en réali té la grande majorité des besoins pratiques. Nous
essayerons toutefois d’exhiber les limites de la Géostatistique linéaire, auxquelles nous
proposerons des palliatifs dans le chapitre 4.
Fig. 3. Danie G. Krige ( à gauche), ingénieur minier sud-africain et Georges Matheron ( à

droite) mathématicien et géologue fran¸cais : les pères fondateurs de la discipline.
.
Comment utiliser ce fascicule
Il existe deux options principales pour suivre ce cours. La première consiste à prendre les sections
dans l’ordre du document ( à l’exception du chapitre 1 qui pourra être passé par le lecteur
disposant d é j à d’une solide base en statistiques et probabilités), puis à considérer les activités
comme des travaux pratiques, à réaliser si possible dans un premier temps sans la correction. La
10
seconde manière de procéder, plus empirique, consiste à réaliser l’ensemble des activités (dans
l’ordre indiqué par la numérotation
11
en chiffres romains), puis compléter les points bloquants en ciblant ( à l’aide de l’index
grammatical et de la table des matières) les sections de cours à parcourir. Une lecture complète
du document peut alors être envisagée dans un deuxième temps lorsque les notions des bases vues
dans les activités sont maˆıtrisées. Les sections les plus techniques du cours, pouvant
allègrement être passées en première lecture, sont intitulées ”Pour aller plus loin...”.
Dans chaque activité nécessitant des manipulations informatiques, la partie centrale du code est
re- groupée dans un cadre gris, dont l’entête comprend le nom (et le numéro) de l’activité
ainsi que le nom du fichier de script R correspondant dans le répertoire des corrections.
Attention : le copier-coller du code depuis le pdf ne fonctionne pas toujours correctement (ajout
in- tempestif d’espaces, en particulier sur les mots-clé s R). Il y a trois solutions principales pour r
ésoudre ce problème :
• Faire du copier-coller et rectifier le code, éventuellement avec les messages d’erreur de R (n

écessite une maˆıtrise minimale du langage).
• Recopier le code au clavier.
• Aller chercher à chaque étap e la portion de code correspondante dans les corrigés.
12
Chapter 1
Rappels statistiques
Afin de pouvoir manipuler des quantités aléatoires, nous devons au préalable nous placer
dans un cadre de travail adéquat. La géostatistique linéaire se circonscrit à l’utilisation des deux
premiers moments statistiques. L’objectif de cette section est donc de rappeler les élé ments th
éoriques nécessaires
à la compréhension des notions d’espérance et de covariance. Le lecteur intéressé pourra
trouver une présentation plus complète dans l’excellent ouvrage de Lecoutre (2002).
1.1 Espace probabilisé

Soit Ω un ensemble quelconque (éventuellement continu), représentant l’ensemble des éventualités
élémentaires d’une expérience aléatoire. A` partir de Ω, on construit l’ensemble1 A contenant tous
les évènements pouvant être produits par l’expérience aléatoire. Enfin, on doit définir une
mesure de probabilité P sur A, afin d’attribuer une probabilité d’apparition à tout
évènement α ∈ A :
P : A → R
(1.1)
α 1→ P(α)
o u` P respecte les 3 axiomes fondamentaux de la théorie des probabilités (axiomes de Kolmogorov) :
• Pour tout évènement A ∈ A0 :( P(A) :( 1.

• P(Ω) = 1, autrement dit, la probabilité de l’évènement certain vaut 1.
• Soient A1, A2, ...An, une suite de n évènements incompatibles de A, i.e. d’intersections
mutelles vides (i /= j ⇒ Ai ∩ Aj = ∅) :
n
n
P Ai = LP(Ai) (1.2)
[
i=1 i=1
Ce troisème axiome stipule que la probabilité de l’union d’un ensemble d’évènements disjoints est
toujours égale à la somme des probabilités d’apparition des évènements pris
individuellement. Lorsque les évènements ne sont plus disjoints, la relation 1.2 se transforme en une
inégalité, comme le montre l’exemple ci-après.
Exemple 1.1. L’E´ ducation Nationale indique qu’en 2010, 10.8 % des collégiens ont suivi
l’option d’enseignement du Latin, et 7.1 % celle du Grec ancien. En notant AL et AG les
évènements corre- spondants, on a donc P(AL) = 0.108 et P(AG) = 0.071. Pour autant, selon la
mêm e source, seuls 11.9
1
Formellement, A est une tribu sur Ω, c’est-a-dire un sous-ensemble de l’ensemble P(Ω) des parties de Ω,
assurant ainsi certaines propriétés de stabilité nécessaires pour établir une théorie probabiliste. En pratique, lorsque Ω
13
est discret, on peu prendre sans vergogne A = P(Ω).
14
% ont suivi au moins une des deux options : P(AL ∪AG) = 0.119 :( P(AL) +P(AG) = 0.179, puisqu’on
doit retrancher à la somme la probabilité qu’un collégien ait choisi les deux options.
Dans le cas non-disjoint et avec deux évènements A et B, on obtient la formule bien connue :
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (1.3)
Démonstration. On peut facilement décomposer A ∪ B en 3 sous-ensembles : A \ B, B \ A

et A ∩ B, dont on montre facilement qu’ils sont deux-à - deux disjoints. Puis, on peut d
écomposer A en 2 sous-ensembles disjoints : A \ B et A ∩ B. On fait de mê me pour B. En
appliquant le troisième axiome de Kolmogorov, il vient :
t )
P(A ∪ B) = P (A \ B) ∪ (B \ A) ∪ (A ∩ B)
= P(A \ B) + P(B \ A) + P(A ∩ B)
t ) t ) (1.4)
= P(A) − P(A ∩ B) + P(B) − P(A ∩ B) + P(A ∩
B)
= P(A) + P(B) − P(A ∩ B)
En combinant l’ensemble des éventualités élémentaires Ω, son ensemble d’évènements A et une

mesure de probabilité P on obtient ainsi une structure mathématique appelée espace probabilis
é (Ω, A, P).
Exemple 1.2. On prend place à bord d’un véhicule et on s’intéresse à l’état du prochain feu
tricolore rencontré. L’ensemble Ω est donc composé de trois éléments correpondants aux états
possibles : vert (V ), orange (O) et rouge (R), d ’ o u` Ω = {V, O, R}. En particulier, le passage est
autorisé A1 = {V, O}
ou interdit A2 = {R}. L’ensemble des évènements possibles est alors A = {∅, A1, A2, Ω}. Si on
suppose que chaque feu est programmé pour être au rouge pendant 60 % du temps, au vert pendant
35 % du temps et enfin à l’orange le temps restant, on en déduit la mesure de probabilité
associée : P(∅) = 0, P(A1) = 0.35 + 0.05 = 0.4, P(A2) = 0.6 et P(Ω) = 1. On vérifiera alors à
titre d’exercice que les 3 axiomes de Kolmogorov sont vérifiés.
Remarquons que le choix de l’ensemble des évènements A à partir de Ω n’est pas unique. En
fonction des besoins, on aurait pu proposer la modélisation suivante : le passage est séc ur i sé B1 =
{V } ou alors, le passage est déconseillé, voire interdit B2 = {O, R}, ce qui donne : A = {∅, B1,
B2, Ω}. Pour un niveau de granularité maximale, on peut combiner tous les évènements, en
ajoutant donc C1 = {R, V } (les consignes données par la feu sont claires) et C2 = {O} (le passage
est laissé à l’appréciation du conducteur). On obtient alors : A = P(Ω) = {∅, A1, A2, B1, B2, C1,
C2, Ω}. Nous laissons le soin au lecteur de calculer, à titre d’exercice, les probabilités des diff
érents évènements.
En général, l’ensemble A n’est pas défini explicitement. Dans ce cours, nous utiliserons le symbole
ω ∈ Ω pour désigner une réalisation stochastique quelconque, i.e. l’issue d’une expérience aléatoire.
1.2 Variable aléatoire réelle

Afin de quantifier les phénomènes étudiés, on cherche souvent à associer une valeur numérique
à chaque issue possible de l’expérience. C’est ici qu’intervient la notion de variable aléatoire.
Formellement, on peut définir une variable aléatoire réelle X comme une fonction qui, à chaque
éventualité élémentaire ω associe une valeur réelle x = X(ω).
15
X : Ω → R
(1.5)
ω 1→ X(ω)
Traditionnellement, on note en majuscule une variable aléatoire, et en miniscule une réalisation donn
ée (quelconque) de cette variable.
Exemple 1.3. Dans une version simplifiée du Loto, un joueur choisit 5 numéros dans une
grille de nombres allant de 1 à 49. On admet que les gains varient de la manière suivante en fonction
du nombre de numéros corrects : 4 e (2 num), 21 e (3 num), 490 e (4 num) et 95200 e (5 num).
L’ensemble fondamental correspondant est donc Ω = {1, 2, ...49}5 et il contient près de 300
millions d’éléments. Parmi tous les évènements possibles, on note :
Ai : le tirage du jour contient i numéros sélectionnés par le joueur
et on s’intéresse plus particulièrement aux évènements 2 A2, A3, A4 et A5. On définit alors la
variable aléatoire réelle X dénotant le gain du joueur :
4 si ω ∈ A2
X(ω) =   49021 sisiωω∈∈A4

A
 3 95200 si ω ∈ A5
0 sinon.
Supposons que le choix du joueur est le suivant (37, 5, 48, 15, 29). Une réalisation aléatoire
particulière, par exemple ω = (5, 42, 2, 29, 37) produira donc la variable x = X(ω) = 21.
1.3 Fonction de répartition

Si la fonction X possède les propriétés théoriques adéquates (en particulier celle d’être
mesurable), on peut transférer la loi de probabilité P sur la variable aléatoire. Pour tout
intervalle A ⊆ R (en
toute généralité, A peut être un élément de la tribu borélienne B(R), ce qui inclu entre autres les
intervalles), on peut définir la loi PX :
PX(A) = P(X ∈ A) = P(X−1(A)) (1.6)
o u` X−1(A) = {ω ∈ Ω | X(ω) ∈ A}, autrement dit, l’ensemble des évènements élémentaires

ω qui, lorsqu’ils sont réalisés, produisent une variable x inclue dans l’intervalle réel A.
La fonction PX n’étant pas commode à manipuler (en particulier, il est très difficile de la repr
ésenter graphiquement puisqu’elle prend en entrée un intervalle de nombres réels), on la r
éduit à une seule variable scalaire en ne considérant que les intervalles réels du type ] − ∞;
x]. On obtient alors une
fonction réelle classique : la fonction de répartition.
2
Notons que tous ces évènements ne comportent pas le même nombre d’éventualités ω. Par exemple, il n’y a qu’un
seul tirage qui satisfasse A5, alors que A4 par exemple comporte 5 × 44 = 220 éléments.
16
Définition 1 (Fonction de répartition)
Soit (Ω, A, P) un espace probabilisé, et X : Ω → R une variable aléatoire réelle. On appelle

fonction de répartition de X, la fonction FX définie par :
FX(x) = P(X ∈ ] − ∞; x]) = P(X :( x)
Lorsqu’il n’y a pas d’ambigu¨ıté sur la variable concernée, nous noterons F cette fonction. Par ailleurs,
à l’aide des axiomes de Kolmogorov, on démontre facilement les propriétés suivantes.
Propriété 2 (Fonction de répartition)
Soit X une variable aléatoire réelle et FX sa fonction de répartition.
(i ) FX est croissante et à valeurs dans [0, 1].
∀ a, b ∈ R avec a :( b : P(X ∈ [a, b]) = FX(b) − FX(a)

lim FX(x) = 0 etlim FX(x) = 1
x→−∞ x→+∞
Le passage de la loi de probabilité PX à la fonction de répartition FX induit bien évidemment

une perte d’information, mais la propriété (ii ) en particulier, montre que la fonction de répartition
permet de calculer la probabilité que la variable X appartienne à tout intervalle I ⊆ R, ce qui est
largement
suffisant en pratique.
Exemple 1.4. On donne ci-dessous en figure 1.1 la fonction de répartition de l’erreur (en m)
commise par un récepteur GPS de randonnée (i.e. la distance entre la position vraie et la
position es- timée). Cette fonction permet la détermination immédiate de plusieurs indicateurs,
comme la médiane
m = F−1(0.5)
X = 1.91 m. On y observe également que 95% des erreurs sont inférieures à 6.63 m.
1
95 %
0
0
Probabili
50 %
0
0
0
1.91 m 6.63 m
0 5 10 15
Erreur (m)
Fig. 1.1. Fonction de répartition FX de la variable aléatoire réelle X d’erreur GPS (en m).
17
1.4 Densité de probabilité
La fonction de répartition est un outil pratique, mais ne donne cependant que des informations
globales sur la loi P (c’est-à - dire des valeurs de probabilités intégrées sur des intervalles plus ou
moins larges). Si on reprend l’exemple de l’erreur commise par un GPS, on observe qu’il existe une
infinité (qui plus est non denombrable) de valeurs possibles entre 0 et 15 m. Chacune d’elles a
donc logiquement une probabilité nulle d’apparaˆıtre. Qu’en est-il si on souhaite tout de mêm e
quantifier la contribution d’une valeur particulière x dans la loi totale ? On peut s’en sortir en se
pla¸cant sur un voisinage très local de x, par exemple sur l’intervalle I = [x; x + dx], puis en
calculant la probabilité qu’une réalisation de X appartienne à I, rapportée à la largeur de I.
Le point (ii ) de la propriété 2 indique
que cette probabilité s’exprime par P(X ∈ I) = FX(x + dx) − FX(x). Après division par la largeur dx
de l’intervalle et passage à la limite dx → 0, on obtient précisemment la dérivée de FX.
Définition 3 (Densité de probabilité)
Soit X une variable aléatoire réelle et FX sa fonction de répartition. Si FX est dérivable

sur R, alors on peut définir la densité de probabilité π par :
dFX
π(x) = dx (x)
Remarque : inversement, étant donnée la densité f d’une variable aléatoire réelle, on peut
retrouver sa fonction de répartition :
-x
F (x) = f (t)dt (1.7)
−∞
Plus généralement on a les propriétés

suivantes :
Propriété 4 (Densité de probabilité)
Soit X une variable aléatoire réelle de densité π, alors :
(i ) ∀ x ∈ R π(x) � 0.
fb
(ii ) ∀ a, b ∈ R a π(x)dx = P(X ∈ [a, b])
(iii ) fR π(x)dx = 1
Preuves : (i ) découle immédiatement du fait que FX est croissante, d’après le point (i ) de la

pro- priété 2. Par ailleurs, d’après le théorème fondamental de l’analyse :
-b b
dF
π(x)dx = - X(x)dx = F (b) − F (a)
a
a dx
ce qui montre le point (ii ). Enfin, en faisant tendre a et b vers l’infini, et à l’aide du point (iii ) de la
propriété 2, on obtient que l’intégrale de π sur R vaut 1 (iii ).
18
Attention : lorsqu’elle existe, la densité π est positive et son aire sous la courbe vaut 1. Mais il faut
être vigilant au fait que π n’est pas un probabilité ! Elle peut prendre des valeurs supérieures à
1. Pour obtenir une probabilité, on doit intégrer π, comme stipulé par le point (ii ) de la propriét
é 4.
Exemple 1.5. On reprend l’exemple 1.4, et on en déduit en figure 1.2 la densité de probabilité
des erreurs commises par le GPS.
0
Densi
0.02
0
7 8
0 5 10 15
Erreur (m)
Fig. 1.2. Densité de probabilité π de la variable aléatoire réelle X d’erreur GPS (en m).
Lorsque l’intervalle est petit devant les variations de π, on peut approcher le calcul de la probabilité
P(x ∈ ∆x) par π(x)∆x. Par exemple, la probabilité que l’erreur commise soit comprise entre 7 et 8
m est : P(7 :( X :( 8) ≈ π(7.5) × (8 − 7) = 2%.
1.5 Espérance
Partant à nouveau de l’exemple 1.4, on peut chercher à déterminer la valeur moyenne des
erreurs commises pas le GPS. On appelle espérance mathématique d’une variable aléatoire X la
moyenne des valeurs prises par X sur un t rè s grand nombre de réalisations 3 .
Définition 5 (Espérance)
Soit (Ω, A, P) un espace probabilisé et X une variable aléatoire (discrète ou continue).

On définit l’espérance de X comme le centre de masse (lorsqu’il existe) du support de X
suivant la mesure P :
E[X] = - X(ω)dP(ω)
Suivant que la loi de X est discrète ou continue, la définition 5 admet une forme plus explicite :
3
Cette caractérisation intuitive de l’espérance n’a en réalité rien de trivial, et constitue l’objet d’un théorème fonda-
mental de la statistique : la loi forte des grands nombres (Lecoutre, 2002).
19
• Dans le cas discret, E[X] est la moyenne des valeurs xi potentiellement prises par X p ondér
ées par les probabilités d’apparition associées pi :
+∞
L
E[X] = xipi (1.8)
i=0
sous réserve que la suite de terme général xipi soit sommable.
• Dans le cas continu, si X admet π pour densité et si la fonction xπ(x) est intégrable :
E[X] = - xπ(x)dx (1.9)

+∞
−∞
Exemple 1.6. En reprenant l’exemple 1.3, on calcule la probabilité pi d’obtenir l’évènement Ai :

le tirage du jour contient i numéros sélectionnés par le joueur. Le nombre total de tirages possibles
est t
)
égal au nombre des fa¸cons de tirer 5 éléments parmi 49 : c’est donc le coefficient 49 . Par
5
ailleurs, le nombre de tirages aléatoires ω vérifiant l’évènement Ai est égal au nombre de
manières de tirer i
éléments parmis les 5 éléments choisis par le joueur, multiplié par le nombre de manières de
choisir les 5 − i autres éléments parmi les 44 éléments restants :
t5i )t544
−i )
pi = P(A i) = t49)
5
L’application numérique donne

:
9460 440 10
132440 + 21 × + 490 × + 95200 ×
E[X] = 4 × 19068 19068 19068
19068
D’ou` une espérance de gain4 de 0.99 e... à la quelle on doit soustraire le prix du ticket (2.20 e).
Exemple 1.7. Lorsque la variable aléatoire X peut prendre un nombre infini de modalités, évaluer
l’espérance nécessite l’emploi de techniques de séries numériques ou de calul intégral. Par exemple,
considérons la loi binomiale B(n, p) qui donne la probabilité d’obtenir k succès à l’issue de la rép
étition de n expériences aléatoires identiques de probabilité de succès individuelle p :
n
P n(X = k) = k p (1 − p)
k n− k
(1.10)
On calcule alors l’espérance de la loi discrète 1.10 par :
L
+∞ L
+∞
n!
E[X] = n− k
n p (1 − p) =
k k pk(1 − p)n−k
k=0 k k=1
k k!(n − k)!
4
En comptabilisant le numéro chance, l’espérance augmente mais reste toujours négative.
20
+∞ +∞
L (n − 1)! L (n − 1)!
= np (k − 1)!(n − 1 − (k −
k=1
pk−1(1 − p)n−k = npk=0 k!(n − 1 − k)! pk(1 −
p)n−1−1))!
k
+∞
L
= np Pn−1(X = k) = np
k=0
On procède de même avec une loi continue, par exemple la loi norma le standard N (0, 1) (moyenne
√
nulle et variance unitaire), définie par sa densité : p(x) = exp(−x2/2)/ 2π
-
1 x2 i+∞
+∞
1
E[X] = x2 dx =h =
√ x − √ − − 2 0
2π − 2 2π
0 0
0.2 0.4
0 1
0 0
0
−3−2−1 0 1 2 3 −3−2−1 0 1 2 3
Fig. 1.3. Fonction de répartition et densité de probabilité de la loi normale standard.
Propriété 6 (Espérance)
Soient X et Y deux variables aléatoires réelles quelconques et a ∈ R : (i ) Espérance d’une constante : E[
(ii ) Linéarité de l’espérance : E[aX + Y ] = aE[X] + E[Y ]
Remarque : l’espérance étant un opérateur linéaire, en général, pour une fonction f non lin
éaire, on a E[f (X)] /= f (E[X]) (la moyenne des carrés des notes d’étudiants par exemple, n’est
en général pas
égale au carré de la moyenne de la classe). De même, en général E[XY ] /= E[X] × E[Y ] (l’égalité
est
cependant vérifiée quand X et Y sont décorélées, cf section 1.7).
1.6 Variance
L’espérance d’une variable aléatoire permet de localiser le centre d’une distribution. Pour caract
ériser la dispersion de la distribution autour de cette valeur centrale, on a besoin d’un second
indicateur. C’est précisemment le rôle de la variance.
21
Définition 7 (Variance)
Soit X une variable aléatoire (discrète ou continue). On définit la variance de X comme la valeur moyen
Var[X] = EhtX − E[X])2i
A` nouveau, on a deux expressions explicites différentes suivant que la variable est discrète ( à
gauche) ou continue et à densité ( à droite) :
L
+∞ -
Var[X] = pi(xi − E[X])2 Var[X] = (x − E[X])2π(x)dx (1.11)
i=0
R
Pour pouvoir donner une interprétation physique à Var[X] on en extrait souvent la racine carrée :
Définition 8 (Ecart-type)
On appelle écart-type d’une variable aléatoire X la quantité :
σX = pVar[X]
Exemple 1.8. Un thermomètre (dont la précision de mesure sera supposée absolue, mais qui n’affiche
que des valeurs entières) indique 17◦C. On peut◦ donc supposer que la température T réelle est
dis- tribuée suivant une loi uniforme entre 16.5 et 17.5◦ (on note U ([16.5; 17.5[]) cette loi) :
�1 si 16.5 :( t < 17.5

π(t) = 0 sinon.
On peut alors estimer l’incertitude sur la valeur affichée en calculant la variance de T :
- -17.5
tt − E[T
Var[T ] = π(t)dt = (t − 17)2dt
)2 16.5
R
]
Par changement de variable t 1→ t + 17, on réduit le problème à :
- +1/2 1
Var[T ] = t2dt =
−1/2 12
L’écart-type de la mesure est donc égal à √1 ≈ 0.29◦C. Ce bruit sur la lecture d’un capteur est appelé
1
bruit de numérisation ou encore bruit d’arrondi.
22
Propriété 9 (Variance)
Soient X et Y deux variables aléatoires réelles indépendantes et a ∈ R : (i ) Variance d’une constante

(ii ) Combinaison linéaire indépendante : Var[aX + Y ] = a2Var[X] + Var[Y ]
La propriété (ii ) confirme la validité du changement de variable de l’exemple du

thermomètre : Var[T − 17] = Var[T ] + Var[17] = Var[T ]. La variance est insensible à toute
translation.
1.7 Covariance
Pour traiter le cas de la somme de variables dépendantes, on doit introduire la notion de covariance.
Définition 10 (Covariance)
Soit (X, Y ) un couple de variables aléatoires réelles. On définit la covariance par la quantité :
Cov(X, Y ) = EhtX − E[X])tY − E[Y ])i
Remarque 1. L’opérateur de covariance peut être considérée comme un produit scalaire de

l’espace préhilbertien des variables aléatoires de carré intégrable. Il hérite donc de toutes
les propriétés algébriques des produits scalaires. En particulier il est symétrique : Cov(X,
Y ) = Cov(Y, X) et bilinéaire : Cov(aX + Y, Z) = aCov(X, Y ) + Cov(Y, Z).
Remarque 2. Il est important de le mentionner, la covariance ne mesure que la dépendance lin

éaire. On peut exhiber deux variables dépendantes de covariance nulle, e.g. X et X2 avec X ∼ U
([−1; 1]). On pourra trouver un contre-exemple similaire dans Hauchecorne (2007), page 360.
Afin d’obtenir une mesure facilement interprétable du degré de dépendance, on peut

normaliser le résultat par le produit des écarts-types de chacune des deux variables.
Définition 11 (Corrélation)
Soit (X, Y ) un couple de variables aléatoires réelles. On définit la corrélation par la quantité :
Cov(X,Y)
ρXY =
σX σY
L’inégalité de Cauchy-Schwarz nous montre alors que ρXY est compris entre −1 et 1.
Remarque sémantique : on parle d’autocorrélation (spatiale, temporelle ou autre) lorsque les deux
variables ont é t é géné rées par le même phénomène. Par exemple si Z(t) désigne l’altitude du
Mont-Blanc
23
à l’année t, alors on pourra parler de l’autocorrélation entre Z(t1) et Z(t2). Lorsque le ph
énomène Z é t u d ié est implicite, on pourra noter par abus de langage ρ(t1, t2) et Cov(t1, t2). Un
couple de variables (X, Y ) est dit dé c o r ré lé lorsque ρXY = Cov(X, Y ) = 0. Attention au piège
en pratique : Cov(X, Y ) proche de 0 n’implique pas ρXY proche de 0 et réciproquement ! Enfin, un
phénomène est dit décorrélé lorsque les valeurs qu’il prend sont deux-à - deux décorélées.
Fig. 1.4. De gauche à droite : champ aléatoire dé co rrélé (ρ = 0), champ anti-corrélé (ρ <
0), champ faiblement corrélé (ρ > 0) et champ fortement corrélé (ρ » 0).
Remarque : Var[X] = Cov(X, X). Ainsi, pour un ensemble de n variables aléatoires X1, X2, ...Xn,
on peut formuler toutes les informations de variances et de covariances dans une unique matrice carr
ée de dimension n et de terme gé né r a l (Σ)ij = Cov(Xi, Xj). On l’appelle la matrice de
covariance. Si les variables sont décorélé es (et a fortiori si elles sont indépendantes), Σ est
une matrice diagonale.
 
Var(X1) Cov(X1, X2) · · · Cov(X1, Xn)
 Cov(X 2, X1) Var(X2) · · · Cov(X2, Xn)  (1.12)

Σ X=  ..
 . ··· . . 
Cov(Xn, X1) ··· ··· Var(Xn)
La matrice de covariance est un outil fondamental dans le domaine de la propagation des incertitudes.
Soit X = (X1, X2, ...Xn)T un vecteur aléatoire (i.e. un vecteur contenant un ensemble de variables al
éatoires). Si on se donne une matrice A ∈ Rm×n, l’application X 1→ AX est une application lin
éaire
transformant un groupe de n variables aléatoires en un second groupe de m variables aléatoires. Le
théorème suivant permet de propager les incertitudes des variables d’entrée aux variables de sortie.
Théorème 12 (Propagation des variances)
Soit X un vecteur aléatoire de matrice de covariance ΣX et A ∈ Rm×n. Alors, la matrice

de covariance ΣY sur Y = AX est :
ΣY = AΣXAT
En particulier, en posant A = [1, 1], on retrouve directement l’expression 2 de la variance d’une

somme de 2 variables aléatoires corrélées : Var[X + Y ] = Var[X] + Var[Y ] + 2Cov(X, Y )
Que faire lorsque l’application n’est pas linéaire ? Soit f une fonction scalaire non-linéaire, et X
une variable aléatoire de variance Var(X). Pour évaluer la variance de Y = f (X) une solution
prête à l’emploi consiste à linéariser f autour d’une valeur de référence a :
24
(2) (n)
f (a) f (a) t )
f (X) = f (a) + f t(a)(X − a) + (X − a)2 + ... + (X − a)n + o (X − a)n
2 n
Alors, par les propriétés de la variance, et en se limitant à un développement limité à l’ordre 2,
[ ] [ ]
on a : Var[f (X)] ≈ Var f (a) + f t(a)(X − a) = Var f (a) + f t(a)2 Var[X − a] = f t (a)2Var[X]
Prenons le cas de f : x 1→ x2, et supposons que l’on travaille au voisinnage de a = 1. On a alors :
Var[X2] = (2a)2Var[X] = 4Var[X]
Bilan : si x = 1 ± 0.02 ( ou` 0.02 représente l’écart-type de x), alors f (x) = x2 = 1 ± 0.04.
On peut généraliser cette méthode pour une fonction f : Rn Rm, dont on peut calculer
1
la matrice jacobienne J de terme général (J)ij = , o u` f1, f2, ...fm sont les composantes de
∂fi
∂
f.
Théorème 13 (Propagation des variances : cas non-linéaire)
Soit f : Rn 1→ Rm, une fonction régulière de matrice jacobienne J et X un vecteur aléatoire

de Rn de matrice de covariance ΣX :
Σf (X) = JΣX JT
Exemple 1.9. On reprend l’exemple du thermomètre. Nous avons vu que le bruit de num
érisation induit une erreur de lecture d’écart-type environ égal à trois dixièmes de degré.
On fait un second relevé, et on lit à présent la valeur 20◦, soit une augmentation de temp
érature ∆T de 3◦. Quelle est
l’incertitude sur la valeur de ∆T ?
On note σ = 0.3 l’incertitude de lecture sur une mesure, et X1 et X2 les deux mesures effectuées.
Elles sont dé co ré lé es , donc de matrice de covariance diagonale : Σ = σ2I2 o u` I2 est l’indentit
é de R2. En exprimant ∆T sous la forme matricielle ∆T = [−1 + 1]X, le théorè me de
propagation des variances
nous donne immédiatement la matrice de covariance (ne contenant qu’un é lé ment) de ∆T :
[ ] σ2 0 −1
Σ∆T −1 = 2
0 +
√
On en déduit l’écart-type sur la différence de température : σ∆T = σ 2. La différence de temp
érature mesurée est donc : ∆T = 3 (±0.41) ◦C.
Exemple 1.10. A l’issue d’un examen, un étudiant re¸coit 5 notes (sur 20 points) : math
ématiques (coeff 12), physique-chimie (coeff 7), informatique (coeff 7), fran¸cais (coeff 4) et
anglais (coeff 2). On suppose que l’écart-type de l’erreur d’évaluation de chaque copie est de 3
points. Par ailleurs un seul et mêm e évaluateur corrige les copies de mathématiques et
d’informatique, ce que nous modéliserons par une corrélation (ρ = 50%) des erreurs
25
d’évaluation sur ces deux épreuves. Calculer l’incertitude sur la moyenne de l’étudiant. Qu’en
est-t-il si on suppose à présent les corrections de mathématique
26
et d’informatique comme étant parfaitement décorrélées ?
On exprime sous forme matricielle la moyenne de l’étudiant : µ = 1 AX, avec A le vecteur des
3
coefficients et X le vecteur aléatoire des notes obtenues. Par ailleurs, on a Var[X]
2 = σ = 9 et
2
Cov(X , X ) = 0 sauf pour le couple maths-info o u` on a : Cov(X , X ) = ρ σ σ = σ

= 4.5
i j i j ij Xi Xj 2
La matrice de covariance de X traduisant l’incertitude sur l’évaluation s’exprime par :
9 0 4.5 0 0 
0 9 0 0 0
ΣX 4.5 0 9 0 0 
= 
0 0 0 9 0 

0 0 0 0 9
Une application numérique nous donne immédiatement : Var[µ] = 1

2 AΣXAT = 3.03
3
La note moyenne de l’étudiant au module est donc entâchée d’une erreur d’évaluation d’écart-type
√3.03 = 1.74 points. En utilisant le graphique 1.3 de la fonction de répartition de la loi normale,
on peut (en première approximation) annoncer qu’avec une probabilité de 95% l’impact de
l’erreur d’évaluation sur la moyenne obtenue par l’étudiant à l’examen, sera inférieure à 2 ×
1.74 = 3.48 points.
En supposant à présent que les copies de mathématiques et d’informatique sont corrigées par deux
évaluateurs différents, la matrice ΣX devient diagonale et on a :
Var[µ] = 1 A(9I )AT = 9 AAT = 2.28

5
322 322
.
On remarque donc que l’erreur sur la moyenne d’examen est amplifiée par le fait qu’un même
évaluateur corrige deux épreuves. Il s’agit d’une règle générale : les corrélations positives d
émultiplient les erreurs de calculs algébriques de type intégral (somme, cumul, moyenne...) et r
éduisent les erreurs de calculs différentiels (dérivées, pentes, vitesse...). L’inverse est aussi v
érifié pour les corrélations négatives.
+ Fonction additive :
moyenne, somme, décompte, intégration...
Signal anti-corrélé Bruit blanc Signal corrélé
- Fonction soustractive :
différence, pente, vitesse, accélération...
Fig. 1.5. Impact d’un bruit à corrélation négative ( à gauche), décorrélé (au centre) et à corr
élation positive ( à droite) sur des applications de type additif (en haut) et soustractif (en bas).
27
1.8 Moments statistiques
Dans cette dernière section, qui pourra être passée en première lecture, nous généralisons les
notions d’espérance et de variance, et nous tentons par la même occasion de montrer qu’elles ne
constituent que les premiers coefficients d’une caractérisation des lois de probabilités par un d
éveloppement en série de fonctions à base de quantités appelés moments. Cette discussion
devrait nous permettre de comprendre le concept (et les limites) de la géostatistique dite linéaire.
Dans le but de simplifier la présentation, nous nous placerons à présent exclusivement dans le
cas d’une variable aléatoire continue, la généralisation au cas discret étant immédiate.
Définition 14 (Moment statistique)

Soit X une variable aléatoire réelle. Alors, pour k ∈ N, on définit le moment d’ordre k par :
mk = E[Xk]
Remarque : l’espérance correspond au moment m1. De même, le développement suivant permet

d’exprimer la variance uniquement en fonction des 2 premiers moments :
1t )2l 1 l
E X − E[X] = E X2 − 2XE[X] + E[X]2 = E[X2] − 2E[X]2 + E[X]2 = E[X2] − E[X]2
Var[X] = m2 − m2 (1.13)
1
Cette relation, plus fondamentale qu’il y paraˆıt au premier abord, appelle deux observations :
• D’une part, d’un point de vue informatique, il est possible de calculer la variance (et donc l’écart-
type) en une seule passe sur les données (l à o u` l’utilisation de la formule classique n
écessite 2 passes : une pour calculer la moyenne m1, et une pour calculer les écarts à m1).
On prendera garde cependant au risque accru d’erreurs d’arrondi numérique avec cette
formulation.
• D’autre part, sur un plan plus théorique, si X représente l’amplitude d’une erreur
commise, alors le terme d’erreur quadratique E[X2] (aussi appelé MSE pour Mean Square
Error dans la littérature anglo-saxonne), peut s’exprimer en fonction de deux composantes
distinctes :
E[X2] = E[X]2 + Var[X]
En remarquant que E[X] est la moyenne des erreurs, c’est-à - dire le biais, on peut aussi écrire :
E[X2] = Biais2 + Variance (1.14)
28
Biais élevé Biais élevé Biais faible Biais modéré
Variance élevée Variance faible Variance élevée Variance modérée
Fig. 1.6. Illustration des deux composantes de l’erreur de pointé dans un jeu de féchettes : le biais,
i.e. l’erreur systématique, et la variance, i.e. l’incapacité à produire des jets identiques.
Définition 15 (Fonction génératrice des moments)

Soit X une variable aléatoire réelle.On appelle fonction génératrice des moments, la fonction MX : R →
MX(t) = E[etX ]
On justifie a posteriori le nom de cette fonction par le fait que ses dé ri vées successives d’ordre k prises
en l’origine co¨ıncident exactement avec la suite (mk)k∈N des moment de X.
Propriété 16 (Fonction génératrice des moments)
Soit X une variable aléatoire réelle de fonction génératrice des moments MX et k ∈ N :
dkMX(t)
= E[Xk]
dtk I
t=0
Preuve : par linéarité des opérateurs d

et E :
d
dkMX
1 dketX l = E[ ]
(t) dkE[etX] = e
k tX et donc dkMX (0) = E[ k ] =
dtk dtk dtk
d
29
Théorème 17 (Relation univoque FGM ↔ DDP)
Soit f : R → R une fonction. Il existe au plus une unique densité de probabilité π admettant
f pour fonction génératrice des moments, i.e. solution de l’équation :
- +∞
f (t) = −∞ etxπ(x)dx
30
Preuve : immédiate en posant t = iτ (avec i2 = −1) et à l’aide de la transformation de Fourier.
Le théorème 17 revêt une importance capitale pour la compréhension du rôle des moments
dans la caractérisation statistique d’une variable. Pour mieux s’en convaincre, effectuons une d
éveloppement en série entière de la fonction exponentielle dans la définition 15 :
1 l
t2 X + t3 X3
MX(t) = E[etX ] = E 1 + tX 2 + ...
2 3!
+
A` nouveau, par linéarité de l’espérance :
2 3 t2m t3m
MX(t) = 1 + tE[X] + t E[X 2] + t E[X 3] + ... = 1 + tm + + + ... (1.15)
2 3! 2 3!
Si on met bout-à - bout toutes les informations dont nous disposons jusqu’à présent :
• La fonction génératrice des moments se calcule par une somme ne nécessitant que la
connaissance de la suite (infinie) des moments de X (équation 1.15).
• A partir de cette même fonction, le théorème 17 stipule qu’il est possible de reconstruire
sans ambigu¨ıté la densité de probabilité de X.
• L’intégrale 1.7 nous donne alors la fonction de répartition de X sur l’ensemble des réels.
Autrement dit, la suite des moments est une caractérisation complète 5 d’une variable aléatoire réelle.
La géostatistique linéaire, qui se retraint à l’estimation de quantités inconnues par des

combinaisons linéaires d’observations, ne nécessite en retour que l’emploi des 2 premiers
moments. Tout se passe donc virtuellement comme si on opérait une troncature au second ordre d’un
genre de devéloppement analytique de la loi de la variable aléatoire.
1.9 Exemple de synthèse

Un usager attend le bus à une station desservie par 2 lignes différentes. Les bus y passent à un
intervalle régulier de 10 minutes. Les 2 lignes sont supposées indépendantes. L’usager
prendra le premier des deux bus qui arrive. Combien de temps doit-il attendre en moyenne ? On
peut modéliser l’expérience par un ensemble fondamental Ω = [0, 10]2. La mesure de probabilit
é P est celle d’une loi uniforme sur Ω. Soit X la variable aléatoire dénotant le temps d’attente
de l’usager :
X : [0, 10]2 R
→ (1.16)
(ω1, ω2) 1→ min(ω1, ω2)
Soit x ∈ [0, 10] une réalisation de la variable de temps d’attente. Une analyse graphique rapide
(cf fig. 1.7) permet de déterminer la valeur de FX(x) :
5Sous réserve d’existence de la fonction génératrice M , sinon l’unicité n’est pas garantie sur R. On pourra trouver
X
un contre-exemple avec la loi log-normale. C’est l’objet du problème de Hamburger (1920).
31
x2 + x(10 − x) + (10 − x(20 − x)
FX(x) = PX ([0, x]) 100
= x)x
100 =
En particulier, on s’assure bien que FX vérifie les propriétés des fonctions de répartitions : FX est
croissante, FX(−∞) = FX(0) = 0 et FX(∞) = FX(10) = 1.
Fig. 1.7. Illustration de l’espace fondamental Ω. Chaque point ω = (ω1, ω2) représente une réalisation al
éatoire, avec ωi le temps d’attente du bus i. X(ω) = min(ω1, ω2) est le temps d’attente de l’usager.
Plus généralement, on peut transposer la loi P sur l’ensemble fondamental à une loi PX sur la variable al
éatoire X, définie pour tout intervalle [a, b] ∈ [0, 10] par :
PX([a, b]) = P({(ω1, ω2) ∈ Ω ; a :( min(ω1, ω2) :( b}) = P([a, b]2) a2 − b2 + 20(b − a)
= 100
S’ensuit alors la densité de probabilité : pX(x) = dFX (x) = 10−x

dx 50
Puis l’espérance du temps d’attente

:
1 - 10
- 10 xpX(x)dx = x(10 x)dx = 10
E(X) = 50 0 − 3
0
L’usager attendra donc en moyenne 3 min 20. On peut évaluer de la mêm e manière
l’incertitude autour de cette valeur moyenne à l’aide de la notion de variance. On utilise la
formule 1.13 : Var[X] = E[X2] − E[X]2 (pour profiter du fait que nous avons d é j à calculé l’esp
érance).
-
1 1 x3 x3 l10
2 10
2 50
E ] x pX(x)dx = =
0 3 4 3
50
√
J
100 2
D ’o u` : Var[X] = 3 −
50
9= 9 . On en déduit alors l’incertitude σX =
50
Var[X] = 5
3 ≈ 2.35, soit
un écart-type sur le temps d’attente de 2 min
32
A titre d’exercice, on généralisera cette étude au cas d’un arrêt desservi par n lignes de bus.
Par ailleurs, on peut pousser le scénario un peu plus loin, en supposant que le premier bus
arrivant est systématiquement complet. L’usager doit alors attendre le second bus.
On pose Y : (ω1, ω2) 1→ max(ω1, ω2) la variable aléatoire qui à une réalisation donnée associe le
temps d’attente de cet usager. Par symétrie du problème, on trouve aisément la densité de Y :
pY (y) = 10 − pX(y) = y
50
puis son espérance E[Y ] = 10 − E[X] = 20

et sa variance Var[Y ] = Var[X] = 50
.
3 9
On peut également exprimer la covariance des temps d’attente entre les deux cas de
figures. A` nou-
veau, de manière similaire à l’équation 1.13, on cherche une expression alternative pour Cov(X, Y
), afin de réutiliser les résultats trouvés pour E[X] et E[Y ] :
1 l
Cov(X, Y ) = E (X − E[X])(Y − E[Y ])
1 l
= E XY − Y E[X] − XE[Y ] + E[X]E[Y ] (1.17)
= E[XY ] − E[X]E[Y ]
Il ne nous reste alors plus qu’à évaluer l’espérance de la variable Z = XY . On doit exprimer la
densité de probabilité p(x, y). Malheureusement, X et Y n’étant pas indépendantes comme
nous allons le voir, p(x, y) /= p(x)p(y). En revanche on peut écrire : p(x, y) = p(x|y)p(y) o u`
p(x|y) est la probabilité
conditionnelle de X sachant Y . Par exemple, si on sait que le second bus (Y ) est arrivé après 8
minutes d’attente, alors on en déduit que le temps d’attente du premier bus suit nécessairement
une loi uniforme entre 0 et 8 : Y ∼ U ([0, 8]). D ’ o u` :
( 1) ( y ) 1
p(x|y) ∼ U ([0, y]) et donc : p(z) = p(x, y) = × =
y 5 5
On en déduit alors l’espérance de la variable Z = XY :
-
- 10 - 1 - 10 -
E[Z] =
zp(z)dz = y xyp(x, y)dxdy = y xydxdy = 25
R x=0 50 y=0 x=0
y=0
( )( )
10 20
Par ailleurs, on évalue E[X]E[Y ] = = 200
, ce qui nous permet de terminer le calcul :
3 3 9
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 25 200 25

− =
9 9
Au passage, on peut déterminer la corrélation entre ces deux variables :
33
Cov(X, Y )
ρXY = = 50%
σXσY
34
Enfin, supposons que deux personnes attendent à la station, et que le bus ne contienne plus qu’une
place libre. Calculons le retard R pris par l’un des usagers par rapport à l’autre.
Avec les notations utilisées jusqu’ici, on a R = Y −X. On cherche à calculer la moyenne et la

variance de R. Nous disposons à ce stade de toutes les informations nécessaires. D’un part, l’esp
érance étant
un opérateur linéaire, on peut écrire (quand bien même X et Y sont corrélées) :
20 10
E[R] = E[Y − X] = E[Y ] − E[X] = − = 3.33 min
3 3
Pour la variance, on utilise la formule de propagation donnée par le t héorème 12 :
Var[Y − X] = Var[Y ] + Var[X] − 2Cov(X, Y )

50 50 25 50
= + − 2× =
9 9 9 9
On a donc un écart-type de 2 min 21.
On remarque que la moyenne et l’écart-type de l’avance d’un usager par rapport à l’autre, sont
strictement égaux à ceux du temps d’attente de l’usager qui prend le premier bus, ce qui paraˆıt
intuitif. Tout se passe comme si R correspondait au temps d’attente d’un usager arrivant à la
station au moment du départ de X.
35
Chapter 2
Analyse variographique
En tant qu’outil central de la Géostatistique, le variogramme constitue une signature

probabiliste (partielle mais suffisante) de l’autocorrélation des phénomènes. Dans ce chapitre,
nous définissons en premier lieu plus rigoureusement la notion de phénomène à l’aide des
processus stochastiques. Nous
établirons alors les conditions sous lesquelles il est possible d’en extraire un variogramme, dont nous
étudierons les propriétés théoriques, avant de présenter la méthode standard d’estimation
du variogramme (inconnu par nature) à partir d’un semis d’observations ponctuelles.
2.1 Processus stochastique

Reprenons notre problème modèle : nous disposons d’un semis d’observations ponctuelles
d’altitudes z1, z2, ...zn mesurées par GPS sur un domaine D (par exemple un massif montagneux d
élimité). L’objectif du problème de production d’un Modèle Numérique de Terrain (MNT)
consiste à estimer une fonction z retournant l’altitude en chaque point de D et telle qu’en chaque
point xi sur lequelle une observation zi a é t é effectuée, la contrainte zi = z(xi) soit respectée.
Il s’agit d’un problème
classique d’interpolation spatiale.
Nous l’avons dit en introduction, il existe un certain nombre de méthodes déterministes

permettant de traiter ce problème : la méthode du plus proche voisin, l’interpolation linéaire, bilin
éaire, p ondérée par l’inverse des distances aux sites d’observations, les splines de lissages et de r
égression... (Mitas et Mitasova, 1999; Arnaud et Emery, 2000). Toutes ces méthodes présentent
l’avantage de ne nécessiter aucune hypothèse forte sur le phénomène à estimer (ici le relief du
terrain). Nommément, la seule sup-
position effectuée est que l’altitude sur le domaine D puisse être décrite par une fonction z : D
→ R. En un couple de coordonnées cartographiques x donné, il ne peut donc y avoir qu’une seule
altitude
correspondante z(x), ce qui interdit donc la modélisation des dévers, grottes, sous-terrains,
tunnels... Cette fonction z est appelée une variable régionalisée.
En Géostatistique, nous devons ajouter une seconde couche d’abstraction à ce modèle

primaire, afin de prendre en compte la nature stochastique du phénomène étud ié . Nous
supposons à présent que la variable régionalisée z est une réalisation Z(ω) d’une variable al
éatoire fonctionnelle Z. Nous allons voir par la suite que ce niveau supplémentaire d’abstraction n
écessite de poser des hypothèses un peu plus lourdes sur le phénomène.
36
Définition 18 (Processus stochastique)
Soit (Ω, A, P) un espace probabilisé, et D un espace quelconque. On appelle processus

stochastique toute fonction Z :
Z : D×Ω→R
Remarque : dans le problème modèle, D est un sous-ensemble de R2.
Cette variable aléatoire Z est appelée fonction aléatoire (FA), processus stochastique ou encore
signal aléatoire. Quand le domaine D contient plusieurs dimensions, on parle aussi de champ al
éatoire .
La fonction Z est une fonction de 2 variables : x définie sur un domaine analytique quelconque
(i.e. sur un espace physique perceptible, par exemple l’espace géographique) et ω définie sur
une espace probabilisé. L’espace produit cartésien D × Ω est donc un espace dit topo-
probabiliste. Il peut être
instructif de regarder ce qu’il advient quand on fixe l’une des 2 variables :
• Pour une éventualité ω ∈ Ω donnée, la réalisation z(.) = Z(., ω) est une trajectoire du
processus. C’est une fonction classique de D → R : la variable régionalisée.
• En un lieu x ∈ D donné, la variable Z(x,.) est une variable aléatoire réelle classique,
dont la valeur ne dépend plus que de la réalisation ω considérée.
Remarquons également qu’un processus stochastique n’est que la généralisation continue de la

notion de vecteur aléatoire. Nous avons vu dans le chapitre 1 qu’il peut être avantageux de
regrouper un ensemble de variables aléatoires Z1, Z2, ...Zn au sein d’un unique vecteur Z = [Z1,
Z2, ...Zn]T . Dans le cadre d’un processus stochastique, les variables individuelles sont indexées
par les positions (continues) du domaine : Z(x1), Z(x2), .... Informellement, Z peut donc être
considéré comme un vecteur aléatoire contenant une infinité d’éléments.
Fig. 2.1. 3 exemples de réalisations d’un processus stochastique X : R × Ω → R, o u` R repr

ésente la dimension analytique et Ω (en pratique non-spécif ié) est la dimension stochastique
que l’on peut
considérer informellement comme un ensemble d’univers parallèles. Source : Antoni (2013).
Pour réaliser un processus stochastique, un protocole simple et ne nécessitant que peu de matériel
(et que l’on pourra même faire en pensée si on ne souhaite pas heurter sa sensibilité écologique),
consiste
37
à prendre une feuille de papier, à la froisser, puis à essayer de la remettre à peu près à plat sur
la table. Le motif obtenu est alors parfaitement aléatoire, et en réitérant l’expérience, on
obtiendra en toute probabilité une géométrie de pliage différente. Malgré tout, la forme et la
longueur typique des lignes de brisure (i.e. certaines des caractéristiques d’autocorrélation spatiale
du processus de froissage) vont rester fortement similaires d’une réalisation à l’autre. La même
observation pourrait être effectuée sur le processus de formation du relief montagneux (si
toutefois nous pouvions rejouer le temps en quelques sortes). Dans les deux cas d’exemple, les
forces globales externes (pression des mains sur la feuille, convergence des plaques tectoniques) sont
sensiblement les mêmes. C’est la présence de petites variations locales qui vont générer l’al
éatoire des réalisations. Tout au long de ce cours, il pourra
être intéressant de revenir à cette expérience de la feuille de papier, qui contrairement au
processus orogénique, présente l’avantage de pouvoir être conceptuellement rejouée).
La figure 2.2 donne un exemple de 8 réalisations d’un processus stochastique de MNT. En réali té ,
une et une seule de ces réalisations correspond au relief d’une zone existant réellement. Les 7
autres sont des simulations informatiques programmées pour reproduire les caractéristiques
statistiques du champ réel. La difficulté certaine à identifier le champ modèle parmi ces 8 r
éalisations, valide l’efficacité de la simulation. La réponse au problème sera donnée dans le
chapitre 4.
Fig. 2.2. 8 réalisations d’un processus stochastique Z : R2 × Ω → R pour 8 tirages ω1, ω2, ...ω8.
Le champs z(.) = Z(., ωi) est la carte de relief g é n é r é e par la i-eme réalisation. La quantité
Z(x,.) est une variable aléatoire traduisant l’incertitude sur l’altitude au lieu x ∈ R2 de la carte.
Activité I. Simulation informatique d’un processus stochastique

Bien évidemment, la nature finie de l’espace mémoire de la machine ne nous permet que de cr
éer des processus discrets. Cette activité devrait cependant permettre de rendre plus concret la
notion de processus stochastique.
Q1. On appelle marche aléatoire sur R à temps discret1 la réalisation d’une suite de variables aléatoires
X0, X1, X2... définie à chaque pas de temps t ∈ N par :
0 si t =
0 =
X � (2.1)
Xt−1 + εt sinon.
t
o u` εt ∼ N (µ, σ2) est une suite de variables aléatoires décorrélées, distribuées suivant une loi
normale de moyenne µ et d’écart-type σ.
De manière informelle, X représente la position d’une personne se dépla¸cant sur un axe uni-
dimensionnel en partant d’un position arbitrairement fixée à 0. A` chaque pas de temps t, elle peut
se déplacer d’une
38
1
On parle aussi de manière imagée de marche de l’ivrogne.
39
quantité εt (en arrière si εt < 0 et en avant sinon). La quantité εt est échantillonnée aléatoirement (et
à chaque pas de temps t) suivant la loi normale (cf fig. 1.3). On pourra trouver une analyse th
éorique de ce processus dans Barret (2009).
Remarque : observons que εt est lui même un processus stochastique. Il est entièrement décorr
élé et se rencontre sous le nom de bruit blanc dans littérature (Picinbono, 1998)).
On écrira une fonction random_walk(N,m,s) prenant en entrée le nombre N de pas de temps à gén
érer ainsi que les paramètres (moyenne m et écart-type s) du processus de déplacement εt.
Script 1. Generation d’une marche aléatoire [code1.r]
random_walk = function(N,m,s){
X = rep(0, N) # Initialisation
for (i in 2:N){
X[i] = X[i-1] + rnorm(1,m,s) # Simulation
}
return(X)
}
Le code ci-dessus est une transcription directe de la définition 2.1. La fonction R rnorm(n,m,s) g
é nè r e un vecteur de n réalisations d’une loi normale de moyenne m et d’écart-type s.
Lorsqu’un signal aléatoire est défini de manière récursive, à l’instar de 2.1, on parle de repr
ésentation markovienne du processus. Un processus admettant une représentation markovienne est
qualifiée de markovien. Remarquons que 2.1 peut être programmé de manière plus concise à
l’aide de la fonction cumsum(Y) qui effectue une somme cumulée des termes de Y : X =
cumsum(rnorm(N,m,s)).
Q2. Après avoir spécifié les valeurs des paramètres (par exemple N=500, m=0 et s=1 pour
commencer) représenter une réalisation du processus à l’aide de la fonction plot :
plot(random_walk(N,m,s), type=’l’)
Faire varier les paramètres et observer les réalisations produites. En particulier, on pourra
modifier la tendance globale avec le paramètre m.
Q3. Pour un triplet de paramètres (N,m,s) fixé, représenter (sur le même graphe) 10 r
éalisations du processus stochastique X.
Q4. On se place au niveau d’un époque donnée tps (par exemple 150). Compiler dans un
unique vecteur les valeurs prises par le processus X à l’abscisse tps sur 10 réalisations diff
érentes.
Q5. Représenter la distribution des valeurs prises par le processus X à l’abscisse tps. Si L
est le vecteur contenant les réalisations de Xtps, on pourra utiliser la commande :
plot(density(L)).
40
Script 2. Generation d’une marche aléatoire [code1.r]
N = 500; m = 0; s = 1 # Parametres
par(mfrow=c(1,2)) # Pour tracer 2 graphes
tps = 150; L=c()
plot(0,xlim=c(0,500),ylim=c(-100,100))# On initialise le graphique
for (realisation in 1:10){ # On genere 10 realisations

X = random_walk(N,m,s) L = c(L, X[tps]) lines(X)
# Generation du processus
}
# Representation graphique
abline(v=tps, lty=2)
plot(density(L)) # Distribution de X[tps]
Pour aller plus loin, on pourra étendre le code pour représenter simultanément les distributions
au niveau de deux époques différentes, par exemple 100 et 350. La figure 2.3 illustre le résultat
obtenu.
1
0
0.
3
0
5
0
2
0
0.
1
0
Den
X
0
0
0.
−
5
−
1
−
2
0.
−
0 100 200 300 400 500 0 100 200 300 400 500 −100 −50 0 50 100
Fig. 2.3. Résultat de code1.r : génération d’une réalisation du processus aléatoire ( à

gauche), génération de 10 réalisations (au centre) avec les coupes à t = 100 (en rouge) et t =
350 (en bleu), et distributions de probabilités des variables Xt correspondantes ( à droite).
La figure 2.3 illustre bien le concept d’espace topo-probabiliste. A` gauche, la réalisation ω ∈ Ω est
fixée, et on observe l’évolution de la réalisation sur son domaine A` droite le lieu du do-
analytique.
maine est f ixé : t = 100 (en rouge) ou t = 350 (en bleu), et on observe la variabilité stochastique
de Xt sur Ω, i.e. la densité de probabilité π(Xt) à t fixé. Au centre, on essaye de combiner la repr
ésentation des deux espaces (R en abscisse et Ω en superposant les courbes).
Par ailleurs, on observe que la variance Var[Xt] augmente à mesure que t augmente (ce qui est
assez intuitif, la position du mobile est d’autant plus incertaine que le temps passe). En revanche l’esp
érance E[Xt] est constante et égale à 0. Nous dirons par la suite que le processus est
stationnaire à l’ordre 1 (i.e. pour son moment d’ordre 1, l’espérance) mais non-stationnaire à
l’ordre 2.
Nous programmerons d’autres processus stochastiques plus loin.

41
42
2.2 Une première approche informelle
Dans cette section, nous allons essayer d’acquérir une compréhension empirique de l’approche
em- ployée par la Géostatistique, en particulier pour résoudre le problème d’interpolation.
Pour ce faire, nous utilisons une comparaison inspirée de Arnaud et Emery (2000) : on
considère 6 expériences aléatoires (que nous représenterons de manière schématique par
une collection de dés à jouer), dont la réalisation est observé pour 5 d’entres elles (x1 à x5) et
inconnue pour la dernière (x6). On nous demande de pronostiquer le résultat de cette dernière
expérience.
x1 x2 x3 x4 x5 x6
En l’état des connaissances, on serait bien en peine de répondre. Probablement, le mieux que
l’on puisse faire pour minimiser les risques d’un écart trop important à la vé r i té , ce serait de
parier sur l’espérance a priori de chaque expérience aléatoire individuelle (i.e. 3.5 pour le cas du
d é à 6 faces), ce qui est avouons-le, un prognostic relativement pauvre. L’écart-type associé, on
pourra le vérifier à titre d’entraˆınement, vaut 1.71.
En revanche, qu’en est-il si on sait à présent que les résultats de l’expérience sont spatialement corr
élés, ce que nous modéliserons graphiquement par des ressorts entre les différentes r
éalisations ?
+/- 1
x1 x2 x3 x4 x5 x6
On va alors intuitivement chercher à regarder ce qui se passe sur la portion observée pour
quantifier cette corrélation. On y observe que les valeurs prises par deux réalisations voisines
ne diffèrent (en règle générale) pas plus d’une unité. Une estimation sur x6 serait alors
vraisemblablement 2 ± 1.
Généralisons cette analogie pour le cas de l’interpolation des valeurs d’un MNT (fig. 2.4). Le
semis de relevés d’altitudes nous permet d’étudier les corrélations statistiques du phénomène.
Dans une seconde phase, le modèle de corrélation ainsi i nféré va être utilisé pour prédire plus
finement les valeurs inconnues (fig. 2.5). Nous étudierons cette seconde étape dans le chapitre 3.
Cette manière de procéder suppose toutefois deux hypothèses importantes :
• Collecter des informations aux points observés pour les transférer aux sites inconnus n
écessite une uniformité des propriétés statistiques du phénomène sur tout le domaine
d’étude. C’est la stationnarité.
• Nous disposons initialement de n mesures d’altitude, mais il ne faut pas oublier que ces
43
observations appartiennent toutes à une unique réalisation Z(ω) du processus
stochastique. Pouvoir inférer des informations de nature statistique à partir d’une unique r
éalisation n’est absolument
44
pas trivial, et requiert une second hypothèse un peu plus technique : l’ergodicité.
y4 y4
? ? ?
y3
? ? y3
? ? ?
y2 ? y2
? ? ?
y1 ?? y1
?
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
Fig. 2.4.
A` gauche : problème d’interpolation consistant à trouver les valeurs des réalisations
inconnues (en rouge) à partir des sites observés (en A` droite : étude des corrélations entre les
noir). réalisations (uniquement à l’aide des
observations).
y4
y3
y2
y1
x1 x2 x3 x4 x5 x6
Fig. 2.5. Résultat de la procédure d’interpolation
2.3 Les hypothèses fondamentales
Un processus Z est entièrement déterminé par ses lois jointes fini-dimensionnelles :
FX(z1, ...zk) = P[Z(x1) :( z1, ....Z(xk) :( zk] (2.2)
o u` X = [x1, x2, ...xn] est un vecteur (de dimension finie) répertoriant les n sites concernés par la
loi fini-dimensionnelle. Remarquons que pour un domaine de taille finie p, il y a autant de lois FX
que de vecteurs X possibles, à savoir 2p, le nombre de D partitions de . Pour un domaine continu
D en pratique, et on choisit
(e.g. R), la connaissance de la famille (infinie) de ces lois est impossible
de caractériser Z uniquement à l’aide de ses 2 premiers moments : moyenne et covariance.
2.3.1 La Stationnarité
Informellement, la propriété de stationnarité d’un processus stochastique décrit l’uniformité
de ses propriétés statistiques sur son domaine de définition analytique. Cela ne signifie en
aucun cas qu’il est constant, mais seulement que ses réalisations ont les mêmes chances de produire
les mêmes motifs en tout lieu x du domaine.
45
On distingue plusieurs types de stationnarité en fonction des propriétés ciblées.
Définition 19 (Stationnarité au sens fort (SSS))
Un processus stochastique est dit stationnaire au sens fort, ou au sens strict si, et seulement si, toutes ses lo
FX(z1, z2, ...zn) = FX+h(z1, z2, ...zn)
Remarque : h est un vecteur de même dimension que les points du domaine D. Donc, dans le
cas du problème modèle du MNT, h est un vecteur 2D, avec deux composante Est-Ouest et Sud-
Nord.
L’hypothèse de stationnarité au sens fort est beaucoup trop lourde en pratique, puisque impossible
à vérifier, même de manière approchée.
Définition 20 (Stationnarité à l’ordre 2 (WSS))

Un processus stochastique est dit stationnaire au sens faible, ou au sens large, si et seulement si, ses de
E[Z(x)] = E[Z(x + h)]
Cov[Z(x1), Z(x2)] = Cov[Z(x1 + h), Z(x2 + h)]
Le point (i ) peut être reformulé comme suit : il existe une valeur m telle que E[Z(x)] = m pour
tout point x ∈ D. Par ailleurs, un processus vérifiant cette condition (i ), sans nécessairement v
érifier (ii ), est qualifié de stationnaire à l’ordre 1.
Propriété 21 (Stationnarité à l’ordre 2)
Soit Z un processus stationnaire au sens faible, alors sa covariance ne dépend que du

vecteur séparant les sites :
Cov[Z(x1), Z(x2)] = f (x1 − x2)
Preuve : Z étant stationnaire à l’ordre 2, sa covariance est invariante par translation h ∈ D :

Cov[Z(x1), Z(x2)] = Cov[Z(x1 + h), Z(x2 + h)]. En particulier, on peut choisir h = −x2 et on obtient
alors : Cov[Z(x1), Z(x2)] = Cov[Z(x1 − x2), Z(x2 − x2)] = Cov[Z(x1 − x2), Z(0)]. Cette fonction ne d
épend que de x1 − x2, le vecteur séparant les deux sites, d’ou` le résultat.
Cette propriété (et sa démonstration) mettent clairement en évidence que la covariance des
valeurs prises pas le phénomène entre deux sites séparés d’un vecteur _v , est égale à la
covariance entre la valeur prise en l’origine et celle prise en un point _v . Autrement dit, la
ressemblance statistique entre les valeurs prises en deux sites, ne dépend que de leur position
relative, et non de l’origine du repère.
A` titre d’exemple, le processus de marche aléatoire étu d ié dans l’activité I (fig. 2.3) est
stationnaire à l’ordre 1 (la valeur moyenne des signaux est uniforme) mais non-stationnaire à
l’ordre 2 (la variance,
46
traduite ici par la dispersion des réalisations, augmente le long de l’axe des abscisses). Il n’est
donc pas stationnaire au sens faible, et a fortiori, il n’est pas non plus stationnaire au sens strict.
Nous démontrerons rigoureusement cette affirmation plus loin.
Par commodité, nous ajoutons une hypothèse subsidiaire, qui n’est pas indispensable (et pourra
facilement être relaxée), mais qui simplifiera la présentation : l’isotropie.
Définition 22 (Isotropie)
Soit Z un processus stationnaire au sens faible. On dit que Z est isotrope si, et seulement si, sa covariance n
Cov[Z(x1), Z(x2)] = C(||x1 − x2||)
On appelle covariogramme cette fonction C. C’est une fonction classique de R+ dans R+, prenant
en entrée la distance hij séparant deux sites xi et xj et retournant la covariance des valeurs
prises par le phénomène en ces deux sites : Cov[Zi, Zj]. On donne un exemple de covariogramme en
figure 2.6.
1
0
0
C
0
0
0
0 200 400 600 800 1000
Fig. 2.6. Pour une distance h donnée séparant 2 lieux, le covariogramme C(h) désigne la
covariance (ou si on préfère la ressemblance) entre les valeurs prises par le phénomène en ces
2 lieux.
On a systématiquement C(0) = σ2 , l’écart-type du processus. En effet, C(0) = Cov[Z(x), Z(x)] =

Z
Var[Z(x)] = Var[Z] (par stationnarité du processus). En général 2 , la fonction C tend vers 0 en
l’infini (les variables tendent à se décorréler à mesure qu’elles sont éloignées g
éographiquement.
Plus le covariogramme déc r oˆı t rapidement, plus la structure du phénomène sous-jacent est
locale. Par exemple, on peut parfaitement imaginer que la figure 2.6 représente le covariogramme
du relief sur une zone montagneuse. Pour h > 600 m, on observe que la corrélation entre sites est
quasi-nulle. Cette valeur critique (que nous appellerons portée par la suite) correspond
47
typiquement à la taille
2
Il existe des contre-exemples artificiels, mais cette propriété est vraie en général pour des phénomènes naturels.
48
caractéristique d’une structure : vallée, colline...
2.3.2 L’ergodicité
Pour estimer le covariogramme en pratique, nous devons partir des observations z1, z2, ...zn, qui ne
sont que des mesures ponctuelles prélevées sur une unique réalisation. Il est important ici de
bien saisir l’importance de cette limitation. Dans le cadre de la Géostatistique, les données collect
ées sur la variable régionalisée (altitudes, températures...) sont le résultat d’un double
échantillonnage, d’abord dans l’espace probabiliste Ω, puisque seule une réalisation est disponible,
puis dans l’espace analytique
D (i.e. l’espace physique réel) puisqu’on ne peut observer qu’un nombre fini de sites.
Observation
Réalisation
Fig. 2.7. Tout l’enjeu du problème consiste à inférer des informations statistiques sur un ph
énomène (mo délisé par le processus stochastique X) à partir des données disponibles x˜ ,
qui ne sont que des observations partielles d’une unique réalisation de ce phénomène.
Dè s lors, se pose la question de savoir comment déduire des informations de nature statistique à
partir d’une unique répétition d’une expérience aléatoire. L’idée centrale va consister (lorsque
c’est possible)
à compenser le manque de réalisations par l’étendue spatiale des informations collectées.
Imaginons que nous puissions observer une réalisation d’un processus (supposons par exemple
un MNT), sur une domaine très grand (e.g. sur un carré de plusieurs dizaines de km de c ô té ) .
Si le domaine d’étude D est suffisamment grand, on peut alors envisager de le segmenter en un
certain nombre
de zones, nous permettant ainsi d’obtenir virtuellement plusieurs réalisations (quasi-indépendantes)
du processus.
Fig. 2.8. Création artificielle de plusieurs réalisations ω1, ω2... du phénomène par segmentation.
Remarquons que le domaine initial doit être suffisamment grand pour que cette approximation ait une
49
chance d’être valide. En effet, si par exemple on segmente à nouveau la réalisation ω9 (portion du
coin sud-est) du domaine de la figure 2.8, on sent bien intuitivement que les sous-zones qui en r
ésulteront
50
ne posséderont alors plus les mêmes caractéristiques statistiques que ω9.
En quelques sortes, on échange de l’information sur le domaine géographique D, contre de

l’information sur l’espace probabiliste Ω. Pour que cette substitution soit rigoureusement
correcte, le processus
étudié doit posséder une propriété statistique supplémentaire : l’ergodicité.
L’hypothèse ergodique3 consiste à admettre que l’étude d’un processus sur son domaine analytique
(e.g. au cours du temps pour un signal, ou sur l’espace géographique pour un MNT), apporte
rigoureusement la même information qu’une suite de réalisations aléatoires.
Fig. 2.9. Illustration du concept d’ergodicité : la distribution statistique des valeurs prises au cours
du temps par une réalisation quelconque du signal, tend à devenir égale à la loi de probabilité
d’un
échantillon X(ti) pris à un temps ti quelconque. Source : Antoni (2013)
Cette définition de l’ergodicité, dite ergodicité au sens strict est beaucoup trop forte en pratique.
Nous nous restreindrons aux notions d’egocidicité au premier et second ordre.
Définition 23 (Ergodicité à l’ordre 1)
Soit Z un processus stochastique.On dit que Z est ergodique a` l’ordre 1, ou encore

ergodique pour la moyenne, si et seulement si, pour toute réalisation z du processus :
- -
1
z(x)dx−→Z(x, ω)dP(ω) = E[Z]
D D |D|→∞ Ω
avec |D| qui désigne la taille de D (longueur, surface, volume...).
Autrement dit, la moyenne spatiale des échantillons d’une réalisation doit être égale à la
moyenne statistique de la variable aléatoire désignant la valeur prise par le processus en un lieu
donné. Dit de manière imagée, et en reprenant l’exemple de la feuille de papier froissée, on
dira que ce processus est ergodique si la hauteur moyenne de la feuille (calculée en moyennant la
hauteur de tous les points
3
Ethymologiquement, le terme ergodique a été introduit dans le domaine de la physique statistique, pour désigner
51
la propriété d’un ensemble de particules, dont l’étude statistique de la trajectoire de l’une d’entre elles (arbitrairement
choisie) est représentative des caractéristiques (vitesse, accélérations, etc.) de l’ensembles des particules
52
d’une feuille après la réalisation d’une expérience aléatoire), est égale à la hauteur d’un point
donné arbitraire (par exemple le centre) de le feuille, moyennée sur un grand nombre de r
éalisation.
Remarque : pour qu’une moyenne calculée sur tout le domaine analytique D converge vers une
unique valeur d’espérance qui ne dépende pas du lieu donné, nécessairement, pour être
ergodique à
l’ordre 1, un processus doit a minima être stationnaire à l’ordre 1.
Exemple 2.1. On peut donner un exemple simple de processus non-ergodique : le signal al

éatoire constant sur chacune de ses réalisations Z(x, ω) = A(ω). Concrètement : on souhaite g
é né r e r aléatoirement le relief du terrain sur une zone donnée. Pour ce faire, on propose de tirer
aléatoirement un nombre à l’aide d’un d é à 6 faces, puis on affecte la valeur obtenue à toutes
les cellules du terrain. Le processus est bien stationnaire à l’ordre 1, toutes les cellules ont la
même espérance d’altitude :
E[Z] = 3.5. Prenons une réalisation quelconque ω ∈ Ω = {1, 2, 3, 4, 5, 6}, par exemple ω = 2, et
calculons une moyenne spatiale du MNT g é n é r é . Toutes les cellules ayant pris la valeur 2,
cette moyenne vaut également 2 /= E[Z], quelque soit la taille du terrain. Ce processus n’est donc
pas ergodique.
De manière complètement analogue, on définit l’ergodicité à l’ordre 2 comme étant la

propriété d’un signal aléatoire dont chaque réalisation comporte individuellement toute
l’information nécessaire au calcul de la covariance :
Définition 24 (Ergodicité à l’ordre 2)
Soit Z un processus stochastique ergodique à l’ordre 1. On dit que Z est ergodique à l’ordre
2, ou encore ergodique pour la covariance, si et seulement si, pour toute réalisation z du processus (de m
-
1 t )t ) −→Cov[Z(x + h), Z(x)]
D z(x + h) − mz(x)
z − m dxz
D |D|→∞
avec |D| qui désigne la taille de D (longueur, surface, volume...).
Remarque : étant donné que Z est supposé être ergodique à l’ordre 1, l’ergodicité à l’ordre 2 peut
être caractérisée par une relation asymptotique ne requiérant pas la connaissance de mz:
1 - [ ]
z(x + h)z(x)dx E Z(x + h)Z(x)
D− D→ |D|
→ ∞
En effet, en partant du membre de gauche de la définition 24, on a :
- - -
1 t )t ) 1 1
z(x + h) − m z(x) − m dx = z(x + h)z(x)dx − z(x)dx + m2dx
z z
D D- D D D
2mz
z
- - D D D
1 1 [ ]
= z(x+h)z(x)dx−2m2z+m2z = z(x+h)z(x)dx−m2z −→ E Z(x+h)Z(x) −m2z
D D D D |D|
53
[ ] [ ] [ ]
Et à droite : Cov Z(x + h), Z(x) = E Z(x + h)Z(x) − E[Z(x + h)]E[Z(x)] = E Z(x + h)Z(x) − m2
z
54
2.3.3 Les hypothèses en pratique
Pour pouvoir appliquer les techniques de la Géostatistique linéaire, on doit être en mesure de
calculer le covariogramme du phénomène étudié, qui donc en échange doit pouvoir être mod
élisé de manière satisfaisante par une processus stochastique stationnaire 4 et ergodique au second
ordre. L’isotropie est une propriété souhaitable pour alléger les calculs, mais non-indispensable. Si
ces hypothèses sont parfaitement vérifiables (ou réfutables) pour des processus stochastiques
formels (i.e. des signaux définis de manière théorique par des équations) comme nous allons le
voir dans l’activité II, la situation est en revanche beaucoup plus compliquée dans le cas de ph
énomènes réels :
• La stationnarité à l’ordre 1 est vérifiée lorsque le signal observé ne présente pas de

tendance de fond. Cependant, on peut facilement rendre le processus stationnaire, en estimant
la tendance, en l’éliminant, puis en appliquant l’analyse variographique sur le signal résiduel
qui en principe doit être stationnaire pour la moyenne.
• La stationnarité à l’ordre 2 stipule que la variabilité du signal doit être à peu près la
même sur tout le domaine. Si ce n’est pas le cas (et si la taille du domaine est suffisamment
importante pour le permettre), il faudra nécessairement segmenter le signal de sorte à le
rendre approximativement stationnaire pour la covariance sur chaque zone.
• L’ergodicité (au premier et second ordre) est impossible à vérifier en pratique.
• L’isotropie stipule que le phénomène est insensible aux directions. En gé né ra l ,
hormis en présence de pathologies géomorphologiques marquées (failles, rift...) un MNT peut
être considéré comme isotrope.
• Dans tous les cas, on peut se référer à la littérature pour s’savoir si la classe de ph
énomènes
étud iée (gisement d’or, altitude du terrain, pression atmosphérique, etc.) est reputée poss
éder les propriétés souhaitées.
Activité II. Stationnarité

Dans la section 2.1, nous avons défini le concept de processus stochastique, que nous avons manipul
é dans l’activité I. La section 2.3 a én o ncé les 2 hypothèses fondamentales pour pouvoir
calculer le covariogramme d’un processus à partir d’un semis de points observés : la stationnarit
é et l’ergodicité au second ordre. Dans cette activité, nous proposons 6 exemples concrets de
processus stochastiques uni-dimensionnels, pour lesquels nous allons chercher à valider ou réfuter
l’hypothèse de stationnarité :
a) Xt = wt avec wt ∼ N (µ, σ)
b) Xt+1 = Xt + kwt + b avec (k, b) ∈ R2 et wt ∼ N (0, 1)
c) Xt+1 = ρXt + c + wt avec (ρ, c) ∈ R2 wt ∼ N (0, 1)
d) Xt = A cos(ωt), Yt = B sin(ωt) et Zt = Xt + Yt, avec ω ∈ R et A, B indépendantes ∼ N (0, 1)
e) Xt = r cos(ωt + ϕ), avec (ω, ϕ) ∈ R2 et r ∼ N (0, 1)
f) Xt = r cos(ωt + ψ), avec (ω, r) ∈ R2 et ψ ∼ U ([−π; π])
4
Par la suite, nous verrons que l’hypothèse moints exigeante de stationnarité intrinsèque est suffisante en pratique.
55
On rappelle que la notation x ∼ N (µ, σ) signifie que la variable x est distribuée aléatoirement
suivant une loi normale de moyenne µ et d’écart-type σ. De même, x ∼ U ([a; b]) signifie que x
est distribuée aléatoirement et uniformément dans l’interavalle [a, b].
L’objectif de ces travaux pratiques est de valider ou invalider les hypothèses suivantes :
Stationnarité D Non D A` l’ordre 1 D A` l’ordre 2
On pourra utiliser au choix l’une des deux stratégies suivantes pour résoudre le probème : (1)
exprimer analytiquement les espérances et les variances des processus ou bien (2) procéder de
manière similaire à celle employée dans le script 1 (page 32), i.e. simuler informatiquement un
certain nombre de réalisations du processus et les représenter graphiquement.
Correction :
On commence par donner la résolution analytique du problème pour chaque processus, puis on
écrit le code nécessaire à la simulation informatique.
a) Il s’agit d’un bruit blanc classique. On a E[Xt] = E[wt] = µ, indépendant de t donc X est station-
naire à l’ordre 1. Par ailleurs, la covariance de deux échantillons sép arés d’un intervalle τ est :
�
σ2 si τ = 0
Cov(Xt, Xt+τ ) 0 sinon.
Cette covariance ne dépend que de τ donc le processus X est également stationnaire à l’ordre 2.
Stationnarité D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2
b) Le processus X est une marche aléatoire réelle à temps discret, similaire à celle définie
par l’équation 2.1. On a : E[Xt+1] = E[Xt + kwt + b] = E[Xt] + kE[wt] + b = E[Xt] + b. L’esp
érance du signal est donc constante au cours du temps si, et seulement si, b = 0. Dans ce
cas, X est
stationnaire à l’ordre 1. Sous l’hypothèse o u` b = 0, étudions à présent la variance du proces-
sus5 : Var[Xt+1] = Var[Xt + kwt] = Var[Xt] + k2Var[wt] (puisque les 2 termes sont indépendants)
= Var[Xt] + k2. Ici aussi, le processus ne peut être stationnaire à l’ordre 1 que si k = 0. Dans
ce cas, l’équation du processus est réduite à : Xt+1 = Xt autrement dit, X est une suite
constante,
complètement déterminée par son premier terme. Elle est donc stationnaire au sens strict. Dans
le cas gé né r a l cependant, k /= 0, b /= 0 et le résultat est :
Stationnarité D✓ Non D A` l’ordre 1 D A` l’ordre 2
Etudions quand même la covariance du processus pour le cas k /= 0 : Xt+1 = Xt + kwt. On a alors,
pour un décalage τ � 0 : Xt+τ = Xt + kwt + kwt+1 + ... + kwt+τ−1. D ’ o u` :
5
Pour déterminer si le processus est stationnaire a` l’ordre 2, c’est bien la covariance qu’il faut étudier, mais si on
trouve que la variance est déjà non-stationnaire, on aura montré a` moindre frais que X n’est pas stationnaire à l’ordre 2.
56
( τ ) τ
−1 −1
Cov(Xt, Xt+τ ) = Xt, Xt + Lwt+n = Cov(Xt, Xt) + LCov(Xt, wt+n)
Cov k k
n=0 n=0
= Var[Xt] = Var[X0] + tk2
Donc, en supposant déterministe le premier échantillon X0 (comme c’est le cas dans 2.1) :
Cov(Xt , Xt ) = k2 min(t1, t2) (2.4)

1
La ressemblance entre deux échantillons Xt1 et Xt2 ne dépend donc pas de l’écart de temps τ = |t1
−t2|
les séparant, mais uniquement de la date du premier des deux échantillons.
c) X est un processus autorégressif d’ordre 1 : AR(1). Il généralise les deux processus préc
édents : avec ρ = 1 on obtient une marche aléatoire, et avec ρ = 0 on a un bruit blanc gaussien.
[ ]
E[Xt+1] = E ρXt + c + wt = ρE[Xt] + c (2.5)
Var[Xt+1] = Var[ρXt + c + wt] = ρ2Var[Xt] + 1 (2.6)
Le processus ne peut être stationnaire à l’ordre 2 que si E[Xt+1] = E[Xt] et Var[Xt+1] =

Var[Xt]. Les équations de récurrence 2.5 et 2.6 imposent donc les 2 conditions suivantes sur les
paramètres (en supposant ρ /= 1 dont le cas a dé j à é t é étudié précédemment) :
c
E[X ] = 1
Var[X ] = (2.7)
t t
1− ρ 1 − ρ2
La positivité de la quantité Var[Xt] impose donc nécessairement la condition ρ < 1. Calculons à pr
ésent la covariance entre deux échantillons successifs Xt et Xt+1 :
ρ
Cov(Xt+1, Xt) = Cov(ρXt + c + wt, Xt) = ρCov(Xt, Xt) = ρVar[Xt] =
1 − ρ2
ρ2
Cov(Xt+2, Xt) = Cov(ρXt+1 + c + wt+1, Xt) = ρCov(Xt+1, Xt) =
1 − ρ2
... = ...
ρτ
Cov(Xt+τ , Xt) = Cov(ρXt+τ−1 + c + wt+τ−1, Xt) = ρCov(Xt+τ , Xt) =
1 − ρ2
La covariance ne dépend que de l’écart τ entre les échantillons, et non de la date absolue t. Donc, le
processus X est stationnaire au second ordre, sous les conditions :
c 1
ρ < 1 et X0 distribué suivant une loi de moyenne µ = et d’écart-type σ =J
1− ρ 1 − ρ2
57
58
d) X et Y sont deux signaux sinuso¨ıdaux d’amplitudes aléatoires, à phases fixées et
mutuellement en opposition de phase. On[ a : E[Xt] ]= E A cos(ωt) = E[A] cos(ωt) = 0, puisque A
est d’espérance nulle. Le processus est donc stationnaire pour la moyenne. En revanche Var[Xt]
= Var[A] cos2(ωt) = cos2(ωt), dépendant de t et donc X n’est pas stationnaire à l’ordre 2. Par
symétrie, on obtient la même conclusion pour le processus Y . Intéressons-nous à présent
à la somme des deux processus :
E[Zt] = E X[ t + Yt =] E[A] cos(ωt) + E[B] sin(ωt) = 0

[ ]
Var[Zt] = Var Xt + Yt = Var[A] cos2(ωt) + Var[B] sin2(ωt) = cos2(ωt) + sin2(ωt) = 1
Plus généralement, pour la covariance, en considérant s et t deux instants quelconques :
Cov(Zs, Zt) = Cov tXs + Ys, Xt + Yt )= Cov(Xs, Xt) + Cov(Xs, Yt) + Cov(Ys, Xt) + Cov(Ys, Yt)
=E A [ 2 cos(ωs) cos(ωt) ]+ E[A]E[B] tcos(ωs) sin(ωt) + sin(ωs) cos(ωt) )+ E [B2 sin(ωs) sin(ωt) ]
= E A[ 2 cos(ωs)
] cos(ωt) + E [B2 ]sin(ωs) sin(ωt)
= cos(ωs) cos(ωt) + sin(ωs) sin(ωt)
t )
= cos ω(s − t) = cos(ωτ )
La covariance entre deux échantillons Zt et Zs ne dépend donc que de l’écart τ = |s − t|. Le

processus Z est donc stationnaire à l’ordre 2 (malgré la non-stationnarité de ses 2 composantes
additives).
Stationnarité de Z D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2
e) Il s’agit d’un signal sinuso¨ıdal à phase et fréquence fixées et d’amplitude aléatoire.
E[Xt] = E r[ cos(ωt + ϕ) ]= E[r] cos(ωt + ϕ) = 0

Var[Xt] = Var[r] cos2(ωt + ϕ) = cos2(ωt + ϕ)
La variance est fonction du temps t donc le processus X n’est pas stationnaire à l’ordre 2.
Stationnarité D Non D✓ A` l’ordre 1 D A` l’ordre 2
f) Il s’agit d’un signal sinuso¨ıdal à fréquence et amplitude fixées et de déphasage aléatoire.
[
E[Xt] = rE cos(ωt + ψ)] = r - πcos(ωt + ψ)dψ = r [sin(ωt + ψ) π] = 0
2π π 2π −π
−
[ ] 2 -π
Cov(Xs, Xt) = r2E cos(ωs + ψ) cos(ωt + ψ) = r cos(ωs + ψ) cos(ωt + ψ)dψ
2π −π
t )
En utilisant l’identité trigonométrique cos p cos q = 1
cos(p + q) + cos(p − q) , on obtient :
2
59
r2 - π t 2 -π t ) t )
Cov(Xs, Xt) = )dψ + r
2π −π cos ω(s + t) + cos ω(s−t) dψ = r2 cos ω(s−t) = r2 cos(ωτ )
2ψ 2π −π
Le processus X est donc stationnaire à l’ordre 2 :
On donne ci-dessous le code R pour programmer ces 6 processus et contrôler de manière exp
érimentale l’hypothèse de stationnarité. On utilise les paramètres par défaut suivants :
a) µ = 0 et σ = 1
b) k = 1 et b = 0
c) ρ = 0.99 (non-stationnarité pour ρ � 1) et c = 1 (C dans le code)

d) ω = 1 (noté w dans le code)
e) ω = 1 (noté w dans le code) et ϕ = 0
f) ω = 1 (noté w dans le code) et r = 1
On pourra gé né re r n variables aléatoires gaussiennes µ, σ ou uniformes U ([�; l]), respectivement
avec les commandes R : rnorm(n,mu,sigma) et runif(n,a,b).
Le script 3 donne la fonction generate_process permettant de simuler aléatoirement l’un des 6

processus dans un vecteur de longueur N. On peut alors représenter 500 échantillons, par
exemple du processus (c) par :
plot(generate_process(3,500), type="l")
Pour représenter R réalisations de chacun des 6 processus (simultanément dans 6 fenêtres

graphiques distinctes), on pourra utiliser le script 4. Si besoin, pour faciliter la visualisation, on peut
représenter chaque réalisation d’une couleur différente en ajoutant l’argument suivant à la
fonction lines.
col=rgb(runif(1,0,1),runif(1,0,1),runif(1,0,1),1)
On peut alors tester de faire varier les paramètres des processus pour trouver les conditions sous
lesquelles les hypothèses de stationnarité (au premier et second ordre) sont vérifiées.
60
Script 3. Stationnarité [code2.r]
# Parametres
C = 1; k = 1; b = 0; w = 1; r = 1; rho = 0.99; phi = 0; mu = 0; sigma = 1
par(mfrow=c(2,3)) # Pour tracer les 6 graphes dans une matrice
[2x3] #
# Fonction de generation des processus
# Entrees : indice i (1 a 6) du processus, longueur
N # Sortie : vecteur X de N echantillons du
processus i #
generate_process = function(id, N){
T = 10*(0:(N-1))/(N-1) # Initialisation du vecteur de pas de temps
# Simulation
if (id == 1){ # Bruit blanc gaussien
X = rnorm(N,mu,sigma)
}
if (id == 2){ # Marche aleatoire discrete

X = cumsum(k*rnorm(N,0,1) + rep(b,N))
}
if (id == 3){ # Processus auto-regressif AR(1)

X = rep(0, N)
X[1] = rnorm(1, C/(1-rho), 1/sqrt(1-rho*rho))
for (i in 2:N){
X[i] = rho*X[i-1] + C + rnorm(1,0,1)
}
}
if (id == 4){ # Somme de signaux sinusoidaux d’amplitudes aleatoires

S1 = rnorm(1,0,1)*cos(w*T)
S2 = rnorm(1,0,1)*sin(w*T)
X = S1+S2
}
if (id == 5){ # Signal sinusoidal d’amplitude aleatoire

X = rnorm(1,0,1)*cos(w*T + phi)
}
if (id == 6){ # Signal sinusoidal a dephasage aleatoire

X = r*cos(w*T + runif(1,-pi, pi))
}
return(X)
61
Script 4. Représentation graphique de la stationnarité [code2.r]
N = 500 # Longueur du processus

R = 10 # Nombre de realisations
for (id in 1:6){

X = generate_process(id, N) marge = c(-1,1)*(max(X)-min(X))
plot(X, type="l", xlab="t", ylab="X", ylim=c(min(X), max(X))+marge)
for (realisation in 2:R){ lines(generate_process(id,N))

}
}
2.4 Le variogramme
Nous avons introduit la notion de covariogramme à la fin de la section 2.3.1. Pour un proces-
sus stationnaire au second ordre et isotrope, le covariogramme est une fonction C qui, à
tout réel positif h associe la covariance C(h) entre deux observations lorsque la seule information
dont on dispose a priori est la distance h séparant les deux sites sur lesquelles ont é t é effectuées ces
observations.
Il existe cependant des cas pratiques o u` la variance d’une loi n’existe pas. Il suffit par exemple de
considérer, dans le cas uni-dimensionnel, la loi de densité π définie sur [1; +∞[ par π(x) = 2/x3,
dont la moyenne vaut 1, mais dont la variance est infinie, comme illustré sur la figure 2.10. On
pourra
trouver deux autres exemples de lois de variance infinie dans Hauchecorne (2007).
2
1
1
p
0
0
2 4 6 8 10
Fig. 2.10. Illustration d’une loi de probabilité de variance infinie : π : x 1→ 2/x3. Cette
pathologie est caractéristique des lois dont la densité ne déc roˆıt pas suffisamment rapidement
vers 0 à mesure
que x augmente. Ces lois sont dites à longue traˆıne.
Notons que cette limitation, qui pourrait sembler théorique au premier abord, n’est absolument
pas anecdotique. Arnaud et Emery (2000) par exemple, rapportent le cas de densité de minerais
dont la variance croˆıt indéfiniment à mesure que l’extension spatiale du gisement considéré
augmente.
62
On préfère donc utiliser un outil légèrement plus général : le variogramme, qui opère
directement sur les accroissements : c’est l’hypothèse intrinsèque.
Définition 25 (Hypothèse intrinsèque et Variogramme)
Un processus stochastique Z est dit intrinsèquement stationnaire (ou intrinsèque ) s’il est
stationnaire pour la moyenne et si la variance de la différence entre deux sites x et x + h
du domaine D distants de h, existe et ne dépend que de h :
1 [ ]
γ(h) =Var Z(x + h) − Z(x)
2
La fonction γ : R+ → R+ est appelée variogramme (ou parfois semi-variogramme) de Z.
Remarque : si Z n’est pas+ isotrope, alors h est un vecteur de D, et le variogramme γ devient

une fonction de D dans R . Par la suite, sauf mention contraire, l’hypothèse d’isotropie sera
implicitement supposée. Par ailleurs, nous motiverons plus loin l’introduction du facteur 1/2.
A` l’aide de l’identité 1.13, on obtient une expression plus interprétable de γ :
1 [ ]
1( [ 2 ] [ ]2)
γ(h) = Var Z(x + h) =
2 2 E (Z(x + h) − E Z(x + h)
[ ]
Or, Z est stationnaire pour la moyenne donc E Z(x + h) − Z(x) = E[Z(x + h)] − E[Z(x)] = 0 d ’ o u` :
1 1t )2l
γ(h) = E Z(x + h) − Z(x) (2.8)
2
Le variogramme indique donc, pour toute distance h, la moitié de l’espérance des écarts entre
les valeurs prises par le processus en deux sites sépa ré s de h.
1020
●
2
0
●●●
●●● ●● ● ●●● ●
● ●●● ● ● ● ● ●●● ●● ●●●●●
●● ● ● ●
● ● ●● ● ● ● ● ●●●●● ●● ●
● ● ● ●● ● ●●●● ● ● ●● ● ●● ●●● ● ●●
● ● ●● ● ●● ● ●● ●● ● ●●● ● ●● ●
1
0
● ●● ● ●●● ●● ●●● ●●●●●

2
0
● ●● ● ●● ●
● ●●
● ● ● ● ●●●● ●●●●●●●●● ● ● ● ●●●●● ●●
● ●●● ● ●●●● ●●● ●●●● ●● ● ●●●●●●● ●●● ●● ● ● ● ●
●
● ● ● ●●● ●● ●●●●●● ● ●● ● ● ● ● ● ●
● ● ● ● ● ●● ●● ● ●● ● ● ● ●●● ●● ● ● ●
●
● ● ● ● ● ● ● ●● ● ●●●●●●●●●● ●●●● ●●●● ●●●●●●●●●●●●●●●●●● ●●● ● ● ●
●● ● ● ●● ●●●●● ●●●●●●● ●● ●●●● ●
● ● ●● ●
● ●● ●● ● ● ●●●● ●● ●●●●●●●●●●●●●●● ●●● ●●●●● ●●●●● ●●● ● ●●●● ●●● ● ●●
● ● ● ● ● ●● ● ● ●● ●●● ●● ●●●●●●●●●●●●● ●● ● ●●● ● ●● ● ●
● ●
● ●
● ● ● ● ● ● ● ● ●●●●●●●●●● ●●●●● ●●● ●●● ●●●●●●●●●●●● ● ●●● ●●
● ● ● ●●● ● ● ● ●● ● ● ●●●●●●● ●●●●● ●●●●●●●●●●●●● ●● ●● ●● ●●
● ●● ●
●● ●● ●●●● ●●● ●● ● ● ●● ●● ● ● ● ●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ●● ● ●
●● ● ● ● ● ●● ● ● ●●●●● ●●●● ●●●●●●● ●●● ●● ●●●●● ●●●●●●● ● ●●●●● ● ● ● ● ● ●
● ● ● ●● ● ● ● ●● ●
● ● ●● ● ● ● ●● ●●●● ●●● ● ●●● ●● ● ●●●●●●●●●● ●●● ●● ●● ●● ●● ●
● ● ● ● ● ● ● ●● ●
1
0
● ● ● ●●●●●●●● ●● ●● ●●●●● ●●●●●●●●●●●●● ●●● ●●●●●● ●●●

●● ● ● ● ● ● ● ●
● ● ● ●● ● ● ●●●● ●●● ●●●●●●●●●● ●●●●●●●
● ●● ● ●● ●● ● ●●●● ● ●●● ● ● ●● ● ● ●●●●● ● ●●●●●●● ● ●●● ●●●● ●●● ● ●
● ● ● ● ● ●● ● ●● ● ● ●
● ●● ● ●●●●● ● ●●● ● ● ●●●●●● ● ●● ● ● ●● ● ● ● ●● ●● ●●●●●● ●●●●●● ●●●
●●● ●●● ●●●●
●● ●●● ●●●●●●
●●●●●● ● ●●● ● ●
● ● ● ● ●● ●● ● ●● ●●● ●
● ● ● ●● ● ●
● ● ● ●●●●●●● ● ●●● ● ● ● ●●●● ● ●●●●● ● ●●●●●●●●●● ●● ● ●●●● ●●●● ● ●● ●
● ●● ● ●●●●
● ● ● ●● ● ●● ● ● ● ●
● ●● ● ● ●● ●●
●●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ●
−100
● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ●● ●● ●●●●●● ● ●● ●● ● ●●
−20−100
● ● ●● ●● ● ●● ● ● ● ● ● ●● ●●●●● ●●●● ● ●●●●●● ●●● ●●● ● ● ●●●

● ● ●
● ●● ● ●● ●
●● ●● ●● ●● ● ●●● ●●●● ●●●● ● ●●● ●●● ●●●●● ●● ●●
● ●●●●
●●●● ●●
●● ●● ●● ●●●●
●●● ● ●● ●● ● ● ● ● ● ● ● ● ●●●●● ●● ● ●●●●●● ●
● ● ●●●●● ● ● ● ●●● ● ●●●● ● ● ●● ●●● ● ● ● ●
●● ● ● ● ●● ● ● ● ●●●
●● ●● ●●●● ●●●
● ●● ● ●● ● ●● ●●● ● ●●●●
●●● ●● ● ●●● ●●●●●
●● ● ● ● ● ●
●
● ● ● ●●●● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●
● ● ●● ●● ● ●● ● ● ●● ●● ● ●● ● ●
● ●
● ●
● ● ● ●●
● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ●●
● ● ● ● ●
● ●● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●●
● ● ●● ●●●● ● ● ●
●
●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ●●
● ●●● ● ● ● ● ●● ● ●● ● ● ● ● ●
●● ● ●● ●●● ● ●● ● ● ● ● ●
● ●●● ● ●● ● ● ● ● ●●●●●●●● ●●●● ●●●● ●●● ●●●

● ●● ●●●●● ●●●●●●● ●● ●●●●●● ●●●●● ●● ● ●
0
● ● ●●
●● ●●● ●●●●●●● ● ●●● ●●●●●●●●●●● ●●●●●●●● ●
●● ● ● ●●● ●●● ● ●● ●●●● ●● ●●●●●●●●●●●●●● ● ●
● ●● ●●●●●●● ●●● ●●●●●●● ● ●● ●● ●●●●●●●●●●●●●●●● ● ●●● ●
● ● ●● ● ● ●●● ●●● ●●● ●●●●● ●●●●●●●● ●●●●●●●●●● ● ●● ●●● ● ● ● ●
●
●●● ● ● ● ● ● ● ● ● ●● ● ●●● ●● ●●●● ●●●●●●●●●●●● ●●●●●●●●●●●● ●● ●● ● ● ●
●
●●● ● ● ● ● ●● ●●●●● ● ●● ●●●●●●●●●●● ●●●●●●●●●●● ●●●●●●● ● ●●● ● ● ●
●● ●●
● ● ●●●●● ●● ●● ● ●●●●●●●●●●●●●●●●●●● ●●● ● ●●●●●● ● ●● ●● ● ● ●
● ●● ● ● ● ●● ●●● ●● ●● ●● ● ●●●●●●●●●●●●●●●●●● ●●●● ●● ● ●●● ● ●
● ● ● ●●
● ● ●● ● ● ● ●●● ● ●●● ●●●●●●●●●●●●●● ●●● ●●●● ●● ●
● ●●● ●● ● ●●●●● ●●● ● ●●●●●●●●●● ●● ● ●●●●●●●●●● ● ●● ● ● ●
●● ● ●● ●●●●●● ●● ●
●● ●●●●● ● ●●● ●●●● ● ●● ● ● ●● ●● ●●● ● ● ●●●● ●●●●●●●●●●●● ● ●● ● ● ● ●
● ● ●
● ●●
●●●
● ●● ● ●
●●●● ●● ●● ●● ●● ●●●●● ●●●●●●● ●● ●●●●●●●● ● ●●●●●●●● ●●● ●●●●● ● ● ●●
●● ● ● ●●● ●●●
●● ● ● ● ●●● ●●
−
2
0
● ●● ●●● ● ●●
● ● ● ●
●● ● ●●● ● ● ●● ● ● ●●●● ● ●●● ●●●●● ●●●●
● ●●●●●●
●●●●●●●
● ●●●●●●
●●●●●●●●●●●
●●●●●●● ●●●●● ● ●● ●● ●
● ● ● ● ● ● ●● ● ●●● ● ● ●●●● ● ●●●●●●●● ●●●● ●●●●● ●●● ●●●●●●●●●● ● ●●●
●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●●● ● ●●●● ●●●●●● ●●●●●●●● ●● ●
● ● ●●● ● ●
● ●● ● ●● ●● ●●● ● ● ● ● ●●●● ●●●●●●●●●●● ●● ●●●● ● ● ●●●● ●
● ● ● ● ● ●●● ●●●●●●● ● ●● ●●● ●● ●● ● ● ● ● ●
● ●● ● ●● ●● ●
● ● ●● ● ●●● ●● ● ● ●●●● ●● ●●●●●●●●●● ● ●● ● ●
● ●●●
●●● ●●● ●● ●●●● ●
● ●
● ●● ●●●●● ●●● ● ●
● ●● ●●● ● ● ●● ● ● ●●●●● ●●● ●
●● ● ●● ●● ●●● ●●● ●● ●● ● ● ●●●
●●● ● ●●
●● ● ● ●
● ● ● ● ●●● ●● ●● ●● ●● ● ●● ●
●● ●●
● ●● ●● ● ● ●● ● ●●● ●
●●● ● ● ●● ● ● ● ●
●● ● ●● ●● ● ● ● ●●● ●● ● ●●● ● ●
● ●
● ●● ● ●●
● ● ●● ● ●● ●●●●●● ● ●● ● ● ●●●●●● ●
●●●● ●●●● ● ● ● ●
● ● ● ● ● ●● ● ● ● ● ● ●
● ●●● ●●● ●● ● ● ● ● ●
●
● ● ●●● ● ● ●● ●
●
● ●
●● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ● ● ● ●
● ● ● ●● ●●
● ● ● ●●● ● ● ●
●
● ●● ●●●
●●● ●●● ●●
● ● ● ● ● ● ● ●
● ●● ● ● ●
● ● ●
● ● ● ●●● ● ● ●
● ●● ● ●● ● ●● ●●● ● ● ●
● ● ● ●
● ● ●●● ●
● ● ●
●
●
● ●
● ●
●
●
●● ●● ●
●●
● ●
●●● ●●●● ● ●●●
●
● ●●
●
●
−20−10 0 10 20
● ●●● ●●● ● ●●
● ● ●
●●●
● ●● ●
●●
● ● ● ● ● ● ● ●● ●
● ●
● ● ●●●
● ● ● ● ● ●● ●
● ● ● ●● ●
●
● ●●●● ●● ●●● ●● ● ●
●●
●●● ● ● ●●●
● ●●
● ● ●
● −20−10 0 10 20
●
● ● ●● ●
●
●
●
●
● ●
●
●
●
●
●
●
−20−100 10 20
50
●
2
0
●
●
40
● ●
● ● ●●
● ●
●● ●● ●
● ● ● ● ●● ● ● ●
● ● ● ●● ● ● ● ●●● ● ●● ● ● ●
● ● ●● ● ●●●● ● ● ●
●● ●
● ● ●●● ●● ● ●●● ● ● ● ●
1
0
● ●●●●● ● ●● ● ● ●● ● ●● ● ● ●
● ●● ●● ●● ●●● ● ● ● ● ●●●●● ●●●●●●● ● ● ● ● ●
● ●● ● ●●● ● ●● ● ●●● ● ●● ●●●● ●●●●● ●● ● ● ●●
● ● ● ● ●●● ● ●● ●●●● ●●● ● ●● ●●● ● ● ●●● ●●
● ● ● ● ●● ● ● ● ●●●●●● ●●
●●●●●●●
●●●●●●●● ●●● ●●●●
● ●● ●● ● ● ● ● ● ● ● ●
● ● ● ●● ● ● ●●● ●● ● ●● ● ●●●●●●●●●● ● ●●● ●●●● ●●●● ●●● ●● ● ● ●
30
● ●●●● ● ●●●●● ●● ●● ●●●●●●●●●●●●● ●●●●● ●●● ● ●●● ●
●● ●● ● ● ● ●● ●●●●●●●●●●● ●●● ●●●●●●●●●● ●● ●●● ●●●●● ●● ●● ●●●● ● ● ●● ● ●
● ● ● ● ●● ●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●● ●●● ● ●●●● ● ● ● ●
● ●● ● ● ●● ● ● ●●●●●●●●●●● ●●●●●● ●● ●●●● ●●● ●●●●
● ● ●●● ●●● ●●●●●●● ● ●●●●● ●●●●●●●●●● ●● ●● ● ● ● ●
● ● ● ●● ●●●● ●●●●●● ● ●●●●●● ●●●●●●● ●●●● ● ● ●● ● ● ● ●●
● ● ●●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●
● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●● ●●●●● ● ●●● ●
0
●● ●●● ●●●●● ●● ●●● ●●●●●●● ●● ●●● ● ● ● ● ●● ● ●

Varia
● ● ●● ● ● ● ●●●●●●●●●●●●● ●● ●● ●● ● ●●● ●●●●●●●●●● ● ● ●●

●
●● ●● ● ● ●● ●● ●●●●●●●●● ●● ●●●●●●● ●● ●●● ● ● ●●
● ●● ●● ● ● ● ● ● ●●●●● ●●●●●● ●● ●●● ●● ●
● ●
● ● ● ● ●●● ● ●●● ●● ● ● ● ●● ● ●●●●●●●●●●●●● ● ● ●
● ●● ● ●
● ● ● ●● ● ●● ●● ●●●● ● ● ● ●●● ● ● ●●●● ● ● ●
1020
●●●● ● ● ● ● ● ●●● ●●●● ●● ● ●● ● ●●●●●● ●● ● ●● ●

● ●●● ● ● ● ● ● ●● ●●●● ● ●● ●● ● ● ●
● ●● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ●●● ●●
●● ●●●● ●●
● ● ●● ●●● ●●● ●● ● ●● ● ● ●
20
●● ●●●●● ●●● ● ●●●●●● ●● ●●●● ● ● ● ●
● ●●● ● ●●●●●● ●
●● ●● ●● ● ●●●●● ●● ● ●● ● ●● ●●● ● ● ● ●
−
1
0
● ●● ● ●●●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●
●
● ●●● ● ● ●●● ●●●●● ●●●●● ● ●
● ● ●●●●●●●● ●● ●● ●●●●●● ●●●●● ● ●
● ●● ●● ●●●●● ●●●●●●● ● ●●●●●●●●●● ● ●● ●
● ● ● ●
● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●
● ●●
● ● ● ● ●
●
●●
●
●●
●●
●●
●●
●●
●●
●
●
●●
●
●●
●
●
●●
●●
● ● ●
●
● ● ●
● ●●●●●● ●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ●● ● ●
●● ● ●
●●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●●
●●
●●
●●
●●
●● ●●● ● ●● ●
● ● ●● ●● ● ● ●
●●
●●●
●●
●●
●●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●●
●● ● ●
● ●
●● ●
● ● ● ● ●
● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●
● ● ● ● ● ●
●
● ● ●
●●
●●
●
●
●● ● ●
●●●
●●
●
●
●●
●
●●
●
●
●●
●●
●●
●●
●●
●●
●● ●● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●● ● ●●●●● ●●● ●
●● ●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●● ● ● ●
●
●
●
●●
●
●
●
●●
●
●● ●
●●
●
●●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●
●●
●
●● ●●
●●
●● ● −20−10 0 10
10
●
●● ●● ●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●●
●●
●●
●● ●
●●●
●
● ● ●
● ●●●●● ●● ●●●●●●●●●●●●●●● ●●● ●● ● ● ●
● ● ● ● ●●●● ●● ●●
●●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●●●●●●●●
●
● ●
●●●●●
● ●●●● ●●●●●●
● ●●●●●●●●●●●● ● ●● ●●● ●
● ● ●● ●●● ●● ● ●●●●
●●●●●
●●●●●● ●
●●●
●●
●●
●●●
●●
●●●
●
● ●●● ●
● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●● ●
0
●●● ●● ● ●
● ●● ●●● ● ● ● ●
●●●●● ●●● ●
● ● ● ●●● ●●● ●
●● ● ●
● ●
●●● ●
●
0
−
●
2
0
0 100 200 300 400

●
500
−20−10 0 10 20
Distance entre sites h (m)
Fig. 2.11. Chaque valeur γ(h) du variogramme traduit la dissemblance entre deux sites séparés
63
d’une distance h. Plus γ(h) est faible plus les valeurs prises sur les deux sites sont statistiquement
similaires.
64
L à o u` le covariogramme C(h) mesure la ressemblance entre sites, le variogramme γ(h) est quant
à lui un indicateur de la dissemblance. On s’attend donc à avoir une relation antagoniste entre les
fonctions C et γ. C’est la relation fondamentale de la Géostatistique :
Thé orème 26 (Relation fondamentale variogramme/covariogramme)
Pour un champ stationnaire au sens large, pour toute distance h, variogramme et covari-
ogramme sont liés par la relation :
γ(h) = C(0) − C(h)
Preuve : en considérant x et x + h deux sites quelconques sé p a ré s d’une distance h, on a : 2γ(h)
= Var[ Z(x) − Z(x + h)] = Var[Z(x)] + Var[Z(x + h)] − 2Cov(Z(x), Z(x + h)) = 2Var[Z] − 2C(h).
En
faisant remarquer que Var[Z] = Cov(Z(x), Z(x)) = C(0) et en divisant les deux membres de l’équation
par 2, on obtient la relation fondamentale de la Géostatistique.
1
0
0
C
0
0
0
0 200 400 600 800 1000
Fig. 2.12. Lorsque le covariogramme C existe, il est l i é au variogramme γ par la relation γ =

C(0) − C(h). A l’infini, le variogramme atteint donc le pallier C(0) = σ2.
Une manière simple de comprendre le variogramme est de considérer γ(h) comme l’incertitude
en- tourant la valeur prise par le phénomène en un lieu donné, étant donnée l’observation
d’une valeur prise en un site distant de h. Cette incertitude est donc intuitivement maximale quand
les deux sites sont sép aré s d’une distance qui tend à devenir infinie6. A` l’inverse, si les deux
sites sont voisins (typiquement quelques mètres de distance dans le cas du MNT), alors
l’observation de Z(x1) détermine pratiquement la valeur prise par Z en x2.
Lorsqu’ils existent tous deux, variogramme et covariogramme contiennent la même information.

S’ils sont donnés par un oracle (i.e. s’ils sont parfaitement connus et qu’il n’est pas nécessaire de les
estimer
à partir d’un semis d’observation), alors on obtient théoriquement les mêmes résultats ind
épendemment du choix effectué entre γ et C. En revanche, lorsqu’on doit les estimer, on peut
démontrer que
6
Dans ce cas, remarquer que γ(h) vaut la variance a priori revient a` considérer que les deux sites x1 et x2 sont sépar
és d’une distance h si importante, que les valeurs qui y sont prises par le phénomène ne sont plus corrélées.
65
L’observation
de Z(x1) n’apporte alors aucune information sur les valeurs que l’on peut espérer observer en x2 et vis-versa.
66
l’estimateur de C est plus robuste mais biaisé. On préfère donc en pratique utiliser le
variogramme γ, d’autant qu’il est plus générique (γ peut exister sans C alors que l’inverse n’est
pas vrai.
Remarque : l’hypothèse de stationnarité intrinsèque, qui suppose uniquement la stationnarit

é au 1er ordre ainsi que l’existence de la variance des accroissements (def. 25) est donc une version
affaiblie de la stationnarité au 2nd ordre, qui est malgré tout suffisante pour travailler en G
éostatistique.
Exemple 2.2. On propose ici un exemple de cas o u` seul le variogramme existe. On pose Z1 =
A+C et Z2 = B + C, avec A, B ∼ N (0, 1) deux variables aléatoires gaussiennes indépendantes et C
distribuée suivant une loi π n’admettant pas de variance (par exemple π est la loi à densité
de la fig. 2.10).
On a alors, par bilinéarité de l’opérateur de covariance : Cov(Z1, Z2) = Cov(A, B) + Cov(A, C) +
Cov(C, B) + Cov(C, C) = Cov(C, C) (puisque A, B et C sont indépendantes) = Var[C] qui
n’existe pas ! En revanche, la variance de l’accroissement est bien définie : Var[Z1 − Z2] =
Var[A − B] =
Var[A] + Var[B] = 2. Nous laissons le soin au lecteur de vérifier que si π est à variance finie, alors
Cov(Z1, Z2) existe et la relation énon cée par le théorème 26 est vérifiée. On pourra trouver un
exemple moins artificiel de processus strictement intrinsèque dans l’annexe B.6.
2.4.1 Variogramme expérimental

Sous l’hypothèse d’ergodicité au second ordre, on peut estimer γ à partir d’un ensemble d’observations
ponctuelles, prélevées sur une unique réalisation du processus. Son estimateur (que l’on γ� ,
note prononcé gamma chapeau) est appelé variogramme expérimental.
Pour construire le variogramme expérimental, on doit donc estimer les valeurs de γ(h) pour
toutes les distances h possibles, ce qui est bien évidemment impossible en pratique. On discr
étise alors le problème en une séquence de nombres réels h1, h2, ... régulièrement
échantillonnés (i.e. ∀ k ∈ N∗ hk =
h0 + k∆h, avec ∆h et h0 des paramètres à calibrer en fonction du nombre de données disponibles).
Par définition γˆ(200) par exemple, représente la dissemblance entre deux sites du terrain séparés
de 200 m. Disposant d’un nombre limité d’observations, il est en ré a l i té peu probable que
nous soyons capable de trouver ne serait-ce qu’un couple de sites distants d’exactement 200 m. On
doit donc s’autoriser une tolérance, par exemple on recherchera tous les couples de sites (xi, xj) s
ép aré s d’une distance comprise entre 150 et 250 m. Les couples sélectionnés sont alors utilisés
pour estimer la
� γ(h) pour h = 200 (en toute rigueur pour h = 200 ± 50).
quantité 2.8, ce qui nous donne un estimateur
Formellement : disposant d’un semis de points d’observations z(x1), z(x2), ...z(xn) d’un phénomène
Z, on peut estimer le variogramme de Z par :
1 L
γ�(h) = t )2
z(x )i − z(x j) (2.9)
2|N (i,j)∈N
o u` N (h) désigne l’ensemble des couples d’indices (i, j) tels que les sites xi et xj sont sé pa ré s d’une
distance h ± dh : N (h) = {(i, j), i < j t.q. h − dh :( ||xi − xj || :( h + dh }, et o u` |N (h)| désigne le
2 2 2
nombre de couples contenus dans l’ensemble N (h).
Informellement : de manière imagée dans le cas du problème modèle du MNT, pour une
distance horizontale h, le variogramme expérimental
� γ(h) vaut la moitié de la moyenne des carrés
67
des dénivelés entre les points sép arés (approximativement) d’une distance h.
68
Fig. 2.13. Calcul du variogramme expérimental pour un ensemble d’observations ponctuelles collect
és sur une réalisation z du processus. Le couple de sites (x1, x2) appartient à l’ensemble N (h) des
couples de sites approximativement sép a ré s d’une distance h.
Activité III. Variogramme expérimental
Cette activité ne nécessite pas obligatoirement de resources informatiques, mais seulement un d

écimètre, une calculatrice... et de la patience. On considère en semis d’observations (d’un ph
énomème Z quelconque), disposées comme représenté sur la figure ci-dessous, dont on donne
l’échelle graphique (dans un système d’unités terrain arbitraire) en bas à gauche.
z(x1) = 12
z(x9) = 14.5
z(x ) = 13.5
8
z(x4) = 12.5
z(x2) = 12
z(x5) =
12.5
z(x7) =
z(x10) = 14
12.5
z(x3) = 13
z(x11) = 14
z(x6) = 12
0 5 10 30 20
Sur une version papier de ce cours, l’échelle graphique doit ê tre de 1 unité / mm, si bien que la
distance entre x1 et x2 par exemple, doit valoir 28 cm = 28 unités (sous réserve que l’impression ait
é t é réalisée en format A4). Sur une version numérique, on pourra ajuster l’échelle du
lecteur PDF de sorte à obtenir une conversion aisée entre les tailles mesurées en mm sur l’écran,
et le système d’unités terrain. Dans une optique plus professionnelle, on pourra sauvegarder
l’image ci-dessous (capture d’écran ou autres) dans une taille arbitraire, puis mesurer les distances à
l’aide d’un logiciel graphique (Paint, Inkscape...) et enfin normaliser les mesures obtenues à l’aide
d’un produit en croix pour obtenir des distances dans le système d’unités terrain.
69
Calculer le variogramme expérimental du semis de points. On utilisera un pas de discrétisation
∆h = 10 unités, en démarrant de h0 = 5 : hk = 5 + k∆h.
Correction. On commence par mesurer les distances (exprimées dans les système d’unités
terrain) pour tous les couples de points, et on les regroupe dans une matrice de taille n × n. Cette
matrice
étant symétrique, on ne présente que la partie triangulaire supérieure.
- 1 2 3 4 5 6 7 8 9 10 11
1 0 28 56 37 35 71 62 59 82 83 97
2 - 0 28 47 24 46 53 69 91 79 86
3 - - 0 67 39 30 56 86 99 86 81
4 - - - 0 28 64 38 22 46 48 69
5 - - - - 0 39 28 48 68 55 64
6 - - - - - 0 37 78 94 64 53
7 - - - - - - 0 43 57 30 35
8 - - - - - - - 0 23 39 66
9 - - - - - - - - 0 38 68
10 - - - - - - - - - 0 30
11 - - - - - - - - - - 0
Il ne reste alors plus q u’ à appliquer la formule 2.9 pour tous les pas h : 5, 15, 25, ...95. D
étaillons un exemple avec le cas h = 65. Dans un premier temps, on réc upère l’ensemble N
(65) de tous les couples (i, j) avec i < j, tels que la distance entre les deux sites xi et xj est comprise
entre 60 et 70 mètres :
N (65) = {(i, j) i < j | 60 :( ||xi − xj || :( 70}

= {(1, 7)(1, 8)(3, 4)(4, 6)(4, 11)(5, 9)(5, 11)(6, 10)(8, 11)(9, 11)}
On dénombre |N (65)| = 10 couples. Le calcul de γ�(65) par 2.9 est alors immédiat :
1
γ�(65) = (z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2
1
1 7 1 8 3 4 4 6 4 1 5 9 5 1 6 1
2× l
+(z8 − z11)2 + (z9 − z11)2 = 0.8
On procède de manière similaire pour les autres valeurs de h, ce qui donne :
h 5 15 25 35 45 55 65 75 85 95
N (h) 11 0 10 12 6 7 10 3 6 4
γ(h)
� 0.0 - 0.33 0.30 0.71 1.0 0.8 1.04 1.38 2.34
Table 2.1: Nombre de couples N (h) et variogramme expérimental�γ(h) pour chaque valeur de distance
h. Remarquons que γ(15) n’a pas pu être estimé faute de données.
70
La figure 2.14 donne une représentation graphique du variogramme expérimental. La courbe
en pointillés présente une régression polynomiale f (h) = ah2 (avec a = 2.5.10−4) des points
calculés. De cette manière, il sera possible d’estimer le variogramme pour toute distance h sur la
plage [0; 100].
Nous reparlerons plus loin des fonctions de régression.
●
point estimé
régression polynomiale
2
1
●
1
●
●
0
● ●
0
20 40 60 80
Fig. 2.14. Suite des points estimés à partir du semis d’observation et régression polynomiale.
A` travers l’exemple de l’activité III, on mesure l’importance de calibrer soigneusement le pas de

discrétisation ∆h. Comme illustré sur la figure 2.15, lorsque le pas est trop petit, le
variogramme est bien échantillonné, mais chaque point est calculé avec un faible nombre
d’observations ( à l’extrême, certains points peuvent même être impossibles à estimer, à
l’instar du point h = 15 dans l’activité
préc A` l’inverse, si ∆h est trop grand, chaque point est statistiquement très précis, mais on
édente).
dispose de trop peu de points pour décrire fidèlement le comportement du variogramme théorique.
Variogramme théorique Variogramme expérimental Variogramme théorique Variogramme expérimental

71
Distance entre sites h Distance entre sites h
Fig. 2.15. Variogramme théorique inconnu (courbes pointillées) et estimations ponctuelles du var-
iogramme empirique. A` gauche : pas de discrétisation ∆h trop fin, le variogramme estimé est résolu
mais peu précis. A` droite : ∆h trop grand, le variogramme estimé est précis, mais peu résolu.
Le choix du paramètre ∆h doit donc obéir à un compromis entre robustesse et résolution.

Plus le nombre n d’observations est grand, plus on a de couples de distances, et plus on pourra se
permettre
72
de réduire la taille de ∆h. Une règle simple consiste à choisir ∆h le plus fin possible tout en
assurant la présence d’au moins 30 couples pour chaque point estimé sur le variogramme exp
érimental. En général, on procède par essai-erreur, en partant d’une résolution assez
grossière, et en l’affinant jusqu’à ce que le variogramme obtenu commence à présenter des
signes d’instabilité. En parallèle, on contrôlera les effectifs de couples dans chaque classe de
distance.
Variogramme théorique Variogramme expérimental
Distance entre sites h
Fig. 2.16. Compromis idéal sur le pas de discrétisation ∆h pour le calcul du variogramme exp
érimental. L’estimateur γ ainsi
� obtenu est relativement précis, et suffisamment réésolu pour esp
érer pouvoir reconstruire le variogramme théorique en pointillé.
Disposant d’un estimateur γ �du variogramme théorique inconnu γ, on doit pouvoir s’assurer de la
qualité de celui-ci. Nous l’avons vu dans l’équation 1.14, la justesse d’un estimateur se mesure
sur deux composantes : son biais (i.e. son erreur systématique quelque soit le jeu de données
considéré) et sa variance (i.e. sa sensibilité aux petites variations aléatoires dans les donn
ées).
Théorème 27 (Biais du variogramme expérimental)
Le variogramme expérimental est un estimateur non-biaisé du variogramme théorique :
∀ h ∈ R+E[γ�(h)] = γ(h)
Autrement dit, quelque soit la distance h considérée, la valeur prise par le variogramme exp
érimental
� γ en h n’a pas de raison d’être systématiquement en dessous ou au dessus de la
valeur réelle γ(h), ce qui est une propriété souhaitable pour tout estimateur digne de ce nom.
Preuve : nous donnons ici une ébauche de démonstration, faisant abstraction du fait que le calcul
de
� γ(h) fait appel à des couples de sites sép arés d’une distance qui ne vaut pas exactement h. En
partant de la définition 2.9 du variogramme expérimental, et en remarquant que N (h) est d
éterministe :
73
(i,j)∈N
]
L 1t
1 )l 1 L ( [ ]2 ])
E[γ(h)] = E Z −Z 2 = EZ −Z + −Z
� i
2|N (i,j)∈N
[
Var Z
j i j i j
1 L 2|N
= [ 1
Var Z i− Z j = × |N (h)|γ(h) = γ(h)
2|N (i,j)∈N
2|N
74
o u` le passage de la première à la deuxième ligne résulte du fait que le processus est
stationnaire, et donc que l’espérance de ses accroissement est nulle : E[Zi − Zj ] = E[Zi] − E[Zj ] =
E[Z] − E[Z] = 0.
Théo rè me 28 (Variance du variogramme expérimental)
La dispersion du variogramme expérimental autour du variogramme théorique, est inverse-

ment proportionnelle au nombre N (h) de couples de sites utilisés dans l’estimation :
γ(h)2
Var[γ�(h)] ∝ N (h)
Nous ne donnerons pas de démonstration du théorème 28, mais on peut remarquer qu’il s’agit
d’une application plus ou moins directe du théorème 12, dit de propagation des variances.
Le variogramme expérimental est donc d’autant moins précis que h augmente. En effet, on
peut montrer que, dans le cas o u` les sites sont répartis uniformément, le nombre de couples de sites
sép a rés d’une distance (plus ou moins la marge de tolérance) dé cr oˆıt à mesure que la
distance h s’approche du diamètre de la zone considérée (i.e. de la plus grande distance s
éparant deux sites sur la zone). En conséquence N (h) diminue, � et l’incertitude sur l’estimation
γ(h) augmente naturellement, comme illustré sur la figure 2.17.
En pratique, on considérera que le variogramme expérimental n’est plus un estimateur robuste pour
des distances de séparation h supérieures à la moitié du diamètre du domaine D.
Bandes d'erreur d'estimation
Variogramme théorique
Variogramme expérimental
Fig. 2.17. Le variogramme expérimental est d’autant plus incertain que h augmente.
Exemple 2.3. Pour 150 sites observés sur une zone montagneuse de 1 km × 1 km, le diamètre du
√
domaine vaut 2 ≈ 1.4 km. On ne calculera le variogramme expérimental que pour h ∈ [0; 0.7] km.
75
Activité IV. Variogramme expérimental (bis repetita)
Dans cette activité, nous allons écrire un code R pour calculer un variogramme expérimental, à
partir de données réelles d’altitude. Pour collecter les données, nous allons utiliser l’application
Google Maps find altitude, disponible gratuitement en ligne à l’adresse suivante :
https://www.daftlogic.com/sandbox-google-maps-find-altitude.htm
En cas de difficulté bloquante dans la phase de collecte des données, on pourra récupérer
directement l’un des deux fichiers sample data1.txt ou sample data2.txt disponibles dans le r
épertoire de matériel pédagogique. Dans ce cas, on passera directement à la question Q4.
Q1. Accéder à l’application Google Maps find altitude et positionner la carte sur une zone
rectangulaire (de préférence montagneuse ou au moins vallonnée), de taille au plus de l’ordre de
quelques km de côté.
Q2. Effectuer un clic bref sur la carte pour saisir un point d’observation. Un marqueur bleu doit
alors apparaˆıtre. Repéter l’opération jusqu’à obtenir un nombre n de points. Plus la zone s
électionnée est grande, plus il faudra un nombre important d’observations. Pour cette activité,
un semis de l’ordre de 50 observations devrait être suffisant, cependant les activités du chapitre 3
nécessiteront un nombre plus conséquent de données pour construire des MNT relativement
fidèles à la réali té. Dans cette optique, on pourra dè s maintenant saisir 200 à 300 points
d’observation. On essaiera de produire une couverture homogène de la zone, mais sans n
écessairement former une grille régulière.
Q3. Les observations collectées sont listées dans une fenêtre de texte, un peu plus bas dans la
page web. Copier le contenu de cette fenêtre dans un fichier sample data.txt.
Q4. Charger le contenu du fichier dans l’environnement R, avec la commande :
obs = read.csv("sample_data.txt")
Visualiser les valeurs des différents champs. On remarque que les positions de points sont exprim
ées en coordonnées géographiques (degrés décimaux). Cela va poser problème par la suite
pour calculer des distances entre points. On va donc convertir ces données dans un système de
coordonnées planes :
R = 6378137.0
obs$longitude = obs$longitude*pi/180.0
obs$latitude = obs$latitude*pi/180.0
X = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
Y = (obs$latitude - min(obs$latitude))*R
Z = obs$meters
o u` R désigne le rayon moyen de la Terre (en m). Les deux lignes suivantes assurent la conversion
des angles des degrés décimaux vers les radians. Le facteur cos(mean(obs$latitude))*R
corresond à la longueur métrique d’un arc de parallèle de 1 radian, à la latitude moyenne
mean(obs$latitude) du chantier. Par commodité, les coordonnées métriques des points sont
stockées dans 3 vecteurs numériques de même longueur : X, Y et Z.
Q5. Récupérer les coordonnées extrémales et en déduire le diamètre L de la zone d’étude.
Q6. Calculer et représenter le variogramme en 30 points h1, h2, ...h30 régulièrement espacés
dans l’intervalle [0, L ].
2
76
Correction :
Script 5. Variogramme expérimental (bis repetita) [code3.r]
n = length(X) # Nombre
d’observations # Calcul du diametre
de la zone
dX = max(X)-min(X);
dY = max(Y)-min(Y);
diam = sqrt(dX*dX + dY*dY)
# Vecteur de distances a evaluer

dmax = diam/2
dh = dmax/30
H = (dh/2) + (0:30)*dh
#
# Calcul du
variogramme #
GAMMA = rep(0, length(H))
for (k in 1:length(H)){
ck = 0
for (i in 1:n){
for (j in 1:n){
dX = X[i]-X[j];
dY = Y[i]-Y[j];
d = sqrt(dX*dX+dY*dY)
if ((d >= H[k]-dh/2) && (d <= H[k]+dh/2)){
dZ = Z[i]-Z[j]
GAMMA[k] = GAMMA[k] + dZ*dZ
ck = ck + 1
}
}
}
cat(paste("Step", k, H[k], ck, GAMMA[k], "\r\n", sep=" "))
GAMMA[k] = GAMMA[k]/(2*ck)
}
plot(H, GAMMA, pch=3)
On remarque que dans le code proposé ci-dessus, on parcourt chaque couple (i, j) de sites, deux
fois, ainsi que tous les couples (i, i), qui ne contribuent pourtant pas au calcul du variogramme. On
peut accélérer le code (d’un facteur 2 environ), en ajustant adéquatement les paramètres de
boucle :
for (i in 1:(n-1)){
for (j in (i+1):n){
# On traite ici le couple (i,j)...
}
}
Pour accélérer davantage le calcul du variogramme (qui peut être une étape très chronophage lorsque
77
plusieurs milliers de points d’observation sont disponibles), on peut adopter la stratégie
suivante : plutôt que de parcourir tous les couples de sites pour chaque valeur h en laquelle on
souhaite évaluer le variogramme, une solution alternative consiste à ne parcourir qu’une seule fois
l’ensemble des couples d’observations, puis pour chaque couple, évaluer sa distance et l’affecter à a
la classe correspondante. En retour, notons que cela nécessite de garder en mémoire le décompte
des nombres de couples utilisés dans l’estimation pour chaque valeur de h.
Script 6. Version optimisée [code3.r]
GAMMA = rep(0, length(H)) COUNT = rep(0, length(H))
for (i in 1:(n-1)){
for (j in (i+1):n){
dX = X[i]-X[j]; dY = Y[i]-Y[j]; dZ = Z[i]-Z[j];
d = sqrt(dX*dX+dY*dY) if (d > max(H)+dh/2){
next
}
id = round((d+dh/2)/dh) GAMMA[id] = GAMMA[id] + dZ*dZ COUNT[id] = COUNT[id] + 1
}
}
GAMMA = GAMMA / (2*COUNT)
Avec cette nouvelle version, sur le jeu de données sample data1.txt (393 observations), on divise
par 10 environ le temps de calcul. On pourra alors inspecter visuellement le variogramme. En
particulier, on observe que les 3 derniers points semblent dévier de la tendance globale. On entre
dans la zone non-robuste dont nous parlions précédemment.
●
4
●
4
4e+05
●
● ● ●
● ● ●
●
● ● ●● ●
● ●
●
● ● ●● ● ●
● ●●● ●●● ● ● ● ●
3e+05
●
3
● ● ● ●
●● ● ●
3
●
● ● ●● ● ●
● ●
●●● ●●
● ●
●
●●● ● ●●
● ● ●●
● ●
● ● ● ●●
●●
GA
●
●
● ● ●●
● ● ● ●●
●●
2
2
●●●●●
●
● ●●●
●
● ●●
● ● ●●
● ●
●●
2
●
●●
● ●
●
● ● ●
1
●
● ●
0e+00
●
● ●●
●●
● ●
●●
0e+001e+05
●
●
0 2000 4000 6000 8000
2000 4000 6000 8000
0 2000 4000 6000 8000
H H H
Fig. 2.18. Calcul du variogramme pour 3 pas de discrétisation diff

A` gauche : ∆h = 850
érents.
m (10 échantillons) - le variogramme est peu résolu, mais les points calculés sont précis (excepté
probablement le dernier point). A` droite : ∆h = 85 m (100 échantillons) - le variogramme est très
résolu, mais complètement instable. Au centre : ∆h = 280 m (30 échantillons) - compromis idéal.
78
2.4.2 Interpréter le variogramme
Etre capable de calculer programmer informatiquement le calcul d’un variogramme est certes une
compétence intéressante, mais pas indispensable, dans la mesure il existe d é j à de nombreuses
bib- liothèques 7 qui le font très bien dans dans les principaux langages de programmation. En
revanche, il est capital de savoir interpréter graphiquement un variogramme.
On donne ci-dessous en figure 2.19 la représentation schématique d’un variogramme borné.
Palier C
0.95 C
Varia
Pépite
Portée hmax
Fig. 2.19. Les 3 éléments caractéristiques d’un variogramme : palier C, portée hmax et pépite η.
Le palier
Nous avons expliqué précédemment qu’un variogramme pouvait tendre vers l’infini à mesure
que h augmente. Il s’agit d’un cas particulier o u` la covariance n’existe pas. Dans la grande
majorité des cas rencontrés en pratique, le variogramme converge vers une valeur C, le palier,
correspondant à la dissemblance maximale entre sites lointains. Informellement, on peut dire que
lorsque deux sites xi et xj sont séparés d’une grande distance, les valeurs Zi et Zj prises par le ph
énomène respectivement en chacun des sites, deviennent complètement décorrélées. La
covariance C(h) tend vers 0, et le théorème 26 nous montre alors que le variogramme γ(h) tend à
devenir égal à C(0) = Var[Z]. Autrement dit, la connaissance de Zi n’apporte aucune
information (statistiquement, on dit que cette connaissance ne réduit pas la variance) sur Zj, et r
éciproquement.
Dans le cas pratique de la figure 2.18, on peut récupérer une appoximation du palier en
moyennant par exemple les 5 dernières valeurs de γ (pour h compris entre 7.2 et 8.4 km) :
C = mean(GAMMA[26:30]) On trouve 394 678 m2

sqrtC = sqrt(C) On trouve 628.234 m
On compare alors cette valeur à l’écart-type a priori du champ, que l’on approxime par
l’écart-type des observations d’altitudes :
sigma = sd(Z) On trouve 556.495 m
7
Par exemple gstat pour le langage R, variogram (Matlab), VARFIT (FORTRAN) ou encore scikit-gstat (Python).
79
Définition 29 (Palier)
Le palier C d’un variogramme γ (lorsqu’il existe) est la limite de γ en l’infini :
C = limγ(h)
h→+∞
A` nouveau, ici aussi, la locution ”lorsqu’il existe” précise que C peut prendre une valeur infinie,
auquel cas on ne peut pas lui donner de sens physique.
La p ortée
La valeur à partir de laquelle le variogramme atteint à peu près son palier est appelée la port
ée. Elle représente la distance à partir de laquelle le processus n’est plus autocorrélé. On
retient traditionnellement la première valeur qui dépasse 95% de la valeur du palier (notons que si
cette règle simpliste fonctionne dans la grande majorité des cas, elle peut poser problème avec les
variogrammes dits à effet de trou, comme nous le verrons plus loin) :
hmax = H[min(which(GAMMA > 0.95*C))]
On obtient une portée de 7.8 km environ (7786 m). Dans le cas d’un MNT, on s’attend donc à
trouver des montagnes et vallées de taille caractéristique (on pourrait parler de périodicité
spatiale) 8 km.
Définition 30 (Portée)
Pour un seuil de tolérance ε > 0 fixé, la portée d’un variogramme γ de palier C est la plus
petite valeur hmax telle que :
γ(h)
∀ h � hmax :1 − ε :( C :( 1 + ε
La pépite
Tout variogramme est théoriquement nul en 0. En effet, d’après la définition 25 :
1
γ(0) = Var[Z(x) − Z(x)] = 0
2
En revanche, rien n’interdit d’avoir une discontinuité en 0, i.e. un saut faisant passer le
variogramme de la valeur 0 à une valeur η, pour h > 0 aussi petit soit-il.
Cette valeur η, appelée pépite 8 (ou nugget en anglais) dénote la présence d’un bruit de fond
dans le processus. D’un point de vue variographique, cela signifie que l’accroissement entre deux
sites in- finitésimalement voisins (mais distincts) x1 et x2 aura toujours une variabilité r
ésiduelle, ce qui, au niveau des réalisations, se traduit par des discontinuités locales dans la
variable régionalisée.
80
8
En référence a` la variographie des gisments d’or
81
Définition 31 (Pépite)
Soit γ un variogramme quelconque (non-nécessairement borné).On appelle pépite du

variogramme, la quantité (éventuellement nulle) :
η = lim γ(h)
h→0+
Remarque : lorsque la pépite est non nulle, on dit que le variogramme, et par extension le processus
stochastique ainsi que ses réalisations, sont pépitiques.
Signal aléatoire Variogramme Signal aléatoire + bruit blanc Variogramme
8e
8e
var var
4e
4e
N
h(m) h(m)
0e
0e
E(m) 0 2000 4000 6000 8000 10000 E(m) 0 2000 4000 6000 8000 10000
Fig. 2.20. Illustration de l’effet de p

A` gauche : réalisation d’un processus stochastique sans
épite.
effet de pépite et variogramme associé. A` gauche √: idem avec effet de pépite. On mesure η ≈ 2.105,
√
donc l’écart type du bruit additif vaut σ = η = 2.105 ≈ 440 m.
Notons que l’effet de pépite peut être utilisé pour modéliser le comportement d’un ph
énomène, mais aussi (et surtout) pour modéliser un bruit dans le processus d’observation. Par
exemple, si on souhaite construire un MNT à partir de mesures d’altitudes effectuées avec un GPS
de randonnée (précision
±5 m), on pourra alors utiliser un variogramme pépitique avec η = 52 = 25 m2.
Pour aller plus loin...

Le comportement du variogramme au voisinage de l’origine (et plus spécifiquement son rythme
de croissance) fournit en réali té beaucoup d’information sur la régularité des réalisations.
L’effet de pépite n’en est qu’un cas particulier, comme le montre la propriété suivante :
Propr ié té 32 (Comportement du variogramme à l’origine)
La pente en 0 du variogramme reflète le degré de régularité de la variable régionalisée :
Parabolique : (γt(0) = 0), la variable régionalisée est dérivable.
Linéaire : (γt(0) = a), la variable régionalisée est continue mais non-dérivable.
Discontinu : (γt(0) = +∞) la variable régionalisée est discontinue.
82
Remarque : chaque réalisation du processus étant par nature différente, la fonction dont on cherche
à quantifier la régularité est une fonction aléatoire. Les notions de continuité et de dérivabilit
é telles qu’on les connaˆıt ne sont alors plus opérantes, et on devrait en toute rigueur introduire
les notions probabilistes de continuité et dérivabilité dites en moyenne quatratique. Ici, par
abus de langage on dit qu’une variable régionalisée est continue (resp. dérivable) lorsque les r
éalisations du processus associés à cette variable sont statistiquement localement continues
(resp. dérivables). L’annexe A donne quelques clés supplémentaires pour saisir cette notion.
On pourra trouver une démonstration de cette propriété dans Picinbono (1998) ou encore dans
Allard (2012).
Grossièrement, le comportement à l’origine du variogramme est un indicateur du rythme avec

lequel les valeurs prises par un phénomène en deux sites x1 et x2 infinitésimalement proches se
décorrèlent
à mesure qu’on les éloigne mutuellement. Un comportement parabolique indique une pente
de γ nulle en 0, et donc que γ croˆıt lentement à l’origine, à l’instar de la fonction parabolique x
1→ x2. Les réalisations du processus sont alors suffisamment lisses pour être dérivables.
Dans le cas d’un comportement linéaire, γt(h) = a la décorrélation se produit à un rythme plus
rapide, les réalisations restent continues mais ne sont plus dérivables. Enfin, remarquons qu’un
comportement discontinu est synonyme d’effet de pépite. Il s’agit du cas limite du
comportement linéaire pour a = +∞.
N(m)
N(m)
var
var
0
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0

0 2000 4000 6000 0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000
E(m) h(m) E(m) h(m)
0 2000 4000 6000 0.0 0.2 0.4 0.6 0.8 1.0

0.8
800
N(m)
var
N(m)
400
0
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0 2000 4000 6000
E(m) h(m) E(m) h(m)
Fig. 2.21. Illustration du lien entre la régularité de la variable régionalisée ( à gauche en

couleur) et le comportement à l’origine de son variogramme ( à droite en noir et blanc). En haut
à gauche : pépite pur. En haut à droite : comportement parabolique + pépite. En bas à
gauche : comportement parabolique. En bas à droite : comportement linéaire.
La figure 2.21 illustre l’importance du comportement à l’origine du variogramme sur l’aspect local
(lisse ou erratique) de ses réalisations. En particulier, on remarque que le champ à comportement
linéaire (en bas à droite) ressemble dans une certaine mesure au comportement pépitique et
parabolique (en haut à droite). Parfois, seule l’analyse variographique permet de différencier
deux processus dont les réalisations semblent similaires au premier abord.
2.4.3 Les modèles de variogramme

Considérons une fonction quelconque f : R+ → R+. Nous l’avons vu précedemment, la contrainte
f (0) = 0 est une condition nécessaire pour que f puisse être un variogramme. Est-ce une condition
suffisante ? La réponse est non : la nature statistique du variogramme impose que f possède
une propriété supplémentaire. Voyons cela à travers un exemple simple.
83
Exemple 2.4. On considère l’exemple d’une fonction γ˜ définie
par :
� (2.10)
0 si h < ξ
γ˜(h) = Γ sinon.
avec Γ et ξ deux valeurs réelles positives quelconques. Prenons 3 sites, positionnés comme ci-
dessous ( à droite), pour lesquels on note Z1, Z2 et Z3 les valeurs prises par le phénomène de
variogramme γ˜ .
On relève alors une contradiction : les variables (Z1, Z3) d’une part et (Z2, Z3) d’autre part, étant
séparées d’une distance inférieure au seuil ξ, elles sont complètement corrélées et elles sont
donc liées par une relation affine. On montre alors aisément que Z1 et Z2 sont nécessairement
aussi liées par une relation affine, et donc également parfaitement corrélées. Or, Z1 et Z2 sont s
éparées d’une distance
supérieure à ξ, donc Cov(Z1, Z2) = γ˜ (∞) − γ˜(h 12 ) = 0, ce qui est une contradiction 9. La
fonction γ˜ ne peut donc pas être un modèle de variogramme.
D’après l’exemple 2.4, il apparaˆıt clairement qu’on ne peut pas choisir n’importe quelle fonction
pour modéliser le variogramme. Plus formellement, γ doit vérifier une propriété de défini-n
égativité conditionnelle, qui assure que le quantités algébriques calculées à l’aide du
variogramme et auxquelles on peut donner le sens d’une variance, sont toujours positives Allard
(2012). Nous reviendrons sur ce point quelqe peu technique dans la section 2.4.5.
En conséquence, le variogramme doit appartenir à une classe particulière de modèles, dont nous
donnons les principaux représentants dans cette section.
Le modèle linéaire
γ(h) = kh (2.11)
o u` k est une constante réelle positive.
Le variogramme linéaire permet de modéliser une décorrélation progressive des valeurs prises
par le phénomène, à mesure que les sites considérés sont éloignés spatialement. Il ne
converge pas vers une valeur palier, et n’a donc pas non plus de valeur de portée définie. En cons
équence, il n’existe pas de covariogramme associé10 . Son comportement à l’origine est bien
évidemment linéaire.
Le modèle linéaire présente l’avantage d’être extrêmement simple à estimer. Par ailleurs,
dans certaines applications comme l’interpolation par krigeage (cf chapitre 3), le résultat obtenu
est invariant par une multiplication du variogramme par un scalaire. Dans cette optique, le
coefficient k n’a pas
84
9
Sauf si ξ est nul, auquel cas on est réduit au variogramme purement pépitiques, qui est parfaitement valide
10
Ce modèle de variogramme convient particulièrement pour les processus stochastiques ne respectant que
l’hypothèse de stationnarité intrinsèque, et non celle de stationnarité au sens large, comme expliqué dans l’exemple
2.2.
85
besoin d’être estimé, et on pourra utiliser arbitrairement le modèle de variogramme prêt-à -
l’emploi γ : h 1→ h. Le modèle linéaire devra être utilisé pour les processus stochastiques
dont la dispersion explose à mesure que grandit la taille de la zone d’étude (Arnaud et Emery,
2000). Il convient en
particulier pour la modélisation des gisements de cuivre.
C
Vari
Vari
a
Fig. 2.22. Variogramme linéaire ( à gauche) et linéaire avec palier ( à droite).
Si k = 0, le variogramme dé gé nè r e en γ : h 1→ 0, traduisant un champ aléatoire constant.
Le modèle linéaire avec

palier
�C
γ(h) = a h si h :( (2.12)
C sinon.
a
o u` C et a sont deux constantes réelles positives.
Dans une version simplifiée, comme nous le verrons dans l’activité V, les paramètres du modèle
sont ajustés en déterminant empiriquement la portée a, puis en effectuant une régression lin
éaire sur la portion [0, a]. Ce modèle présente l’avantage de fournir une approximation
relativement fiable de modèles analytiquement plus complexes.
Ce variogramme dé gé nè r e en un modèle pépitique pur quand a tend à s’annuler.
Le modèle puissance
γ(h) = khθ avec 0 < θ :( 2 (2.13)
Quand θ = 1, on retrouve le modèle linéaire. Pour θ > 1, on a γt(h) = θkhθ−1 et donc γt(0) = 0, le
variogramme a un comportement paraboliquet à l’origine, traduisant ainsi des réalisations plus
lisses que le modèle linéaire. Pour θ < 1, γ (0) est infini, le comportement à l’origine est quasi-
pépitique. Tout comme pour le modèle linéaire, la covariance n’existe pas.
L’estimation des paramètres est immédiate par régression affine dans l’espace log-log. Un i nt
é rê t principal de ce modèle est de pouvoir modéliser des comportements à l’origine
parabolique, linéaire et quasi-pépitique avec un unique jeu de paramètres, ce qui offre une grand
variabilité de cas d’application. Le variogramme puissance devrait donc être utilisé lorsque l’on n’a
a priori aucune idée du comportement variographique du phénomène étudié. Remarquons
que le cas spécial θ = 2 bien que licite
86
(comme nous le verrons dans la section 2.4.5), résulte en un processus non-ergodique, et donc inutil-
isable en Géostatistique.
Vari
Vari
Fig. 2.23. Variogramme puissance au comportement supra-linéaire ( à gauche) et sub-linéaire

( à droite). Le comportement à l’origine parabolique du variogramme de gauche produira
statistiquement des réalisations plus lisses que celles du variogramme de droite.
On pourra trouver un exemple pédagogique d’utilisation de ce variogramme, avec θ ≈ 1.31 pour

la modélisation de l’indice de porosité du sol en fonction de la profondeur (Gringarten et Deutsch,
2001).
Le modèle exponentiel
γ(h) = C(1 − e− ah) (2.14)
Le palier n’est jamais rigoureusement atteint. La portée est définie comme la distance à
laquelle on atteint 95% de la limite asymptotique C du variogramme. Elle vaut donc hmax = 3a.
C C
0.95C 0.95C
Vari
Vari
3a
2a
Fig. 2.24. Variogramme exponentiel ( à gauche) et gaussien ( à droite).
t
t C a et
h γ (0) = C
> 0, le comportement à l’origine est linéaire.
a a
Le modèle exponentiel convient en particulier pour modéliser les erreurs GPS, et pourra donc
dans ce cadre être utilisé par exemple pour améliorer les systèmes de guidage (Grejner-
Brzezinska et al., 2005) et de navigation (Meneroux, 2019).
Il caractérise notamment un bruit rouge, c’est-à - dire dont la puissance décroit comme le carré
de la fréquence. En 1827, le botaniste écossais Robert Brown, découvre que les particules du
pollen sont
87
soumise à un tel type de bruit. En particulier, il est solution de l’équation de Langevin, caract
érisant le mouvement d’une particule ponctuelle soumise à un frottememt proportionnel à la
vitesse ainsi qu ’à une force de collision aléatoire. Ce bruit, depuis rebaptisé bruit brownien, sera
plus tard à la base des hypothèses nécessaires à l’établissement d’une loi célèbre reliant temp
érature, pression et volume d’un gaz, dite loi des gaz parfaits. En acoustique, un signal brownien
évoque le bruit des vagues et aurait des vertus thérapeutiques contre l’hyperacousie.
Le modèle gaussien
C’est avec le modèle exponentiel, l’un des deux modèles les plus couramment utilisés.
h2
−
γ(h) = C(1 − e a2 ) (2.15)
La portée est définie comme la distance à laquelle on atteint 95% de la limite asymptotique C
du variogramme. Elle vaut hmax =J ln(20)a ≈ 1.73a.
Par ailleurs, γt(h) = 2Ch exp(−h2/a2) et γt(0) = 0, le comportement à l’origine est parabolique. Plus g
énéralement, on montre a facilement que la dérivée n-eme γ(n) du modèle, est nulle en l’origine,
pour
tout entier n � 0, d’ o u` l’aspect t rès lisse des réalisations d’un processus de variogramme γ, ce
qui convient en particulier à la modélisation topographique.
Par ailleurs, la fonction gaussienne possède de nombreuses propriétés élégantes, voire

fondamentales11 (qu’il serait malheureusement trop long d’exposer ici), lui conférant ainsi un rôle
central à la fois en théorie des probabilités et en traitement du signal. C’est donc tout
naturellement qu’on la retrouve à une place de choix dans la liste des modèles de variogramme.
Le modèle sph
érique
( ( )
3h 1 h3
C − si h :( a
γ(h) 2 2 (2.1
C
Ici aussi, on retrouve le modèle pépitique pur quand a tend à s’annuler. Par ailleurs, on a : γt(h) =
− 3 h ) et donc γt(0) = > 0, le comportement est linéaire à l’origine.
2
C(
3 a 2
2
3
Le variogramme sphérique a une interprétation physique simple : il modélise les corrélations

entre point d’un espace 3D, en supposant que l’aire d’influence de chaque point est une sphère de
diamètre
a. La corrélation entre deux points est définie comme étant égale au volume de l’intersection des
11
En particulier, le théorème central limite, stipule que toute somme de variables aléatoires identiquement distribu
ées converge vers la loi gaussienne, comme l’illustre parfaitement l’expérience de la planche de Galton. La théorie de
l’entropie démontre que c’est la loi la moins arbitraire que l’on puisse choisir lorsqu’on ne connait que l’espérance et la
variance d’une variable aléatoire. On peut également montrer que l’observation d’un signal sur une fenêtre gaussienne
88
réalise le meilleur compromis pour le déterminer a` la fois d’un point de vue temporel et fréquentiel...
89
C
C
Vari
Vari
a a
Fig. 2.25. Variogramme sphérique ( à gauche) et cubique ( à droite).
intérieurs de deux sphères d’influence. Lorsque les points sont séparés d’une distance sup
érieure à a, on retrouve naturellement que la corrélation est nulle, et le variogramme atteint
son palier. Le variogramme sphérique est donc un équivalent tri-dimensionnel du variogramme lin
éaire avec palier, qui lui mesure la corrélation entre deux points par la longueur de l’intersection
des intérieurs de deux segments de longueur a (Allard, 2012).
Le modèle sphérique peut être employé comme une version analytiquement simplifiée du variogramme
exponentiel. Il se généralise pour toutes les dimensions d’espace.
Le modèle
cubique
( ( 2 )
35 h3 5
3 h7
C 7h − + 7 h
− si h :( a
γ(h) a 4 2 4 (2.1
C
On a γt(0) = 0 donc le comportement à l’origine est parabolique. Le modèle cubique, qui

partage avec le modèle sphérique la propriété d’atteindre son palier, mais qui diffère par son
comportement à
l’origine, peut être considéré comme une version simplifiée du variogramme gaussien.
Le modèle à effet de
trou
sin(h/a)
γ(h) = C (1 ) (2.18)
h/a
90
Ici aussi, le palier n’est jamais rigoureusement atteint. La portée peut être définie au niveau de
l’une des premières intersections de la courbe avec la limite asymptotique C du variogramme. Diff
érentes mesures du phénomène peuvent être effectuée sur le variogramme (abscisse du
premier pic, écart inter-pics, distance du premier creux, etc.) et traduites en termes de caract
éristiques de la variable régionalisée (largeur typique des ondulations, etc.). Pour plus
d’informations nous renvoyons le lecteur au travail complet de Pyrcz et Deutsch (2003).
Le comportement à l’origine est parabolique : γt(0) = 0.
Physiquement, nous savons depuis le début du XIXe siècle et les études de Joseph Fourier, que
tout signal peut être considéré comme une somme (potentiellement infinie) de sinuso¨ıdes : la
nature est intrinsèquement oscillatoire. Un phénomène dont la périodicité nous est apparente
est un signal dont n’ont é t é conservé que les basses fréquences. Comme nous le verrons dans
le paragraphe 2.4.5, le variogramme à effet de trou ne décrit pas autre chose : c’est la caract
érisation d’un modèle pépitique pur passé en entrée d’un filtre passe-bas idéal.
Le modèle à effet de trou est adapté pour modéliser les phénomènes (en particulier spatio-
temporels) cycliques : la pluviométrie, le niveau de la mer (et d’une manière géné ra le tous
les phénomènes liés d’une manière ou d’une autre à la rotation ou à l’orbite de la Terre),
l’imagerie par résonnance magnétique, ainsi que certains phénomènes topographiques pr
ésentant une forme de périodicité spatiale (plissements, dunes...).
D’une manière plus générale, la littérature de référence désigne par l’appellation

variogramme à effet de trou, tout modèle non-monotone (Journel et Huijbregts, 1978).
C C
Vari
Vari
Fig. 2.26. Variogramme pépitique pur ( à gauche) et variogramme à effet de trou ( à droite).
Le modèle pépitique pur
C’est le cas d’un processus complètement dé c o r ré lé . On parle de bruit blanc au sens faible
(Picinbono, 1998). Utilisé seul, il ne présente aucun intérêt.
�0 si h =
γ(h) =
0 (2.19)
C sinon.
o u` C une constante réelle positive.
γ a un comportement discontinu à l’origine.
91
Le modèle à effet de pépite
Notons qu’il est possible de combiner l’effet de pépite à tous les modèles de variogrammes préc
édents. Par exemple, on peut fabriquer un variogramme cubique à effet de pépite.
� 2
35 h3 5
3 h7
C(7 h − + 7 h
− ) si h :( a
γ(h) a 4 2 4 (2.2
C
o u` C, C0 et a sont trois constantes réelles positives.
C
Vari
Fig. 2.27. Variogramme cubique avec effet de pépite.
Les gisments d’or par exemple, peuvent se modéliser par un variogramme au comportement erratique
(fort effet de pépite), une faible portée et une croissance linéaire à l’origine, donc a priori
avec un variogramme exponentiel ou sphérique avec pépite. Le modèle cubique ou gaussien à
effet de pépite peut permettre de modéliser les erreurs de mesures (GPS par exemple) sur un
MNT.
Les modèle gigognes
Les modèles de variogrammes sont additifs. Autrement dit, si γ1 et γ2 sont des variogrammes
valides, alors γ1 +γ2 en est un aussi12 Avec ce procédé, on peut facilement construire des
variogrammes étagés, dits variogrammes en gigogne.
γ(h) = γ1(h) + γ2(h) + ... + γn(h) (2.21)
o u` γ1, γ2... γn sont des modèles de variogramme licites.
Il est possible de regrouper ces modèles en trois classes (Baillargeon, 2005) : les modèles sans
palier (linéaire, puissance) avec palier exact (linéaire avec palier, pépitique pur, sphérique
et cubique) et enfin avec palier asymptotique (gaussien, exponentiel et à effet de trou). Il existe
par ailleurs de nombreux autres modèles moins classiques : Matérn, Legendre, Bessel... qui gén
éralisent et complètent les variogrammes ci-dessus.
12
Notons que ceci n’est pas vrai pour la soustraction.
92
C
Varia
a1 a2
Fig. 2.28. Variogramme gigogne.
Nous présentons en figure 2.29 les 6 modèles de variogramme les plus fréquemment utilisés,
avec à chaque fois un exemple de réalisation associée.
Fig. 2.29. Présentations de 6 modèles de variogramme avec un exemple de réalisation associée.
2.4.4 L’estimation du variogramme

Au bilan, nous avons manipulé jusqu’ici trois concepts différents du variogramme. Il
peut être intéressant de les récapituler à ce stade :
• Le variogramme théorique : introduit au début de la section 2.4, variogramme réel

du phénomène que l’on cherche à modéliser. De par le nombre fini de points d’observation,
il s’agit
93
d’un objet conceptuel, inconnu en pratique, et que l’on cherchera à estimer.
• Le variogramme expérimental : ou variogramme empirique (2.4.1), est une estimation

du variogramme théorique, calculée à l’aide des observations disponibles. C’est un estimateur
bruité (variance statistique d’estimation) et fragmentaire (connu en quelques points
seulement).
• Les modèles de variogrammes : bibliothèque de fonctions mathématiques

satisfaisants les propriétés du variogramme théorique (défini-négativité conditionnelle),
et dont les paramètres sont estimés à partir des observations (2.4.3). Les modèles de
variogrammes permettent d’établir un pont entre le variogramme théorique insaisissable et
son estimation bruitée, le variogramme expérimental.
Après avoir choisi un modèle de variogramme, on effectue l’estimation de ses paramètres à

l’aide de méthodes statistiques classiques : moindres carrés linéaires, non-linéaires, pondér
és... dont l’étude exhaustive sort malheureusement du cadre de ce cours, et au sujet desquelles
nous ne saurions faire mieux que de renvoyer le lecteur intéressé à l’excellent ouvrage de Sillard
(2001). Soulignons toutefois que cette phase d’estimation (que l’on résume sur la figure 2.30) est g
énéralement entièrement prise en charge en boˆıte noire par les solutions logicielles.
Erreur d'estimation
Varian
Modèle de variogramme Variogramme empirique Variogramme théorique
Fig. 2.30. Variogramme théorique inconnu (en ligne pointillée), variogramme expérimental
(croix rouges), modèle de variogramme i n fé ré par estimation paramétrique (trait plein) et erreur
d’estimation.
Notons qu’il peut parfois se ré vé l e r difficile de choisir le bon modèle de variogramme. Certains
travaux ont é t é menés en ce sens pour permettre une sélection automatique (Barry et al., 1996).
En général, les approches employées consistent à tester l’ajustement sur une collection de
modèles candidats. Le modèle retenu est alors celui qui offre le meilleur compromis entre parcimonie
et qualité d’ajustement13.
Activité V. Sélection et estimation d’un modèle de variogamme
Dans cette activité nous allons apprendre concrètement comment choisir un bon modèle de
variogramme et estimer ses paramètres (dans un premier temps à la main, puis
informatiquement) en fonction des caractéristiques supposées de la variable régionalisée.
94
13 ´
E tant entendu qu’un modèle avec plus de degrés de liberté permet en général un meilleur ajustement, une
approche classique pour éviter le sur-apprentissage consiste a` pénaliser le nombre de paramètres du modèle.
95
On donne en figure 2.31 cinq exemples de réalisations d’un processus stochastiques (A à E), avec leurs
cinq variogrammes empiriques associés (dans le désordre : I à V).
Fig. 2.31. 5 exemples de réalisations d’un processus stochastiques (colonne de gauche) et les
5 variogrammes empiriques associés (colonne de droite dans le désordre).
96
Q1. Associer chaque réalisation avec son variogramme correspondant.
Q2. On considère le variogramme expérimental de la fig. 2.32, construit à partir d’un semis de relevés
d’altitude. Choisir (en justifiant) un modèle de variogramme, et le représenter sur le graphique.
50
Variance 40
30
20
10
0
0 100 200 300 400 500
Fig. 2.32. Le variogramme expérimental d’un ensemble de relevés altimétriques.
Q3. Reprendre la question Q2 et calculer informatiquement les paramètres du variogramme.
Correction :
Q1. La réalisation B est un bruit blanc (signal sans aucune structure de corrélation spatiale).
Son variogramme est donc à pépite pure, donc constant et égal à Γ > 0 sur ]0; +∞[ et nul en
0 : c’est le variogramme III. La réalisation C possède un motif d’ondulations périodiques, ce qui
se modélise
à l’aide d’un variogramme non-monotone dit à effet de trou : le modèle V. Parmi les 3 r
éalisations restantes A, D et E, seule la variable régionalisée E semble bruitée. On
recherche donc un effet de pépite dans le variogramme, que l’on trouve dans le modèle I. Au
passage, la représentation variographique nous permet de calculer le ration signal sur bruit (ou
SNR pour Signal to Noise Ratio en anglais) du processus : c’est le rapport de la variance de
l’information utile sur la variance du bruit14. En termes variographiques, c’est le rapport de la diff
érence palier - pépite sur la pépite :
C− η C
SNR = = −1
η η
Pour une pépite pure (η = C) et on retrouve bien un SNR nul (aucun signal dans le bruit). Ici, dans
le cas du variogramme I, on a C ≈ 1200 et η ≈ 450, d’ ou` un SNR de l’ordre de 1.7 dans la r
éalisation E (1.7× plus de signal que de bruit). Les SNR de tous les autres modèles (hormis I et
III) sont infinis.
Enfin, entre les deux réalisations restantes (A et D), A paraˆıt plus régulière, on lui associe
donc II, pour son comportement parabolique à l’origine (notons que le processus ayant gé n é r é A
semble être une version débruitée de celui ayant g é n é r é E). La réalisation D, plus irr
égulière, correspond donc au
97
14
Physiquement, cette quantité correspond également au rapport de la puissance du signal utile sur le bruit de fond.
En télécommunication, plus le SNR est réduit, plus la réception du signal est délicate.
98
variogramme IV, au comportement clairement linéaire à l’origine.
R Variogramme Modèle Portée

éalisation (m)
A II Gaussien/Cubique 3000
B III Pépite pure 0
C V Effet de trou 5000
D IV Exp/Sphérique/Puissance 3000
E I [Gaussien/Cubique] + p 3000
épite
Q2. Par simplicité, on propose d’utiliser une modèle de variogramme linéaire avec palier.
50
40
Variance
30
20
10
0
0 100 200 300 400 500
Fig. 2.33. Variogramme expérimental d’un ensemble de relevés altimétriques et ajustement

empirique d’un modèle de variogramme linéaire avec palier.
On estime alors graphiquement : portée a = 410 m, pépite η = 5 m2 et palier C = 41 m2, soit une
pente (C − a)/η = 0.088 m-1 et un ratio signal sur bruit de 7.2.
Remarquons que ce choix simplificateur a un prix : la topographie est en gé né r a l assez lisse,
alors que le modèle utilisé ici a un comportement linéaire à l’origine. En fonction de la g
éologie du milieu considéré, peut-être qu’un modèle gaussien ou cubique avec pépite serait
plus adapté.
Q3. Informatiquement, on peut estimer les paramètres plus rigoureusement. On commence par
relever les valeurs du graphe pour les consigner informatiquement :
G = c(10,13.5,17,23.5,27,31,34.5,40.5,42,40,42)
n = length(G); H = (1:n)*50
On peut alors estimer les paramètres optimaux du variogramme. On rappelle que la droite de régression
y(x) = β1x + β2 entre deux séries de nombres X et Y a pour paramètres optimaux :
β�1 = Cov(X,Y)
β�2 = E[Y ] − β�1 E[X] (2.22)
Var[X]
On donne alors le code suivant, permettant, pour un entier a donné, d’effectuer la régression linéaire
2.22 sur les a premiers points du variogramme expérimental, puis de calculer la droite de régression
99
horizontale (qui correspond simplement à l’ordonnée moyenne) des (n − a) points restants. Le code
100
retourne (en plus des paramètres ajustés), un indice de la qualité de l’ajustement, le RMSE,
calculé par la racine carrée de la moyenne des carrés des écarts entre le modèle et les points de
données.
Script 7. Calcul des paramètres d’un variogramme [code4.r]
a = 7 # Test d’une coupure
possible #
# Estimation
#
slope = cov(H[1:a],G[1:a])/var(H[1:a])
intersept = mean(G[1:a])-slope*mean(H[1:a])
model1 = intersept + slope*H
palier = mean(G[(a+1):n])
model2 = rep(palier, n)
erreur = c(model1[1:a]-G[1:a], model2[(a+1):n]-G[(a+1):n])

rmse = sqrt(mean(erreur*erreur))
# Interpolation lineaire de la portee

id = min(which(model1 > palier))
weight = (palier-model1[id-1])/(model1[id]-model1[id-
1]) scope = H[id-1]*(1-weight) + H[id]*weight
slope = (palier-intersept)/scope
#
# Sorties graphique
#
plot(H, G, pch=16)
lines(H, model1,
lty=2) lines(H,
model2, lty=2)
abline(v=scope, lty=2)
#
# Sorties consoles
#
cat("---------------------------------------------\r\n")
cat(paste("Portee:", round(scope,2),"\r\n"))
cat(paste("Pente:", round(slope,3),"\r\n"))
cat(paste("Pepite:", round(intersept,2),"\r\n"))
cat(paste("Palier:", round(palier,2),"\r\n"))
cat("---------------------------------------------\r\n")
cat(paste("RMSE:", round(rmse,2),"\r\n"))
cat("---------------------------------------------\r\n")
On peut alors lancer le code ci-dessus pour toutes les valeurs de coupure possibles (nommément pour
a allant de 2 à 10) et ne conserver que celle qui donne le meilleur ajustement (i.e. le RMSE le plus
faible). La meilleure estimation est obtenue pour la coupure a = 7 (soit entre le 7eme et le 8eme
101
point), avec une erreur RMSE de 0.77 m2. Les paramètres estimés sont :
Portee = 421.73 m Pente = 0.085 /m Pepite = 5.43 m2 Palier = 41.12 m2
ce qui correspond à peu de chose près aux paramètres estimés à la main. La valeu r du palier
nous donne l’amplitude verticale caractéristique de variation du champ : σ Z = 41.12,√soit de l’ordre
de 6 à 7 m. Le bruit blanc additif a une amplitude caractéristique σ = √5.43, soit environ 2 m. La
taille horizontale typique des éléments structurants du relief (colline, vallées...) serait d’environ 400 m.
Nous concluons cette activité avec une représentation pédagogique du variogramme, inspirée de
l’excellent ouvrage de Gringarten et Deutsch (2001).
2
0
●
● ●
●●●
● ● ● ●●● ● ● ● ● ●● ●
● ● ● ●● ● ● ● ● ●
● ● ● ● ● ● ●
2
0
● ●● ●●●● ●● ●● ● ● ●
● ● ● ● ●●● ●●● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ●● ● ● ●● ● ● ● ●
1
0
●● ● ● ● ● ●● ● ●●● ●●● ●● ● ● ● ●● ●
● ●●● ● ●● ● ● ● ● ●●●●●●●● ●●●● ●●●● ●●● ●●
●● ●●●●● ●●●●●●● ●● ●●●● ● ●●● ●●●●●●●●●●●●●●
● ● ●●● ● ●● ● ● ●
● ●● ●● ●●● ●●●●●● ● ●●● ●●●●●●●●●● ● ● ●● ●●●● ●
● ● ● ●●● ●●●●●●●● ●●●●● ●● ●●●●●● ●●
●● ●● ●●●●●● ●● ●● ● ● ●● ● ● ●● ● ●● ● ●
● ●●●●●●●●●●●●●● ●●●●●●● ●●●● ●● ●●●●●●●●●●●● ●●● ● ● ● ● ● ● ● ●●●●● ● ●
● ● ●● ●● ● ●●●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●● ●●● ●● ● ● ● ● ●
● ● ● ● ●● ●● ●●● ●● ●●●●●●●●●●●●● ●●●●●●●●●● ●●●● ●● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ●
● ●●● ● ● ●●● ●● ● ●● ●● ●●●●●●●●●●●●● ●● ●●●
●●● ●●●●● ●●●●●●● ●● ● ● ● ● ●● ● ●● ●●●●● ●● ● ●● ● ● ●●●●●● ●● ●●● ● ● ●● ● ●●
1
0
●● ●
2
0
● ●●●●●●●● ●●●●●●●●●●●●●● ● ●● ●●●●● ●●● ● ●● ● ●

● ● ● ●● ● ● ●●
●●●●● ●● ●●●●●●●●● ●●●● ●●●
●●●●● ●● ●● ●●● ●
● ● ●●● ●●●●●●● ●● ●●●●●●●● ●●●● ●●● ●● ●● ● ● ● ● ● ● ● ●● ●●●● ●●●●●●●●●●● ● ● ●●●● ●● ●
●● ●●●●
●
●● ● ● ●●●●● ●●●● ● ●●●●●●●●● ●●● ●●● ●●●●●●●●● ●●●● ● ● ● ● ●
● ● ●● ●● ●● ●●● ●●●● ●●●● ● ●●●●●●●●●●●●● ● ● ● ●● ● ● ● ● ●●● ●●● ●●●●●●●●●●●● ●● ● ● ● ● ● ● ●
●● ●●● ● ●●●● ● ●●●●●●● ●●●●●●●●●●●●●●● ●●●● ●● ● ●
● ●● ●
● ● ● ●●●●●● ●●●● ● ● ●●●●●●● ● ●●● ● ●●●● ●●●●● ● ● ●● ● ● ● ● ● ● ●
● ● ●● ●● ●● ●●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ● ● ●
● ● ●● ● ● ● ● ●● ● ●●●●● ● ●● ● ●● ●●●●●●●● ●●●●● ● ●● ● ●● ●
● ●● ● ●●●●●● ●●● ●●●●●●● ●●●●●●●●●● ● ● ●●●● ●
● ●● ● ●●● ● ● ●●●● ● ●● ●●●● ●●●● ●●● ● ●●●● ●●● ● ●●● ● ●●● ● ●●●● ●●●●●● ● ● ●●●●●
●●●●●●●●● ●●●●●●●●●
● ● ●●● ●●●●●●●
● ●●●●● ●●●●
●● ●
●● ● ● ● ● ●●●● ● ●●●● ●●●●● ●●●●●●●● ●● ● ● ●● ●●●● ●●●●●●● ●●●●●●●●
●●●● ●●●●●● ●●●●●●
●●●●●●●●●●●●●
●●●●●●●●●●●●
● ●●●●●●● ● ● ●●
● ● ● ● ● ● ●●●● ●●●●●●●●●● ● ●●●● ● ●●●● ●● ●
● ● ● ● ●●● ●●●●●●● ● ● ●●● ●●● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ●●●●●●●● ●● ●●●●●●●●●●● ●● ●● ● ● ● ●●
●● ● ● ● ● ● ● ●●●●●●●●●●●●● ●●●●●●●●●●●●●● ●●●●●●● ● ●●●● ●●
● ● ● ●●●●●●
● ● ● ●●● ●● ● ● ●●●● ●● ●●●●●●●●●● ● ●● ● ● ●● ● ●● ●●●●●● ●●●●● ●●●●● ●●●●●●●●●●●●●●●●● ● ●●●●● ●●● ● ●●● ● ●
● ● ● ● ● ●● ● ●
●● ● ●●● ● ● ●● ●●● ● ●●●● ● ● ●●●●● ●●● ● ●● ●●● ●●● ●●●●●● ●● ●● ●●● ●●●●● ●●●● ●●● ●● ●●●● ●
1
0
0
● ●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●●●●●●●●●●● ●●●●● ●●●●● ● ●
●● ●
0
● ●● ●● ● ●● ● ●●● ●● ● ● ●● ●
● ●●
● ● ●●● ●●●● ● ● ●●● ●●●●●● ● ●● ● ●●●●●● ● ●
●● ●
● ●●● ● ●●● ●●●● ●●● ●● ●● ● ● ● ●●
●● ●● ● ● ● ● ●●●● ● ● ●
●
●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●
●● ● ●●●●● ● ●●●●●●●●●●●●●●● ●●●
●● ●●●● ●●●●●●● ● ●●
● ● ● ● ● ● ● ● ●●● ●● ●● ●●● ● ● ● ●● ●●● ● ●●●●● ●●●● ●●●●● ● ●● ● ● ●● ●
● ● ● ●●● ●● ● ●
● ●● ●
●● ● ●● ● ● ●●● ●● ● ● ● ● ● ●●●● ● ● ●● ● ●● ●● ●● ●●●●●●● ●●● ●● ●● ●●●
●
● ● ●●● ●● ● ●●● ●
●● ●●●● ●● ●●●● ● ● ● ●● ● ●
● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ●●●●●●● ●●●● ●● ●● ●● ●●●
● ● ● ●●●● ● ●●● ●●● ●● ● ● ● ● ●●●
●● ●●●●●● ●● ● ●●●●
● ●●●●●●●●●●●● ●●● ●●● ● ●●●
● ●●● ●● ●●●●●● ●●
●● ●●●●●
● ●●● ● ● ● ●● ● ● ●
● ● ●●●●● ●●● ●● ●●●
● ● ● ● ●● ●● ●●●● ●● ● ●● ● ● ● ● ● ●●● ●●●
● ● ●● ●● ● ●● ● ●●●● ● ●●●●● ● ● ● ● ●
●●● ●●● ●● ●● ●●●●●● ● ● ●●●● ● ● ●●●● ●● ● ●● ● ● ● ● ● ●
● ● ●●● ●●●●● ●● ●●
● ●●● ● ●● ● ●●● ● ●●● ● ● ●
● ● ●● ●●● ●●●● ●●● ● ● ● ● ● ●●● ●● ●
●●● ●●● ●
● ●●● ●●●●●● ●●●●● ● ●● ● ●●●● ●●●● ●●● ● ●● ●●● ●●
−
● ● ●●● ● ●● ●● ●●●● ●●
1
● ● ● ● ●● ●● ● ●
● ● ● ●●
●● ● ●●
−
● ● ● ●●● ●● ● ● ● ● ●● ● ●
2
● ●● ●●●● ● ●●●●●●● ● ● ●● ●●●●● ●●●

●●
●● ● ●● ● ●●●●
●●● ●● ● ● ●● ● ● ●● ● ●●●● ● ● ● ● ● ● ●●● ● ●
● ● ●●● ●● ●● ●●●● ●●●●● ●● ●● ●●
●●●● ● ● ● ● ●● ● ● ● ● ● ●●● ●
●●●● ●●●●●● ●●● ●●● ●●●●●● ●●●●● ● ● ●●●●●●●● ● ●● ● ● ● ● ● ●●
●
●●●●●●●●●●●●● ●●● ● ● ●● ● ● ● ●●
●●●●●● ● ●● ●● ● ●●●●●●
● ●
●●● ● ● ●● ●●●●● ●●●●
−20−10 0 10 20 ● ● ●
●●●●●●● ●●●● ●●● ● ●
● ● ● ●●●
●●● ●●● ●● ●●● ●● ●
0
● ●● ●●●●●● ●● ●
● ● ●●●●●●● ●●●●●●●●●●
●● ●●●●●●● ●●●●
●●● ● ● ●●●●●●●●●●
●●● ●●● ● ●
● ●● ●● ●●
●● ● ●● ●● ●●●●●
● ●●
●● ●●● ● −20−10 0 10 20
●
● ● ● ● ●●●
● ●● ●●●●●
● ●●
●●
● ● ● ●● ● ●● ●●●● ●● ● ●●
●
● ● ●●● ● ● ●●●● ●
●●●●●● ● ● ● ● ●●
●●● ● ●●● ● ●●● ●
● ●●●●
● ● ●●●●● ●● ●
−
2
● ●● ●
●● ● ●●●●● ● ● ● ● ●●●● ● ●● ●● ●●● ●
● ● ● ●●●●●● ●●●
−20−10 0 10 20
50
2
0
●
● ●
40
●
●●●
●
●
●● ●
●● ●● ●
● ● ● ● ●● ● ● ●●
●● ● ●● ● ● ● ●●● ● ●● ● ● ●
●● ● ●● ● ●●●● ● ● ●
● ● ●●● ●● ● ●●● ● ● ● ● ●
1
0
● ●●●●● ● ●● ● ● ●● ● ●● ● ● ●
● ●● ●● ●● ●●● ● ● ● ●●●●● ●●●●●●● ● ● ● ● ●
● ●● ● ●●● ● ●● ● ●● ● ●● ●●●● ●●●●● ●● ● ● ●●
● ● ● ● ●●● ●●● ●●●●● ●●● ● ●● ●●● ● ● ●●● ●●
● ● ● ● ●●● ●● ●●●●●● ●● ●●●●●●●●●●●●●●●● ● ●●●●
●● ●● ● ●● ● ●● ● ● ●●
●
● ● ● ●● ● ● ●●● ●● ● ● ●●●●●●●●●● ● ●●● ● ● ● ●●● ●● ● ● ●
30
● ●●●● ● ●●●●●●●●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●
● ● ●● ●● ● ● ● ●● ●●●●●●●●●●● ●●●●●●●●●●●●● ●● ●●● ●●●●● ●● ●● ●●●● ● ● ● ● ● ●
● ● ●● ●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●● ●●● ● ●●●● ● ● ●●
● ●● ● ● ●● ● ● ●●●●●●●●●●● ●●●●●● ●● ●●●●●●● ●●●●
● ● ●●● ●●● ●●●●●●● ● ●●●●● ●●●●●●●●●● ●● ●● ● ● ● ●
● ● ● ●● ●●●● ●●●●●● ● ●●●●●● ●●●●●●● ●●●● ● ● ●● ● ● ● ●●
● ●●●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●
● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●● ●●●●● ● ●●● ●
0
● ● ●●● ●●●●● ●● ●●● ●●●●●●● ●● ●●● ● ● ● ● ●● ● ●
●
2
0
●● ● ● ● ●●●●●●●●●●●●● ●● ●● ●● ● ●●● ●●●●●●●●●● ● ● ●●

● ●● ●● ● ● ●● ●● ●●●●●●●●● ●● ●●●●●●● ●● ●●● ● ● ●●
●● ●● ● ● ●● ● ●●●●● ●●●●●● ●● ●●● ●● ●
● ●●● ● ●●● ●● ● ● ● ●● ● ●●●●●●●●●●●●● ● ● ● ●
●● ●● ● ●● ●●● ● ● ●●● ● ●●●● ● ● ● ●
● ●●● ● ●●●● ●● ● ● ● ● ●●●● ● ●● ● ●● ●
● ● ● ● ● ● ● ●●●● ● ● ● ● ●●●●● ●● ●
● ● ● ● ● ●●● ● ●
●● ● ● ●●● ● ●●●●●● ●● ● ●● ●●● ●● ● ●
● ●●●● ● ● ● ● ●●●● ●● ● ● ● ● ●● ● ●
● ●●●●● ●●● ●● ● ●●●●●● ●● ● ●●●● ● ● ● ●
● ● ●● ●●●●● ●●● ● ● ● ● ●
● ● ● ● ●●● ●● ●● ● ●
20
● ●●● ●●●●●●●● ●● ●●●
●● ●
−
1
●● ●● ●● ● ●●●●● ●● ●
●● ●● ●● ● ●● ●● ●●●●
●● ● ● ● ● ●● ●●● ●
1
0
●● ● ●●●●●●●● ●●●●● ● ● ● ●
● ● ●●●●●●●● ●● ●● ●●●●●●●●●●● ●
●●● ● ●
● ●● ●● ●●●●● ●●●●●●●● ●●●●●●●● ● ●●
● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●●●
●●● ● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ●●●● ● ●●● ●
● ●●●●●● ●● ●●●●●●●●●●●●●●●● ●●●●●● ●
●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●
● ● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●
●●●
●● ●●●● ●
● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●
●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●
●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●●●●●●●● ●●● ●
● ● ●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●● ● ● ●
● ●●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●
● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●
−20−10 0 10
● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●
● ●●●●● ●● ●●●●●●●●●●●●●●● ●●● ●● ● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●●●●● ●●●●●●
● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●
● ●●●●●●●●●●●● ● ●● ●●● ●
● ●● ●●●●●●●●●●● ●●●●●●●●●●●
● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●●
● ● ● ●●● ●●●●● ●●●●●●● ●●● ● ● 1
0
●●● ●● ● ●
● ●● ●●● ● ● ● ●
●●●●● ●●● ●
● ● ● ●●● ●●● ● ●
●● ● ●
● ●
●
0
●●● ●
●
−
2
0 100 200 300 400

●
500
−20−10 0 10 20
Fig. 2.34. Variogramme du processus, et corrélation linéaire ρ entre deux sites distants de h =
0, 100, 200, 300 et 500 m. Remarquons q u’ à cause de l’effet de pépite, la corrélation n’est
jamais parfaite, y compris pour deux sites infinitésimalement voisins (h ≈ 0).
Le lecteur pourra vérifier les valeurs de corrélation, en utilisant la définition 11 et le théorème 26 :
Cov(Z(x), Z(x + h)) C(h) γ(∞) − γ(h)

ρ(h) = σ(Z(x))σ(Z(x + h)) = C(0) =
γ(∞)
Par exemple, pour h = 200 m, on calcule à l’aide des paramètres estimés : γ(200) = 0.085×200+5.43 =
22.43. Par ailleurs, l’asympote du variogramme est γ(∞) = 41.12, d’ou` la corrélation liant des
observations effectuées en des sites séparés de 200 m :
41.12 − 22.43
ρ(200) = 41.12 45 %
≈
102
2.4.5 Pour aller plus loin
Anisotropie
Si le processus stochastique est anisotrope, son variogramme ne peut plus être décrit par une
fonction d’une seule variable, puisqu’il dépend à present à la fois de la distance h et de l’angle θ
séparant les sites. L’estimation du variogramme expérimental se fait d’une manière analogue à
2.9 mais en ajoutant en plus une discrétisation sur l’angle θ. Formellement : disposant d’un semis
de points d’observations z(x1), z(x2), ...z(xn) d’un phénomène anisotrope Z, on peut estimer le
variogramme de Z par :
1 L i j)
γ�(h, θ) = t 2
z(x ) − z(x ) (2.23)
2|N (h, (i,j)∈N
o u` N (h, θ) désigne l’ensemble des couples d’indices (i, j) tels que les sites xi et xj sont séparés d’une
distance h ± dh suivant une direction θ ± dθ et o u` |N (h, θ)| désigne le nombre de couples contenus
2 2
dans N (h, θ). En gé né r a l 2 directions (0◦ et 90◦) ou 4 directions (0◦, 45◦, 90◦ et 135◦) sont suffisantes15.
Fig. 2.35. Anisotropie d’un processus stochastique : le variogramme expérimental est calculé
dans deux directions orthogonales : verticale (variogramme à effet de trou en vert) et horizontale
(variogramme gaussien ou cubique en bleu). Source : Pyrcz et Deutsch (2003).
Les variogrammes anisotropiques permettent de modéliser des processus géologiques complexes

(strates, failles, couches sédimentaires, etc.) mais peuvent aussi être utilisés pour gérer des
processus spatio- temporels (la coordonnée temps étant en général sujette à un variogramme diff
érent des coordonnées espace) ou encore les espaces non-euclidiens (par exemple localement en
coordonnées géographiques pour prendre en compte la différence de métrique en latitude et
en longitude). Parmi les différents types d’anisotropie, on distingue deux mode caractéristiques
:
• L’anisotropie géométrique, dont les variogrammes sont de palier identiques mais de port
ées différentes suivant les directions, et qui peut être facilement corrigée par un
changement de repère. Dans ce mode d’anisotropie, la variabilité préférentielle du
processus dans certaines directions est souvent due à un mauvais choix de système de
coordonnées.
• L’anisotropie zonale, aux variogrammes de portées identiques mais de palier différents, qui
car- actérise une anisotropie plus intrinsèquement liée au processus, et donc plus difficile à
modéliser.
103
Le lecteur pourra trouver plus d’informations sur ce sujet dans (Allard, 2012).
15
Les angles sont donnés a` une rotation globale près, dépendant de l’orientation du repère.
104
De la validité d’un modèle variographique
Comment savoir si une fonction γ (nulle à l’origine) est un modèle de variogramme licite ?
En théorie, il suffit de s’assurer que γ est conditionnellement définie-négative, i.e. pour tout
n-uplet de points du domaine : (x1, x2, ..., xn) ∈ D et pour tout n-uplet de poids (λ1, λ2..., λn) ∈ Rn :
n n n
L L
λi = 0 ⇒ L λiλjγ(xi − xj) :( 0 (2.24)
i=1 i=1 j=1
Exemple 2.5. Reprenons l’exemple 2.4 de la fonction de Heaviside (fonction échelon unité), dont
nous avions montré empiriquement qu’elle ne pouvait pas être un variogramme. On montre
facilement que
γ˜ ne vérifie pas la contrainte de défini-négativité conditionnelle. En effet, en reprenant les trois
mêmes points x1, x2 et x3, avec ||x1 − x3|| = ||x2 − x3|| < ξ et ||x1 − x2|| � ξ, on peut considérer
le système
de poids : λ1 = λ2 = −1 et λ3 = 2. On a bien λ1 + λ2 + λ3 = 0, et pour autant :
n n
L
L λi λj γ˜(x i − xj) = λ 1 λ 2 γ˜(x 1 − x2) = Γ > 0
i=1 j=1
donc la fonction γ˜ n’est pas CDN, et ne peut donc pas être un modèle de variogramme.
Si la contrainte 2.24 est parfois facile à réfuter, elle est en gé né r al très difficile à vérifier, et on
pourra alors trouver un salut dans les deux théorèmes suivants. Tout d’abord, dans le cas o u` γ
est bornée : si γ est un modèle de variogramme licite, alors on sait que la covariance C doit
exister et la relation fondamentale 26 nous permet d’obtenir son expression. Il suffit alors de v
érifier que C est bien une fonction de covariance licite, et pour cela, on peut utiliser le puissant th
éorème de Bochner :
Théorème 33 (Théorème de Bochner)
Une fonction C : R+ → R+ est la covariance d’un processus stationnaire au sens large si,
et seulement si, elle est la transformée de Fourier d’une mesure positive finie sur R :
C(h) = - eiωhF (dω)
Autrement dit, dans la plupart des cas, pour savoir si une fonction γ quelconque bornée est un
modèle de variogramme licite, il suffit :
• d’évaluer la fonction covariance candidate associée : C(h) = γ(t) − γ(h)

lim
t→∞
• de calculer la transformée de Fourier µ de C (Cottet, 2015) : µ = F[C]

• et enfin, de vérifier que µ est positive sur R.
Remarque : pour calculer la transformation de Fourier sur l’intervalle réel, on symétrise la

105
fonction de covariance candidate : C(−h) = C(h).
106
Linéaire Exponentiel Gaussien A effet de trou
0
0
Variogram
0.8
3
0
0
0
0
0
0
0
0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 5 10 20 30
Covariogramm
0.6
3
0
0
−
−100−50 0 50 100 −100−50
0 0 50 100 −100−50 0 50 100 −30−10 10 30
0
0.
Fouri
0
0
0.
0
0.
−100−50 0 50 100 −100−50 0 50 100 −100−50 0 50 100 −4−2 0 2 4
Fig. 2.36. Pour chaque fonction γ (ligne du haut) dont on souhaite vérifier la validité en tant
que modèle de variogramme, on calcule le covariogramme candidat associé (ligne du milieu), et on v
érifie que sa transformée de Fourier (ligne du bas) est une fonction positive.
On donne en figure 2.36 quatre exemples de vérifications.
Remarque : si C est bien une covariance, F est sa densité spectrale de puissance, c’est-à -
dire la répartition probabiliste des puissances des signaux g é n é r é s par le processus en fonction de la
fréquence. Elle fournit donc de précieuses informations sur le processus.
Exemple 2.6.
nouveau, en reprenant l’exemple 2.4, si γ˜ était un variogramme licite, alors sa co-
A`
variance associée serait ( à un facteur d’échelle Γ près) la fonction porte Πξ, définie
par :
� (2.25)
1 si |h| :(
Π ξ(h) =
ξ0
Fig. 2.37. La fonction échelon unité γ˜ n’est pas un modèle licite de

variogramme.
107
Remarquons qu’il s’agit de la fonction en bas à droite de la figure 2.36. Sa transformation de
Fourier est un sinus cardinal (par symétrie de la transformée de Fourier, on retrouve naturellement la
fonction
108
au milieu à droite sur cette même figure), qui n’est pas une mesure positive. Donc la fonction
porte n’est pas un modèle licite de fonction de covariance, et nous avons à présent montré
rigoureusement que γ˜ ne peut pas être un variogramme.
Et pour les fonctions non bornés ?
Nous l’avons dit précédemment, un variogramme non-borné, est la caractérisation d’un

processus stochastique stationnaire intrinsèque (et non stationnaire au sens large). Sa covariance
n’existe pas et on ne peut donc pas utiliser la méthode ci-dessus. Nous pouvons alors avoir
recours à un second théorème, qui généralise en quelques sortes le théorème de Bochner
(Allard, 2012).
Théorème 34 (Théorème : validité d’un modèle de variogramme)
Une fonction γ : R+ → R+ (éventuellement non-bornée), telle que γ(0) = 0, est le vari-

ogramme d’un processus stochastique stationnaire intrinsèque si, et seulement si la fonction
ψ(h) = e−tγ(h) est une fonction de covariance quelque soit t > 0.
Exemple 2.7. Montrons que la fonction puissance 2.13 : γ : h 1→ hθ est bien le variogramme d’un
processus stochastique intrinsèque. On a bien γ(0) = 0. Par ailleurs, formons la fonction :
( )
ψ(h) = exp − thθ
Traitons alors différents cas en fonction de la valeur de θ :
• θ = 1 : ψ(h) est une fonction exponentielle décroissante (c’est la fonction de la deuxième

colonne de la figure 2.36). Sa tranformée de Fourier est une fonction lorentzienne, donc
positive sur R. Le variogramme linéaire est bien un modèle licite de variogramme.
• θ = 2 : ψ(h) est une fonction gaussienne (c’est la fonction de la troisième colonne de la

figure 2.36). Sa tranformée de Fourier est également une gaussienne, donc positive sur R.
Le variogramme quadratique est bien un modèle licite de variogramme.
Plus généralement, on montre que le modèle de variogramme en puissance est licite pour tout θ ∈
]0; 2]. Allard (2012) propose une méthode ne nécessitant pas le calcul de la transformation de
Fourier, pour
montrer que la puissance θ ne peut pas être supérieure à 2. L’idée centrale du d
éveloppement est de procéder de manière similaire à l’exemple 2.4 de la fonction échelon unité,
en établissant une inégalité triangulaire sur le variogramme. Formellement, en considérant h
et ht deux vecteurs du domaine :
t
1 1t
γ(h + h ) = E Z
)2l 1 1t )2l
− Zx+h+h = E Zx − Z x+h + Zx+h − Z x+h+h
x
12 1t )2 t 2 ) )t
= E Z − Zx+h + Z x+h − Zx+h+h 2 + − Zx+h Z x+h − Zx+h+h )l
x
2 t
2 Zx
[ ]
= γ(h) + γ(ht) + E (Zx − Zx+h)(Zx+h − Zx+h+h )
109
Or, d’après l’inégalité de Cauchy-Schwarz on a :
110
[
E (Zx − Zx+h)(Zx+h − Zx+h+h ) = Cov(Zx − Zx+h, Zx+h − Zx+h+h )
(2.26)
t )
21
:( Var[Zx − Zx+h] × Var[Zx+h − Zx+h+h ]
D’ou` la contrainte d’inégalité triangulaire sur le variogramme :
t ) 1
γ(h + ht) :( γ(h) + γ(ht) + 2 γ(h)γ(ht) 2
(2.27)
En particulier, la fonction échelon unité (2.4) ne respecte pas cette contrainte
( ξ ξ) ( ξ) ( ξ)
2 ) 2= γ˜
puisque : Γ = γ˜(ξ 2+ >2γ˜ + 2γ˜ 2 +
r
( ξ) ( ξ)
2 γ˜ γ˜ =0
De manière plus générale, l’inégalite 2.27 montre que le variogramme ne peut pas croˆıtre plus rapide-
ment qu’une parabole : γ(h) = O(h2). En effet, en considérant h = ht on obtient : γ(2h) :( 4γ(h), et
donc, si γ(h) = hθ, on a (pour h > 0) : 2θhθ :( 4hθ ⇔ θ :( 2.
Il est intéressant de constater que dans le cas limite θ = 2, l’inéquation 2.26 nous montre que les
accroissements du processus sont complètement corrélés, et on aboutit à un cas dé gé né ré o u`
les
réalisations sont rigoureusement des plans inclinés, de pentes aléatoires. Par exemple, on peut
con- sidérer le processus uni-dimensionnel X(t) = At, avec A ∼ N (0, 1). On vérifie alors
facilement que X
est bien stationnaire intrinsèque : E[X(t+h) −X(t)] = E[Ah] = 0 et Var[X(t+h) −X(t)] = Var[Ah] =
h ,2qui est donc bien un variogramme quadratique. Le cas θ = 2 est un modèle licite de variogramme,
mais d’aucune utilité en pratique. Lors de utilisation d’un modèle en puissance, on veillera à
bien contraindre l’ajustement paramétrique de θ dans l’intervalle ouvert ]0; 2[.
Exemple 2.8. La linéarité de la transformation de Fourier nous dit que si C1 et C2 sont deux
fonctions de covariance, alors leur somme C1 + C2 en est une aussi. L’implication est moins triviale
pour les variogrammes, mais les théorème 33 et 34 nous permettent d’arriver à nos fins.
Soient γ1 et γ2 deux variogrammes licites. Considérons la fonction γ : h 1→ γ1(h) + γ2(h). La

condition γ(0) = 0 est trivialement vérif iée puisque γ1(0) = γ2(0) = 0. Par ailleurs, formons la
fonction : ψ(h)
t = exp) −tγ(h) . On a alors : ψ(h)t = exp −t(γ1(h) + )γ2(h)) =t exp −tγ)1(h) exp
t −tγ2(h)
)
= ψ1(h)ψ2(h), o u` ψi(h) est, d’après le théorème 34, une fonction de covariance. Le théorème
33 nous dit
alors qu’il existe deux mesures positives µ1 et µ2 dont ψ1 et ψ2 sont respectivement les transformées
de Fourier. Par analogie de la multiplication et du produit de convolution (dit théorème de
Plancherel), la fonction ψ en tant que produit de transformée de Fourier de fonctions, est aussi la
transformée de Fourier de leur produit de convolution) :
ψ = ψ1 × ψ2 = F[µ1] × F[µ2] = F[µ1 ∗ µ2]

111
Par ailleurs, µ1 et µ2 étant des mesures positives, leur produit de convolution µ = µ1 µ2 l’est aussi
∗
et ψ, en tant que transformée de Fourier d’une mesure positive est une fonction de covariance. A`
nouveau, en utilisant le théorème 34, la fonction γ est donc un variogramme licite. On pourra gén
éraliser ce raisonnement, par récurrence, pour une somme de n variogrammes. Nous avons donc
montré que le variogramme en gigogne 2.28 est valide dè s lors que ses n composantes individuelles
le sont également.
112
2.5 Bilan
Le variogramme, qui indique pour toute distance de séparation h, la variance de la différence
entre deux sites distants de h, caractérise ( à l’ordre 2) le phénomène à étudier. En
particulier, le comportement à l’origine du variogramme traduit la régularité du phénomène
(continuité et dérivabilité) tandis que la valeur numérique de sa portée est un indicateur de la
taille caractéristique des éléments (e.g. vallées, collines) structurant ses réalisations.
On utilise le semis d’observations ponctuelles pour estimer un variogramme expérimental,

moyennant quelques hypothèses théoriques sur le processus étudié, à savoir la stationnarité
et l’ergodicité, ce à quoi on ajoute souvent par commodité l’isotropie. La quantité
d’observations étant toujours insuffisante, on régularise l’estimation avec une bibliothèque de
fonctions paramétriques permettant d’assurer que la fonction estimée possède bien le sens
physique d’une variance statistique. Le modèle de variogramme est choisi par le praticien en
fonction de la structure du variogramme expérimental, ainsi que des connaissances disponibles a
priori sur le phénomène étudié, tandis que les paramètres sont a justés automatiquement
de sorte à minimiser l’erreur d’estimation.
Tous les calculs subséquents (en particulier ceux l iés au krigeage, comme nous allons le voir
dans le chapitre 3) sont menés à partir du modèle de variogramme i n fé ré (cohérence avec la th
éorie, stabilité numérique des matrices, positivité des variances d’estimation...).
113
Chapter 3
Interpolation par Krigeage
Dans ce chapitre, nous traitons le problème modèle é n o n cé dans l’introduction : disposant
d’un semis d’observations d’altitude z1, z2, ...zn en n sites x1, x2, ...xn, déterminer une fonction
interpolante
z : D → R qui en chaque lieu x du domaine retourne une estimation z(x) de l’altitude, avec la con-
trainte que la surface z co¨ıncide1 aux observations au niveau des sites : ∀ i ∈ [1..n], zi = (xi).
Nous l’avons vu précédemment, le krigeage, comme toutes les méthodes de Géostatistique,

aborde le problème d’un point de vue probabiliste, en posant l’hypothèse que la variable r
égionalisée z est une réalisation d’un processus stochastique Z, dont on suppose qu’il
possède les propriétés minimales nécessaires au calcul de son variogramme à partir d’un
semis d’observations ponctuelles.
Nous supposons disposer d’un modèle de variogramme γ dont les paramètres ont é t é estimés
avec les techniques présentées dans le chapitre 2. Le krigeage utilise alors les informations
fournies par γ pour construire un estimateur de variance minimale de z.
Nous montrons en premier lieu et de manière empirique, comment la théorie des processus
stochastiques peut être employée pour traiter le problème d’interpolation. Nous pr
ésentons ensuite les
équations de krigeage et illustrons la méthode à l’aide de plusieurs cas concrets. Nous
concluons enfin le chapitre en présentant quelques variantes et dérivées de la technique.
3.1 Introduction
Pour montrer empiriquement comment les processus stochastiques (et la connaissance fine des
variogrammes associés) peut permettre de résoudre un problème d’interpolation, nous proposons
ci-dessous un activité sur machine. Notons qu’elle requiert un peu plus d’aisance dans le langage
R que les ac- tivités précédentes, mais apporte une perspective intéressante sur les
fondements de ce chapitre.
Activité VI. Une première approche de l’interpolation

Pour en faciliter la prise en main de cette activité, nous progressons pas à pas avec une
correction après chaque question. Par ailleurs, pour rendre le code reproductible (et ainsi
permettre au lecteur d’obtenir exactement les mêmes résultats que ceux présentés en guise de
correction) nous suggérons d’utiliser une graine informatique : set.seed(123). Cette commande, à
insérer tout en haut du code, permet de fixer l’initialisation du générateur de nombres al
éatoires. En conséquence, pour une valeur de graine donnée (ici 123 par exemple), les résultats
obtenus seront identiques sur plusieurs exécutions du code (et ne devrait en principe pas dépendre
de la machine sur laquelle le code est exécuté). A la fin de cette activité, il sera possible de
114
changer la valeur de la graine, ou mêm e de supprimer
1
Nous relaxerons quelque peu cette contrainte par la suite pour modéliser le cas ou` les observations sont imprécises.
La contrainte stipulera alors que la variable zi−z(xi) possède un écart-type égal a` celui de l’erreur entâchant les
observations.
115
complètement cette ligne, pour pouvoir observer différentes réalisations aléatoires.
Dans un premier temps, nous allons programmer un processus stochastique légèrement plus
sophis- tiqué que la marche aléatoire 2.1 de l’activité I. Pour ce faire, nous allons avoir besoin
d’une fonction (qui malheureusement n’existe pas dans la bibliothèque standard de R)
permettent de décaler les
é lém e nts d’un vecteur d’un nombre donné de rangs vers la gauche ou vers la droite :
shift = function(x, lag) {

n = length(x)
xnew = rep(0, n)
if (lag < 0) {
xnew[1:(n-abs(lag))] = x[(abs(lag)+1):n]
} else if (lag > 0)
{ xnew[(lag+1):n] = x[1:(n-lag)]
} else {
xnew = x
}
return(xnew)
}
On pourra trouver plus de détails sur le fonctionnement interne du module shift sur le site
internet de Richards (2016). Pour l’heure, il est suffisant de savoir que, pour un vecteur X =
c(1,2,3,4,5,6) par exemple, l’instruction shift(X,2) va retourner le vecteur X dé c a lé de 2 él
éments vers la droite :
X = [0,0,1,2,3,4]. De même lorsque le paramètre est négatif, shift(X,-3) par exemple, va
retourner le vecteur X dé c a lé de 3 éléments vers la gauche X = [4,5,6,0,0,0].
Cette fonction va nous permettre de construire des versions translatées d’un même signal. Par
exemple, pla¸cons-nous sur l’intervalle [0; 1000] et considérons une fonction gaussienne (ici notée
h) centrée au milieu de l’intervalle, et d’écart-type (l’échelle) 100 :
x = 0:999
h = exp(-((500-x)/100)**2)
Avec la fonction shift, on peut construire des réplications translatées de h :
plot(x,h,type="l") # On trace la gaussienne de base

lines(x,shift(h,150),col="blue",lty=2) # Translation vers la droite (en
bleu) lines(x,shift(h,220),col="blue",lty=2) # Translation vers la droite (en
bleu) lines(x,shift(h,-210),col="blue",lty=2) # Translation vers la gauche (en
bleu)
0
h
0
0
0 200 400 600 800 1000
Fig. 3.1. Tracé de la gaussienne de base (en noir) et de 3 réplications translatées (en pointillés).
116
En général, on appelle noyau une fonction symétrique destinée à être répliquée, translatée
et changée d’échelle. Ici, h est donc un noyau gaussien. On peut alors construire un processus
stochastique en sommant un certain nombre N de réplications de h translatées et amplifiées al
éatoirement :
N
L
Z(x) = xih(x − τi) (3.1)
i=1
o u` xi est distribuée suivant la loi normale standard, et τi est distribuée suivant la loi uniforme
sur la plage des translations possibles [-500; 500].
Q1. Programmer le processus Z sous forme d’une fonction generate prenant en entrée un noyau h
de taille quelconque (dans notre cadre nous travaillerons toujours sur des signaux de taille 1000),
et génèrant une réalisation aléatoire.
generate = function(h){
X =
rep(0,length(h))
for (i in 1:100){
d = sample((-length(h):length(h))/2, 1)
X = X + rnorm(1,0,1)*shift(h,d)
}
return(X)
}
La fonction generate somme 100 réplications de la gaussienne, translatées (fonction sample) et

am- plifiées (fonction rnorm) aléatoirement.
Q2. Sur un même graphique, tracer 5 réalisations du processus Z. On pourra réitérer l’exp
érience en changeant l’échelle du noyau h, par exemple à 50 ou 200.
par(mfrow=c(1,3)) # Pour tracer trois graphiques
h = exp(-((500-x)/200)**2) # Definition du noyau gaussien

1 plot(c(), xlim=c(0,1000), ylim=c(-10,10)) # Initialisation
for (i in 1:5){lines(generate(h), type="l")} # Representation des realisations


Par souci de clarté, on ne représente ci-dessous en figure 3.2 qu’une seule réalisation par graphique.
Re- marquons que la portée d’autocorrélation des processus est, comme on pouvait s’y attendre,
d’autant plus grande que l’échelle du noyau l’est aussi.
Q3. Pour la suite, et jusqu’à la question Q5 nous n’utiliserons que la version d’échelle 100 du noyau.
117
1
1
.
.
0
0
.
.
0
0
.
.
1
0
1
0
1
0
5
5
0
0
−1
−1
−1
0 200 400 600 800 1000 0 200 400 600 800 1000 0 200 400 600 800 1000
Fig. 3.2. Trois réalisations d’un signal aléatoire (en bas) et les noyaux de base associés (en
haut). E´ chelles des noyaux : 200 ( à gauche), 100 (au centre) et 50 ( à droite).
Nous cherchons à présent à estimer une fonction inconnue z sur l’intervalle [0, 1000]. Pour ce
faire, nous disposons de trois observations : z(300) = 1, z(500) = 5 et z(800) = −1, et le problème
est donc réduit à un problème d’interpolation. Nous allons montrer ici qu’il est possible de r
ésoudre ce problème
avec des simulations aléatoires. Commen¸cons par tracer ces données dans un nouveau graphique :
SITES = c(300,500,800)
OBS = c(1,5,-3)
plot(SITES, OBS, pch=16, ylim=c(-10,10))
En utilisant directement la fonction generate, créer 5000 réalisations du processus aléatoire,

et ne représenter dans le graphique que celles qui satisfont les contraintes d’interpolation à ε
près, i.e. uniquement les réalisations z telles que les valeurs prises en chacun des 3 points
observés (vecteur
SITES) soient à une distance verticale inférieure à ε des valeurs observées (vecteur OBS) : |z(xi)−zi|
:( ε. On utilisera une valeur seuil ε = 1.
epsilon = 1
for (i in 1:5000){
if (i %% 1000== 0){print(i)}
X = generate(h)
ok = TRUE
for (j in 1:length(OBS)){
ok = ok && (abs(X[SITES[j]]-OBS[j])<epsilon)
}
if (ok){
lines(X, type="l")
}
}
Quelques explications sur le code ci-dessus : pour chacune des 5000 répétitions, on gé nè r e
une réalisations X. On déclare alors la variable ok permettant de s’assurer que la réalisation
courante X vérifie les contraintes d’interpolation. Pour chaque point de donnée j, on teste la
contrainte. Si cette dernière n’est pas vérifiée sur l’un (ou plus) des points du vecteur SITES,
alors on ne représente pas la réalisation. Notons que l’instruction if (i %% 1000== 0){print(i)}
permet de suivre la trace du calcul en cours, qui peut prendre un certain temps (en fonction des
resources de la machine utilisée).
118
● ●
● ●
● ●
1
0
1
0
1
0
●
5
5
●
●
0
0
−
−
300 400 500 600 700 800 300 400 500 600 700 800 300 400 500 600 700 800
Fig. 3.3.
A` gauche : une réalisation respectant la contrainte d’interpolation à ε près. Au centre : 16
réalisations (sur 5000 tirages) respectant la contrainte d’interpolation. A` droite : 4 réalisations (sur
5000 tirages) respectant la contrainte d’interpolation pour une tolérance plus stricte (ε = 0.5).
Si on le souhaite, on pourra êt re plus exigeant sur la tolérance, en choisissant par exemple ε =
0.5, mais attention, le nombre de solutions chute t rès rapidement à mesure que la tolérance est
plus stricte, comme illustré sur la figure 3.3.
Q4. Toujours pour un nombre total de 5000 réalisations, représenter la courbe moyenne de
l’ensemble des réalisations respectant la contrainte d’interpolation. Formellement, si zi désigne la i-
eme réalisation valide, on calculera la courbe moyenne µ par la moyenne point-à - point des zi :
1 L
n
zi (x) µ(x) = (3.2)
n
i
o u` n désigne le nombre de réalisations respectant la contrainte d’interpolation. Dans la litt
érature de référence, la courbe µ est appellée moyenne d’ensemble. On peut également
calculer les courbes d’incertitude :
L(x) = µ(x) − σ(x) (3.3)

U (x) = µ(x) + σ(x) (3.4)
o u` la fonction σ désigne l’écart-type point-à - point des zi :
1
σ2(x) = n
N L t )2
zi(x) − µ(x) (3.5)
i=1
On complète le code précédent en incrémentant à chaque itération de boucle trois variables

fonction- nelles : la moyenne des courbes (INTERPOLATION), la moyenne des carrés des courbes
INTERPOLATION2 et un décompte des réalisations valides (COUNT).
INTERPOLATION = rep(0,1000)
119
INTERPOLATION2= rep(0,1000)
COUNT = 0
epsilon = 1
for (i in 1:5000){
if (i %% 1000== 0){print(i)}
X = generate(h)
120
ok = TRUE
for (j in 1:length(OBS)){
ok = ok && (abs(X[SITES[j]]-OBS[j])<epsilon)
}
if (ok){
INTERPOLATION = INTERPOLATION + X
INTERPOLATION2= INTERPOLATION2+ X**2
COUNT = COUNT + 1
lines(X, type="l")
}
}
INTERPOLATION = INTERPOLATION/COUNT
INTERPOLATION2= INTERPOLATION2/COUNT
SIGMA = sqrt(INTERPOLATION2- INTERPOLATION**2)
lines(INTERPOLATION, col="red", lwd=2)

lines(INTERPOLATION+SIGMA, col="blue",
lwd=2) lines(INTERPOLATION-SIGMA,
col="blue", lwd=2)
Remarquons que le calcul de la courbe d’écart-type a é t é effectué à partir de la formulation

1.13 de la variance, ne nécessitant qu’une seule itération de boucle sur les données : σ2 = E[z2]
− E[z]2. On obtient alors le résultat de la figure suivante :
1
0
1
0
● ●
5
● ●
O
O
0
● ●
−
−
5
5
−
−
1
300 400 500 600 700 800 300 400 500 600 700 800
SITES SITES
Fig. 3.4.
A` gauche : les 16 réalisations respectant la contrainte d’interpolation et la moyenne
d’ensemble de ces réalisations (en A` droite : le résultat de la procédure d’interpolation :
rouge).
la courbe interpolée (en trait plein vert) et les bandes de confiance (en pointillés). La vraie courbe
(inconnue) se situe probablement dans la zone verte.
Q5. Lorsque le code la question Q4 est opérationnel, réi tér er la procédure d’interpolation pour le
jeu de données suivant (contenant un point supplémentaire) :
SITES = c(300,450,500,800)
OBS = c(1,1,5,-3)
et en générant un total de 100 000 réalisations (l’exécution du code peut alors prendre quelques
minutes). Relancer la procédure pour plusieurs échelles de noyaux, par exemple 100, 50 et 25.
Pour ce faire, il suffit de changer la définition du noyau, de manière similaire au code ayant permi
l’obtention de la figure 3.2 :
121
h = exp(-((500-x)/100)**2) # Definition du noyau gaussien 1
2 h = exp(-((500-x)/25)**2) # Definition du noyau
gaussien 3
1
0
1
0
1
0
5
5
● ●
● ● ● ●
● ●
● ●
●
0
0
−
300 400 500 600 700 800 300 400 500 600 700 800 − 300 400 500 600 700 800
Fig. 3.5. Résultat de la procédure d’interpolation pour 3 noyaux d’échelles différentes :

100 ( à gauche), 50 (au centre) et 25 ( à droite).
Remarque. Pour un noyau d’échelle 200, le jeu de points d’interpolation est trop contraignant
pour pouvoir être facilement interpolé par un processus si régulier. Le programme ne trouve
donc pas de candidat en un temps raisonnable, et on ne peut pas calculer de courbe moyenne.
Nous atteignons malheureusement l à les limites de la méthode par simulation.
Bilan :
Dans cette activité, nous avons montré comment la simulation d’un processus pouvait être
utilisée pour interpoler un semis de points d’observations. Quelques remarques s’imposent
toutefois :
• La solution du problème d’interpolation est une courbe moyenne des réalisations.

D’après les propriétés statistiques de la moyenne, nous pouvons dire qu’il s’agit de la
courbe qui minimise l’écart quadratique moyen de l’estimation par rapport à la vérité.
Nous verrons par la suite que le krigeage fonctionne de manière similaire : il propose la
solution minimisant la variance de l’erreur d’estimation. Le calcul sera cependant
effectué algébriquement et ne nécessitera donc pas de simulations.
• Le recours à la simulation permettra toutefois (et moyennant un couˆ t de calcul important)

de contourner quelques limitations du krigeage. Nous verrons cela plus en détail dans la
partie consacrée aux simulations conditionnelles dans le chapitre 4.
• La figure 3.5 nous montre l’importance de bien modéliser le variogramme du processus

stochastique. Ici, pour trois variogrammes de portées différentes (i.e. pour trois processus g
é né ré s par des noyaux d’échelles différentes), nous obtenons trois interpolations
122
sensiblement différentes. Concrètement, employée avec un variogramme de mauvaise qualit
é (i.e. peu fidèle à la réalité), les techniques de Géostatistique de ce chapitre 3 ne
donneront pas de résultats sensiblement meilleurs que les techniques d’interpolation non-
probabilistes (splines, etc).
• Le graphique de droite de la fig. 3.5 r é vè l e une limite naturelle de la méthode. Si le

semis d’observations est trop lâche par rapport à la p ortée du variogramme,
l’interpolation donne des résultats très médiocres entre les sites d’observation. C’est
naturel, par exemple en x = 650,
123
les deux sites d’observations les plus proches (500 et 800) sont situés bien au-delà de la port
ée du variogramme (qui est de l’ordre de 3 fois le facteur d’échelle du noyau gaussien, soit
environ 75). L’estimation n’a donc pas d’autre choix que de retourner l’espérance a priori
du processus, à savoir 0. Nous verrons un phénomène similaire lorsque nous parlerons du
krigeage simple (3.7.1).
• Le graphique de gauche de la fig. 3.5 nous le montre clairement : l’interpolation n’est pas
convexe, autrement dit, les valeurs estimées peuvent être au dessus ou en de¸ca des valeurs
extrêmes des observations, ce qui est une propriété souhaitable que ne partagent pas,
par exemple, les méthodes plus basiques telles que l’interpolation linéaire ou en inverse
des distances.
3.2 Les contraintes du krigeage

Le krigeage est une technique géostatistique d’estimation locale, initialement mise au point par Danie
G. Krige en 1951 et théor isé plus par Georges Matheron (1962). Il permet d’estimer la valeur
prise par la variable régionalisée en un site non-échantillonné, en tenant en compte des corr
élations avec les valeurs prises en d’autres sites. C’est donc une méthode probabiliste
d’interpolation de données, qui contrairement à ses homologues déterministes, présente
l’avantage de quantifier également l’incertitude formelle de l’estimation en chaque point.
L’interpolation par krigeage est intrinséquement liée à l’analyse variographique du phénomène à

étudier mais n’est pas sa seule application pratique, nous en verrons d’autres dans le chapitre 4.
Nous avons vu dans l’activité VI comment la définition d’un processus stochastique permet, par
moyennage d’un ensemble de simulations, d’interpoler un semis de points d’observation. La
solution obtenue peut alors être considérée comme la plus représentative (ou la plus centrale
plutôt devrait-on dire) d’une collection de variables régionalisées passant toutes par les points à
interpoler et possédant les propriétés statistiques (moyenne et covariance) du processus mod
élisant le phénomène. C’est à peu de chose près ce que propose de faire le krigeage avec une
différence capitale2 toutefois : le krigeage pose algébriquement les contraintes souhaitées sur
la solution, et la résolution du problème se fait donc à l’aide des techniques matricielles
classiques.
Dans la présentation qui suit, nous montrons comment interpoler la fonction en un point x pr
écis du domaine d’étude. La résolution complète du problème d’interpolation nécessitera
alors d’itérer la méthode sur une grille de valeurs, comme nous le ferons dans l’activité VIII.
3.2.1 Contrainte de linéarite

Moyenne et covariance ne sont que les 2 premières composantes d’une représentation de la loi
de probabilité à base de moments. Lorsqu’on décide de ne travailler qu’avec ces deux quantités,
on opère en quelques sortes une linéarisation de la loi complète du processus. Avec cette
information réduite, il devient alors impossible de manipuler des quantités qui ne soient pas des
combinaisons linéaires de variables aléatoires. Par conséquent, le krigeage ne peut être qu’un
estimateur linéaire :
2
Nous verrons d’autres différences plus précisemment dans le chapitre 4
124
Contrainte 1 (Linéarité)
La valeur �
z(x) interpolée au site x est une combinaison linéaire des observations :
Ln T
z�
(x) =w z(x )ii = W Z
i=1
o u` wi ∈ R correspond au poid affecté à l’observation z(xi).
Pour une résolution matricielle du problème, nous noterons : W = [w1, w2, ..., wn]T , le vecteur
de Rn contenant les poids de la combinaison linéaire, et Z = [z(x1), z(x2), ..., z(xn)]T le vecteur de Rn
contenant (dans le même ordre) les observations. Intuitivement, plus une observation sera proche
du site à interpoler, plus elle aura des chances de recevoir une pondération importante. Cette
formulation paraˆıt assez peu rigoureuse : en pratique, et c’est l à un atout du krigeage, la valeur du
poids affecté à une observations va aussi dépendre de la configuration géométrique de toutes
les autres observations. En particulier, une observation proche mais redondante peu recevoir un
poids plus faible qu’une observation plus lointaine mais isolée.
Dè s lors, l’objectif du problème est clair : � estimer z(x) revient à estimer le vecteur W.
Attention : ce vecteur W va dépendre du point x sur lequel on réalise l’interpolation ! En toute
rigueur, on devrait
écrire W(x), mais nous ferons abstraction de x pour ne pas alourdir la présentation.
Remarquons qu’aucune contrainte n’impose que les poids wi soient positifs. Imaginons un instant
le cas d’un étudiant qui calcule la moyenne de ses deux notes 10 et 15, avec les coefficients
respectifs
-1 et 2, comme si la première note était en quelques sortes répulsive. On dit que le krigeage
est un estimateur non-convexe3 ce qui est une propriété très intéressante pour une
interpolation, comme nous le verrons plus loin.
La solution z�(x) obtenue est appelée valeur krigée en x.
3.2.2 Contrainte d’autorisation

C’est certainement la moins intuitive des 4 contraintes, certainement parce qu’elle ne semble pas
présenter d’intérêt au premier abord. La contrainte précédente implique que, une fois les
poids wi déterminés, l’erreur d’estimation en x s’exprime par :
z(x) − z(x) = wi zi − z0 (3.6)

� i=1
L la qualité du krigeage, on doit être capable de calculer

Pour pouvoir contrôler statistiquement
la moyenne et la variance de cette erreur. En effet, si la variance ne peut s’exprimer, comment
peut-on avoir des garanties sur l’exactitude du résultat ? Calculer une solution munie d’une
variance infinie n’a aucun sens en pratique, et ne présente guère plus d’intérêt que d’essayer
de deviner à l’aveugle la valeur à estimer. Il est donc important de s’assurer que la combinaison
linéaire 3.6 possède une espérance et une variance finies. Une telle combinaison est dite
autorisée.
3
En géométrie, un ensemble est dit convexe lorsque 2 de ses points quelconques peuvent toujours être reliés en
ligne droite sans sortir de l’ensemble. Un disque par exemple est un ensemble convexe, contrairement a` un croissant de
lune. Ici, dire que l’estimateur est convexe signifierait que les valeurs qu’il prend son comprises entre la plus basse et la
plus haute des valeurs observés. Clairement, l’interpolateur du graphe de gauche de la fig. 3.2 est non-convexe.
125
Contrainte 2 (Autorisation)
L’erreur d’estimation Z�(x) − Z(x) doit être d’espérance et de variance finies.
Lorsque le variogramme est borné, nous l’avons dit précédemment, le processus est
stationnaire au sens large, sa covariance existe et on peut la relier au variogramme par la relation
fondamentale 26. Le t héorèm e 12 de propagation des incertitudes, nous montre alors comment
calculer la variance d’une combinaison linéaire à l’aide de la matrice de covariance. La contrainte
d’autorisation ne pose donc aucun problème. En revanche, nous verrons plus loin dans la section
3.3.2 que lorsque le variogramme diverge vers l’infini (i.e. quand le processus vérifie seulement
l’hypothèse plus faible de stationnarité intrinsèque), seules certaines combinaisons de poids sont
autorisées. Plus précisément, nous verrons que les combinaisons linéaires autorisées
forment un sous-espace vectoriel de Rn.
Remarque : la contrainte d’autorisation n’a donc d’implication pratique que pour les
variogrammes non-bornés. Elle ne doit pas être négligée pour autant, car c’est elle qui garantit
la validité statistique des calculs.
3.2.3 Contrainte d’universalité

On souhaite que l’estimateur ne produise pas d’erreur systématique. Statistiquement, on cherche donc
que l’espérance de l’erreur (signée) soit nulle.
Contrainte 3 (Universalité)
L’erreur d’estimation doit être nulle en moyenne : E[Z�(x) − Z(x)] = 0.
Autrement dit, sur un nombre infini de répétitions de l’expérience, la moyenne des valeurs estim
ées par le krigeage est exactement égale à la valeur réelle.
Algébriquement, cette contrainte se traduit par :
n
E[Z� (x) − Z(x)] 1
n l L
=E wiZ(xi) − E[Z(x)] = wiE[Z(xi)] − E[Z(x)]
i=1
L
i=1
L (
n n ) Ln
= wiE[Z] − E[Z] = w − 1 =0 ⇔ wi = 1
L i
i=1 E[Z] i=1
i=1
La contrainte d’universalité impose donc que la somme des poids soit égale à 1. Soyons clair quant
à l’implication pratique : si le variogramme est borné, le processus est stationnaire au sens
large, la contrainte d’autorisation n’a aucun effet, mais la contrainte d’universalité impose de
travailler avec des combinaisons de poids total unitaire. Si le variogramme est non-borné, le
processus est seulement intrinsèquement stationnaire, et dans ce cas, les contraintes d’autoraisation et
d’universalité ont toutes deux pour effet d’imposer que la somme des poids soit unitaire.
Ayant fixé cette contrainte de non-biais, seule la composante de variance va déterminer la qualité
de l’estimateur, comme le montre la formulation 1.13 de l’erreur quadratique moyenne. C’est pr
écisemment le rôle de la quatrième et dernière contrainte de minimiser cette quantité.
126
3.2.4 Contrainte d’optimalité
Parmi tous les estimateurs qui sont des combinaisons linéaires autorisées et sans biais on retient celle
qui minimise la variance de l’erreur.
Contrainte 4 (Optimalité)
La variance de l’estimateur Var[Z�(x) − Z(x)] doit être minimale.
Empiriquement, on peut dire qu’on cherche l’estimateur le plus précis possible.
3.2.5 Formulation du problème

En combinant les quatre contraintes précédentes, on recherche un estimateur qui soit une
combinaison linéaire autorisée, non-baisée et dont l’erreur est de variance minimale. Dans la
littérature anglo-saxonne, on rencontre fréquemment l’acronyme d’estimateur BLUE, pour Best
Linear Unbiased Estimator, qui fournit un bonne astuce mnémotechnique, mais qui possède l’inconv
énient de reléguer la contrainte d’autorisation au secon plan.
Remarquons que ces quatre contraintes sont emb oˆıtées : le contrainte d’autorisation ne permet
de travailler qu’avec des combinaisons linéaires, ce qui suppose donc implicitement que la
contrainte de linéarité est vérifiée. Les contraintes d’universalité et d’optimalité requièrent
quant à elles de pouvoir calculer les deux premiers moments de l’erreur d’estimation, ce qui suppose la
contrainte d’autorisation. Enfin, la variance de l’erreur d’estimation, que minimise la contrainte
d’optimalité, n’est vraiment un indicateur de la précision que si l’erreur est de moyenne nulle, ce
qui suppose donc que la contrainte d’universalité est elle aussi vérifiée.
D’un point de vue mathématique, la recherche de la combinaison optimale W∗ s’écrit sous forme
d’un problème de mininimisation sous contrainte :
1
n l Ln
W∗ argmin Var wiZ(xi) − z(x) sous la contrainte : wiZ(xi) = 1 (3.7)
∈ W∈Rn i=1
L
i=1
o u` argmin f (x) désigne l’ensemble des valeurs x telles que la fonction f (x) est minimale :
{ }
argmin
x f (x) = x ∈ A | ∀ y ∈ A, f (x) :( f (y)
Notons que cet ensemble n’est pas nécessairement réduit à un élément. Si c’est le cas, les contraintes
de krigeage suscitées ne préconisent que le choix arbitraire d’une solution optimale (parmi
potentiellement de nombreuses autres). En pratique, excepté dans quelques cas pathologiques
(par exemple lorsque deux sites sont confondus), la solution du problème est unique.
127
3.3 Le krigeage
Le problème 3.7 se résout à l’aide des multiplicateurs de Lagrange, dont nous effectuons un bref
rappel ici. Pour plus d’information, on pourra consulter le cours d’optimisation de Dumont et al.
(2019).
Considérons deux fonctions réelles à p variables x = (x1, x2, ...xp) Rp : une fonction objectif
∈
(aussi appelée fonction de co uˆ t ) : f : Rp R, ainsi qu’une fonction contrainte g : Rp R. Le
→
problème suivant, consiste à minimiser f sur Rp, sous la contrainte g :
x∗ argmin f (x) sous la contrainte : g(x) = 0 (3.8)

∈ x∈Rp
On suppose que f et g possèdent des dérivées partielles, et on note L : Rp+1 → R la fonction

lagrangienne :
L(x, λ) = f (x) − λg(x) (3.9)
o u` λ est un réel appelé multiplicateur de Lagrange. On utilise alors le théorème suivant :
T hé o rè m e 35 (Minimisation par multiplicateurs de Lagrange)
Si x0 est un point d’extremum local de f , aussi appelé point stationnaire, alors :
∇L(x0) = 0
Remarque : est l’opérateur gradient, qui à une fonction dérivable f prenant p variable en
∇
entrée, associe le vecteur de Rp de ses p dé rivées partielles :
∂f
∂x1
 ∂x∂2 
∇ : f 1→  
∂f.
∂xp

Considérant ∇f comme un vecteur de l’espace à p dimensions, le théorème 35 nous dit que,

qu’en un point x0 solution du problème, il existe un réel λ tel que ∇f (x0) = λ∇g(x0), autrement
dit, le gradient de la surface à minimiser est perpendiculaire à la ligne de contrainte, comme
l’illustre la figure 3.6.
C’est assez intuitif, si ce n’était pas le cas, il serait possible de réduire davantage la fonction
objectif en se dépla ¸cant sur la ligne de contrainte, ce qui est contradictoire puisque x0 est un
minimum local.
Remarque : le théorème 35 ne donne que les conditions nécessaires. Une fois les points
stationnaires trouvés, on doit en théorie vérifier que l’un d’eux est bien un extrema.
Exemple 3.1. En guise de mise en pratique, considérons une nappe de terrain (infinie) de la
forme d’un parabolo¨ıde de révolution, et définie par l’équation : z = f (x, y) = x2 + y2. Nous
savons qu’une ligne à haute tension parcours le terrain en ligne droite suivant l’équation y = 2x
+ 75. Déterminer un point minimal de cette ligne.
128
On pose g, la fonction de contrainte définie par : g(x, y) = y − 2x − 75. On forme alors le lagrangien,
à 3 paramètres x, y et le multiplicateur de Lagrange
1 λ:
L t )
L(x, y, λ) = f (x, y) − λg(x, y) = x2 + y2 − λ y − 2x − 75
  2y − λ
On calcule alors le gradient de L : ∇L(x, y, λ) = ∂
2x + 2λ
∂x
 ∂∂y  = 

L
∂ y − 2x −
∂
On résout enfin l’équation vectorielle ∇L(x, y, λ) = 0 pour obtenir une solution : x∗ = (−30, 15).
2500
2000
1500
4
500
●
2
0
−40−
−40−20 0 20 40
Fig. 3.6. Le terrain f (isolignes noires), la contrainte g (en rouge) et le point optimal x∗ = (∗ 30,
15). On voit clairement, que le gradient du terrain est orthogonal à la ligne de contrainte en−x .
Dans le cadre du problème initial 3.7, la fonction f correspond à la variance de l’erreur

d’estimation, et la fonction g traduit la contrainte imposant que la somme des poids soit nulle. En
notant zi = z(xi) les relevés effectués au niveau des sites, on forme alors le lagrangien L : Rn+1 →
R:
L(w1, w2, ...wn, λ) = n l n )

− (
Var wiZi − z0 wi − 1 (3.10)
i=1 2λ L
i=1
o u` λ ∈ R est un multiplicateur de Lagrange, variable latente inconnue du problème. Le facteur

2 devant le λ est purement arbitraire, et permettra par la suite de simplifier les calculs.
3.3.1 Le krigeage ordinaire

Supposons dans un premier temps que Z est un processus stationnaire au sens large. On peut alors
utiliser la covariance et en vertu du t héorème 26 on : C(h) = C(0) − γ(h), o u` C(0) = Var[Z] est
le palier du variogramme. D ’ o u` :
1 l 1 l ( ) Ln n
VarL wiZi − Z0 = VarL wiZi + Var[Z0] − L wi Zi , Z0 = wiwjCov(Zi, Zj)
n n n L
2Cov
i=1 i=1 i=1 i=1 j=1
n n n n
129
L L L t ) L t
+Var[Z] − 2 wiCov(Zi, Z0) = wi wj Var[Z] − γ(hij) + Var[Z] − 2 wi Var[Z] − γ(hi0))
i i=1 i
130
o u` hij désigne la distance entre les sites d’observation xi et xj. De même hi0 désigne la distance
entre le site d’observation xi et le site x sur lequel on souhaite calculer l’estimateur. En
L, L,
remarquant que i L,wiL,
wj Var[Z] = Var[Z] L, L,wiwj = Var[Z] wi( wj) = Var[Z] wi
j i j i j i
L,
= Var[Z], puisque
les sommes de poids valent 1, et en abrégant γij = γ(hij), on obtient :
1 l L L wi Var[Z] + 2
wi wj γij + Var[Z] − 2
Var L wi Zi − Z0 = wi wj Var[Z] − L L wiγi0
n L n Ln n n n n
i=1 i=1 j=1 i=1 j=1 i=1 i=1

n n n n n n
L L L L L L
= Var[Z] − wiwjγij + Var[Z] − 2Var[Z] + 2 wiγi0 = 2 wiγi0 − wiwjγij
i=1 i i i=1
En ajoutant le terme de contrainte, nous obtenons une expression plus explicite du lagrangien :
L(W, λ) = 2
L L L ( )
n
wiγi0 − n n wiwjγij − wi − 1
L
2λ n
i=1 i=1 j=1 i=1
Il ne reste alors plus qu’à calculer les dérivées partielles (en wi et λ, soit n + 1 dérivées au total). La d
éri vé e partielle par rapport à un poids wi arbitraire s’écrit :
∂L n
∂wi = L
−2 wjγij − 2λ
2γi0 j=1
En divisant cette équation par 2, puis ajoutant l’équation sur la déri vée partielle en λ on
obtient le système d’équations de krigeage de n + 1 équations à n + 1 inconnues :
∂ =γ − wjγij − λ = 0
�∂wLi L,n i0
L,n (3.11)
∂L j
= w i− 1 = 0
∂ i
Remarquons que la dernière équation n’est rien d’autre que la contrainte de somme des poids
unitaire (contrainte d’autorisation et/ou d’universalité). La résolution de 3.11 s’effectue
finalement
à l’aide de l’algèbre linéaire : on note Γ ∈ Rn×n la matrice des variances entre sites observ
és : Γij = γij = γ(hij) = γ(||xi − xj ||) ∀ i, j ∈ [1..n]
γ11 γ12 ... γ1n 

γ21 γ22 ...
 γ2n 

Γ=
... ... ... ...
131
γn1 γn2 ... γnn
Grâce à la modélisation variographique, cette matrice Γ possède nécessairement les propriétés alg
ébriques adéquates, et nous n’aurons pas de mauvaise surprise par la suite.
132
De même on note Γ0 ∈ Rn le vecteur des variances entre les sites observés et le site à estimer x0 :
[ ]T
Γ 0= γ 10
γ 20
... γ
On vérifie alors facilement que 3.11 s’écrit matriciellement sous la forme :
−1
Γ 1 W Γ 1 Γ0
1
T
0 = Γ0 W T
0
λ ⇒ = 1 1
1 λ
o u` 1 = [1, 1, ...1]T est un vecteur colonne contenant n fois la valeur 1.
Remarque : la matrice à inverser ne dépend que des configurations des sites d’observation. Elle peut
donc être inversée une fois pour toutes en amont de la procédure d’interpolation.
On récupère alors les n premières composantes du vecteur solution : w1, w2, ...wn et on peut calculer
l’estimateur du krigeage en x par :
n
z(x) = wiz(xi) (3.12)
� i=1
L
La variance de l’erreur associée, appelée variance de krigeage, s’exprime par :
n n n
L L L L
Var[Z� (x) − Z(x)] = 2 wiγi0 − wiwjγij = wiγi0 − λ (3.13)
i i=1 i
o u` la dernière égalité résulte d’une transformation opérée grâce à la première équation du système
3.11.
Elle traduit la précision de l’estimation, au sens de l’écart quadratique moyen entre la variable estim
ée et la valeur vraie au site considéré. Elle dépend donc naturellement du site sur lequel
l’interpolation est effectuée. Intuitivement, plus le site est éloigné des observations, plus sa
variance va être élevée.
Remarquons que la variance d’estimation en un site ne dépend que de sa configuration géom

étrique relativement aux autres sites, et non des valeurs observées. La variance peut donc être
calculée a priori, avant d’effectuer les observations sur le terrain, ce qui constitue un atout ind
éniable pour valider en amont les plans d’expérimentation.
3.3.2 Le krigeage intrinsèque

Qu’en est-il dans la cas strictement intrinsèque ? Le passage du variogramme à la covariance
grâce au t héo rè me 26 n’est plus possible, et on doit de surcroix s’assurer que les
combinaisons linéaires manipulées sont autorisées, comme le stipule la contrainte 2. On
considère l’erreur de l’estimation
3.6. Remarquons qu’il s’agit bien d’une combinaison linéaire des observations (Z1, Z2, ...Zn, Z0) par
133
les poids (w1, w2, ...wn, −1).
134
Pour pouvoir calculer l’espérance et la variance de cette quantité, on doit être capable
d’exprimer variables aléatoires sous forme d’accroissement, i.e. sous la forme Zi − Zj avec i et j
deux indices quelconques, puisque sous l’hypothèse intrinsèque, l’existence de l’espérance et de la
variance ne sont
garanties que pour les accroissements. On vérifie facilement que ceci n’est possible que si la
somme des poids de la combinaison est nulle. En effet, dans ce cas, la somme des wi est n
écessairement égale
à 1 et on peut écrire :
n n n n
L L L L
ε= wiZi − Z0 = wiZi − wiZ0 = wi(Zi − Z0)
i i i i
Sous cette formulation, on dérive facilement l’expression de l’espérance de l’erreur d’estimation :
n l L
1 n
wiE[Zi − Z0] = 0
E[ε] = E wi(Zi − Z0 ) =
i=1
L
i=1
o u` la seconde égalité résulte de la linéarité de l’espérance et de l’existence des espérances des

accroissements Zi −Z0, tandis que la dernière égalité résulte de la stationnarité de ces
accroissements. On peut faire de mêm e pour la variance :
1
n l 1 n )2 l
Var[ε] = Var
wi(Zi − Z0) = wi(Zi − Z0)
t
L E
i=1 L i=1
L l LL [ ]
=E 1 n wn w (Z − Z )(Z − Z ) = n w
i j i 0 j 0
n w E (Z − Z )(Z − Z )
i j i 0 j 0
i=1 i=1 i=1 i=1
L
[ ]
Pa[ r ailleurs, o]n p eu[ t écrire : 2]γij = V[ ar[Z i −Zj ] = Var[Z]i −Z0 + Z0 −Zj ] = E (Zi −Z0 + Z0 −Zj)2 =
E (Zi − + E (Zj − − 2E (Zi − Z0)(Zj − et
[ ]
E (Zi − Z0)(Zj − Z0) = −γij + γi0 + γj0
En substituant dans l’expression de Var[ε], on obtient une formulation ne dépendant que de γ :
n n n n n n n n n n
L L L L L L L L L L
Var[ε] = wiwjγi0 + wiwjγj0 − wiwjγij = wiγi0 + wjγj0 −
wiwjγij i=1 i=1 i=1 i j i=1
Et donc, en faisant le changemente de la variable muette j 1→ i dans la seconde sommation, on obtient :
n n n
L L L
Var[ε] = 2 wiγi0 − wiwjγij
i i=1
135
On retrouve exactement l’expression 3.13 de la variance d’erreur d’estimation du krigeage
ordinaire. L’équation lagrangienne à minimiser sera donc exactement la même et on peut
conclure :
Le krigeage ordinaire (i.e. sous l’hypothèse de stationnarité au sens large du processus) et le

krigeage intrinsèque (sous l’hypothèse plus faible de stationnarité des incréments du processus)
ont exactement la mê m e solution lorsqu’elle est exprimée en termes de variogramme.
On comprend ici que le variogramme est un outil plus générique que la covariance.
Remarquons toutefois une différence dans le sens donné aux contraintes : dans le cas
stationnaire, la contrainte d’autorisation n’a aucun impact, puisque toutes les combinaisons lin
éaires sont autorisées. En revanche, la contrainte d’universalité stipule que la somme des
poids doit valoir 1 pour que l’estimateur soit non-biaisé. Dans le cas intrinsèque la contrainte
d’autorisation stipule que les combinaisons linéaires dont on souhaite exprimer l’espérance ou la
variance doivent être de poids total nul (afin de pouvoir les exprimer comme des incréments).
Pour pouvoir calculer la variance de l’erreur, la somme des poids total doit donc valoir 1 et la
contrainte d’autorisation est redondante avec la contrainte d’universalité.
Au passage, on peut mener les mêmes développements pour une combinaison linéaire quelconque
des observations, et on trouve :
1 Ln l Ln L
n
Var wiZi =− wiwjγij (3.14)
i=1 i=1 j=1
La variance étant une quantité nécessairement positive, on retrouve la contrainte 2.24 de défini- n
égativité conditionnelle du variogramme :
n n n
L L
wi = 0 ⇒ L wiwjγij :( 0
i=1 i=1 j=1
3.4 Mise en oeuvre du krigeage

Dans cette section, nous voyons des exemples pratiques d’interpolation par krigeage à partir d’un
semis de points d’observation, dans un premier temps en mode local (une seul estimation) et à la
main (ac- tivité VII). Nous verrons un exemple plus opérationnel par la suite, dans lequel nous r
ésolverons le problème modèle et construirons notre premier MNT par krigeage (activité
VIII).
La méthodologie est la suivante (en supposant que γ est un modèle de variogramme licite, dont
les paramètres ont é t é estimés éventuellement à partir d’un variogramme expérimental) :
• Calcul de la matrice H contenant toutes les distances hij = ||xi − xj || entre les sites observés
(en général, cette matrice a dé j à é t é évaluée précédemment lors de l’estimation du
variogramme expérimental), et du vecteur H0 contenant les distances hi0 = ||xi − x0|| entre les
sites observés et le site à interpoler.
• Transformation de H et H0 par la fonction γ : Γ = γ(H) et Γ0 = γ(H0).
136
• Formation de la matrice A en complétant H par une colonne et une ligne de 1 et en ajoutant
un 0 dans le coin inférieur droit.
• Formation de la matrice B en complétant le vecteur H0 par un 1.
• Calcul de la solution X du système : AX = B et récupération de ses n premiers él

éments dans un vecteur colonne de poids W.
• Calcul de l’estimation par le produit scalaire : z(x ) = WT Z
� 0
• Calcul de la variance d’estimation associée : σ2 = WT Γ0 − λ, o u` λ est le dernier terme de X.
Activité VII. Un krigeage en 7 lignes de code

On considère le jeu de données, composé de 5 sites x1, x2, ...x5 disposés comme représenté sur
la figure 3.7 ci-dessous. Une observation zi (d’un phénomène quelconque Z) a é t é relevée sur
chaque site xi.
Fig. 3.7. On donne 5 points d’observation. L’objectif du problème consiste à estimer z0.
Par ailleurs, on donne les distances hij entre les 5 sites dans une matrice H :
0.0 24.2 30.5 44.0 46.3 
24.2 0.0 33.0 47.4 36.2
H= 30.5 33.0 0.0 14.8 22.1 

44.0 47.4 14.8 0.0 25.7 

46.3 36.2 22.1 25.7 0.0
[ de 33 m. On donne également
Par exemple, H23 = 33 signifie que les sites xi et xj sont distants ] les
distances hi0 entre ces 5 sites et le site à interpoler : H0 = 20.6 19.0 14.4 29.1 25.8 T . Nous
utiliserons un variogramme linéaire avec palier :
�
h si h :(
γ(h) =
40 (3.15)
40 sinon.
Toutes les opérations effectuées ci-dessous peuvent être reproduites par le lecteur, à l’aide d’un
langage de programmation disposant des fonctionnalités classiques d’algèbre linéaire (somme,
produit et
137
inversion de matrice notamment). Le code R correspondant est donné à la fin de ce paragraphe.
On calcule tout d’abord la matrice Γ = γ(H), ce qui consiste simplement à seuiller les éléments
supérieurs à 40. On forme ensuite la matrice A en complétant Γ avec une colonne de 1, une
ligne de 1 et un 0 dans le coin inférieur droit.
 0.0 1 
 24.2 30.5 40.0 40.0
0.0 24.2 30.5 40.0 40.0 24.2 0.0 1
24.2 0.0 33.0 33.0 40.0 36.2
 40.0 36.2   
Γ = 30.5 33.0 0.0 22.1 30.5 33.0 0.0 14.8 22.1 1
14.8  A=

40.0 40.0 14.8 25.7 40.0 40.0 14.8 0.0 25.7 1
0.0 40.0 1 
 36.2 22.1 25.7 0.0 
40.0 36.2 22.1 25.7 0.0
1 1 1 1 1 0
Par souci de clarté, on figure en gras les éléments ajoutés ou modifiés à chaque étape
du calcul. On effectue alors la mêm e opération pour le vecteur H0 :

[ ]
Γ0 = γ(H0) = 20.6 19.0 14.4 29.1 25.8 T
[ ]T
B = 20.6 19.0 14.4 29.1 25.8 1
On résout informatiquement le système AX = B, en rappelant que X = [WT , λ]T est un vecteur

composé des n = 5 poids et du multiplicateur de Lagrange :
[ ]T
X = A−1B = 0.195 0.304 0.553 −0.147 0.093 −1.501
[ ]T
W = 0.195 0.304 0.553 −0.147 0.093
L’estimation finale s’obtient alors immédiatement par combinaison linéaire :
5
T
z(x0) = W Z = wizi ≈ 12.7
� i=1
L
ainsi que l’écart-type associé : σ2 = WT Γ0 − λ = 17.38 = 4.16
Le résultat final de l’estimation est donc�z(x0) = 12.7 ± 4.16. Notons que l’écart-type associé est
relativement é le vé, ce à quoi on pouvait s’attendre étant donné le faible nombre d’observations
disponibles.
Comment interpréter la variance de l’erreur d’estimation en pratique ? C’est une question qui
n’admet pas de réponse pleinement satisfaisante. Le phénomène é t ud ié et le jeu de données
à disposition sont par nature uniques, et la notion de variance d’une estimation autour de sa valeur
vraie ne fait pas nécessairement sens. En statistique classique, on p rè fè r e souvent exprimer
l’incertitude sous la forme d’un intervalle de confiance : par exemple, on dira qu’avec une risque de
5%, l’altitude en un point x0 du terrain vaut z� plus ou moins une marge d’erreur ∆z. Cependant,
pour définir l’intervalle de
138
confiance, on doit connaˆıtre la loi de probabilité de l’estimateur, ce qui en Géostatistique est
impossible du fait de la complexité de cette loi. On peut alors poser l’hypothèse (plus ou
moins valide en fonction des situations) que l’erreur d’estimation est distribuée suivant une loi
normale. La largeur de l’intervalle de confiance est alors complètement déterminée par l’écart-
type. En particulier, pour un risque de 5%, on ∆z = 1.96σ. Dans cet exemple pédagogique on a σ =
4.16, et donc on pourra dire qu’avec un taux de confiance de 95%, la valeur vraie est comprise entre
4.38 et 21.02.
On donne ci-dessous le code R permettant de reproduire les calculs. Notons que la multiplication
matricielle s’écrit avec l’opérateur %*%.
Script 8. Un krigeage en 7 lignes de code [code6.r]
#
# Donnees #
H = matrix(
c(0.00, 24.2, 30.5, 44.0, 46.3,
24.2, 0.00, 33.0, 47.4, 36.2,

30.5, 33.0, 0.00, 14.8, 22.1,
44.0, 47.4, 14.8, 0.00, 25.7,
46.3, 36.2, 22.1, 25.7, 0.00),
nrow=5, ncol=5)
h = matrix(c(20.6,19.0,14.4,29.1,25.8), nrow=5, ncol=1) Z = matrix(c(10,11,15.5,17,14), nrow=5,
#
# Variogramme H[which(H > 40)] = 40

h[which(h > 40)] = 40
# Completion de 1 et 0 A = rbind(H,rep(1,5))
A = cbind(A,c(rep(1,5),0))
B = rbind(h,1)
# Resolution
W = solve(A,B)[1:5] z0 = (W%*%Z)[1]
Remarquons que les instructions solve(A,B) et solve(A)%*%B sont équivalentes (aux erreurs
d’arrondi près), mais si la seconde est plus proche de la notation formelle A−1B, la première
reste la plus ef- ficace d’un point de vue informatique. L’indexation [1:5] qui s’y ajoute permet de
ne récupérer que
les 5 premiers éléments du vecteur résultat, à savoir les 5 poids solution. L’instruction which(H
> 40) permet de lister tous les indices de la matrice H contenant un élément supérieur à 40.
La commande H[which(H > 40)] = 40 permet donc de plafonner les é lé me nts de la matrice H à
la valeur 40.
Quelques remarques sur le résultat de cette activité :
• La somme des poids affectés aux mesures est bien égale à 1, mais comme nous l’avions
139
fait observer précédemment, l’estimation n’est en gé né ra l pas convexe et certains poids
peuvent être
140
négatifs comme c’est le cas ici pour w4 = −0.147. La figure 3.7 nous r é vè l e que le site x4
est en quelques sortes caché derrière le site x3. On parle d’effet d’écran. C’est donc x3
qui va
principalement déterminer la valeur interpolée (w3 = 0.553, qui est le plus é l é v é des
poids). Le site x3, aligné avec x0 et x5, agit comme un pivot, et on comprend que la rigidité
de la surface
à interpoler conduit z5 à avoir une influence répulsive : pour une valeur de pivot z3 fix
ée, plus z5 est él e vé e , plus z0 est faible et inversement. Cet exemple simple nous permet
donc de comprendre l’i ntérêt capital d’autoriser des combinaisons linéaires non-convexes
des observations.
• On remarque que la matrice A ne dépend pas des observations zi effectivement mesurées

mais uniquement des positions xi des sites d’observation. Dans un contexte o u` on
souhaiterait estimer l’intégralité du domaine d’étude (comme nous allons le faire dans
l’activité suivante), il peut êt re avantageux de calculer l’inverse de A une seule fois en
amont. Chaque estimation
ne nécessite alors plus que de calculer H0, B, puis d’effectuer la multiplication matricielle A−1B.
• Lorsqu’on dispose d’un t rès grand nombre d’observations (typiquement plusieurs dizaine
de milliers), le calcul de l’inversion peut être relativement couˆteux, d’autant que les
observations lointaines se verront très vraisemblablement affecter des poids négligeables.
Une solution classique consiste à retirer, en amont de la procédure d’interpolation de x0, tous
les sites situés à une distance supérieure à un certain seuil (par exemple 3 fois la portée
effective du variogramme). on parle de voisinage glissant. En contre-partie, cela nécessite
de recalculer la matrice A (et donc aussi son inverse) pour chaque nouvelle estimation.
Activité VIII. Calcul d’un Modèle Numérique de Terrain

On considère un semis de points sur lesquels ont é t é effectués un relevé d’altitude. Chaque ligne
du jeu de données contient : les coordonnées géographiques (longitude et latitude) d’un point,
et l’altitude (en mètres) mesurée sur ce point. L’objectif du problème consiste à construire un
modèle numérique de terrain sur la zone d’étude (on définit ici la zone d’étude comme le
rectangle englobant dont les coins sont définis par les coordonnées extrémales du semis de
points d’observation).
Ici aussi, tout comme pour l’activité IV on pourra réutiliser le jeu de données saisi sur
l’application Google Maps, ou alors récupérer l’un des deux fichiers de données disponibles dans
le répertoire de matériel pédagogique. Pour les exemples ci-dessous, nous travaillerons avec le
fichier sample data2.txt.
Dans cette activité, on utilisera un modèle de variogramme linéaire (sans palier) : γ : h 1→ h.
Correction :
Comme pour l’activité IV, on commence par charger les données et convertir les coordonnées
dans un système métrique de coordonnées plane (cette étape est importante pour que les deux
dimensions Ouest-Est et Nord-Sud aient la mê me importance dans le calcul des distances entre
sites) :
# Import des fichier

obs = read.csv("sample_data1.txt", sep=",", header=1)
# Conversion en coordonnees planes

R = 6378137.0
141
obs$longitude = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
obs$latitude = (obs$latitude - min(obs$latitude))*R
142
Pour simplifier les manipulations, nous séparons les coordonnées des sites et les relevés effectués :
# Table des sites

sites = obs[c("longitude", "latitude")]
# Table des observations

Z = obs["meters"]
Z = rbind(Z,0)
# Nombre de donnees
N = nrow(sites)
Remarquons qu’un 0 est a jouté à la fin du vecteur d’observations, de sorte que le produit de Z
par le vecteur solution du système de krigeage élimine automatiquement le multiplicateur de
Lagrange dans le calcul de l’estimation.
On définit ensuite l’emprise géométrique de la zone d’étude, ainsi que la résolution de la

grille d’interpolation. Cette résolution est exprimée dans l’unité des points d’observation, donc
en mètres ici dans notre cas puisque nous avons pro jeté les coordonnées des sites.
# Resolution
resolution = 25
# Calcul de l’emprise
xmin = min(sites$longitude)
xmax = max(sites$longitude)
ymin = min(sites$latitude)
ymax = max(sites$latitude)
On définit alors l’objet informatique zhat qui va contenir le MNT estimé. On définit
également une seconde grille vhat pour stocker l’incertitude de la valeur d’altitude estimée en
chaque cellule.
# Parcours des sites

DX = (xmin/resolution):(xmax/resolution)*resolution
DY = (ymin/resolution):(ymax/resolution)*resolution
# Output
zhat = matrix(ncol=length(DX), nrow=length(DY))
vhat = matrix(ncol=length(DX), nrow=length(DY))
A` ce stade, il peut être judicieux de tester le code ci-dessus, pour vérifier que les matrices zhat et
vhat ont des tailles raisonnables, à l’aide des fonctions nrow et ncol (typiquement ces deux
valeurs ne devraient pas dépasser 100 éléments pour commencer). Si besoin, ne pas hésiter à
augmenter la valeur de la variable resolution.
Remarquons que pour cet exemple, nous considérons dans un premier temps un variogramme identit
é : γ : h 1→ h, et donc l’application du variogramme aux distances h calculées est une étape
transparente. Malgré tout, dans le but de pouvoir changer cette fonction par la suite, nous
construisons la fonction γ :
vario = function(h){
return(h)
}
143
On effectue les calculs de krigeage qui sont indépendants du site à interpoler, à savoir : le
calcul de la matrice D des distances entre sites observés, le passage par le variogramme et l’ajout
des colonnes/lignes de 1 pour compléter le système. On pré-calcule également l’inverse de la
matrice obtenue.
# Calcul de la matrice de distance

D = data.matrix(dist(sites, diag=TRUE, upper=TRUE))
D = vario(D)
# Completion avec des 1

D = rbind(D, rep(1,N))
D = cbind(D, c(rep(1,N),0))
# Pre-calcul de l’inversion
I = solve(D)
L’instruction dist(A, diag=TRUE, upper=TRUE), o u` A est un tableau de données contenant n points

dans un espace de p dimensions, retourne un tableau de taille n × n contenant les distances
euclidiennes entre tous les couples de points. Combinée avec l’instruction data.matrix, la commande
globale permet
de retourner ces distances sous forme d’une matrice.
Il ne reste alors plus qu’à parcourir la grille, ce qui se fait à l’aide d’une double boucle sur les é l
ém e nt s de DX et DY. Chaque itération de la boucle interne correspond à l’estimation d’un
noeud de la grille.
Script 9. Calcul d’un Modèle Numérique de Terrain [code7.r]
for (ix in 1:length(DX)){

for (iy in 1:length(DY)){
# Position x = DX[ix] y = DY[iy]
# Distance entre les sites et (x,y)

D0 = sqrt((sites$longitude - x)**2+(sites$latitude - y)**2) D0 = vario(D0)
# Completion avec un 1 D0 = c(D0, 1)
# Resolution
W = (I %*% D0)
# Estimation zhat[iy,ix] = sum(W*Z)

vhat[iy,ix] = sum(W*D0) - W[N+1]
}
}
Le calcul pouvant prendre un certain temps, on pourra introduire les deux lignes suivantes entre le
144
boucle externe et le boucle interne, pour visualiser à l’écran l’état du traitement :
# Barre de progression
pourcent = floor(100*ix/length(DX)); cat("Computing interpolation:",min(pourcent,100), "%\r")
A l’issue du calcul, on pourra visualiser le MNT (et son incertitude associée) :
par(mfrow=c(1,2))
image(DX, DY, t(zhat), col=terrain.colors(255), xlab="Estimation")
contour(DX, DY, t(zhat), add=TRUE, nlevels=20)
image(DX, DY, t(vhat), col=terrain.colors(8), xlab="Variance")
590
560
530
2
2
520
580
600 550
1
1
620
D
D
Y
Y
1
1
640
650
5
0
5
0
0
0 200 400 600 800 1000 1200 1400 0 200 400 600 800 1000 1200 1400
Estimation Variance
Fig. 3.8. Estimation par krigeage d’un MNT ( à gauche) et de son incertitude associée ( à droite).
On remarque que l’incertitue de la valeur interpolée augmente à mesure qu’on s’éloigne des
sites observés, ce qui paraˆıt intuitif. Relancer le calcul avec différents modèles de variogrammes.
En particulier, on testera plusieurs variogrammes linéaires avec des coefficients variés, e.g. γ(h) =
2h, γ(h) = 3h, etc. Observe-t-on des différences dans les résultats produits ? Peut-on l’expliquer ?
Pour gérer plusieurs variogrammes on doit compléter la fonction vario. Pour sélectionner un
modèle de variogramme, il suffit de décommenter la ligne correspondante. Lorsqu’aucune ligne n’est
décommentée (exceptée l’instruction return bien entendu), le variogramme retenu est le modèle
de base γ : h 1→ h.
#h = 2*h # Lineaire coeff 2

#h = 100*h # Lineaire coeff 100
#h[which(h>8000)] = 8000 # Lineaire avec palier et portee 8000m

#h[which(h>4000)] = 4000 # Lineaire avec palier et portee 4000m
#h[which(h>2000)] = 2000 # Lineaire avec palier et portee
2000m
#h = h**0.1 # Puissance 0.1

#h = h**1.9 # Puissance 1.9
#h = 1-exp(-h/1000) # Exponentiel avec palier et portee
1000m return(h)
145
On pourra également tester le modèle gaussien si on le souhaite, mais en faisant attention au
fait que celui-ci a souvent tendance à produire des erreurs d’arrondi numérique, menant à
l’impossibilité d’inverser le système de krigeage. On pourra contourner ce problème en
introduisant une pépite de
petite amplitude (e.g. ici 10−3) dans le modèle.
pepite = 10**(-3)
y = pepite+1-exp(-
h**2/578**2) y[which(h == 0)]
= 0; h = y
La portée a = 578 est calculée en divisant la portée pratique souhaitée (ici 1 km) par 1.73,
comme expliqué dans la section 2.15. Une autre solution consiste à utiliser un modèle cubique.
On pourra alors effectuer des comparaisons entre les résultats. En particulier, si on dispose de
deux estimations zhat1 et zhat2 (par exemple calculées avec 2 modèles variographiques différents),
on pourra calculer le champ différentiel diff=abs(zhat1-zhat2) et :
• le représenter à l’aide de la fonction image
• calculer l’erreur quadratique moyenne sqrt(mean(diff**2)) ou l’erreur maximale max(diff) entre

les deux estimations
En effectuant ce test, on montre expérimentalement que le coefficient de la pente du modèle lin

éaire n’a absolument aucun impact sur les valeurs estimées, mais seulement sur les incertitudes
associées. Nous tenterons d’expliquer cette observation dans la section suivante.
On peut ensuite tester d’autres modèles de variogramme, en particulier le modèle linéaire avec
palier, dont nous avions montré dans la section 2.4.2 qu’il était un bon candidat pour le jeu de
données sample data2.txt. Nous avions même estimé la valeur du palier à 7.7 km. Ici nous
considérerons donc un variogramme linéaire avec palier et portée de 8 km. Pour tester
l’influence du paramètre de portée sur les résultats, nous testons également avec des
variogrammes de différentes portées, ainsi que pour d’autres modèles.
La figure 3.9 montre les MNT obtenus pour 6 modèles de variogramme différents : sur la
première ligne : linéaire avec palier et portées 8 km, 2 km et 500 m, et sur la seconde ligne :
modèle puissance avec θ = 0.1 et θ = 1.9 (on rappelle que ce modèle n’est défini que pour θ
strictement compris entre 0 et 2), et modèle exponentiel avec portée pratique de 8 km.
On observe les faits suivants :
• La valeur de la portée du variogramme linéaire n’est pas critique jusqu’à 3 ou 4 km de port

ée. Pour des valeurs inférieures, la qualité du modèle obtenu se dégrade rapidement.
• Le résultats obtenus pour les deux paramètres θ = 0.1 et θ = 1.9 de variogramme en

puissance sont assez similaires. On remarque cependant que le modèle θ = 0.1 semble
moins lisse, ce qui s’explique par son comportement linéaire à l’origine, contrairement au
modèle θ = 1.9 qui est parabolique.
• Le variogramme exponentiel avec portée de 8 km semble donner des résultats très

proches du modèle linéaire avec palier et portée de 8 km. Cela s’explique par les formes
146
semblables de ces
147
Fig. 3.9.
A` gauche : Estimation par krigeage d’un MNT avec différents A` droite :
variogramme.
différence des estimations entre les deux modèles puissance θ = 0.1 et θ = 1.9. Plus la couleur est
claire, plus la différence absolue entre les deux estimations ets grande.
deux variogrammes. Le modèle linéaire avec palier constitue donc en gé né r al une bonne
approximation du modèle exponentiel (et dont les paramètres sont plus faciles à inférer
comme nous l’avons vu dans l’activité IV).
On peut faire des comparaisons numériques entre les champs estimés :
Modèle 1 Modèle 2 Erreur RMSE (m) Erreur max (m)

Linéaire (8 Exponentiel (8 km) 0.33 4.41
km)
Puissance (0.1) Puissance (1.9) 13.94 62
Linéaire (8 Linéaire (500 m) 44.89 188
km)
Il peut être assez instructif également d’effectuer une comparaison visuelle du champ calculé
par la différence des deux modèles en puissance (fig. 3.9 à droite). On observe que les diff
érences sont maxi- males au niveau des zones o u` les courbures sont les plus prononcées (sommet
et fond de vallée), ce qui peut s’expliquer par la différence de régularité des deux modèles de
variogramme (linéaire à l’origine
pour θ :( 1 et parabolique à l’origine pour θ > A` l’inverse, les différences sont quasi-nulles au
1).
niveau des points observés mais aussi au niveau des lignes d’inflexion.
Ces quelques expérimentations montrent que le choix du variogramme n’est pas critique, tant
que le modèle choisi reste fidèle à la structure sous-jacente des données, estimée par le
variogramme expérimental. C’est ce que montre en particulier la comparaison entre le modèle
linéaire avec palier et le modèle exponentiel, dont les différences obtenues sur l’estimation sont en
général plutôt faibles. En revanche, lorsqu’un mauvais modèle est sélectionné, ou alors que
les paramètres du modèle sont trop grossièrement estimés, la qualité de l’estimation se d
égrade très rapidement.
3.5 Propriété du krigeage

Nous l’avons vu dans la section 3.3.2, les solutions du krigeage ordinaire et du krigeage
intrinsèque possèdent exactement la même formulation algébrique. Dans cette section nous
148
parlerons donc de krigeage sans plus de précision.
149
3.5.1 Exactitude
Un interpolateur est dit exact lorsqu’il passe exactement par toutes les données qui ont é t é utilis
ées pour le construire. Si on reprend l’exemple pédagogique de l’activité VI, nous avions
clairement un interpolateur non-exact, sauf si on fixe la toléreance ε à 0. Formellement :
LePropriété
krigeage est un36 (Exactitude du
interpolateur krigeage)
exact, autrement dit, pour tout jeu de données {xi, zi}i=1..n, la valeur krig
Preuve. En un point xi donné, la solution z(xi) = zi vérifie les 4 contraintes de krigeage. En

effet, zi est bien une combinaison linéaire � des observations de poids total unitaire donc les
contraintes de linéarité, d’universalité et d’autorisation sont vérifiées. Par ailleurs, l’erreur
d’estimation étant nulle lorsqu’on choisit zi, la contrainte d’optimalité est également vérifiée.
En toute rigueur, il resterait à vérifier que la solution z(xi) = zi est l’unique solution possible au
système de krigeage. � Lorsque tous les sites sont distincts, on peut montrer que la solution du
système est unique, zi est donc la seule solution admissible et l’interpolateur est nécessairement
exact.
Cette propriété peut être désavantageuse lorsque les observations (ou que les positions des
sites sur lesquelles elles ont é t é effectuées) sont bruitées. Une méthode pour contourner ce
problème, consiste
à utiliser un variogramme à pépite. Dans ce cas, comme nous l’avons vu dans la section 2.20
(ou plus généralement dans la propriété 32), les réalisations du processus sont discontinues, et il
en va de même pour la variable régionalisée estimée par krigeage. La valeur de la pépite est
calculée à partir de la variance du bruit de l’appareil ayant é t é utilisé pour relever les
observations. Par exemple, pour un GPS grand public d’erreur typique sur l’altitude σ = 5 m, on
choisira une pépite η = σ2 = 25 m2.
3.5.2 Multiplication du variogramme
Propr iété 37 (Multiplication du variogramme par un scalaire)

Soient α ∈ R+∗. Considérons γ et γ˜ deux variogrammes tels que γ˜ (h) = αγ(h). Alors, en tout point x du
les estimations de krigeage menées avec ces deux variogrammes co¨ıncident
les variance d’estimations sont égales à un facteur α près
L,n
Preuve. Notons z�(x; γ) = wizi l’estimation calculée par krigeage en x, o u` wi désigne les poids
i
solution du système de krigeage 3.11, formé avec le variogramme γ. En multipliant les n premières
équations de ce système par α /= 0, on ne change pas la solution et on obtient :
n n
αγi0 − α Lwjγij − αλ = 0 L
γ˜i0 − w j γ˜ i j − λ2 = 0
j=1
⇔
j=1
150
avec la notation : λ2 = αλ. On retrouve l’équation du système de krigeage pour le variogramme
γ˜ . La solution est donc invariante par multiplication par un scalaire (strictement positif).
151
Autrement dit, multiplier le variogramme par une constante α > 0 ne modifie pas les résultats
d’estimation. C’est assez intuitif puisque toutes les relations de dépendance statistique aux autres
points sont multipliées par un mê me facteur, il n’y a donc pas de raison que certaines
observations prennent plus de poids que d’autres, et l’estimation finale en est donc invariante. En
revanche, l’incertitude autour de cette estimation est multipliée par α :
n n
[ ] L L [
Var z�(x, γ˜ ) − z(x) = w i γ˜i0 − λ2 = wiαγi0 − αλ = αVar z�(x, γ) −
i i]
z(x)
On pourra se servir de cette propriété, par exemple si on ne souhaite calculer que l’estimateur (et
non son incertitude) et qu’on sait que le variogramme est linéaire, on pourra alors se dispenser de
chercher
à estimer la pente de ce variogramme. Pour tous les variogrammes à palier (linéaire,
exponentiel, gaussien, cubique, sphérique...), la valeur numérique du palier n’a pas d’importance
dans ce cas, et il est suffisant de connaˆıtre la valeur portée. De même, pour un processus entâché
d’un bruit décorrélé, la valeur numérique de la pépite n’a pas d’importance, seul compte le ratio
signal sur bruit, qui parfois est plus simple à estimer.
3.5.3 Linéarité
Soit AL une application linéaire quelconque, prenant en entrée tout ou partie d’une variable régionalis
ée et retournant un résultat (sous forme d’un nombre, d’un vecteur ou même d’une variable r
égionalisée). Alors, le krigeage du résultat de AL ou l’application de AL à l’estimation par
krigeage produisent exactement les mêmes résultats :
Propriété 38 (Linéarité du krigeage)

Pour toute application linéaire AL :
AL[z�] = A\L[z] o u` q� dénote la valeur krigée d’une quantité inconnue q.
Cette propriété possède de nombreuses applications pratiques :
• Sommes : si X et Y représentent deux phénomènes, alors le krigeage d’observations

ponctuelles de la variable X + Y donne le mê me résultat que la somme des krigeages
d’observations de X et Y prises séparemment. Il en va de même pour la différence : par
exemple, si Z1 traduit le
relief d’un terrain donné au temps t1, et Z2 celui au temps t2, alors le krigeage des diff
érences d’altitudes Z2 − Z1 mesurées en plusieurs points, est égal à la différence des
estimations par krigeage de Z1 et Z2.
• Moyennes : le krigeage de la moyenne de n phénomènes est égal à la moyenne des

krigeages des n phénomènes pris séparément.
• Dérivation : la dérivation est une opération linéaire. Le krigeage des pentes du

terrain est donc égal à la pente d’un terrain estimé par krigeage. Par ailleurs, on pourra
énoncer ici une relation (démontrée dans l’annexe A) liant le variogramme d’un processus
152
avec celui de sa dé ri vée :
153
Dérivation d’un processus. Soit X un processus stochastique uni-dimensionnel stationnaire
au sens large, dont la covariance CX est dérivable deux fois en l’origine. Alors, la
covariance CX de la dé r i vé e Xt de X vaut :
CX (τ ) = −
d2CX(τ )
dτ 2
On pourra généraliser cette propriété pour des processus définis sur un domaine à plusieurs di-
mensions, en considérant des déri vées uni-directionnelles.
Au niveau du variogramme on a :
γX (τ ) = CX (0) − CX (τ ) = K
d2CX(τ ) d2γX(τ )
+
=K dτ 2
−2
dτ
o u` K est une constante que l’on peut facilement déterminer avec la contrainte : γ(0) = 0.
En guise d’exemple d’application, supposons qu’on souhaite estimer la pente du terrain sur
une zone donnée dont on ne connait que des observations de pente4. Si par ailleurs on sait
grâce
à des études antérieures que le MNT sur ce même type de terrain peut-être mo délis
é par un variogramme gaussien, alors pour modéliser le processus de pente, on pourra
s’orienter vers le choix du modèle de variogramme suivant :
γ(h) = K − (
d2 1
2
h2
l− = 1 h 2 )− h 2
1− e 1 a2 e
a
dh2 −
a2
C’est un variogramme non-monotone, donc à effet de trou. Cela traduit l’anti-corrélation

des pentes à une distance caractéristique a (fig. 3.10). Par ailleurs, il est intéressant de
remarquer que le variogramme dé r i vé γ a aussi un comportement parabolique à l’origine, ce
qui signifie que le pente est elle-même dérivable. Plus généralement, un processus
stochastique est dérivable à l’ordre n si et seulement si son variogramme est 2n fois d
érivable (Allard, 2012). Un processus de variogramme gaussien est donc infiniment d
érivable, ce qui explique son aspect très lisse.
• Intégration : en reprenant l’exemple des MNT Z1 et Z2 à 2 dates successives, on définit

f : Z2 − Z1, o u` l’intégrale est
l’application AL comme étant l’intégrale de la différence
prise sur le domaine d’étude. Alors le résultat de AL n’est autre que le volume du terrain
perdu (ou gagné) entre les deux dates. L’application AL étant linéaire, on sait alors que
l’estimation de ce volume par intégration du champ krigé des différences mesurées, est
correcte.
• Convolution : en pratique, les observations effectuées ne sont pas strictement ponctuelles. Par
154
exemple, pour mesurer la teneur d’un élément minéralogique dans le sol en un lieu donn
é, on doit procéder à l’analyse chimique d’un bloc de terre d’extension spatiale non-nulle.
En fonction des techniques employées (et de l’élément recherché), il peut arriver que
la taille de bloc
4
Par exemple pour la surveillance volcanologique, ou` les mesures sont fournies par un réseau d’inclinomètres.
155
1
1
0
0
0
0
g
g
0
0
0
0
0
0 500 1000 1500 2000 2500 3000 0 500 1000 1500 2000 2500 3000
Index Index
Fig. 3.10.
A` gauche : variogramme gaussien du terrain (portée a = 1000 m et palier arbitrairement
fixé à 1.0). A` droite : variogramme dér i vée seconde de la pente du terrain.
ne puisse plus être négligée devant l’écart typique entre les observations. Dans ce cas, on
peut considérer qu’une mesure en un site x est en réali té une moyenne spatiale sur une zone
centrée en x, ce qui mathématiquement se traduit par une convolution, et donc une op
ération à nouveau linéaire. Si les observations sont des convolutions de la variable r
égionalisée, alors le krigeage de ces observations sera égal à la convolution du krigeage
des mesures ponctuelles. Ici aussi, on peut citer un théorème bien pratique liant les covariances
d’un champ avant et après convolution :
Covariance de convolutions. Soit X un processus stochastique stationnaire au sens large, de

covariance CX. On note Y la convolution de X sur le domaine d’étude D par un noyau h :
-
Y (t) = (X ∗ h)(t) = X(τ )h(t − τ )dτ
D
Alors, la covariance du champ Y est liée à celle de X par :
CY (τ ) = CX∗h(τ ) = (CX ∗ h ∗ h)(τ )
Pour un processus 1D et dans le cas particulier o u` les observations sont des moyennes, h est
une fonction porte et l’autoconvolution h ∗ h = Π ∗ Π est une fonction triangle de support
égal au double de la zone sur laquelle la moyenne est calculée. La covariance du champ liss
é Y est donc
égale au produit de convolution de CY par une fonction triangle. Plus les blocs de mesures
sont grands, plus la fonction triangle a un support large et plus la covariance de Y est d
éf or mé e par rapport à celle de X : le champ est lissé. A` l’inverse, si la mesure est
parfaitement ponctuelle, h
est le dirac δ, et la covariance de Y s’exprime par : CY = CX ∗ δ ∗ δ = CX (le dirac est l’él
ément neutre de la convolution) et on retrouve bien que les deux champs sont de
covariances égales.
Ces considérations appartiennent à une théorie plus générale de la Géostatistique, dite th

éorie de la régularisation, dont l’objectif consiste à transférer les propriétés d’un
champ aléatoire au processus d’observation de ce champ sur des blocs d’extension spatiale
non-nulle. Nous en reparlerons dans la section 3.7.3 lorsque nous présenterons le principe
156
de l’estimation globale.
157
3.5.4 Lissage
Le champ interpolé par krigeage est en général plus lisse que la variable régionalisée vraie (et
inconnue). De manière formelle :
Propriété 39 (Effet de lissage)
La variance d’une variable krigée�Z en tout point donné x du champ0 est plus faible que
celle de la variable aléatoire prise par le processus en ce mêm e point :
Var[Z�(x0)] :( Var[Z(x0)]
La démonstration formelle de cette propriété dans le cas du krigeage ordinaire n’est pas triviale,
mais elle peut être mise en évidence à l’aide d’expérimentations, par exemple ci-dessous pour un
processus 1D (fig. 3.11). Sur cette figure, on observe également deux phénomènes : (1)
l’interpolation tend à devenir rapidement mauvaise sur les bords du domaine5 et (2) l’interpolée
est non-convexe (on le voit en particulier autour de l’abscisse 675, o u` la courbe rouge dépasse le
maxima des observations).
2
●
●
●
5
● ●
●
0
●
●
0 200 400 600 800 1000
Fig. 3.11. Interpolation par krigeage (en rouge) d’un signal aléatoire 1D (trait noir) à partir d’un
échantillon de 1% de ses points (points noirs).
Remarquons que cette déformation ne résulte pas d’un manque de connaissance du

variogramme, mais d’une propriété intrinsèque au krigeage. On représente par exemple ci-
dessous en figure 3.12 une expérimentation, o u` nous avons utilisé un champ (connu de manière
exhaustif) dont nous pouvons calculer une estimation relativement fidèle du variogramme γ. Cette
estimation γ est alors utilisée comme modèle de base dans une estimation par krigeage de
l’ensemble du champ à partir d’un sous-
échantillon (environ une centaine de points). On observe alors que l’interpolée est plus lisse
que le champ réel, et en particulier, on voit que son variogramme possède un comportement à
l’origine parabolique, à comparer avec le comportement linéaire à l’origine du variogramme de
base.
L’estimateur par krigeage est victime d’un phénomème analogue à la non-représentativité

de la moyenne. Il est construit de sorte à limiter l’erreur de prédiction. En ce sens, la variable r
égionalisée estimée est la plus centrale possible, et n’est donc pas une réalisation quelconque
parmi tant d’autres. Paradoxalement, cette contrainte d’optimalité empêche l’estimateur d’être
pleinement représentatif du phénomène. On peut faire une comparaison assez simple : si une
entreprise emploie 9 ouvriers au salaire mensuel de 2000 e, à la têt e desquels on place un PDG
158
à 22 000 e, le revenu mensuel
5
D’une manière générale, hors de l’enveloppe convexe du semis d’observations. On parle alors d’extrapolation.
159
1
1
.
4e+05
0
0
.
.
Variogramme reel Variogramme du krigeage
0
.
.
N
N
(
a
v
2e+05
0
0
.
.
0
1
.
0
0
0
.
.
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000 6000
E(m) E(m) h(m)
Fig. 3.12. Le champ vrai ( à gauche) et son estimation par krigeage à partir d’un semis constitué
d’une centaine de points d’observation (au centre). A` droite : le variogramme du champ vrai (en
rouge) et celui du champ interpolé (en bleu).
moyen des salariés s’élève à 4000 e, ce qui n’est absolument pas représentatif, ni des
ouvriers, ni du directeur. Pourtant, s’il fallait parier sur le revenu d’un salarié pris au hasard
parmi les 10 membres de l’entreprise, c’est bien cette valeur moyenne de 4000 e qui minimiserait
la variance de l’erreur.
Autrement dit, dans le cas du krigeage, s’il fallait parier sur une valeur en x0, de manière à
limiter le risque d’erreur quadratique, une décision rationnelle serait de � prendre z(x0). Pourtant,
l’ensemble de l’interpolée
� z ne constitue en général pas un bon représentant du phénomène.
Cette observation justifiera par la suite le recours aux méthodes de simulations.
3.6 Formulation duale

Comme nous l’avons vu dans la section 3.3 ainsi que dans l’activité VIII, le calcul de
l’estimation z en un site x0 donné, nécessite de multiplier une matrice A−1 (l’opération
�
d’inversion ayant é t é effectuée une seule fois en amont du parcours des sites à interpoler) par
un vecteur B (dépendant du
modèle de variogramme et de x0) puis à effectuer le produit scalaire du résultat obtenu par le vecteur
Z = [z1,2 , ...zn, 0]T . Dans le formalisme matriciel, l’estimée s’écrit :
z = (A−1B, Z)
�
o u` (u, v) désigne le produit scalaire de deux vecteurs u et v de Rn. On peut alors écrire :
t )T t )T
z� = (Z, A−1B) = ZT A−1B = ZT A−1 B = A−1Z B = (A−1Z, B)
o u` la troisième égalité résulte du fait que A, et donc A−1 également, sont symétriques par
construc- tion. Avec cette nouvelle formulation, on peut traiter en amont tout ce qui ne dépend
pas du site à
interpoler ( à savoir l’inverse de A et le produit par Z), puis à chaque itération de boucle, il ne
reste plus qu’à effectuer le produit scalaire avec le vecteur B.
On suppose que le domaine à interpoler est assez vaste pour que le temps de calcul en dehors de
la boucle de parcours des sites soit négligeable (c’est en pratique le cas sur tous les problèmes
concrets d’interpolation). Dans la version de base du krigeage, chaque interpolation nécessite une
multiplica-
tion d’une matrice carrée (de taille n) par un vecteur, soit n2 multiplications, ce à quoi on ajoute
un produit scalaire de n multiplications, soit un algorithme d’interpolation en O(n2). Avec la
version
160
duale, chaque interpolation ne nécessite plus qu’un produit scalaire, soit O(n) multiplications.
161
En contre-partie, le vecteur X = [W, λ], contenant les poids de la combinaison linéaire ainsi que
le multiplicateur de Lagrange, n’étant plus disponible, on ne peut plus calculer la variance de
l’estimation avec l’expression 3.13, ce qui limite l’intérêt pratique du krigeage dual.
En partant de l’activité VIII, le code ne nécessite que trois modifications :
• Au niveau du précalcul, on ajoute la multiplication par Z :

I = solve(D) %*% data.matrix(Z)
• Au niveau du calcul de l’estimation, suppression de W = (I %*% D0) et modification :

# Estimation
zhat[iy,ix] = sum(t(I)*D0)
• Et suppression du calcul de la variance de l’estimation :

vhat[iy,ix] = sum(W*D0) - W[N+1]
A` titre d’exemple, le calcul d’un MNT au pas de 25 m à partir des données du fichier sample
data1.txt (393 points d’observation) nécessite environ 3 minutes avec le krigeage de base, contre 13
secondes avec le krigeage dual. Pour une zone de taille fixée, le gain de calcul est proportionnel au
nombre n de sites.
Fig. 3.13. Interpolation d’un MNT pour deux niveaux de résolution différents, à gauche par
krigeage standard et à droite par krigeage dual, pour un temps de calcul identique de l’ordre de 1
seconde.
L’intérêt du krigeage dual est toutefois à relativiser au regard des recommandations de la litt
érature, qui préconise d’utiliser un nombre limité de sites pour chaque interpolation. Par exemple,
la méthode
des octants, utilise pour chaque point à interpoler une zone de recherche ellipso¨ıdale (préf
érentiellement orientée suivant les anisotropies du champ) divisée en 8 secteurs de 45◦. Les 3
points les plus proches sont alors sélectionnés dans chaque secteur, de sorte à limiter la taille du
système de krigeage à une matrice de taille 8 × 3 + 1 = 25. En contre-partie, l’inversion doit
être effectuée à chaque étape.
On pourra trouver plus d’informations sur la recherche de données par octants dans Zoraster
(1996). Il s’agit d’un cas particulier de krigeage dit à voisinage glissant. Dans le cas contraire,
lorsque le krigeage est effectué avec tous les points d’observations, on parle de krigeage à
voisinage unique.
162
3.7 Les variantes du krigeage
Nous présentons ici plusieurs résolutions possibles du problème d’interpolation à l’aide de la
technique présentée ci-dessus et pour diverses variations dans les hypothèses sous-jacentes.
Nous verrons ainsi que le krigeage est un outil générique facilement personnalisable pour des
besoins propres.
Précisions un peu la terminologie : on désigne en général par krigeage ordinaire à la fois le

krigeage ordinaire et le kriegage intrinsèque puisque les deux méthodes sont identiques. On
utilise le terme krigeage intrinsèque lorsqu’on souhaite insister sur le fait que le phénomène
considéré est strictement intrinsèque. Par opposition, toutes les méthodes présentées ci-
dessous sont des alternatives au krigeage ordinaire.
3.7.1 Krigeage simple

On se place dans les hypothèses du krigeage ordinaire, i.e. avec un processus stochastique Z
stationnaire au sens large, observé en n sites ponctuels. Supposons que la moyenne m = E[Z] du
processus soit connue, et supposons sans perte de générali té 6 que m est nulle. La contrainte
d’autorisation est nécessairement respectée puisque Z est stationnaire au sens large et donc toute
combinaison linéaire est autorisée. Par ailleurs, la contrainte d’universalité impose :
n n
L L
E[Z� (x) − Z(x)] = wiE[Z(xi)] − E[Z(x)] = m wi − m = 0
i i
La contrainte d’universalité est donc automatiquement respectée (puisque m = 0) et le problème

du krigeage est alors réduit à un problème d’optimisation sans contrainte, qu’on exprime plus
facilement
à l’aide de la fonction de covariance Cij = γ(∞) − γij :
 
 C11 C12 ... C1n  
w1
C01
C21 C22 ... C2n w2 (3.16)
 C02   =  
  
 . . . .   . 
  C
 . 
Cn1 Cn2 ...
w
La matrice de terme gé né r a l Cij est exactement la matrice de covariances Σ du vecteur al
éatoire d’observations Z. La solution s’exprime alors : W = Σ−1C0 et on retrouve un équivalent
multi- dimensionnel du filtre de Wiener (Barret, 2009).
La variance de l’erreur d’estimation est la mêm e que celle du krigeage ordinaire à laquelle on
aurait retiré le multiplicateur de Lagrange λ. On peut montrer que λ < 0, et donc, pour un
mêm e jeu d’observations et en un point x0 donné, la variance d’estimation du krigeage simple
(KS) est inférieure
à celle du krigeage ordinaire (KO). C’est intuitivement cohérent : la connaissance a priori de la
moyenne guide le calcul et contribue à réduire l’incertitude finale sur l’estimation.
Pour bien visualiser la différence entre KS et KO, une méthode consiste à représenter le r
ésultat d’une interpolation 1D avec un variogramme de portée inférieure à l’écart typique s
163
éparant deux observations (fig. 3.14). En un site x0 éloigné des observations (typiquement au
point médian entre deux
échantillons), les données ne sont plus significativement corrélées à Z(x0) et l’estimateur tend
à retourner la valeur moyenne du champ. En revanche, dans les zones o u` la densité de points
d’observation
6
Si m /= 0, on peut facilment se ramener au cas m = 0 en étudiant la variable auxiliaire Y (x) = Z(x) − m.
164
est grande au regard de la portée du variogramme, KS et KO donnent sensiblement les mêmes résultats.
0
Y
Y
−
−
−
−
200 400 600 800 200 400 600 800
X X
Fig. 3.14.
A` gauche : krigeage ordinaire ( à moyenne A` droite : krigeage simple à
inconnue).
moyenne m = 0. Dans les deux cas, le variogramme est un modèle gaussien de portée 45.
En pratique, il est t rè s rare de connaˆıtre la moyenne d’un processus et l’emploi du krigeage
simple reste relativement peu fréquent.
3.7.2 Krigeage de la moyenne

Si le KO permet d’estimer une variable régionalisée (et au passage sa moyenne) tandis que le
KS nécessite en prérequis la connaissance de la moyenne pour estimer la variable, il doit exister
une méthode complémentaire qui n’estime que la moyenne de la variable.
Comme pour les versions précédentes, on part des contraintes de krigeage. On cherche donc :
• Un estimateur de la moyenne m (inconnue) du processus sous la forme d’une combinaison

L wiZi.
linéaire des observations : m� =
,
• On se place dans le cas stationnaire donc toutes les combinaisons linéaires sont autorisées.
• La contrainte d’universalité impose :
n
l L n )
E1 wiE[Zi] − m = (
wiZi − m wi − 1 = 0
i=1 nm i=1
L = L
i=1
et donc, tout comme pour le krigeage ordinaire, on souhaite que la somme des poids soit unitaire.
• Enfin, l’optimalité consiste à minimiser la quantit

é :
l
n wiZi − m
1
Var[m�− m] = Var
i=1
L
165
Remarquons que m n’est pas une variable aléatoire mais bien un paramètre du modèle.
Elle n’entre donc pas en jeu dans la variance, ce qui donne la simplification :
166
n n
Var[m − m] = L wiwjCij
L
� i=1 j=1
On forme alors le lagrangien du problème d’optimisation :

LL (
L
L(W, λ) = wi wj Cij + 2λ
n )
n n
wi − 1
i=1 j=1 i=1
La résolution du problème avec les techniques présentées dans la section 3.3 donne le système :
 
C11C12 ... C1n 1 w1 0
C21C22 ... C2n 1     
0
w2  
   .  .

 . = (3.17)
 . .
. .
. .
. 1  .  .
Cn1 Cn2 ... Cnn 1 wn 0
1 1 ... 1 0 λ 1
La variance associée vaut :
n n n n
L L L tL )
Var[m� − m] = Var[m� ] = wiwjCij = wi wjCij
i=1 i j
L,
Or pour tout indice i la somme wjCij vaut −λ d’après le système 3.17. Donc :
Var[m − m] = −λ wi = −λ
� i=1
L
Nécessairement λ :( 0 (sinon, la variance perd son sens physique).
En notant KM le krigeage de la moyenne, on peut dire informellement que :
KO = KM + KS (3.18)
Autrement dit, tant du point de vue de l’estimateur que de sa variance d’erreur, appliquer un krigeage
ordinaire revient à : (1) estimer la moyenne m� du processus par le krigeage de la moyenne puis (2) à
fixer m = m �dans un krigeage simple7. La différence de variance entre KS et KO vaut le multiplica-
teur de Lagrange, qui correspond donc à la part de variance expliquée par la connaissance a
priori de la moyenne du processus.
7
En fait il s’agit d’un cas particulier d’application de la propriété 38 de linéarité du krigeage.
167
3.7.3 Krigeage par blocs
Nous avons vu comment estimer la moyenne m d’un processus stochastique stationnaire au sens
large dans la section précédente. Rappelons que m est un paramètre du modèle, sa valeur
vraie inconnue (si tant est qu’on veuille bien lui donner un sens) ne doit en théorie pas dépendre
de la réalisation à
étudier. Pour rappatrier ce concept dans le monde physique, on pourrait dire que m serait la
valeur moyennée du phénomène si le domaine d’étude était de taille infinie. Or, ce qui
nous intéresse en général, c’est la valeur moyenne prise par le phénomène sur la réalisation
courante, éventuellement restreinte à un sous-domaine V .
On peut donner l’exemple d’application suivant : un prospecteur minier a fait réaliser des pr
élèvements 8 de la teneur en cuivre du sol. Disposant d’un temps limité, il ne peut exploiter
qu’une unique carrière d’emprise spatiale V délimitée a priori par le matériel et la main
d’oeuvre à disposition. Dè s lors, la question se pose du choix du site d’implantation. En gé n
é ra l, le nombre de candidats est limité par des facteurs externes (fleuves, pentes, commodité
d’accès...) et le prospecteur doit choisir le bloc qui lui permettra statistiquement d’extraire le plus
de cuivre.
Une solution intuitive pourrait consister à subdiviser chaque bloc à l’aide d’une grille régulière,
à appliquer le krigeage ordinaire en chaque noeud de cette grille, puis à sommer les
estimations obtenues pour comparer les résultats. La propriété 38 de linéarité du krigeage
nous assure la validité théorique de cette solution. Cependant, en plus de nécesssiter
potentiellement un temps de calcul considérable, cette démrache ne permet pas d’évaluer la
variance d’estimation sur chaque bloc. Nous allons voir ici une manière de calculer la valeur
moyenne (et sa variance) d’un bloc en une seule estimation.
Pour ce faire, nous devons d’abord introduire la notion de covariance régularisée. Soit V ⊆
D un sous-domaine du champ d’étude de forme quelconque (V peut même allègrement être non-
connexe).
La moyenne de la variable régionalisée z sur V s’exprime par :
1
z(V ) = -
|V | z(x)dx (3.19)
V
o u` |V | désigne l’extension spatiale de V (longueur, aire, volume, etc. suivant la dimension de

l’espace de travail) et dx est une parcelle infinitésimale du domaine V .
En rempla¸cant les minuscules par des majuscules, la quantité 3.19 devient une variable al
éatoire et on peut calculer sa variance. Le théorème 12 de propagation des incertitudes nous
indique comment calculer la variance d’une somme de variables corrélées. On peut proposer une
expression analogue pour la variance d’une intégrale :
1
Var[Z(V )] = -
|V |2 - C(x − y)dxdy (3.20)
x,y∈V
La démonstration s’établit facilement en utilisant la bilinéarité de l’opérateur de covariance,

puis en transformant l’intégrale en une somme de Riemann et enfin par passage à la limite.
Concrètement, la variance d’une moyenne sur une domaine est la moyenne des covariances entre
tous les couples de points possibles du domaine.
8
On suppose que ces prélèvements sont ponctuels, ou au moins d’extension spatiale négligeable devant les autres
168
grandeurs entrant en jeu dans le problème : taille du domaine, taille du bloc, portée du variogramme...
169
Remarquons par ailleurs que pour un processus strictement intrinsèque, on peut réexprimer 3.20
uniquement à l’aide du variogramme, et on retrouve une expression analogue à 3.14.
Plus généralement, on peut définir l’opérateur de covariance entre deux sous-domaines :
Définition 40 (Covariance régularisée)
Soient V1 et V2 deux sous-domaines de D potentiellement d’intersection non-vide.On

définit la covariance régularisée C de Z par la covariance des moyennes des valeurs prises
par Z en V1 et V2 :
--
1
C(V12, V ) = Cov(Z(V1 ), Z(V2 )) = C(x − y)dxdy
|V12 ||
V | V1 V2
On retrouve bien entendu C(V, V ) = Var[Z(V )].
Fig. 3.15. La covariance régularisée C est la moyenne des covariances entre tous les couples possibles
de valeurs (x, y) avec x ∈ V1 et (y ∈ V2). Le concept reste valide pour des ensembles discrets, par
exemple à droite, dans le cas de la covariance régularisée entre un ensemble V et le singleton
{x0}.
Remarque 1. Si V1 est un ensemble fini, on obtient une expression mêlant somme et intégrale :
|V1|
(1 1 ) 1 L|
LZ(xi),
C(V1, V2) = Cov Z(x)dx = V1 | - C(x − xi)dx
|V1 i |V |2 - |V 1||V 2 V
V
| | i
o u` |V1| est le cardinal de l’ensemble fini de points xi ∈ V1. Lorsque V1 et V2 sont tous les deux
discrets, on retrouve les expressions classiques de la covariance entre sommes de variables al
éatoires.
Remarque 2. La notion de covariance régularisée se généralise au variogramme afin de traiter

le cas des processus strictement intrinsèques : γ(V1, V2) = C(0) − C(V1, V2).
Lorsque les deux blocs ont la même forme, par analogie avec le covariogramme, on peut définir
le covariogramme régularisé Ch qui mesure la ressemblance des valeurs moyennes prises par deux
blocs identiques V sép a ré s d’un vecteur de translation h.
170
Définition 41 (Covariogramme régularisée)
Soient V un sous-domaines de D. On définit le covariogramme régularisée CV de Z par la

covariance des valeurs moyennes prise par Z en V et Vh :
CV (h) = C(V, Vh) avec :Vh = {x + h | x ∈ V }
A` nouveau, ici aussi, on peut définir le variogramme régularisé γV (h) = C(V, V ) − CV (h). De plus si
Z est isotrope, CV et γV ne dépendent que de la norme du vecteur h.
Fig. 3.16. Covariogramme régularisé Ch d’un domaine V .
D’un point de vue graphique, la régularisation mèn e à aplanir le variogramme au voisinage de

l’origine. Pour des distances de séparation grande devant la taille caractéristique du bloc V , on
retrouve le comportement du variogramme de Z avec un décalage qui peut s’interpréter de
deux manières : (1)
horizontalement, comme un allongement de l’ordre de |V | de la portée du variogramme régularisé ou
(2) verticalement comme une perte de variance d uˆ au fait de moyenner sur des blocs.
Fig. 3.17. Le variogramme du processus (en bleu) et sa régularisée (en rouge) dans la cas
strictement intrinsèque ( à gauche) et stationnaire au second ordre ( à droite). La ligne verticale en
pointillés représente la dimension |V | du bloc.
Remarque 3. Le calcul formel des régularisées CV et γV est en général assez compliqué. Un

exemple sur un cas simple est donné dans l’annexe A.3. On pourra avoir recours si besoin à un
langage de calcul scientifique (R, Matlab...).
On peut alors construire un estimateur de la moyenne Z(V ) en utilisant le variogramme régularisé.
171
Pla¸cons-nous en premier lieu dans le cadre stationnaire, et examinons les contraintes de krigeage :
• Linéarité : on estime z(V ) par combinaison linéaire des sites observés : z�(V )
L,n wiz(xi)
= i
• Autorisation : toutes les combinaisons linéaires sont autorisées
• Universalité :
1n l 1 |V
1 | l Ln − 1
E[Z� (V ) − Z(V )] wiZ(xi) − Z(x)dx wiE[Z] E[Z(x)]dx
- |V |
=E L
i=1
E
V
= V
-
i=1
n
− 1 ) n )
=m ( (
wi |V | dx = m w i − 1
i=1 V i=1
L - L
Donc seules les combinaisons de poids unitaires respectent la contrainte d’universalité.
• Optimalité : calculons la variance de l’erreur avec la notion de covariance régularisée :
Var[Z� (V ) − Z(V )] = Var[Z� (V )] + Var[Z(V )] − 2Cov(Z� (V ), Z(V ))

L Ln n Ln
= wiwjC(xi − xj) + C(V, V ) − 2 wiC(xi, V )
i=1 i
En formant le Lagrangien et en annulant toutes ses déri vée s partielles (par rapport à wi et λ),
on trouve facilement le système de krigeage :
 
C(0) C(x1 −x2) ... C(x1 − xn) 1  
 w1 C(x1, V )
C(x2 − x1) C(0) ... C(x2 − xn) 1 w2 C(x , V )
  .    2 
 = .  (3.21)
 .. .. .. .. 1  .   . 
C(xn − x1) C(xn − x2) ... C(xn − xn) 1 wn C(xn, V )
1 1 ... 1 0 λ 1
On montre qu’un système identique peut-être formé avec γ et γ dans le cadre intrinsèque :
 
γ(0) γ(x1 −x2) ... γ(x1 − xn) 1  
 w1 γ(x1 , V )
γ(x2 − x1) γ(0) ... γ(x2 − xn) 1 w2 γ(x2, V ) 
  .   .  (3.22)
    =
.. .. .. .. 1 . . 
γ(xn − x1) γ(xn − x2) ... γ(xn − xn) 1 wn γ(xn, V )
1 1 ... 1 0 λ 1
172
n
La variance d’estimation vaut alors : Var[Z(V

� ) − Z(V )] = γ(xi, V ) − γ(V, V ) − λ
i=1
L
173
Si V est ponctuel, on retrouve les équations 3.11 et 3.13 du krigeage ordinaire. Par ailleurs, on
remarque que l’estimateur et sa variance ne font appel qu’au variogramme, ainsi qu’à sa r
égularisée entre un point xi et un bloc. Le variogramme régularisé bloc-à - bloc γ(V1, V2) avec
V1 /= V2 (en général plus
difficile à calculer) n’est pas nécessaire.
Cette extension laisse entrevoir les inombrables possibilités de généralisation du krigeage. Ici,
nous avons collecté des valeurs ponctuelles pour estimer une grandeur moyennée sur un bloc.
Certains problèmes peuvent nécessiter à l’inverse d’estimer une grandeur ponctuelle à partir
d’informations
zonales. A` titre d’exercice, on pourra s’interroger sur les deux applications suivantes. Pour chaque
cas, on détaillera la système de krigeage correspondant en suivant les 4 contraintes usuelles. On
com- mencera par se placer dans le cas stationnaire au sens large, avant de généraliser au cas
intrinsèque.
Exercice 3.1. Dans une région répu tée riche en minerais, un terrain V est à vendre. Aucun pr
élèvement n’a é t é effectué par le passé sur V , si bien qu’un acheteur potentiel n’a aucune
idé e a priori de la rentabilité de son investissement. En revanche, on sait que n terrains V1, V2,...
Vn, de formes et de tailles diverses ont é t é exploitées par des concurrents, et on connait pour
chacun d’eux, le quantité totale de minerais qui en a é t é extraite. Par ailleurs, on suppose
connaˆıtre le variogramme de la teneur minérale sur la région (par exemple après analyse d’une
région voisine). Estimer la quantité de minerais contenue sur V , ainsi que la variance de l’erreur
d’estimation.
Exercice 3.2. On suppose que la quantité estimée sur V a conduit le propsecteur a acheter le
terrain. Pour rentabiliser rapidement son investissement, il souhaite commencer par exploiter la
zone la plus prometteuse, mais sans perdre de temps à effectuer des sondages au préalable.
Comment peut-il utiliser les valeurs de teneurs moyennes des terrains voisins pour estimer le point
de V possédant la plus forte densité de minerais ? Nous reparlerons d’un problème similaire
dans la section 4.2 traitant de l’optimisation bayésienne.
3.7.4 Krigeage universel

Dans certains cas, le phénomène à étudier présente un tendance significative qui ne peut plus
être considérée comme une manifestation aléatoire. Un exemple typique peut être trouvé en m
étéorologie, si on cherche à interpoler des valeurs de températures (dans un volume
d’atmosphère). On sait alors qu’à une fluctuation spatiale aléatoire des températures (d
épendant essentiellement des conditions
météorologiques du moment) s’ajoute une dérive déterministe de -6◦ par tranche de 1000 m
d’altitude au dessus du sol.
L’hypothèse stationnaire n’est alors plus satisfaisante et on décompose le processus Z sous la

forme d’une somme de deux fonctions :
Z(x) = Y (x) + m(x) (3.23)
o u` Z est un processus stationnaire tel qu’étudié jusqu’à présent, et m est une fonction d
éterministe traduisant l’espérance du processus en un site x. Cependant, la covariance n’étant
pas sensible à la moyenne, on vérifie aisément que la fonction de covariance de Z ne dépend
que de la distance entre les sites. On modélise alors la tendance déterministe sous forme d’une
somme de fonctions de base :
174
l
m(x) = Lapfp(x) (3.24)
p=1
175
o u` les ap sont des coefficients réels et o u` chaque fonction de base fp ne dépend que d’une seule
coor- donnée. En règle générale, on prend des fonctions classiques comme des exponentielles ou des
monômes x, x2, x3,... et on fixe par convention la première fonction de base f1(x) = 1.
2
1
0
−
0 200 400 600 800 1000
Fig. 3.18. Un processus stochastique non-stationnaire Z (en noir), mo dé lisé comme somme
d’un processus stationnaire Y et d’une tendance déterministe m (en rouge).
Le krigeage universel consiste alors à estimer simultanément la tendance m et la fluctuation al

éatoire Y en x0. La résolution du problème s’effectue de manière similaire aux sections préc
édentes (en pratique, seule la contrainte d’universalité est foncièrement différente, d’o u` le
nom de cette variante du krigeage) et on obtient un système de n + l inconnues :
     
C(0) C(x1 − x2) ... C(x1 − xn) f 1(x1) ... fl(x1) w1 γ(x1 − x0)
C(x
 2 − x 1 ) C(0) ... C(x2 − xn) f 1(x2) ... fl(x2) w2 γ(x2 − x0)
. . . .
 . ... . .   . 
 C(x n − x1) C(x n − x2 ) ... C(x n − xn ) f (x
1
n ) ... fl
(x ) w
n   n = γ(x
 n − (3.25)
x0)
f 1(x1) f 1(x2) ... f 1(xn) 0 ...   λ f 1(x0)
 0  
 . . . . ...   
 . .   . . 
  fl
(x
f (x1)
l
f (x2)
l
... f (xn)
l
0 ... 0 0
λ
qui se généralise sans problème au cas intrinsèque en rempla¸cant comme à l’accoutumée C
par −γ. La variance de krigeage s’écrit :
n l
L L
Var[Z� − Z] = C(0) − wiC(xi − x0) − λpfp(x0) (3.26)
i p
On peut donc considérer le krigeage universel comme la combinaison d’une régression linéaire et
d’un krigeage ordinaire, permettant ainsi une estimation conjointe (et donc de qualité supérieure)
des poids de krigeage et des paramètres du modèle de tendance (même si les coefficients ap ne sont
pas explicitement retournés par la méthode). En particulier, en l’absence de tendance, seule la
fonction de base f 1 subsiste dans le modèle et les équations 3.25 et 3.26 se réduisent au
krigeage ordinaire.
176
Prenons un exemple dans un espace à deux dimensions, avec x0 = (x0, y0) ∈ R2 un point à interpoler
à partir d’un semis d’observations x1, x2,...xn. On suppose que la tendance est linéaire, i.e. la
moyenne
177
du processus sur la zone est un plan incliné. On a alors 3 fonctions de base f 1(x, y) = 1, f 2(x,
y) = x et f 3(x, y) = y. En notant hij = ||xi − xj ||2 o u` ||.||2 est la distance euclidienne classique
de R2, le système de krigeage s’écrit :
C(0) C(h) ... C(h1n) 1 x1 y1   

C(h21) C(0) ... C(h2n) 1 x2 y2  γ(h10)
 
w1
 . w γ(h20)

.. . . . . . ... .   .   

C(h ) C(h. ) .... C(h. ) 1 x y   .  . .  (3.27)
 n1 n2 nn n = γ(h )
w 30
1 1 ... 1n 0 ... 0  1 

 x1  λ  x0


. xn 0 ...  .   

x2 0 ... 0 λ2
. yn 
 y
y1 y2 
λ
En pratique, se pose toutefois la question de l’inférence du variogramme, puisque la tendance struc-

turelle vient s’ajouter à l’estimateur. En effet :
1 1 1t )2l 1 1t )2 l
γ� = E Y
(h) = Var[Zx+h − Zx] = Zx+h − x+h + mx+h − Yx −
12 ) l ) l 2 l
= 2 1 2
x+h − + x+h − mx + x+h mx+h − Yx+hmx − mx+h + mx
1t2 Yx 2 Y Yx
1t 1 x
E Y
E m E Y
1 t ) 2
= γ(h) + m(x + h) − m(x)
2
Le variogramme est donc biaisé d’une quantité fonction de la différence entre la valeur moyenne
prise par le processus en x et x + h. Lorsque la tendance varie lentement à l’échelle de la portée
du vari-
ogramme, on a m(x + h) ≈ m(x) et l’estimateur γ peut � être satisfaisant. Sinon, il faudra recourir à
d’autres stratégies. Nous en exposons quatre brièvement.
• Il y a des cas de figures o u` on sait a priori que la tendance est invariante par translation
suivant une des coordonnées du repère. Notamment, Emery (2001) mentionne le cas de la
bathymétrie sur le littoral. On sait que la tendance induit une augmentation de la
profondeur moyenne à mesure que le sondeur s’éloigne de la côte, mais on peut supposer
que les coupes de terrain par- allèles à la ligne de c ôte ne sont globalement pas soumise à
cette tendance. On peut donc estimer le variogramme uniquement suivant cette direction (qui
peut ê tre considérée sinon stationnaire, au moins intrinsèque), puis supposer le ph
énomène isotrope.
• On peut rechercher une zone sur laquelle on sait que la tendance est de valeur relativement
constante pour y estimer le variogramme à l’aide des méthodes classiques. Remarquons
que si la zone est une coupe à coordonnée constante dans le repère, on se ramène à la
première option.
• Une méthode itérative peut consister à calculer une première estimation m� de la tendance à
178
l’aide de méthodes déterministes classiques, souvent à base de moindres carrés (régression
poly- nomiales, splines de lissage...), puis à calculer le variogramme de la variable résidu Z
− m. On opère alors un krigeage universel sur la variable Z (Bourgine, 1995). �
• Enfin, une dernière option, qui est sans doute la plus satisfaisante d’un point de vue th
éorique, consiste à se placer dans le cadre de l’hypothèse intrinsèque d’ordre k, et de ne
considérer que des
179
accroissements insensibles à la tendance (quelque soit les valeurs prises par les paramètres
ap). Remarquons qu’il s’agit bien d’une généralisation de l’hypothèse intrinsèque qui elle
ne travaille que sur des combinaisons linéaires de poids nul, et est donc insensible à la
valeur moyenne. En retour, cet élargissement du champ théorique offre un choix plus
vaste de fonctions de covariance (appelées covariances généralisées) dont les
covariances de l’hypothèse stationnaire et les variogrammes de l’hypothèse intrinsèque ne
sont que des cas particuliers. On pourra trouver plus de détails sur ce vaste sujet dans
Droesbeke et al. (2006).
3.7.5 Krigeage avec dérive externe

Parfois, la tendance de le variable régionalisée est connue a priori, ou bien de manière
analytique (résultat de la théorie générale ou d’études spécifiques antérieures), ou alors
numériquement, par exemple si la variable d’intérêt fluctue autour d’une valeur dépendant li
énairement d’un autre variable ϕ (la dérive externe). Pour que le krigeage à dérive externe
(KDE) soit opérant, la fonction ϕ doit
être connue sur une grille de résolution beaucoup plus fine que celle du semis d’observations, de
sorte qu’il soit possible de connaˆıtre avec un bon niveau de précison la valeur prise par ϕ en tout
point du domaine (et en particulier au niveau des sites d’observations et des sites à interpoler).
Remarquons que contrairement au cas du krigeage universel, ici la tendance est parfaitement
connue et calculable numériquement. On modélise alors le processus sous la forme :
Z(x) = Y (x) + aϕ(x) + b
o u` Y est un processus stationnaire de moyenne nulle, a, b ∈ R sont des coeffcients inconnus et ϕ

est une fonction déterministe connue en tout point du domaine.
La connaissance de ϕ résulte en gé né r a l de l’observation d’une variable annexe. Bourgine (1995)
donne en particulier un exemple de cas d’application : en géothermie, la température T (x)
s’exprime par Y (x) + aP (x) + b o u` P est la profondeur d’un site x. D’une manière générale, le
KDE peut être utilisé pour calculer les fluctuations d’un variable autour d’un niveau de réf
érence déterministe.
Nous laissons au lecteur le soin de vérifier que l’écriture des contraintes de krigeage produit
un système d’équations identique à celui du krigeage ordinaire, avec un ligne supplémentaire
pour assurer l’abscence de biais, soit, en notant ϕi = ϕ(xi) :
C11   
C12 ... C1n 1 ϕ1 w1 C01
C21 C22 ... C2n 1 ϕ2  C 
  w
.   . 

 .. . . . . .   .  .  (3.28)
Cn1 Cn2. .... Cnn. 1. ϕn. C0n
 w = 
 
 1 1 ... 1 0 0  1 
ϕ1 ϕ2 ... ϕn 0 0 λ1 λ ϕ
Dans le cas o u` le modèle sous-jacent Y est intrinsèque C est remplacé par −γ.
Le KDE peut être particulièrement intéressant pour modéliser les discontinuités ( à condition
qu’elles soient connues a priori), comme illustré sur la figure 3.19.
180
Nous présentons ci-dessous un cas d’application concret issu des travaux de Peraudin (2003), dont
l’objet était d’étudier la concentration spatiale du benzène (C6H6) sur la ville de Rouen, à partir
de
181
● ●
●
●
● ● ● ●
● ● ● ●
● ● ●
● ●
30
● ●
20
●
● ● ●
● ● ●
10
● ●
300
●
● ● ● ●
● ● ● ●
● ● ●
● ●
20
● ●
10
●
● ● ●
● ● ●
250
20
15
10
5
0
−5
0 200 400 600 800 1000
Fig. 3.19. Comparaison du résultat du krigeage ordinaire � ZKO et du krigeage avec dérive
externe
� ZKDE pour un processus 1D stationnaire avec dérive m(x) = 20 × ]_x�300.
L’échantillonnage du semis d’observations a é t é o pé ré à une résolution de 1 point toutes
les 35 unités.
l’observation de 73 sites. L’estimation a é t é effectuée par krigeage avec dérive externe, en consid
érant une variable annexe, décrivant la densité de population et l’altitude du terrain, deux
facteurs qui peuvent avoir une influence indirecte sur la concentration de benzène. Le modèle est
alors éva l ué ob- jectivement par validation croisée (cf chapitre 4) et comparé aux estimations
obtenus par un krigeage ordinaire. Le résultat de l’étude met en évidence une meilleure pr
écision d’estimation avec le KDE.
Fig. 3.20. Estimation de la concentration de C6H6 par KO (au centre) et par KDE ( à droite) tenant
compte de la densité de population et de la topographie ( à gauche). Source : Peraudin (2003).
3.7.6 Autres variantes

Iles existent de nombreuses autres variantes et extensions du krigeage, que nous ne pouvons mal-
heureusement pas détailler ici. Nous citons cependant brièvement les plus utilisées en pratique :
• Krigeage aléatoire : lorsque les position des sites sont elle-mêmes significativement bruit
ées 9 , on peut avoir recours au krigeage aléatoire qui suppose que les sites xi sont al
éatoirement et indépendamment distribués dans un voisinage locale propre Vi. La r
ésolution, qui s’opère clas- siquement à partir des 4 contraintes usuelles, permet d’aboutir à
un système d’équations faisant intervenir le variogramme régularisé γ entre les
voisinages (cf section 3.7.3 sur le krigeage par blocs). Notons que ce bruit de positionnement
impacte également l’estimation du variogramme, et fait en général apparaˆıtre une pépite
artificielle (Emery, 2001).
9
Ce qui arrive souvent en bathymétrie par exemple comme le mentionne Emery (2001).
182
• Co-krigeage : nous avons vu comment utiliser le krigeage à dérive externe lorsque la
tendance globale de la variable est perturbée par une variable annexe. Toutefois
l’utilisation du KDE en nécessite la connaissance exhaustive (ou moins sur une grille de r
ésolution suffisamment fine). Lorsque cette variable annexe n’est connue qu’au niveau de
quelques sites d’observations, la géostatistique multivariée (Rivoirard, 2003) permet de
traiter le problème en estimant les quantités inconnues à l’aide de combinaisons lin
éaires mixtes de la variable d’intérêt Z et de la variable annexe Y :
m n
L L
z�(x 0 ) = viyi + w i zi (3.29)
i i
o u` m et n désignent respectivement les effectifs des observations des champs Y et Z.

Moyennant la connaissance des variogrammes γZ et γY ainsi que d’un variogramme croisé γY
Z traduisant les influences mutuelles des deux variables, on peut déterminer la solution z(x0)
non-biaisée et de variance minimale. Dans le cas du co-krigeage simple �et stationnaire, le
vecteur des poids inconnus : X = [v, w]T = [v1, v2, ...vn, w1, w2, ...wn]T est solution de
l’équation matricielle :
CY CY Z v C0
(3.30)
= 0Y
CY Z CZ w CX
o u` CAB(h) = γAB(∞)−γAB(h) dénote la covariance entre les deux variables A et B en deux sites
xi et xj séparés d’une distance h, CA = CAA et C0 est la covariance de la variable A entre un site
A
xi et le site à interpoler x0. Dans un cas défavorable, γY Z a un comportement pépitique pur
et la connaissance de la variable auxiliaire n’apporte rien à la résolution du problème.
L’équation 3.30 se généralise pour le cas du cokrigeage ordinaire (avec deux
multiplicateurs de Lagrange pour assurer la contrainte d’universalité) ainsi que dans le cas
strictement intrinsèque (avec l’emploi exclusif du variogramme).
Le co-krigeage se généralise facilement au cas de p variables (une variable d’intérêt Z1 et p

− 1 variables annexes Z2, Z3,...Zp). L’estimateur 3.29 devient alors :
n p
z(x0) = L wijzij (3.31)
L
� i=1 j=1
o u` wij est le poids affecté à la i-eme observation de la variable Zj, en général d’autant
plus fort et que les sites x0 et xi sont proches, et que les variables Z1 et Zj sont corrélées.
Remarquons que les sites ne co¨ıncident pas nécessairement entre les différentes variables.
Le cokrigeage constitue un outil de choix pour l’interpolation des champs vectoriels (avec des r
ésultats en général plus précis qu’un découpage en n champs scalaires). On le recontre fr
équemment dans les études liées
à la pollution atmosphérique, qui font souvent intervenir un grand nombre de variables corrél
ées telles que les concentrations d’une large gamme de particules et des paramètres mét
éorologiques (Deraisme et Bobbia, 2003). Notons toutefois que le nombre de variogrammes à
modéliser augmente quadratiquement avec p, ce qui limite en général le co-krigeage à
un maximum pratique d’une dizaine de variables annexes).
183
Pour illustrer cette méthode, nous nous appuyons à nouveau sur les travaux de Peraudin
(2003), qui a é t u d ié la concentration de dioxye d’azote (NO2) sur la région Ile-de-France
à partir des relevés fournis par 20 capteurs. Pour affiner les résultats, l’auteur propose
d’ajouter en variable auxiliaire le logarithme de la concentration en NOx.
Fig. 3.21.
E´ stimation de la concentration de NO2 par krigeage ordinaire ( à gauche) et par co-krigeage
croisé avec le logarithme des emissions de NOx ( à droite). Source : Peraudin (2003).
• Krigeage d’indicatrice : on peut utiliser toutes les techniques de krigeage vues préc
édemment pour interpoler une variable binaire, par exemple la présence d’un é lé m e nt
chimique dans
� le sol. La variable z estimée peut être considérée comme étant l’esp
érance (conditionnée aux observations) d’une fonction indicatrice valant 1 si l’élément
est présent et 0 sinon :
E[Z(x)] = 0 × P[Z(x) = 0] + 1 × P[Z(x) = 1] = P[Z(x) = 1]

z�(x
)=
Autrement, dit la valeur krigée en un site x peut être considérée comme la probabilité de pr
ésence de l’élément chimique en x sachant les observations. Remarquons toutefois que le
krigeage peut produire des valeurs en dehors de l’intervalle [0, 1], ce qui nécessite donc quelques
opérations de régularisation pour que la valeur krigée puisse légitimement être consid
érée comme une proba- bilité en tout point du domaine.
De manière similaire, si Z est une variable continue, comme par exemple la teneur de l’él
ément, on peut la transformer en une variable binaire avec la foncion indicatrice Yc(x) =
]_Z(x):(c, ou`
c ∈ R est un seuil arbitrairement fixé. La fonction Yc prend la valeur 0 en tous les sites o u` Z
dépasse c et 1 sinon. Si on calcule un krigeage de la variable Yc on obtient :
P[Y (x) = 1] = P[Z(x) :( c] = F (c)

y� (x) =c Y
(x)
L’estimation en x correspond donc à la valeur prise en c par la fonction de répartition de la

variable aléatoire Y (x). On peut alors réitérer l’opération pour une série de valeurs r
égulières de seuils : c1, c2,... cn, permettant ainsi de reconstruire la fonction de r
épartition de Z(x) en chaque site x, et ainsi d’en dériver des intervalles de confiance plus
robustes que ceux qu’on peut obtenir sous l’hypothèse de normalité avec la variance de
l’erreur de krigeage.
184
Remarquons toutefois que rien ne garantit la monotonie de la fonction de répartition ainsi
es- timée. En pratique, ici aussi, un post-traitement est nécessaire pour régulariser la
solution.
Mentionnons également le fait que l’obtention de F a un c ouˆ t de calcul important

puisqu’un variogramme doit être calculé pour chaque valeur c du seuil. Par ailleurs, la
fonction indicatrice Yc étant par nature discontinue, le variogramme ne pourra pas être
parabolique à l’origine, ce qui interdit d’emblée le choix des modèles gaussien et cubique.
• Soft-kriging : ou krigeage mou, il permet de combiner des observations formelles, avec des
informations plus vagues. Par exemple, en bathymétrie, on peut combiner des informations
de profondeur exactes (obtenues par sonar) avec des indications du type : en ce point, la
profondeur est supérieure à x m, dans le cas de figure ou la portée du sondeur n’a pas
permi d’y déterminer la profondeur. Le soft-kriging utilise en particulier des techniques de
krigeage sous contraintes d’inégalités. Précisons que lorsque le nombre de contraintes floues
reste mo déré, les techniques de simulations présentées dans le chapitre 4 pourront
avantageusement être employées.
3.8 Bilan
Dans ce chapitre nous avons vu comment utiliser la notion de processus stochastique pour estimer
une variable régionalisée observée en seulement quelques points. En particulier, nous avons
appris à utiliser les contraintes de krigeage pour dériver le système d’équations menant à un
vecteur de poids solution. Rappelons que ces contraintes, qui sont la marque de fabrique du
krigeage, sont toujours les mêmes : linéarité, autorisation, universalité et optimalité. Seules
les hypothèses sur le modèle du processus vont mener ces contraintes à produire des équations
différentes. En particulier, nous avons vu que le krigeage peut-être facilement personnalisé pour r
épondre à des besoins spécifiques.
Toutes les variantes du krigeage qui ont é t é étudiées dans ce chapitre ( à l’exception du
krigeage de la moyenne et du krigeage simple qui nécessitent impérativement une stationnarité du
processus pour que la notion de valeur moyenne du champ ait un sens), peuvent s’exprimer aussi bien
sous l’hypothèse stationnaire avec la covariance que sous l’hypothèse intrinsèque avec le
variogramme. De même, si les observations sont prélevées sur des zones d’emprise spatiale non-n
égligeable, on peut avoir recours au krigeage par blocs avec le variogramme régularisé. Toutes
ces caractéristiques sont combinables
à volonté. Ainsi, on peut parler de co-krigeage intrinsèque par blocs d’indicatrices, ce qui
illustre ici aussi la grande polyvalence de la méthode.
Par ailleurs, le krigeage permet de dériver une incertitude formelle sur la prédiction : la
variance de l’erreur d’estimation, ce qui est une propriété fondamentale des méthodes
probabilistes. De plus nous avons vu que cette variance ne dépend que de l’implantation des sites
d’observation, et pas des mesures effectivement collectées, ce qui permet en amont de contrôler la
qualité d’un plan d’expériences.
Enfin, si nous devions retenir une faiblesse capitale du krigeage, ce serait sans aucun doute son
inap- titude à estimer des quantités non-linéaires, ce qui combiné à sa propriété de lissage,
peut conduire
à des estimations assez éloignées de la vé r ité . Cette limitation va motiver le besoin de
simulations numériques, dont nous parlerons dans le chapitre suivant.
185
Chapter 4
Compléments
Dans ce dernier chapitre nous étudions quelques compléments utiles aux notions vues préc
édemment. En particulier, nous verrons une méthode objective de validation, qui peut
s’apparenter à la méthode dite Leave One Out Cross Validation en apprentissage automatique.
Nous verrons également comment utiliser le krigeage pour trouver la valeur optimale d’une fonction
numérique en minimisant le nombre d’observations nécessaires. Nous étudierons par ailleurs des
techniques de simulations, conditionnelles et non-conditionnelles, offrant une vaste gamme de
possibilités, allant de l’interpolation sous contrainte
à l’étude de propagation d’erreurs, en passant par l’estimation de quantités non-linéaires,
propriété capitale pour contourner les faiblesses du krigeage. Nous conclurons ce cette section
par une activité de synthèse, permettant de mettre en application (et de comparer) le krigeage
et les techniques de simulation, sur un problème concret.
4.1 La validation croisée

Comme nous l’avons vu dans le chapitre précédent, quelques soient les configurations
d’hypothèses retenues (processus stationnaire ou intrinsèque, à moyenne connue ou inconnue,
observations et variables à inférer ponctuelles ou par blocs, ...) il est possible de dériver une
incertitude formelle sur la prédiction : la variance de l’erreur d’estimation. Le krigeage
d’indicatrice nous permet mêm e d’aller plus loin et de connaˆıtre la fonction de répartition (et
donc un intervalle de confiance sur la prédiction) de la variable estimée en chaque point.
Cependant, la propriété 37 nous montre que les estimations du krigeage sont invariantes par
multiplication scalaire du variogramme tandis que la variance de l’erreur d’estimation se retrouve
affectée d’un facteur équivalent. Cela nous montre qu’il est toujours possible de réduire
artificiellement l’incertitude formelle de la prédiction en divisant le variogramme par une constante.
Une erreur dans la modélisation variographique (ou pire, en amont dans les hypothèses du
modèle) peut donc rapidement conduire à la double sanction d’une variable mal estimée et
d’une variance d’erreur optimistiquement faible. L’incertitude formelle doit donc être considérée
comme un indicateur a priori de précision intéressant pour valider en amont un plan d’exp
érimentation. Néanmoins le modèle et les estimations obtenues doivent toujours être pass
ées à l’épreuve d’une validation objective. C’est ce que nous étudions dans cette section.
On note x ∈ D un site quelconque du domaine, et X = [x1, x2, ...xn] ∈ Dn et Z = [z1, z2, ...zn] ∈ Rn
les vecteurs contenant respectivement les sites et les observations qui y ont é t é relevées. Ces deux
vecteurs ayant la mêm e taille, on peut les regrouper dans une matrice Y = [X, Z] à n lignes, et
telle que le vecteur ligne yi = (xi, zi) désigne les données relatives au site i. Pour une configura-
tion Θ de paramètres (modèle, palier, portée et pépite du variogramme, type de krigeage,
nombre d’observations utilisées pour chaque estimation...) on note f (x, Y, Θ) l’estimateur par
krigeage de la variable Z(x), à partir du semis d’observations Y et avec le paramétrage Θ.
Remarquons que le vecteur Θ peut alternativement être considéré comme un ensemble
186
d’hypothèses. Par exemple, on
187
peut avoir : Θ1 = [variogramme linéaire avec palier, pépite nulle, portée 200 m, moyenne
connue...] et Θ2 = [ variogramme cubique, pépite nulle, portée 250 m, moyenne inconnue... ].
L’objectif du problème consiste à trouver une mesure de qualité de prédiction permettant
d’évaluer et de comparer les performances respectives des sets1 d’hypothèses Θ1 et Θ2 afin de ne
retenir que le meilleur.
Dans le chapitre précédent, nous avons défini l’erreur d’estimation en x par la quantité (aléatoire) :
E(x) = Z� (x) − Z(x) = f (x, Y, Θ) − Z(x) (4.1)
Notons que l’erreur E est positive lorsque le krigeage sur-estime la valeur Z(x) et négative sinon.
Par ailleurs, il est intéressant de noter que E est lui-même un processsus stochastique,
clairement non- stationnaire (l’erreur étant statistiquement plus faible au voisinage des points du
semis d’observations).
Pour estimer l’erreur E en x, on doit bien évidemment connaˆıtre la valeur vraie Z(x). Sur des
problèmes de benchmarks expérimentaux, la véri té terrain est connue de manière quasi-
exhaustive, et les erreurs de toutes les grandeurs physiquement mesurables peuvent être évalu
ées. En revanche, dans un contexte opérationnel, la valeur vraie est justement inconnue
puisqu’on cherche à l’estimer. La validation croisée apporte une solution à se problème.
On note Y−i le jeu de données Y dans lequel on a supprimé la ligne i. Le principe consiste alors
à réestimer la valeur Zi prise en xi à partir des valeurs Z−i prises en tous les autres sites.
L’erreur d’estimation 4.1 se calcule alors par :
ELOOCV (xi) = Z� (x i ) − Z(xi) = f (xi, Y−i, Θ) − Z(xi) (4.2)
La varance de l’erreur commise est alors calculée en moyennant 4.2 sur tous les sites observés :
n 1
1 l
MSE = L 2
f (xi, Y−i, Θ) − Z(xi) (4.3)
n
i=1
et on peut calculer un écart-type d’estimation en extrayant la racine carrée de 4.3.
Il s’agit d’un cas particulier de validation croisée (CV). Dans une validation croisée à k folds
on décompose l’ensemble des observations disponibles en k groupes de tailles homogènes. On utilise
alors k − 1 groupes pour estimer les valeurs prises par le groupe restant, et on calcule l’erreur
d’estimation
en comparant les valeurs prédites aux valeurs observées. Le processus est r é p é t é (k fois au total)
jusqu’à ce que toutes les observations aient é t é réestimées une fois. La validation 4.3 est
donc un cas particulier de validation croisée avec : k = n. Comme chaque groupe ne comporte
qu’une seule observation, on parle de leave-one-out cross validation (LOOCV).
Il existe une vaste littérature sur le sujet de la validation croisée (Bengio et Grandvalet, 2004),
en particulier sur le contrôle statistique de son biais et de sa variance. En général, il est admis
que plus les groupes sont d’effectifs réduits moins l’erreur d’estimation est biaisée, ce qui peut se
comprendre
1En théorie, l’ensemble des valeurs possibles de Θ est infini, et on ne peut comparer qu’un nombre fini de sets Θ ,
1
Θ2,... Θk, qui seront choisis de manière a` balayer l’ensemble des hypothèses crédibles pour le phénomène a` modéliser.
188
intuitivement par le fait que Y−i ≈ Y et donc :
ELOOCV (xi) = f (xi, Y−i, Θ) − Z(xi) ≈ f (xi, Y, Θ) − Z(xi) = E(xi) (4.4)
En revanche, dans cette configuration, les estimateurs sont fortement corrélés, i.e. même pour i /= j :
f (x, Y−i, Θ) ≈ f (x, Y−j, Θ), et donc la variance de ELOOCV tend à augmenter (Efron, 1983).
Comme bien souvent, le compromis biais-variance 1.14 suggère que la configuration optimale
correspond à des groupes d’effectif intermédiaire. En pratique, la conclusion semble moins
directe, et est principalement fonction des dépendances entre les échantillons observés. Plusieurs
travaux (Burman, 1989; Tian et al., 2007; Zhang et Yang, 2015) ont relevé des cas o u` biais et
variances diminuent de manière monotone avec le nombre de groupes utilisés, indiquant ainsi que
le LOOCV peut être optimal.
Remarquons également que la plupart de ces considérations concernent la communauté de

l’apprentissage machine, dans laquelle les échantillons utilisés peuvent bien souvent être considérés
comme indépendants, ce qui n’est pas le cas en Géostatistique.
En pratique, comme nous allons le voir dans l’activité suivante, avant de former la différence 4.2,
on stocke les résultats dans deux vecteurs
� : Z, contenant les estimations par krigeage et Z
contenant les valeurs réelles observées. On peut alors extraire de nombreux indicateurs de
performance :
Le coefficient de corrélation ρ entre les �

•
` vecteurs Z et Z. Lorsque l’estimation est
aparfaite,
z�i = zi on
sur tous les sites, et donc ρ = 1. A l’inverse, plus ρ est proche de zér o (il peut même
être négatif dans des cas particulièrement défavorables) moins l’estimation est
satisfaisante. Le calcul de ρ s’accompagne souvent d’une représentation graphique du nuage �
de points (zi, zi).
En R, on peut le calculer avec la commande cor(x,y). Lorsque le nombre de données est
faible et qu’on souhaite caractériser la corrélation à l’aide d’indicateurs statistiques plus
poussés, tels que la p-valeur qui permet de s’assurer que la corrélation obtenue n’est pas
due au hasard, on pourra utiliser l’instruction cor.test(x,y).
• La distribution des erreurs peut s’obtenir avec un histogramme hist(E) (en supposant
que E est le vecteur contenant
� les écarts zi − zi ou avec une estimation lissée par noyaux
( à manipuler avec précaution) : . On peut calculer de nombreux indicateurs à
partir de density
E, notamment le biais mean(E), l’erreur L1 mean(abs(E)), le RMSE sqrt(mean(E**2)) (aussi ap-
(E)
p elée erreur L2), les valeurs extrêmes min(E) et max(E), les quantiles quantile(E) et les
indices des sites contenant des erreurs anormalement éle vées which(E > 1.96*sd(E)) ( o u`
ici, le facteur 1.96 est choisi en supposant la distribution des erreurs comme étant
gaussienne). On pourra
également représenter ces erreurs sur la carte pour inspecter leur distribution spatiale. Si
les erreurs anormales sont groupées sur la carte, cela peut être le signe d’une valeur ab
érante dans les observations, ou bien encore de l’invalidité de l’hypothèse de stationnarité
du processus.
• La part de variance expliquée

:
L,n
(zi − zi)2
�
1 L in=1
, i (z�i −
189
o u` z désigne la moyenne des valeurs de zi. Cet indicateur permet de mesurer le rapport de
l’erreur commise avant et après l’estimation par krigeage (étant entendu qu’avant l’estimation,
190
la meilleure prédiction qui puisse être faite est bien la moyenne z). Ainsi, le d
énominateur de la fraction indique l’erreur commise si on affectait en chaque site la valeur
moyenne de tous les sites (c’est la variabilité intrinsèque de Z). Le numérateur quantifie
lui l’erreur résiduelle.
i
• Enfin, l’erreur normalisée

:
|zi�− zi|
κ i= σ� i
o u`�σi designe la racine carrée de la variance de l’erreur d’estimation pour le site i. Le

coefficient κi permet donc de mesurer pour chaque site l’adéquation de l’estimation
effectuée avec son incertitude formelle (éva luée elle aussi par le krigeage). Si l’erreur zi
�
− zi est trop grande
�
relativement à l’écart-type σi, cela signifie que la variance d’estimation est trop optimiste, ce
qui est le signe d’une mauvaise analyse variographique. En général, on se contente d’examiner
la proportion p des κi supérieurs à A` nouveau, ici aussi, sous l’hypothèse de normalité
1.96.
des erreurs, cette proportion ne devrait pas dépasser 5%. Lorsque le nombre d’échantillons est
important (typiquement plusieurs milliers, on peut aussi évaluer la proportion des κi supérieurs
à 3, et on s’assurera qu’elle est inférieure à 0.3 %. Par ailleurs, la réprésentation
spatiale et fréquentielle des κi peut permettre d’identifier des données aberrantes.
Il revient alors à l’utilisateur de définir le ou les indicateurs les plus pertinents pour son
application, afin de définir une métrique d’évaluation lui permettant de retenir le modèle le
plus performant. Par exemple, si on retient la métrique L1, le choix de l’hypothèses optimale Θ∗
se fera par :
Θ∗ = argmin 1 Ln
If (x , , Θ) − z(x )I (4.5)
Θ
n
Y i − i
o u` H = {Θ1, Θ2, ...Θk} est un ensemble réduit d’hypothèses sur lesquels on opère la comparaison.
Remarquons pour finir que la validation croisée LOOCV possède un couˆ t de calcul important
(notamment d uˆ au fait que la matrice principale doit être inversée pour chaque estimation).
Dans certains cas, si le nombre de données disponibles est considérable, on pourra opérer la
procédure de LOOCV sur un sous-échantillon des sites.
Activité IX. La validation croisée en pratique

Dans cette activité, nous reprenons l’exemple d’interpolation d’un MNT étu d ié dans l’activité
VIII et nous illustrons de manière concrète toutes les métriques brièvement présentées ci-
dessus.
Nous commen¸cons par reconditionner le code pour l’adapter à cette activité. En premier lieu,
nous récupérons la portion des instructions permettant de lire le fichier de points
d’observations et d’en transformer les coordonnées dans un repère métrique local. En
particulier, pour simplifier le code, nous renommons les colonnes de la strcuture sites en x, y.
191
# Import des fichier
obs = read.csv("sample_data2.txt", sep=",", header=1)
192
# Conversion en coordonnees planes
R = 6378137.0
obs$longitude = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
obs$latitude = (obs$latitude - min(obs$latitude))*R
# Table des sites

sites = obs[c("longitude", "latitude")]; names(sites) = c("x","y")
# Table des observations

Z = obs["meters"]; Z = rbind(Z,0)
Nous utilisons à présent un variogramme linéaire de portée hmax = 7.7 km avec palier C = 395
m2, comme nous l’avions déterminé sur la figure 2.18 et dans la section 2.4.2.
h[which(h > 7700)] = 7700; h=0.051*h
return(h)
}
La pente de γ est calculée par : C/hmax = 0.051 m.
Pour simplifier la suite des manipulations, nous allons créer la fonction f (x, Y, Θ) sous la forme
estimate(x,y,sites,Z), avec x un site du domaine (de coordonnées x, y dans le code), Y un
ensemble de semis d’observations (sites pour les coordonnées des sites et Z pour les observations
qui y on é t é effectuées) et Θ les paramètres du variogramme (qui ici n’interviennent qu’à
travers la fonction globale vario). Remarquons que, tout comme dans l’activité VIII, le vecteur Z
est c om p lété par un 0 en prévision de la produit scalaire final avec le multiplicateur de
Lagrange.
estimate = function(x,y,sites,Z){
N = nrow(sites)
# Calcul de la matrice de distance

D = data.matrix(dist(sites, diag=TRUE, upper=TRUE))
D = vario(D); D = rbind(D, rep(1,N)); D = cbind(D, c(rep(1,N),0))
I = solve(D)
# Distance entre les sites et (x,y)

D0 = sqrt((sites$x - x)**2+(sites$y - y)**2)
D0 = vario(D0); D0= c(D0, 1)
# Resolution
W = (I %*% D0)
return(c(sum(W*Z),sum(W*D0) - W[N+1]))
La fonction estimate retourne la valeur prédite par krigeage�z(x) ainsi que sa variance associée.
193
Il ne reste alors plus qu’à faire tourner une boucle sur les points du semis d’observations. Pour
chaque point (de coordonnées (sites$x,sites$y) et en lequel a é t é observé la valeur Z[i]), on r
éestime la valeur prise par Z à partir des données amputées du site i : sites[-i] et Z[-i].
Script 10. La validation croisée en pratique [code8.r]
N = nrow(sites) zhat = rep(0,N) variance = rep(0,N) for (i in 1:N){

pourcent = floor(100*i/N)
cat("Computing interpolation : ",min(pourcent,100), "%\r") prediction = estimate(sites$x[i], sites
variance[i] = prediction[2]
}
zvrai = Z[1:N,] e = zvrai-zhat cat("\r\n")
cat("Cross validation done\r\n")
A` l’issue de l’exécution de ce morceau de code, les vecteurs zvrai et zhat contiennent respectivement
le observations (réelles) des N sites et les valeurs réestimées par krigeage. Idéalement, on
souhaite que ces deux vecteurs soient les plus similaires possibles. On forme alors leur différence e
= zvrai-zhat, le vecteur d’erreur. Remarquons que le calcul peut prendre un certain temps. Il est
conseillé en premier lieu d’utiliser un jeu de données ne contenant pas plus de 500 observations.
Nous avons alors tous les outils nécessaires pour étudier la précision de la procédure
d’interpolation de l’activité VIII.
0
.
●●
●●●
● ● ●
● ●
●
●
●
●●
●
●
80
●
●
●●
●
●●
Freque
●●
550600650700
0
Den
●
.
60
●●● ●
z
●●
●●
●● ●
● ●
●●●
● ●●
40
● ●●
●●●● ●
●●●
●●●
●●●
0
.
●●
●
● ●●
20
●●●
●●●● ●
● ●●● ●
●●
●
●●●●●●●
●●●
●●●
0
●
●●●●
0
.
● ●
●●
● ●●
●●●
●●●●●
●●●
●●●●
550 600 650 700 −15 −10 −5 0 5 10 15 −15 −10 −5 0 5 10 15

●●●
●● ●
● ●●●●
●●●●●
●●●●●
●●
●●
zvrai e N = 432 Bandwidth = 0.3117

●●●
●●●
●●●●
●●●●●
●●
●
●
Fig. 4.1.
A` gauche : droite de corrélation entre les valeurs réelles (en abscisse) et prédites par
krigeage (en ordonnée). Au centre : histogramme des erreurs d’estimation pour k = 30 classes.
A` droite : densité de probabilité des erreurs d’estimation.
En premier lieu, on commence par représenter le nuage de points (zi, z�i), à l’aide de l’instruction
plot(zvrai, zhat, pch=16, cex=.5). Pour aider la visualisation, on peut également représenter
la première bissectrice du repère : lines(1:max(zvrai), 1:max(zvrai), lty=2).
194
Alternativement, on peut représenter l’histogramme2 des erreurs hist(e,k), o u` k dénote le nombre
de classes souhaitées, ou la densité des erreurs plot(density(e)) .
Remarquons que la densité de probabilité des erreurs est calculée par la méthode des noyaux
(Rosen- blatt, 1956; Parzen, 1962), qui s’apparente un peu à ce qui a é t é fait dans l’activité VI :
les données sont lissées à l’aide d’une fonction gaussienne. La largeur du noyau est un
paramètre c lé de la procédure, et est déterminée à partir des données (Nadaraya,
1965). Dans le cas des données du fichier sample data2.txt, le noyau de lissage de la figure 4.1 a
une largeur de 0.31 m environ. Plus le nombre de données augmente, plus le noyau a tendance à
être compact et moins les données sont lissées par l’estimateur de la densité.
On peut alors calculer 4 indicateurs intéressants : le biais (3 cm), la moyenne des erreurs non-sign
ées (1.17 m), la racine carrée de l’erreur quadratique moyenne (2.25 m) et le coefficient de corr
élation (99.87 %). L’écart important résidant entre l’erreur L1 et l’erreur L2 indique la pr
ésence d’outliers dans l’estimation (i.e. d’erreurs anormalement grandes), qu’il faudra investiguer par
la suite. La faible valeur de biais confirme que la contrainte d’universalité du krigeage a bien é t é
respectée.
bias = mean(e) # Biais

emoy = sqrt(mean(abs(e))) # Erreur L1
rmse = sqrt(mean(e**2)) # Erreur
L2 rho = cor(zvrai, zhat) # Biais
On peut également calculer la part de variance expliquée (99.7 %) :
var_explained = 1-mean(e**2)/var(zvrai)
On recherche dans un second temps les erreurs anormalement élevées, c’est-à - dire les indices des
points en lesquels l’erreur d’estimation est supérieur à 1.96 fois l’écart-type des erreurs. On repr
ésente alors la distribution spatiale de ces sites (par rapport à tous les autres sites) pour rechercher
un motif singulier.
id = which(e > 1.96*rmse)

plot(sites, pch=3); points(sites[id,], pch=16)
●
● ●
1
1
5
100015002000
e
y
●
0
● ●
●
−10−5
●
●
0500
0 500 1000 1500 550 600 650 700
x zvrai
Fig. 4.2.
A` gauche : répartition des sites l’erreur d’estimation est anormalement é l e vé e (en
ou`
losange plein). A` droite : évolution de l’erreur en fonction de la valeur vraie.
2
La fonction hist permet a` la fois le calcul et le tracé de l’histogramme. La fonction density en revanche, nécessite
d’être complétée par un appel a` plot.
195
On trouve 10 sites en lesquels l’erreur est supérieure à 1.96 × rmse = 4.42 m. La figure 4.2 ( à
gauche) en particulier, montre que les points concernés sont situés en bord de domaine, ce qui
explique les
erreurs observées. On note cependant deux clusters de points, au milieu à gauche, et en bas à
droite, ce qui peut inciter à aller vérifier si un des points voisins n’a pas é t é mal saisi.
Il peut être instructif également de réprésenter les erreurs commises en fonction de la valeur vraie
(fig. 4.2 à droite) avec la commande plot(zvrai, e). Sur ce graphique, on observe que l’erreur est en g
é né r a l d’autant plus é le vée que la valeur à estimer est elle-même élevée. On parle d’effet de
proportionnalité (Wackernagel, 2013b).
On peut généraliser le principe du graphique de gauche de la figure 4.2. Puisqu’on connaˆıt

l’erreur commise en chaque site xi du domaine, on peut calculer une estimation par krigeage de
l’erreur sur l’ensemble du domaine. Pour connaˆıtre l’erreur en un site (x,y) quelconque, on cherche
à inter-
poler les observations d’erreurs : e(xi) = z(x
� i) − z(xi). Pour ce faire, il suffit d’appeler la fonction
estimate(x,y,sites,E), o u` E est un vecteur analogue à Z, dans lequel les valeurs d’altitudes sont rem-
placées par les erreurs d’estimations calculées par la validation croisée. On donne ci-dessous (fig.
4.3) les résultat obtenu.
On vérifie que l’erreur est à peu près homogène à l’intérieur du domaine. En particulier, les
zones o u` l’erreur est la plus faible (en jaune orangé) correspondent aux zones de plus forte densit
é de points.
1
+6.0 krigeage ppv

1
+4.0
0
+2.0
1
Dens
0.0
1
-2.0
1
-4.0
8
0
-6.0
0
6
0
Erreur (m) −15−10−5 0 5 10 15

200 400 600 800 1000 1200 1400
E (m) Erreur (m)
Fig. 4.3. A` gauche : interpolation par krigeage ordinaire des erreurs calculées par validation croisée.
Le semis de points d’observations est représenté par des croix. A` droite : densités des erreurs
commises par le krigeage (en trait plein) et par la méthode des plus proches voisins (en pointill
é)
On peut également comparer les résultats obtenus avec une méthode d’interpolation déterministe,
par exemple celle du plus proche voisin (ppv), qui consiste à affecter en un site x, la valeur observ
ée Z(xi) du site i le plus proche de x. Ici, on ne cherche pas à effectuer l’interpolation ppv sur tout
le champ mais seulement au niveau des sites. Pour ce faire, on commence par écrire une fonction
argmin prenant en entrée un vecteur de nombres et retournant l’indice du minimum :
argmin = function(x){return(which.min(as.vector(x)))}
Par exemple, si x = c(5,8,7,6,4,1,2,4,8,6), alors argmin(x) va retourner la valeur 6, correspondant

à l’indice de x[6] = 1 qui est bien le minimum de la série. Notons que si x contient en plusieurs
exemplaires le nombre qui réalise le minimum, alors a fonction retourne arbitrairement le plus
petit indice de ces nombres.
On calcule par la
suite la matrice des distances entre tous les sites : M =
data.matrix(dist(sites)). Ainsi, le vecteur ligne M[i,] contient les distances séparant le site xi à
196
tous les autres sites. En passant ce vecteur dans la fonction argmin on doit pouvoir récupérer le
site le plus proche. Mais il faut être vigilant : les entrées diagonales de la matrice M valent 0, et
donc l’application directe de argmin à M[i,]
197
va nécessairement renvoyer l’entier i (en supposant qu’il n’y a pas deux sites confondus). On va donc
artificiellement augmenter la diagonale de M, par exemple en posant :
M[which(M == 0)] = max(M)+1
qui va avoir pour effet de : (1) récupérer la distance maximale entre deux sites, (2) l’incr
émenter d’une unité, et enfin (3) d’affecter le résultat obtenu aux éléments diagonaux de M. De
cette manière,
l’instruction argmin(M[i,]) renverra bien le site xj (avec j /= i) le plus proche de xi. La procédure de
validation croisée de la méthode ppv est alors immédiate, en bouclant sur les sites :
eppv = rep(0,N)
for (i in 1:N){
eppv[i] = Z[argmin(M[i,]),]-Z[i,]
}
En effet, si argmin(M[i,]) est l’indice du ppv de xi, alors, Z[argmin(M[i,]),] est l’estimation fppv(xi,
Y−i) de z(xi) à partir des données Y dont on a supprimé la i-eme ligne. Il ne reste alors plus qu’à
représenter
(sur la m ê m u` e les histogrammes lissés des vecteurs d’erreur e et eppv :
plot(density(e))
lines(density(eppv), lty=2)
Le résultat obtenu est donné en figure 4.3 ( à droite). En particulier, on peut comparer le
RMSE de la procédure de krigeage (2.25 m pour mémoire) avec celui du ppv : 7.36 m, ce qui
montre la nette supériorité du krigeage, y compris avec un choix arbitraire de variogramme. De
même, on remarque que contrairement au krigeage, la méthode ppv est significativement biais
ée (-1.13 m), ce qui peut probablement s’expliquer par la géométrie particulière des sites sur la
surface du terrain.
Inspectons à présent la variance formelle de l’erreur d’estimation. Pour ce faire, on commence

par former le vecteur κ des résidus normalisés : kap = e/sqrt(variance). On cherche alors les
outliers, avec la commande which(kap > 1.96), qui retourne un vecteur de 14 éléments, ce qui
signifie que 96.7% des erreurs sont comprises dans l’intervalle de confiance théorique à 95%, sugg
érant ainsi que les incer-
titudes formelles éval ué es par le krigeage sont relativement A` nouveau, une représentation
fiables.
graphique similaire à celle de la figure 4.2 permet de mettre en évidence le fait que les sites concern
és sont situés en bord de domaine. Ici aussi, on identifie la présence de deux clusters de valeurs
erronées.
0
2
●
● ● ●
0
.
1
0
.
Den
(m
N
●
0
●
.
● ●
0
.
●
●
●
0
●
.
0
0 500 1000 1500 −5 0 5
E (m) Erreur (m)
Fig. 4.4. A` gauche : répartition des sites o u` l’erreur d’estimation est anormalement élevée (κ ∈
198
[1.96; 3[ en bleu et κ � 3 en rouge). A` droite : distribution des erreurs normalisées κ.
199
4.2 Application à l’optimisation bayésienne
Dans cette section, nous allons présenter une utilisation concrète du krigeage pour trouver le
maximum d’une fonction een minimisant le nombre d’observations effectuées.
4.2.1 Introduction
Formellement, on se donne une fonction inconnuep f : X → R, o u` X représente l’espace des
paramètres de la fonction. En gé né r a l X ⊆ R . On note f ∗ la valeur optimale de f , et x∗ un
paramétrage de X qui permet d’atteindre f :
∗
x∗ argmax f (x) f ∗ = f (x∗)

∈ x∈X
Dans la suite nous supposerons que est un domaine b orné de Rp, et que la fonction f est
continue, si bien que x∗ existe et f∗ X
a une valeur finie. L’objectif du problème consiste à trouver
le paramétrage
optimal x∗ en minimisant le nombre n d’observations .
La démarche employée ici consistera, pour chaque itération, à analyser les n observations
effectuées jusque lors, à affiner les informations disponibles sur f , puis à choisir un nouveau
point xn+1 à observer. Nous verrons par la suite que le choix de xn+1 peut répondre à
plusieurs critères différents, mais en règle générale, il vise à répondre à 2 exigences
complémentaires :
• Exploitation : on cherche à positionner xn+1 dans une zone à fort potentiel, i.e. dans une
zone o u` ont déjà é té observées des valeurs élevées de f .
• Exploration : on veut avoir une connaissance grossière du paysage f (X ), ce qui n

écessite de positionner des sites d’observations dans les zones peu connues.
De manière plus concise, on cherche à placer l’observation xn+1 dans des zones qui sont à la
fois prometteuses et peu observées. Nous verrons que ces deux objectifs en apparence
contradictoires peuvent être combinés de manière élégante à l’aide des fonctions dites de
bande de confiance.
Le problème du bandit manchot constitue certainement le problème modèle le plus simple : un

joueur se trouve face à une rangée de machines à sous, qu’il peut utiliser N fois, en r
épartissant ses essais de la manière qu’il souhaite entre les différentes machines. Chaque
machine possède une espérance de gain fixée et inconnue du joueur. Quelle stratégie le joueur
doit-il adopter pour maximiser ses gains ?
Il est intéressant de remarquer que cette stratégie de compromis exploitation/exploration

(parfois aussi appelée intensification/diversification) est présente dans de nombreux processus
naturels. Par exemple, en génétique, la théorie de Darwin nous enseigne que seules les
gènes les plus adaptés
à l’environnement survivent aux générations suivantes, ce qui constitue une forme
d’exploitation, complétée par l’exploration des mutations aléatoires. Les stratégies de chasse et
de recherche de nour- riture de nombreuses espèces animales sont également fondées sur ce
principe (Mehlhorn et al., 2015).
Puisque le choix du plan d’expérience est fait simultanément à la procédure d’interpolation, on

parle d’optimisation séquentielle. Par ailleurs, le processus de recherche consiste à considérer f
200
comme une fonction aléatoire, puis à inférer ses paramètres de manière itérative avec les
données disponibles au fil de l’eau, d’ou` l’appellation d’optimisation bayésienne.
201
Remarquons que si on cherche à minimiser la fonction f , toutes les considérations qui suivent peuvent
être transposées sans problème en considérant la fonction g = −f .
Donnons en premier lieu quelques exemples concrets motivant le recours à l’optimisation séquentielle.
• Dans le domaine des essais cliniques, on peut souhaiter déterminer un protocole de soin optimal
pour traiter une maladie. Chaque protocole est défini par un certains nombre de
paramètres (composition et grammage du médicament, posologie, soins annexes...) et la r
éponse du patient est mesurée à l’issue du traitement. De par la nature statistique des
évaluations, chaque test nécessite plusieurs dizaines de patients, et un temps consid
érable pour suivre le protocole et analyser les résultats. Dans ces conditions, il n’est pas
envisageable de tester tous les proto- coles possibles, et l’optimisation bayésienne nous
permettra de définir séquentiellement un plan
d’expérimentation X = {x1, x2,. . .xn}, de sorte à trouver un protocole quasi-optimal x∗ ∈ X.
• En ingéniérie, et en particulier dans l’étude de la résistance des matériaux, chaque exp
érimentation peut nécessiter la destruction d’un ouvrage, occasionnant ainsi des frais colossaux
pour l’entreprise. Par exemple, trouver la structure x d’un véhicule permettant de limiter les d
é g â t s causés par un choc frontal, nécessite de sacrifier n véhicules avec différentes
structures x1, x2,... xn, et
évaluer dans chaque cas les dé g â ts causés f (x1), f (x2),... f (xn). On comprend alors ais
ément l’importance de minimiser le nombre n d’expérimentations.
• En ingéniérie logicielle ou dans la recherche scientifique, on peut chercher à optimiser les

performances d’un code f travaillant à partir d’un ensemble x d’arguments. Si le
programme est relativement long à exécuter, on ne peut raisonnablement pas tester f pour
tous les arguments x possibles. Ici aussi, l’optimisation séquentielle permettra de trouver un
paramétrage satisfaisant du code tout en minimisant le temps de conception. On parle
d’hyper-paramétrage.
D’une manière générale, l’optimisation bayésienne est un outil de choix dans tous les problèmes de
recherche dans un espace dans lequel la collecte d’informations est longue, couˆteuse ou risquée.
4.2.2 Principe
Pour illustrer la méthode, nous prendrons l’exemple d’une fonction f à une dimension, dont nous
supposerons disposer de 3 observations z1, z2 et z3 en trois points donnés x1, x2 et x3.
2
●
0
●
f
●
−
−
0 200 400 600 800 1000
Fig. 4.5. Une fonction uni-dimensionnelle f et trois échantillons aléatoires x1, x2, x3 ∈ X .
202
Dans un premier temps nous considérerons que ces observations ne sont pas entâ chées
d’erreurs, autrement dit on a les égalités exactes zi = f (xi) pour i = 1, 2, 3. Par ailleurs, on
suppose avoir un modèle de variogramme γ caractérisant le processus stochastique dont f est
une réalisation.
Connaissant γ ainsi qu’un semis de points d’observations, on peut caluler une estimation de f par
krigeage en tout point du domaine X . On note f� cette estimation et σ l’écart-type de l’erreur
d’estimation. Insistons bien sur le fait que f et
� σ sont des fonctions définie sur le même support
que f . On les représente sur la figure 4.6
2
●
0
●
f
●
−
−
0 200 400 600 800 1000
Fig. 4.6. La fonction f inconnue (en pointillé noir), son estimation �f par krigeage à l’aide
des 3 premiers points de données (en rouge) et la bande de confiance asscoiée (en vert).
On forme alors deux fonctions, traditionnellement notées U (pour UCB ou Upper Confidence Band
) et L (pour LCB ou Lower Confidence Band ) :
U (x) = f�(x) +
qσ(x) (4.6)
L(x) = f�(x) −
qσ(x)
o u` q > 0 est un coefficient de sureté. Plus q est grand, plus la marge d’erreur to lérée est
grande. La zone comprise entre les courbes L et U est appelée la bande de�confiance de f :
pour un point x donné quelconque, la valeur vraie de f (x) appartient à l’intervalle [L(x); U (x)]
avec une probabilité dépendant uniquement du coefficient de sureté. En particulier, sous
l’hypothèse normale et pour q = 1.96, cette probabilité vaut 95%.
On choisit alors un point x4 qui maximise la bande de confiance supérieure, autrement dit, on
cherche le site qui a le plus haut potentiel : x4 = 732 (ligne verticale pointillée sur la fig. 4.6). On
mesure alors la valeur prise par la fonction en x4 et on ajoute cette nouvelle donnée aux
observations, ce qui permet d’effectuer une nouvelle estimation par krigeage de f , puis d’en d
éduire un nouveau point x5 et ainsi de suite.
Formellement, l’algorithme effectue à chaque itération les opérations suivantes :
• Calcul de fk,�l’estimation par krigeage effectuée à l’aide des k premiers points observés, et de
σk, l’écart-type correspondant.
203
• Détermination du point à observer à l’étape suivante :
xk+1 argmax fk(x) + qσk(x) (4.7)

�∈
x∈X
• Calcul de f (xk+1) et ajout dans les données.
L’algorithme est initialisé en tirant 2 ou 3 sites aléatoirement et se termine lorsque l’une des
conditions suivantes est remplie :
• L’algorithme a convergé, i.e. la distance (dans X ) séparant deux points consécutifs est inférieure
à un critère prédéterminé : ||xk+1 − xk|| :( ε.
• Le nombre maximal d’itération a é t é atteint.
• Une valeur f (xk) satisfaisante a é t é obtenue.
La figure 4.7 illustre le déroulement de 6 itérations de l’algorithme à partir de l’évaluation des 3

premiers points. Pour un critère d’arrêt fixé à ε = 1, la convergence est atteinte en x10 = 579,
soit après 10 évaluations de la fonction objectif f . La position du maximum vrai de la
fonction est x∗ = 578,
et l’erreur commise par l’algorithme est de l’ordre de la tolérance ε. L’erreur sur f ∗ , rapportée à
l’amplitude de f , est de l’ordre de 0.02%. Pour obtenir un résultat d’une qualité équivalente avec une
recherche exhaustive, il aurait fallut de l’ordre d’un millier d’évaluations de la fonction objectif.
● ● ●
● ●
2
● ●
● ●
−6−4−20
● ● ● ●
● ●
2
● ●
● ●
● ●
−6−4−20
● ● ●
● ●
● ● ● ●
● ●
2
● ●
● ●
● ●
−6−4−20
0 200 400 600 800 1000 0 200 400 600 800 1000
Fig. 4.7. 6 itérations de l’algorithme (après évaluations des 3 premiers points) pour un
variogramme gaussien de portée 100 et un coefficient de sureté q = 3.
On remarquera que le coefficient de sureté q est un pondérateur entre les stratégies

d’exploitation et d’exploration. Lorsque q est faible, la bande de confiance est relativement
compacte autour de l’estimation, et les zones à fort potentiel ont tendance à être des zones o u`
l’estimation est elle-même
élev ée.
204
A`
l’extr
ême,
si q =
0, et
l’équ
ation
4.7 d
é g
é nè
r e en
une
recher
che
du
point
maxi
misan
t
205
l’estimateur f� sans tenir compte de l’incertitude σ. L’algorithme a ainsi tendance à échantillonner les
zones de valeurs élevées, et donc à favoriser A
l’inverse, quand q → ∞,
est prépondérante dans le calcul de la bande U , l’algorithme ne tient plus compte de �
l’estimateur f et adopte une stratégie purement exploratoire.
A` ce titre il est instructif de rejouer le scénario d’optimisation de la figure 4.7 pour un coefficient de
sureté q = 2. Le résultat est représenté sur la figure 4.8 et montre que l’algorithme converge
vers la même valeur optimale, mais suivant un schéma différent. En particulier, il commence
par exploiter plus intensivement la première zone prometteuse (aux alentours de x = 800) avant
d’explorer la zone contenant le maximum final. La convergence est dans ce cas légèrement plus
longue et est atteinte après 12 évaluations de f .
●
2
● ● ● ●
●
−6−4−20
● ●●
2
●
● ●●
●
−6−4−20
● ● ● ●●
●
● ●● ● ●●
2
● ●
● ●
−6−4−20
0 200 400 600 800 1000 0 200 400 600 800 1000
Fig. 4.8. 6 itérations de l’algorithme (après évaluations des 3 premiers points) pour un variogramme
gaussien de portée 100 et un coefficient de sureté q = 2.
4.2.3 Pour aller plus loin...

Plusieurs améliorations peuvent être apportées à l’algorithme.
Critère de choix de xk+1

La recherche du nouveau site à exploiter xk+1 se fait en maximisant une fonction analytique g, estimée
à partir des k premières données. Ci-dessus, nous avons utilisée la fonction g(x|x1, x2, ...xk) = U
(x), o u` U (x) est définie de manière implicite par l’équation :
P[f (x) :( U (x)|x1 , x2, ...xk] = α
206
avec α une marge de confiance, dépendant de q.
∗
On peut utiliser d’autres critères, en notant f k le maximum courant de f trouvé à l’itération
k et en définissant la fonction g par
• Probability of improvement :
∗
g(x|x1 , x2, ...xk) = P[f (x) � f k |x1 , x2, ...xk]
Maximiser g revient donc à trouver le point xk+1 du domaine tel que la probabilité que la
valeur prise par f en xk+1 soit supérieure au maximum courant est la plus grande possible.
• Expectancy of improvement :
∗
g(x|x1 , x2, ...xk) = E[f (x) − f k |x1 , x2, ...xk]
Maximiser g revient à trouver le point xk+1 du domaine tel que le gain moyen sur f par rapport
au maximum courant soit le plus grand possible.
Remarquons que, contrairement à la définition g(x) = U (x), dans les deux alternatives ci-
dessus, la fonction g dépend directement du maximum courant. On pourra trouver plus de d
étails sur ces différents critères dans Snoek et al. (2012).
Bruit d’observation
Lorsque les mesures effectuées sont bruitées, c’est-à - dire que les données disponibles sont zi = f (xi)±ση
o u` ση est un bruit inhérent au processus d’observation, on peut utiliser un variogramme à pépite,
comme illustré sur la figure 4.9. La variance d’estimation de f n’est donc jamais nulle, y compris au
niveau des points d’observations o u` elle est justement égale à la valeur de la pépite.
● ●
2
● ●
f
● ●
−6−4
−6−4
0 200 400 600 800 1000 0 200 400 600 800 1000
x x
Fig. 4.9. Procédure d’optimisation bayésienne à partir de 3 échantillons observés et avec

un variogramme gaussien de pépite η = 1% ( à gauche) et η = 5% ( à droite).
207
Activité X. Optimisation bayésienne par krigeage
Dans cette activité nous utilisons une fonction f , échantillonnée en 1000 points et gé né ré e aléatoirement
à l’aide de la fonction generate, définie dans l’activité VI et d’un noyau gaussien h d’écart-
type 100. E´ crire le code R permettant de trouver le maximum de f à l’aide de l’optimisation bay
ésienne. On utilisera pour ce faire un modèle de variogramme gaussien de portée 100, un
nombre maximal de 10 itérations et un critère de convergence fixé à ε = 1.
Le code solution ne sera pas présenté ici, puisqu’il s’agit d’un assemblage de modules d é j à
expliqués dans les activités précédentes. On pourra trouver une correction dans le fichier
code9.r.
4.3 Simulations
Nous avons vu précédemment dans la section 3.5.4 que l’interpolation par krigeage d’un semis
de points d’observations produit systématiquement des fonctions plus lisses que les réalisations
typiques du processus ayant g é n é r é le semis. Cet effet était particulièrement visible sur les
figure 3.11 et 3.12.
Or dans certaines problématiques (dont nous donnerons des exemples concrets par la suite), il
est important de pouvoir disposer d’une reproduction fidèle des réalisations. C’est justement ce
que pro- posent de faire les simulations. Notons qu’il existe deux types de simulations :
• La simulation non-conditionnelle permet, moyennant la connaissance d’un modèle de vari-

ogramme, de générer un nombre arbitraire de réalisations du processus sur un domaine D.
• La simulation conditionnelle permet, moyennant la connaissance d’un modèle de

variogramme et d’un semis de points d’observations, de gé né r e r sur un domaine D un
nombre arbitraire de réalisations du processus co¨ıncidant toutes au niveau des points du
semis d’observations.
1
0
1
0
5
● ●
0
● ●
O
● ●
−
−
5
5
−
−
1
200 300 400 500 600 700 800 900 200 300 400 500 600 700 800 900
SITES SITES
Fig. 4.10.
A` gauche : 5 simulations non-conditionnelles. A` droite : 5 simulations conditionnées aux
3 points de données : y(300) = 1, y(500) = 5 et y(800) = −3. Dans les deux cas, un variogramme
gaussien de portée 100 et de pépite d’écart-type 0.5 a é t é utilisé.
Notons que la distinction entre ces deux types de simulation est arbitraire et à vocation
uniquement pédagogique : une simulation non-conditionnelle n’est autre qu’une simulation
208
conditionnée à un ensemble vide d’observations. Malgré tout, les contextes nécessitant le
recours à l’un ou l’autre de ces
209
types étant en gé né r al assez différents, nous maintiendrons cette distinction dans la suite du cours.
En théorie le domaine peut être discret (e.g. un semis de points, une grille régulière...) ou
D
continu (e.g. un sous-domaine de R, R2...). Néanmoins, d’un point de vue informatique, toutes les
quantités adressables en machine étant nécessairement finies, toute simulation sur un support
continu devra au préalable passer par une discrétisation de résolution aussi fine que les capacit
és de calculs le permettent. Ainsi, par exemple, la simulation d’un MNT se fait en géné ra nt
une collection de variables aléatoires (corrélées via le variogramme γ) sur un semis de points
d’observations en forme de grille régulière.
Remarquons également que nous avons d é j à effectué des simulations au début du chapitre 3,
plus spécifiquement dans l’activité VI. Notamment, la figure 3.3 présentent des exemples de
simulations conditionnées3 à trois points observés.
4.3.1 Simulation non-conditionnelle

On considère le problème suivant : disposant du modèle de variogramme γ d’un processus Z d
éfini sur un domaine D, comment simuler aléatoirement des réalisations z ?
Comme précisé en introduction, on commence nécessairement par discrétiser le domaine D,

et nous noterons x1, x2,...xn ∈ D les sites ne lesquels on souhaite simuler Z.
Une solution intuitive pourrait consiter à procéder itérativement et de manière similaire à ce

que nous avons vu dans la section traitant de l’optimisation bayésienne. Supposons que nous
soyons capable de simuler Z sur les k premiers sites. En utilisant ces k valeurs g é n é r é e s
comme un semis de points d’observation, on peut calculer une estimation zk+1 par krigeage de la
valeur prise par le processus sur le (k + 1)-eme site. Grâce à la nature probabiliste du krigeage,
l’estimateur
variance dez� k+1 est accompagné d’une
l’erreur d’estimation k . Informellement, cela signifie que pour être cohérente
k premiers tirages, la valeur en xk+1 doit être distribuée suivant une loi normale de moyenne z�k+1 et
de variance k
. Il suffit donc de gé né re r : zk+1 ∼ N
). On ajoute ce nouveau point
observations etk on(z� continue
k + 1 , σ ainsi de suite jusqu’à avoir simulé Z sur tous les sites. L’algorithme est
2
initialisé en tirant arbitrairement la valeur du premier site : z1 ∼ N (0, γ(∞)).
Cette méthode possède l’avantage d’être conceptuellement simple et facilement interprétable,

mais requiert un couˆt de calcul particulièrement é l e vé : chaque nouvelle simulation ponctuelle zk
nécessite de calculer une estimation par krigeage à partir des k 1 points précédents. Le couˆ t
d’une estimation ponctuelle par krigeage étant un Θ(k − 3), on en déduit la complexité de la proc
édure :
n
L
C(n) = Θ(k3) = Θ(n4)
k=1
Le couˆ t d’une simulation évolue donc comme la puissance quatrième du nombre de sites à
simuler, ce qui est considérable. Il est possible de le réduire à l’aide des techniques de voisinage
glissants. C’est en particulier l’approche employée par la bibilothèque gstat que nous allons utiliser
à la fin de ce chapitre.
Dans un but pédagogique, nous présentons ici une méthode purement algébrique permettant de
simuler les valeurs prises par tout les sites simultanément, moyennant l’hypothèse que le champ
soit stationnaire, et qu’il soit donc possible de manipuler sa fonction de covariance. Pour ce faire,
nous allons
3
Pour abréger le temps de calcul, nous avions autorisé une tolérance ε, impliquant ainsi que les simulations ne
210
passent pas exactement par les points conditionnants. Formellement, on peut considérer qu’il s’agit d’une simulation
conditionnelle d’un processus a` variogramme pépitique.
211
avoir recours au théorème 12 de propagation des variances : si A est une matrice de Rm×n et X ∈ Rn
un vecteur aléatoire de matrice de covariance Σ, alors Y = AX a pour covariance AΣAT .
Soit Σ la matrice de terme génér al (Σ)ij = γ(0) − γ(hij) avec hij = ||xi − xj ||. Comme γ est
parfaitement connu, le calcul de la matrice Σ ne pose aucun problème.
On pose X un vecteur de n nombres aléatoires indépendants et identiquement distribués

suivant une loi normale standard. La matrice de covariance de X est ΣX = In, la matrice identité
d’ordre n.
Enfin, considérons A ∈ Rm×n une matrice quelconque de réels. Le produit Y = AX est une variable al
éatoire et sa matrice de covariances vaut :
ΣY = AΣXAT = AAT
Donc, pour que la variable Y ait pour matrice de covariances Σ, il faut et il suffit que Σ = AAT ,
autrement dit, on souhaite que A soit une décomposition de Cholesky de Σ.
Théo rè me 42 (Factorisatsation de Cholesky)
Soit A une matrice symétrique définie-positive.Alors elle admet une factorisation de

Cholesky, i.e. il existe une matrice L triangulaire inférieure telle que :
A = LLT
La matrice L est en quelques sortes une racine carrée de A.
La matrice Σ étant une matrice de covariance, elle est symétrique définie-positive 4, et on peut
donc en extraire une décomposition de Cholesky. Nous avons donc une méthode clés en main
pour simuler le processus en n sites. On en donne les étapes ci-dessous :
• Former la matrice de covariance Σ entre les n sites ( à l’aide de la fonction de covariance ou

du variogramme γ). C’est une matrice carrée de taille n.
• Calculer sa décomposition de Cholesky, i.e. trouver une matrice L telle que : Σ = LLT . Cette
étap e s’effectue à l’aide des bibilothèques de calcul matriciel, disponibles dans tous les
langages de programmation. En particulier, en R on utilise la fonction chol.
• Calculer le vecteur Z = LX
Et c’est tout ! On sait d’après ce qui p ré cè d e que Z est un vecteur dont la covariance est celle
prise par le processus au niveau des sites à simuler. Voyons cela en pratique dans l’activité qui
suit.
4
D’ou` l’importance de modéliser le variogramme avec une fonction licite, i.e. une fonction conditionnellement définie-
négative, comme nous l’avons vu dans la section 2.4.5.
212
Activité XI. Une première simulation
On se place en 1D, avec un variogramme linéaire avec palier (portée 100) :
vario = function(h)
{ h[which(h > 100)] = 100
return(h)
}
On c r é é alors une fonction C qui transforme le variogramme en covariance :
C = function(h){
return(100-vario(h))
}
On c r é é ensuite 500 sites régulièrement espacés, puis on calcule les distances (le long de la droite r
éelle) entre ces sites et on forme la matrice de covariances D :
x = 0:500; n = length(x)
D = C(data.matrix(dist(x, diag=TRUE, upper=TRUE)))
Le coeur de la simulation réside alors en trois lignes : la génération du vecteur normal X, la d

écomposition de Cholesky L et le produit matriciel LX.
Script 11. Une première simulation [code10.r]
X = rnorm(n,0,1) L = chol(D)
Z = t(L) %*% X
Il ne reste plus qu’à tracer le processus simulé avec l’instruction plot(x,Z,type="l"). La figure
4.11 illustre une des simulations obtenues.
1020
Z
−100
−20
0 100 200 300 400 500
Fig. 4.11. Simulation non-conditionnelle d’un processus stochastique de variogramme linéaire avec
palier et portée hmax = 100. Calcul ré a l i sé par factorisation de Cholesky.
Remarquons que cette simulation n’a é t é effectuée qu’avec les fonctions de la librairie standard de R.
Aucun appel à une bibliothèque externe n’a é t é requis. Néanmoins, cette apparente simplicité
cache un
213
écueil majeur. Il faut être vigilant aux erreurs d’arrondi numériques. Si la décomposition de
Cholesky se passe en géné ra l bien avec des variogrammes au comportement linéaire à
l’origine, il n’en va pas de mêm e avec des processus à variogramme gaussien et cubique, qui posent
souvent des problèmes de stabilité numérique. Parfois, le problème peut être résolu en
ajoutant une pépite infinitésimale dans le modèle, mais sans garantie.
Pour faire de la simulation sur des applications concrètes (avec différents variogrammes et avec
potentiellement des milliers, voire des millions, de valeurs à génére r simultanément, il est
fortement recommandé de passer par une bibliothèque, telle que gstat (Pebesma, 2020) par
exemple que nous utiliserons dans le cadre de la simulation non-conditionnelle.
En particulier, la simulation non-conditionnelle a permi de gé né r e r l’image 2.2, le Modèle Num
érique de Terrain ré el étant le deuxième à partir de la gauche sur la seconde ligne, relevé
sur la Mer de Glace dans le massif du Mont-Blanc. On reconnaˆıt au demeurant ce même terrain
sur la figure 3.12 ( à gauche). Les 7 autres réalisations de la figure 2.2 sont donc des simulations
imitant la structure d’autocorrélation du terrain réel.
Voyons à présent quelques exemples d’applications de la simulation non-conditionnelle.
• Analyse de sensibilité : il s’agit d’un domaine d’application fondamental. Prenons un

cas formel : on dispose d’une fonction f qui transforme un ensemble x de données en une
sortie y = f (x). Par exemple, x peut être une collection de modèles numériques de
bâtiments (sous forme de polygones 2D) et y peut représenter l’aire visible depuis une point
d’observation donné, comme illustré sur la figure 4.12 ci dessous.
Fig. 4.12. Zone visible depuis un point d’observation. Données IGN BD TOPO@ sur la commune
d’Aubervilliers (93). La surface visible est é va l ué e à 22 275 m2.
Cependant, en pratique, les données x utilisées sont entâchées d’erreurs, et il est

important de contrôler l’impact de cette imprécision sur le résultat y : on parle
d’analyse de sensibilité de l’application f (Saltelli et al., 2000). Connaˆıtre l’influcence du
bruit de x sur une application f est primordial pour (1) quantifier l’incertitude sur le résultat
obtenu à l’issue de l’application, (2) déterminer les paramètres et données critiques sur
lesquels on doit investir le plus d’efforts afin de les déterminer précisément et (3) d
éterminer la plage de fonctionnement de f , i.e. spécifier la qualité minimale des données
utilisées en entrée garantissant le fonctionnement nominal de f .
Il existe dans la littérature trois grandes classes de méthodes pour propager l’erreur de x à
f (x). La première consiste à déterminer les amplitudes de variation ∆x sur les entrées,
puis à les
214
transférer sur ∆f à l’aide d’une différentielle totale :
∂f ∂f ∂f
∆f = II ∆x I+ II ∆x I+ ... + I ∆x (4.8)
1 2 nI
I I
∂x ∂x ∂x
o u` ∆xi désigne l’intervalle de variation de la i-eme composante des données x.
Exemple 4.1. Entre 11h29 et 11h40, un randonneur parcours une distance qu’il évalue ( à l’aide
d’une carte papier et d’un décimètre) à L = 1 km ± 50 m. On cherche à calculer
l’incertitude
sur sa vitesse moyenne. On évalue d’abord le temps de parcours : t = t2 − t1 = 11 minutes,
avec une incertitude ∆L de 2 minutes (1 min sur chacun de deux relevés chronométriques). Sa
vitesse moyenne est v = f (L, t) = L/t = 5.45 km/h. L’incertitude sur v s’obtient par 4.8 :
I I ∂f II I I ∂f II I I ∆LI I I I II
∆v = ∂L ∆L + ∆t = t + t2 = 0.27 + 0.50 = 0.77
km.h−1 ∂t
Sa vitesse v est donc estimée à 5.45 ± 0.77 km/h. En particulier, on peut quantifier
l’importance relative les deux sources d’incertitude : 35% de l’imprécision est due à l’erreur
sur la mesure de
distance et 65% à celle sur le relevé du temps.
Cette méthode, simple à mettre en oeuvre, nécessite toutefois que f soit suffisament r
égulière pour être approchée par une linéarisation au voisinage du point de
fonctionnement. Par ailleurs, une de ses limites majeures et de ne fournir qu’un intervalle
absolu ∆f , i.e. une plage de l’ensemble des valeurs potentiellement prises par f sans tenir
compte de leurs probabilités d’apparition respectives, et va donc fournir en gé né r a l des
intervalles très larges et pessimistes.
Une autre méthode consiste à utiliser le théorème 12 de propagation des variances (ou le th
éorème 13 lorsque f est non linéaire). Ainsi, si f peut être fidèlement représentée par
sa jacobienne J et si la matrice de covariance des entrées est connue, alors on peut évaluer la
variance de la sortie de l’application. Cette méthode présente l’avantage de fournir un
intervalle probabiliste, donc toujours plus compact (mais plus représentatif) que l’intervalle
absolu de la méthode de différentielle totale 4.8. Par ailleurs, elle permet de prendre en
compte, via la matrice de covariance, les in- tercorrélations entre les différentes variables, ce
qui est une propriété indispensable lorsque les données en entrées sont de nature g
éographique. On pourra trouver deux cas d’applications dans les exemples 1.9 et 1.10.
Cependant, si f est fortement non-linéaire (notamment avec des effets de seuil) alors la lin
éarisation de f n’est pas satisfaisante et la variance de sortie n’est plus réaliste. C’est le cas
dans l’exemple donné en figure 4.12 : l’intervisibilité est un phénomène binaire (une zone
est visible ou ne l’est pas mais il n’y a pas de situation intermédiaire) donc typiquement non-lin
éaire. Par ailleurs, lorsque f n’a pas d’expression analytique (c’est la cas ici aussi, et en général
dans toutes les applications o u` f est calculée avec un algorithme complexe), ces deux
premières méthodes d’analyse de sensibilité sont inopérantes.
Il reste alors une troisième approche, fondée sur des simulations. Le principe est
215
extrêmement simple : on introduit un bruit dans l’entrée x, et on observe l’impact sur f
(x) pour un grand nombre de réalisations. On peut alors évaluer tous les indicateurs
statistiques souhaités sur
216
la population de sortie (biais, écart-type, erreur RMSE, percentiles, valeurs extrêmes...).
On peut réitérer l’expérience pour différents niveaux de bruits en entrée. Par exemple,
sur la figure 4.13, on ajoute un bruit sur les coordonnées des batiments (d’écart-type σ = 5
m sur la rangée d’images supérieure, et σ = 10 m sur la rangée inférieure) et on
étudie l’impact sur la surface visible calculée.
Fig. 4.13. Analyse de sensibilité de la surface visible pour deux niveaux de précision des
bâtiments (σ = 5 m en haut en σ = 10 m en bas).
Les résultats montrent un RMSE de 1304 m2 (soit environ 6% de l’aire totale) sur la surface
visible pour une précision de 5 m en entrée. Cette valeur passe à 2484 m2 (11% de l’aire
totale) pour σ = 10 m. Dans les deux cas, le biais d’estimation est négatif et représente
environ les deux tiers de l’erreur total, ce qui laisse penser que le bruit sur les données
induit plutôt une erreur systématique tendant à sous-estimer l’aire visible.
On pourra trouver une étude similaire complète dans les travaux de Biljecki et al. (2015) qui
étudient l’impact de l’erreur du bati sur l’évaluation du potentiel solaire.
Malgré l’apparente simplicité de cette méthode, il faut veiller à ce que le bruit

introduit soit représentatif de l’erreur typique entâchant les données d’entrée. Comme
expliqué empiriquement sur la figure 1.5, l’utilisation d’un bruit blanc (i.e. non-corrélé)
pour perturber l’entrée x, peut mener à une sous-évaluation, ou au contraire à une sur-
évaluation de l’impact sur f (x). En particulier, quand f est plutôt de type additive
(sommes, cumuls, moyennes, intégrations...) le bruit blanc a une tendance systématique à
sous-estimer l’impact. A` l’inverse, une fonction de type soustractive (différentielle, pente,
vitesse, accélération, écart...) aura tendance à être plus sensible au bruit blanc qu’à
l’erreur typique entâchant les données en réalité. Dans l’exemple 4.13, le bruitage ind
épendant des coordonnées des sommets n’est pas une solution satisfaisante, et pour deux
raisons principales : en premier lieu, le bruit blanc sur les coordonnées a tendance
à facilement bloquer les lignes de vues. Dans la pratique, les erreurs entâchant les
batiments sont spatialement corrélées, et les lignes de vues ont globalement tendance à
être conservées (au moins jusqu’à la portée de corrélation des erreurs).
Deuxièmement d’un point de vue plus pragmatique, l’introduction d’un bruit indépendant
sur des données vectorielles (polylignes, polygones...), en plus de produire des formes irr
éalistes, peut résulter en des erreurs tpologiques (auto-intersections, chevauchements...),
risquant ainsi de planter la fonction f .
Si on dispose d’un modèle de variogramme γ caractérisant le type d’erreurs susceptibles

217
d’entâcher les données, la simulation non-conditionnelle nous permet de gé nérer un nombre
arbitrairement
218
grand de versions bruitées de x. On donne ci-dessous en figure 4.14 un exemple concret :
on suppose que la donnée x est un ensemble de profils de vitesse de véhicules. Chaque
profil de vitesse vi : [0, 100] → R+ est une fonction qui à un site s d’un axe de route de
longueur 100
m, associe la vitesse instantanée vi(s) du véhicule i à l’instant o u` il passe la position s. On
dispose d’un profil pour chaque véhicule ayant emprunté l’axe sur un intervalle de temps donn
é. L’application f est un algorithme d’apprentissage statistique ayant é t é entraˆıné pour
détecter des élements de signalisation routière (feux tricolores, stops, passages pi
étons...) à partir de la collection de profils observés (Meneroux, 2019). L’objectif de
l’analyse de sensibilité est de déterminer l’impact de la précision des profils sur le taux
de détection.
1
1
1
1
V
V
5
5
0
0
0 20 40 60 80 100
0 20 40 60 80 100 0 20 40 60 80 100
Fig. 4.14.
A` gauche : profils de vitesses spatiaux observés sur un axe de longueur 100 m. Au centre
: perturbation v(s) + ε(s) o u` ε est un bruit A` droite : perturbation v(s) + ε(s) o u` ε est un
blanc.
processus de bruit de variogramme exponentiel et de portée 600 m.
La figure 4.14 à gauche illustre les profils réels observés. La figure centrale représente les
mêmes profils perturbés par un bruit blanc, i.e. qu’à chaque position v(s) on ajoute une
quantité aléatoire εs, indépendante des quantités εs−1 et εs+1 ajoutées aux points
voisins de s. On ne
peut espérer représenter fidèlement le bruit de mesure avec ce genre de modèle simpliste. Enfin,
A` droite, on bruite les profils avec bruit corrélé, de variogramme exponentiel d’une portée de
l’ordre de 600 m. Les analyses effectuées ont permis de montrer que le taux de détection
reste relativement stable jusqu’à un certain niveau de bruit σc puis chute ensuite
rapidement. La valeur critique σc à laquelle s’opère le changement de régime définit la
plage de fonctionnement nominal de f .
On pourra trouver de nombreux exemples dans la littérature, par exemple pour le

contrôle de qualité des données géographiques linéaires (Vauglin, 1997), pour
l’évaluation de la stabilité du calcul d’isochrones (Bonin, 1998), pour le recalage de points GPS
sur le réseau routier (Méneroux et al., 2017), ou encore pour la mesure des surfaces sur un
MNT (Li et al., 2018).
• Ré a l i té virtuelle : dans un domaine plus ludique, on peut citer la génération al
éatoire de terrain comme application potentielle de la simulation.
• Test de corrélation : pour introduire cette section, considérons un exemple tiré du site
hu- moristique spurious correlation5. On donne ci-après deux séries temporelles x et y relev
ées sur 11 années consécutives (de 1999 à 2009), o u` x désigne le nombre (annuel)
d’accidents mortels impliquant un hélicoptère, et y désigne la différence de points séparant
219
les deux équipes finalistes du championnat de football américain (Super Bowl ).
5
https://tylervigen.com/
220
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
x 59 64 56 48 79 75 42 49 47 69 43
y 15 7 27 3 27 3 3 11 12 3 4
On c r é é les données correspondantes dans l’environnement R avec les 2 instructions suivantes :
x = c(59,64,56,48,79,75,42,49,47,69,43)
y = c(15,7,27,3,27,3,3,11,12,3,4)
L’étude de la corrélation linéaire entre ces deux séries ( à l’aide de la commande cor(x,y))
nous donne un coefficient ρ = 0.30, ce qui montre un certains degré de dépendance entre
ces deux variables n’ayant pourtant en apparence aucun lien de causalité, ni aucun facteur
sous-jacent commun. Peut-on alors imputer cette valeur de corrélation au hasard seul ?
Pour déterminer si un résultat est significatif, la méthode du bootstrap statistique

(Efron et Tibshirani, 1994) possède une redoutable efficacité. Appliqué dans le contexte
particulier de notre exemple, le principe en est le suivant : si la corrélation entre les séries x
et y est imputable au hasard seul, alors on peut obtenir facilement (i.e. avec une probabilité
non-négligeable, typiquement plus de 5%) une corrélation similaire, voire encore plus
marquée, avec des données regénérées aléatoirement.
Dans un cadre plus général, pour démontrer la significativité statistique d’un résultat, on
comptabilise le nombre de générations aléatoires qui produisent un résultat plus
singulier ou plus extrême que le résultat effectivement observé. Pour regénérer al
éatoirement les données, la méthode du bootstrap statistique préconise d’utiliser un
tirage avec remise sur les données disponibles.
Concrètement, si x est la série de données observées, alors on peut considérer que

la série rééchantillonnée avec remise sample(x, length(x),replace=TRUE) est une r
éalisation alternative,
i.e. une série de valeurs, en général distincte de x mais possédant les mêmes propriét
és statistiques que x. Il suffit donc de gé né re r un grand nombre de réalisations de x,
puis pour chacune d’elles, calculer sa corrélation empirique avec la série y, et enfin
comptabiliser le nombre de cas pour lesquels la corrélation obtenue est supérieur à la corr
élation réelle ρ = 0.30.
Nous choisissons ici de générer 1000 échantillons.
B = rep(0,1000)
for (i in 1:length(B)){
B[i] = cor(sample(x, length(x),replace=TRUE), y)
}
nb = length(which(B > 0.3))
Remarquons que le choix de perturber le vecteur x est arbitraire. Nous aurions également
pu perturber le vecteur y, ou mêm e les deux vecteurs x et y simultanément.
A l’issue de l’expérimentation, nous obtenons nb = 175 réalisations produisant une corr

élation plus forte que 0.3, soit 17.5% des cas. Remarquons que si la corrélation est considér
ée en valeurs absolue, alors 36.4% des cas produissent une corrélation plus éloignée de la
valeur nulle que 0.3.
221
On peut donc raisonnablement conclure que la corrélation entre les accidents d’h
élicoptères et les différences de scores du Super Bowl sur ces 11 années n’est pas
significative. Autrement dit, soit la corrélation est fortuite, soit si elle existe vraiment, nous
n’avons pas assez de données à disposition pour la mettre en évidence.
0.0 0.2 0.4 0.6 0.8
−1.0 0.0 1.0
Fig. 4.15. Corrélations relevées sur 1000 simulations aléatoires de bootstrap et comparaison avec la corr
élation réellement observée ρ = 0.30.
En effet, nous savons intuitivement que plus le nombre de données disponibles est grand, plus
les corrélations fortuites sont A` l’extrême, avec un échantillon de taille infini, la
improbables.
théorie nous montre que la corrélation entre deux variables indépendantes est rigoureusement
égale à 0.
Cependant, à tailles d’échantillon similaires, la corrélation entre deux variables ind

épendantes paraˆıt statistiquement plus forte (en valeur absolue) lorsque les phénomènes
étudiés sont spatialement autocorrélés. Et plus la portée de cette autocorrélation
est longue (relativement à l’emprise de la zone étudiée) plus l’effet est accentué. Dit de
manière imagée, deux champs lisses vont apparaˆıtre plus significativement corrélés (ou
anti-corrélés) qu’ils ne le sont en réalité. C’est ce qu’illustre la figure 4.16 : pour 4 portées
de corrélation différentes (de 750 à 6000 m), 2 MNT indépendants on é t é simulés
et dans chaque cas on indique la corrélation ρ obtenue avec une probabilité de 5%
(autrement dit, par exemple, si on siule 100 fois un couple de deux MNT indépendants et
autocorrélés sur une portée de 6000 m, alors dans 5 cas la corrélation mesurée sur le
couple sera en valeur absolue supérieure à 0.44). A` titre de comparaison, la même corr
élation calculée sur un couple de réalisations d’un bruit blanc n’excède que rarement 0.02.
Fig. 4.16. Deux simulations z1 et z2 de variables régionalisées pour 4 portées de

variogrammes différentes (de 750 à 6000 m), et valeur de corrélation ρ(z1, z2) obtenue sur 5%
des réalisations. La zone d’étude est un carré de 10 × 10 km.
Remarquons que l’autocorrélation ne posait pas de problème sur l’exemple considéré ci-
222
avant. En effet, on peut raisonnablement supposer que le nombre d’accidents mortels d’h
élicoptères est
223
suffisamment rare pour être temporellement déc or ré lé . Pour le cas du Super Bowl, c’est
plus compliqué, les mêmes équipes pouvant statistiquement se recontrer plusieurs fois
successivement en finale, rendant ainsi plus probable la reproduction de scores semblables.
En pratique, la représentation graphique de la série y montre l’abscence d’autocorrélation
significative.
Comment procéder alors lorsque les variables en jeu sont significativement autocorrél
ées ? C’est précisément dans ce contexte que les techniques de simulation non-
conditionnelle vues précédemment peuvent nous venir en aide.
Nous illustrerons la méthode avec un exemple tiré des travaux de stage de Conte (2018) réalisés
à l’institut national de l’information géographique et forestière (IGN), et dont l’objectif
était de quantifier le changement climatique en comparant la répartition des toponymes
du houx à la répartition de l’espèce aujourd’hui. En effet, si l’étymologie d’un toponyme
renvoie à une espèce végétale cela signifie probablement que cette espèce se trouvait
dans les environs du toponyme
à une certaine époque. Un examen toponymique poussé peut donc constituer une
source de données ancienne sur la présence du houx dans le passé. Cependant, on se
heurte bien vite à une problématique spécifique : la toponymie dépend de la géographie
linguistique. Pour obtenir un résultat exhaustif et exploitable sur l’ensemble du territoire m
étropolitain, il est important au préalable de tester l’indépendance de la répartition des
toponymes relatifs au houx (issus de toutes les langues) et la géographie de ces langues.
En pratique, ce questionnement est apparu après comparaison (sur la fig. 4.17) de la pr

évalence des toponymes liés au houx ( à gauche) avec la carte des régions linguistiques
( à droite). No- tamment, on relève certains similarités de motifs, en particulier au niveau
des régions catalane et basque. Sur le reste du territoire, il ne semble pas y avoir de d
épendance significative, pour autant, le coefficient de corrélation ρ entre les deux champs
vaut 0.71, ce qui semble traduire une dépendance plutôt marquée6 .
Fig. 4.17.
A` gauche : fréquence des toponymes relatifs au houx. A` droite : régions linguistiques en
France métropolitaine. D’après Conte (2018).
Pour tester la significativité de ce résultat, nous avons commencé par calculer le

variogramme empirique du champ de prévalence des toponymes, auquel nous avons justé un
modèle exponentiel (sans pépite et d’une portée de l’ordre de 1000 km, traduisant ainsi
une autocorrélation du
224
6
Remarquons que la variable des régions linguistiques étant catégorielle (et non ordinale), nous avons duˆ utiliser une
variante d’indice de corrélation, mais qui s’interprête de la même manière : de 0 a` 1 a` mesure que les deux variables
étudiées sont mutuellement corrélées.
225
champ sur l’ensemble du territoire métropolitain). Il est alors possible de simuler des r
éalisations du processus ; nous en présentons trois (arbitrairement sélectionnées) ci-
dessous.
Fig. 4.18. Variogramme empirique et ajustement d’un modèle exponentiel (en haut à gauche) et 3
simulations non-conditionnelles du processus.
Un total de 1000 simulations ont é t é gé nérées. Pour chaque réalisation, on calcule son
indice de corrélation avec la carte des régions linguistiques, et on représente la distribution
des valeurs prises par cet indice en figure 4.19. En particulier, on comptabilise 174 cas o u` la
simulation a produit un indice de corrélation supérieur à 0.71, soit une probabilité de
17.4 %. On peut donc en conclure que les champs de régions linguistiques et de fréquence
des toponymes du houx ne sont pas significativement corrélés.
Résultat du test d'hypothèse
0.0 0.2 0.4 0.6 0.8 1.0
Indices de corrélation
Fig. 4.19. Densité des indices de corrélation sur 1000 simulations aléatoires et comparaison
avec l’indice observé (ligne pointillée verticale).
Pour conclure cette section, nous préciserons qu’il existe d’autres méthodes de simulations non-
conditionnelles, notamment celle dite des bandes tournantes, à base de décomposition LU, ou encore
à l’aide des méthodes de Méthode de Monte-Carlo par chaˆınes de Markov (Marcotte, 2003).
4.3.2 Simulation conditionnelle

On parle de simulation conditionnelle lorsque le champ g é n é r é aléatoirement est contraint à
passer par un semis de points d’observations.
Formellement, on suppose avoir à disposition un semis d’observations Z ∈ Rn en n sites x, et on

cherche à produire des réalisations aléatoires d’un champ Z stationnaire, de fonction de
covariance C(h) = γ(∞) − γ(h) (la fonction γ étant donnée) entre m sites non-observés xt et
telles que pour tout
i ∈ [1..n], Z prenne la valeur Zi en xi.
226
Pour simuler le champ en m sites, comme pour la méthode non-conditionnelle, on commence par
calculer la décomposition de Cholesky de la matrice de covariance Σ (de dimension n + m) prise
au niveau de tous les sites (sites de conditionnement x et sites à simuler xt) :
C(xi − xj) C(xi − xtj) C Ct

Σ= =
C(xti − xj) C(xti − xtj) Ct Ctt
en notant C la matrice de covariance entre les n sites conditionnants x, Ctt la matrice de covariance
entre les m sites à simuler xt et Ct la matrice de covariance croisée entre ces deux catégories de
sites.
On calcule la factorisation de Cholesky de Σ, i.e. on trouve la matrice L telle que :
Σ = LLT
On échantillonne ensuite un vecteur aléatoire A suivant une loi normale standard multivariée de
dimension m et de covariance identité, et on forme le vecteur aléatoire B, dont on précise la
matrice de covariance ΣB (en remarquant bien que la quantité L−1Z est déterministe) :
L−1Z
B= 0 0
A ΣB =
0 In
On vérifie alors facilement que le vecteur aléatoire Y = LB est une simulation conditionnelle du
processus. En effet :
• La matrice de covariance de Y est (en vertu du théorème 12 de propagation des variances) :
0 0 0 0
ΣY = L 0 LT = 0
ce qui correspond bien à la matrice de covariance entre les n + m sites.
• Les n premières valeurs de Y sont : Y1:n = (LB)1:n = LL−1Z = Z.
Il est intéressant de constater que la moyenne de k simulations conditionnées à Z tend vers

l’estimateur du krigeage simple 3.7.1 à mesure que k augmente . En effet on a :
E[L−1Z] L−1Z
E[Y] = L E[A] =L Z
0 = 0
227
Donc Y est d’espérance nulle en dehors des sites observés. Or, on sait que la moyenne arithm
étique minimise l’écart quadratique moyen aux données, donc la moyenne d’une infinité de
simulations conditionnelles est un estimateur interpolant les données, de moyenne nulle en
dehors des sites et de variance minimale : c’est donc bien un krigeage simple des données. On
pourra trouver une illustration graphique de cette propriété sur la figure 3.4.
Par ailleurs, remarquons que lorsque n = 0, le vecteur Z est vide et on retrouve la méthode de
simulation non-conditionnelle présentée dans la section précédente.
La figure 4.20 présente le résultat de la procédure de simulation conditionnelle sur un semis

de 393 observations collectées sur le MNT de la vallée de Chamonix (jeu de données sample
data1.txt).
Fig. 4.20. 6 exemples de simulations conditionnelles à partir d’un semis d’observations collect
ées sur le champ modèle (en haut à gauche). En bas à droite : comparaison avec les résultat
obtenu par krigeage ordinaire du semis d’observations.
Le résultat obtenu est donc un exemple (parmi une infinité d’autres) de champ respectant à la
fois la structure du phénomène et les observations. Contrairement au krigeage, la solution
obtenue ne possède pas de propriété de minimalité de la variance d’estimation. Une simulation
donnée est donc a priori moins précise que la solution du krigeage. En revanche, la simulation
conditionnelle possède l’avantage de fournir une solution différente à chaque tirage. Lorsque les
quantités à estimer sont fortement non-linéaires (e.g. effets de seuillage) la moyenne des
solutions ainsi obtenues est en pratique
plus robuste que la solution du krigeage. En effet, nous l’avons vu précédemment, si F est lin
éaire, alors l’application de F à l’estimation x est égale à l’estimation de F(x) : F(x) = F---
(x) � �
Cette propriété est fondamentale puisqu’elle indique que � F(x)ilest un estimateur optimale de
F(x), mais elle n’est garantie que si F est linéaire. Or, en pratique, existe de nombreux cas o u` la
quantité d’intérêt est une fonction non-linéaire de la variable régionalisée. Un exemple
classique est le seuil-
lage : lorsqu’on souhaite estimer la surface totale dépassant une certaine valeur (e.g. altitude,
risque acceptable, teneur en minerais assurant la rentabilité économique...), alors, l’application F
s’écrit :
-
F[z] = ]_z(x)�sdx
D
o u` D est le domaine d’étude et s ∈ R est le niveau du seuillage opéré.
228
Clairement, du fait de la fonction indicatrice ]_z(x)�s, l’application F est non linéaire, et�F[z] n’est
pas un estimateur optimal de F[z]. Autrement dit, le seuillage d’une variable krigée n’est en gén
éral pas
égal au krigeage de la variable seuillée.
Par ailleurs, du fait de la propriété de lissage du krigeage, le seuillage d’une valeur krigée produira
des valeurs systématiquement biaisées. Par exemple, dans le cadre d’une analyse de risque
d’inondation en zone côtière, la surface inondable sera systématiquement sous-estimée. Nous
verrons un exemple concret par la suite.
La capacité de la simulation conditionnelle à produire des estimations interpolantes moins lissées va ici
être mise à contribution pour contourner les faiblesses de la Géostatistique linéaire. Nous allons
voir tois exemples typiques (dont l’un sera é t ud ié sous forme d’activité) : l’estimation de la surface
d’une
ˆıle par relevés bathymétriques (Wackernagel, 2013a), le calcul de la longueur d’un câble sous-marin
(Marcotte, 2003) et l’évaluation d’une surface de danger en zone côtière.
Surface insulaire
Cet exemple est tiré des travaux de Wackernagel (2013a). Au total, 23 mesures bathymétriques ont
é t é réalisées au large de l’Ile-d’Yeu en Vendée, suivant 8 profils rectilignes, comme illustré sur la figure
4.21 ( à gauche). On dispose de mesures de profondeurs z et des coordonnées géographiques x
associées et on suppose que les incertitudes sur ces observations sont suffisamment réduites pour
être négligées.
Fig. 4.21.
A` gauche : 23 mesures bathymétriques effectuées autour de l’Ile-d’Yeu (points rouges).
`
A droite : 9 exemples (arbitrairement choisis) de simulations conditionnelles et seuillage des altitudes
négatives (en bleu) pour extraire uniquement l’ˆıle. Source : Wackernagel (2013a)
L’objectif du problème consiste à estimer la surface de l’ˆıle.
Une première approche pourrait consister à interpoler les mesures bathymétriques (x, z) pour
reconstruire le plancher marin z. La surface insulaire est alors intuitivement définie comme la
surface (plane) totale d’altitude z supérieure à 0. Informatiquement, l’opération consiste donc
à calculer un estimateur�par krigeage z de l’altitude du terrain sur une grille de résolution r, puis
à multiplier le nombre de cellules d’altitude positive par r2. Malheureusement, comme nous
allons le voir, cette solution simpliste n’est pas satisfaisante : la quantité estimée est non-lin
éaire et on ne possède donc pas de garantie sur la robustesse de l’estimation.
Une méthode aternative consiste à calculer des simulations conditionnelles de Z, et à évaluer

pour chacune d’elles une estimation de la surface insulaire, comme représenté sur la figure 4.21
à droite. Avec cette méthode, la surface totale estimée varie entre 15.4 et 31.9 km2 (cette
229
grande variabilité étant imputable au faible effectif du jeu de données). Cependant, en
moyennant les estimations calculées sur les simulations, l’auteur de l’étude indique obtenir une
valeur de surface de 23.2 km2, à mettre en
230
perspective aux 23.3 km2 de la vé r i té terrain. En comparaison, l’estimation directe à partir du
krigeage résulte en une valeur de 22.9 km2, soit une erreur 4 fois plus importante. Cette sous-
estimation du krigeage s’explique simplement par sa propriété de lissage � : l’estimateur z est plus
lisse que la réalité, ce qui0 réduit donc la probabilité d’obtenir des valeurs extrêmes. Par
ailleurs, la majorité de la zone d’étude étant maritime, la surface insulaire est justement d
éfinie par les valeurs extrêmes d’altitude. La proportion de cellules d’altitude positive est donc plus
forte en ré al i té que dans l’estimation krigée. La moyenne de simulations ne présente en
revanche pas ce défaut de biais systématique.
Grâce à la simulation conditionnelle, on peut obtenir une estimation fiable de la surface d’une ˆıle
exculsivement à partir de mesures bathym A` titre d’exercice, on pourra s’interroger sur la
étriques.
marche à suivre pour estimer, à l’inverse, la surface (ou encore le volume ou la profondeur maximale)
d’un lac à partir de relevés d’altitudes effectués exclusivement sur terre.
Longueur de câble marin

On reste dans le domaine maritime, avec un exemple ti ré du cours de (Marcotte, 2003) : une
com- pagnie de télécommunication souhaite installer un câble sous-marin sur le plancher oc
éanique, dont le profil est représenté sur la figure 4.22. On sait que la distance horizontale
entre les deux points à connecter est de l = 100 km. On souhaite évaluer le longueur de câble n
écessaire. Pour ce faire, on effectue des relevés bathymétriques sur 20 sites échantillonnés r
égulièrement le long du trajet du câble.
Fig. 4.22. Profil d’élévation du plancher océanique (en noir) et relevés bathymétriques (en rouge)
échantillonnés tous les 5 km. Source : Marcotte (2003).
Connaissant le profil z : [0, l] → R du fond marin qui à un lieu x associe la profondeur z(x), la longueur
L du câble est très clairement une opération non-linéaire :
L = F[z] = - l
J -l dz -l
dx2 + dz2 = r 1 + (2 ) dx = J 1 + zt(x)2dx
0 0
dx
On sait donc que le calcul de la longueur de la variable krigée F[z] est un mauvais estimateur de
L. En effet, avec cette méthode, on obtient 104.2 km, contre une�longueur réelle de 110 km. La
longueur
nécessaire a donc é t é sous-estimée de près de 6%, ce qui peut entraˆıner des conséquences
économiques relativement lourdes pour l’entreprise.
231
A` nouveau, on peut contourner le problème en gé néra nt des simulations conditionnelles et en
moyennant les longueurs de câble estimées sur toutes les réalisations, ce qui donne une
longueur
� estimée L = 110 km, avec une intervalle de confiance à 95% associé : [108.8; 113.5].
L’estimation par moyenne des simulations conditionnelles est donc bien plus satisfaisante.
232
Activité XII. E´ valuation du risque de crue par simulations
Dans cette activité, qui constitue en quelques sortes un travail de synthèse des notions vues
dans ce cours, nous allons évaluer la surface inondable d’un terrain donné, dont nous disposons
d’un semis de relevés d’altitude heights.txt (disponible dans le répertoire associé à ce
cours, cf en deuxième de couverture). Pour contrôler la qualité de notre estimation, nous
utiliserons également le MNT (de résolution r = 250 m) de la zone : mnt.asc. Ces deux fichiers
peuvent être inspectés à l’aide d’un
éditeur de text type bloc-notes.
Jusqu’à présent, dans un but purement pédagogique, nous n’avons utilisé que les fonctions de
base du langage R. En pratique, le traitement numérique des problèmes concrets de Géostatistique
présentent une multitude d’ecueils (erreus d’arrondi, problème de conditionnement des matrices,
non-convergence des régressions paramétriques...) rendant ainsi quasi-indispensable le recours à
des librairies dé d iées qui prennent en charge ces problèmes de manière transparente pour
l’utilsateur.
Nous allons utiliser la librairie R gstat (Pebesma, 2020), qui pourra être installée à l’aide de
l’instruction install.packages("gstat"), puis en sélectionnant un serveur dans la liste proposée.
Pour pouvoir facilement manipuler des données géographiques, nous utiliserons également le
package sp (Pebesma et Bivand, 2005) : install.packages("sp"). Pour activer ces librairies, on
placera les deux lignes d’instructions suivantes en entête du code :
library("gstat") # Librairie de Geostatistique

library("sp") # Librairie de gestion de donnees spatiales
Malgré le soin p orté à la mise-à - jour de ce document, il est n’est pas impossible que certaines
fonction- nalités de gstat présentées ci-dessous ne soient plus disponibles exactement sous le
même formalisme syntaxique. On pourra en général facilement résoudre le problème en se réf
érant au manuel d’utilisation (Pebesma, 2001) le plus récent.
Enfin, précisons que cette activité n’est en principe pas trop sensible au caractère aléatoire
des réalisations. Malgré tout, dans un souci de reproductibilité et de débuggage éventuel des
problèmes, nous mentionnons que les résultats ci-dessous ont é t é obtenus avec la graine :
set.seed(1).
On considère une région côtière, d’altitude comprise entre 0 et 154 m, et soumise à un risque de
montée des eaux, dont une analyse préalable a permis de montrer que tous les terrains situés
à une altitude inférieure à 5 m pouvaient potentiellement être impactés. L’objectif de
l’étude est de déterminer la surface totale (en km2) à évacuer.
Q1. Dans un premier temps, nous allons évaluer cette surface dans l’hypothèse o u` le MNT de la
zone est connu. La valeur trouvée à l’issue de cette étape préliminaire constituera une vérité
terrain pour pouvoir comparer par la suite les résultats obtenus respectivement par krigeage et par
simulations.
On commence par fixer deux paramètres : la résolution du MNT à disposition (r) et le seuil
d’altitude en dessous duquel un terrain est situé en zone inondable (threshold). On définit
également une fonction estimate permettant de calculer la surface inondable totale d’un MNT.
r = 250
threshold = 5
estimate = function(Z){
return(length(which(Z < threshold))*r**2/10**6)
233
}
234
Notons que threshold est une variable globale. Sa modification entraˆıne automatiquement celle de
la fonction estimate. Par ailleurs, soulignons la multiplication par r2 (qui permet d’exprimer un
nombre de cellules en une surface) puis la division par 10 6 (qui assure la conversion en km2).
Charger le MNT du fichier mnt.asc et calculer la surface inondable sur la zone d’étude.
S = as.matrix(read.table("mnt.asc"))
svrai = estimate(S)
gx = (1:nrow(S))*r-r/2
gy = (1:ncol(S))*r-r/2
image(gx, gy, S, col=terrain.colors(255))
Les vecteurs gx et gy contiennent les coordonnées (suivant chacune des deux directions) des noeuds
de la grille de MNT. On obtient une estimation svrai de 30.81 km2, soit environ 6% de la zone
totale. Par ailleurs, on peut représenter graphiquement la zone inondable en réduisant la valeur
d’altitude de tous les sites concernés de manière à marquer plus nettement la distinction dans
l’échelle des couleurs, puis en choisissant un code couleur composite :
S[which(S<threshold)] = 0
map = c(topo.colors(255)[50:60], terrain.colors(255))
image(gx, gy, S, col=map)
Fig. 4.23.
A` gauche : le MNT de la zone d’étude avec le semis de points observ A` droite : la
és.
zone inondable calculée à partir du MNT, représentant une surface totale de 30.81 km2.
Q2. On suppose à présent ne pas avoir de MNT à disposition. L’ingénieur chargé de l’étude
décide alors de relever à l’aide d’un GPS professionel de précision centimétrique un total de
150 points d’altitude répartis aléatoirement et uniformément sur la zone. Le résultat de la
campagne est con- signé dans le fichier heights.txt, dans lequel chaque ligne représente les
coordonnées géographiques (X, Y ) d’un site, exprimées dans une projection plane quelconque, et
l’altitude Z qui y a é t é mesurée. L’objectif consiste à essayer d’estimer avec la meilleure pr
écision possible, la surface de la zone inondable à partir de ces données réduites.
Charger le semis de points dans l’environnemment R, et le représenter graphiquement pour

contrôler l’homo généi té spatiale des sites. Calculer (en choisissant judicieusement les
paramètres) le variogramme empirique du semis d’observations.
Le chargement du jeu de données ne pose aucun problème avec les fonctions de base R :
235
PTS = read.csv("heights.txt")
Pour pouvoir profiter pleinement des fonctionnalités de gstat, on doit spécifier que les colonnes
X et Y du tableau PTS sont des coordonnées. Au passage, on en profite également pour grouper
les observations d’altitudes dans un vecteur Z :
coordinates(PTS)= X+Y
Z = PTS$Z ∼
Attention, ici en particulier, le caractère ∼ est parfois récalcitrant au copier-coller.
Le choix des paramètres du variogramme se fait à l’aide des notions vues dans la section 2.4.1 :
on commence par définir la plage de valeurs sur laquelle on va calculer le variogramme exp
érimental en prenant la moitié de l’emprise totale du semis de points :
D = sqrt((max(PTS$X)-min(PTS$X))**2+(max(PTS$Y)-min(PTS$Y))**2)/2
On trouve une valeur D de 15.7 km environ. Au d elà de cette valeur, le nombre de couples
d’observations disponibles est a priori trop faible pour garantir la robustesse statistique de
l’estimateur du variogramme. On définit alors un pas de calcul h = 1 km, ce qui permet d’avoir
un variogramme défini en une quinzaine de points, et permettra ainsi un ajustement de qualité.
Par ailleurs, on vérifiera a posteriori que ce choix conduit à disposer d’un nombre suffisant de
couples de points dans chaque intervalle. Le calcul du variogramme expérimental est alors imm
édiat avec gstat :
vario = variogram(Z∼1, data=PTS, cutoff=D, width=1000)
Les différents arguments à spécifier sont :
• Une tendance globale, permettant de gérer le cas du krigeage à dérive externe, i.e.
lorsque l’altitude est soumise à une tendance de fond que l’on souhaite prendre en compte dans
l’analyse. Ici, le processus est supposé stationnaire, la moyenne de Z est donc une constante sur
l’ensemble
de la zone, ce qu’on exprime avec la formule : Z∼1 (qui signifie que la moyenne de Z est propor-
tionnelle à la constante 1, indépendante des coordonnées du site).
• Le jeu de données utilisé PTS, qui doit donc contenir une colonne Z, et un nombre
arbitraire de colonnes ayant un format de coordonnées.
• La plage de valeurs sur laquelle est é val ué e le variogramme : cutoff=D, (dans l’unité
des co- ordnnées de PTS).
• La résolution de calcul (dans l’unité des coordonnées de PTS) : ici 1000 m.
On peut alors représenter le variogramme expérimental :
plot(vario$dist, vario$gamma, pch=3)
Afin de s’assurer que le choix de la résolution r =1000 m est raisonnable, on peut calculer et repr
ésenter le variogramme expérimental pour différentes valeurs de pas de discrétisation (fig.
4.24). On voit à nouveau apparaˆıtre le compromis biais-variance : lorsque le pas est trop fin, le
variogramme est très
236
résolu mais insuffisamment A` l’inverse, pour un pas trop lâche, le variogramme est précis
robuste. mais peu résolu.
1000
1000
800
vario$ga
vario$ga
vario$ga
600
400600800
400600800
400
2
0
2
0
2
0
0
0
0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000
vario$dist vario$dist vario$dist
Fig. 4.24. Variogramme expérimental du semis de points d’altitude pour différents pas de
discrétisation : 300 m ( à gauche), 1 km (au centre) et 3 km ( à droite).
Par ailleurs, il peut être instructif de représenter les effectifs de couples d’observations utilisés
pour chaque point du variogramme expérimental. Ces nombres sont consignés dans le champ np
du variogramme estimé, si bien que l’instruction suivante permet la représentation graphique
des effectifs :
plot(vario$dist, vario$np, type="l")
Le résultat obtenu est représenté en figure 4.25 et met en évidence une chute brutale du
nombre de couples disponibles à mesure que l’on s’approche de la moitié du diamètre du champ
(~ 15 km). Plus spécifiquement, on pourra considérer que le variogramme expérimental n’est plus
suffisamment robuste
pour h > 13 km.
●
● ●
7
●
● ●
●
● ●
●
●
5
●
vario
●
●
3
●
1
5000 10000 15000
vario$dist
Fig. 4.25. Nombre de couples d’observations pour chaque classe de distance.
Q3. Proposer un modèle de variogramme et estimer ses paramètres.
Après inspection graphique du résultat, il paraˆıt raisonnable de choisir un modèle de variogramme

exponentiel (notons qu’un variogramme sphérique, ou même linéaire avec pallier semblent être
également des solutions convenables). Dans gstat, chaque modèle est défini par un code de 3
lettres. On pourra consulter la liste des modèles disponibles avec l’instruction vgm(). La régression
paramétrique se fait avec la commande fit.variogram, ce qui dans notre cas donne :
vmod = fit.variogram(vario, vgm("Exp"))
237
On pourra inspecter le résultat vmod :
model psill range

Nug 0.000 0.00
Exp 1308.601 10797.69
Le résultat standard de gstat est un variogramme en gigogne, i.e. une somme de plusieurs
modèles de variogrammes différents (ici une pépite Nug et un modèle exponentiel Exp), avec
pour chacun d’eux un paramètre de pallier (psill) et une portée (range). Remarquons que par d
éfinition, la portée de la pépite est nécessairement nulle. Par ailleurs, on remarque que le
palier de la pépite est également nul, ce qui signifie que le modèle infé ré ici est purement
exponentiel. On peut représenter le résultat de la régression (en superposition du variogramme exp
érimental) en réécrivant l’expression analytique
2.24 du modèle exponentiel avec C = 1308.601 m2 et a = 10797.69 m :
h = 0:D
g = vmod$psill[1] + vmod$psill[2]*(1-exp(-h/vmod$range[2]))
lines(h, g, col="blue")
Remarquons que la partie pépitique vmod$psill[1] n’a aucune influence ici. Le résultat obtenu
est représenté en figure 4.26 ( à gauche).
8
8
6
6
vario$gam
vario$gam
4
200400
2
0
0 2000 4000 6000 8000 10000 12000 0 2000 4000 6000 8000 10000 12000
vario$dist vario$dist
Fig. 4.26. Variogramme expérimental (pour h compris entre 0 et 13 km et un pas de 1 km) et r

égression paramétrique d’un modèle exponentiel ( à gauche) ou gaussien ( à droite).
Remarque. Nous avons vu précédemment que la topographie est en gé né ra l suffisamment lisse pour
être caractérisée par un variogramme au comportement parabolique à l’origine. Dè s lors se
pose la question du choix d’un modèle exponentiel, qui possède la caractéristique notable
d’être linéaire à l’origine. En réali té, le comportement à l’origine (d’apparence linéaire) du
variogramme expérimental s’explique par la densité trop faible de points d’observations,
n’autorisant pas une représentation fine de l’allure du variogramme au voisinage de 0. Si on le
souhaite, on peut malgré tout utiliser un modèle gaussien avec l’instruction :
vmod = fit.variogram(vario, vgm("Gau"))
et la représentation graphique se fait à l’aide de la suite de commandes :
238
h = 0:D
g = vmod$psill[1] + vmod$psill[2]*(1-exp(-(h/vmod$range[2])**2))
lines(h, g, col="blue")
Q4. Calculer par krigeage le relief du terrain à partir du semis de points observés et en d
éduire une estimation de la surface inondable.
Pour calculer le champ par krigeage, tout comme dans l’activité VIII (code7.r), on doit
commencer par définir la grille d’interpolation. Afin de travailler sur une zone identique à la v
é r i té terrain, on lui donne les mêmes paramètres (résolution et taille) que le MNT, et donc,
nous allons réutiliser les vecteurs gx et gy définis précédemment dans la question Q1 :
GRID = expand.grid(x=gx, y=gy)

gridded(GRID)=∼x+y
On peut alors effectuer l’estimation par krigeage à l’aide de la fonction krige :
krigeage = krige(Z∼1, PTS, GRID, model=vmod, nmax=50, debug.level=-1)
A` nouveau, ici aussi, la formule Z∼1 spécifie qu’on se place dans le cadre du krigeage ordinaire (sans
dérive externe) et donc que la moyenne du processus Z est constante sur la zone d’étude. Les deux
arguments suivants de la fonction krige sont : les données observées PTS, et l’ensemble des
sites sur lesquels on souhaite réaliser l’estimation GRID. On spécifie ensuite le modèle théorique
de variogramme utilisé vmod, puis le nombre maximal d’observations utilisées pour chaque
estimation (par défaut, la fonction travaille en voisinage globale et effectue chaque estimation avec
toutes les observations, ce qui peut s’avérer relativement pénalisant en termes de temps de
calcul). Ici, on travaille sur un voisinage glissant de 50 observations. Remarquons qu’il existe
d’autres manières de paramétrer ce voisinage, notamment à l’aide d’un critère de distance
maximale. Enfin, le paramètre debug.level=-1 permet d’afficher l’état du calcul dans la
console).
Pour représenter graphiquement le champ interpolé, on doit convertir la sortie de la fonction krige
en une matrice R :
K = matrix(krigeage$var1.pred, length(gx), length(gy))
La représentation graphique se fait alors comme précdémment dans la question Q1, en

rempla¸cant le MNT vé r i té terrain S par l’estimateur de krigeage K :
image(gx, gy, K, col=terrain.colors(255))
De même, le calcul de la surface inondable est immédiat à l’aide de la fonction estimate :
skrig = estimate(K)
On obtient une surface inondable estimée à 16.88 km 2, soit une sous-estimation d’un facteur 2
par rapport à la valeur vraie svrai. On donne en figure 4.27 une représentation du krigeage ( à
gauche) et de la surface inondable estimée ( à droite).
En particulier, on remarque bien que l’estimateur par krigeage est trop lisse par rapport à la r
éali té, impliquant ainsi une sous-estimation systématique des queues de distributions.
Il peut être intéressant de comparer l’estimateur par krigeage de la surface inondable, avec un
simple produit en croix sur les observations, i.e. on calcule le ratio du nombre de sites en dessous de
l’altitude
239
seuil, et on le multiplie par la surface totale de la zone d’étude :
length(which(PTS$Z < threshold))/length(Z)*max(gx)*max(gy)/10**6
On obtient un estimateur de 38.02 km2, soit une erreur de l’ordre de 23%, ce qui reste tout de
mêm e meilleur7 que l’estimateur du krigeage.
En présence de fortes non-linéarités (ici c’est le cas puisqu’on calcule la quantité résultant d’un
seuillage, par nature non-linéaire), nous avons vu que l’estimateur par krigeage n’est plus
optimal. On doit donc recourir aux simulations conditionnelles.
Fig. 4.27.
A` gauche : l’estimateur par krigeage du MNT sur la zone A` droite : la zone
d’étude.
inondable calculée à partir du MNT krigé, représentant une surface totale de 16.88 km2.
Q5. Calculer 50 simulations conditionnnées au semis de points observés. Pour chaque

simulation gé n é r é e , on évaluera la surface de la zone inondable et on stockera la valeur
obtenue. Calculer la moyenne des estimations obtenues (on pourra également dériver un écart-
type et des bandes de confiance). Cette nouvelle valeur est-elle plus précise que l’estimateur du
krigeage ?
Pour effectuer des simulations conditionnelles avec la bibliothèque gstat, on utilise exactement
la même fonction que pour le krigeage à laquelle on ajoute une entrée nsim permettant de sp
écifier le nombre de simulations à calculer :
simulation = krige(Z∼1, PTS, GRID, model=vmod, nmax=50, nsim=50, debug.level=-1)
En fonction des resources de la machine utilisée, le calcul peut prendre jusqu’à quelques
minutes. L’objet R simulation contient alors un jeu de 50 simulations réalisées sur GRID, de
variogramme vmod et conditionnées aux observations PTS.
On représente en figure 4.28 les 8 premières simulations obtenues. Il faut bien garder à l’esprit
que chaque réalisation d’une simulation conditionnelle est en générale assez loin de la réalité.
La force de la méthode réside dans le nombre, i.e. dans la combinaison de l’ensemble des r
éalisations.
Chaque simulation i peut-être ré c u pé ré e à l’aide de l’instruction simulation[[names(simulation)

[i]]]. On peut alors évaluer la surface inondable sur chacun des 50 simulations à l’aide d’une
boucle :
7
En réalité, si l’estimateur brut a` partir du semis donne de meilleurs résultats que le krigeage, cela s’explique par le
fait que le tirage des points observés a été effectué suivant une loi rigoureusement uniforme. Si l’echantillonnage avait
240
été plus inhomogène, comme c’est bien souvent le cas puisqu’il dépend de considérations pratiques telles que la facilité
d’accès a` un site, l’estimateur brut par produit en croix sur les observations aurait été bien plus mauvais.
241
SURFACES = rep(0,50)
for (repetition in 1:length(SURFACES)){

SURFACES[repetition] = estimate(simulation[[names(simulation)[repetition]]])
}
Fig. 4.28. 8 simulations conditionnelles et dans chaque cas, l’évaluations de la surface inondable.
A` l’issue de l’exécution de cette boucle, le vecteur SURFACES contient les 50 estimations de surfaces
inondables associées aux 50 simulations. On peut alors calculer plusieurs statistiques intéressantes à
partir de cet échantillon :
• En premier lieu évidemmment, la moyenne m du vecteur nous donne un estimateur

robuste de la quantité non-linéaire recherchée ( à condition que le nombre d’échantillons
soit suffisant, ce dont on s’assurera en augmentant le nombre de simulations g é né ré e s
jusqu’à convergence de m) :
m = mean(SURFACES)
Nous trouvons ici une valeur de 29.29 km2, soit une erreur relative de l’ordre de 5%, donc
bien plus faible que celle obtenue par le krigeage.
• Par ailleurs, un point positif important de la simulation est de disposer d’une population
d’échantillons, ce qui permet d’évaluer finement l’incertitude entâchant la quantité estim
ée. Il existe deux manières de procéder : la première consiste à supposer que la quantité
à estimer est distribuée suivant une loi normale puis à évaluer une bande de confiance en
multipliant l’écart- type de la population par un coefficient dépendant du risque d’erreur
souhaité (par exemple 1.96 si on souhaite calculer un intervalle de confiance à 95%) :
b_inf = m - 1.96*sd(SURFACES)
b_sup = m + 1.96*sd(SURFACES)
Cependant l’hypothèse de normalité n’est pas toujours valide, et dans certains cas, elle
peut même conduire à des intervalles complètement irréalistes, voire physiquement incoh
érent (par exemple, on pourrait trouver une borne inférieure négative sur la surface
inondable, ou encore
242
une borne supérieure qui dépasse la surface totale de la zone d’étude).
Dans ce cas, pourquoi ne pas profiter du fait de disposer d’un échantillon de réalisations
pour estimer plus finement encore les bandes de confiance à l’aide de quantiles ?
b_inf = as.vector(quantile(SURFACES, 0.05))

b_sup = as.vector(quantile(SURFACES, 0.95))
Avec cette seconde méthode, on peut dire qu’avec une marge d’erreur de 5%, la valeur vraie
de la surface inondable est comprise entre 21.3 et 36.2 km 2. En particulier, on remarque que
l’estimation faite par le krigeage est même en dehors de cet interval ! De même souligons le
fait que, à cause de la non-linéarité de la quantité à estimer, le krigeage ne permettait pas
de donner une incertitude formelle sur la zone inondable.
Un avantage indéniable de cette seconde option est de produire en génér al des intervalles
dis- symétriques (environ 7 km2 d’incertitude vers le haut, et 8 km 2 vers le bas) , ce qui est
une propriété intéressante, en particulier dans les cas o u` la quantité à estimer est
proche8 de ses bornes physiques).
• Enfin pour synthétiser graphiquement le résultat de toutes les simulations, on peut calculer un
histogramme ou une densité des valeurs estimées :
d = density(SURFACES)
plot(d$x, d$y, type="l", xlab="surface (km2)", ylab="freq")
Le résultat graphique obtenu est représenté en figure 4.29, sur lequel on voit clairement
la prédominance de la méthode par simulations par rapport au krigeage.
krigeage
0.
0.
fr
0.
valeur
simulationvraie
0.
10 15 20 25 30 35 40 45
2
surface (km )
Fig. 4.29. Distribution des surfaces de zone inondable estimées sur les 50 simulations
conditionnelles et moyenne des valeurs estimées (trait vertical noir). En rouge : valeur estimée
par le krigeage. En bleu : valeur vraie. En pointillés : bandes de confiance associées à
l’estimation par simulation.
Du point de vue du décideur publique, il peut être intéressant également de disposer d’une
carte de probabilité d’inondation, i.e. un raster indiquant la probabilité que chaque cellule soit
située à une
8
Par exemple, quand la grandeur q a` estimer est un pourcentage, si q_, est proche de 0 ou de 100, on s’attend a` ce que
l’intervalle soit plus lache du coté opposé à la borne.
243
altitude inférieure au niveau de crue prédit. Pour ce faire, on commence par générer un
nombre plus important de simulations, typiquement 500 :
simulation = krige(Z∼1, PTS, GRID, model=vmod, nmax=50, nsim=500, debug.level=-1)
Pour chaque simulation, on calcule alors une carte d’indicatrice ]_z<t valant 1 si la cellule de
MNT est située à une altitude z inférieure au niveau t de la crue et 0 sinon. Comme nous
l’avons fait remarquer précédemment dans la section 3.7.6, la moyenne d’indicatrices ]_z<t sur un
grand nombre de réalisations est égale à la probabilité P[Z < t]. On appelle RISQUE la matrice
contenant cette valeur de probabilité.
RISQUE = matrix(simulation$sim1*0, length(gx), length(gy))
for (k in 1:500){
VAL = matrix(simulation[[names(simulation)[k]]], length(gx), length(gy))
Ik = 0 + (VAL < threshold)
RISQUE = RISQUE + Ik
}
RISQUE = RISQUE/500
image(gx, gy, sqrt(RISQUE-0.001), col=rainbow(255))

√
Dans la représentation graphique, nous opérons la transformation p 1→ p − 0.001 pour deux raisons :
(1) pour diluer le bleu sur l’ensemble des zones de forte probabilité d’inondation (typiquement quand
p est supérieure à 50% de risque) et (2) pour représenter en blanc les zones pratiquement d
épourvues de risques (p < 0.1%). On donne le résultat graphique obtenu en figure 4.30.
Fig. 4.30. Risque d’inondation pour une crue prédite à 5 m. La probabilité d’inondation
évolue de 0 (cellules rouges) à 1 (cellules bleues). Les cellules blanches ont un risque nul d’être
impactées.
Par exemple, supposons qu’un site stratégique (refuge, cellule de crise, site d’approvisionnement, cen-
trale nucléaire, etc.) soit situé au point de coordonnées (X = 11000 m, Y = 10000 m). Une
division par la résolution r =250 m nous donne immédiatement les indice (44,40) du point
dans la grille, et la valeur RISQUE[44,40] = 0.138 nous indique alors que le site en question a une
probabilité d’être en zone inondable de l’ordre de 14%.
Il est important de remarquer que, jusqu’à présent l’incertitude sur le fait d’être en zone
inondable résulte uniquement d’un manque de connaissance du MNT. Dans un cadre plus réaliste,
on doit ajouter
244
à cette incertitude, celle liée à la difficulté de prévision. En effet, le niveau de la crue n’est pas
connu exactement en amont de l’évènement, en général on ne dispose que d’une estimation
avec un degré d’incertitude associé. Dans certains cas, les études hydrographiques réalisées en
amont sont suffisamment poussées pour permettre d’associer une loi de probabilité à cette
variable inconnue, e.g. : le niveau atteint par la crue sera distribué uniformément entre 0 et 30 m...
On est à présent dans un cadre bayésien, autrement dit, la variable de niveau de crue qui jusqu’à
présent était considérée comme un paramètre (fixé à 5 m) est à présent une variable al
éatoire. Cela ne pose aucun problème en simulation.
Une première méthode peut consister à gé né r e r des cartes de risque Rt pour un grand
nombre de niveaux de crue t = t1, t2, ... différents, puis à calculer la moyenne de ces cartes p ond
érées par la probabilité p(t) d’avoir une crue de niveau t :
- L,
+∞ p(tk)Rt
R = [Z
P :( t] (4.
= t=−∞ P[Z :( t]p(t)dt ≈ L,k p(tk)
k
La carte R obtenue indique alors, en chaque lieu de la zone, la probabilité totale d’inondation (prenant
en compte tous les niveaux de crues possibles).
Une seconde méthode, plus directe en termes de développement, exploite encore un peu plus la strat
égie de type Monte-Carlo, en tirant le niveau de crue aléatoirement et pour chaque simulation
suivant sa distribution p. Par exemple, si le niveau de crue est distribué uniformément entre 0
et 30 m, le code devient :
RISQUE = matrix(simulation$sim1*0, length(gx), length(gy))

T = runif(500,0,30)
for (k in 1:500){
VAL = matrix(simulation[[names(simulation)[k]]], nx, ny)
Ik = 0 + (VAL < threshold)
RISQUE = RISQUE + Ik
}
RISQUE = RISQUE/500)
image(gx, gy, sqrt(RISQUE-0.001), col=rainbow(255))
On donne en figure 4.31 le résultat de cette analyse bayésienne pour 4 scénarii différents
sur la prédiction a priori du niveau de la crue. Dans le premier cas (a) on considère que la
niveau de crue est parfaitement connu et égal à 15 m : formellement, il est donc distribué
suivant une loi de dirac δ15. Dans les trois autres cas (b à d), il est aléatoire et distribué
respectivement suivant une loi uniforme entre -10 et 40 m, suivant une loi normale de moyenne et
d’écart-type 15 m et suivant une loi exponentielle de moyenne 15 m.
Remarquons que dans ces trois derniers cas, la variable aléatoire de niveau de crue a
approximativement la mêm e moyenne et le mêm e écart-type, autrement dit les trois scenarii
pronostiquent le mêm e niveau de crue en moyenne, et sont entâchés de la même quantité
globale d’incertitude. Pour autant, les cartes de risques gé né r é e s sont significativement diff
érentes : en particulier, la loi exponentielle (d)
étant une distribution à queue lourde (et donc favorisant l’apparition d’évènements rares), elle rend
possible l’impact de la crue en des zones systématiquement épargnées par les autres distributions. A`
l’inverse, le risque de crue à basse altitude (typiquement dans la vallée) y est
proportionnellement moins important.
245
De même, si on reprend le site stratégique (situé aux coordonnées X = 11000 m, Y = 10000
m), on obtient des probabilités d’inondation relativement différentes en fonction du modèle de pr
édiction de crue utilisé : 43% avec les modèles déterministe et uniforme (a et b), 47% avec le
modèle normal et 36% avec le modèle exponentiel.
a. b. c. d.
2
2
1
1
5
5
0
0
0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000
a. b. c. d.
1
0
.
0
.
0.6
0.0100.020
0
0.010
.
0.4
0.005
0
.
0.2
0
0
0
0
.
.
0 20 40 60 0 20 40 60 0 20 40 60 0 20 40 60
Fig. 4.31. Cartes de risque d’inondation (en haut) pour 4 prédictions hydrographiques diff
érentes (en bas), suivant que le niveau de la cure est : (a) déterministe δ15, (b) distribué
suivant la loi uniforme U ([−10; 40]), (c) distribué suivant la loi normale N (15, 152) ou (d) distribu
é suivant une loi
exponentielle E (1/15).
Un atout important de la simulation est qu’une mêm e population de réalisations peut

permettre de répondre à une large gamme de questions. En particulier, on peut évaluer des
quantités qui ne possèdent même pas d’expression analytique simple, comme par exemple : d
éterminer la probabilité d’apparition d’enclaves après la crue, calculer la loi de probabilité de la
plus grande surface épargnée, ou encore évaluer l’allongement moyen des temps de trajets en
prenant en compte la coupure de ponts, etc. On illustre ce propos avec un exemple simple, en consid
érant une ligne électrique dont on donne ci-dessous les coordonnées planes du tracé (grossier)
:
X = c(0,5,12,15,15.5,17.5)*10**3
Y = c(24,24.75,20.3,15,14.5,12)*10**3
Dans un premier temps, on affine la précision de la ligne en sur-échantillonnant ses coordonnées :
LINE = approx(X,Y,xout=seq(0,17000,100))
o u` la valeur 17000 représente la coordonnée X maximale de la zone et la valeur 100 représente le nom-
bre de points souhaités en A` l’issue de la procédure d’interpolation, l’objet LINE contient les
sortie.
coordonnées sur-échantillonnées LINE$x et LINE$y de la ligne. On peut alors convertir ces coordonn
ées en indice de cellules du MNT, en les divisant par la résolution r :
LX = floor(LINE$x/r)+1
LY = floor(LINE$y/r)+1
On suppose dans un premier temps que la ligne est positionnée à une hauteur de 3 m par rapport au sol :
hgt_line = 3
On peut alors écrire une fonction coupure permettant de tester si la ligne est impactée par la
crue. Pour ce faire, on parcourt toutes les coordonnées de la ligne (d’ou` l’intérêt de l’avoir
246
échantillonnée
247
suffisemment finement), et pour chaque point, on récupère son altitude dans le MNT et on y
ajoute la hauteur de ligne hgt_line. Si pour au moins un point cette valeur est inférieure au niveau
de la crue, alors la ligne est coupée.
coupure = function(Z){
for (i in 1:length(LX)){
if (Z[LX[i], LY[i]] + hgt_line < threshold){
return(TRUE)
}
}
return(FALSE)
}
Dans cette dernière section, on suppose à nouveau que le niveau de la crue threshold est d
éterministe et f ixé à 5 m. On applique alors la fonction coupure sur chaque simulation g é n
é r é e et on calcule la proportion de cas o u` la ligne est coupée.
COUPURE = rep(FALSE, 500)
for (k in 1:500){
Z = matrix(simulation[[names(simulation)[k]]], length(gx), length(gy))
COUPURE[k] = coupure(Z)
}
proba_coupure = sum(COUPURE)/length(COUPURE)
Avec 500 simulations, on trouve une probabilité de coupure de 17.6 %. Pour complexifier
l’exercice, on peut chercher à déterminer la hauteur d’installation hgt_line de la ligne (par
rapport au sol) permettant de garantir que le risque de coupure en cas de crue est inférieur à
5%. Sur le mê me jeu de simulations, on trouve que la ligne doit être installée à une hauteur
minimale de 9.10 m.
2
0
.
● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●● ●●●●●
●●●●●●
●●●●●●
2
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
● ●●●
●●●
●●●
●●●
●●●
●●●
●●●
●●●
●●●
0
.
●●●
● ●●●●
1
● ●●●
●●●
R
g
g
y
●●●
●●●
●●●
●
1
0
.
5
0
.
0
0 5000 10000 15000 0 5000 10000 15000 4 6 8 10 12 14
gx gx H
Fig. 4.32. A` gauche : MNT réel et tracé de la ligne électrique. Au centre : un exemple de simulation
avec la crue associée et discrétisation de la ligne A` droite : probabilité de coupure de la
électrique.
ligne en fonction de sa hauteur par rapport au sol. L’installation est considérée comme suˆ re (risque inf
érieur à 5%) pour une hauteur de 9.10 m.
248
4.4 Bilan
En comparaison des méthodes déterministes, le krigeage possède l’avantage de permettre le
calcul d’une variance de l’erreur d’estimation, qui peut être interprétée comme le degré
d’incertitude en- tourant la prédiction effectuée. Cependant, si le modèle de variogramme utilis
é n’est pas satisfaisant (variogramme expérimental mal estimé, choix non pertinent du modèle
théorique de variogramme ou non-convergence de la régression paramétrique) on obtient en g
é né r a l des variances d’estimations complètement faussées et qui peuvent induˆment faire pr
ésumer que l’estimation est d’une qualité meilleure qu’elle ne l’est réellement. Il est donc n
écessaire de disposer de méthodes objectives de validation des prédictions effectuées par
krigeage. Dans le cadre particulier de l’interpolation, la validation croisée consiste à réestimer
les valeurs prises par le phénomène au niveau de chacun des points du semis d’observations, et à
l’aide de toutes les autres données. La différence entre la valeur prédite et la valeur effectivement
observée, moyennée sur l’ensemble de la zone, produit un bon estimateur de la qualité globale de
la procédure.
Dans un seconde partie, nous avons é t u d ié une application alternative du krigeage :
l’optimisation bayésienne (ou séquentielle), qui consiste à alterner des étapes
d’interpolation et d’observation pour déterminer l’optimum d’une fonction numérique f en
minimisant le nombre de relevés nécessaires. �A` chaque étape, la méthode calcule une
estimation fn de la fonction inconnue à l’aide des n points de données observés dans le passé.
La position du (n�+ 1)-eme point à observer est déterminée à l’aide de l’estimateur fn et de ses
bandes de confiance, et on itère le processus jusqu’à un nombre maximal p ré f i xé
d’observations, ou alors jusqu’à atteindre un optimum satisfaisant. L’optimisation bayésienne est un
outil de choix lorsque les observations sont couˆteuses, chronophages ou risquées.
Enfin, dans une troisième section, nous avons introduit le concept important de simulations. Une
simulation conditionnelle est une réalisation aléatoire d’un processus stochastique (de
variogramme connu) passant par tous les points du jeu de données. Il s’agit donc en quelques
sortes d’une réali té alternative compatibles avec les observations. Lorsque le semis de points est
vide, la simulation n’est pas contrainte, et on parle de simulation non-conditionnelle. Nous avons
vu comment effectuer ces deux types de simulations, à l’aide de la factorisation de Cholesky ou
encore par krigeage séquentiel. Elles possèdent deux applications fondamentales : l’analyse de
propagation d’erreurs et l’estimation de quantités non-linéaires. Dans ce second cardre en
particulier, nous avons vu à travers de nombreux exemples, que le krigeage est systématiquement
plus lisse que la réalité, induisant ainsi un biais dans l’estimation des dépassements de seuil.
Nous avons vu dans le chapitre précédent que de nombreux estimateurs s’expriment de manière
linéaire (somme, différence, moyenne, cumul, pente, convolution...), ce qui est remarquable eut
égard au fait que ces fonctions linéaires ne représente qu’une infime partie de l’ensemble des
fonctions calculables sur une variable régionnalisée. En pratique, la majorité des grandeurs qui
vont nous intéresser in fine, sont non-linéaires : surface dépassant un seuil, pente maximale,
probabilité de coupure d’un réseau électrique par une inondation, étendue visible depuis un
point d’observation... L’évaluation direct de ces quantités sur la variable krigée ne sera en gén
éral pas un bon estimateur. La technique de simulation conditionnelle, qui préconise de moyenner
la quantité d’intérêt obtenue sur un grand nombre de réalisations, offre une solution simple à
ce problème, permettant de s’épargner le recours à la Géostatistique non-linéaire.
249
Appendix A
Régularité d’un processus stochastique
E´ tudier la régularité d’un processus stochastique Z (en particulier sa continuité et sa d

érivabilité) permet de se faire une idée de la régularité de ses réalisations z. Il faut avoir les id
ées claires : il s’agit bien d’une notion probabiliste. Dire qu’un processus stochastique est continu ne
signifie pas que toutes ses réalisations sont systématiquement continues en tout point, comme le
montre le contre-exemple
B.7. L’implication est plus modeste et de manière informelle on pourrait l’énoncer comme suit :
en un point donné du domaine, une réalisation va probablement être continue. Dans cette
annexe, pour la clarté de l’exposé, nous nous limitons au cas d’un processus uni-dimensionnel X. La
généralisation aux dimensions supérieurs ne pose pas de problème 1 .
A.1 Définitions
Une fonction réelle f est continue si la valeur qu’elle prend en deux points infinitésimalement
proches tendent à devenir égales, i.e. si f (t + ∆t) tend vers f (t) à mesure que ∆t tend à
s’annuler.
Pour une réalisation particulière x d’un processus X, cette définition a un sens, mais on souhaiterait
être plus général, et pouvoir caractériser la capacité du processus X à produire des r
éalisations continues. On doit donc vérifier que la variable aléatoire X(t + ∆t) converge vers
X(t) en tout point t du domaine. Or, pour une variable aléatoire, il existe de nombreux modes de
convergences différents (Lecoutre, 2002) : convergence en loi, en probabilité, presque suˆre, en
moyenne d’ordre r... Pour car- actériser la régularité des signaux aléatoires, on utilise en gén
éral la convergence en moyenne d’ordre 2, dite en moyenne quadratique, consistant à vérifier que
l’espérance du carré de l’écart entre la variable et sa limite tend vers 0.
Continuité en moyenne quadratique. Un processus stochastique X : R × Ω → R est dit

continue en moyenne quadratique (m.q.) si, et seulement si, pour tout point t ∈ R :
1t )l
lim E X(t + ∆t) − X(t) 2 = 0 (A.1)
∆t→0
De la même manière, on peut définir la notion de dérivabilité en moyenne quadratique :
Dérivabilité en moyenne quadratique. Un processus stochastique X : R × Ω → R est dit d

érivable en moyenne quadratique si, et seulement si, pour tout point t ∈ R :
1( X(t + ∆t) − X (t) )2l

lim E (A.2)
∆t→0 ∆
1
Notamment en se ramenant a` des processus 1D avec des dérivées directionnelles.
250
existe et est une quantité finie Zt(t) : la dérivée du processus Z en t.
Remarquons que si Z est dérivable en moyenne quadratique, Zt estt aussi un processus stochastique.
On montre facilement que si Z est stationnaire, alors sa dérivée Z l’est aussi. La réciproque n’est
pas
nécessairement vraie : il suffit de considérer l’exemple d’une marche aléatoire Z (non-
stationnaire) dont les incréments Zt sont stationnaires.
A.2 Liens avec le variogramme

Les notions de continuité et de dérivabilité étant intrinsèquement locales, il n’est pas
surprenant de le voir étroitement liées avec le comportement du variogramme (et de la fonction
de covariance) au voisinage de l’origine (i.e. pour des distances infinitésimales entre sites).
Dans cette section, nous considérerons la cas particulier d’un processus stationnaire à l’ordre 2 et
nous nous autoriserons donc à utiliser la fonction de covariance. Notons que les mêmes résultats
peuvent
être obtenus directement à partir du variogramme, c’est-à - dire pour un processus dont la
stationnarité est strictement intrinsèque.
Théo rèm e : un processus stochastique X est continue en moyenne quadratique si, et

seulement si, son variogramme γ est continu en 0.
La démonstration est immédiate à partir de la défintion A.1 et de l’expression 2.8 du variogramme :
1t )2l
E X(t + ∆t) − X(t) = 2γ(∆t)
et donc, la quantité A.1 converge quand ∆t → 0 si, et seulement si, γ(t) tend vers γ(0) = 0, i.e. si le
variogramme γ est continu en l’origine.
Par application de ce théorème, tout variogramme muni d’une composante pépitique (non-
nulle) est irrévocablement discontinu en moyenne quadratique.
Il est intéressant de noter que la règle est exactement la même pour les processus
stationnaires à l’ordre 2 : d’après le t hé orèm e 26, C(h) = C(0) − γ(h), et donc γ(h) tend vers
0 si et seulement si C(h) tend vers C(0), et donc la fonction de covariance doit être continue en
l’origine.
Remarque. On peut montrer que le variogramme est continu en 0 si, et seulement si, il est
continu sur R. En effet, considérons la différence des valeurs prises par le variogramme pour deux
écarts τ et τt :
|γ(τ ) − γ(τ t)| = |C(0) − C(τ ) − C(0) + C(τt)| = |C(τ ) − C(τt)| = Cov[X(τ ), X(0)] − Cov[X(τt), X(0)]
J J
= Cov[X(τ ) − X(τt), X(0)] :( Var[X(τ ) − X(τt)]Var[X(0)] = σX 2γ(τ − τt)
et donc, si γ(τ −τ t ) tend vers 0 quand la quantité τ −τ t s’annule, nécessairement γ(τ ) tend vers
γ(τt), ce qui montre la continuité de γ sur .
R
251
Considérons à présent un processus X continue en m.q. et examinons les conditions sous lesquelles la d
érivabilité de X est garantie.
Théo rème : le processus stochastique X est dérivable en m.q. si, et seulement si, son variogramme
γ est deux fois dérivable en 0.
Pour la preuve, on considère le processus Xt, différence finie de X :
X(t + ∆t) − X(t)

Xt(t) = ∆t
∆t est une quantité finie, donc ont peut utiliser Xt même sans avoir au préalable démontré la d
érivabilité de X. Par ailleurs X est un accroissement, i.e une combinaison linéaire de variables
aléatoires de poids total nul, on peut donc utiliser la covariance, même dans le cas intrinsèque :
1
C (τ ) = Cov[Xt(t + τ ), Xt(t)] = Cov[X(t + ∆t + τ )X(t + τ ) X(t + ∆t) + X(t)]
X ∆t 2 −
1 CX (∆t + τ ) − 2C(τ ) + CX (τ − ∆t)
= Cov[X(∆t + τ ) − X(τ ) − X(∆t) + X(0)] =
∆ ∆
La fonction de covariance CX (τ ) est donc égale à la différence finie d’ordre 2 de la covariance

de X. Pour que la dé ri vée de X existe, il faut pouvoir faire tendre ∆t vers 0. La différence
finie d’ordre 2 tend donc vers une dérivée seconde, et le processus X est dérivable en m.q.
si et seulement si sa fonction de covariance est deux fois dérivable. Le variogramme doit donc v
érifier cette même propriété.
Remarque : tout comme pour la continuité, on peut montrer que cette condition est
équivalente à la dérivabilité d’ordre 2 du variogramme en 0.
A.3 Régularisée d’un variogramme

Dans cette section, nous établissons un lien entre la notion de variogramme régularisé et la r
égularité du processus sous-jacent.
On se place en 1D sur la droite réelle et on considère un processus Z de variogramme linéaire γ : h

1→ h. Soit V = [0, 1] un sous-domaine de . Calculons le variogramme régularisé sur V (on ne
considérera que la cas h > 0 puisque R le variogramme est symétrique) : γ (h) = γ(V, Vh) − γ(V,
V
V ) avec :
- - - 1 - 1
1
γ(V, Vh) =
γ(x − y)dxdy |y + h − x|
|V ||V h | V V 0 0
Par ailleurs, en supposant dans un premier temps h < 1 (i.e. que les blocs V et Vh se recouvrent) on
peut décomposer le domaine d’intégration en 3 parties en fonction du signe de y + h − x :
- h - - 1 - - 1-
γh(V ) = 1 (y + h − x)dydx 1 (y + h − x)dydx x−h (x − y − h)dydx
+ +
0 0 h x−h h 0
252
On peut résoudre chaque intégrale individuellement et sommer les résultats obtenus.
Alternativement, on peut considérer le problème de manière purement géométrique. L’objectif
consiste à calculer le vol-
ume contenu entre le plan z = 0 et la surface d’équation z(x, y) = |y + h − x|. Remarquons que sans
la valeur absolue, l’intégrale recherchée vaut h. Pour tenir compte de la valeur absolue, on doit
ajouter
à cette valeur moyenne deux fois le volume de la pyramide qui a é t é comptabilisée en dessous du plan
z = 0. La base de cette pyramide est un triangle rectangle isocèle de c ô t é et de hauteur 1 − h.
Fig. A.1. L’intégrale de |y + h − x| vaut h plus deux fois le volume de la pyramide à droite.
3
On obtient alors : γ(V, ) = h + (1−h) . Au passage, on en déduit que γ(V, V ) = 1 et donc :
V
h 3 3
(1 − h)3 1
2 h3 si h :( 1
γV (h) = h + 3 − =h
3 3
−
On trouve bien un comportement parabolique à l’origine. La régularisation du variogramme
correspond à un lissage des réalisations, ce qui semble intuitif puisque le fait de moyenner le
champ sur des blocs réduit d’autant la variabilité du processus.
Lorsque h > 1, la quantité y+h−x est toujours positive et le calcul de l’intégrale donne imm
édiatement γV (h) = h− 1 . On retrouve un comportement linéaire lorsque les moyennes sont
calculé sur des
3 blocs disjoints. En particulier, on vérifie que la fonction γV est bien continue en
h = 1.
1
1
0
0
0.0 0.5 1.0 1.5
Fig. A.2. Variogramme d’un processus 1D (en bleu) et variogramme régularisé sur le bloc V = [0,
1] (en rouge). Pour h � 1 le variogramme régularisé reprend son aspect linéaire.
253
Appendix B
Contre-exemples pratiques
B.1 Deux variables aléatoires décorrélées mais pas indépendantes

Prenons X ∼ U ([−1, 1]), une variable aléatoire distribuée suivant une loi uniforme sur [−1, 1],
et posons Y = X . Le couple (X, Y ) est un couple de variables aléatoires réelles. Etant donné que
Y est 2 ´
défini en fonction de X, les deux variables ne sont pas indépendantes. Pour s’en convaincre, on peut
regarder les probabilités conditionnelles :
1
P[X = 1|Y = 1] = P[X = 1|X 2 = 1] = P[X = 1|X ∈ {−1, 1}] =
2
Or, la loi de X étant continue, on a P[X = 1] = 0, donc :
P[X = 1|Y = 1] /= P[X = 1]
Les variables X et Y sont donc dépendantes. Calculons leur covariance :
- +1 3
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] = E[X 3] = 1 x dx = 0
2 −1
o u` la seconde égalité résulte du fait que E[X] = 0. On a donc :
Cov(X, Y )
ρXY = J =0
Var[X]Var[Y ]
Le couple de v.a. (X, Y ) est donc dépendant et dé c o r ré lé à la fois. Cet exemple nous
montre que l’indépendance est une notion plus forte que la décorrélation. L’indépendance
implique que ρXY = 0, mais la réciproque n’est pas vrai en général.
Le coefficient de corrélation et la covariance ne mesurent que la dépendance linéaire de deux

variables. On peut rencontrer des schémas de dépendance plus complexes (comme ici en X2),
impliquant une décorrélation des variables.
254
B.2 Une variable aléatoire qui ne possède pas d’espérance
On considère la loi de Cauchy centrée en 0 et de paramètre 1, définie par la densité :
1
p(x) =
π(x2 + 1)
On vérifie que π est bien une densit

é :
- +∞ dx 1
- +∞ = arctan(x) ]+∞ = 1
π(x)dx = −∞ π(x2 + 1) π −∞
−∞ [
Calculons l’espérance de la loi :
E[X] = +∞
x
- +∞ - π(x2 + 1)
xπ(x)dx = dx
−∞ −∞
x
π(x2+1) 1 en l’infini, donc n’est pas intégrable. La queue de la distribution est trop lourde et
O x
∼
donc l’espérance n’existe pas.
Cela peut sembler d’autant plus étonnant que la loi est symétrique et que sa médiane vaut
donc 0.Pourtant, lorsqu’on tente d’appliquer la loi des grands nombres, on observe empiriquement
que la moyenne d’une série de valeurs distribuées suivant cette loi ne converge pas vers 0.
Informellement, on peut dire que la probabilité d’apparition de valeurs extrêmes n’est pas
suffisamment faible pour que la moyenne des tirages se stabilise.
On peut facilement simuler une loi de Cauchy en R, par exemple en prenant le quotient de deux
variables gaussiennes : rnorm(1,0,1)/rnorm(1,0,1). On peut alors réaliser l’expérience ci-dessus
avec l’instruction :
plot(cumsum(rnorm(N,0,1)/rnorm(N,0,1))/N, type="l")
o u` N est un entier qu’on pourra faire croˆıtre progressivement, en commen¸cant par une centaine.
Ce résultat n’est pas contradictoire, puisque la loi des grands nombres ne s’applique que pour
une suite de variables aléatoires dont l’espérance existe.
B.3 Une variable aléatoire qui ne possède pas de variance

De la même manière que pour le contre-exemple B.2, il faut trouver une loi dont le produit
de la densité par x2 n’est pas intégrable. On peut prendre la loi définie sur [1; +∞[ par p : x
1→ 2/x3. On vérifie que p est bien une densité de probabilité :
1 −3
+∞ - ∞
1
- p(x)dx = + 2
x
255
1
dx = −x − 2
+∞
l
=1
1
256
De même, on vérifie également que l’espérance existe bien :
- - 1
+∞ +∞ 2 l +∞
E[X] 1
xp(x)dx 2 − =
dx
x2 x
1
On montre alors que la variance est infinie :
-
2 2 +∞
dx − 4 =2
lim ln x
Var[X] = ]− =
1 x
La fonction 2/x n’est pas intégrable sur [1; +∞[ donc la variance est infinie.
B.4 Un processus stationnaire mais non-ergodique

Il suffit de considérer le signal aléatoire constant sur chaque réalisation : Z(x, ω) = A(ω), o u` A
est une variable aléatoire réelle d’une loi quelconque, prenant au moins deux valeurs possibles diff
érentes. La définition de Z ne dépend pas de x donc ce processus est clairement stationnaire (au
sens strict). Il y a
donc au moins une réalisation ω0 ∈ Ω telle que A(ω0) /= E[A], et donc : la moyenne sur le domaine
analytique de Z(., ω0) vaut A(ω0) /= E[A] = E[Z(x)]. Le processus Z n’est donc pas ergodique à
l’ordre 1.
B.5 Un processus ergodique à l’ordre 1 mais pas à l’ordre 2

On peut considérer le processus Z(x, ω) = A(ω)Y (x, ω(x)) o u` A est une variable aléatoire réelle
d’une loi quelconque, prenant au moins deux valeurs possibles différentes, et Y (0, 1) est un
bruit blanc. ∼
On a alors E[Z(x)] = E[A]E[Z(x)] = 0 (puisque A et Y sont indépendantes). Par ailleurs, la
moyenne analytique d’une réalisation quelconque ω0 ∈ Ω est :
- -
Z(x, ω0)dx = A(ω0)Y (x, ω(x))dx = A(ω0) - Y (x, ω(x))dx = 0
R R
R
Le processus est donc ergodique à l’ordre 1. En revanche, on a E[Z2] = Var[Z(x, ω)] = Var[A]Var[Y (x, ω(x)]
= Var[A]. Or, le moment d’ordre 2 calculé sur une réalisation ω0 est :
- -
Z(x, ω0) dx = A(ω0)
2 2
Y (x, ω(x))2dx = A(ω0)2
R R
et en général, A(ω0)2 /= Var[A]. Le processus n’est donc pas ergodique à l’ordre 2.
257
B.6 Un processus strictement intrinsèque
Un processus stochastique X est dit strictement intrinsèque lorsqu’il vérifie l’hypothèse de
station- narité intrinsèque (def. 26) sans être stationnaire au second ordre (def. 20).
On peut reprendre l’exemple de la marche aléatoire de l’activité II, dont nous avions montré
que la fonction de covariance valait :
Cov(X(t), X(t + τ )) ∝ min(t, t + τ ) = t
en supposant l’intervalle τ � 0, et o u` le symbole ∝ signifie que la covariance est exprimée à un

facteur multiplicatif près dépendant de la variance des incréments individuels. La covariance d
épend du temps
absolu t et pas uniquement de l’intervalle de temps τ séparant les deux échantillons. Le
processus n’est donc pas stationnaire au second ordre 1.
Etudions alors le processus formé par les accroissements de X :
Y (t) = X(t) − X(t − 1)
On a : E[Y (t)] = E[X(t)] − E[X(t − 1)] = 0. Par ailleurs :
Cov(Y (t), Y (t + τ )) = Cov(X(t) − X(t − 1), X(t + τ ) − X(t + τ − 1)) = Cov(X(t), X(t + τ ))−
Cov(X(t), X(t+τ−1))−Cov(X(t−1), X(t+τ ))+Cov(X(t−1), X(t+τ−1)) ∝ t−t−(t−1)+(t−1) = 0
Les incréments sont donc dé co r ré lés et le processus Y est stationnaire au second ordre. X est
donc un processus strictement intrinsèque. L’implication pratique en géostatistique est qu’on ne
peut pas calculer le covariogramme de X puisqu’il ne dépend pas que de l’écart τ entre les sites.
En revanche, le variogramme est bien défini et on a :
1 1( ) 1t )
γX(τ ) = Var[X(t+τ )−X(t)] =
Var[X(t+τ )]+Var[X(t)]−2Cov(X(t+τ ), 2 t+τ
2
Et donc, le variogramme ne dépend bien que de l’écart τ :
τ
γX(τ ) =
2
C’est un variogramme linéaire sans palier (hypothèse intrinsèque donc variogramme non-born
é). Son comportement à l’origine est linéaire, donc d’après l’annexe A, le processus X est
continu mais non- dérivable en moyenne quadratique, ce qui explique l’aspect erratique d’une
marche aléatoire.
1
Nous avions vu cependant dans l’activité II qu’il était tout de même stationnaire au premier ordre.
258
B.7 Un processus continu en m.q. dont toutes les réalisations
sont discontinues
Le contre-exemple suivant, ti ré de Picinbono (1998), est intéressant pour bien comprendre que la
con- tinuité en m.q. n’est qu’une notion probabiliste, elle ne s’applique donc pas syst
ématiquement en tout point du domaine et pour toutes les réalisations.
On considère une variable aléatoire réelle S ∼ U ([0, 1]), distribué suivant une loi uniforme sur
l’intervalle [0, 1], ainsi qu’un processus X : [0, 1] × Ω → R défini par :
0 si t :( S
X = �1 sinon.
(B.1)
t
Fig. B.1. Processus stochastique X échelon unité au temps S aléatoire.
Très clairement, toute réalisation x de ce processus est discontinue (la position S du lieu ou
survient cette discontinuité étant toutefois aléatoire). Pourtant on peut montrer que le
processus X est con-
tinu en m.q. : considérons la grandeur aléatoire X(t) − X(t + ∆t). Elle ne peut prendre que
deux valeurs possibles, à savoir 1 si s ∈ [t; t + ∆t[ et 0 sinon. Cette quantité est donc distribu
ée suivant une loi de Bernoulli dont la probabilité de succès est égale à la largeur de
l’intervalle considéré :
P[X(t) − X(t + ∆t) = 1] = ∆t, d ’ou` l’espérance quadratique :
[ ]
E (X(t) − X(t + ∆t))2 = P[X(t) − X(t + ∆t) = 1] = ∆t −→ 0
∆t
Le processus est donc continu en m.q., malgré la discontinuité systématique de ses réalisations.
259
Index
Accroissements, 48, 98 Eventualités élémentaires, 10

Analyse de sensibilité, Exactitude, 109
150 Anisotropie, 77 Expérience aléatoire, 10
autocorrélation, 19
Autorisation (contrainte), 92 Fonction aléatoire, 30
Fonction de répartition, 13
Biais, 23, 54, 132, 137 fonction génératrice des moments, 24
Bilinéarité, 19 Fonction objectif, 94
Bochner (théorème), 78 Fourier, Joseph, 68
Bruit blanc, 68, 73
Bruit brownien, 66 Géostatistique multivariée, 128
Bruit de numérisation, 18, 21 Georges Matheron, 7
GPS, 7, 13, 15, 29, 61, 65, 69
Cauchy-Schwarz (inégalité), 19 Gradient, 94
Champ aléatoire, 30
Champ scalaire, 8 Heaviside (fonction, 78
Champ vectoriel, 7
Cholesky (factorisation), 148 Interpolateur exact, 109
Co-krigeage, 128 Interpolation, 29, 83
Coefficient de sureté, 142 Intervalle de confiance, 101, 142
Compromis biais-variance, 133 Intrinsèque (hypothèse), 48
Compromis biais-variances, 23 Continuit Isotropie, 37
é en moyenne quadratique, 62 Kolmogorov (axiomes), 10
Convolution, 81, 111 Krigeage, 83
Corrélation, 19 Krigeage aléatoire, 127
Covariance, 19 Krigeage avec dérive externe,
Covariance régularisée, 120 126 Krigeage d’indicatrice, 129
Covariogramme, 37 Krigeage de la moyenne, 117
Défini-négativité conditionnelle, 78 Krigeage dual, 114
Dérivabilité en moyenne quadratique, 62, Krigeage intrinsèque, 97
111 Danie Gerhardus Krige, 6 Krigeage mou, 130
Densité de probabilité, 14 Krigeage ordinaire, 95
Densité spectrale de puissance, 79 Krigeage par blocs, 119
Krigeage séquentiel, 147
Ecart-type, 18 Krigeage simple, 116
Echelon unité, 78 Krigeage universel, 123
Effet de lissage, 113
Ensemble fondamental, 12 Lagragien, 94
Ergodicité à l’ordre 1, 39 Linéarité (contrainte), 91
Ergodicité à l’ordre 2, 40 Loi binomiale, 16
Erreur d’estimation, 91 Loi jointe fini-dimensionnelle, 35
Erreur normalisée, 134 Loi log-normale, 25
Erreur systématique, 24 Loi normale, 17, 31, 66
Espérance, 15 LOOCV, 132
Espace probabilisé, 10 Méthodes déterministes, 29, 138
Espace topo-probabiliste, 30 Marche aléatoire, 31, 36
260
Matrice de covariances, 20 Universalité (contrainte), 92
MNT, 6, 7, 29, 56, 60, 69, 103
Modèle à effet de pépite, 69 Validation croisée, 131
Modèle à effet de trou, 67 Variable aléatoire, 12
Modèle cubique, 67 Variable auxiliaire, 128
Modèle de variogramme, Variable régionalisée, 7, 29, 30
62 Modèle exponentiel, Variables décorrélées, 20
65 Variables indépendantes, 20
Modèle gaussien, 66 Variance, 18
Modèle gigogne, 69 Variance expliquée, 133
Modèle linéaire, 63 Variogramme, 48
Modèle linéaire avec palier, Variogramme expérimental, 50
64 Modèle pépitique pur, Variogramme pépitique, 61
68 Modèle puissance, 64 Variogramme régularisé, 120
Modèle sphérique, 66 Vecteur aléatoire, 30
Moments statistiques, 23
Multiplicateur de Lagrange, 94
Noyau, 85
noyau, 137
Optimalité (contrainte), 93
Optimisation bayésienne, 140
Pépite, 60, 145

Pépite pure, 73
Palier, 59
Parabolique, 61
Plus proche voisin, 138 Port
ée, 60
Probabilité, 10
Problème modèle, 7, 29
Processus markovien, 32
Processus stochastique, 30
Propagation d’incertitudes, 20
Régression linéaire, 74
Régularisation, 121
Ratio signal sur bruit, 73
RMSE, 75, 137
Semi-variogramme, 48
Signal aléatoire, 30
Simulation conditionnelle, 157
Simulation non-conditionnelle, 147
Simulations, 146
Splines, 29
Stationnarité, 35
Stationnarité à l’ordre 1, 36
Stationnarité à l’ordre 2, 36
Stationnarité au sens faible, 36
Stationnarité au sens fort, 36
Stationnarité au sens large, 36
Stationnarité au sens strict, 36
Transformation de Fourier, 78
261
Bibliography
Allard, D. (2012). Statistiques spatiales: introductiona la géostatistique. Lecture notes, University

of Montpellier.
Antoni, J. (2013). Cours de Signaux Aléatoires : Master MGEA, INSA-Lyon.
Arnaud, M. et Emery, X. (2000). Estimation et interpolation spatiale: méthodes déterministes

et méthodes géostatistiques. Hermès.
Baillargeon, S. (2005). Le krigeage: revue de la théorie et application à l’interpolation spatiale

de données de précipitations.
Barret, M. (2009). Traitement statistique du signal: Estimation, filtrage de Wiener, méthodes r

écursives, détection.
Barry, R. P., Jay, M., et Hoef, V. (1996). Blackbox kriging: spatial prediction without specifying
variogram models. Journal of Agricultural, Biological, and Environmental Statistics, pages
297– 322.
Bengio, Y. et Grandvalet, Y. (2004). No unbiased estimator of the variance of k-fold cross-validation.

Journal of machine learning research, 5(Sep):1089–1105.
Biljecki, F., Heuvelink, G. B., Ledoux, H., et Stoter, J. (2015). Propagation of positional error in
3d gis: estimation of the solar irradiation of building roofs. International Journal of
Geographical Information Science, 29(12):2269–2294.
Bonin, O. (1998). Attribute uncertainty propagation in vector geographic information systems:

sensitivity analysis. In Proceedings. Tenth International Conference on Scientific and Statistical
Database Management (Cat. No. 98TB100243), pages 254–259. IEEE.
Bosser, P. (2011). Interpolation spatiale.
Bourgine, B. (1995). Logiciels géostatistiques de gdm, manuel de l’utilisateur. aouˆt, 37842.
Burman, P. (1989). A comparative study of ordinary cross-validation, v-fold cross-validation and

the repeated learning-testing methods. Biometrika, 76(3):503–514.
Conte, E. (2018). Changement climatique et toponymie : écologie historique du houx et du buis

à travers leurs traces toponymiques. Mémoire de fin d’étude Master 2 Carthagéo.
Cottet, F. (2015). Traitement des signaux et acquisition de données-4e é d . Dunod.
Deraisme, J. et Bobbia, M. (2003). Geostatistics in the study of air pollution-related risks. Environ-
nement, Risques & Santé, 2(3):168–175.
Droesbeke, J.-J., Lejeune, M., et Saporta, G. (2006). Analyse statistique des données spatiales.
Editions TECHNIP.
Dumenieu, B. (2015). Un système d’information géographique pour le suivi d’objets historiques urbains
à travers l’espace et le temps. PhD thesis, Paris, EHESS.
262
Dumont, T., Léonard, C., Mary, X., et Mohamed, H. (2019). Cours d’optimisation. Notes de
cours de L1 - économie-Gestion - analyse 2.
Efron, B. (1983). Estimating the error rate of a prediction rule: improvement on cross-validation.
Journal of the American statistical association, 78(382):316–331.
Efron, B. et Tibshirani, R. J. (1994). An introduction to the bootstrap. CRC press.
Emery, X. (2001). Cours de Géostatistique linéaire. Document de cours à l’Ecole des Mines.
Grejner-Brzezinska, D., Toth, C., et Yi, Y. (2005). On improving navigation accuracy of gps/ins
systems. Photogrammetric engineering & remote sensing, 71(4):377–389.
Gringarten, E. et Deutsch, C. V. (2001). Teacher’s aide variogram interpretation and modeling.

Mathematical Geology, 33(4):507–534.
Hauchecorne, B. (2007). Les contre-exemples en mathématiques. Ellipses Paris.
Journel, A. G. et Huijbregts, C. J. (1978). Mining geostatistics, volume 600. Academic press London.
Krige, D. G. (1951). A statistical approach to some basic mine valuation problems on the witwater-
srand. Journal of the Southern African Institute of Mining and Metallurgy, 52(6):119–139.
Lafarge, F. (2007). Modèles stochastiques pour la reconstruction tridimensionnelle d’environnements

urbains. PhD thesis.
Lecoutre, J.-P. (2002). Statistique et probabilités. Dunod.
Li, C., Zhao, S., Wang, Q., et Shi, W. (2018). Uncertainty modeling and analysis of surface area
calcu- lation based on a regular grid digital elevation model (dem). International Journal of
Geographical Information Science, 32(9):1837–1859.
Marcotte, D. (2003). Cours de géostatistiques, E´ cole polytechnique - glq340.
Matheron, G. (1962). Traité de géostatistique appliquée. 1 (1962), volume 1. Editions Technip.
Mehlhorn, K., Newell, B. R., Todd, P. M., Lee, M. D., Morgan, K., Braithwaite, V. A., Hausmann, D.,
Fiedler, K., et Gonzalez, C. (2015). Unpacking the exploration–exploitation tradeoff: A synthesis
of human and animal literatures. Decision, 2(3):191.
Meneroux, Y. (2019). Méthodes d’apprentissage statistique pour la détection de la signalisation routière

à partir de véhicules traceurs. PhD thesis, Paris Est.
Méneroux, Y., Le Guilcher, A., Orfila, O., Lusetti, B., Saint Pierre, G., et Mustière, S. (2017).
Using surrogate road network for map-matching a sensitivity analysis of positional accuracy.
Geocompu- tation 2017.
Mitas, L. et Mitasova, H. (1999). Spatial interpolation. Geographical information systems: principles,

techniques, management and applications, 1(2).
Nadaraya, E. (1965). On non-parametric estimates of density functions and regression curves. Theory
of Probability & Its Applications, 10(1):186–190.
Parzen, E. (1962). On estimation of a probability density function and mode. The annals of mathe-
matical statistics, 33(3):1065–1076.
Pebesma, E. (2020). The meuse data set: a brief tutorial for the gstat r package.
Pebesma, E. J. (2001). Gstat user’s manual. Dept. of Physical Geography, Utrecht University, Utrecht,
The Netherlands.
Pebesma, E. J. et Bivand, R. S. (2005). Classes and methods for spatial data in R. R News, 5(2):9–13.
263
Peraudin, J.-J. (2003). Surveillance de la qualité de l’air par cartographie : l’apport de la géostatistique.
Picinbono, B. (1998). Signaux aléatoires: avec problèmes résolus. Fonctions aléatoires et modèles.
Dunod.
Pyrcz, M. et Deutsch, C. (2003). The whole story on the hole effect. Geostatistical Association of
Australasia, Newsletter, 18:3–5.
Richards, C. (2016). An r function to shift vectors by a specified lag, https://clarkrichards.org/.
Rivoirard, J. (2003). Cours de Géostatistique multivariable. Centre de Géostatistique de
Fontainebleau.
Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density function. The

Annals of Mathematical Statistics, pages 832–837.
Saltelli, A., Chan, K., et Scott, E. M., editors (2000). Sensitivity analysis. Wiley series in probability
and statistics. J. Wiley & sons, New York, Chichester, Weinheim.
Sillard, P. (2001). Estimation par moindres carrés. Hermès Science Publications.
Snoek, J., Larochelle, H., et Adams, R. P. (2012). Practical bayesian optimization of machine
learning algorithms. In Advances in neural information processing systems, pages 2951–2959.
Tian, L., Cai, T., Goetghebeur, E., et Wei, L. (2007). Model evaluation based on the sampling
distribution of estimated absolute prediction error. Biometrika, 94(2):297–311.
Vauglin, F. (1997). Modèles statistiques des imprécisions géométriques des objets g

éographiques linéaires. PhD thesis, Université de Marne-la-Vallée.
Wackernagel, H. (2013a). Basics in geostatistics 3: Geostatistical monte-carlo methods - conditional

simulationconditional simulation.
Wackernagel, H. (2013b). Multivariate geostatistics: an introduction with applications. Springer

Science & Business Media.
Yang, C.-S., Kao, S.-P., Lee, F.-B., et Hung, P.-S. (2004). Twelve different interpolation methods: A
case study of surfer 8.0. In Proceedings of the XXth ISPRS Congress, volume 35, pages 778–785.
Zhang, Y. et Yang, Y. (2015). Cross-validation for selecting a model selection procedure. Journal of
Econometrics, 187(1):95–112.
Zoraster, S. (1996). Imposing geologic interpretations on computer-generated contours using distance

transformations. Mathematical geology, 28(8):969–985.
264

Cours Géostatistique

Transféré par

Droits d'auteur :

Formats disponibles

Cours Géostatistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Géostatistique

Transféré par

Droits d'auteur :

Formats disponibles

E´ COLE NATIONALE DES SCIENCES GEOGRAPHIQUES

Cours au Maste`re spe´ cialise´ De´ sige´ o

Ann´ee scolaire 2018-2019

Dans le problème modèle, on considère une fonction z : D ⊂ R2 → R, représentant le relief du terrain

θ∗ ∈ argmin f (θ) = {θ ∈ Θ | ∀ t ∈ Θ : f (θ) :( f (t)}

Si X et Y sont deux variables aléatoires, alors P(X = x|Y = y) désigne la probabilité

De la même manière on peut définir l’espérance conditionnelle E[X|Y = y] comme l’esp

3 Interpolation par Krigeage 83

A R´egularit´e d’un processus stochastique 176

B Contre-exemples pratiques 180

Une manière simple et convenue de définir la Géostatistique pourrait être la suivante :

• Production de modèle numérique de terrain haute définition (par interpolation d’un

• Analyse des erreurs cartographiques de sources anciennes de donn´ees (Dumenieu, 2015).

• Calcul d’un modèle de geo¨ıde1 à partir d’observations combinées de GPS et de nivellement.

• Calcul d’un champ de déformation (modèle de grille élastique) pour mettre en

• Estimation d’un modèle numérique de bâtiments 3D (Lafarge, 2007).

Var[X + Y ] = Var[X − Y ] = Var[X] + Var[Y ] (1)

Var[X + Y ] = Var[X] + Var[Y ] + 2Cov(X, Y ) (2)

On peut prendre un exemple assez édifiant en considérant un modèle numérique de terrain

Trois remarques importantes avant de d´ebuter l’´etude :

• Dans ce document, nous nous limiterons à la Géostatistique linéaire, i.e. un pan du

Fig. 3. Danie G. Krige ( à gauche), ingénieur minier sud-africain et Georges Matheron ( à

Comment utiliser ce fascicule

• Faire du copier-coller et rectifier le code, ´eventuellement avec les messages d’erreur de R (n

• Recopier le code au clavier.

1.1 Espace probabilis´e

o u` P respecte les 3 axiomes fondamentaux de la th´eorie des probabilit´es (axiomes de Kolmogorov) :

• Pour tout ´ev`enement A ∈ A0 :( P(A) :( 1.

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (1.3)

D´emonstration. On peut facilement d´ecomposer A ∪ B en 3 sous-ensembles : A \ B, B \ A

En combinant l’ensemble des éventualités élémentaires Ω, son ensemble d’évènements A et une

1.2 Variable al´eatoire r´eelle

Ai : le tirage du jour contient i numéros sélectionnés par le joueur

X(ω) =   49021 sisiωω∈∈A4

1.3 Fonction de r´epartition

PX(A) = P(X ∈ A) = P(X−1(A)) (1.6)

o u` X−1(A) = {ω ∈ Ω | X(ω) ∈ A}, autrement dit, l’ensemble des évènements élémentaires

Soit (Ω, A, P) un espace probabilisé, et X : Ω → R une variable aléatoire réelle. On appelle

FX(x) = P(X ∈ ] − ∞; x]) = P(X :( x)

Propriété 2 (Fonction de répartition)

Soit X une variable aléatoire réelle et FX sa fonction de répartition.

(i ) FX est croissante et `a valeurs dans [0, 1].

∀ a, b ∈ R avec a :( b : P(X ∈ [a, b]) = FX(b) − FX(a)

Le passage de la loi de probabilité PX à la fonction de répartition FX induit bien évidemment

Définition 3 (Densité de probabilité)

Soit X une variable aléatoire réelle et FX sa fonction de répartition. Si FX est dérivable

Plus généralement on a les propriétés

Propriété 4 (Densité de probabilité)

Soit X une variable aléatoire réelle de densité π, alors :

Preuves : (i ) découle immédiatement du fait que FX est croissante, d’après le point (i ) de la

Soit (Ω, A, P) un espace probabilisé et X une variable aléatoire (discrète ou continue).

sous réserve que la suite de terme général xipi soit sommable.

E[X] = - xπ(x)dx (1.9)

Exemple 1.6. En reprenant l’exemple 1.3, on calcule la probabilité pi d’obtenir l’évènement Ai :

L’application num´erique donne

On calcule alors l’esp´erance de la loi discr`ete 1.10 par :

Fig. 1.3. Fonction de répartition et densité de probabilité de la loi normale standard.

Var[X] = EhtX − E[X])2i

On appelle écart-type d’une variable aléatoire X la quantité :

�1 si 16.5 :( t < 17.5