Mathematics">
Nothing Special   »   [go: up one dir, main page]

Comparaison de Plan de Sondage

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 31

République du Sénégal

Un peuple - Un but - Une foi

MINISTERE DE L’ECONOMIE, DES FINANCES ET DU


PLAN
AGENCE NATIONALE DE LA STATISTIQUE ET DE LA
DEMOGRAPHIE

ECOLE NATIONALE DELk,


LA STATISTIQUE ET DE
L’ANALYSEDcskl
ECONOMIQUE

Projet de théorie de sondage, ITS3

Estimation de la superficie totale des fermes aux Etats-


Unis en 1992

Groupe 2 :
ASSELOKA E. Amadou R.
DIOP Rockaya
MBOJD Soda
Sous l’encadrement de :
Docteur CISSE, …
Table des matières
LISTE DES GRAPHIQUES .................................................................................................................................... 1
INTRODUCTION ..................................................................................................................................................... 2
Présentation de la base ....................................................................................................................................... 2
Méthodologie du travail ...................................................................................................................................... 3
I. Estimation de la superficie totale des fermes aux Etats-Unis........................................................... 4
1. Préambule ....................................................................................................................................................... 4
2. Estimation avec un seul échantillon ..................................................................................................... 6
2.1 Plan SI........................................................................................................................................................ 6
2.2 Plan stratifié............................................................................................................................................ 7
2.3 Plan PPS .................................................................................................................................................... 9
2.4 Plan à deux degrés (SI SI) ................................................................................................................ 10
2.5 Redressement des estimateurs ..................................................................................................... 11
3. Simulation ..................................................................................................................................................... 14
3.1 Comparaison de quatre plans de sondage ................................................................................ 14
3.2 Comparaison des méthodes d’estimation pour un SI ........................................................... 16
II. Estimation sur un domaine ........................................................................................................................ 17
CONCLUSION ......................................................................................................................................................... 19
ANNEXE des codes R compilé ................................................................................................................ 20

LISTE DES GRAPHIQUES


graphique 1: Dispersion des superficies en 1992 en fonction des superficies de 1982 ............ 5
graphique 2: Boxplot des superficies dans les régions ........................................................................... 6
graphique 3: Dispersion des superficies en 1992 en fonction des proba de sélection ............ 10
graphique 4: Convergence des estimateurs selon le plan.................................................................... 16
graphique 5: Convergence des estimateurs selon les méthodes d’estimation ............................ 17

1
INTRODUCTION
« La statistique est une science ayant pour objet l’étude quantitative des
populations, à l’aide de données représentatives, le plus souvent incomplètes, et
comportant généralement, de ce fait, un caractère d’incertitude. ». En plus des
connaissances théoriques acquise au cours de sa formation, le statisticien doit se
familiariser avec la mise en œuvre de cette théorie en pratique. C’est ainsi que, la mise en
avant de cette préoccupation a abouti à la réalisation d’un travail sur le logiciel R par les
étudiants en troisième année d’ITS. Cet exercice pratique permet de faire le point sur les
50 heures de cours de Théorie des sondages dont il a pour objectif d’être un complément.
Nous avons ainsi eu cette année l’opportunité de traiter les données du recensement
américain agricole réalisé tous les cinq ans dans 50 états. Le travail a été effectué sous la
supervision de M. CISSÉ, Professeur à l’ENSAE. Toutefois, les omissions et inexactitudes
notées dans le présent document, sont à la responsabilité exclusive des auteurs. Dans
cette partie nous allons faire une brève présentation de la base sur laquelle le travail a été
réalisé puis nous expliquerons la méthodologie adoptée pour réaliser ce projet.

Présentation de la base
La base mise à notre disposition pour la réalisation de ce projet comporte les résultats du
recensement américain agricole réalisé tous les cinq ans dans 50 états. Ce recensement
donne des informations sur le nombre de fermes, la superficie dédiée aux fermes, etc. Le
détail des variables est :

• COUNTY = nom de la commune ;


• STATE = abréviation de l’état ;
• ACRES92 =nombre d’acres dédiés aux fermes en 1992 ;

• ACRES87=nombre d’acres dédiés aux fermes en 1987 ;

• ACRES82=nombre d’acres dédiés aux fermes en 1982 ;

• FARMS92=nombre de fermes en 1992 ;


• FARMS87=nombre de fermes en 1987 ;

2
• FARMS82=nombre de fermes en 1982 ;

• LARGEF92=nombre de fermes de plus de 1000 acres en 199 ;

• LARGEF87=nombre de fermes de plus de 1000 acres en 1987 ;

• LARGEF82=nombre de fermes de plus de 1000 acres en 1982 ;

• SMALLF92=nombre de fermes de moins de 9 acres en 1992 ;

• SMALLF87=nombre de fermes de moins de 9 acres en 1987 ;

• SMALLF82=nombre de fermes de moins de 9 acres en 1982 ;

• REGION=région à 4 modalités : S=sud, W=ouest, NC=nord-centre, NE=nord-est.

Notations :
• U : population cible, ensemble des 2992 communes (COUNTY) ;

• y : variable d’intérêt, superficie des fermes en 1992 (ACRES92) ; \

• x : information auxiliaire, superficie des fermes en 1982 (ACRES82).\

Méthodologie du travail
Pour réaliser le projet, nous avons utilisé le logiciel R qui fournit une grande variété de
statistiques et de techniques graphiques, auxquels peuvent s’ajouter des éléments
complémentaires. Package : Un package est un ensemble de programmes non
initialement accessibles dans le logiciel mais lorsqu’il est chargé donne accès à un
ensemble de fonctions. Pour la réalisation de ce projet les packages spéciaux que nous
avons utilisés sont :

- Sampling qui contient des fonctions permettant de tirer des échantillons selon
différentes méthodes ;
- Survey qui contient des fonctions permettant d'analyser des plans
d’échantillonnage ;
- Teachingsampling qui nous permet de calculer les estimations des estimateurs et
leurs variances, selon le plan considéré ;
- Pps qui nous permet d'effectuer le plan PPS (Probability proportional to size).

3
I. Estimation de la superficie totale des fermes aux Etats-Unis
1. Préambule
La superficie totale des fermes en 1992 aux Etats-Unis est de ty. Dans la suite du
travail, c’est cette valeur qui fera l’objet d’estimation par les différentes méthodes
d’estimation et de redressement. Le tableau suivant nous indique la répartition de ce total
selon la situation géographique (REGION).

La superficie totale selon les REGION


Nbr de communes Superficie totale en 92
NC 1029 337110792
NE 211 19931525
S 1348 267517407
W 404 298796138

Ainsi, nous remarquons que les zones nord-est (NE) et ouest (W) sont celles qui
ont le moins de communes avec respectivement 211 et 404, alors que les zones nord-
centre (NC) et sud ont 1029 et 1348 communes respectivement. La zone qui a la plus
grande superficie des fermes est le nord-centre avec 337110792 acres dédiées aux
fermes, suit l’ouest avec une superficie de 298796138 acres bien que la zone ne regorge
pas de beaucoup de communes. Les deux autres zones ont des superficies respectives de
267517407 et 19931525 acres respectivement pour le sud et le nord-est.

Diagramme de dispersion : superficie en 1992 en fonction de superficie en 1982

Ce diagramme représente le nuage de points entre les superficies de 1992 et celles


de 1982 de chaque commune. Il indique la liaison linéaire existante entre les deux
variables. En effet, le calcul de la corrélation de ces 2 variables stipule que les variables
sont liées presque parfaitement (𝜌 = 0.99).

4
graphique 1: Dispersion des superficies en 1992 en fonction des superficies de 1982

Boîtes à moustaches : superficie en 1992 selon les REGION


Dans cette représentation, il s’agit de faire les boites à moustaches parallèles de la
superficie de 1992 en fonction de quatre modalités de la variable « REGION». Ce
graphique montre que les superficies des fermes sont plus dispersées dans la partie West
de la région que dans n’importe quelle autre partie. En plus de cela, c’est dans cette partie
aussi où les valeurs aberrantes sont plus grandes. Nous constatons aussi que la
distribution est étalée à droite. Ce qui voudrait dire qu’il y a plus de superficies qui sont
supérieures à la médiane.

5
graphique 2: Boxplot des superficies dans les régions

2. Estimation avec un seul échantillon


2.1 Plan SI
Le tirage aléatoire simple sans remise encore appelé plan SI est une méthode de
tirage probabiliste où les individus qui formeront l’échantillon ont la même chance d’être
tirés et sont accessibles dès la première opération aléatoire. On distingue deux types de
plan simple : le plan à probabilités égales et sans remise (PESR) et le plan à probabilités
égales avec remise (PEAR). Pour le plan PESR, on se fixe comme paramètre une taille
d’échantillon n et on procède au tirage des n individus sans ordre et sans remise dans une
population U de taille N. Grâce à l’échantillon tiré, on peut construire plusieurs
estimateurs selon l’objectif de l’étude.

Dans le cas de notre projet nous avons tiré un échantillon de taille n = 200 selon
un plan aléatoire simple sans remise (SI) dans toute la population des communes
(COUNTY) américaines en utilisant la fonction srswor.

Une fois l’échantillon tiré, on cherche à estimer certaines grandeurs de la


population. Les commandes svytotal, E.SI et cv nous donnent respectivement l’estimation

6
de Horvitz-Thompson de la superficie totale ty dédiée aux fermes en 1992, une estimation
de la variance et le coefficient de variation de l’estimateur. Les résultats sont consignés
dans le tableau qui suit :

Total var_tyHP.SI cv_tyHP.SI


1022323360 7,733317e+15 0,0936265

Nos résultats montrent que la superficie totale dédiée aux fermes en 1992 est
estimée à 1 022 323 360, sa variance quant à elle est estimée à 7,73e+15 et le coefficient
de variation de à 0,09.

L’estimateur de Horvitz-Thompson pour le total s’écrit :


𝑛
𝑌𝑖
𝜏ˆ𝐻𝑃 = ∑ 𝑎𝑣𝑒𝑐 𝜋𝑖 𝑙𝑒𝑠 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡é𝑠 𝑑′𝑖𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛
𝜋𝑖
𝑖=1

L’estimateur de la variance pour le plan SI est :


1−𝑓 2
ˆ (𝑡ˆ𝑦 ) = 𝑁 2
𝑉𝑎𝑟 𝑠
𝑛 𝑐𝑜𝑟𝑟

Avec 𝑓 le taux de sondage et 𝑠𝑐𝑜𝑟𝑟


2
l’estimateur de la variance de la population.

2.2 Plan stratifié


Nous avons vu que la précision des estimateurs du SI dépend de la dispersion de
la variable d’intérêt dans la population totale. Si la population est homogène vis-à-vis de
cette dernière (variance faible) alors les estimateurs seront d’une bonne précision. Par
contre, si elle est hétérogène, les estimateurs auront une moindre précision. On peut donc
rendre les estimateurs du plan SI beaucoup plus précis en constituant d’abord des
groupes ou strates homogènes, c’est-à-dire des groupes à l’intérieur desquels les unités
présentent une certaine ressemblance ; ensuite, procéder de façon indépendante au
tirage des unités à l’intérieur de chaque groupe. Tel est l’objectif principal du plan de
sondage stratifié.

Pour choisir la variable auxiliaire la plus pertinente nous avons procédé à une
modélisation de la variable ACRES92 pour voir la variable qui l’explique le mieux dans la
7
base. Ainsi la régression de la variable ACRES92 par la variable STATE donne un BIC de
5867.234 alors que celle avec REGION donne un BIC de 5748.657. Donc on peut dire que
la variable REGION est la variable auxiliaire la plus appropriée.

La stratification optimale est plus appropriée par ce qu’elle est plus précise et les résultats
sont consignés dans le tableau suivant :

Estimation Écart type Cv


𝜏ˆ𝐻𝑃 969258017 67878006 0.07

L’estimation de Horvitz-Thompson de la superficie totale ty dédiée aux fermes en


1992 avec la méthode de stratification optimale donne 969258017 et une estimation de
sa variance est de 67878006 et du coefficient de variation est 0.07003089.

Nous avons choisi de stratifier suivant les régions car la variable REGION répartie
la population à des groupes assez homogènes. Aussi, une stratification avec allocation
optimale des tailles de strates est adoptée pour effectuer le tirage et avoir des estimations
avec la meilleure précision dans le cas stratifié.

L’estimateur du total s’écrit :


𝐻

𝜏ˆ𝑆𝑇𝑂 = ∑ 𝑁ℎ 𝑦ℎ
ℎ=1

Avec
𝑁ℎ
1 𝜎ℎ;𝑐𝑜𝑟𝑟
𝑦ℎ = ∑ 𝑦𝑖 𝑒𝑡 𝑛ℎ = 𝑛( 𝑁 )
𝑛ℎ 𝑁ℎ
𝑖∈ 𝑆ℎ ∑𝐻 𝜎
𝑙=1 𝑁 𝑙;𝑐𝑜𝑟𝑟

L’estimateur de la variance de l’estimateur est donné par :


𝐻 𝐻
1
ˆ (𝜏ˆ𝑆𝑇𝑂 ) = (∑ 𝑁ℎ 𝑠ℎ;𝑐𝑜𝑟𝑟 )2 − ∑ 𝑁ℎ 𝑠ℎ;𝑐𝑜𝑟𝑟
𝑉𝑎𝑟 2
𝑛
ℎ=1 ℎ=1

8
2.3 Plan PPS
On tire un échantillon de taille n= 200 selon un plan aléatoire simple avec remise
et à probabilité de sélection proportionnelles à la taille de la variable ACRES82. Pour tirer
cet échantillon, nous avons exécuté la librairie PPS. La probabilité de sélection se calcule
en faisant le rapport entre la taille de la ferme sur la somme des tailles des fermes.
Puisque la probabilité de tirage est proportionnelle à la taille alors ce tirage est donc à
probabilité inégale. Ainsi pour estimer le total, nous pouvons utiliser l’estimateur de
Hansen-Hurwitz qui s’écrit comme suit :

𝑁 𝑦𝑖
𝑡ˆ𝐻𝐻 = ∑
𝑚 𝑝𝑖
𝑖∈𝑆

Après estimation, le total s’élève à 9,09.10^8 acres comme le montre la table suivante :

Coefficient de
Estimateur Estimation Variance
variation
𝑡ˆ𝐻𝐻 9,09.10^08 5,35.10^13 0,08.10^(-1)

Diagramme de dispersion : superficie en 1992 en fonction des proba de sélection


Nous visualisons dans la figure qui suit la dispersion de la superficie des fermes selon
les communes et les proba de sélection de chaque commune. On remarque qu’il existe une
relation linéaire entre les proba d’inclusion et les superficies. Ce résultat est celui attendu car
les proba de sélection sont proportionnelles aux superficies de 1982 dans les communes, or
cette variable est très fortement liée à la superficie de 1992

9
graphique 3: Dispersion des superficies en 1992 en fonction des proba de sélection

2.4 Plan à deux degrés (SI SI)


Toujours dans l’estimation de la variable ACRES92, un plan de sondage à deux
degrés est proposé. Les unités primaires sont les Etats qui sont appelés « STATE » dans
la base. Dans cette question, le choix nous est donné de choisir la taille des échantillons
pour avoir enfin un échantillon global de taille 200. Pour avoir le résultat souhaité, nous
nous proposons de sélectionner 20 Etats au premier degré dans lesquels on tire 200
communes en raison de 10 communes chacun. Avant d’effectuer le tirage, les Etats dont
le nombre de communes est inférieur à 10 sera supprimé. Ceci nous donne une nouvelle
base dans laquelle nous tirons notre échantillon.

L’estimation du total ty des superficies est d’environ 7,24.10^8 acres


Estimation Ecart-type Coefficient de variation
𝜏ˆ𝐻𝑃 7.248682e+08 1.128476e+08 1.556802e+01

10
2.5 Redressement des estimateurs
Il est important de chercher à améliorer son estimation lorsque qu’on a les moyens. Il
s’agit alors de retrouver des variables qualitatives ou quantitatives qui sont liées à la
variable d’intérêt. Contrairement aux méthodes de stratification et de plusieurs degrés,
les méthodes de redressements s’appliquent après la phase de tirage de l’échantillon avec
une ou plusieurs variables auxiliaires. La philosophie du redressement selon une variable
auxiliaire est la suivant : on essaye de restituer la structure de la population d’étude
grâce à une variable dont on a accès.

2.5.1 Post stratification

La post stratification consiste à redresser l’estimateur à notre disposition en le


corrigeant par le biais d’une variable qualitative auxiliaire. Cette correction se fait
notamment en pondérant par les proportions des modalités de la variable auxiliaire.
Ainsi, pour la post stratification sur l’estimation de la superficie des fermes en 1992, nous
prenons la variable REGION, un facteur influent sur la superficie des fermes, afin de
redresser l’estimateur. la composition de la population 𝑈 s’écrit comme suit:

𝑈 = ⨄ 𝑈ℎ
ℎ=1

Où les 𝑈ℎ sont les strates formées selon la variable REGION. L’estimateur de la post
stratification s’écrit alors comme suit :

𝑛 𝑛

𝜏ˆ𝑝𝑜𝑠𝑡 = ∑ 𝑁ℎ 𝜇ˆℎ = ∑ 𝜏ˆℎ


ℎ=1 ℎ=1

Avec 𝑁ℎ le nombre de fermes réel dans chaque REGION, 𝜇ℎ l’estimateur de la moyenne


de superficie des fermes dans la strate h, et 𝜏ℎ l’estimation du total de superficie des
fermes dans la strate h de l’échantillon. \ L’estimateur de la moyenne s’écrit :

𝑛ℎ
1
𝜇ˆℎ = ∑ 𝑦ℎ𝑖
𝑛ℎ
𝑖=1

11
Avec 𝑦ℎ𝑖 la superficie des des fermes dans la commune i de la région h. \ La variance de
l’estimateur post stratifié (dans le cas d’un tirage aléatoire simple) vaut
approximativement (n “assez grand” et 𝑁ℎ /𝑁) “pas trop petit” pour tout h):

𝐻 𝐻
1−𝑓 2
1−𝑓 2
𝑉𝑎𝑟(𝜏ˆ𝑝𝑜𝑠𝑡 ) ≈ 𝑁 ( ∑ 𝑁ℎ 𝜎ℎ,𝑐𝑜𝑟𝑟 + 2 ∑(𝑁 − 𝑁ℎ )𝜎ℎ,𝑐𝑜𝑟𝑟 )
𝑛 𝑛
ℎ=1 ℎ=1

Etant donné qu’on a pas accès à la vraie variance corrigée (par hypothèse), c’est à dire
2
𝜎ℎ,𝑐𝑜𝑟𝑟 , l’estimateur de la variance est donné par :
𝐻 𝐻
1−𝑓 1−𝑓
ˆ (𝜏ˆ𝑝𝑜𝑠𝑡 ) = 𝑁 (
𝑉𝑎𝑟 2
∑ 𝑁ℎ 𝑠ℎ,𝑐𝑜𝑟𝑟 2
+ 2 ∑(𝑁 − 𝑁ℎ )𝑠ℎ,𝑐𝑜𝑟𝑟 )
𝑛 𝑛
ℎ=1 ℎ=1

Le tableau des effectifs et totaux


Nh nh Yh sh,corr
NC 1029 69 25059088 251723.39
NE 211 10 1037467 85221.48
S 1348 88 19716696 354318.14
W 404 33 22523872 704859.13

Avec
Yh: le total de superficies dans la région h
Nh: le nombre de communes dans la région h avant échantillonnage
nh: le nombre de communes dans la région h après échantillonnage
Après calcul, nous avons les résultats suivants :

Coefficient de
Estimateur Estimation Variances variation
𝜏ˆ𝑝𝑜𝑠𝑡 9,733686.10^10 1,695607627.10^11 0.0816806
τ̂HP SI 1.0223234.10^9 7,733317310^15 0.0936265

L’estimation de la superficie des fermes s’est bien améliorée grâce au redressement


effectué. En effet, la variance de l’estimateur de Horvitz-Thompson dans le tirage SI
(7,73.10^15) est supérieure à celle de l’estimateur post stratifié (1,69.10^11), donc 𝜏ˆ𝑝𝑜𝑠𝑡
est plus efficace que 𝜏ˆ𝐻𝑃 . De plus, les coefficients de variation nous indiquent que les

12
observations sont plus concentrées autour de l’estimation dans le cas de la post
stratification que dans celui du SI sans remise, soit 0.08 contre 0.09.

2.5.2 Estimation par le ratio

Le principe de l’estimation par le ratio est de considérer une variable auxiliaire (la
superficie de ferme en 82) 𝑋𝑖 liée à la variable d’interêt (la superficie de ferme en 92) par
une relation de type :

𝑌𝑖 = 𝛽𝑞𝑢𝑜𝑡 . 𝑋𝑖 + 𝑈𝑖

Où 𝑟 est un coefficient de proportionnalité et 𝑈𝑖 sont des redisus et 𝑋 une variable dont


on a accès (on connaît au moins 𝜏𝑋 )

Etape 1 : On estime le ratio par

𝜏ˆ𝑌 𝜇ˆ𝑌 𝑌
𝛽ˆ𝑞𝑢𝑜𝑡 = = =
𝜏ˆ𝑋 𝜇ˆ 𝑋 𝑋

Avec 𝜏ˆ𝑌 , 𝜏ˆ𝑋 , 𝜇ˆ𝑌 et 𝜇ˆ𝑋 les estimateurs des totaux et des moyennes.

Etape 2 : on détermine l’estimateur à partir de 𝛽ˆ 𝑞𝑢𝑜𝑡 et du vrai total 𝜏𝑋 de la variable


auxiliaire.

𝜏ˆ𝑌;𝑞𝑢𝑜𝑡 = 𝛽ˆ𝑞𝑢𝑜𝑡 𝜏𝑋 𝑒𝑡 𝜇ˆ𝑌;𝑞𝑢𝑜𝑡 = 𝛽ˆ𝑞𝑢𝑜𝑡 𝜇𝑋

Après calcul, nous avons les résultats suivants :

Estimateur Estimation Variances Coefficient de variation


𝜏ˆ𝑌;𝑞𝑢𝑜𝑡 1000344631,44 1,6085697.10^15 0.0123357
𝜏ˆ𝐻𝑃 1,0223234.10^9 7,7333173.10^15 0.0936265

Avec 𝛽ˆ𝑞𝑢𝑜𝑡 = 1.04.

L’estimation par le ratio nous donne un total de 1000344631,44 de la superficie


des fermes en 1992. Cette estimation est plus précise que celle donnée par le plan SI sans
remise. En effet,

𝑉𝑎𝑟(𝜏ˆ𝑌;𝑞𝑢𝑜𝑡 ) < 𝑉𝑎𝑟(𝜏ˆ𝐻𝑃 )

𝐶𝑉(𝜏ˆ𝑌;𝑞𝑢𝑜𝑡 ) < 𝐶𝑉(𝜏ˆ𝐻𝑃 )

13
3. Simulation
3.1 Comparaison de quatre plans de sondage
Pour pouvoir comparer plusieurs plans de sondage et plusieurs méthodes, nous
sommes amenés à réaliser des simulations, c’est-à-dire générer plusieurs échantillons.
C’est ce qui fait l’objet de cette partie.
Considérons les plans SI, stratifié, PPS et à deux degrés (SI, SI) nous allons calculez
les effets plans et les coefficients de variation à partir de la variance empirique des
estimations obtenues à partir de 500 tirages d’échantillons.
Par un programme sur R (mis en annexe partie 3.1) nous avons tirés 500 échantillons
pour les quatre plans de sondage.
➢ Pour le sondage aléatoire simples les résultats obtenus sont dans le tableau qui
suit :
Estimateur Moyenne Variance empirique Coefficient de variation Effet plan
ty_SI 922751982 6,92E+15 0,09013799 1

Ainsi la variance empirique des estimations sur les 500 échantillons de la superficie totale
dédiée aux fermes en 1992 est de 6,92E+15. En moyenne, pour la méthode SI,
l’estimateur SI est de 922 751 982. Les estimations du total sont assez concentrées au
niveau de la moyenne (CV=0,09).

➢ Pour le sondage stratifié les résultats obtenus sont dans le tableau qui suit :
Effet plan
Estimateur Moyenne Variance empirique Coefficient de variation
920047877 4,28E+15 0,61849711
ty_SPO 0,07107301

On note une variance empirique, pour la méthode stratifiée optimale, de 4,28.10^15. En


moyenne, pour la méthode stratifiée optimale, l’estimation est de 920 047 877. L’effet
plan pour cette méthode est 0,62. Cela vaudra dire que l’estimateur stratifié optimal est
1,62 fois plus précis que celui du plan SI.

14
➢ Pour le sondage PPS les résultats obtenus sont dans le tableau qui suit :
Variance
Estimateur Moyenne Coefficient de variation Effet plan
empirique
ty_PPS 922765059 5,63E+13 8,13E-03 8,13E-03

On remarque que la variance empirique de la superficie totale dédiée aux fermes en 1992
pour la méthode PPS est de 5,63.10^13. ce qui est inférieur aux variances de SI et STO.
L’effet plan estimée est de 8,13.10^3, soit une précision de 123 fois plus grande que celle
de SI et 77 fois plus grande que le STO.

➢ Pour le sondage à deux degrés les résultats obtenus sont dans le tableau qui suit :
Estimateur Moyenne Variance Coefficient de variation Effet plan
empirique
ty_SI_SI 891109364 2,71E+16 1,85E-01 3,92E+00

La variance empirique de la superficie totale dédiée aux fermes en 1992 estimée par
simulation dans le cas de sondage à deux degrés est de 2,71.10^16 avec une moyenne de
891 109 364 acres sur l’ensemble des 500 échantillons. L’effet plan est estimé est à 3,92.
Ce résultat stipule que l’estimateur par la méthode SI SI est 3,92 fois moins précis que
l’estimateur SI. Ce résultat est inattendu, mais cela peut être du à une mauvais choix de
plan.
Récapitulatif des effets plans :

EFFET PLAN ty_SI ty_SP ty_PPS ty_SI_SI


ty_SI 1,000
ty_SP 0,618 1,000
ty_PPS 0,008 0,013 1,000
ty_SI_SI 3,916E+00 6,336E+00 4,815E+02 1,000

Si on en croit au tableau ci-dessus le plan PPS donne l’estimateur de la variance la plus


petite alors il peut être considéré comme le meilleur et ce résultat était prévisible.

Pour appuyer d’avantage ces résultats, nous représentons le graphique ci-dessous qui
nous montre les comportements d’estimateur SI(vert), de l’estimateur STO (bleu), de
l’estimateur PPS (rouge) et de l’estimateur de 2 degrés (jaune) autour de la droite du vrai

15
total (en violet). On remarque que l’estimateur PPS est celui qui se stabilise le plus autour
du vrai total.

graphique 4: Convergence des estimateurs selon le plan

3.2 Comparaison des méthodes d’estimation pour un SI


Pour comparer la méthode qui donne la meilleure estimation, on propose, d’abord, de
faire un tirage à partir d’un plan simple sans remise. Ensuite, nous allons calculer
l’estimation du total de la superficie par un estimation de HP pour SI, une post
stratification et une estimation par ratio.
Ainsi, la variance de l’estimateur de Horvitz-Thompson dans le cas SI est de 8,62.10^15.
Après redressement, la variance de l’estimateur post stratifié est de 7,46.10^15 et celle
de l’estimateur par ratio est 1,80.10^15. Nous pouvons constater, l’estimateur par
ratio est plus efficace que celui post stratifié qui est à son tour plus efficace que
l’estimateur HP dans le cas SI. Ces résultats sont tout à fait attendu car le but même du
redressement est d’obtenir des estimateurs plus précis.
Estimateur Variance
tyHP 8,620971.10^15
typost 7,466417.10^15
ty.ration 1,809427.10^15
Pour plus de visibilité sur le comportement des estimateurs, nous pouvons voir le
graphique ci-dessous qui nous montre la convergence des estimateurs vers le vrai total.

16
Ainsi on peut remarquer qu’en faisant le cumul pour chaque méthode d’estimation,
les estimateurs de chaque méthode convergent vers le vrai total (trait en violet). Notons
que l’estimateur par le ratio (en rouge) est celui qui se stabilise le plus et qui converge
« plus tôt », comparé aux autres estimateurs. Viens ensuite, l’estimateur de HP de SI (en
vers) qui se stabilise et converge aux alentours de 100e échantillon alors l’estimateur post
stratifié ne commence à se stabiliser qu’aux alentours du 300e échantillon.

graphique 5: Convergence des estimateurs selon les méthodes d’estimation

II. Estimation sur un domaine


On s’intéresse maintenant à l’estimation de la superficie totale des fermes en 1992 pour
la région NC, d’une taille de 𝑁𝑈𝑑 = en utilisant un échantillon aléatoire simple sans remise
de taille 𝑛 = 200. Le paramètre d’intérêt est : $t_{U_d}=\sum_{k\in{U_d}}y_k\\$ avec 𝑈𝑑
la population des fermes qui se trouve dans la région Nord-centre.

17
Estimateur de Horvitz-Thompson du total
L’estimateur de Horvitz-Thompson du total pour un plan SI est donné par :
𝑛
𝑌𝑖
𝑡ˆ𝑈𝑑 = ∑ 𝑎𝑣𝑒𝑐 𝜋𝑖 𝑙𝑒𝑠 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡é𝑠 𝑑′𝑖𝑛𝑐𝑙𝑢𝑠𝑖𝑜𝑛
𝜋𝑖
𝑖=1
𝑛
Comme le plan est à probabilité égale, les probabilités d’inclusion sont égales (𝜋𝑖 = )
𝑁𝑈𝑑

pour toutes les communes de la région NC. On a donc :

𝑛
𝑁
𝑡ˆ𝑈𝑑 = ∑ 𝑌𝑖
𝑛
𝑖=1

La variance de cet estimateur est donnée par :


1−𝑓 2
𝑉𝑎𝑟(𝑡ˆ𝑈𝑑 ) = 𝑁 2 𝜎𝑈𝑑;𝑐𝑜𝑟𝑟
𝑛
Où 𝜎𝑐𝑜𝑟𝑟
2
est la vraie variance de la superficie des fermes des communes de la région NC.
L’estimateur de la variance de l’estimateur du total est :
1−𝑓 2
ˆ (𝑡ˆ𝑈𝑑 ) = 𝑁 2
𝑉𝑎𝑟 𝑠
𝑛 𝑈𝑑;𝑐𝑜𝑟𝑟
Où 𝑠𝑈2𝑑;𝑐𝑜𝑟𝑟 est la variance empirique calculée sur l’échantillon.

Estimateur par ratio du total

L’estimateur de ratio s’écrit comme :

𝑁𝑑
𝑡ˆ𝑈𝑑,𝑟𝑎𝑡 = 𝑡ˆ𝑈𝑑
𝑁ˆ𝑑
1
Avec 𝑁𝑑 la taille du domaine 𝑈𝑑 et 𝑁ˆ𝑑 = ∑𝑖∈𝑆 l’estimation de cette taille.
𝑝𝑖

18
CONCLUSION
Au terme de ce travail, nous pouvons dire que la réalisation de ce projet nous a
permis d’appliquer certaines de nos connaissances en théorie des sondages.

En théorie de l’inférence comme en théorie des sondages, le statisticien n’a pas toujours
accès à la vraie information. Dans ce cas, il est obligé de procéder par des estimations. Et
il y a autant d’estimations que de méthodes. C’est ce qui fait que les estimations des
totaux, des variances et coefficients de variation diffèrent d’un plan de sondage à l’autre.
Pour remédier à ces différences, des améliorations telles que la post stratification et
l’estimation par ratio ont été apportées à ces estimateurs.

S’agissant des simulations, les plans de sondage ont été comparés grâce à l’effet plan de
sondage. Suite à des comparaisons, nous pouvons conclure que le plan PPS est le meilleur
car il donne plus de précision avec un effet plan de l’ordre de 0,008 et est l’estimateur qui
converge au mieux vers la vraie valeur du total (graphique 4).

19
ANNEXE des codes R compilé

### definition de l'espace de travail##


setwd("C:/Users/amado/Desktop/CoursIT3_2017_2018/Sondage/Projet Sondage/fichi
er travail")

BASE<-read.csv("AGPOP.csv", sep = ";")

library(survey)

library(sampling)

library(TeachingSampling)
library(pps)

################### 1.PREAMBULE ####################

#########1.1
ty=sum(BASE$ACRES92) # le total de superficie en 92
ReparREGION=table(BASE$REGION)# nombre des communes par region
table(BASE$STATE)

#########1.2
plot(BASE$ACRES82,BASE$ACRES92)# dispersion

# boîtes à moustaches superficie selon les region


boxplot(ACRES92~REGION, data = BASE,col = "purple", border = "black",
xlab = "Superficie")

#~~~~~~~~~~~~~~~~~~~~~~~2.1 plan SI~~~~~~~~~~~~~~~~~~~~~~~#


set.seed(40) # # la graine aleatoire

tiragSI= srswor(200,2992) # tirage SI de 200 dans 2992


EchanSI= BASE[tiragSI==1,] # #les observation de la base

EchanSI.disgn= svydesign(id=~ COUNTY, weights = rep(2992/200,200), data


= EchanSI)

tyHP.SI= svytotal(~ACRES92,EchanSI.disgn) # Estimation du


total HT de superficie des
#fermes en 92

var_tyHP.SI= (E.SI(2992,200,EchanSI$ACRES92)[2,2])^2 # Estimation de


la variance de l'estimateur

20
#l'estimation
cv_tyHP.SI= cv(tyHP.SI) # coefficient de variation

#~~~~~~~~~~~~~~~~~~~~~~2.2 plan Stratifie~~~~~~~~~~~~~~~~~~#


attach(BASE)
#choix de variable
model1=aov(ACRES92~STATE,data = EchanSI)
model2=aov(ACRES92~REGION,data = EchanSI)
BIC(model1)

BIC(model2)

## on a BIC(model2) < BIC(model1) donc le choix se porte sur REGION

# allocation optimale des nh


Nh=as.vector(ReparREGION) ##### definition des Nh
N=sum(Nh)
n=200
sd_Y = tapply(ACRES92, REGION, sd)

nh_opt= round(n*Nh*sd_Y/sum(Nh*sd_Y))

### comme c'est different, on reajuste


nh_opt[2]=nh_opt[2]+1
(sum(nh_opt)==200) ###reverification; okay

tiragPS_opt= strata(BASE, "REGION", size = rev(nh_opt), method = "srswo


r")

## TIRAGE STRATIFIE optimal


EchanPS_opt=getdata(BASE,tiragPS_opt) ## on fait le matching

poids_PS_opt= c(rep(Nh[1]/nh_opt[1],nh_opt[1]),rep(Nh[2]/nh_opt[2],nh_o
pt[2]),rep(Nh[3]/nh_opt[3],nh_opt[3]),
rep(Nh[4]/nh_opt[4],nh_opt[4])) ## le poids des individus

fpc_PS_opt= c(rep(nh_opt[1]/Nh[1],nh_opt[1]),rep(nh_opt[2]/Nh[2],nh_opt
[2]),rep(nh_opt[3]/Nh[3],nh_opt[3]),
rep(nh_opt[4]/Nh[4],nh_opt[4])) ## correction en population finie

EchanPS_opt.design = svydesign(ids=~COUNTY, strata=~REGION, weights =


rev(as.vector(poids_PS_opt)),
fpc = rev(as.vector(fpc_PS_opt)), data = EchanPS_opt, nest = TRUE)

tyHP.SP_opt= svytotal(~ACRES92,EchanPS_opt.design)

cv_tyHP.SP_opt = cv(tyHP.SP_opt)
detach(BASE)

21
#####~~~~~~~~~~~~~~~~~~~ 2.3 plan PPS~~~~~~~~~~~~~~~~~~~~~~~~~~~~####
set.seed(40)
tiragPPS=ppswr(BASE$ACRES82,n) # tirage PPS avec remise
BASE$prbSelec82<-BASE$ACRES82/sum(BASE$ACRES82) ## prob de select prop
a accres sur l'ensemble de la base
EchanPPS=BASE[tiragPPS,] # echantillon PPS
Estimation.Hansen=E.PPS(EchanPPS$ACRES92,EchanPPS$prbSelec) ## estimati
on du total, variance et CV
ty_HH=Estimation.Hansen[1,]
varty_HH=Estimation.Hansen[2,]^2
cvty_HH=Estimation.Hansen[3,]
# ty_HH1= sum(EchanPPS$ACRES92/EchanPPS$prbSelec)/200" # verification d
e l'estimateur de Hansen
plot(EchanPPS$prbSelec,EchanPPS$ACRES92)

## ACRES92 en fonction des probabilités de sélection

####~~~~~~~~~~~~~~~~~~~2.4 (SI,SI)~~~~~~~~~~~~~~~~~~~~~~~~~~~`~~#####

#nous decidons de prendre 10 etat dont la taille est superieur a 10


ReparSTATE=table(BASE$STATE) ## repartition des communce selo
n les Etats
ReparSTATE_1=ReparSTATE[ReparSTATE<10] ## les etats avec moins de 10 co
mmunes
ReparSTATE_2=ReparSTATE[ReparSTATE>10] ## les etats avec plus de 10 com
munes
BASE_1=BASE

#boucle pour eleminer les etats qui ne feront pas l'objet du tirage (mo
ins de 10 communes)
for ( j in 1:length(BASE_1[,1]) ) {

for (i in 1:length(BASE_1[,1])) {
if ( is.element(BASE_1[i,2], names(ReparSTATE_1) ))
BASE_1=BASE_1[-as.integer(i),]
} }

#tirage à 2 degrès: des etats avec plus de 10 communes puis de 10 commu


nes dans chancun
tira=mstage(BASE_1,stage=list("cluster","cluster"), varnames=list("STAT
E","COUNTY"),
size=list(20,c(rep(10,20))), method=list("srswor","srswor")
)

EchanSI_SI=BASE_1[tira$`2`$ID_unit,] ## recuperation des communes tirée


s

22
length(tira$`2`$ID_unit)

## [1] 200

dim(EchanSI_SI)

## [1] 200 16

NI=length(names(ReparSTATE_2))
nI=20
Ni=as.vector(table(tira$`1`$STATE))

Ni=Ni[Ni!=0]
ni=c(rep(10,20))

estimation.HP= E.2SI(NI,nI,Ni,ni,EchanSI_SI$ACRES92,as.character(EchanS
I_SI$STATE)) # estimation du total,

# de la variance et du CV

# qu'on recupere en bas


tyHP.SI_SI = estimation.HP[1,2] #Horvitz-Thompson pour le total de ACRE
S92
vartyHP.SI_SI = estimation.HP[2,2]^2 # estimation variance
cvtyHP.SI_SI = estimation.HP[3,2] # CV de l'estimateur

#####~~~~~~~~~~~~~~~~~~~~~~~ 2.5 Poststatification ~~~~~~~~~~~~~~~~~~~####


attach(BASE)
StrateRegion= table(REGION) ### structure par REGION
post.design= postStratify(EchanSI.disgn, ~REGION, StrateRegion)
typost= svytotal(~ACRES92,post.design)# estimateur poststratifié
var_typost= svyvar(~ACRES92,post.design)[1] # l'estimation variance de
l'estimateur poststratifié
cv_typost= cv(typost) #coefficient de variation
detach(BASE)

####~~~~~~~~~~~~~~~~~~~~~~2.6 Estimation par le ratio~~~~~~~~~~~~~~~~####


attach(EchanSI)
b.ration= svyratio(~ACRES92,~ACRES82,EchanSI.disgn) ## estimation du ra
tion
ty.ration=predict(b.ration,sum(BASE$ACRES82))[1] ## l'estimation du t
otal ratio
# ty.ration= svyvar(~ACRES92,EchanSI.disgn)
var_ty.ration=2992^2*(1-200/2992)/200*1/199*sum((BASE$ACRES92-mean(BASE
$ACRES92)/mean(BASE$ACRES82)*BASE$ACRES82)*
(BASE$ACRES92-mean(BASE$ACRES92)/mean(BASE
$ACRES82)*BASE$ACRES82))

23
cv_ty.ration= cv(b.ration) ## coefficient de variation
detach(EchanSI)

#################### 3. simulation ###################

####~~~~~~~~~~~~~~~~~~~~3.1 Comparaison de quatre plans de sondage~~~~~~~~~~~


~~~~~~########

n=200

N=2992

m = 500 ## Nombre d'échantillons qu'on veut tirer pour effectuer les si


mulations

## Définition des matrices pour le stockage des résultats

ty.esti <- matrix(1, m, 4)

ty.esti= as.data.frame(ty.esti)

names(ty.esti)=c("tyHP.SI", "tyHP.SP", "ty_HH", "tyHP.SI_SI")

i=1

ty_HH=Estimation.Hansen[1,]

ty.esti[i,"tyHP.SI"]=tyHP.SI[1]

ty.esti[i,"tyHP.SP"]=tyHP.SP[1]

ty.esti[i,"ty_HH"]=ty_HH[2]

while (i<=500)

24
{

set.seed(20*2*i) ## Pour changer la graine afin d'avoir des échantill


ons différents

## Pour le plan SI

Echanti_si <- srswor(n,N)

base_si= BASE[Echanti_si==1,]

Base_si.disgn <- svydesign(id =~COUNTY, weights = rep(N/n,n), fpc=rep


(n/N, n), data = base_si)

ACRES92_2 <- base_si$ACRES92

tyHP.SI=svytotal(~ACRES92,Base_si.disgn) # Estimation du total HT de


superficie des fermes en 92

## Pour le plan stratifié

#allocation optimale des nh

Nh=as.vector(ReparREGION) ##### definition des Nh

N=sum(Nh)

n=200

sd_Y = tapply(BASE$ACRES92, BASE$REGION, sd)

nh_opt= round(n*Nh*sd_Y/sum(Nh*sd_Y))

(sum(nh_opt)==200) ### verification de la somme des nh egale a 200

### comme c'est different, on reajuste

nh_opt[2]=nh_opt[2]+1

(sum(nh_opt)==200) ###reverification; okay

tiragPS= strata (BASE, "REGION", size = rev(nh_opt), method = "srswor


") ## TIRAGE STRATIFIE

EchanPS= getdata(BASE,tiragPS) ## on fait le matching entre l'echan e


t la base

25
poids_PS= c(rep(Nh[1]/nh_opt[1],nh_opt[1]),rep(Nh[2]/nh_opt[2],nh_opt
[2]),rep(Nh[3]/nh_opt[3],nh_opt[3]),

rep(Nh[4]/nh_opt[4],nh_opt[4])) ## le poids des individus

fpc_PS= c(rep(nh_opt[1]/Nh[1],nh_opt[1]),rep(nh_opt[2]/Nh[2],nh_opt[2
]),rep(nh_opt[3]/Nh[3],nh_opt[3]),

rep(nh_opt[4]/Nh[4],nh_opt[4])) ## correction en populatio


n finie

EchanPS.design = svydesign(ids=~COUNTY, strata=~REGION, weights = as.


vector(rev(poids_PS)),

fpc = as.vector(rev(fpc_PS)), data = Echan


PS, nest = TRUE)

tyHP.SP= svytotal(~ACRES92,EchanPS.design) # Estimation du to


tal HT de superficie des fermes en 92

#pour le plan PPS

tiragPPS=ppswr(BASE$ACRES82,n) # tirage PPS avec remise

BASE$prbSelec<-BASE$ACRES82/sum(BASE$ACRES82)

EchanPPS=BASE[tiragPPS,] # echantillon PPS

Estimation.Hansen=E.PPS(EchanPPS$ACRES92,EchanPPS$prbSelec) ## estima
tion du total, variance et CV

ty_HH=Estimation.Hansen[1,]

#Pour le plan SI SI

26
tira=mstage(BASE_1,stage=list("cluster","cluster"), varnames=list("ST
ATE","COUNTY"),

size=list(20,c(rep(10,20))), method=list("srswor","srswor
"))

EchanSI_SI=BASE_1[tira$`2`$ID_unit,]

length(tira$`2`$ID_unit)

dim(EchanSI_SI)

NI=length(names(ReparSTATE_2))

nI=20

Ni=as.vector(table(tira$`1`$STATE))

Ni=Ni[Ni!=0]

ni=c(rep(10,20))

estimation.HP= E.2SI(NI,nI,Ni,ni,EchanSI_SI$ACRES92,as.character(Echa
nSI_SI$STATE))

tyHP.SI_SI = estimation.HP[1,2] #Horvitz-Thompson pour le total de AC


RES92

## Stockage des valeurs des estimateur données

ty.esti[i,"tyHP.SI"]=tyHP.SI[1]

ty.esti[i,"tyHP.SP"]=tyHP.SP[1]

ty.esti[i,"ty_HH"]=ty_HH[2]

ty.esti[i,"tyHP.SI_SI"]=tyHP.SI_SI

i=i+1

27
###tirage de 500 echantillon et calcul estimateur SI, postStrat et rati
o

i=1

while (i < 500) {

BASE_ESTIMATEUR[,"Echantillon"]= i

set.seed(20*2*i)

tiragSI= srswor(200,2992)

Echantillon=BASE[tiragSI==1,]

EchanSI.disg= svydesign(ids=~COUNTY, weights = c(rep(2992/200,200)), d


ata = Echantillon, nest = FALSE)

BASE_ESTIMATEUR[i,"tyHP.SI"]= svytotal(~ACRES92,EchanSI.disg)[1]

length(unique(Echantillon$COUNTY))

BASE_ESTIMATEUR[i,"VarEmp.SI"]= (E.SI(2992,200,Echantillon$ACRES92)[2
,2])^2

post.disg= postStratify(EchanSI.disg, strata = ~REGION, StrateRegion)

BASE_ESTIMATEUR[i,"typost.SI"]= svytotal(~ACRES92,post.disg)[1]

BASE_ESTIMATEUR[i,"var_typost.SI"]= svyvar(~ACRES92,post.disg)[1]

ration.SI= svyratio(~ACRES92,~ACRES82,EchanSI.disg)

BASE_ESTIMATEUR[i,"ty.ration.SI"]=predict(ration.SI,sum(BASE$ACRES82))
[1]

BASE_ESTIMATEUR[i,"var_ty.ration"]=2992^2*(1-200/2992)/200*1/199*sum((
Echantillon$ACRES92-mean(Echantillon$ACRES92)/mean(Echantillon$ACRES82)*Echan
tillon$ACRES82)*

(Echantillon$ACRES92-mean(Echantillon$ACRES92)/mean(Echantillon$ACRES82)*Echa
ntillon$ACRES82))

28
i=i+1

## calcul des variances empiriques de chaque methode

VARmthd_SI= var(BASE_ESTIMATEUR$tyHP.SI)

VARmthd_post= var(BASE_ESTIMATEUR$typost.SI)

VARmthd_ration= var(BASE_ESTIMATEUR$ty.ration.SI)

var(BASE_ESTIMATEUR[,2:4])

#convergence des estimateurs

N<-seq(1,500, by=1)

plot(N, cumsum(BASE_ESTIMATEUR[,2])/N,xlab = "",ylab = "", type = "l",c


ol = "green")

lines(N, cumsum(BASE_ESTIMATEUR[,3])/N, type = "l",col="blue")

lines(N, cumsum(BASE_ESTIMATEUR[,4])/N, type = "l",col="red")

abline(h=sum(BASE$ACRES92),col = "purple")

title("Convergence des estimateurs")

legend(350, 10^9, legend=c("ty_SI", "typost", "tyration"),

col=c("green", "blue","red"), lty = 1:3, text.font=1, bg='gray75


',cex = 0.6)

plot(N, cumsum(ty.esti[,1])/N,xlab = "",ylab = "", type = "l",col = "gr


een")

lines(N, cumsum(ty.esti[,2])/N, type = "l",col="blue")

lines(N, cumsum(ty.esti[,3])/N, type = "l",col="red")

lines(N, cumsum(ty.esti[,4])/N, type = "l",col="yellow")

abline(h=sum(BASE$ACRES92),col = "purple")

title("Convergence des estimateurs")

legend(300,10^9,legend=c("ty_SI", "ty_STO", "ty_PPS","ty_SI_SI"),

col=c("green", "blue","red","yellow"), lty = 1:4, font=2, bg='gr


ay75',cex = 0.6)

29
30

Vous aimerez peut-être aussi