SI Polytech TDTP
SI Polytech TDTP
SI Polytech TDTP
D PARTEMENT G.I.S.
Statistique infrentielle
TD 1 : Estimation
Exercice 1 : Matrise Statistique des Procds
Une entreprise de construction mcanique fabrique de pices de moteur de voiture pour un grand constructeur
automobile. Les exigences du client sont les suivantes : les pices doivent faire 20cm de diamtre.
Une fois le procd bien calibr, la fabrication dmarre. Le processus est alors suppos, lorsquil est en fonctionnement
normal, fabriquer des pices dont le diamtre X suit une loi normale de moyenne 20cm, et dcart-type 0.1mm. Nous
dirons que le processus est alors en fonctionnement normal.
Afin de suivre le bon droulement de la fabrication, le contrleur qualit prlve 5 pices toutes les heures, en mesure le
diamtre et calcule la moyenne des 5 diamtres. Voici les rsultats trouvs sur une journe complte de 24h : 19.993,
19.993, 19.994, 19.995, 20.004, 19.985, 19.990, 19.990, 19.996, 19.993, 20.000, 20.006, 19.991, 19.992, 19.995,
19.992, 20.002, 20.002.
1. Peut-on utiliser ces rsultats pour estimer lesprance et la variance du diamtre des pices produites par lentreprise ? Si oui, faites-le.
i la moyenne des 5 mesures au temps i. Quelle devrait tre la loi de X
i si le processus tait en fonction2. Soit X
nement normal ?
3. Donner un intervalle [binf , bsup ], symtrique autour de la valeur cible de 20cm, auquel doit appartenir la variable
i avec une probabilit de 99.7%.
X
4. Construire une carte de contrle (cf. votre cours) sur la moyenne de la production, en utilisant les deux bornes
binf et bsup comme limite. Le procd est-il rest sous contrle toute la journe ?
V2 =
1 !
2
(Xi X)
n 1 i=1
n
S2 =
et
V2 =
n1
[(n 1)4 (n 3) 4 ],
n3
o 4 = E[(Xi )4 ] est le moment centr dordre 4, calculer la variance de V2 et S 2 . Conclure quant au choix
dun estimateur pour 2 lorsque lesprance est connue.
1 x 1
e x .
()
P OLYTECH L ILLE
D PARTEMENT G.I.S.
Statistique infrentielle
TD 2 : Estimation par intervalle de confiance
Exercice 1
On a pes 10 palettes de briques de la mme fabrication ; et on a obtenu les rsultats suivants (kilogrammes)
759, 750, 755, 756, 761, 765, 770, 752, 760, 767
On admet que ces rsultats sont issus dune population distribue selon une loi normale desprance et de variance
2 .
1. Donner une estimation ponctuelle de lesprance et de la variance du poids dune palette de brique.
2. Construire un intervalle de confiance pour avec les niveaux de confiance 0.90 et 0.99.
3. Quel niveau de confiance choisir pour avoir un intervalle de confiance deux fois plus troit que celui obtenu avec
une confiance de 0.9 ?
4. Supposons maintenant que lon connaisse la variance, donne par le constructeur : 2 = 42. Que cela change-t-il
sur vos intervalles de confiances ? Recalculez-les si besoin.
5. Combien de palettes de briques aurait-on d mesurer pour que la longueur de lintervalle de confiance, de niveau
de 95%, nexcde pas 0, 5kg (en supposant que les estimations des moyennes et variances ne changent pas).
Exercice 2
Le laboratoire SIMTECH, firme dexpertises en contrle des matriaux, a t mandat par une socit de grance
de projets de construction pour valuer la qualit dun mlange bitumineux provenant de deux usines. Il a t convenu
deffectuer une vrification par 115 mtres cubes de bton et dvaluer la rsistance la compression, lge de 3
jours, sur des cylindres standards. Les rsultats de la rsistance la compression en kg/cm2 pour les deux usines se
rsument comme suit.
Nombres de cylindres
Rsistance moyenne de lchantillon
Variance de lchantillon
Usine 1
n1 = 25
x
1 = 90, 6
v12 = 65, 42
Usine 2
n2 = 23
x
2 = 94, 4
v22 = 58, 24
On suppose que la rsistance la compression est distribue normalement quelque soit lusine de fabrication.
1. Construire un intervalle de confiance pour la variabilit de la rsistance la compression du bton provenant de
chaque usine, au niveau de confiance 0, 95.
2. Peut-on en dduire que la variabilit de la rsistance la compression du bton provenant de chaque usine est
diffrente ?
3. Dterminer un intervalle de confiance pour le rapport 12 /22 des deux variances, avec un niveau de confiance de
95%.
Exercice 3
Lors dun sondage prcdant les lections prsidentielles, 500 personnes ont t interroges. Bien que ce ne soit pas
le cas en pratique, on suppose pour simplifier les calculs que les 500 personnes reprsentent un chantillon indpendant
et identiquement distribu de la population franaise.
Sur les 500 personnes, 150 ont rpondu vouloir voter pour le candidat C1 , et 140 pour le candidat C2 .
1. Donner une estimation ponctuelle des intentions de votes, sous la forme dun pourcentage.
2. Donner un intervalle de confiance 95% pour chacun des deux intentions de votes.
3. Peut-on prdire llection dun candidat ?
Exercice 4
Pour juger de la teneur en magnsium dune eau minrale, on a effectu 10 mesures :
248 246 246 247 247 249 247 250 248 245 (mg pour 10 litres).
La teneur tudie est suppose tre une variable alatoire normale desprance et de variance 2 .
1. Dterminez un intervalle de confiance sur pour un niveau de confiance de 0.95.
2. Trouver la valeur 0 de qui naurait que 5 chances sur 100 dtre dpasse.
Exercice 5
Une firme nationale de sondages dopinion a effectu pour le compte dune compagnie dassurance, une tude sur
les besoins financiers et la satisfaction des clients. Dans la section du questionnaire concernant les fonds communs
de placement, on demande aux clients de donner la valeur (en euros) de tous les fonds communs de placement quils
possdent. Voici les rsultats pour un chantillon alatoire de 20 clients :
93850
172450
151975
149660
81580
192100
142500
85600
On suppose que la valeur actuelle des fonds communs de placement est distribue normalement.
1. Donner une estimation ponctuelle de la valeur moyenne des fonds communs de placement des clients.
2. On appelle parfois lerreur-type lcart-type de lestimateur utilis. Quelle est-elle ici ?
3. Dterminez un intervalle de confiance ayant une probabilit de 95% de contenir la vraie valeur du montant
moyen des fonds communs de placement.
P OLYTECH L ILLE
D E PARTEMENT G.I.S.
Statistiques inferentielles
TD 3 : Tests sur une population
Exercice 1
Une entreprise SupMetal fournit a` un client de la region Nord Pas De Calais, lentreprise LilTech, des supports metalliques.
Lentreprise LilTech exige que les supports aient, en moyenne, une longueur de 70mm. Ce support est fabrique par une machine,
mais il y a des petites variations de longueur dans les pi`eces quelle produit. On admet que la longueur des supports est distribuee
normalement et que la dispersion de la fabrication est de = 3mm. Cette entreprise fournit e galement les memes pi`eces a`
lentreprise PariTech, concurrent direct de LilTech, mais qui commande de beaucoup plus grandes quantites, et qui exige elle une
longueur de 67mm.
Les employes de lentreprise LilTech ayant souvent des probl`emes pour monter ces supports, soupconnent SupMetal de fournir a`
LilTech les memes pi`eces qu`a PariTech, afin deviter davoir a` regler la machine a` chaque commande de PariTech ou de LilTech.
Pour verifier cela, LilTech prel`eve un e chantillon aleatoire de 25 supports. Les mesures obtenues (x1 , . . . , x25 ) ont pour longueur
moyenne de x
= 68mm.
1. Formuler les hypoth`eses dun test statistique permettant de tester lhonnetete de SupMetal.
2. Ecrire
la probabilite de lechantillon (x1 , . . . , x25 ), autrement dit la vraisemblance, sous chaque hypoth`ese H0 et H1 .
3. Former le test du rapport de vraisemblance pour un risque = 5% et = 1%.
4. Conclure.
5. Calculer les risques de deuxi`eme esp`ece correspondant aux deux risques et en donner une interpretation.
Exercice 2
Un ingenieur risque credit, employe dans une societe specialisee dans le credit a` la consommation, veut verifier lhypoth`ese
selon laquelle la valeur moyenne des mensualites de ses clients est de 200 euros. Un e chantillon aleatoire de 144 clients, preleve
aleatoirement dans la base de donnees, donne une valeur moyenne estimee a` 193.74 euros et un e cart-type estime a` 48.24 euros.
1. Quelles sont les hypoth`eses statistiques associees a` la problematique du comptable et quel type de test faut-il mettre en
oeuvre pour laider a` prendre une decision statistiquement correcte ?
2. Peut-il conclure, au niveau de confiance 95% , que la valeur moyenne postulee des stocks est correcte ?
3. Fates le schema des regions de rejet et de non rejet de lhypoth`ese nulle H0 en y notant les valeurs critiques calculees a` la
question precedente.
4. Representer sur ce schema la pvalue associee a` ce test. Que vaut-elle ?
5. En utilisant la pvalue , quelle aurait e te la reponse a` la question 2 pour un risque de premi`ere esp`ece = 10%.
Exercice 3
Pour comparer les proportions de personnes atteintes par la grippe en ville et a` la campagne, deux e chantillons ont e te mesure :
sur 100 personnes habitant une grande agglomeration, on a observe une proportion f0 = 0.24 de sujets ayant eu la grippe,
sur 80 personnes habitant a` la campagne, on a observe une proportion f1 = 0.20 de sujets ayant eu la grippe.
Les citadins sont-ils plus atteints par la maladie que les ruraux ? ( = 0.05)
Exercice 4 :
Une machine est reglee pour fabriquer des plaques de chocolats dun poids moyen de 250g. Soucieux de ce probl`eme, le
service de controle de qualite demande une verification de la machine. Le poids de 10 plaques de chocolats est observe. On obtient
les mesures suivantes qui vous sont immediatement transmises :
poids observes 256 245 253 250 295 251 248 247 252 249
Quelle est votre conclusion ?
Exercice 5 :
Une societe de vente a` distance demande a` lun de ses ingenieurs marketing de modeliser le nombre dappels telephoniques
par heure recus sur le standard dedie aux commandes, dans le but doptimiser la taille de celui-ci. Les nombres dappels, releves
sur une periode de 53 heures, ont e te les suivants :
Nb dappels xi 0 1 2 3
4 5 6 7 8 9 et plus
Occurence Ni 1 4 7 11 10 9 5 3 2
1
1. Estimer la moyenne et la variance du nombre dappels. Quelle type de loi semble le mieux decrire ce nombre dappel ?
2. Tester lajustement a` cette loi au risque 5%.
3. Sachant quune hotesse daccueil telephonique peut traiter jusqu`a 7 appels par heure, combien dhotesses doit-on employer
pour pouvoir repondre a` 95% des appels telephoniques ?
Exercice 6 :
Sur 2000 personnes interrogees dans le Nord, 1040 disent acheter reguli`erement des vetements sur le site internet de VetiLille.
Sur 1500 interrogees dans le reste de la France, 615 disent acheter sur ce site. Est-ce que ces resultats permettent de soutenir que
ce site seduit autant les habitants du Nord que du reste de la France (risque de 5%) ?
Exercice 7 :
Un ingenieur statisticien dune societe dassurance est charge detudier limpact dune campagne de publicite realisee dans 7
regions dans lesquelles la societe est dej`a implantee. Pour ceci, il a extrait de la base de donnee, pour un certain nombre dagents
generaux de chaque region, le nombre de nouveaux clients recoltes :
Region
Nb dagents generaux
Nb moyen de nouveaux clients
Variance du nb de nouveaux clients
1
9
26.88
13.54
2
7
22.34
12.59
3
7
19.54
12.87
4
6
18.95
13.42
5
7
27.17
13.17
6
6
25.87
12.56
7
6
25.72
12.64
Lingenieur statisticien decide alors de realiser une analyse de variance afin de tester si le facteur region a une influence sur le
nombre de nouveaux clients recoltes.
On appelle Xki le nombre de nouveaux clients du i-`eme agent general de la region k. Soit nk le nombre dagents generaux de la
region k, et K le nombre de regions (K = 7). Nous supposons que les variables aleatoires Xki sont normales, de moyenne k et
de variance .
Le probl`eme consiste donc a` tester
H0 : 1 = . . . = K =
Soient :
nk
!
k = 1
Xi
X
nk i=1 k
contre H1 : 1 i, j K t.q. i = j .
K
et
k
!!
= 1
X
Xki
n
i=1
k=1
o`u
n=
K
!
nk .
k=1
k et X.
1. Interpreter X
= Xi X
k + X
k X,
demontrer la formule danalyse de variance :
2. En remarquant que Xki X
k
nk
K nk
K !
K
!
!
1 !!
2= 1
k )2 + 1
k X)
2
(Xki X)
(Xki X
nk (X
n
n
n
k=1 i=1
k=1 i=1
k=1
"
#$
% "
#$
% "
#$
%
VT2
VR2
VA2
qui represente la decomposition de la variance totale VT2 en la variance VA2 due au facteur A (variance inter-groupe) plus la
variance residuelle VR2 (ou variance intra-groupe).
3. Calculer VT2 , VA2 et VR2 .
4. Finaliser lanalyse de variance pour juger si la campagne de publicite a eu le meme impact dans toutes les regions.
P OLYTECH L ILLE
D PARTEMENT G.I.S.
Statistiques infrentielles
TD-TP 4 : Tests sur plusieurs populations
Exercice 1
En prlevant un chantillon (suppos reprsentatif) de 41 tudiants de Polytech-Lille, on constate que la taille
moyenne de cet chantillon est de x
1 = 1.7m avec un ecart-type de v1 = 8cm. En faisant de mme pour un chantillon
de 61 tudiants dune cole voisine on trouve une taille moyenne de x
2 = 1.68m avec un ecart-type de v1 = 9cm.
En supposant que ces deux chantillons sont distribus normalement, peut-on affirmer que les tudiants de ces deux
coles sont semblables ( = 5%) ?
Exercice 2 (R)
On souhaite mesurer linfluence de lalcool sur le temps de raction au volant. Sur un chantillon alatoire de 30
chauffeurs, le temps de raction a t observ en laboratoire avec et sans consommation dalcool (les 30 chauffeurs
ont t rparti alatoirement). Les temps de ractions en secondes ont t rapports dans le tableau suivant :
Sans 0.68 0.64 0.68 0.82 0.58 0.80 0.72 0.65 0.84 0.73 0.65 0.59 0.78 0.67 0.65
Avec 0.73 0.62 0.66 0.92 0.68 0.87 0.77 0.70 0.88 0.79 0.72 0.60 0.78 0.66 0.68
1. Tracer sur un mme graphique les fonctions de rpartition emprique correspondant aux deux situations.
2. Peut on affirmer quil y a une influence de lalcool sur le temps de raction ( = 5%) ? On utilisera trois tests
diffrents.
Exercice 3 (R)
On dsire tester leffet dun mdicament cens rduire le taux de le cholesterol. On a mesur le taux de cholesterol
(g/l) chez 10 patients, avant la prise de ce mdicament, et une semaine aprs lavoir pris. Voici les taux obtenus :
Avant 0.1 0.2 0.15 0.3 0.34 0.16 0.09 0.24 0.17 0.29
Aprs 0.8 0.18 0.12 0.2 0.3 0.21 0.12 0.16 0.17 0.22
Le mdicament a-t-il un effet ( = 5%) ?
Exercice 4 (R)
Deux populations de 42 et 50 individus sont utilises pour tudier un traitement dont on ignore a priori leffet
possible (augmentation ou diminution de performances). Les mesures sont faites indpendamment les unes des autres,
mauvais moyen bon excellent
Classement
4
6
17
15
et sont rparties en quatre classes : Groupe trait
Groupe contrle
10
13
16
11
1. Tracer sur le mme graphique les fonctions de rpartitions empiriques associes aux deux groupes
2. Peut-on rejeter lhypothse que le traitement est sans effet ? Avec quel risque ?
P OLYTECH L ILLE
D PARTEMENT G.I.S.
Travaux pratiques de Statistiques Infrentielles sous SAS et R - GIS 3
TP 1 : Statistique Exploratoire
1 Prliminaires et indications
Avant tout, veuillez lire attentivement lintroduction au logiciel SAS qui vous a t distribue.
Connexion Connectez-vous sur vos comptes sous environnement LINUX.
Loguez-vous sur weppes par linstruction : ssh -X weppes.studserv.deule.net
Une fois connect, lancez SAS par linstruction : /usr/local/SAS/SASFoundation/9.2/sas
Rpertoires Crer sur votre compte un rpertoire TP_Stat_SAS.
Dans ce rpertoire, crer 3 sous-rpertoires : librairies, donnees, programmes. Vous enregistrerez vos
programmes SAS en .sas dans le dossier programmes, vos fichiers de donnes (.dat) dans donnees.
Suivez la note dintroduction SAS pour crer une librairie dans laquelle vous enregistrerez les tables que nous
utiliserons dans ce TP.
Excution diffr Il est possible dexcuter des programmes SAS sans ouvrir le logiciel SAS. Cela peut tre
utile notamment lorsque les programmes ncessitent un temps dexcution long. En pratique, cela diminue aussi
les ressources demandes lordinateur pour grer laffichage graphique des diffrentes fentres SAS.
Pour cela, il suffit denregistrer votre programme sous le nom mon_prog.sas, et de lancer son excution
laide de la commande suivante dans un terminal :
/usr/local/SAS/SASFoundation/9.2/sas mon_prog.sas -fsdevice x11.motif
A noter quil est ncessaire de stre au pralable loguer sur le serveur weppes.
Les rsultats sont alors regroups dans un fichier mon_prog.lst tandis que le compte-rendu de lexcution
ainsi que les messages derreurs se trouvent dans le fichier mon_prog.log.
Consignes
Chaque exercice devra faire lobjet de lcriture dun programme SAS. Pensez toujours avoir un diteur
de texte dans lequel vous crivez et sauvez votre code, que vous transfrez ensuite lditeur SAS par
copier/coller.
Vous rdigerez un compte rendu dtaill de votre TP, sous Open Office, en incluant vos programmes SAS
comment, les rsultats, vos interprtations et commentaires.
3. En supposant que le poids en kg des hommes est : poids = (tailleencm)/2 10 et que celui des femmes
est poids = (tailleencm)/2 20, crer une nouvelle table en ajoutant la variable poids.
4. Quel est le poids moyen des hommes ?
5. Afficher uniquement la personne la plus lgre.
Xi2
2
pour tout i = 1, n.
1
n
"n
i=1
Yi lorsque n ?
2. Utiliser ce rsultat pour approcher lintgrale I, en simulant n variables alatoires Yi (n = 100, 104, 106 ).
3. Rpter 100 fois ces approximations, et reprsenter les rsultats sous la forme dune bote moustache pour
chacune des 3 valeurs de n utilises. Que constatez-vous ?
4. Reprsenter cette fois ces rsultats sous la forme dun histogramme (pour chaque valeur de n). Avez-vous
une ide de la distribution de ces rsultats dapproximation ? Que vous dit le thorme centrale limite ?
P OLYTECH L ILLE
D PARTEMENT G.I.S.
Travaux pratiques de Statistiques Infrentielles sous SAS et R - GIS 3
TP 2 : Estimation et tests
Les jeux de donnes tudis sont disponibles sur http://math.univ-lille1.fr/jacques/
6. La puissance du test de nullit de la moyenne, dans les conditions de cet exercice (distribution gaussienne
et variance connue gale 1), dfinie par 1 p(accepterH0 |H1 ), est donne par :
P (1 )
< u1/2
N (1 , 1 ))
|H1 : X
= 1 P (|X|
n
n
= 1 (u1/2 n1 ) + (u1/2 n1 )
P OLYTECH L ILLE
D PARTEMENT G.I.S.
Travaux pratiques de Statistiques Infrentielles sous SAS et R - GIS 3
TP 3 : Tests
Les jeux de donnes tudis sont disponibles sur http://math.univ-lille1.fr/jacques/
8,6
8,3
10,9
7,2
7,3
8,7
9,2
6,7
8,5
10,3
9,2
6,8
9,1
9,8
8,9
8,9
10,7
9,6
8,2
8,6
7,1
6,7
9,4
7,5
8,3
9,7
9,2
Exercice 4 (SAS)
Rcuprer le fichier GermanCredit.data.
En sinspirant des mthodes statistiques vues en cours, rpondre aux questions suivantes en justifiant et illustrant vos
rponses :
1. Les clients de cette banque sont-ils jeunes (moins de 30 ans) ?
2. Le sexe a-t-il une influence sur le montant emprunt ? Si oui, les femmes empruntent-elles un montant plus
important que les hommes ?
1
Exercice 5 (R)
On sintresse au taux de fer prsent dans le foie et le rgime suivre pour mieux contrler ce taux. On souhaite
comparer leffet des 5 rgimes. Il sagit dune tude sur des souris. Le plan dexprience consiste assigner de manire
alatoire 9 souris pour chaque rgime (on considre que la dure du rgime est suffisamment grande pour quelle efface
les ventuelles diffrences entre les souris avant le rgime). Les rsultats obtenus sont :
A
2.23
1.14
2.63
1.00
1.35
2.01
1.64
1.13
1.01
B
5.59
0.96
6.96
1.23
1.61
2.94
1.96
3.68
1.54
C
4.50
3.92
10.33
8.23
2.07
4.90
6.84
6.42
3.72
D
1.35
1.06
0.74
0.96
1.16
2.08
0.69
0.68
0.84
E
1.40
1.51
2.49
1.74
1.59
1.36
3.00
4.81
5.21
Remarque : On organisera les donnes sous la forme dun tableau deux colonnes : X = tau de fer, Y = type de rgime
(variable qualitative = fonction R as. factor). Chaque ligne correspond donc un individu.
1. Tracer sur un mme graphique :
les 5 botes moustaches correspondant aux 5 chantillons,
les 5 fonction de rpartition empiriques correspondant aux 5 chantillons.
2. Est-ce quil y a une diffrence entre les rgimes. On utilisera la fois un test paramtrique (aprs avoir rappel les
hypothses faites) et un test non paramtrique.
Exercice 6 (R)
Sur 10 patients choisis au hasard on observe lvolution durant 5 jours du taux (en mg/litre sang) dune certaine substance.
Jour 1
Jour 2
Jour 3
Jour 4
Jour 5
P1
124
125
117
123
119
P2
88
75
73
69
70
P3
130
138
133
130
127
P4
115
108
108
102
98
P5
92
92
92
88
88
P6
80
78
74
70
70
P7
101
105
101
95
95
P8
98
97
92
93
93
P9
132
125
124
128
125
P10
85
86
83
84
85
1. Tracer sur un mme graphique les 5 fonctions de rpartition empiriques ainsi que les 5 botes moustaches correspondant aux 5 jours.
2. Les donnes observes permettent-elles de conclure une variation significative dans le temps du taux mesur.
3. Les donnes observes permettent-elles de conclure une dcroissance significative dans le temps du taux mesur.
Exercice 7 (R)
(Re)faire les exercices 2 4 du TD 4.
2