Geostatistica 2022
Geostatistica 2022
Geostatistica 2022
Iulian Stoleriu
Copyright © 2022 Iulian Stoleriu
Contents
1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Elemente de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Scurt istoric 11
2.2 Modelare Statistică 13
2.2.1 Populaţie statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Caracteristică (variabilă) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Parametrii populaţiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.4 Eşantion (selecţie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.5 Date statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Indicatori statistici (statistici) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.7 Etapele unei analize statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 Limitări ale Statisticii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Organizarea şi descrierea datelor 22
2.4 Gruparea datelor 23
2.5 Reprezentarea datelor statistice 26
2.5.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 32
2.6.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7 Transformari de date 41
2.8 Exerciţii rezolvate 43
4 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1 Estimatori punctuali 66
4.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Estimarea parametrilor prin intervale de încredere 68
4.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Tipuri de teste statistice 75
5.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.3 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1.4 Testul de concordanţă Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.1 Introducere 111
9.2 Kriging simplu 112
9.3 Kriging ordinar 116
9.4 Kriging lognormal 119
9.5 Kriging universal (sau kriging cu drift) 119
9.6 Kriging indicator 120
9.7 Cokriging 122
9.8 Cross-validare (validarea incrucisata) 122
9.9 Simulare stochastica 124
10 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.1 Tabele cu cuantile pentru repartiţii uzuale 127
10.2 Exemplu de date statistice spatiale 129
10.3 Tabel cu intervale de încredere 131
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Index 135
1. Introducere
Obiectivul principal al acestei discipline este caracterizarea sistemelor spatiale care sunt incomplet
cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnici numerice si matemat-
ice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporale care nu sunt
complet cunoscute, cum ar fi sistemele spatiale ce apar in Geologie. Prin date spatiale intelegem
acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale mai
apare si referirea la variabila timp (datele observate depind de momentul cand au fost culese).
Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite
ca fiind observatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele
de interes din Geostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este
satisfacuta). Daca nu ar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu
ar fi oportuna; Statistica clasica singura ar putea oferi raspunsurile necesare. Totodata, vom vedea
ca datele spatiale din Geostatistica nu pot fi toate generate de o aceeasi repartitie probabilistica.
Spre exemplu, se doreste a realiza o harta a ratei infiltrarii apei intr-o anumita regiune, ce cuprinde
atat zone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata infiltrarii
apei va avea diverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte
apropiate sa fie similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce
printr-o corelare a valorilor ratelor infiltrarii apei masurate in locatii diferite. Vom vedea mai tarziu
ca in analiza acestor date va trebui sa tinem cont de corelatiile dintre ele, fapt ce va fi realizat
prin analiza variogramei (sau a corelogramei) datelor empirice. Totodata, datorita variabilitatii
solului, este de asteptat ca ratele astfel masurate sa nu urmeze toate o aceeasi repartitie normala.
Din acest motiv, fiecare data spatiala din Geostatistica poate privita ca fiind o singura observatie
(masurare) a unei anumite repartitii, nu neaparat una normala. Astfel, Geostatistica tine cont atat
de repartitiile datelor obtinute cat si de corelatiile intre aceste date, nefiind constransa sa considere
faptul ca toate datele observate au o aceeasi repartitie probabilistica.
Unul dintre scopurile Geostatisticii este ca, plecand de la o colectie de valori observate (masurate)
pentru o anumita caracteristica de interes, sa poata prezice repartitia spatiala intr-un punct de unde
nu avem date observate (nu s-au facut masuratori). Spre exemplu, in Figura 1.1 sunt reprezentate
7 masuratori efectuate intr-un regiune in care valorile masurate ale caracteristicii de interes sunt
aleatoare.
3. predictia (prin metode kriging sau simulari stochastice) valorilor caracteristicii de interes in
locatiile unde nu au fost facute masuratori.
In functie de natura datelor spatiale studiate, pentru fiecare etapa in parte exista metode specifice
de analiza, etape ce le vom studia in detaliu in cursurile ce urmeaza.
Dupa cum am mentionat mai sus, pentru locatiile de unde nu au fost culese date se pot face
predictii folosind metode de interpolare sau metode kriging. Pe langa acestea, se mai pot folosi
metode de simulare stochastica (care au la baza Teoria Probabilitatilor) pentru a produce valori ale
caracteristicii in pozitia dorita. Modelele probabilistice pot fi aplicate pentru datele spatiale intr-o
maniera asemanatoare analizei seriilor de timp. Astfel, se pot realiza predictii pentru valorile
caracteristicii de interes in locatiile unde nu au fost facute masuratori. Geostatistica este o strans
legata de metodele de interpolare, dar contine metode de analiza mult mai elaborate decat simplele
de interpolare. In scopul de a modela incertitudinea asociata cu estimarea spatiala, aceste metode
au la baza functii sau variabile aleatoare.
Deoarece datele statistice spatiale pot fi foarte numeroase, pentru analiza lor este nevoie de ajutorul
computerelor si de un software specializat. Exemple de software ce analizeaza date geostatistice
sunt: ArcMap, M ATLAB (M AThematics L ABoratory), R, GSLIB (Geostatistical Software Library),
Gstat, SGeMS (Stanford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin
etc.
2. Elemente de Statistică
În general, prin date (sau date statistice) înţelegem o mulţime de numere sau caractere ce au o
anumită însemnătate pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de
mulţimea de date pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem
interesaţi de studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce
măsoară datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară,
pe care le doresc a fi confirmate într-un mod cât mai exact.
De exemplu, dacă într-o anumită zonă a ţării rata şomajului este ridicată, este de aşteptat ca în
acea zonă calitatea vieţii persoanelor de acolo să nu fie la standarde ridicate. Totuşi, ne-am dori să
fim cât mai precişi în evaluarea legăturii dintre rata somajului şi calitatea vieţii, de aceea ne-am
dori să construim un model matematic ce să ne confirme intuiţia. Un alt gen de problemă: ardem
de nerăbdare să aflăm cine va fi noul preşedinte, imediat ce secţiile de votare au închis porţile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea şi unificarea tuturor datelor
într-un timp record nu este o măsură deloc practică. În ambele probleme menţionate, observaţiile
şi culegerea de date au devenit prima treaptă spre înţelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate fi complet descrisă de un astfel de model, dar scopul este de a oferi o
aproximare cât mai fidelă şi cu costuri limitate.
În ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea,
ne-am dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la
12 Chapter 2. Elemente de Statistică
colecţiile de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză
pentru descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii
este foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată
de Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau în
prezicerea unor fenomene economice.
Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de sine
stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii. Dar
nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă separată de
Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte mult în direcţia
computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David Williams scria în
[williams], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au separat; în cele
din urmă au divorţat. Acum abia că se mai întâlnesc".
Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.
Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Geografie, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei
padurilor pe glob;
• în Geologie, pentru a determina o harta a ratei infiltrarii apei intr-o anumita zona ubana;
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi folosite
pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
2.2 Modelare Statistică 13
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie) poate
fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole cultivate
într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul unei trăsături
comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil de a observa această
trăsătură la fiecare membru în parte, de aceea este mult mai practic de a strânge date doar despre
o submulţime a întregii populaţii şi de a căuta metode eficiente de a extrapola aceste observaţii
la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu descrierea acestei colecţii de
date, numită Statistică descriptivă. Această descriere a trăsăturilor unei colectivităţi poate fi
făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc), cât şi grafic (prin puncte,
bare, histograme etc). De asemenea, datele culese pot fi procesate într-un anumit fel, încât să
putem trage concluzii foarte precise despre anumite trăsături ale întregii colectivităţi. Această
ramură a Statisticii, care trage concluzii despre caracteristici ale întregii colectivităţi, studiind
doar o parte din ea, se numeşte Statistică inferenţială. În contul Statisticii inferenţiale putem trece
şi următoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare
între diverse tipuri de date, estimarea caracteristicilor numerice ale unor trăsături comune întregii
colectivităţi, descrierea legăturii între diverse caracteristici etc.
unde f este o funcţie ce verifică anumite proprietăţi şi este specifică modelului, x este vectorul
ce conţine variabilele măsurate şi θ este un parametru (sau un vector de parametri), care poate fi
determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece unele date
culese au caracter stochastic (nu sunt deterministe, in sensul ca valorile lor nu pot fi prevazute a
priori). Modelul astfel creat este testat, şi eventual revizuit, astfel încât să se potrivească într-o
măsură cât mai precisă datelor culese.
statistică se vor numi unităţi statistice sau indivizi. Vom nota cu ω o unitate statistică. Dacă
populaţia este finită, atunci numărul N al unităţilor statistice ce o compun (i.e., |Ω|) îl vom numi
volumul colectivităţii (sau volumul populaţiei).
teristicii (e.g., dispersia, deviatia standard, coeficient de variatie, range, distanţa intercuantilică),
parametri de poziţie (e.g., cuantile), parametri ce descriu forma caracteristicii populaţiei (e.g.,
skewness, kurtosis). Pentru date bidimensionale, putem avea parametri ce descriu legătura
dintre două caracteristici ale unei populaţii, e.g., corelaţia sau coeficientul de corelaţie. Pentru
date calitative (categoriale), cei mai des utilizati parametri sunt: π− proporţia din populaţie ce
are caracteristica de interes (e.g., proporţia de fumători din ţară), cote − şanse teoretice pentru
observarea caracteristicii de interes la întreaga populaţie (e.g., exista 70% şanse să plouă mâine,
cota pentru victorie a unei echipe este 2-1 etc.).
O colectivitate statistică poate fi descrisă folosind una sau mai multe variabile. Pentru fiecare
dintre aceste variabile se pot determina anumite cantităţi sau calităţi specifice, numite parametri.
După cum vom vedea mai târziu, aceşti parametri pot fi determinaţi exact sau estimaţi pe baza
datelor statistice, care sunt nişte măsurători (observaţii) efectuate asupra caracteristicilor unei
populaţii de interes.
Mai jos, vom prezenta câţiva parametri des întâlniţi în analiza statistica. Aceşti parametri sunt
caracteristici numerice ale unei variabile aleatoare.
• media (sau valoarea aşteptată). Pentru o variabila, media este o măsură a tendinţei centrale
a valorilor sale. De remarcat faptul ca exista variabile (atat discrete cât şi continue) care
nu admit o valoare medie. Pentru o variabilă X, vom nota media sa teoretică prin µ = EX.
Dacă X admite medie, atunci se defineşte prin:
Z ∞
µ = ∑ x i pi µ = x f (x) dx
i∈I −∞
(in cazul unei v.a. discrete) (in cazul unei v.a. continue)
În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe
variabile în acelaşi timp), vom folosi notaţia µX . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(X) sau E(X).
• dispersia (sau varianţa). Dispersia variabilei (sau varianţa) este o masura a gradului de
împrăştiere a valorilor acestei variabile in jurul valorii medii. Dispersia va fi notată prin σ 2
sau Var(X). Este definită prin Var(X) = E[(X − µ)2 ] = E(X 2 ) − [EX]2 . În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în
acelaşi timp), vom folosi notaţia σX2 .
Z ∞
σ2 = ∑(xi − µ)2 pi σ2 = (x − µ)2 f (x) dz
i∈I −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).
√
• abaterea standard (sau deviaţia standard). Se defineşte prin σ = σ 2 . Are avantajul ca
unitatea sa de masura este aceeasi cu a variabilei X.
• coeficientul de variaţie. Este definit prin CV = σµ sau, scris sub forma de procente, CV =
100 σµ %. Este util in compararea variatiilor a doua sau mai multe seturi de date ce tin de
aceeasi variabila. Daca variatiile sunt egale, atunci vom spune ca setul de observatii ce are
media mai mica este mai variabil decat cel cu media mai mare.
• momente centrate. Pentru o v.a. X (discretă sau continuă), ce admite medie, momentele
centrate sunt valorile aşteptate ale puterilor lui X − µ. Definim astfel µk (X) = E((X − µ)k ).
16 Chapter 2. Elemente de Statistică
În particular, Z ∞
k µk (X) = (x − µ)k f (x) dx;
µk (X) = ∑(xi − µ) pi ; −∞
i∈I
(in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:
(a) µ2 (X) = σ 2 . Al doilea moment centrat este chiar dispersia.
(b) coeficientul de asimetrie (skewness). De regulă, este notat prin γ1 şi este al treilea moment
centrat standardizat. Măsoară simetria/asimetria repartiţiei unei unei variabile.
(c) kurtosis (sau excesul). Este o măsură a distribuţiei valorilor extreme (outliers) ale unei
variabilei. Poate indica dacă repartiţia unei variabile este predispusă la valori extreme
(outliers). Este al patrulea moment centrat standardizat, uneori translatat cu valoarea −3,
caz în care se numeşte exces.
• cuantile. Sunt măsuri ale poziţiei unei valori printre toate valorile unei variabile. Exemple
de cuantile: mediana, cuartile, decile, centile, promile.
• covarianţa. Conceptul de covarianţă este legat de modul în care două variabile aleatoare
(ce admit medii) tind să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi
direcţie (caz în care vom spune că X1 şi X2 sunt direct <sau pozitiv> corelate) sau în direcţii
opuse (X1 şi X2 sunt invers <sau negativ> corelate). Dacă variabilele X1 , X2 admit medii,
respectiv, µ1 , µ2 , atunci covarianţa variabilelor X1 şi X2 , notată prin cov(X1 , X2 ), este
definită prin
cov(X1 , X2 ) = E[(X1 − µ1 )(X2 − µ2 )].
• coeficientul de corelaţie. Este tot o măsură a legăturii (liniare) dintre două variabile ce
admit medii. Acesta este foarte utilizat în ştiinţe ca fiind o măsură a dependenţei liniare
între două variabile. Se numeşte coeficient de corelaţie al variabilelor aleatoare X1 şi X2
cantitatea
cov(X1 , X2 )
ρX1 , X2 = ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru X1 , respectiv, X2 .
dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca un alt individ să
fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de altă parte, dacă
volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului extras, atunci
putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea este nerepetată.
Spre exemplu, dacă dorim să facem o prognoză pentru a vedea cine va fi noul preşedinte în urma
alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ cu volumul populaţiei
cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a fi o selecţie repetată, în
vederea aplicării testelor statistice.
Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul de
vedere al trăsăturii studiate.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al 10-lea
număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre primele
10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de mărimea
fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un anumit număr
de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa univer-
sităţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult mai
mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă, de fiecare
gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie reprezentativă
a persoanelor întregii ţări, într-o scară mult mai mică).
– ordinale. Valorile ordinale fac referinţă la ordinea lor. De cele mai multe ori, această
grupare şi ordonare în categorii este naturală, deşi de multe ori nu se cunosc distanţele
între categorii. De exemplu: schimbarea stării unui pacient după un anumit tratament
(aceasta poate fi: îmbunătăţire semnificativă, îmbunătăţire moderată, nicio schimbare,
înrăutăţire moderată, înrăutăţire semnificativă). Alte exemple: răspunsurile la sondaj
de opinie (total dezacord, dezacord, de acord, total de acord), evaluări ale filmelor (1
stea, 2 stele etc.).
Există situaţii când datele calitative (sau categoriale) pot fi exprimate numeric. Spre exemplu,
se pot atribui coduri numerice unor date calitative, ce permit prelucrarea lor cu ajutorul
metodelor statistice. De exemplu, atribuirea numerică a calificativelor oferite de către
studenţi profesorilor, de la dezacord total (1), până la acord total (5).
• date cantitative (sau numerice). Aceste date reprezintă rezultatele unor numărări sau
măsurători. Datele cantitative pot fi comparate între ele pe o axă numerică. Ele pot fi, la
rândul lor:
– date de tip discret, dacă sunt obţinute în urma observării unei caracteristici discrete (o
variabila aleatoare discretă, sau o variabila ale carei posibile valori sunt in numar finit
sau cel mult numărabil). Exemple: numărul de studenţi care vin la un curs, numărul
de copii care îi are o mamă, nota la examenul de Statistică etc.
– date continue, dacă această caracteristică este continuă (o variabilă aleatoare de tip
continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe
axa reala). Exemple: media de la licenţă, atunci datele rezultate vor fi cantitative şi
continue, timpul de funcţionare e continuă a unei baterii, înălţimea unei persoane etc.
• Mai putem vorbi de date univariate, bivariate sau multivariate, atunci când datele statistice
sunt observaţii asupra unei variabile, a două variabile sau a mai multor variabile, respectiv.
• Spunem că avem date temporale sau spaţiale, după cum variabila studiată este dependentă
de timp (se obţin serii de timpi) sau de spaţiu (e.g., aciditatea solului în diverse locaţii).
• date de tip interval. Datele de tip interval pot fi organizate în intervale de lungime egală,
semnificând diferent, e egale în caracteristica măsurată, dar fără a avea un zero semnificativ
(un punct „zero adevărat”), ci doar un zero arbitrar. Datele de tip interval sunt ordonate,
pot fi atât continue cât şi discrete. Le putem aduna şi scădea, dar nu le putem înmulţi sau
împărţi. Punctul cheie al unei scale de tip interval este cuvântul „interval”, care înseamnă
„spat, iu dintre”. Astfel, scalele de tip interval nu ne dau informaţii doar despre ordine, ci s, i
despre distanţa dintre fiecare element. Datele de tip interval pot arăta init, ial ca nişte date
ordinale (de exemplu, temperatură scăzută, medie sau ridicată), dar nivelurile sunt de natură
cantitativă s, i diferent, ele dintre niveluri au o semnificat, ie consistentă.
Un exemplu de date de tip interval: ora observată la un ceas analogic, de 12 ore. Ceasul are
intervale egale, iar timpul necesar pentru ca orarul să treacă de la 1 la 2 este acelas, i cu timpul
necesar pentru a trece de la 9 la 10. Ora 0 nu semnifică lipsa unei măsurători, deci 0 nu semnifică
absenţa mărimii. Pe această scală, valorile se pot aduna sau scădea, dar nu se pot înmulţi sau
împărţi. Spre exemplu, ora 10 nu este dublul orei 5.
Alte exemple de date de tip interval: date calendaristice, anul naşterii, coeficientul IQ al unei
2.2 Modelare Statistică 19
Figure 2.1: Tipuri de date statistice Figure 2.2: Scale pentru date statistice
• date de tip raport. Datele de tip raport reprezintă cea mai complexă scală de măsurare a
datelor, precum s, i cea mai preferată scară de măsurare. Au toate proprietăt, ile datelor de tip
interval, dar posedă şi un zero natural, ceea ce înseamnă că există un punct în care măsura
respectivă, oricare ar fi ea, nu există. De aceea, putem înmult, i s, i împărt, i, precum s, i aduna
sau scădea datele de tip raport. Exemple de date de tip raport: date obţinute ca observaţii ale
unor variabile precum înălt, imea, masa corporală, durata, vârsta etc. Toate aceste variabile
pot avea o valoare de zero care reprezintă nimicul (absenţa valorii). Un alt exemplu de date
de tip raport este venitul: banii câs, tigat, i într-o perioadă de timp. Se poate câs, tiga fie 0 RON
într-o lună, fie orice altă sumă de RON mai mare decât zero.
În mod esent, ial, datele de tip interval pot fi negative sau pozitive, în timp ce datele de tip raport
pot fi doar pozitive.
Pe baza datelor observate pentru un eşantion, putem construi diversi indicatori statistici care sa es-
timeze parametrii necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori
se numesc statistici. Prin intermediul statisticilor putem trage concluzii despre populaţia Ω, din
care a provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a
repartiţiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia
exactă este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă
se lucrează cu selecţii de volum redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută a
priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică este repartiţia limită
a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultate bune doar pentru n ≥ 30 (sau
n ≥ 40, depinzând de specificul datelor).
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din aces-
tea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai fidel
si sugestiv acele date (prin grafice sau indicatori statistici), sa estimeze anumiti parametri de interes
(e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa verifice prin inferenta
ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.
20 Chapter 2. Elemente de Statistică
• Este nevoie de cunoştinţe speciale pentru a aplica legile statisticii. Doar cunos, tinţe generale
de matematică sau de economie nu sunt suficiente pentru a lucra cu date statistice.
[Fiecare american ar trebui să aibă venituri peste medie, iar administraţia mea va face tot posibilul să
obţină acest deziderat.] [Bill Clinton, în campanie electorală]
• Se poate întâmpla ca rezultatul obţinut în urma unei analize statistice să inducă în eroare,
posibil şi din cauza colectării şi/sau interpretării necorespunzătoare a datelor.
[Dacă ajungi până la o sută de ani, te-ai scos! Statistica arată că nu au fost mulţi oameni care să fi
murit după această vârstă.] [George Burns]
Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua orice
valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi
cantitative şi continue.
În Geostatistică, datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatiala
poate fi unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitie
doi-dimensionala (sau bidimensionala). Vom nota cu x = (x1 , x2 ) vectorul de coordonate bidimen-
sionale. Astfel prin Z(x) sau Z(x1 , x2 ) vom nota variabila Z in locatia x, iar prin z(x) sau z(x1 , x2 )
vom nota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom
nota prin z1 , z2 , z3 , . . . . În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o
valoare necunoscuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
2.4 Gruparea datelor 23
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date negrupate.
Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 2.2, reprezentând
timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un ghişeu până au
fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98
5.36 1.32 1.76 2.14 3.28 3.89 4.85 4.12 0.88
Table 2.2: Date statistice negrupate
De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.
(1) Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este posibil
ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z01 , z02 , . . . , z0r ,
r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi exemplul din Tabelul
2.3). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe, după cum urmează:
unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel, suma
tuturor frecvenţelor relative este egală cu 1. Frecvenţa (absolută) cumulată a unei clase se obţine
prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă. Frecvenţa relativă
cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative până la (inclusiv)
24 Chapter 2. Elemente de Statistică
nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -
clasa respectivă.
Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
Vom numi o serie de timpi (sau serie dinamică ori cronologică) un set de date culese la momente
diferite de timp. O putem reprezenta sub forma unui tablou de forma
z1 z2 ... zn
data : ,
t1 t2 ... tn
unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., răspunsurile citite de un electro-
cardiograf).
În Tabelul 2.3, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.
Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (2.4.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsuraă, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de tip
discret. De exemplu, dacă ni se dă Tabelul 2.5, ce reprezintă rata somajului într-o anumită regiune
a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor care au fost
selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
26 Chapter 2. Elemente de Statistică
cazul Tabelului 2.5, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.7 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor (a se privi graficul că având
pe OY drept axa absciselor şi OX pe cea a ordonatelor). Aşadar, 7|5 semnifică un punctaj de
75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună metodă de
2.5 Reprezentarea datelor statistice 27
vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0
Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezintă frecvenţele şi nu sunt unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. În Figura 2.81 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (vezi
Figura 2.82 ). Figura 2.9 contine o reprezentare de date folosind bare 3D.
2.5.4 Histograme
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson2 în 1895. Acesta derivă
din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O histogramă
este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de date de tip
continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu există spaţii
între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile barelor sunt
proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal cu numărul
de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria fiecărui
dreptunghi reprezintă frecvenţa. Aria totală a tuturor dreptunghiurilor este egală cu numărul total
de observaţii. Dacă barele unei histograme au toate aceeaşi lăţime, atunci înălţimile lor sunt
proporţionale cu frecvenţele. Înălţimile barelor unei histogramei se mai numesc şi densităţi de
frecvenţă.
În cazul în care lăţimile barelor nu sunt toate egale, atunci înălţimile lor satisfac:
frecvenţa
înălţimea = k · , k = factor de proporţionalitate.
lăţimea clasei
Să presupunem că am fi grupat datele din Tabelul 2.6 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 2.8). În Tabelul 2.8, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 2.6
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 2.8 este cea din Figura 2.9.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate din
valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.
− numărul de clase este, în general, între 5 şi 20. Cu cât avem mai multe date, cu atât vom folosi
mai multe clase.
− în general, nu există o regulă exactă pentru a deter-
mina numărul de clase. Două dintre regulile cele mai
uzuale de stabilire a numărului de clase k sunt:
• numărul
√ de clase approximativ egal cu
numărul
√ de date. Spre exemplu, putem alege
k = [ n] + 1.
• (regula lui Sturges) numărul de clase k este astfel
încât k = 1 + 3.322 log10 , ori n = dlog2 ne + 1.
Metoda lui Sturges este optimă pentru un număr
de date n situat între 30 şi 200.
Figure 2.10: Histogramă 3D
− determinaţi lăţimea minimă a claselor după formula
valoarea maximă observată − valoarea minimă observată
h= .
k
Este o practică obis, nuită să rotunjit, i lăt, imea minimă a clasei până la o zecimală convenabilă,
pentru a face incrementele de-a lungul axei orizontale mai lizibile.
− determinaţi clasele şi apoi înregistraţi numărul de date din fiecare clasă (frecvenţe absolute).
− figura ce conţine histograma va avea clasele pe orizontală şi frecvenţele pe verticală.
Observaţia 2.1 (1) Dacă lungimea unei clase este infinită, atunci se obişnuieşte ca lăţimea
ultimului interval să fie luată drept dublul lăţimii intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă
clasa acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor sunt
valori reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat întreg.
Aşadar, este posibil ca această clasă să conţină acele plante ce au înălţimile situate între 14.5cm
(inclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind valorile reale ale
clasei, numite frontierele clasei. În cazul în care am determinat frontierele clasei, lăţimea unei
clase se defineşte ca fiind diferenţa între frontierele ce-i corespund. În concluzie, în cazul clasei
30 Chapter 2. Elemente de Statistică
[15, 20), aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi frecvenţa 17 6 . Pentru exemplificare, în
Tabelul 2.10 am prezentat frontierele claselor, lăţimile lor şi densităţile de frecvenţă pentru datele
din Tabelul 2.5.
Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
este utilă în special la reprezentarea datelor calitative.
Există şi posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 2.12 am
reprezentat datele din Tabelul 2.5.
2.5 Reprezentarea datelor statistice 31
2.5.7 Ogive
mult de valoarea parametrului atunci cand volumul selectiei este suficient de mare. Deoarece ele
se bazeaza doar pe observatiile culese, acesti indici statistici se mai numesc si masuri empirice.
• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {z1 , z2 , . . . , zn }, definim:
1 n
z= ∑ zi,
n i=1
ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EZ, daca aceasta exista.
• Momentele
Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:
1 n
mk = ∑ (zi − z)k .
n i=1
• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Este un
estimator pentru dispersia populatiei. Pentru o selecţie {z1 , z2 , . . . , zn }, definim dispersia
astfel: !
n n
1 1
s2 = m2 = ∑ (zi − z)2 = [ ∑ z2i − n(z)2 ] .
n − 1 i=1 n − 1 i=1
Faptul ca apare n − 1 la numitor face ca aceasta masura empirica sa estimeze dispersia
teoretica fara deplasare, in sensul ca valoarea medie a lui s2 este chiar σ 2 . Acest fapt nu ar
mai fi fost valabil daca in loc de n − 1 ar fi fost n.
• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii, care estimeaza parametrul σ .
Pentru o selecţie {z1 , z2 , . . . , zn }, definim deviaţia standard:
s
1 n
s= ∑ (zi − z)2.
n − 1 i=1
z−z
ζ= .
s
• Corelaţia (covarianţa)
Presupunem acum ca avem doua variabile de interes relative la o populatie statistica, Z1
şi Z2 , pentru care avem n perechi de observaţii, (z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n ). Definim
corelaţia (covarianţa):
1 n
cove = ∑ (zi − z)(z0i − z0).
n − 1 i=1
(2.6.3)
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota covarianţa
prin cove (Z1 , Z2 ). Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cove (Z, Z) = s2 .
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine
printr-o linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare.
Putem avea o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (pentru
cove > 0), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică în direcţii opuse
(pentru cove < 0). În cazul în care cove = 0, putem banui ca variabilele nu sunt corelate.
• Coeficientul de corelaţie
cove
r= .
sx sy
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota coeficientul
de corelaţie prin r(Z1 , Z2 ). La fel ca în cazul coeficientulul de corelaţie teoretic, r ia valori
între −1 şi 1. După cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea
reală aparametrului ρ (coeficientul teoretic de corelaţie, care reprezintă întreaga populaţie).
• Funcţia de repartiţie empirică
Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare Z şi unei selecţii
{z1 , z2 , . . . , zn }, funcţia Fn∗ : R −→ [0, 1], definită prin
Când volumul selectiei (n) este suficient de mare, funcţia de repartiţie empirică (Fn∗ (z))
aproximează funcţia de repartiţie teoretică F(z) (vezi Figura 2.17). Insa, pentru a stabili
exact daca ele sunt semnificativ apropiate, este nevoie de un test statistic.
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 35
Figure 2.17: Funcţia de repartiţie empirică şi funcţia de repartiţie teoretică pentru distribuţia normală.
µ3
1
n ∑ (zi − z)3
i=1
g1 = =" #3/2 .
s3 n
1
n−1 ∑ (zi − z)2
i=1
Putem spera ca o repartiţie să fie simetrică dacă g1 este foarte apropiat de valoarea 0. Vom
spune că asimetria este pozitivă (sau la dreapta) dacă g1 > 0 şi negativă (sau la stânga) dacă
g1 < 0. Coeficientul empiric de asimetrie g1 va fi utilizat în estimarea coeficientului teoretic
de asimetrie γ1 , care este un parametru al populaţiei.
• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin
n
µ4
1
n ∑ (zi − z)4
i=1
κ= = !2 .
s4 n
1
n ∑ (zi − z)2
i=1
Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Indicele kurtosis al
distribuţiei normale este egal cu 3. Vom avea o repartiţie mezocurtică pentru κ = 3 (sau
foarte apropiat de această valoare), leptocurtică (boltită) pentru κ > 3 sau platocurtică
pentru κ < 3. Un indice κ > 3 semnifică faptul că, în vecinătatea modului, curba densităţii
de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru κ < 3, în acea
vecinătate curba densităţii de repartiţie este mai plată decât curba lui Gauss. Coeficientul
empiric de aplatizare κ va fi utilizat în estimarea coeficientului teoretic de aplatizare K, care
este un parametru al populaţiei.
• Cuantile
Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în r părţi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom
utiliza notatia cu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii
corespunzatori.
Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se
numeşte mediană (empirica), notată prin me.
36 Chapter 2. Elemente de Statistică
Presupunem că observaţiile sunt ordonate, z1 < z2 < · · · < zn . Pentru această ordine, definim
valoarea mediană:
(
z , dacă n = impar;
me = (n+1)/2
(zn/2 + zn/2+1 )/2 , dacă n = par.
Pentru r = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată q1 ,
se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima cuartilă, notată prin
q3 , se numeşte cuartila superioară. Diferenţa q3 − q1 se numeşte distanţa intercuartilică.
Pentru r = 10 se numesc decile (sunt în număr de 9), pentru r = 100 se numesc percentile
(sunt în număr de 99), pentru r = 1000 se numesc permile (sunt în număr de 999). Sunt
măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul datelor.
• Modul
Modul (sau valoarea modală) este acea valoare z∗ din setul de date care apare cel mai des
(adica are frecventa cea mai mare). Un set de date poate avea mai multe module. Dacă apar
două astfel de valori, atunci vom spune că setul de date este bimodal, pentru trei astfel de
valori avem un set de date trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă
de apariţie, atunci spunem că nu există mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.
• Valori aberante (en. outliers)
Dupa cum am vazut anterior, teorema lui Cebâşev ne asigura ca probabilitatea ca o data
observata sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat k12 .
Valorile aberante sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma unor
erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică. Din punct
de vedere matematic, valorile aberante sunt valorile ce nu aparţin intervalului următor:
unde iqr = q3 − q1 este distanţa intercuartilică. Daca valoarea 1.5 se inlocuieste cu 3, atunci
orice valoare care iese din acest interval se va numi valoare aberanta extrema.
• Sinteza prin cele cinci valori statistice (five number summary)
Reprezintă cinci măsuri statistice empirice caracteristice unui set de date statistice. Acestea
sunt:
valoarea minimă < prima cuartilă (q1 ) < mediana (me) < a treia cuartilă (q3 ) < valoarea maximă
Aceşti cinci indicatori pot fi reprezentaţi grafic într-o diagramă numită box-and-whiskers plot.
Datele din Tabelul 2.5 sunt reprezentate în prima figură de mai jos prin două diagrame box-and-
whiskers. În prima diagramă (numerotată cu 1) am folosit datele negrupate; în a doua diagramă
am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor. Reprezentările sunt cele
clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-
whisker plot.
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 37
intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.
R: Rearanjăm datele în ordine crescătoare:
50 60.5 70 75 79 89 90 100 100 100 111.5
113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
100 + 111.5
Amplitudinea datelor este 525 − 50 = 475, media lor este 154.15, mediana este =
2
79 + 89
105.75, modul este 100, cuartila inferioară este q1 = = 84, q2 = me, cuartila superioară
2
130 + 150
este q3 = = 140 şi distanţa intercuartilică este d = q3 − q1 = 56. Mediana este valoarea
2
cea mai reprezentativă în acest caz, deoarece cele mai mari trei preţuri, anume 340.5, 475.5, 525,
măresc media şi o fac mai puţin reprezentativă pentru celelalte date.
1 r
z̄ f = ∑ zi fi ,media (empirică) de selecţie, (sau, media ponderată)
n i=1
!
2 1 r 2 1 r
2 2
s = ∑ fi(zi − z f ) = n − 1 ∑ zi fi − n z f , dispersia empirică,
n − 1 i=1 i=1
√
2
s = s , deviaţia empirică standard.
Mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că în
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 39
interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează mediana
este:
n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei.
Similar, formulele pentru cuartile sunt:
n 3n
− Fq1
4 4 − Fq3
q1 = l1 + c şi q3 = l3 + ,
fq1 fq3
unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar Fq
este suma frecvenţelor până la (exclusiv) clasa ce contine cuartila, fq este frecvenţa clasei unde se
gaseste cuartila.
Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această valoare
(clasă modală), iar modul va fi calculat după formula:
d1
mod = l + c,
d1 + d2
unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.
Exerciţiu 2.2 Datele din Tabelul 2.13 reprezinta inaltimile (in cm) pentru o selectie de 100 de
plante dintr-o anumita regiune.
(a) Reprezentati datele printr-o histograma.
(b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaţi amplitudinea,
media, mediana, modul, dispersia si distanta intercuartilică.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
R: Amplitudinea este A = 30. Folosind centrele claselor, media este
1
z = (1.5 × 5 + 4.5 × 9 + 7.5 × 8 + 10.5 × 14 + 13.5 × 15 +
100
+16.5 × 19 + 19.5 × 15 + 22.5 × 8 + 25.5 × 4 + 28.5 × 3) = 14.31.
Dispersia este:
1
s2 = (∑(z2 · f ) − n · z2 )
n−1
1
= (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 + 16.52 × 19 +
99
+19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3 − 70 · 14.312 )
= 44.5191.
40 Chapter 2. Elemente de Statistică
50 − 36
Me = 12 + × 3 = 14.8.
15
4
Clasa modală este [15, 18), iar modul este Mo = 15 + 4+4 × 3 = 16.5.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 . Clasa in care se gaseste prima
fq1
cuartila este [9, 12) (o valoare din acest interval va avea la stanga sa 100/4 = 25 dintre valorile
observate). Avem: Fq1 = 22, fq1 = 14, c = 3, de unde q1 = 9.6429.
Similar, clasa in care se gaseste a treia cuartila este [18, 21) (o valoare din acest interval va avea la
dreapta sa 100/4 = 25 dintre valori. Avem: Fq3 = 70, fq3 = 15, c = 3, de unde q3 = 19. Astfel,
distanta intercuartilica observata este iqr = q3 − q1 = 9.3571. √
unde C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita.
De exemplu, presupunem ca datele observate sunt z1 , z2 , . . . , zn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este zmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea
1 la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + zi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + zi ). Un exemplu este cel din Figura 2.23. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa zi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
42 Chapter 2. Elemente de Statistică
Table 2.16: Exemplu de indicatori statistici pentru datele originale si pentru datele transformate
2.8 Exerciţii rezolvate 43
frecvenţa clasei
densitatea = .
numărul de valori din clasă
Pentru că datele sunt discrete de tip interval, le putem reprezenta folosind histograme sau sectoare
de disc (pie charts). Valorile roşii din reprezentarea cu histograme sunt ariile dreptunghiurilor
corespunzătoare, care sunt frecvenţele absolute ale claselor.
Exerciţiu 2.5 Folosind diagramele box-and-whiskers plot de mai jos, determinat, i procentul de
băiet, i s, i apoi procentul de fete care au 168 cm sau mai put, in.
2.8 Exerciţii rezolvate 45
R: Se observă că 168 se află la prima cuartilă în diagrama ce reprezintă înălţimile fetelor şi la
mediană în diagrama ce reprezintă înălţimile băieţilor. Aşadar 25% dintre fete şi jumătate dintre
băieţi sunt mai mici de 168 cm.
Exerciţiu 2.6 Următorul set de date negrupate reprezintă numărul de pets (animale de casă) pe
care fiecare dintre cei 25 de studenţi aleşi în eşantion le au.
0 0 1 2 0 0 1 0 3 4 1 0 7 1 0 1 2 3 2 1 0 0 0 1 4
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
R: (a) Reprezentăm datele cu bare (date de tip categorial ordinal). Numărul de clase k = 6.
173 140 205 192 197 225 158 260 170 185 208 189 190 167 225 190 184 195
(a) Determinaţi amplitudinea, media, modul şi deviaţia standard pentru această selecţie.
(b) Reprezentaţi diagrama box-and-whisker plot pentru date.
R: (a) Avem n = 19 observaţii. Amplitudinea datelor este A = xmax − xmin = 260 − 140 = 120.
Valoarea medie este
1 19
x = ∑ xi = 191.8333.
n i=1
Modurile datelor sunt 190 şi 225. Dispersia datelor este
1 19
s2 = ∑ (xi − x)2 = 748.2647.
n − 1 i=1
√
Deviaţia standard a datelor este s = s2 = 27.3544.
(b) Grupăm datele crescător:
140; 158; 167; 170; 173; 184; 185; 189; 190; 190; 192; 195; 197; 205; 208; 225; 225; 260
34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37.
La fel ca Ana, Cristian lucrează la un magazin de calculatoare. De asemenea, a înregistrat numărul
de vânzări pe care le-a făcut în fiecare lună. În ultimele 12 luni, el a vândut următoarele numere
de computere:
51, 17, 25, 39, 7, 49, 62, 41, 20, 6, 43, 13.
2.8 Exerciţii rezolvate 47
1. Determinaţi sinteza celor cinci valori pentru vânzările efectuate de fiecare dintre cei doi.
2. Desenaţi diagramele box-and-whiskers plot pentru vânzările fiecăruia.
3. Descriet, i pe scurt comparat, iile dintre vânzările lor.
aparitiei unui numar impar si B =evenimentul aparitiei unui numar prim sunt compatibile.
• Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice fata are aceeasi şansă de aparitie.
3.2 Probabilitate
Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment, am construit spaţiul de selecţie
Ω. Atunci, fiecărui eveniment A în putem asocia un număr P(A), numit probabilitatea realizării
evenimentului A (sau, simplu, probabilitatea lui A), fiind o măsură precisă a şanselor ca A
să se realizeze. Probabilitatea este o valoare cuprinsa intotdeauna intre 0 si 1, cu P(∅) = 0
(probabilitatea ca evenimentul imposibil sa se realizeze este 0) si P(Ω) = 1 (probabilitatea ca
evenimentul sigur sa se realizeze este 1).
T S
Daca evenimentele A si B nu se pot realiza simultan (i.e., A B = ∅), atunci P(A B) = P(A) +
P(B). Daca A si B se pot realiza simultan, atunci P(A B) = P(A) + P(B) − P(A B).
S T
În literatura de specialitate, probabilitatea este definită în mai multe moduri: cu definiţia clasică
(apare pentru prima oară în lucrările lui P. S. Laplace1 ), folosind o abordare statistică (cu frecvenţe
relative), probabilitatea definită geometric, probabilitatea bayesiană (introdusă de Thomas Bayes2 )
sau utilizând definiţia axiomatică (Kolmogorov). Aici vom prezenta doar primele trei moduri.
(I) Probabilitatea clasică este definită doar pentru cazul în care experienţa aleatoare are un
număr finit de cazuri posibile şi echiprobabile (toate au aceeaşi şansă de a se realiza). În acest caz,
probabilitatea de realizare a unui eveniment A este
numarul cazurilor favorabile realizarii evenimentului
P(A) = .
numarul cazurilor egal posibile
1 Pierre-Simon, marquis de Laplace (1749 − 1827), matematician şi astronom francez
2 Thomas Bayes (1701 − 1761), statistician şi filosof englez
3.2 Probabilitate 51
De exemplu, dorim să determinăm probabilitatea obţinerii unei duble la o singură aruncare
a unei perechi de zaruri ideale. Mulţimea cazurilor posibile este mulţimea tuturor perechilor
{(i, j); i, j = 1, 6}, care are 36 de elemente. Mulţimea cazurilor favorabile este formată din adică
6 elemente, şi anume: {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Probabilitatea apariţiei unei
6
duble este P = 36 = 16 .
Sunt însă foarte multe cazuri în care definiţia clasică nu mai poate fi utilizată. Spre exemplu, în
cazul în care se cere probabilitatea ca, alegând la întâmplare un punct din pătratul [0, 1] × [0, 1],
acesta să se situeze deasupra primei bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi
numărul cazurilor favorabile este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.
adica limită şirului frecvenţelor relative de producere a respectivului eveniment când numărul de
probe tinde la infinit.
(III) Probabilitate definită geometric Să presupunem că am dispune de un procedeu prin care
putem alege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune că acest
procedeu ne asigură că nu există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două
subintervale de aceeaşi lungime, este la fel de probabil ca punctul să cadă în oricare dintre aceste
intervale. Dacă am folosi de mai multe ori procedeul pentru a alege un număr mare de puncte,
acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există puncte în vecinătatea
cărora punctul ales să cadă mai des, ori de câte ori este ales. De aici reiese că probabilitatea ca un
punct să cadă într-un subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi
nu de poziţia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea
subintervalului. Se poate observa analogia cu experienţa alegerii dintr-un număr de cazuri egal
posibile.
Dacă [a, b] e mulţimea cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile,
atunci probabilitatea ca punctul ales să cadă în [c, d] este
lungimea ([c, d]) d − c
P(A) = = .
lungimea ([a, b]) b − a
În particular, dacă z ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval să
52 Chapter 3. Noţiuni teoretice de Statistică
coincidă cu un punct dinainte stabilit este zero şi, astfel, întrezărim posibilitatea teoretică ca un
eveniment să aibă probabilitatea nulă, fară ca el să fie evenimentul imposibil ∅.
Exemplu 3.1 Să presupunem că experimentul aleator constă în alegerea la întâmplare a unui
număr real din intervalul (0, 1), aşa încât fiecare punct din acest interval are aceeaşi şansă de a
fi ales. Dacă notăm cu Z v.a. care reprezintă numărul ales, atunci Z va urma repartiţia uniform
continuă U (0, 1). Notăm cu A evenimentul ca Z să nu ia valoarea 0.5. Matematic, scriem
evenimentul astfel:
A = {ω ∈ Ω; Z(ω) 6= 0.5} sau, prescurtat, {Z 6= 0.5}.
Atunci, P(A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic,
este posibil ca, din mai multe probe independente ale experimentului, să obţinem valoarea 0.5.
În mod cu totul analog, dacă se alege la întâmplare şi în mod uniform un punct dintr-o regiune
planara R, astfel ca să nu existe puncte sau porţiuni privilegiate în aceasta regiune, atunci
R0
probabilitatea ca punctul să cadă în subregiunea R 0 ⊂ R este aria aria R .
În trei dimensiuni, o probabilitate similară este raportul a două volume: volumul mulţimii cazurilor
favorabile realizarii experimentului şi volumul mulţimii cazurilor egal posibile.
Exemplu 3.2 Un exemplu simplu de variabila aleatoare este următorul. Considerăm experimentul
aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate posibile, notate
S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui experiment aleator
îi putem ataşa variabila aleatoare reală Z, care asociază feţei S valoarea 1 şi feţei B valoarea 0.
Matematic, scriem astfel: Z : Ω → R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 şi 0 pentru Z vor
indica faţa apărută la aruncarea monedei. O astfel de variabilă aleatoare se numeşte variabilă
aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator ce are doar două rezultate posibile,
numite generic succes şi eşec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare discrete
sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o multime care poate fi
numarata) de valori. O variabilă aleatoare se numeşte variabilă aleatoare continuă (sau de tip
continuu) dacă mulţimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real
3.3 Variabile aleatoare 53
(posibil infinit) sau toate numerele dintr-o reuniune disjunctă de astfel de intervale, cu precizarea
că pentru orice posibilă valoare c, P(Z = c) = 0.
Exemple de v.a. discrete: numărul feţei apărute la aruncarea unui zar, numărul de apariţii ale unui
tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute până la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de aşteptare la un ghişeu până la servire, preţul
unui activ financiar într-o perioadă bine determinată.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta le
poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi va fi
întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire
la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este distribuită
între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compactă, adeseori unei v.a.
discrete i se atribuie următoarea reprezentare schematica:
tabelul de repartiţie
Z z1 z2 z3 ... zn
(3.3.1)
pk p1 p2 p3 ... zn
unde pk este probabilitatea cu care variabila Z ia valoarea zk (matematic, scriem pk = P(Z = zk ))
şi suma tuturor probabilităţilor corespunzătoare variabilei discrete este egală cu 1 (scriem ca
n
∑ pi = 1).
i=1
Exemplu 3.3
Presupunem că Z este v.a. ce reprezintă tabelul de repartiţie
numărul de puncte ce apare la aruncarea
unui zar ideal. Această variabila o putem Z 1 2 3 4 5 6
reprezenta schematic ca in tabelul alaturat. pk 1/6 1/6 1/6 1/6 1/6 1/6
Dacă Z este o v.a. discretă de forma (3.3.1), atunci definim funcţia de probabilitate (de frecvenţă)
(en., probability mass function) ataşată variabilei aleatoare discrete Z ca fiind o funcţie ce ataseaza
fiecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matem-
atic, scriem ca
f (zi ) = pi , i ∈ {1, 2, . . . , n}.
În cuvinte, pentru fiecare posibilă valoare a unei v.a. discrete, funcţia de probabilitate ataşează
probabilitatea cu care Z ia această valoare. Funcţia de probabilitate este pentru o v.a. discreta ceea
ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un
interval a chiar din R. Deoarece in aceste multimi exista o infinitate de valori, nu mai putem
defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i fiecare valoare pe care
o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza
multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel
de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiţie (en.,
probability density function).
Exemplu 3.4 Vom spune că o variabila aleatoare Z are o repartitie (sau distributie) normala de
medie µ şi deviatie standard σ (notam aceasta prin Z ∼ N (µ, σ )) dacă Z poate lua orice valoare
reala si are densitatea de repartitie data de:
1 (x−µ)2
−
f (x; µ, σ ) = √ e 2σ 2 , pentro orice x ∈ R.
σ 2π
54 Chapter 3. Noţiuni teoretice de Statistică
Aceasta repartitie se mai numeşte şi repartiţia gaussiană sau distribuţia gaussiană.
Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali. Spre exemplu, repartitia normala are doi parametri, µ si σ .
adică suma tuturor probabilităţilor corespunzătoare valorilor lui Z care nu-l depăşesc pe z.
Dacă Z este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Zz
F(z) = f (t) dt, z ∈ R. (3.3.3)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se defineste prin
n
E(U(Z)) = ∑ U(zi )pi .
i=1
3.3 Variabile aleatoare 55
• Dacă Z este o v.a. de tip continuu, cu densitatea de repartiţie f (z), atunci media (teoretică)
acestei v.a., dacă există (!), se defineşte astfel:
Z ∞
µ= z f (z)dz. (3.3.5)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dacă există!) se
defineste prin Z ∞
E(U(Z)) = U(z) f (z)dz.
−∞
Notaţii: În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai
multe variabile în acelaşi timp), vom folosi notaţia µZ . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(Z) sau E(Z).
Dispersia (sau varianţa) (en., variance) şi abaterea standard (en., standard deviation)
Consideram Z o variabilă aleatoare care admite medie finita µ. Dorim sa stim in ce masura
valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z0 = Z − µ
(numită abaterea lui Z de la media sa), atunci E(Z0 ) = 0. Aşadar, nu putem măsură gradul de
împrăştiere a valorilor lui Z în jurul mediei sale doar calculând Z − µ. Avem nevoie de o altă
măsură. Aceasta este dispersia variabilei aleatoare, notată prin σZ2 sau Var(Z). În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în acelaşi
timp), vom folosi notaţia σZ2 .
n Z ∞
σ2 = ∑ (zi − µ)2 pi σ2 = (z − µ)2 f (z) dz
i=1 −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).
În conformitate cu teorema lui Cebâşev3 , pentru orice variabila aleatoare Z ce admite medie si
orice a > 0, are loc inegalitatea:
1
P({|Z − µ| ≥ kσ }) ≤ 2 . (3.3.6)
k
În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii
standard este mai mica decat k12 . În cazul particular k = 3, obţinem regula celor 3σ :
1
P({|Z − µ| ≥ 3σ }) ≤ ≈ 0.1.
9
3 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
56 Chapter 3. Noţiuni teoretice de Statistică
sau
8
P({µ − 3σ < Z < µ + 3σ }) ≥ , (3.3.7)
9
semnificând că o mare parte din valorile posibile pentru Z se află în intervalul [µ − 3σ , µ + 3σ ].
Coeficientul de variaţie
σ σ
Este definit prin CV = sau, sub forma de procente, CV = 100 %. Este util in compararea
µ µ
variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt
egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel
cu media mai mare.
Momente centrate
Pentru o v.a. Z (discretă sau continuă), ce admite medie, momentele centrate sunt valorile aşteptate
ale puterilor lui Z − µ. Definim astfel µk (Z) = E((Z − µ)k ). In particular,
Z ∞
n
µk (Z) = (x − µ)k f (x) dx;
µk (Z) = ∑ (zi − µ)k pi; −∞
i=1 (in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:
Cuantile
Fie o v.a. Z ce are funcţia de repartiţie F(z). Pentru un α ∈ (0, 1), definim cuantila de ordin α
acea valoare reala zα ∈ R pentru care
F(zα ) = P(Z ≤ zα ) = α. (3.3.8)
Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea
valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este maximă. O
repartiţie poate să nu aibă niciun mod, sau poate avea mai multe module.
Conceptul de corelaţie (sau covarianţă) este legat de modul în care două variabile aleatoare tind
să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi direcţie (caz în care vom
58 Chapter 3. Noţiuni teoretice de Statistică
spune că Z1 şi Z2 sunt direct <sau pozitiv> corelate) sau în direcţii opuse (Z1 şi Z2 sunt invers <sau
negativ> corelate).
Consideram variabilele Z1 , Z2 ce admit mediile, respectiv, µ1 , µ2 .
Definim corelaţia (sau covarianţa) variabilelor Z1 şi Z2 , notată prin cov(Z1 , Z2 ), cantitatea
3.3.3 Independenţa
Conceptul de independenţă a variabilelor aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului statistic, atunci cand avem de calculat probabilităţile evenimentelor
compuse din evenimente mai simple.
3.3 Variabile aleatoare 59
Deoarece în relaţia (3.3.10) nu mai este nevoie de condiţie suplimentara pentru P(B), este
preferabil să definim independenţă a două evenimente arbitrare astfel:
Două evenimente A si B se numesc independente dacă relaţia (3.3.10) are loc. Altfel, ele sunt
dependente, in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte.
In general, o multime de evenimente se numesc independente daca oricum am alege evenimente
din aceasta multime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul
probabilitatilor fiecarui eveniment in parte.
Doua variabile aleatoare Z1 si Z2 sunt independente daca realizarile lor sunt evenimente indepen-
dente intre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca
realizarile oricarei submultimi dintre ele sunt evenimente independente intre ele.
Exemplu: Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu Z1 , respectiv,
Z2 , v.a. ce reprezintă numărul de puncte apărute la fiecare aruncare. Evident, valorile acestor v.a.
sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aceste doua variabile aleatoare sunt independente, deoarece
aparitia unei fete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea
celui de-al doilea.
O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua
sau mai multe variable independente este egala cu produsul mediilor celor doua variabile. De
asemenea, daca variabilele sunt independente, dispersia sumei variabilelor este egala cu suma
dispersiilor fiecarei variabile in parte. Aceste proprietati nu au loc in cazul in care ipoteza de
independenta nu este verificata.
De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adica
cov(Z1 , Z2 ) = 0 si, implicit, ρZ1 , Z2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna
ca exista variabile care sunt necorelate dar nu sunt independente.
Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot fi
independente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate.
În acest caz spunem că Z urmează repartiţia normală standard, N (0, 1).
Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
3.3). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei
normale standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3). Această afirmaţie rezulta
din relaţia (3.3.7).
z−µ
F(z) = Θ , z ∈ R. (3.3.13)
σ
Repartiţia log-normală este foarte utilă în practica atunci cand observatiile nu sunt normale.
In acest caz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala.
In general, daca datele observate sunt asimetrice (coeficientul skewness este mare), atunci
este necesara o logaritmare a datelor. Majoritatea mineralelor sau elementelor chimice au
repartitii lognormale. Vom spune ca variabila Z urmeaza o repartitie log-normala, scriem
Z ∼ logN (µ, σ ), daca variabila ln Z urmeaza o repartitie normala, adica ln Z ∼ N (µ, σ ).
62 Chapter 3. Noţiuni teoretice de Statistică
(ln z − µ)2
−
f (z) = 1
√ e 2σ 2 , dacă z > 0;
zσ 2π
, dacă z ≤ 0.
0
2 /2 2 2
µZ = eµ+σ , σZ2 = e2µ+σ (eσ − 1).
• Repartiµia χ 2 , χ 2 (n)
Repartitia χ 2 (n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile
normale standard independente. Vom spune ca o variabila Z urmeaza repartitia χ 2 (n)
(scriem ca Z ∼ χ 2 (n) si se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:
1 n z
z 2 −1 e− 2 , dacă z > 0,
n
f (z; n) = Γ( 2n )2 2
, dacă z ≤ 0.
0
unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 3.4.
(a) Media şi dispersia unei repartitii χ 2 (n) sunt:
E(χ 2 ) = n, D2 (χ 2 ) = 2n.
(c) În particular, dacă variabila Z este normala standard, atunci patratul acesteia este o
variabila χ 2 (1). Matematic, scriem astfel:
Spunem că Z ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
n+1
Γ − n+1
z2
2
2
f (z; n) = √ n 1 + , z ∈ R.
nπ Γ n
2
n
Media şi dispersia unei repartitii t(n) sunt: µZ = 0, σZ2 = .
n−2
• Repartiµia Fisher5 , F (m, n)
Spunem că Z ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
m
m 2 m+n
Γ
m 2n z 2 −1 1 + mn z − 2
n
m m+n
f (z) = , z > 0;
Γ Γ
2 2
, z ≤ 0.
0
n 2n2 (n + m − 2)
Media şi dispersia unei repartitii F (m, n) sunt: µZ = , σZ2 = .
n−2 m(n − 2)2 (n − 4)
4 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
5 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4. Estimatori
Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele z1 , z2 , . . . , zn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile Z1 , Z2 , . . . , Zn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate copii
independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare de selectie.
Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de exemplu media
µ sau deviatia standard σ ale lui Z.
O functie f (Z1 , Z2 , . . . , Zn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (z1 , z2 , . . . , zn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
Z = ∑ Zi .
n i=1
1 n
O valoare observata pentru Z este z = ∑ zi .
n i=1
(∗ ) Daca variabilele de selectie Zi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:
σ
µZ = µ si σZ = √ .
n
(∗∗ ) In cazul in care variabilele Zi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, Z ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila Z este
normala, fara ca Zi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
66 Chapter 4. Estimatori
2. Dispersia selecţiei,
1 n
S2 = ∑ [Zi − Z]2
n − 1 i=1
1 n
O valoare observata pentru S2 este s2 = ∑ [zi − z]2.
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S2 . O valoare observata pentru S este s = s2 .
• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.
1 nk
s2k = ∑ [zik − zk ]2.
nk − 1 i=1
68 Chapter 4. Estimatori
1 m s2k
s2z = 2 ∑ .
k j=1 nk
q
O estimatie pentru eroarea standard a lui z este sz = s2z .
6. Presupunem acum ca avem doua variabile de interes, Z si Z 0 . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(Z, Z 0 ) = E [(Z − µZ )(Z 0 − µZ 0 )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n )}. O estimatie pentru cov(Z, Z 0 )
este covarianta (sau corelatia) empirica,
1 n
cove = ∑ (zi − z)(z0i − z0),
n − 1 i=1
unde
1 n 1 n 0
z= ∑ zi si z0 = ∑ zi.
n i=1 n i=1
După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât
se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
4.2 Estimarea parametrilor prin intervale de încredere 69
1 n
z= ∑ zi .
n i=1
(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este
s s
z − z1− α2 √ , z + z1− α2 √ , (4.2.2)
n n
unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 10.1 gasim ca z0.975 = 1.96.
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este
s s
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.3)
n n
si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
10.2 gasim ca t0.975, 34 = 2.032.
70 Chapter 4. Estimatori
Când volumul n este mare, atunci va fi o diferenţă foarte mică între valorile z1− α2 şi t1− α2 ; n−1 , de
aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată) dintr-o
populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul selecţiilor nerepetate
din colectivităţi finite, în estimarea intervalelor de încredere vom ţine cont şi de volumul N al
populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o populaţie finită de volum N şi
n ≥ 0.05N, atunci un inteval de încredere centrat pentru media populaţiei este:
r r !
s N −n s N −n
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.4)
n N −1 n N −1
q
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N n, obtinandu-se
astfel intervalul (4.2.3). Formula (4.2.4) nu este practica in Geostatistica, deoarece un camp
aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o populatie de
volum N = ∞.
O alta observatie este faptul ca este posibil ca σ sa fie un parametru cunoscut pentru Z, caz in care
pentru intervalul de incredere pentru medie se foloseste formula (4.2.2) cu σ inlocuindu-l pe s.
Exemplu 4.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe să
aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată, z1 , z2 , . . . , z30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.
Soluţie: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n
Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este z = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ:
(248.572, 251.561).
Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 4.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a conţinutului
de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi, deviaţia
standard a conţinutului de nicotină este de 1.6mg.
Soluţie: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.
(σ 2 , σ 2 ) = (1.5608, 4.9544).
Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
r r r r !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (4.2.7)
n N −1 n N −1
72 Chapter 4. Estimatori
Exemplu 4.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că deţin
cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii din
respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
Soluţie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
r r r r !
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).
Exemplu 4.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii ce
au fost înscrişi.
67
Soluţie: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) =
33 > 5. Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
r r !
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
5. Teste statistice
Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar referi-
toare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-un
singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste o
vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
74 Chapter 5. Teste statistice
improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu datorită
faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:
2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc de
genul al (II)-lea. Probabilitatea acestei erori este
Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value) proba-
bilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând că
ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de semnificaţie
α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese. Dacă Pv ≤ α,
atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α, atunci admitem
(H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie respinsă. De
exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar nu o putem
respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare, decizia
într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât nivelul
de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai mare decât
α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică ce
ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină este
prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de acord
cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
(
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.
[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);
[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 5.1:
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β
• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (5.1.1)
√
n
• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un prag
teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic
(e.g., M ATLAB). Decizia se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica T0 este suficient de mic in valoare absoluta), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).
Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat cel
puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta valoare
este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea, testarea se
face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 5.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit
oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma
sondajului sunt grupate in Tabelul 2.3. Dorim să testăm, la nivelul de semnificaţie α = 0.05, dacă
media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
Soluţie: Aşadar, avem de testat
z = 6.3667, s = 1.8570.
5.1 Tipuri de teste statistice 77
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
• Calculam statistica
n−1 2
χ02 = S , (5.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din tabele
χ 2 ). Luarea decizieise face astfel:
pentru repartitia
– dacă χ02 ∈ χ 2α ; n−1 , χ1−
2
α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
2 2 ; n−1
(H0 ) : σ 2 = 0.003,
χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2
78 Chapter 5. Teste statistice
Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ 20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.
√ ∞
2 x2
lim P( n · dn < x) = K(x) = ∑ (−1)k e−2 k , x > 0. (5.1.3)
n→∞
k=−∞
80 Chapter 5. Teste statistice
În cazul în care ipotezele testului sunt satisfăcute, acest test este mai puternic decât testul χ 2 .
Avem un set de date statistice independente, pe care le ordonăm crescator, x1 < x2 < · · · < xn .
Aceste observaţii independente provin din aceeaşi populaţie caracterizată de variabila aleatoare
X, pentru care urmărim să îi stabilim repartiţia. Mai întâi, cautăm să stabilim ipoteza nulă. De
exemplu, dacă intuim că funcţia de repartiţie teoretică a lui X ar fi F(x), atunci stabilim:
(H0 ) : funcţia de repartiţie teoretică a variabilei aleatoare X este F(x).
Ipoteza alternativă (H1 ) este, de regulă, ipoteza ce afirmă că (H0 ) nu este adevărată. Alegem un
nivel de semnificaţie α 1.
În criteriul K-S pentru o singură selecţie, se compară funcţia F(x) intuită a priori cu funcţia de
repartiţie empirică, Fn∗ (z). Reamintim,
card{i; xi ≤ x}
Fn∗ (x) = .
n
Studiind funcţia empirică de repartiţie a acestui set de date, Kolmogorov a găsit că distanţa
dn = sup |Fn∗ (x)−F(x)| satisface relaţia (5.1.3)), unde K(λ ), λ > 0, este funcţia lui Kolmogorov
x∈R
(tabelată). În testul K-S, măsura dn caracterizează concordanţa dintre F(x) şi Fn∗ (x). Dacă ipoteza
(H0 ) este adevărată, atunci diferenţele dn nu vor depăşi anumite valori.
Pentru α = 0.1 şi n = 8, căutăm în tabelul pentru inversa funcţiei lui Kolmogorov acel x1−α; 8 =
x0.9; 8 astfel încât K(x1−α; 8 ) = 1 − α. Găsim că x0.9; 8 = 0.411.
5.1 Tipuri de teste statistice 81
Pe de altă parte, F(x) = Θ( x−1 √ ), unde Θ(x) este funcţia de repartiţie pentru legea normală
2
N (0, 1). √ √
Ipoteza că X urmează repartiţia normală N (1, 2) este acceptată dacă n dn < x1−α . Calculele
pentru determinarea valorii dn sunt date de Tabelul 5.4. În Figura 5.1, putem observa reprezentările
acestor două funcţii pentru setul de date observate.
xi −∞ −2 −0.5 0 1 2 3 ∞
F(xi ) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1
Fn∗ (xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1
Fn∗ (xi ) 0 0.125 0.25 0.375 0.625 0.875 1 1
|Fn∗ (xi − 0) − F(xi )| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0
|Fn∗ (xi ) − F(xi )| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0
Pentru a calcula dn , notăm faptul că cea mai mare diferenţă între F(x) şi Fn∗ (x) poate fi realizată
ori înainte de salturile funcţiei Fn∗ , ori după acestea, i.e.,
(
|F(xi ) − Fn∗ (xi − 0)|, înainte de saltul i;
sup |F(x) − Fn∗ (x)| = max
x∈R i |F(xi ) − Fn∗ (xi + 0)|, după saltul i.
√ √
Din tabel, observăm că dn = 0.1352. Deoarece n · dn = 8 · 0.1352 = 0.3824 < 0.411, con-
cluzionăm că putem accepta ipoteza (H0 ) la pragul de semnificaţie α = 0.1.
Observaţia 5.1 În cazul în care avem de comparat două repartiţii, procedăm astfel. Să pre-
supunem că Fm∗ (z) este funcţia de repartiţie empirică pentru o selecţie de volum m dintr-o populaţie
ce are funcţia teoretică de repartiţie F(z)) şi că G∗n (z) este funcţia de repartiţie empirică pentru o
selecţie de volum n dintr-o populaţie ce are funcţia teoretică de repartiţie G(z). Dorim să testăm
(eventual, în (H1 ) putem considera F > G sau F < G.) Considerăm statistica
ce reprezintă diferenţa maximă între cele două funcţii (vezi Figura 5.2). Etapele testului urmează
îndeaproape pe cele din testul K-S cu o singură selecţie. Decizia se face pe baza criteriului
r
mn
dm,n < qα .
m+n
Testul Kolmogorov-Smirnov pentru două selecţii este unul dintre cele mai utile teste de contin-
genţă pentru compararea a două selecţii. Acest test nu poate specifica natura celor două repartiţii.
Figure 5.1: Fn∗ (x) şi F(x) pentru testul Figure 5.2: Exemplu de funcţiile empirice
Kolmogorov-Smirnov cu o selectie. de repartiţie în testul K-S cu două selecţii.
6. Corelaţie şi regresie
Analiza regresională cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă
(variabila răspuns) şi una sau mai multe variabile independente. De asemenea, răspunde la
întrebări legate de predicţia valorilor viitoare ale variabilei răspuns pornind de la o variabilă dată
sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante
în prezicerea variabilei răspuns. Se numeşte variabilă independentă o variabilă ce poate fi
manipulată (numită şi variabilă predictor, stimul sau comandată), iar o variabilă dependentă (sau
variabila prezisă) este variabila care dorim să o prezicem, adică o variabilă cărei rezultat depinde
de observaţiile făcute asupra variabilelor independente.
Să luăm exemplul unei cutii negre (black box) (vezi
Figura 6.1). În aceasta cutie intră (sunt înregistrate) in-
formaţiile x1 , x2 , . . . , xm , care sunt prelucrate (în tim-
pul prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ),
iar rezultatul final este înregistrat într-o singură vari-
abila răspuns, y. Figure 6.1: Black box.
De exemplu, se doreşte a se stabili o relaţie între valoarea pensiei (y) în funcţie de numărul de
ani lucraţi (x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate
exact, fără erori. În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem,
de care putem ţine cont dacă introducem un parametru ce să cuantifice eroarea ce poate apărea
la observarea variabilei y. Se stabileşte astfel o legătură între o variabilă dependentă, y, şi una
sau mai multe variabile independente, x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma
matematică generală
y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (6.1.1)
unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε
este o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată
modelată printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de
regresie. Dacă aceasta nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul
analizei regresionale va trebui să o intuiască sau să o aproximeze utilizând metode de tip trial and
error (prin încercări). Dacă avem doar o variabila independentă (un singur x), atunci spunem că
avem o regresie simplă. Regresia multiplă face referire la situaţia în care avem multe variabile
independente.
Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (6.1.1) ar deveni
(cazul ideal):
y = f (x; β ) + ε. (6.1.3)
Pentru a o analiză completă a regresiei (6.1.1), va trebui sa intuim forma funcţiei f şi apoi să
determinăm (aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va
face un număr suficient de observaţii (experimente statistice), în urma cărora va aproxima aceste
valori. Dacă notăm cu n numărul de experimente efectuate, atunci le putem contabiliza pe acestea
în următorul sistem stochastic de ecuaţii:
yi = f (x, β ) + εi , i = 1, 2, . . . , n. (6.1.4)
6.1 Punerea problemei 85
În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate normal, independente de
medie µ = 0 si deviatie standard σ > 0. Astfel, sistemul (6.1.4) cu n ecuaţii are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie
aproximaţi (n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă
n = k, atunci problema se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz
posibil, n > k, atunci avem un sistem cu valori nedeterminate.
Exemple de regresii:
f (x; β ) = β0 + β1 x.
f (x; β ) = β0 + β1 x1 + β2 x2 + · · · + βm xm .
f (x; β ) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .
Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem
astfel ca au un caracter spatial. Pozitia spatiala poate fi unu, doi sau trei-dimensionala. Vom
considera aici doar date bi-dimensionale. Vom nota generic cu x = (ζ1 , ζ2 ) vectorul de coordonate
bidimensionale. Dintre aceste metode, distingem metodele deterministe si cele geostatistice (sau
stochastice). In cazul metodelor deterministe nu se tine cont de erorile cu care pot fi colectate
masuratorile si de corelatiile dintre valorile masurate. In cazul metodelor stochastice, tinem cont
de erorile masuratorilor si de corelatiile dintre date.
n
z(x0 ) = ∑ λi z(xi ),
b (7.1.1)
i=1
1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet): Pentru un camp aleator R, vom
numi o diagrama Voronoi indusa de un set de locatii x1 , x2 , . . . , xn (numite si situri) o
diviziune a lui R in subregiuni, astfel incat pentru fiecare locatie, regiunea care o contine
este formata din punctele cele mai apropiate locatiei. Pentru fiecare punct xi , sa notam cu Vi
regiunea ce o contine. Se considera ca zi este valoarea variabilei Z pentru fiecare locatie din
regiunea Vi .
88 Chapter 7. Metode de interpolare spaţială
In cazul unei diagrame Voronoi, se pot considera ponder-
ile λi ca fiind
(
1 , daca xi ∈ Vi ,
λi =
0 , daca xi ∈ 6 Vi .
Ai
λi = ,
A1 + A2 + . . . + Ar
7.1 Metode deterministe de interpolare spatiala 89
unde suma se face dupa indicii locatiilor invecinate locatiei x0 . Astfel, ponderea λi va fi
nenula daca locatia xi este vecin natural cu x0 , si λi = 0 daca xi nu este vecin natural cu x0 .
unde f (x) este o functie de coordonatele spatiale ale locatiei investigate si εx este o eroare
de masurare. Aceasta eroare este presupusa a fi normala, de medie 0 si deviatie standard σ .
Mai mult, se presupune ca erorile observate in diferite locatii sa fie independente intre ele.
Exemple de suprafete de trend:
• (trend liniar, adica un plan):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 .
• (trend cubic):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 + β6 x12 x2 + β7 x1 x23 + β8 x13 + β9 x23 .
Pe baza masuratorilor deja facute, se estimeaza parametrii βi , obtinandu-se astfel suprafata
de raspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor
parametri este metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de
aproximare). De indata ce acesti coeficienti (se mai numesc si coeficienti de regresie) sunt
determinati, vom cunoaste forma exacta a functiei f (x1 , x2 ), si astfel putem estima valoarea
variabilei in locatia x = (x1 , x2 ) prin
z(x) = f (x1 , x2 ).
b
z(x) = β0 + β1 x1 + β2 x2 .
b
O functie spline este o functie definita pe portiuni, iar in fiecare portiune avem un polinom.
Daca toate polinoamele au grad unu, vom spune ca avem o functie spline liniara, daca
toate polinoamele au gradul doi, atunci avem o functie spline patratica etc. Pentru un
set de locatii, putem determina o functie spline care interpoleaza aceste valori. Pe baza
acestei functii putem estima valoarea unei variabile intr-o locatie x0 prin valoarea functiei
in x0 . Interpolarea cu functii spline a fost introdusa de matematicianul roman Isaac Jacob
Schoenberg care a sustinut teza sa de doctorat la Universitatea din Iasi in 1926.
7.1 Metode deterministe de interpolare spatiala 91
Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un set
de locatii x1 , x2 , . . . , xn . Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile
z(x1 ), z(x2 ), . . ., z(xn ). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne
indreptateste sa consideram variabilele aleatoare Z(x1 ), Z(x2 ), . . . , Z(xn ). In mod generic, prin
Z(xi ) intelegem variabila Z in locatia xi , iar z(xi ) este o valoare observata a sa. Pentru fiecare
locatie x din campul R, variabila Z(x) este o variabila aleatoare care are o anumita repartitie care
poate sa difere in functie de locatie.
Sirul de variabile aleatoare {Z(x); x ∈ R} se numeste proces stochastic sau câmp aleator sau
functie aleatoare.
este normala n−dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre
componentele vectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general
este greu de prezis repartitia exacta a acestui vector, dar putem face anumite presupuneri legate de
momentele variabilelor ce-l compun.
Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie re-
latia intre doua variabile Z(xi ) si Z(x j ) (unde locatiile xi si x j sunt diferite), vom utiliza conceptele
de covarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale.
Pentru doua locatii x1 si x2 din R, definim covarianţa variabilelor Z(x1 ) şi Z(x2 ), notată prin
cov(x1 , x2 ), cantitatea
O măsură (adimensionala) a corelaţiei dintre două variabile este coeficientul de corelaţie (sau
corelatia, in unele carti). Acesta este utilizat ca fiind o măsură a dependenţei liniare între două
variabile. Se numeşte corelaţie a variabilelor Z(x1 ) şi Z(x2 ) cantitatea
cov(Z(x1 ), Z(x2 ))
ρ= ,
σ1 σ2
1 n
c 1 , x2 ) =
cov(x ∑ [(z1,i − z1)(z2,i − z2)],
n i=1
(daca ele exista!) sunt independente de locatie. Scriem asta astfel: µ(x) = µ, σ 2 (x) = σ 2 , pentru
orice locatie x. Daca procesul aleator Z(x) este stationar, atunci putem scrie ca
Z(x) = µ + ε(x),
unde ε(x) sunt erori normal repartizate, ε(x) ∼ N (µ, σ ), pentru orice x din regiune.
Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in
general repartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom
face o presupunere mai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar
momente de ordinul 1 si 2 independente de locatie.
Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie,
dispersie, covarianta). Un proces stochastic (functie aleatoare) {Z(x); x ∈ R} se numeste proces
slab stationar sau stationar de ordinul doi daca media procesului, varianta si covariantele nu
variaza cu locatia, iar covariantele depind doar de distanta dintre valori (lag) si nu de valorile in
sine. Valoarea lag este un vector care reprezinta distanta si directia dintre doua locatii. Matematic,
scriem astfel:
unde C (xi − x j ) este o functie ce depinde doar de xi − x j si pe care o vom preciza la momentul
potrivit. Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z.
8.1.1 Ergodicitate
Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am
observat dintr-o infinitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat
mai fidela despre functia aleatoare, ar fi necesar sa avem foarte multe astfel de realizari (variabile
regionalizate). In practica poate fi imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o
singura variabila regionalizata.
Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media,
varianta, momente) pot fi deduse dintr-o singura realizare (variabile regionalizate), de volum
suficient de mare. In Geostatistica, ergodicitatea este doar o presupunere si, in general, nu poate fi
testata.
locatii. Aceasta functie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia.
Unitatea de masura a functiei de covarianta este unitatea de masura pentru variabila Z. Pentru un
proces stationar, functia de covarianta define
C (h) = E[(µ + ε(x) − µ) · (µ + ε(x + h) − µ)] = E[ε(x) · ε(x + h))].
Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea
urmatoare:
C (h) C (h)
ρ(h) = = ,
C (0) σ2
unde prin C (0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie
de corelatie sau corelograma.
8.3 Variograma
O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea
(continuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le
numim Z1 si Z2 , sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 8.1
pentru aproximarile parametrilor respectivi si Figura 8.2 pentru o reprezentare cu histograme a
datelor observate), si totusi repartitiile lor sa arate complet diferit. Dupa cum se poate observa din
Figura 8.3, repartitiile celor doua variabile sunt complet diferite. Se poate observa ca reprezentarea
variabilei Z2 este mai "grosiera" decat cea reprezentata de variabila Z1 . Variabila Z1 se modifica
mai rapid in spatiu, pe cand, pentru a doua variabila, exista regiuni mai vaste in care valorile
variabilei par a fi neschimbate. Totodata, nu putem spune ca Z2 are o variatie mai mare decat Z1 ,
deoarece varianţele sunt egale. Mai mult, deoarece mediile sunt egale, atunci si coeficientii de
variatie sunt egali.
valori numerice variabila Z1 variabila Z2
media x 101 101
mediana Me 100.73 100.80
varianţa s2 400 400
prima cuartila q1 87.3 87.93
a treia cuartila q3 116.3 116.78
volumul n 15625 15625
In acest caz, valorile numerice asociate celor doua seturi de date nu pot identifica variabilitatea
celor doua caracteristici. Daca am fi luat o decizie doar bazandu-ne pe valorile din Tabelul 8.1,
am fi cochis ca Z1 si Z2 au aceeasi repartitie, concluzie care este evident falsa.
Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor
asociate celor doua variabile. In Figura 8.4, se observa ca variogramele asociate celor doua
variabile difera.
Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si
variograma empirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale
unei variabile spatiale. Cum o variabila spatiala are, in general, o infinitate de realizari, aceasta
variograma este imposibil de obtinut in practica. Variograma empirica este cea construita pe
baza masuratorilor observate. Este o estimare a variogramei teoretice. Plecand de la variograma
empirica, vom face inferente referitoare la variograma teoretica. Variograma regionala este
variograma formata cu o anumita realizare a procesului stochastic intr-o regiune finita, daca am
avea acces la toate informatiile legate de acea regiune. Variograma teoretica este o medie a tuturor
variabilelor regionale legate de procesul stochastic studiat.
Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si
Var(Z(x)) poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat
98 Chapter 8. Procese stochastice spaţiale
sa rezolve aceasta problema prin considerarea unor ipoteze simplificatoare. Cel putin pentru valori
mici ale valorii lag |h|, media variatiei procesului stochastic intre doua locatii x si x + h este 0,
iar dispersia acestei variatii este dependenta doar de h, independenta de locatie. Cu alte cuvinte,
procesul stochastic se comporta ca un proces stationar de ordinul al doilea. Matematic, vom scrie
astfel:
E[Z(x + h) − Z(x)] = 0; (8.3.2)
si
E[(Z(x + h) − Z(x))2 ] = 2γ(h), (8.3.3)
unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin
definitie, formula pentru variograma este:
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.4)
2
Deoarece E[Z(x + h) − Z(x)] = 0 si
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.6)
2
Daca variabila Z(x) este 2-dimensionala (x = (x1 , x2 ), h = (h1 , h2 )), atunci formula din definitie
se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 ) − Z(x1 , x2 )]. (8.3.7)
2
Daca variabila Z(x) este 3-dimensionala (x = (x1 , x2 , x3 ), h = (h1 , h2 , h3 )), atunci formula din
definitie se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 , x3 + h3 ) − Z(x1 , x2 , x3 )]. (8.3.8)
2
Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma.
Legatura sa cu functia de covarianta este urmatoarea:
1. sill, care este valoarea asimptotica a variogramei, adica valoarea dupa care nu mai exista
crestere. Este egala cu C(0). Matematic, scriem ca C(0) = lim γ(h). In cuvinte, pentru
h→∞
doua locatii foarte indepartate, covarianta este aproape 0.
2. range, sau prima valoare (daca exista!) pentru lag (h) pentru care variograma atinge valoarea
sill. Aceasta valoare reprezinta, de fapt, distanta dupa care valorile variabilei spatiale nu
mai sunt autocorelate. Asadar, valorile variabilei sunt autocorelate doar pentru un lag h
mai mic decat valoarea range. Zona ce contine locatia x si pentru care valorile lui Z sunt
corelate cu Z(x) se numeste zona de influenta a locatiei x.
3. nugget (sau efectul nugget), ce reprezintă valoarea variogramei pentru h foarte apropiat de
zero, dar nu 0. Aceasta valoare reprezinta eroarea de masurare a variatiei spatiale. Valoarea
nugget poate aparea atunci cand nu exista masuratori culese din locatii foarte apropiate,
care ar putea dovedi continuitatea in h = 0. In cazul in care lim γ(h) = 0, atunci variograma
h&0
va pleca din origine.
Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este impor-
tanta aproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru
variograma teoretica definita prin formula (8.3.4).
• C(h) = C(−h) si γ(h) = γ(−h) pentru orice lag h, adica functia de corelatie si variograma
sunt functii pare.
• Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0)C(0) = 1.
• Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine.
• Matricea de covarianta
C(x1 , x1 ) C(x1 , x2 ) · · · C(x1 , xn )
C(x2 , x1 ) C(x2 , x2 ) · · · C(x2 , xn )
.. ..
. . ... ···
C(xn , x1 ) C(xn , x2 ) · · · C(xn , xn )
este pozitiv definita, in sensul ca toti determinantii minorilor principali sunt nenegativi.
Astfel, variograma este negativ semidefinita.
• Este posibil ca variatia spatiala sa se modifice in functie de directia dintre locatiile x si
x + h, fenomen numit anizotropie. Un exemplu de anizotropie
q este mineralizarea. Daca
x = (x1 , x2 , x3 ) (regiune 3−dimensionala), atunci h = h21 + h22 + h23 si γ(h) va reprezenta
o familie de variograme γ(|h|, α), unde α este directia.
• Ca functie de variabila lag h, variograma creste mai incet decat creste h2 . Daca ar creste
mai rapid decat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator.
Figure 8.6: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b)
constanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) fluctuanta.
liniara cand h este suficient de mic, insa sa nu treaca prin 0. Este cazul figurii (b), in care se
observa efectul nugget. In cazul (c), variograma are o forma parabolica pentru h suficient de mic,
de forma γ(h) = a|h|2 . In figura (c), variograma trece prin 0, dar exista cazuri in care se poate
observa un efect nugget si pentru forma parabolica. O variograma cu un comportament parabolic
in jurul originii sugereaza existenta unui trend in variabila spatiala Z(x).
• modele compuse;
Acestea pot fi compuse din doua sau mai multe modele de mai sus. Sunt folosite mai ales cand
avem multe date si variogramele par a fi mai complexe. Sunt folosite in special atunci cand
variograma prezinta efect nugget. Exemple: modelul exponential cu nugget, modelul dublu sferic,
modelul dublu exponential etc.
Pentru modelul exponential cu nugget, variograma (cea desenata cu albastru in primul grafic
alaturat) este:
h
−
γ(h) = c0 + c 1 − e ar , daca h > 0.
Pentru modelul dublu sferic cu nugget (format din compunerea a doua modele sferice plus un
model nugget) desenat in al doilea grafic, variograma (cea desenata cu albastru) este:
" # " #
3h 1 h 3 3h 1 h 3
− − , 0 < h ≤ r1 ;
c0 + c1 + c2
2r1 2 r1 2r2 2 r2
" #
γ(h) = 3h 1 h 3
c0 + c1 − , r1 < h ≤ r2 ;
2r1 2 r1
c1 + c2 , h > r2 .
In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora
doreste sa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia
variabilei de interes. Determinarea variogramei este unul dintre lucrurile importante pe care
trebuie sa le intreprinda pentru a-si atinge scopul. Folosind aceste masuratori, el poate estima
variograma procedand astfel.
Presupunem ca valorile masurate (x1 , x2 , . . . xn ):
n(n−1)
orice pereche de locatii (xi , x j ) (exista 2 astfel de perechi), se calculeaza (semi)varianţele:
1
γ(xi , x j ) = [zi − z j ]2 .
2
Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construi
asa-numitele h−scattergrame. Acestea sunt reprezentari grafice ale valorilor z(x + h) versus z(x)
(vezi Figura 8.11).
8.4 Modelarea variogramei teoretice 105
unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag,
|xi − x j | = h si |N(h)| este numarul acestor perechi. In general, valoarea lui h este admisa cu o
anumita toleranta.
Pentru fiecare nivel de lag h, valorile γb(h) le scriem in ordine crescatoare, obtinand astfel vari-
ograma empirica (sau variograma experimentala). Formula (8.4.11) este cunoscuta sub numele
de estimator obtinut prin metoda momentelor si a fost introdus de (G. Matheron).
Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) este
ergodic, atunci γb(h) → γ(h) cand n → ∞. Un analist nu poate trage concluzii despre variabilitatea
spatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu
poate prezice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot fi prezise
doar dupa ce o variograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging
pentru predictie.
• Determinam pasul lag, h. Un pas h este practic daca pentru aceasta valoare avem cel putin
30 de perechi (xi , x j ) care sa se situeze la aceasta distanta. Este de dorit ca h sa fie mai mic
decat jumatate din range-ul datelor observate.
• Stabilirea unei tolerante pentru determinarea lui h. Aceasta valoare va preciza acuratetea cu
care o anumita distanta este aproximata cu h. Cu alte cuvinte, toleranta determina latimea
clasei h stabilite.
• Stabilirea numarului de pasi h pentru care vom calcula variograma experimentala;
• Stabilirea unui unghi si determinarea unei tolerante pentru unghi;
• Pentru un h fixat si pentru fiecare pereche de noduri (x, x + h) ale retelei de locatii, calculam
valoarea
1
γb(h) = ∑ [Z(x) − Z(x + h)]2 ,
2|N(h)| (x, x+h)
• Pentru toate valorile lui h, sa spunem ca acestea sunt h1 , h2 , . . . , hm , vom obtine valorile
corespunzatoare γb(h1 ), γb(h2 ), . . . , γb(hm ).
• Reprezentam valorile (hi , γb(hi )) intr-un grafic si obtinem astfel variograma experimentala
(empirica).
• Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se
astfel o noua variograma.
8.4 Modelarea variogramei teoretice 107
Figure 8.13: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie)
Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta.
Presupunem ca locatiile masuratorilor, x1 , x2 , . . . , xn , sunt cele din Figura 8.14 (a). Cerculetele
goale reprezinta lipsa de masuratori din respectivele locatii. Figurile 8.14 (b), (c) si (d) arata cum
se formeaza perechile pentru valorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula
8.4.11 devine:
n−h
1
γb(h) = ∑ [zi − zi+h]2.
2(n − h) i=1
(8.4.12)
Pentru h = 1, calculam valoarea γb(1) pentru toate perechile care se afla la o distanta de o lungime,
folosind formula 8.4.12. Similar, pentru h = 2, 3, . . . , n, calculam valoarile γb(2), γb(3), . . . , γb(n),
pentru toate perechile care se afla la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lungimi.
Reprezentam grafic valorile γb(1), γb(2), . . . , γb(n) intr-un grafic, obtinand astfel variograma experi-
mentala 1-dimesionala.
Figure 8.14: Variograma experimentala 1−dimensionala (cerculetele goale sunt locatii neselectate)
108 Chapter 8. Procese stochastice spaţiale
AIK = 2p − 2 ln L, (8.4.13)
unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru
un model statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii
modelului, care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati.
Un estimator pentru indicele teoretic AIK este urmatorul:
2π
AIK = 2p + 2 ln(MSE) + n ln +n+2 , (8.4.14)
n
unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproxi-
mare (mean squared error).
acestor parametri: metoda celor mai mici patrate si metoda cu ponderi a celor mai mici patrate.
In cazul metodei celor mai mici patrate, se cauta sa se minimizeze suma patratelor erorilor dintre
valorile estimate pentru variograma si cele masurate a priori. Matematic, problema se scrie astfel:
determinati acea valoare pentru vectorul de parametri, θb, care este solutia problemei de optim:
Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de
parametri, θb care este solutia problemei de optim:
unde
2
Var(γb(h)) ≈ (γ(h, θ ))2 .
|N(h)|
Astfel, ponderile sunt
1 |N(hi )|
wi = ≈ .
Var(γb(hi )) 2(γ(hi , θ ))2
8.4.9 Anizotropia
In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste
anizotropie (geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala
a observate. In caz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii
spatiale. In multe cazuri insa este posibil de a modela anizotropia printr-o transformare liniara de
coordonate carteziene.
9.1 Introducere
Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze pro-
prietatile unor anumite variabile are o infinitate de locatii. Masuratorile pe care acestea le poate
efectua sunt in numar finit. De fapt, din consideratii practice si economice, el va considera doar
cateva locatii unde va efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza
datelor deja culese. O metoda de baza in Geostatistica folosita in predictia valorilor in locatiile
neselectate pentru masurare se numeste kriging. Kriging este o forma (generalizata) de regresie
liniara prin care se determina un estimator (predictor) spatial. In contrast cu regresia liniara
multipla, metoda de kriging tine cont de volumul observatiilor si de corelatiile dintre aceste valori.
Metoda functioneaza cel mai bine intr-un domeniu convex (un domeniu in care, odata cu doua
puncte, va contine si segmentul ce le uneste). In mod uzual, rezultatele unei interpolari de tip
kriging sunt: valoarea asteptata (media de kriging) si dispersia (varianta de kriging), estimate in
punctul dorit din regiune. Numele de kriging deriva de la numele inginerului minier Danie Krige,
nume atribuit de G. Mangeron. Exista atat metode liniare, cat si neliniare de interpolare spatiala de
gen kriging. Fiecare dintre aceste metode face presupuneri diferite relativ la fluctuatiile variabilei.
Dintre aceste metode, amintim urmatoarele: kriging ordinar, kriging simplu, kriging lognormal,
kriging cu drift, kriging factorial, cokriging, kriging indicator, kriging disjunctiv, kriging bayesian
etc. Metoda generala de kriging este urmatoarea.
Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune
poate fi 1−, 2− sau 3− dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile
x1 , x2 , . . . , xn ale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in
celelalte locatii din regiune. O formula generala a unui estimator pentru valoarea variabilei Z
intr-o locatie generica din R, sa zicem x0 , este:
n
b 0 ) = ∑ λi Z(xi ),
Z(x (9.1.1)
i=1
Vom determina ponderile λi astfel incat sa minimizeze varianta estimatorului ZbSK . Aceasta este:
" #
n
Var[ZbSK (x0 )] = Var Z(x0 ) − ∑ λi Z(xi )
i=1
n n n
= Var[Z(x0 )] − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
n n n
= C (0) − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
9.2 Kriging simplu 113
Pentru a determina ponderile λi ce realizeaza minimumul lui Var[ZbSK (x0 )], se cauta punctele
critice in raport cu λi , adica rezolvam sistemul de ecuatii:
∂
Var[ZbSK (x0 )] = 0, pentru orice j = 1, 2, . . . , n.
∂λj
n
cov(Z(x0 ), Z(x j )) = ∑ λi cov(Z(xi ), Z(x j )), pentru orice j = 1, 2, . . . , n. (9.2.5)
i=1
Cu solutiile λiSK astfel obtinute, se estimeaza valoarea Z0 folosind formula (9.2.4). Dispersia de
kriging va fi data de:
n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi )).
i=1
Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λi
depind doar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging
simplu, suma acestor ponderi nu este neaparat egala cu 1.
Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se
pune problema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja
masuratori?
h→0
C (h) = cov(Z(x0 ), Z(x0 + h)) −→ cov(Z(x0 ), Z(x0 )) = C (0) = 0.
Astfel daca punctul x0 este foarte apropiat de punctul xi (din selectie), putem aproxima cov(Z0 , Zi )
prin cov(Z0 , Z0 ) = C (0). In acest caz, dispersia pentru kriging simplu devine
!
n n
2
σSK (x0 ) = C (0) − ∑ λiSK C (0) = 1 − ∑ λiSK C (0) = 0. (9.2.6)
i=1 i=1
Mai mult,
lim ZbSK (x0 ) = Z(xi ).
x0 →xi
In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate
b i ) = Z(xi ): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar
(i.e., Z(x
cele masurate). Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale
variabilei Z.
114 Chapter 9. Kriging
Figure 9.2: 5 simulari ale variabilei Z(x) ce pastreaza cinci valori masurate initial
Exerciţiu 9.1 (preluat din [olea]) Pentru o variabila Z s-au observat valorile sale in locatiile
precizate cu buline rosii in Figura 9.3 de mai jos. Pe baza acestor valori, se cere sa se prezica
valoarea variabilei Z in locatia x0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si
γ(h) = 2000 (1 − e−h/250 ) pentru h > 0. (model exponential de variograma).
sunt
d11 d12 d13 d14 0 260.8 264 364
= 260.8 0 266.3 366.7
d21 d22 d23 d24
d31 d32 d33 d34 264 266.3 0 110.4
d41 d42 d43 d44 364 366.7 110.4 0
Distantele d0i de la x0 la xi sunt:
Din formula γ(h) = C (0) − C (h), gasim covariantele. Aici, C (0) = 2000 si
zSK (x0 ) = µ + λ1SK (z(x1 ) − µ) + λ2SK (z(x2 ) − µ) + λ3SK (z(x3 ) − µ) + λ4SK (z(x4 ) − µ)
b
= 110 + 0.1847 · (40 − 110) + 0.1285 · (130 − 110) + 0.6460 · (90 − 110) −
−0.0013 · (160 − 110)
= 86.6560.
In cazul in care valoarea µ din formula (9.2.2) nu este cunoscuta, avem doua posibilitati de a
prezice valorile variabilei Z in celelalte valori decat cele masurate:
n
• Estimam valoarea µ pe baza observatiilor prin µ = ∑ zi, apoi folosim metoda kriging
i=1
simplu. Insa, aceasta metoda nu tine cont de variabilitatea valorilor zi in prezicerea lui µ.
• Folosim o alta metoda de kriging, numita kriging ordinar.
116 Chapter 9. Kriging
n
unde ponderile λi satisfac constrangerea ∑ λi = 1. Aceasta constrangere asigura nedeplasarea es-
i=1
b 0 ) − Z(x0 )] = 0. Dispersia estimatorului
timatorului ZbOK , in sensul ca valoarea asteptata este E[Z(x
este:
2 h i
Var[ZOK (x0 )] = E ZOK (x0 ) − Z(x0 )
b b = Var ZbOK (x0 ) − Z(x0 )
" #
n
= Var ∑ λiZ(xi) − Z(x0)
i=1
n n n
= Var[Z(x0 )] −2 ∑ λi cov(Z(x0 ), Z(xi )) + ∑ ∑ λi λ j cov(Z(xi ), Z(x j ))
| {z } i=1 i=1 j=1
= C (0)
n n n
= 2 ∑ λi γ(x0 , xi ) − ∑ ∑ λiλ j γ(xi, x j ),
i=1 i=1 j=1
unde γ(xi , x j ) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile xi si
x j si γ(xi , x j ) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia xi si
valoarea lui Z in locatia de estimat x0 .
Scopul este de a determina ponderile λi ce realizeaza minimul lui Var[ZbOK (x0 )] cu constrangerea
n
∑ λi = 1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia
i=1
!
n
F(α, λi ) = Var[ZbOK (x0 )] + α ∑ λi − 1 ,
i=1
n
cov(Z(x0 ), Z(x j )) = ∑ λicov(Z(xi), Z(x j )) + α, pentru orice j = 1, 2, . . . , n.(9.3.8)
i=1
n
∑ λi = 1. (9.3.9)
i=1
Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are
formula:
n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0), Z(xi)) − α. (9.3.10)
i=1
Observatii:
• Ponderile λiOK vor avea valori mai mari pentru punctele apropiate lui x0 . In general, cele
mai apropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii
lui Z in x0 , iar urmatoarele 10 puncte invecinate cu cca 20%.
• In general, σOK 2 (x ) este un pic mai mare decat σ 2 (x ) din cauza incertitudinii legate de
0 SK 0
valoarea reala a lui µ.
• Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce
la o crestere a dispersiei pentru valorile prezise prin kriging.
• Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general
ponderi mai mari decat cele adunate in palcuri (clustere).
• Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative.
• Am vazut ca, pentru un punct x0 , doar o multime mica de puncte vecine vor avea ponderi
nenule semnificative, restul ponderilor fiind aproape egale cu 0. Din acest motiv, am putea
reduce sistemul de kriging (implicit formula (9.3.7) doar la punctele vecine. Daca numarul
acestor puncte vecine este semnificativ mai mic decat n, atunci procedeul numeric de calcul
al ponderilor se va desfasura intr-un timp mult mai mic. Este posibil ca, pentru un n mare,
ponderile calculate sa prezinte erori mari, din cauza complexitatii sistemului de ecuatii care
au ca solutii aceste ponderi. De aceea, se recomanda calcularea ponderilor doar pentru o
multime mica de vecini ai lui x0 .
• Pentru a determina vecinatatea lui x0 pentru care este practic sa calculam ponderile, se poate
proceda astfel:
– Pentru o variograma marginita si date dense in jurul lui x0 , aceasta vecinatate poate
avea dimensiunea range-ului de la variograma. Oricum, punctele care ies din acest
range aproape ca nu sunt corelate cu x0 .
– Daca datele sunt rarefiate, atunci punctele indepartate pot avea ponderi importante,
asa ca ar fi necesara o vecinatate care sa le includa.
118 Chapter 9. Kriging
Rezolvare: Valorile pentru distante sunt aceleasi ca in Exercitiul 9.1. Sistemul de ecuatii
(9.3.8)&(9.3.9) care determina ponderile λi si multiplicatorul Lagrange α este:
zOK (x0 ) = λ1OK z(x1 ) + λ2OK z(x2 ) + λ3OK z(x3 ) + λ4OK z(x4 )
b
= 0.1971 · 40 + 0.1410 · 130 + 0.6506 · 90 + 0.0113 · 160
= 86.576.
9.4 Kriging lognormal 119
si
1 c2
ZbOK (x0 ) = eYOK (x0 )+ 2 σ OK (x0 )−α(x0 ) pentru kriging ordinar,
b
unde α(x0 ) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate fi estimata
doar pentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este:
c SK (x0 ) = µ 2 eσc2 SK (x0 ) [eσc2 SK (x0 ) − 1].
Var
Aceasta eroare este presupusa a fi normala, de medie 0 si variograma γ(h). Cantitatea ε(x) =
Z(x) − u(x) se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de
coordonatele geografice, de forma:
m
u(x) = ∑ β j f j (x),
j=0
unde β j sunt niste numere reale necunoscute si f j (x) niste functii necunoscute. Acest trend poate fi
estimat pe baza observatiilor z(x1 ), z(x2 ), . . . , z(xn ). Spre exemplu, un trend liniar 2−dimensional
arata de forma
u(x) = β0 + β1 x1 + β2 x2 .
Un trend neliniar parabolic 1−dimensional care ar putea fi un model pentru cel din Figura 9.6
este de forma
u(x) = β0 + β1 x + β2 x2 .
Coeficientii β0 , β1 , β2 pot fi obtinuti prin metoda celor mai mici patrate (regresie liniara multiple).
In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x0 prin
n
ZbUK (x0 ) = ∑ λi Z(xi ),
i=1
n
cu λi verificand constrangerea ∑ λi = 1. Valoarea medie a acestui estimator este
i=1
n m
E[ZbUK (x0 ]) = ∑ ∑ λiβ j f j (xi)
i=1 j=0
Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λiUK si parametrii
necunoscuti β j . Astfel, un estimator pentru valoarea lui Z in x0 va fi
n
ZbUK (x0 ) = ∑ λiUK Z(xi ),
i=1
depaseeasca o anumita valoare prag, notata aici prin zc . Spre exemplu, am dori sa determinam
probabilitatea ca, intr-o anumita regiune, apa de baut sa aiba o concentratie de nitrati sub pragul
critic zc = 50mg/l. Un alt exemplu este determinarea probabilitatii ca intr-o regiune solul sa aiba
o valoare pH sub o valoare critica.
Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare
(
1 daca Z(x) ≤ zc ;
χzc (x) =
0 daca Z(x) > zc .
Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar
probabilitatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic zc , care este totuna cu
functia de repartitie a acestei variabile in valoarea zc . Matematic, scriem astfel:
1 h i
γzc (h) = E (χzc (x) − χzc (x + h))2
2
pe baza unei variograme experimentale:
1 N(h) h 2
i
γbzc (h) = (χ (x )
∑ zc i zc i − χ (x + h)) .
2|N(h)| i=1
Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O
metoda de kriging indicator bazata pe n observatii {χzc (xi )}i=1, n are la baza formula de estimare:
n
χbzc (x0 ) = ∑ λi χzc (xi ). (9.6.12)
i=1
Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot fi obtinute ca solutii
ale sistemului de n ecuatii si n necunoscute:
n
∑ λiγzc (xi, x j ) = γzc (x0, x j ) pentro orice j = 1, 2, . . . , n,
i=1
unde γzc (xi , x j ) sunt semivariantele calculate in punctele xi si x j . Dupa ce se determina ponderile
λiIK , se estimeaza valoarea
n
χbzc (x0 ) = ∑ λiIK χzc (xi ).
i=1
Valoarea prezisa χbzc (x0 ) va fi o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele
observate, variabila Z(x) ia valori sub pragul critic zc . Matematic, scriem ca
χbzc (x0 ) = P( Z(x) ≤ zc | zi , i = 1, n ).
122 Chapter 9. Kriging
9.7 Cokriging
Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile
pentru un acelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele
sa fie masurate in aceleasi locatii, insa ar fi indicat sa fie un minim de valori observate perechi
in aceleasi locatii din regiune de interes. Aceasta metoda poate fi utila atunci cand una dintre
variabile, variabila primara, a fost observata in putine locatii, insa corelatia sa cu alte variabile
(secundare) de interes in regiune poate duce la o precizie mai mare a estimarilor celei dintai
variabile.
Presupunem ca Z1 (x), Z2 (x), . . . , Z p (x) sunt p variabile ce se doresc a fi masurate pentru un
acelasi domeniu. Putem crea matricea aleatoare:
Vom nota prin Λi matricea ponderilor corespunzatoare fiecarei valori a fiecarei variabile. O vom
scrie sub forma:
i i i
λ11 λ12 . . . λ1p
λ i λ i . . . λ i
Λi = 21 22 2p
... ... ... ...
i
λ41 i
λ42 i
. . . λ pp
Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate)
ponderile Λi pentru estimatorul:
n
ZbCK (x0 ) = ∑ Λi Z(xi ),
i=1
cu constrangerea
n
∑ Λi = In matricea identitate de ordin n.
i=1
Modelul cokriging va furniza un numar de p estimatori liniari in x0 , cate unul pentru fiecare
variabila in parte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu
metoda kriging ordinara, insa executata pentru p variabile simultan.
1 n
ME = ∑ [z(xi ) − b
z(xi )].
n i=1
1 n [z(xi ) − b
z(xi )]
SME = ∑ .
n i=1 σb (xi )
1 n
MSE = ∑ [z(xi) − bz(xi)]2.
n i=1
s
1 n
RMSE = ∑ [z(xi) − bz(xi)]2.
n i=1
v
u n
b (xi )
u
u∑σ
t i=1
ASE = .
n
Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa fie cat mai apropiate
de valoarea 0, eroarea RMSSE va trebui sa fie apropiate de valoarea 1, iar erorile RMSE si ASE sa
fie similare. Figura 9.7 contine doua grafice pentru doua metode de interpolare kriging ordinar;
prima metoda este fara trend iar a doua cu trend. Fiecare figura reprezinta valorile prezise vs.
valorile masurate. Pentru o apropiere cat mai buna, punctele rosii ar trebui sa fie cat mai apropiate
de dreapta 1:1 (prima bisectoare). Pentru a determina care dintre cele doua metode este mai buna,
ne uitam la erorile afisate si cautam metoda ce da erorile cele mai mici.
covarianta stabilite. Se pot astfel crea oricate (o infinitate) simulari se doreste, toate realizarile
avand aceeasi probabilitate de aparitie, aceeasi medie si aceeasi functie caracteristica. Din punct
de vedere teoretic, valoarea medie a unui numar mare de simulari va arata similar cu harta obtinuta
prin metoda kriging. Simularile stochastice ofera posibilitatea de a obtine predictii realiste ale
valorile unei variabile, pe cand estimarile obtinute prin metoda kriging se preocupa mai mult de
acuratetea statistica a predictiilor.
In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de
distributia in ansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop
reproducerea distributiei datelor observate, fara a se preocupa de acuratetea locala a valorilor
prezise.
Simularile stochastice pot fi facute in doua moduri: neconditionate si conditionate.
O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat
faptul ca media si o functia de covarianta a acestor valori sa fie cea specificată a priori. O simulare
stochastica conditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca
valorile observate pentru variabila aleatoare sa fie pastrate in urma simularii. Cu alte cuvinte, o
simulare conditionata este o procedure ce reproduce valorile si locatiile tuturor datelor observate,
pe cand una neconditionata nu are aceasta cerinta.
In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo.
Exista diverse software care pot simula valori aleatoare ce au media si functia de covarianta
specificate.
In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor
estimate prin metoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate,
metoda kriging este mai buna. Daca scopul este realizarea unei harti pentru care caracteristicile
observatiilor sa fie pastrate, atunci metoda de simulare este cea potrivita.
Exista mai multe tipuri de simulari stochastice, si anume:
• simulare gaussiană secvenţială (fiecare valoare este simulata secvential in concordanta cu
functia sa de repartitie conditionata normala, care se determina in fiecare locatie simulata);
• metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv
definite C in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU.);
• simulare annealing (bazata pe algoritmi de optimizare);
• metode orientate pe obiect;
Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei
sunt:
• Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea fi transformate
in date normale standard;
• Se determina un model de variograma;
• Se formeaza un grid cu punctele in care urmeaza sa determinam simulari;
• Se determina ordinea (o secventa) locatiilor {xi } in care vom obtine simulari.
b i ) si σ 2 (xi ) prin metoda kriging simpla. Apoi, se
• Pentru fiecare locatie xi se determina Z(x K
va genera aleator o valoare normala ce are media Z(x b i ) si varianta σ 2 (xi ). Aceasta valoare
K
simulata se va adauga la setul de date observate, apoi se trece la simularea urmatoarei valori.
Se repeta procedeul de kriging (incluzand in setul de date toate valorile simulate anterior)
pana ce toate valorile pentru punctele din grid au fost simulate.
• Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a
determina simularile valorilor variabilei de interes.
Chapter 9. Kriging
Figure 9.8: Etape pentru interpolarea prin kriging
126
10. Anexe
Table 10.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(Z ≤ zα ) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
Chapter 10. Anexe
n\α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.527
2 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.505
3 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.485
4 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.467
5 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.450
6 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.435
7 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.421
8 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.408
9 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.396
10 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.385
11 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.365
12 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.348
13 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.333
14 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.319
15 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.307
16 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.261
17 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.232
18 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.195
19 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.174
20 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090
Table 10.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul afiseaza cuantila tα, n pentru care P(Z ≤ tα, n ) = α, unde Z ∼ t(n). Daca n
este mai mare de 100, se poate utiliza tabelul de la repartitia normala.
128
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
10.2 Exemplu de date statistice spatiale 129
n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2
Table 10.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afiseaza cuantila χα,
2
n
2 ) = α, unde Z ∼ χ 2 (n).
pentru care P(Z ≤ χα, n
σ2
µ X − z1−α √σn , +∞
cunoscut
−∞, X + z1−α √σn
X − t1− α ; n−1 √sn , X + t1− α ; n−1 √sn
2 2
σ2
µ X − t1−α; n−1 √σn , ∞ ;
necunoscut
−∞, X − tα; n−1 √sn
!
n n
χ2 α
s2 , χ 2α
s2
1− 2 ; n 2 ;n
µ n
s2 , +∞
σ2 cunoscut
2
χα; n
n 2
−∞, χ2
s
1−α; n
!
(n−1) (n−1)
χ2 α
s2 , χ 2α
s2
1− 2 ; n−1 2 ; n−1
µ n−1
s2 , +∞
σ2 necunoscut χ2
α; n−1
n−1
−∞, 2
χ1−α;
s2
n−1
q q
pb(1− pb) pb(1− pb)
p n pb − z1− α n , pb + z1− α n
mare 2 2
µ1 , µ2
σ12 / s21 s21
σ22 f α
1 −1, n2 −1; 2
, f α
necunoscuţi s22 ns s22 n1 −1, n2 −1; 1− 2s
2 2 2 2
µ1 − µ2 σ12 , σ22 σ 1 σ σ σ
X1 − X2 − z1− α + 2 , X1 − X2 + z1− α 1
+ 2
2 n1 n2 2 n1 n2
cunoscuţi
s s
2 2 2 2
µ1 − µ2 σ12 6= σ22 s 1 s s s
X1 − X2 − t1− α ; N + 2 , X1 − X2 + t1− α ; N 1
+ 2
2 n1 n2 2 n1 n2
necunoscuţi
σ12 = σ22
µ1 − µ2 X1 − X2 − t1− α ; n1 +n2 −2 d(X1 , X2 ), X1 − X2 + t1− α ; n1 +n2 −2 d(X1 , X2 )
necunoscuţi
2 2
q q
p1 (1−cp1 ) p2 (1−cp2 ) p1 (1−cp1 ) p2 (1−cp2 )
p1 − p2 n1 , n2 pb1 − pb2 − z1− α c n1 + c
n2 , p
b1 − p
b2 + z1− α
c
n1 + c
n2
2 2
mari
[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[2] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with
CD-ROM), Duxbury Press, 2006.
[3] Clayton V. Deutsch, Geostatistical reservoir modeling, Oxford University Press, 2002.
[4] ESRI, Introduction to the ArcGIS Geostatistical Analyst Tutorial (online tutorial notes)
[5] Pierre Goovaerts, Geostatistics for natural resources evaluation, Oxford University Press,
1997.
[6] T Hengl, A Practical Guide to Geostatistical Mapping of Environmental Variables, JRC
Scientific and Technical Research series, Office for Official Publications of the European
Comunities, Luxembourg, EUR 22904 EN, 143 pp, 2009
[7] Peter K. Kitanidis, Introduction to Geostatistics, Applications in Hydrogeology, Cambridge
University Press, 1997.
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclope-
die de statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.
[9] K. Johnston, JM Ver Hoef, K. Krivoruchko, N. Lucas, Using ArcGIS Geostatistical Analyst,
2001
[10] S. McKillup, M Darby Dyar, Geostatistics Explained. An Introductory Guide for Earth
Scientists, Cambridge University Press, 396 pp, 2010
[11] Georges Matheron, Principles of Geostatistics, Economic Geology 58, 1963, pp. 1246-1266.
[12] Georges Matheron, Les variables régionalisées et leur estimation, Masson, Paris, 1965.
134 BIBLIOGRAPHY
[13] Gheorghe Mihoc, N. Micu, Teoria probabilităţilor şi statistica matematică, Bucuresti, 1980.
[14] Ricardo A. Olea, Geostatistics for Engineers and Earth Scientists, Kluwer Academic Pub-
lishers, Boston, 1999
[17] Richard Webster, Margaret Oliver, Geostatistics for environmental scientists, John Wiley
and Sons, Ltd., 2007.
[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge
University Press, 2001.
Index
ogivă, 31
P-valoare, 74
populaţie statistică, 13
probabilitate, 50
probabilitate de risc, 69
recensământ, 16
regula celor 3σ , 55
repartiţia χ 2 , 62
repartiţia normală standard, 61
riscul beneficiarului, 74
riscul furnizorului, 74
scatter plot, 83
selecţie, 16
serie de timpi, 24
simulare stochastica, 124
simulare stochastica conditionata, 125
simulare stochastica neconditionata, 125
skewness, 16, 35, 56
Statistică, 12
statistică, 19
stem-and-leaf, 26
tabel de frecvenţe, 23
test bilateral, 75
test de concordanţă, 78
test statistic, 75
test unilateral dreapta, 75
test unilateral stânga, 75