Nothing Special   »   [go: up one dir, main page]

Curs SPSS

Descărcați ca docx, pdf sau txt
Descărcați ca docx, pdf sau txt
Sunteți pe pagina 1din 11

Statistica An 1 , Fpse

Filed under: School Leave a comment


November 3, 2009
Curs 1 Statistica
Statistica stiinta (domeniu cu ramura aplicativa a matematici),care recolteaza,descrie si
analizeaza datele(obiective ,de nautra empiric-inductiva) in vedere extragerii unor concluzii de
tip probabilistic (inferente =este acea component a unui proces logic care deriv o concluzie
dintr-o premiz, adic extrage o consecin necesar, o informaie specific, dintr-o descriere de
stare dat),operand cu numere care descriu realitatea din jurul nostru,avand ca model de
cunoastere =modelul stiintific ,bazat pe scepticism,cu un anumit nivel de generalitate prin
intrepretarea datelor particulare supuse observatiei directe.
Statisticadescriptiva-descrie date asa cum sunt (nr,grafic)
inferentiala-sustine concluzii (inferente cu privire la populatie,pe baza datelor unui esantion din
acea populatie)parametrica/neparametrica
Datele informatii obtinute prin categorializare,numarare sau masurare <-metode adecvate.
Statistica instrument al metodei stiintifice
Observatiadefinirea problemeiipoteza(statistica)date(masurare,descriere)Testarea ipoteziei
respingere /acceptare(decizia statistica )publicare(prezentarea rezultatelor)teoria

Notiunea de variabila statistica
Definitie variabila-caracteristica a realitatii care poate lua valori diferite (varsta ,gen ,inteligenta)
-valori-fem
-distributia variabilei-valorile si frecventa de aparitie a fiecarei valori(2,11,4,5)
-variabilitatea-masura in care o distributie este compusa din valori mai asemanatoare sau mai
diferite una de alta (caracteristica cea mai importanta a variabilei)
Variabila dependenta-suporta un efect ,variaza in functie de ceva-face obiectul central
cercetarii,variabila effect
Variabila independenta-determina un effect ,induce variatia variabilei dependente-reprezinta
contextual incare se manifesta variabila dependenta,variabila cauza
Le plansam intr-un rationament de tip cauzal
Variabila continua-poate lua un numar teoretic infinit de niveluri ale valorilor(zecimale)-
greutatea :50,7758585 kg
Variabila discreta-poate lua un nr finit de valori (fara zecimale )nr pers intr-o familie :3

Populatia cercetarii-totalitatea unitatilor de informatiecare constituie obiectul de interes al unei
investigatii (de regula,persoane)
finita pop fumatorilor,femeilor / finita pop studentilor FPSE
Populatia statistica valorile care descriu populatia cercetarii (elevii de liceu)

Esantionul- caracter relative,diferenta dintre esantion si pop =eroare de esantionare (mai mica-
mai sigur)
-cercetarii-toate persoanele care fac obiectul studiului
-statistic-toate valorile unei variabile ,masurate pe esantionul cercetarii (elevii selectionati)
Bias-factor sistematic de eroare in constituirea esantionului(ora ,un singur mediu social)
Tehnici de esantionare-aleatoare-stratificat multistadiala
-prin clasificare unistadiala
-aleatoare globala
-pseudo-aleatoare sau de convenienta
Studii corelaionale (observaionale) -cercettorul msoar variabile (dou sau mai multe)sunt
valorile unei variabile n legtur cu valorile alteia, sau altora?
-nu permit concluzii de tip cauzalv. indep. este n relaie cu v. dependent
Exemplu:Un cercettor adun date cu privire la consumul unui medicament i starea de sntate,
ncercnd s vad dac este o legtur ntre ele
Studii experimentale-cercettorul manipuleaz una sau mai multe variabile(independente)
pentru a vedea efectul asupra alteia (dependent)
-permit concluzii de tip cauzalv. indep. este cauzav. dependente
Exemplu:Cercettorul constituie dou grupuri, administreaz medicamentul unui grup
(experimental) i placebo, altui grup (de control) dup care compar efectele
-alegerea procedurilor infereniale se bazeaz pe:
-identificarea naturii variabilei (indep./dep.)
-identificarea tipului scalei de msurare, pentru fiecare variabil
Curs 2 Statistica
S.S. Stevens (1946) On thetheoryof scale of measurementa msura nseamn a atribui valori
numerice obiectelor i fenomenelor, n conformitate cu anumite reguli
Masurarea-domeniu de ordin cantitativ,ce prespune identificare unei caracteristici atribuindu-i o
valoare ;Judd i McClelland(1998)(nu toate au caracter numeric) conform unei reglui caruia ii s-a
atribuit o semnificatie
Entiti msurabile
-de natura fizica(indicatori fiziologici)
- constructe psihice (teoretice) ce trebuie sa fie probate,nu pot fi masurate direct, ci numai prin
manifestrile lor particulare
Constructul=variabil latent-stiu ca exista
Indicatorii=variabile observate
Niveluri (scale) de msurare
Numerele difer ntre ele prin semnificaia i proprietile lor
Stevens :
Nivelul nominal (cele mai putine info)categoria din care face parte
Nivelul ordinal val nu si cantitatea
Nivelul de interval
Nivelul de raport (cele mai multe info)
Scala nominal:redus nivel de msurare,codurile valorilor sunt arbitrare,valorile au doar o
semnificaie calitativ,nu suport operaii aritmetice, n afar de nsumare,pot fi grupate(mai
multe diviziuni) sau rafinate(mai putine diviziuni):Extravert(coleric, sanguinic);
introvert(flegmatic, melancolic) .Invers nu. :- De identificare (CNP, alte coduri arbitrare)
-Categoriale (m/f )
Scala ordinal: Valorile au o semnificaie cantitativ limitat la raportul de mrime, (mai
mare/mai mic; mai mult/mai puin), darprecizeaz doar raportul de mrime dintre valori(
intervalele dintre ne fiind precizate) codurile valorilor pot fi acordate si
arbitrar+regula+semnificatie
Scale ordinale categoriale: anul de studiu (1, 2, 3)-grupa dar si gradu de cunostinte.

Scala de interval: Valorile au un caracter cantitativ, exprimat numeric,Intervalele dintre valori sunt
egale,dar lipsete zero absolut, suport toate transformrile matematice posibile,greu de
demonstrat
Scala de raport: valori cantitative, exprimate numeric,intervale egale + zero absolut gradele
Kelvin cel mai nalt nivel de msurare (valorile au mai mult informaie),suport toate
transformrile matematice posibile,n practic, distincia dintre variabilele de interval (I) i de
raport (R) nu este relevant, ambele suportnd aceleai proceduri statistice (I/R)

Variabile categoriale
O variabil se numete categorial atunci cnd valorile acesteia descriu categorii.n mod obinuit,
variabilele msurate pe scal nominal sunt categoriale.
Variabilele ordinale pot fi i ele categoriale
Categoriile de vrst: 1 (21-0 ani), 2 (31-40 ani) i 3 (41-0 ani) Variabilele cantitative (I/R) pot fi
i ele categoriale:Categoriile de motoare: 1100 cmc; 1400cmc; 1600 cmc
Statistica parametric/statistica neparametric
s. parametric:proceduri infereniale pe v. msurate pe scale cantitative (Interval sau Raport),se
bazeaz pe estimarea prin eantionare a parametrilor populaiei (medie, ab. std.)
s. neparametric:proceduri infereniale pe v. msurate pe scal calitative (nominale i
ordinale),nu se bazeaz pe estimarea parametrilor populaiei
Scale de msurare i variabile
variabila=caracteristica supus msurrii
scala de msurare=tipul de valori pe care le ia variabila
Expresia variabil nominal se va nelege ca variabil msurat pe scal nominal
Teoria msurrii
Modelul scorului adevrat este un construct teoretic.Nu exist posibilitatea cuantificrii erorilor
X=T+E / X=T+(eA+ eS)/ var(X)=var(T)+var(E)
(X=valoarea msurat,T=scorul adevrat (exprim caracteristic supus msurrii,E=eroarea de
msurare /exprim altceva dect caracteristica supus msurrii)
Tipuri de erori:
-erori aleatoarezgomot de msurare (eA) produse de surse care ar putea afecta oricare dintre
valorile rezultate din msurare, fr s tim dac i n ce msur acest lucru se ntmpl
,pot fi n orice sens (mai mari sau mai mici dect scorul adevrat),caracterul aleatoriu face ca
abaterile n plus i cele n minus fa de scorul adevrat s se anihileze,erorile aleatoare
afecteaz valorile individuale, dar nu i media eantionului (motivatia)
-erori sistematice (eS) :Se manifest ntr-un anume sens fa de valoarea adevrat (oboseala)
Expresia X=T+E se are n vedere o anumit valoare msurat (oricare dintre acestea)
Putem privi lucrurile i din perspectiva tuturor valorilor msuratefiecare component a expresiei
poate fi descris prin variabilitatea ei (diferenele ntre valorile respective existente la fiecare caz
n parte)
var(X)=var(T)+var(E)
Expresia descrie sursa variaiei fiecrei componente a scorului adevrat ,fundamenteaz teoria
fiabilitii datelor de msurare gradul n care msurri repetate ale aceleiai realiti produc
aceleai valori


Proceduri de organizare, sintetizare i descrierea datelor:
A.Tehnici de organizare i prezentare a datelor numerice (analiza de frecvene -simpl/grupat)
grafice

B.Indicatori numerici sumativiindicatori ai tendinei centrale
indicatori ai mprtierii
indicatori ai formei distribuiei

Frecvena absolut (Fa)-nr aparitiei fiecarei valori
Frecvena cumulat(Fc)-nr aparitilor adunate de jos in sus
Frecvena relativ raportat la unitate(Fr)-fr(1)=fa/fa
Frecvena relativ cumulat, raportat la unitate(Frc)-fr adunate de jos in sus
Frecvena relativ procentual(Fr(%))-fr(1)x100
Frecvena relativ cumulat procentual(Frc(%)-Fr(%)adunate de jos in sus
Entile speciale
Decilele mpart distribuia n 10 pri egale
decila 1 2 3 4 5 9 10
percentila 10 20 30 40 50 90 100
Quartilele mpart distribuia n patru pri egale ca numr de valori)
quartila 1 (percentila 25)
quartila 2 (percentila 50)
quartila 3 (percentila 75)

Alegem numrul de clase, categorii:recomandabil, ntre 5 i 15 (convenional)
Alegem mrimea intervalului de clas:toate intervalele trebuie s fie egale ,limitele intervalelor
trebuie s cuprind toate valorile (ntre limitele intervalelor alturate s nu existe goluri sau
suprapuneri)
Realizarea claselor: Se face diferena dintre valoarea cea mai mare i valoarea cea mai micSe
mparte valoarea obinut la mrimea posibil a intervalului de clas (2, 3, 5 sau 10) pentru a
realiza numrul de clase al noii distribuiiSe selecteaz mrimea intervalului care conduce la un
numr de clase cuprins ntre 5 i 15 Se determin limita inferioar a primului interval (trebuie s
fie un multiplu al mrimii intervalului-Alegem valoarea 85 ca limit inferioar(chiar dac 86 este
valoarea minim) Se determin limita superioar a primului interval(Dac mrimea intervalului
este 5, limita superioar va fi 89 (85,86,87,88,89))

limite aparente valori care sunt scoruri posibile ale variabilei (125, 129, etc.),mijlocul
intervalului=(125+129)/2)=127
limite reale-extind mrimea intervalului pentru a lua n considerare natura continu a scalei de
msurare
media a dou mijloace de interval:(127+122)/2=124.5
-distana dintre limitele reale este egal cu distana dintre limitele aparente
Grafice
-Graficul de tip bar
Axa orizontal (Ox)
valorile distribuiei
Axa vertical (Oy)
frecvenele fiecrei valori,
ExigeneBarele trebuie sa aib aceeai lime
ntre bare se las un spaiu
Barele pot fi puse n orice ordineOrdonarea barelor, descresctor sau cresctor (grafic Pareto)
-histograma
-poligonul de frecvene
-graficul frecvenei cumulate
-graficul circular


-graficul de tip stem and leaf (tulpin i frunze) -Valorile stem pot fi atribuite, opional,pentru
grupe de valori leaf, In cazul distribuiilor mari,valorile leaf se pot referila mai multe valori

Stem-plot este potrivit pentru a vizualiza distribuii de dimensiuni relativ mici.Scoate n eviden
gradul de simetrie al distribuieiScoate n eviden valorile excesiveImportant nu este forma
graficului ci nelegerea datelor



Valoare fa fc
fr
(1)
frc (1) fr (%) frc(%)
10 2 25 0,08 1,00 8% 100%
9 2 23 0,08 0,92 8% 92%
8 5 21 0,20 0,84 20% 84%
7 3 16 0,12 0,64 12% 64%
6 7 13 0,28 0,52 28% 52%
5 1 6 0,04 0,24 4% 24%
4 4 5 0,16 0,20 16% 20%
3 0 1 0 0,04 0% 4%
2 1 1 0,04 0,04 4% 4%

Rang percentil (Percentile Rank)
Rangul percentil al unui element dintr-o repartiie de valori numerice este definit ca proporia
numerelor care sunt mai mici sau egale cu numrul considerat. Este utilizat pentru fixarea locului
ierarhic ocupat de un element: dac un elev are nota 9,25 la matematic i 94% dintre elevi au
note mai mici sau egale cu 9,25, atunci rangul percentil al elevului este 94.
Percentil (Percentile)
Percentila de ordin p a unei serii numerice (observate) este cel mai mic numr astfel nct cel
puin p% dintre numere nu sunt mai mari dect el. Percentila de ordin p a unei v.a. este cel mai
mic numr astfel nct probabilitatea ca v.a. s ia valori nu mai mari dect el s fie p. Vezi
i quantile.

Categorii de indicatori
Indicatori ai tendintei centrale-valori tipice, reprezentative, care descriu
distributia in intregul ei
Indicatori ai imprstierii descriu caracteristica de imprstiere a
valorilor distributiei
Indicatori ai formei distributiei se refer la forma curbei de reprezentare
grafic a distributiei
Indicatori ai tendintei centrale
modul
mediana
media
Modul (Mo)
Definitie: valoarea clasa de interval expresia ce mai direct a valorii tipice
(reprezentative)-cu frecventa cea mai mare
se afl prin alctuirea tabelei de frecvente (simple sau grupate) si este valoarea (clasa) creia ii
corespunde frecventa absolut cea mai ridicat.
distributii unimodale (583254 Mo=5)
distributii bimodale (5832254 Mo=5; =2)
distributii multimodale (58832254 Mo=5; =2; =8)
MEDIANA (Me)
valoarea din mijlocul unei distributii
are 50% dintre valori deasupra ei
si 50% dintre valori dedesubtul ei
este percentila ?- corespunde valorii de 50% pe coloana frc%.
distributie cu numr impar de valori Me este chiar valoarea respectiv.
distributie par Me se calculeaz ca medie a valorilor din mijlocul
distributiei 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5
MEDIA ARITMETIC (m)
Nota_ii uzuale:
(miu) media populatiei
m media unui esantion
Calcul frecvente simple (583254)m=Sx/N
Calcul frecvente grupate (55833332244)m=S(X x f)/ Sf

Propriettile mediei aritmetice
Adugarea\scderea unei constante la fiecare valoare a distributiei, mreste\scade media cu
acea valoare
inmultirea\imprtirea fiecrei valori a distributiei cu o constant, multiplic\divide media cu
acea constant
Suma abaterii valorilor de la medie este intotdeauna egal cu zero
Suma ptratului abaterilor de la medie va fi intotdeauna mai mic decat suma ptratelor
abaterilor in raport cu oricare alt punct al distributiei
Valori nedeterminate si clase
deschise
Valorile nedeterminate
valori a cror mrime nu decurge din procesul de msurare, in acelasi mod in care rezult
oricare valoare a seriei
Exemplu: testul de asociere verbal (10 sec)
Clase (categorii) deschise categorii care au una dintre limite liber
In astfel de cazuri se utilizeaz mediana

Avantajele indicatorilor tendintei centrale
MODUL
- Usor de calculat (nesemnificativ in prezent);
- Poate fi utilizat pentru orice tip de scal;
- Este singurul indicator pentru scale nominale;-
- Corespunde unui scor real al distributiei;
- Poate fi utilizat pe scale ordinale si de interval\raport;
MEDIANA
- Poate fi utilizat si pe distributii de frecvent cu clase deschise sau scoruri nedeterminate la
marginile distributiei;
MEDIA
- Reflect valorile intregii distributii;
- Are multe proprietti statistice dezirabile;
- Adecvat pentru utilizare in statistici avansate;

Dezavantajele indicatorilor tendintei centrale
MODUL
- in general, nesigur, mai ales in cazul esantioanelor mici,cand se poate modifica dramatic la o
modificare minor a unei valori;
- Poate fi gresit interpretat. Se identific total cu un scor anume, fr a spune nimic despre
celelalte valori;
- Nu poate fi utilizat in statistici inferentiale;
- Poate s nu corespund unei valori reale (N par);
MEDIANA
- Poate s nu corespund unei valori reale (N par);
- Nu reflect valorile distributiei (un scor extrem se poate
modifica, fr a afecta Me);
- Este mai putin sigur in extrapolarea de la esantion la
populatie;
- Greu de utilizat in statistici avansate
MEDIA
- De obicei nu corespunde unei valori reale;
- Nu este tocmai adecvat pentru scale ordinale;
- Conduce la interpretri gresite pe distributii asimetrice
- Poate fi puternic afectat de scorurile extreme;

Valori extreme (excesive) ale distributiei
valori excesive, neobisnuit de mari sau de mici fat de celelalte valori ale unei distributii
Identificare
metoda grafic Box-and-Whisker-Plot (Box-
Plot)
autor Tukey
O diagram de tip boxplot reflect grafic rezumarea prin cele 5 valori a unei distribuii: valoarea
minim, prima quartil, mediana, a treia quartil i valoarea maxim.

Prin compararea intervalelor figurate se obine o imagine a gradului de mprtiere a valorilor n
domeniul observat.
De regul, se marcheaz pe diagram i valorile aberante: situate la mai mult de 1,5D sub prima
quartil sau peste a treia quartil, unde D noteaz distana dintre prima i a treia quartil
(intervalul interquartil) n figura anterioar, poziia valorii aberante este distorsionat din
necesiti de prezentare. Uneori, ntre valorile aberante se face distincia celor situate la mai mult
de 3D de quartilele extreme.
Prin reprezentarea simultan a celor cinci valori pentru grupuri diferite, se ofer suport pentru o
comparare rapid a grupurilor.
Tratarea valorilor extreme
Stabilirea naturii valorilor extreme:
erori de inregistrare (tastare);
erori de msurare;
rezultate influentate de anomalii ale conditiilor experimentale.
esantionul a fost extras dintr-o populatie asimetric
valorile respective fac parte din alt populatie devalori
esantion prea mic
Tratarea lor pe una din cile posibile:
eliminare (dac sunt erori necorectabile);
corectare (dac este posibil);
utilizarea mediei 5%trim,
transformare (extragerea radicalului din toate valorile
distributiei, logaritmarea distributiei, etc.)
Indicatori sintetici ai mprstierii
msoar gradul de diversificare a valorilor

Tipuri de indicatori
1. Amplitudinea absolut(R): R=Xmax-Xmin=7-1=6
diferenta dintre valoarea maxim si valoarea minim a unei distributii, indic in mod absolut
plaja de valori intre
care se intinde distributia, poate fi influentat de o singur valoare aflat la extremitatea
distributiei
2. Amplitudinea relativ(R%):R%=R/m x 100
raportul procentual dintre amplitudine si medie, util cand cunoastem plaja teoretic de variatie
a valorilor
Imprecizie:Distributia A are o amplitudine
mai mare dar si o variabilitate
mai mare decat distributia B/Amplitudinile distributiilor A si B sunt identice, dar distributia A are
mai mult variabilitate.

3. Abaterea quartil (cvartil, intercvartil) (RQ) Rq=Q3- Q1
diferenta dintre quartila 3 si quartila 1, este distanta dintre limita superioar si cea inferioar a
casetei Box-Plot (valoarea H)
4. Abaterea semi-interquartil(RSQ) Rsq=(Q3- Q1)/2
distanta unui un scor tipic fat de amplitudinea intregii distributii, este abaterea quartil
imprtit la 2, intr-o distributie perfect simetric RSQ=Q2=Me, RSQ nu este afectat de valorile
aberante
indicator robust al imprstierii
5. Abaterea medie (d) d= Z(x-m)/N
valoarea minus media
6. Dispersia (varianta,abaterea patratica) s2= Z(x-m)putera 2/N
Notatii uzuale:
s2 (esantion)
es2 (populatie)
Se calculeaz ca sum a abaterilor de la medie ridicate la ptrat
7. Abaterea standard s=Radical din Z(x-m)putera 2/N
se calculeaz prin extragerea radicalului din expresia dispersiei
Abaterea standard nu este definit pentru (n-1), ci pentru n
Dar suma abaterilor de la medie este ntotdeauna 0
dac stim n-1 abateri, o cunoastem pe ultima
doar primele n-1 abateri pot varia liber.
(n-1) sunt definite ca grade de libertate
S2= Z(x-m)putera 2/N -1 ,S=radical din Z(x-m)putera 2/N-1
Propriettile abaterii standard
Dac se adaug/scade o constant la fiecare valoare a unei distributii, abaterea standard nu este
afectat
Dac se multiplic/divide fiecare valoare a unei distributii cu o constant, abaterea standard se
multiplic/divide cu acea constant
Abaterea standard fat de medie este mai mic decat abaterea standard fat de orice alt valoare
a unei distributii
8. Coeficientul de variatie (Cv) Cv=s/m x 100
abaterea medie si abaterea standard se exprim in unittile de msur ale variabilei de referint
ca urmare, nu pot fi comparate in mod direct, pentru variabile diferite
cv poate fi calculat numai pe scale de
raport (origine in 0)
cv<15%, imprstierea este mic si, deci,media este reprezentativ
cv este intre 15%-30%, imprstierea este mijlocie si media este suficient de reprezentativ
cv > 30%, imprstierea este mare si media are o reprezentativitate redus
Alegerea indicatorului imprstierii
Abaterea standard este cea mai utilizat pentru
scale de msurare interval/raport. Realizeaz cea mai bun combinatie intre calitatea estimrii si
posibilitatea de a fundamenta inferente statistice.
Amplitudinea este un indicator nesigur si care nici nu poate fi calculat in cazul scalelor
nominale
Pe distributii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartil
(semi-interquartil).
Indicatori ai formei distributiei
simetrie (skewness)
Simetric(media,mediana,mod =0) asimetric negativ (media,mediana,mod) asimetric pozitiv
(mod,mediana,medie)

Profesor :M.POPA

S-ar putea să vă placă și