Descărcați ca DOCX, PDF, TXT sau citiți online pe Scribd
Descărcați ca docx, pdf sau txt
Sunteți pe pagina 1din 11
Statistica An 1 , Fpse
Filed under: School Leave a comment
November 3, 2009 Curs 1 Statistica Statistica stiinta (domeniu cu ramura aplicativa a matematici),care recolteaza,descrie si analizeaza datele(obiective ,de nautra empiric-inductiva) in vedere extragerii unor concluzii de tip probabilistic (inferente =este acea component a unui proces logic care deriv o concluzie dintr-o premiz, adic extrage o consecin necesar, o informaie specific, dintr-o descriere de stare dat),operand cu numere care descriu realitatea din jurul nostru,avand ca model de cunoastere =modelul stiintific ,bazat pe scepticism,cu un anumit nivel de generalitate prin intrepretarea datelor particulare supuse observatiei directe. Statisticadescriptiva-descrie date asa cum sunt (nr,grafic) inferentiala-sustine concluzii (inferente cu privire la populatie,pe baza datelor unui esantion din acea populatie)parametrica/neparametrica Datele informatii obtinute prin categorializare,numarare sau masurare <-metode adecvate. Statistica instrument al metodei stiintifice Observatiadefinirea problemeiipoteza(statistica)date(masurare,descriere)Testarea ipoteziei respingere /acceptare(decizia statistica )publicare(prezentarea rezultatelor)teoria
Notiunea de variabila statistica Definitie variabila-caracteristica a realitatii care poate lua valori diferite (varsta ,gen ,inteligenta) -valori-fem -distributia variabilei-valorile si frecventa de aparitie a fiecarei valori(2,11,4,5) -variabilitatea-masura in care o distributie este compusa din valori mai asemanatoare sau mai diferite una de alta (caracteristica cea mai importanta a variabilei) Variabila dependenta-suporta un efect ,variaza in functie de ceva-face obiectul central cercetarii,variabila effect Variabila independenta-determina un effect ,induce variatia variabilei dependente-reprezinta contextual incare se manifesta variabila dependenta,variabila cauza Le plansam intr-un rationament de tip cauzal Variabila continua-poate lua un numar teoretic infinit de niveluri ale valorilor(zecimale)- greutatea :50,7758585 kg Variabila discreta-poate lua un nr finit de valori (fara zecimale )nr pers intr-o familie :3
Populatia cercetarii-totalitatea unitatilor de informatiecare constituie obiectul de interes al unei investigatii (de regula,persoane) finita pop fumatorilor,femeilor / finita pop studentilor FPSE Populatia statistica valorile care descriu populatia cercetarii (elevii de liceu)
Esantionul- caracter relative,diferenta dintre esantion si pop =eroare de esantionare (mai mica- mai sigur) -cercetarii-toate persoanele care fac obiectul studiului -statistic-toate valorile unei variabile ,masurate pe esantionul cercetarii (elevii selectionati) Bias-factor sistematic de eroare in constituirea esantionului(ora ,un singur mediu social) Tehnici de esantionare-aleatoare-stratificat multistadiala -prin clasificare unistadiala -aleatoare globala -pseudo-aleatoare sau de convenienta Studii corelaionale (observaionale) -cercettorul msoar variabile (dou sau mai multe)sunt valorile unei variabile n legtur cu valorile alteia, sau altora? -nu permit concluzii de tip cauzalv. indep. este n relaie cu v. dependent Exemplu:Un cercettor adun date cu privire la consumul unui medicament i starea de sntate, ncercnd s vad dac este o legtur ntre ele Studii experimentale-cercettorul manipuleaz una sau mai multe variabile(independente) pentru a vedea efectul asupra alteia (dependent) -permit concluzii de tip cauzalv. indep. este cauzav. dependente Exemplu:Cercettorul constituie dou grupuri, administreaz medicamentul unui grup (experimental) i placebo, altui grup (de control) dup care compar efectele -alegerea procedurilor infereniale se bazeaz pe: -identificarea naturii variabilei (indep./dep.) -identificarea tipului scalei de msurare, pentru fiecare variabil Curs 2 Statistica S.S. Stevens (1946) On thetheoryof scale of measurementa msura nseamn a atribui valori numerice obiectelor i fenomenelor, n conformitate cu anumite reguli Masurarea-domeniu de ordin cantitativ,ce prespune identificare unei caracteristici atribuindu-i o valoare ;Judd i McClelland(1998)(nu toate au caracter numeric) conform unei reglui caruia ii s-a atribuit o semnificatie Entiti msurabile -de natura fizica(indicatori fiziologici) - constructe psihice (teoretice) ce trebuie sa fie probate,nu pot fi masurate direct, ci numai prin manifestrile lor particulare Constructul=variabil latent-stiu ca exista Indicatorii=variabile observate Niveluri (scale) de msurare Numerele difer ntre ele prin semnificaia i proprietile lor Stevens : Nivelul nominal (cele mai putine info)categoria din care face parte Nivelul ordinal val nu si cantitatea Nivelul de interval Nivelul de raport (cele mai multe info) Scala nominal:redus nivel de msurare,codurile valorilor sunt arbitrare,valorile au doar o semnificaie calitativ,nu suport operaii aritmetice, n afar de nsumare,pot fi grupate(mai multe diviziuni) sau rafinate(mai putine diviziuni):Extravert(coleric, sanguinic); introvert(flegmatic, melancolic) .Invers nu. :- De identificare (CNP, alte coduri arbitrare) -Categoriale (m/f ) Scala ordinal: Valorile au o semnificaie cantitativ limitat la raportul de mrime, (mai mare/mai mic; mai mult/mai puin), darprecizeaz doar raportul de mrime dintre valori( intervalele dintre ne fiind precizate) codurile valorilor pot fi acordate si arbitrar+regula+semnificatie Scale ordinale categoriale: anul de studiu (1, 2, 3)-grupa dar si gradu de cunostinte.
Scala de interval: Valorile au un caracter cantitativ, exprimat numeric,Intervalele dintre valori sunt egale,dar lipsete zero absolut, suport toate transformrile matematice posibile,greu de demonstrat Scala de raport: valori cantitative, exprimate numeric,intervale egale + zero absolut gradele Kelvin cel mai nalt nivel de msurare (valorile au mai mult informaie),suport toate transformrile matematice posibile,n practic, distincia dintre variabilele de interval (I) i de raport (R) nu este relevant, ambele suportnd aceleai proceduri statistice (I/R)
Variabile categoriale O variabil se numete categorial atunci cnd valorile acesteia descriu categorii.n mod obinuit, variabilele msurate pe scal nominal sunt categoriale. Variabilele ordinale pot fi i ele categoriale Categoriile de vrst: 1 (21-0 ani), 2 (31-40 ani) i 3 (41-0 ani) Variabilele cantitative (I/R) pot fi i ele categoriale:Categoriile de motoare: 1100 cmc; 1400cmc; 1600 cmc Statistica parametric/statistica neparametric s. parametric:proceduri infereniale pe v. msurate pe scale cantitative (Interval sau Raport),se bazeaz pe estimarea prin eantionare a parametrilor populaiei (medie, ab. std.) s. neparametric:proceduri infereniale pe v. msurate pe scal calitative (nominale i ordinale),nu se bazeaz pe estimarea parametrilor populaiei Scale de msurare i variabile variabila=caracteristica supus msurrii scala de msurare=tipul de valori pe care le ia variabila Expresia variabil nominal se va nelege ca variabil msurat pe scal nominal Teoria msurrii Modelul scorului adevrat este un construct teoretic.Nu exist posibilitatea cuantificrii erorilor X=T+E / X=T+(eA+ eS)/ var(X)=var(T)+var(E) (X=valoarea msurat,T=scorul adevrat (exprim caracteristic supus msurrii,E=eroarea de msurare /exprim altceva dect caracteristica supus msurrii) Tipuri de erori: -erori aleatoarezgomot de msurare (eA) produse de surse care ar putea afecta oricare dintre valorile rezultate din msurare, fr s tim dac i n ce msur acest lucru se ntmpl ,pot fi n orice sens (mai mari sau mai mici dect scorul adevrat),caracterul aleatoriu face ca abaterile n plus i cele n minus fa de scorul adevrat s se anihileze,erorile aleatoare afecteaz valorile individuale, dar nu i media eantionului (motivatia) -erori sistematice (eS) :Se manifest ntr-un anume sens fa de valoarea adevrat (oboseala) Expresia X=T+E se are n vedere o anumit valoare msurat (oricare dintre acestea) Putem privi lucrurile i din perspectiva tuturor valorilor msuratefiecare component a expresiei poate fi descris prin variabilitatea ei (diferenele ntre valorile respective existente la fiecare caz n parte) var(X)=var(T)+var(E) Expresia descrie sursa variaiei fiecrei componente a scorului adevrat ,fundamenteaz teoria fiabilitii datelor de msurare gradul n care msurri repetate ale aceleiai realiti produc aceleai valori
Proceduri de organizare, sintetizare i descrierea datelor: A.Tehnici de organizare i prezentare a datelor numerice (analiza de frecvene -simpl/grupat) grafice
B.Indicatori numerici sumativiindicatori ai tendinei centrale indicatori ai mprtierii indicatori ai formei distribuiei
Frecvena absolut (Fa)-nr aparitiei fiecarei valori Frecvena cumulat(Fc)-nr aparitilor adunate de jos in sus Frecvena relativ raportat la unitate(Fr)-fr(1)=fa/fa Frecvena relativ cumulat, raportat la unitate(Frc)-fr adunate de jos in sus Frecvena relativ procentual(Fr(%))-fr(1)x100 Frecvena relativ cumulat procentual(Frc(%)-Fr(%)adunate de jos in sus Entile speciale Decilele mpart distribuia n 10 pri egale decila 1 2 3 4 5 9 10 percentila 10 20 30 40 50 90 100 Quartilele mpart distribuia n patru pri egale ca numr de valori) quartila 1 (percentila 25) quartila 2 (percentila 50) quartila 3 (percentila 75)
Alegem numrul de clase, categorii:recomandabil, ntre 5 i 15 (convenional) Alegem mrimea intervalului de clas:toate intervalele trebuie s fie egale ,limitele intervalelor trebuie s cuprind toate valorile (ntre limitele intervalelor alturate s nu existe goluri sau suprapuneri) Realizarea claselor: Se face diferena dintre valoarea cea mai mare i valoarea cea mai micSe mparte valoarea obinut la mrimea posibil a intervalului de clas (2, 3, 5 sau 10) pentru a realiza numrul de clase al noii distribuiiSe selecteaz mrimea intervalului care conduce la un numr de clase cuprins ntre 5 i 15 Se determin limita inferioar a primului interval (trebuie s fie un multiplu al mrimii intervalului-Alegem valoarea 85 ca limit inferioar(chiar dac 86 este valoarea minim) Se determin limita superioar a primului interval(Dac mrimea intervalului este 5, limita superioar va fi 89 (85,86,87,88,89))
limite aparente valori care sunt scoruri posibile ale variabilei (125, 129, etc.),mijlocul intervalului=(125+129)/2)=127 limite reale-extind mrimea intervalului pentru a lua n considerare natura continu a scalei de msurare media a dou mijloace de interval:(127+122)/2=124.5 -distana dintre limitele reale este egal cu distana dintre limitele aparente Grafice -Graficul de tip bar Axa orizontal (Ox) valorile distribuiei Axa vertical (Oy) frecvenele fiecrei valori, ExigeneBarele trebuie sa aib aceeai lime ntre bare se las un spaiu Barele pot fi puse n orice ordineOrdonarea barelor, descresctor sau cresctor (grafic Pareto) -histograma -poligonul de frecvene -graficul frecvenei cumulate -graficul circular
-graficul de tip stem and leaf (tulpin i frunze) -Valorile stem pot fi atribuite, opional,pentru grupe de valori leaf, In cazul distribuiilor mari,valorile leaf se pot referila mai multe valori
Stem-plot este potrivit pentru a vizualiza distribuii de dimensiuni relativ mici.Scoate n eviden gradul de simetrie al distribuieiScoate n eviden valorile excesiveImportant nu este forma graficului ci nelegerea datelor
Rang percentil (Percentile Rank) Rangul percentil al unui element dintr-o repartiie de valori numerice este definit ca proporia numerelor care sunt mai mici sau egale cu numrul considerat. Este utilizat pentru fixarea locului ierarhic ocupat de un element: dac un elev are nota 9,25 la matematic i 94% dintre elevi au note mai mici sau egale cu 9,25, atunci rangul percentil al elevului este 94. Percentil (Percentile) Percentila de ordin p a unei serii numerice (observate) este cel mai mic numr astfel nct cel puin p% dintre numere nu sunt mai mari dect el. Percentila de ordin p a unei v.a. este cel mai mic numr astfel nct probabilitatea ca v.a. s ia valori nu mai mari dect el s fie p. Vezi i quantile.
Categorii de indicatori Indicatori ai tendintei centrale-valori tipice, reprezentative, care descriu distributia in intregul ei Indicatori ai imprstierii descriu caracteristica de imprstiere a valorilor distributiei Indicatori ai formei distributiei se refer la forma curbei de reprezentare grafic a distributiei Indicatori ai tendintei centrale modul mediana media Modul (Mo) Definitie: valoarea clasa de interval expresia ce mai direct a valorii tipice (reprezentative)-cu frecventa cea mai mare se afl prin alctuirea tabelei de frecvente (simple sau grupate) si este valoarea (clasa) creia ii corespunde frecventa absolut cea mai ridicat. distributii unimodale (583254 Mo=5) distributii bimodale (5832254 Mo=5; =2) distributii multimodale (58832254 Mo=5; =2; =8) MEDIANA (Me) valoarea din mijlocul unei distributii are 50% dintre valori deasupra ei si 50% dintre valori dedesubtul ei este percentila ?- corespunde valorii de 50% pe coloana frc%. distributie cu numr impar de valori Me este chiar valoarea respectiv. distributie par Me se calculeaz ca medie a valorilor din mijlocul distributiei 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5 MEDIA ARITMETIC (m) Nota_ii uzuale: (miu) media populatiei m media unui esantion Calcul frecvente simple (583254)m=Sx/N Calcul frecvente grupate (55833332244)m=S(X x f)/ Sf
Propriettile mediei aritmetice Adugarea\scderea unei constante la fiecare valoare a distributiei, mreste\scade media cu acea valoare inmultirea\imprtirea fiecrei valori a distributiei cu o constant, multiplic\divide media cu acea constant Suma abaterii valorilor de la medie este intotdeauna egal cu zero Suma ptratului abaterilor de la medie va fi intotdeauna mai mic decat suma ptratelor abaterilor in raport cu oricare alt punct al distributiei Valori nedeterminate si clase deschise Valorile nedeterminate valori a cror mrime nu decurge din procesul de msurare, in acelasi mod in care rezult oricare valoare a seriei Exemplu: testul de asociere verbal (10 sec) Clase (categorii) deschise categorii care au una dintre limite liber In astfel de cazuri se utilizeaz mediana
Avantajele indicatorilor tendintei centrale MODUL - Usor de calculat (nesemnificativ in prezent); - Poate fi utilizat pentru orice tip de scal; - Este singurul indicator pentru scale nominale;- - Corespunde unui scor real al distributiei; - Poate fi utilizat pe scale ordinale si de interval\raport; MEDIANA - Poate fi utilizat si pe distributii de frecvent cu clase deschise sau scoruri nedeterminate la marginile distributiei; MEDIA - Reflect valorile intregii distributii; - Are multe proprietti statistice dezirabile; - Adecvat pentru utilizare in statistici avansate;
Dezavantajele indicatorilor tendintei centrale MODUL - in general, nesigur, mai ales in cazul esantioanelor mici,cand se poate modifica dramatic la o modificare minor a unei valori; - Poate fi gresit interpretat. Se identific total cu un scor anume, fr a spune nimic despre celelalte valori; - Nu poate fi utilizat in statistici inferentiale; - Poate s nu corespund unei valori reale (N par); MEDIANA - Poate s nu corespund unei valori reale (N par); - Nu reflect valorile distributiei (un scor extrem se poate modifica, fr a afecta Me); - Este mai putin sigur in extrapolarea de la esantion la populatie; - Greu de utilizat in statistici avansate MEDIA - De obicei nu corespunde unei valori reale; - Nu este tocmai adecvat pentru scale ordinale; - Conduce la interpretri gresite pe distributii asimetrice - Poate fi puternic afectat de scorurile extreme;
Valori extreme (excesive) ale distributiei valori excesive, neobisnuit de mari sau de mici fat de celelalte valori ale unei distributii Identificare metoda grafic Box-and-Whisker-Plot (Box- Plot) autor Tukey O diagram de tip boxplot reflect grafic rezumarea prin cele 5 valori a unei distribuii: valoarea minim, prima quartil, mediana, a treia quartil i valoarea maxim.
Prin compararea intervalelor figurate se obine o imagine a gradului de mprtiere a valorilor n domeniul observat. De regul, se marcheaz pe diagram i valorile aberante: situate la mai mult de 1,5D sub prima quartil sau peste a treia quartil, unde D noteaz distana dintre prima i a treia quartil (intervalul interquartil) n figura anterioar, poziia valorii aberante este distorsionat din necesiti de prezentare. Uneori, ntre valorile aberante se face distincia celor situate la mai mult de 3D de quartilele extreme. Prin reprezentarea simultan a celor cinci valori pentru grupuri diferite, se ofer suport pentru o comparare rapid a grupurilor. Tratarea valorilor extreme Stabilirea naturii valorilor extreme: erori de inregistrare (tastare); erori de msurare; rezultate influentate de anomalii ale conditiilor experimentale. esantionul a fost extras dintr-o populatie asimetric valorile respective fac parte din alt populatie devalori esantion prea mic Tratarea lor pe una din cile posibile: eliminare (dac sunt erori necorectabile); corectare (dac este posibil); utilizarea mediei 5%trim, transformare (extragerea radicalului din toate valorile distributiei, logaritmarea distributiei, etc.) Indicatori sintetici ai mprstierii msoar gradul de diversificare a valorilor
Tipuri de indicatori 1. Amplitudinea absolut(R): R=Xmax-Xmin=7-1=6 diferenta dintre valoarea maxim si valoarea minim a unei distributii, indic in mod absolut plaja de valori intre care se intinde distributia, poate fi influentat de o singur valoare aflat la extremitatea distributiei 2. Amplitudinea relativ(R%):R%=R/m x 100 raportul procentual dintre amplitudine si medie, util cand cunoastem plaja teoretic de variatie a valorilor Imprecizie:Distributia A are o amplitudine mai mare dar si o variabilitate mai mare decat distributia B/Amplitudinile distributiilor A si B sunt identice, dar distributia A are mai mult variabilitate.
3. Abaterea quartil (cvartil, intercvartil) (RQ) Rq=Q3- Q1 diferenta dintre quartila 3 si quartila 1, este distanta dintre limita superioar si cea inferioar a casetei Box-Plot (valoarea H) 4. Abaterea semi-interquartil(RSQ) Rsq=(Q3- Q1)/2 distanta unui un scor tipic fat de amplitudinea intregii distributii, este abaterea quartil imprtit la 2, intr-o distributie perfect simetric RSQ=Q2=Me, RSQ nu este afectat de valorile aberante indicator robust al imprstierii 5. Abaterea medie (d) d= Z(x-m)/N valoarea minus media 6. Dispersia (varianta,abaterea patratica) s2= Z(x-m)putera 2/N Notatii uzuale: s2 (esantion) es2 (populatie) Se calculeaz ca sum a abaterilor de la medie ridicate la ptrat 7. Abaterea standard s=Radical din Z(x-m)putera 2/N se calculeaz prin extragerea radicalului din expresia dispersiei Abaterea standard nu este definit pentru (n-1), ci pentru n Dar suma abaterilor de la medie este ntotdeauna 0 dac stim n-1 abateri, o cunoastem pe ultima doar primele n-1 abateri pot varia liber. (n-1) sunt definite ca grade de libertate S2= Z(x-m)putera 2/N -1 ,S=radical din Z(x-m)putera 2/N-1 Propriettile abaterii standard Dac se adaug/scade o constant la fiecare valoare a unei distributii, abaterea standard nu este afectat Dac se multiplic/divide fiecare valoare a unei distributii cu o constant, abaterea standard se multiplic/divide cu acea constant Abaterea standard fat de medie este mai mic decat abaterea standard fat de orice alt valoare a unei distributii 8. Coeficientul de variatie (Cv) Cv=s/m x 100 abaterea medie si abaterea standard se exprim in unittile de msur ale variabilei de referint ca urmare, nu pot fi comparate in mod direct, pentru variabile diferite cv poate fi calculat numai pe scale de raport (origine in 0) cv<15%, imprstierea este mic si, deci,media este reprezentativ cv este intre 15%-30%, imprstierea este mijlocie si media este suficient de reprezentativ cv > 30%, imprstierea este mare si media are o reprezentativitate redus Alegerea indicatorului imprstierii Abaterea standard este cea mai utilizat pentru scale de msurare interval/raport. Realizeaz cea mai bun combinatie intre calitatea estimrii si posibilitatea de a fundamenta inferente statistice. Amplitudinea este un indicator nesigur si care nici nu poate fi calculat in cazul scalelor nominale Pe distributii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartil (semi-interquartil). Indicatori ai formei distributiei simetrie (skewness) Simetric(media,mediana,mod =0) asimetric negativ (media,mediana,mod) asimetric pozitiv (mod,mediana,medie)