Statistica - Curs
Statistica - Curs
Statistica - Curs
1. Notiuni introductive
Dinastia Han (202 i.Hr – 220 d.Hr) si Imperiul Roman au fost printre primele state ce au colectat
date despre populatia, geografia si bogatia imperiului.
Al-Khalil (717 – 786 d.Hr) a folosit prima data conceptele de permutari si combinatii, iar Al-Kindi
(801-873 d.Hr) a folosit prima data conceptul de analiza frecventelor pentru a decripta mesaje
codate.
In 1662, John Graunt si William Petty au creat primul “life table” calculand probabilitatea de
supravietuire pentru fiecare varsta si au estimate populatia Londrei.
Pierre de Fermat, Blaise Pascal (teoria probabilitatilor), Jakob Bernoulli, Abraham de Moivre
(bazele matematice ale statisticii), Thomas Bayes (teorema lui Bayes) Pierre-Simon Laplace, Carl
Friedrich Gaus (legea normala) William Playfair (reprezentarile grafice), Antoine Augustine Cournot
(valoarea mediana), Karl Pearson (primul department de statistica intr-o universitate – University
College London, testul chi-patrat, coeficientul de corelatie), Ronald Fisher (testul ANOVA), William
Sealy Gosset (distributia Student), Jerzy Neyman (intervale de incredere) sunt printer matematicienii
si oamenii de stiinta ce au avut contributii importante la dezvoltarea statisticii.
Initial statistica a avut rolul de a furniza autoritatilor date cu un caracter demografic. Incepand cu
secolul al XIX-lea statistica devine ramura a matematicii, conceptul fiind extins si aplicat in diverse
domenii ale stiintei si economiei.
Statistica utilizeaza date intr-un context de incertitudine, pentru a genera informatii despre
lumea care ne inconjoara. In acest fel se creaza un fundament pentru luarea deciziilor.
In societatea actuala, actiunile intreprinse se bazeaza pe date si genereaza alte date. Prelucrarea
acestora (date) are la baza elemente si tehnici ale statisticii.
Sintetic, statistica ar putea fi definita ca stiinta colectarii, prelucrarii si analizei datelor cu scopul
de a obtine informatii legate de un fenomen sau o populatie studiat(a).
1
1.3 Concepte
Parametrii Esantion
2
Volumul unei populatii statistice este, in general, foarte mare si prin urmare nu este eficient
sa fie analizata intreaga populatie statistica. Din acest motiv, studiile statistice se fac folosind
submultimi ale populatiei statistice si nu intreaga populatie.
O exceptie este reprezentata de recensamant (Census), cand intreaga populatie statistica
este analizata.
Notatie: N.
3
Exemplu: valorile variabilei “judetul de resedinta al sediului social”: Cluj, Bihor,
Bistrita Nasaud, Salaj, Maramures;
valorile variabilei “grad de satisfactie”: satisfacut, nesatisfacut
✓ Cantitative discrete – sunt numere pentru care nu au sens fractiunile. Au sens
valorile intregi (2, 3, -3, 5, 0) dar nu au sens cele fractionare (2.25, 3.86, 2.5)
Exemplu: valorile variabilei “numar de angajati”: 2, 5, 3, 61;
valorile variabilei “anul infiintarii”: 2019, 2017, 2003, 1991;
✓ Cantitative continue – sunt numere pentru care au sens fractiunile. Au sens atat
valorile intregi (2, 3, 5, 10, -6), cat si cele fractionare (2.98, 3.64, 2.5, -19.2)
Exemplu: valorile variabilei “cifra de afaceri”: 15820, 17121, 20673415, 15219.3;
valorile variabilei “temperatura”: 19.3OC, -10.2OC, 20OC, 5OC.
Populatia statistica
Esantion
element data
statistic
Exemplu: Sunt analizate firmele din Romania privind: numarul de angajati, cifra de afaceri, judetul
de resedinta al sediului social, anul infiintarii firmei, valoarea creantelor.
Elementul statistic - fiecare firma din Romania. In diagrama de mai sus elementul statistic este
reprezentat prin simbolul , cateva exemple fiind: For Your Team , Kudos Technologies, Fivetech
Software Solutions, Elcar, Vest TransCom, Magic Tour, Magic Fashion;
Populatia statistica - totalitatea firmelor din Romania: 877050 de firme active;
Cadrul de esantionare (sample frame) – lista cu numele tuturor firmelor din Romania;
Esantionul prevazut (intended sample) – firmele de la care se doreste obtinerea de informatii;
Esantionul – acele firme care au furnizat date valide: For Your Team , Kudos Technologies, Fivetech
Software Solutions, Elcar;
Variabilele statistice: numarul de angajati, cifra de afaceri, judetul de resedinta al sediului social,
anul infiintarii, valoarea creantelor;
Datele reprezinta informatiile colectate de la fiecare firma in parte. In diagrama de mai sus, datele
sunt reprezentate prin simbolul , cateva exemple fiind: 2, 15540, CJ, 2019, 8200, 2, 900, CJ, 2019,
3500, 2, 18150, CJ 2019, 6255, 61, 20274237, BN, 1991, 1235800.
4
1.4 Marginea erorii
Informatiile despre populatie determinate prin studiile statistice se bazeaza pe parametrii
populatiei. Parametrii populatiei nu pot fi calculati (exceptand recensamintele), ci doar estimati pe
baza statisticilor.
Pentru un esantion dat se calculeaza anumite valori ale statisticilor. Este foarte probabil ca
aceste valori sa difere de parametrii populatiei. Daca se foloseste un alt esantion probabil ca se vor
obtine alte valori pentru statistici, care e posibil din nou sa difere de parametrii populatiei.
Diferenta maxima ce poate sa apara intre statistici (esantion) si parametrii (populatie) reprezinta
marginea erorii.
Marginea erorii arata acuratetea studiului. Ea depinde de volumul esantionului (n), fiind
1
proportionala cu si NU depinde de volumul populatiei (N). Graficul urmator arata legatura ce
√𝑛
exista intre marginea erorii si volumul esantionului.
14.00%
12.00%
10.00%
8.00%
6.00%
4.00%
2.00%
0.00%
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
volumul esantionului
5
2. Colectarea datelor
2.1 Formularea intrebarilor intr-un chestionar
Tipul intrebarilor si datele generate
Datele necesare unui studiu statistic sunt colectate, in general, folosind chestionare. Fiecare
intrebare dintr-un chestionar reprezinta o variabila statistica. La formularea intrebarilor, analistul
trebuie sa tina cont de obiectivul urmarit prin studiu si de modul in care formuleaza intrebarile
pentru a evita bias-urile. Bias-ul este tendinta unui proces de masurare de a sub/supra evalua un
parametru).
✓ inchise – ii ofera respondentului variante dintre care poate alege. Prelucrarea raspunsurilor
este mai usoara, dar formularea intrebarilor solicita o atentie sporita pentru evitarea bias-
urilor.
✓ deschise – ii permit respondentului sa formulize raspunsul cum doreste, dar prelucrarea
ulterioara este mult mai dificila.
Exemplul:
Va rugam sa apreciati curatenia din camera in care ati fost cazat in hotelul nostru:
o nesatisfacatoare
o satisfacatoare
o buna
o foarte buna
va genera date calitative.
Va rugam sa evaluate curatenia camerei in care ati fost cazat in hotelul nostru.
1 2 3 4 5 6 7 8 9 10
va genera date cantitative discrete.
Va rugam sa evaluati curatenia camerei in care ati fost cazat in hotelul nostru (marcati cu X)
Care este numarul de angajati din firma dvs? ______ va genera date cantitative discrete.
6
✓ In cazul intrebarilor unidirectionale, respondentii au tendinta de a alege raspunsul
favorabil (de acord).
Este dificil pentru absolventi sa aiba un viitor stralucit?
o de acord
o NU sunt de acord
(este o intrebare unidimensionala deoarece este evaluata doar dificultate de a avea un viitor
stralucit, posibilitatea de a avea un viitor stralucit fiind ignorata).
7
Respondentul nu stie ce sa aleaga: numai medicii, numai personalul medical, ambele
categorii, nici o categorie.
Pentru a evita ambiguitatea, intrebarea poate fi reformulata astfel:
Cine considerati ca ar trebui sa beneficieze de drepturi suplimentare?
o Medicii
o Personalul medical
o Ambele categorii
o Nici o categorie
✓ Intrebarea nu trebuie sa contina informatii necunoscute respondentului, pe baza carora
acesta trebuie sa formulize raspunsul.
Oamenii cu Indexul de Masa Corporala mai mare sau egal cu 95% ar trebui sa evite
vizionarea zilnica a TV.
Ce inseamna Indexul de Masa Corporala si cum se calculeaza? Daca se foloseste in intrebare
ar trebui explicat mai intai.
Exemplul: Se efectueaza un studiu in care se analizeaza nivelul veniturilor, culoarea masinii si varsta.
Pentru aceasta se foloseste un chestionar cu urmatoarele intrebari:
8
2500 rosu t
5000 rosu a
3000 albastru v
3500 verde v
5800 albastru a
2900 albastru t
3200 verde a
4200 rosu t
6100 rosu v
Consideram ca distributia variabilei varsta la nivelul intregii populatii este cunoscuta, aceasta fiind:
Categorie varsta
%
(populatie)
T 30%
A 50%
V 20%
Variabila varsta poate fi considerate o variabila auxiliara, distributia acesteia la nivel de esantion
fiind:
Categorie varsta
%
(esantion)
T 40%
A 30%
V 30%
Se observa ca distributiile variabilei varsta difera pe esantion fata de populatie, prin urmare
esantionul nu este reprezentativ pentru populatie din punct de vedere al varstei. Se impune asadar
pondrarea raspunsurilor la nivel de esantion pentru celelalte variabile. Algoritmul de ponderare se
bazeaza pe regula de 3 simpla:
Se observa ca ponderea tinerilor la nivel de esantion este mai mare decat la nivel de populatie, prin
urmare categoria tinerilor este supra-reprezentata. Pentru corectarea, raspunsurile tinerilor vor fi
inmultite cu un coeficient subunitar de 0.75.
Se observa ca ponderea adultilor la nivel de esantion este mai mica decat la nivel de populatie, prin
urmare categoria adultilor este sub-reprezentata. Pentru corectarea, raspunsurile adultilor vor fi
inmultite cu un coeficient supraunitar de 1.67.
Se observa ca ponderea varstnicilor la nivel de esantion este mai mare decat la nivel de populatie,
prin urmare categoria varstnicilor este supra-reprezentata. Pentru corectarea, raspunsurile adultilor
vor fi inmultite cu un coeficient subunitar de 0.67.
9
Deoarece variabila venit contine date cantitative, valorile acesteia pot fi corecatate prin ponderare,
astfel:
10
metode complexe, dar care genereaza esantioane cu reprezentativitate buna, iar rezultatele
obtinute au acuratete (precizie) ridicata.
2. Metode non-probabilistice – selecatrea elementelor incluse in esantion se face in mod
subiectiv de catre analist. Probabilitatea ca esantionul sa nu fie reprezentativ pentru
populatie este crescuta si in consecinta bias-ul poate fi semnificativ.
Metode probabilistice
Simple random sampling
Fiecare element din populatie are aceeasi probabilitate de a fi selectat in esantion, selectia facandu-
se in mod aleator.
Systematic sampling
Se alege in mod aleator un element al populatiei care va reprezenta elementul de pornire in
construirea esantionului. Se calculeaza un pas pe baza caruia vor fi determinate celelate elemente ce
urmeaza sa fie incluse in esantion.
Presupunand ca avem o populatie de volum N=10000, iar pentru studiu avem nevoie de un esantion
de volum n=1000, pasul il vom calcula astfel:
𝑁 10000
𝑝𝑎𝑠 = = = 10
𝑛 1000
Astfel presupunand ca elemental de pornire este al 15-lea element al populatiei, urmatoarele
elemente vor fi calculate astfel:
Stratified sampling
Populatia este impartita in grupuri, numite STRATURI. Grupurile contin elemente omogene
(asemanatoare), iar intre ele grupurile sunt heterogene (diferite). Folosind metode aleatoare se
selecteaza din FIECARE grup (strat) elemente ce vor fi incluse in esantion.
Prin urmare, esantionul contine elemente ce au fost selectate din FIECARE strat.
11
O vizualizare grafica pentru stratified sampling este disponibila la link-ul:
https://www.youtube.com/watch?v=sYRUYJYOpG0
Cluster sampling
Populatia este impartita in grupuri, numite CLUSTERE. Grupurile contin elemente heterogene
(diferite), fiecare grup fiind o imagine in miniatura a populatiei. Dintre toate clusterele create, sunt
selectate cateva pentru a fi considerate la generarea esantionului.
Exista doua variante de construire a esantionului:
• toate elementele clusterelor selectate sunt incluse in esantion;
• din clusterele selectate se aleg aleator elemente ce sunt incluse in esantion.
Prin urmare, esantionul contine elemente ce au fost selectate DOAR DIN UNELE clustere.
Multi-stage sampling
Presupune combinarea a doua sau mai multe metode probabilistice de esantionare.
Metode non-probabilistice
Convenience sampling
Pentru formarea esantionului, analistul selecteaza elemente ale populatiei la care are cel mai rapid
acces.
De exemplu analistul poate trimite un chestionar la toate contactele ce le are salvate in telefon sau
la toate contactele ce le are in social media.
Este cea mai simpla metoda de esantionare, dar bias-ul este semnificativ, se bazeaza pe multe
elemente ce nu pot fi controlate de analist, iar credibilitatea studiilor bazate pe aceasta metoda este
foarte redusa.
Metoda poate fi folosita pentru testarea chestionarului, generarea unor ipoteze, obtinerea de
informatii primare privind perceptia fata de un produs.
12
O vizualizare grafica pentru convenience sampling este disponibila la link-ul:
https://www.youtube.com/watch?v=aomNbRO5Zac
Purposive/judgement sampling
Pentru formarea esantionului, analistul selecteaza elemente ale populatiei bazandu-se pe propria
ratiune si experienta. Sunt selectate acele elemente ce corespund unui anumit criteriu.
De exemplu, un reporter care intervieveaza persone pe strada referitor la o situatie politica se
bazeaza pe o anumita logica (ratiune) atunci cand alege persoanele.
Este una din cele mai eficiente (timp si cost) metode de esantionare, fiind utila atunci cand avem
acces limitat la elementele populatiei. Metoda este vulnerabila fata de erorile de judecata ale
analistului si poate avea bias semnificativ.
Quota sampling
Analistul imparte populatia in grupe, pe baza unor criterii relevante pentru studiu (de exemplu:
varsta, sex, venit, etc). Stabileste procentul din populatie ce va fi inclus in esantion si il aplica asupra
grupelor stabilite, calculand astfel cate elemente trebuie sa aleaga din fiecare grup. In continuarea
va alege in mod subiectiv (NU ALEATOR) din fiecare grup elemenetele pentru esantion.
Quota sampling si stratified sampling sunt metode asemanatoare diferenta fiind data de modul de
alegere a elementelor din grupe: aleator in cazul stratified sampling si subiectiv in cazul quota
sampling.
Metoda poate fi aplicata atunci cand timpul alocat studiului este foarte scurt, fiind si eficienta din
punct de vedere al costurilor. Ca orice metoda non-probabilistica are o probabilitate ridicata de a
genera bias, extinderea rezultatelor studiului pentru intreaga populatie fiind riscanta, iar esantionul
generat e posibil sa nu fie reprezentativ.
13
O vizualizare grafica pentru quota sampling este disponibila la link-ul:
https://www.youtube.com/watch?v=K8lcSHlB64w
Snowball sampling
Este o metoda folosita atunci cand subiectul studiului este unul delicat, iar identificarea populatiei
statistice este imposibila. Selectarea esantionului se face prin referintele furnizate de membrii
selectati anterior.
Metoda are o eficienta ridicata (cost si timp), dar nu exista nici o garantie ca esantionul este
reprezentativ, iar inferentele sunt riscante.
Snow-ball sampling este metoda folosita pentru generarea esantionului in studiul durerii cornice la
nivelul UE, studiu coordonat de PAE si disponibil la: https://pae-eu.eu/wp-
content/uploads/2019/09/2019-Survey-PAE-final-short-report.pdf
Descrieri ale metodologiei de esantionare folosita de Gallup si Pew Research sunt disponibile la link-
urile:
https://media.gallup.com/PDF/FAQ/HowArePolls.pdf
https://www.journalism.org/wp-content/uploads/sites/8/2020/03/PJ_2020.03.18_Coronavirus-
News1_METHODOLOGY.pdf
14
3. Organizarea datelor
Pentru efectuarea unui studiu se aplica urmatorul chestionar pe un esantion de volum n=50.
Chestionar
1. Va rugam sa mentionati in ce judet isi are sediul social firma dvs. _________________
2. Va rugam sa mentionati cati angajati are firma dvs. ____________________________
3. Va rugam sa mentionati care este cifra de afaceri a firmei dvs in ultimul an. _________
Chestionar Judet Angajati Cifra de Afaceri Chestionar Judet Angajati Cifra de Afaceri
1 CJ 4 916930 26 BH 3 97521
2 BN 4 97406 27 BN 8 768886
3 CJ 5 757557 28 AB 1 974347
4 BH 3 467018 29 BH 7 291942
5 BH 3 588042 30 AB 6 490498
6 BH 5 503741 31 CJ 8 560752
7 CJ 7 352155 32 AB 3 252879
8 AB 1 97437 33 MM 4 882307
9 BN 7 318087 34 AB 1 163690
10 BH 5 88920 35 MM 8 789122
11 CJ 4 975625 36 BN 7 499762
12 CJ 3 585501 37 CJ 0 960688
13 BN 1 375912 38 BN 1 959054
14 MM 6 940819 39 CJ 9 406511
15 AB 0 427737 40 AB 8 573812
16 CJ 1 69592 41 MM 2 870454
17 MM 1 703083 42 MM 7 741177
18 MM 9 795067 43 AB 2 388131
19 BN 3 269978 44 BN 7 767443
20 CJ 0 398641 45 BH 5 417183
21 CJ 5 124175 46 BH 8 702018
22 AB 3 990722 47 CJ 8 193391
23 MM 8 305280 48 CJ 8 108470
24 BH 3 760408 49 BH 9 600078
25 MM 3 508740 50 BH 6 751521
Prezentarea rezultatelor obtinute sub aceasta forma nu este foarte eficienta, acest aspect fiind si
mai evident cand volumul esantionului este mult mai mare.
O forma de prezentare eficienta a datelor este folosind tabelele de frecventa si graficele.
Tabelel de frecventa pot prezenta datele in raport cu:
• singura variabila, caz in care avem tabele uni-dimensionale
• doua variabile, caz in care avem tabele bi-dimensionale.
15
Tabelele de frecventa (serii statistice) bi-dimensionale au forma:
Var 1
Valorile variabilei Total
Var 2
Valorile variabilei Frecvente Frecventa marginala
Total Frecventa marginala Volumul esantionului
Construirea tabelelor de frecventa se poate face fie prin determinarea “manuala” a acestora fie
utilizand tehnici de calcul (excel, statgraphics, SPSS, stata, R).
In cazul variabilelor uni-dimensionale vom prezenta ambele abordari, iar pentru variabilele bi-
dimensionale doar abordarea bazata pe tehnica de calcul (Excel).
Reprezentarile grafice vor fi generate doar folosind tehnica de calcul (Excel).
Analizele statistice in Excel se fac din meniul Data – Data Analysis. By default, Excelul nu este
configurat pentru prelucrarile statistice si prin urmare, daca in meniul Data nu este vizibil Data
Analysis, trebuie configurat Excelul. Configurarea se face astfel:
• se acceseaza File
• se selecteaza Options
• se selecteaza Add-Ins
• pe coloana Name din lista se cauta pachetul Analysis ToolPack (atentie NU Analysis ToolPack
- VBA), se selecteaza si se apasa Go.
• se bifeaza Analysis ToolPack (atentie NU Analysis ToolPack - VBA) si se apasa OK.
16
• Pentru fiecare valoare unica a variabilei se calculeaza frecventa relativa, prin impartirea
frecventei absolute la volumul esantionului. Pentru firmele cu 3 angajati avem 9/50=0.18, iar
pentru cele cu 7 angajati avem 6/50=0.12. Frecventele relative se exprima in procente.
Tabelul frecventelor relative este:
0 1 2 3 4 5 6 7 8 9
𝑎𝑛𝑔𝑎𝑗𝑎𝑡𝑖: ( ).
6% 14% 4% 18% 8% 10% 6% 12% 16% 6%
Pentru a verifica daca tabelul frecventelor relative este corect determinat, trebuie ca suma
frecventelor relative sa fie 100%.
Interpretarea datelor: 9 firme din cele 50 analizate, adica 18% au 3 angajati (a fost interpretata
clasa marcata cu rosu in tabelele de frecvente).
Abordarea prin Excel:
Descrierea procesului:
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B), ce
va avea eticheta angajati.
2. Generare valori unice: Trebuie sa determinam valorile unice din cele 50 de date analizate.
Copiem toate valorile pe o noua coloana (Coloana D) si folosim eticheta valori unice.
Folosind optiunea Data - Remove Duplicates sunt filtrare pe Coloana D doar valorile unice,
care apoi sunt sortate crescator prin folosirea optiunii Home – Sort & Filter – Sort smallest
to largest.
3. Generarea tabelului frecventelor absolute: Pentru construirea tabelului de frecventa se
acceseaza meniul Data – Data Analysis si se selecteaza optiunea Histogram, care deschide
fereastra
17
In campul Input Range se selecteaza datele ce trebuie analizate (cele 50 de valori ale
variabilei angajati), aflate in exemplul nostru pe coloana B.
In campul Bin Range se selecteaza valorile unice, aflate in exemplul nostru pe coloana D.
Daca se selecteaza si etichetele (Angajati, date unice) aflate in celulele B2 si D2 atunci se
bifeaza optiunea Labels, altfel optiunea Labels ramane nebifata.
Trebuie sa alegem unde dorim sa generam tabelul de frecvente, fiind posibile 3 optiuni:
• in aceeasi fereastra Excel, incepand cu o celula anume: Output range
• intr-o pagina Excel noua: New Worksheet Ply
• intr-un document Excel nou: New Workbook.
Alegem sa generam tabelul de frecvente in aceeasi fereastra Excel si prin urmare selectam
optiunea Output Range, unde vom selecta celula incepand cu care vrem sa generam tabelul
(F2 in exemplul nostru).
Apasand butonul OK se genereaza tabelul frecventelor absolute.
4. Generarea tabelului frecventelor relative: nu este un proces automatizat in Excel. Prin
urmare noi scriem formulele de calcul. Pe coloana urmatoare (Coloana H in exemplul nostru)
a tabelului frecventelor absolute introducem formula de calcul a procentului (=G3/50 in
exemplul nostrum si apoi copiem aceasta formula pentru toate clasele).
Interpretarea datelor 13 firme din cele 50 analizate, adica 26% sunt din judetul Cluj (a fost
interpretata clasa marcata cu rosu in tabelele de frecvente).
Abordarea prin Excel:
18
Descrierea procesului
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B in
exemplul nostru), ce va avea eticheta judet.
2. Determinarea valorilor unice: Copiem datele pe o noua coloana (Coloana E in exemplul
nostru) si folosim eticheta valori unice judet. Folosind optiunea Data - Remove Duplicates
sunt filtrare pe Coloana E doar valorile unice.
3. Generarea codurilor: Excelul nu stie sa lucreze cu date calitative (cuvinte, atribute). Pentru a
rezolva aceasta deficienta a Excelului se folosesc coduri. Prin operatiunea de codificare
fiecare valoare calitativa unica primeste un cod numeric.
Codurile numerice se introduc de la tastatura pe o coloana distincta (Coloana F in exemplul
nostru), si se foloseste eticheta coduri.
Codurile numerice generate trebuie atasate si datelor ce le prelucram (cele aflate pe
Coloana B). Astfel pe Coloana C, in dreptul fiecarei valori se trec codurile corespunzatoare.
Operatiunea se poate face introducand codurile de la tastatura sau folosind functia
VLOOKUP. Coloana ce contine codurile (Coloana C) va primi eticheta coduri.
4. Generarea tabelului frecventelor absolute: se parcurg aceeasi pasi ca si in cazul datelor
cantitative discrete, dar acum se va lucre cu codurile (1, 2, 3, …) si nu cu datele calitative (CJ,
BN, BH, ….).
Se acceseaza meniul Data – Data Analysis si se selecteaza optiunea Histogram, care
deschide fereastra
In campul Input Range se selecteaza codurile pentru datele ce trebuie analizate, aflate in
exemplul nostru pe coloana C.
In campul Bin Range se selecteaza codurile unice, aflate in exemplul nostru pe coloana F.
Daca se selecteaza si etichetele (coduri) aflate in celulele C2 si F2 atunci se bifeaza optiunea
Labels, altfel optiunea Labels ramane nebifata.
Trebuie sa alegem unde dorim sa generam tabelul de frecvente, fiind posibile 3 optiuni:
• in aceeasi fereastra Excel, incepand cu o celula anume: Output range
• intr-o pagina Excel noua: New Worksheet Ply
19
• intr-un document Excel nou: New Workbook.
Alegem sa generam tabelul de frecvente in aceeasi fereastra Excel si prin urmare selectam
optiunea Output Range, unde vom selecta celula incepand cu care vrem sa generam tabelul
(H2 in exemplul nostru).
Apasand butonul OK se genereaza tabelul frecventelor absolute.
5. Generarea tabelului frecventelor relative: nu este un process automatizat in Excel. Prin
urmare noi scriem formulele de calcul. Pe coloana urmatoare (Coloana J in exemplul nostru)
a tabelului frecventelor absolute introducem formula de calcul a procentului (=I3/50 in
exemplul nostrum si apoi copiem aceasta formula pentru toate clasele).
• Se numara cate valori contine in fiecare interval, obtinandu-se astfel frecventele absolute. De
exemplu intervalul [69592; 253818] contine valori, iar intervalul (438044; 622270] contine
valori. Frecventele absolute se trec pe a doua linie a tabelului de frecvente, rezultand astfel
tabelul frecventelor absolute.
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
• Pentru fiecare interval se calculeaza frecventa relativa, prin impartirea frecventei absolute la
volumul esantionului. Pentru firmele cu CA intre 69592 si 253818 (primul interval) avem
20
10/50=0.2, iar pentru cele cu CA intre 622270 si 806496 (al patrulea interval) avem
10/50=0.2. Frecventele relative se exprima in procente. Tabelul frecventelor relative este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
20% 22% 20% 20% 18%
Interpretarea datelor 10 firme din cele 50 analizate, adica 20% au cifra de afaceri cuprinsa intre
69592 si 253818 lei (a fost interpretata clasa marcata cu rosu in tabelele de frecvente).
Abordarea prin Excel:
Descrierea procesului
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B in
exemplul nostru), ce va avea eticheta cifra de afaceri.
2. Determinarea capatului superior al intervalului: Conform algoritmului descris mai sus se
determina intervalele si se retine capatul superior al fiecarui interval. Acestea se trec pe o
coloana distincta (Coloana D in exemplul nostru) ce va avea eticheta capat superior.
3. Generarea tabelului frecventelor absolute: Pentru construirea tabelului de frecventa se
acceseaza meniul Data – Data Analysis si se selecteaza optiunea Histogram, care deschide
fereastra
In campul Input Range se selecteaza datele ce trebuie analizate (cele 50 de valori ale
variabilei cifra de afaceri), aflate in exemplul nostru pe coloana B.
In campul Bin Range se selecteaza capetele superioare ale intervalelor, aflate in exemplul
nostru pe coloana D.
Daca se selecteaza si etichetele (cifra de afaceri, capat superior) aflate in celulele B2 si D2
atunci se bifeaza optiunea Labels, altfel optiunea Labels ramane nebifata.
Trebuie sa alegem unde dorim sa generam tabelul de frecvente, fiind posibile 3 optiuni:
• in aceeasi fereastra Excel, incepand cu o celula anume: Output range
• intr-o pagina Excel noua: New Worksheet Ply
• intr-un document Excel nou: New Workbook.
Alegem sa generam tabelul de frecvente in aceeasi fereastra Excel si prin urmare selectam
optiunea Output Range, unde vom selecta celula incepand cu care vrem sa generam tabelul
(F2 in exemplul nostru).
21
Apasand butonul OK se genereaza tabelul frecventelor absolute.
6. Generarea tabelului frecventelor relative: nu este un proces automatizat in Excel. Prin
urmare noi scriem formulele de calcul. Pe coloana urmatoare (Coloana H in exemplul nostru)
a tabelului frecventelor absolute introducem formula de calcul a procentului (=G3/50 in
exemplul nostru si apoi copiem aceasta formula pentru toate clasele).
Apelam meniul Insert – Pivot table. In fereastra ce se deschide vom selecta valorile ce trebuie
analizate si celula de unde sa inceapa construirea tabelului pivot, iar apoi apasam OK.
Atentie: Se selecteaza inclusive eticheta (numele) pentru valorile ce trebuie analizate!
22
Prin mutarea (drag and drop) a etichetelor judet, angajati si val frecv in campurile Row Labels,
Column Labels si Values este generat in mod automat tabelul pivot.
Interpretare: 4 firme din cele 50 analizate au 3 angajati, iar sediul social este in Bihor.
Folosind frecventele marginale se obtin distributiile unidimensionale ale celor 2 variabile implicate:
judet si angajati.
Pe Coloanele B si C introducem cele 50 de valori ale variabilelor judet, respective cifra de afaceri, pe
Coloana D generam codurile corespunzatoare celor 5 intervale, iar pe Coloana E generam valorile 1
necesare calcularii frecventelor.
Apelam meniul Insert – Pivot table. In fereastra ce se deschide vom selecta valorile ce trebuie
analizate si celula de unde sa inceapa construirea tabelului pivot, iar apoi apasam OK.
Atentie: Se selecteaza inclusive eticheta (numele) pentru valorile ce trebuie analizate!
23
Prin mutarea (drag and drop) a etichetelor judet, cod CA si val frecv in campurile Row Labels, Column
Labels si Values este generat in mod automat tabelul pivot. Codurile 1, 2, 3, 4, 5 care apar pe primul
rand al tabelului reprezinta cele 5 intervale ale cifrei de afaceri
Interpretare: 4 firme din cele 50 analizate au cifra de afaceri intre 438044 lei si 62227 lei, iar sediul
social este in Bihor.
Folosind frecventele marginale se obtin distributiile unidimensionale ale celor 2 variabile implicate:
judet si cifra de afaceri.
Reprezentari grafice
Reprezentarile grafice ofera o vizualizare mai intuitiva, permitand in unele cazuri si vizualizarea unor
posibile pattern-uri.
Histograma poate fi generate simultan cu construirea tabelului de frecventa, prin bifarea optiunii
Chart Output, asa cum se poate vedea si in imaginea de mai jos
24
In cazul datelor calitative si a celor cantitative discrete, este mult mai intuitiv ca in locul histogramei
sa se foloseasca un grafic de tip Pie. Dupa generarea histogramei, aceasta poate fi schimbata usor
intr-un grafic Pie din optiunile graficului.
O alta modalitate de generare a graficelor consta in selectarea frecventelor obtinute prin construirea
tabelului de frecventa si generarea graficului droit din meniul Insert – Charts.
Exemple:
8
6
4
2
0
(69592 - 253818] (253818 - 438044] (438044 - 622270] (622270 - 806496] (806496 - 990722]
Cifra de afaceri
18% 26%
18%
16%
22%
CJ BN BH AB MM
25
4. Analiza datelor
4.1 Indici statistici
Tabelele de frecventa pot prezenta si distributia teritoriala sau temporala a unor date. In aceasta
situatie este util sa putem analiza modificarea frecventelor de la o clasa la alta, ceea ce se face
folosind indicii statistici.
Fie distributia:
𝑦1 𝑦2 𝑦3 𝑦𝑛−2 𝑦𝑛−1 𝑦𝑛
𝑌: ( 𝑓 𝑓 𝑓 ⋯ 𝑓 )
1 2 3 𝑛−2 𝑓𝑛−1 𝑓𝑛
Modificarea frecventelor de la o clasa la alta se studiaza folosind indicii statistici. Acestia pot fi
calculati cu:
baza fixa – frecventa analizata se raporteaza la frecventa primei clase (fi se
raporteaza la f1, pentru orice 𝑖 = ̅̅̅̅̅
1, 𝑛)
baza in lant – frecventa analizata se raporteaza la frecventa anterioara (fi se
raporteaza la fi-1, pentru orice 𝑖 = ̅̅̅̅̅
1, 𝑛)
Indicii statistici sunt:
1. Diferenta absoluta – arata cu cat se modifica indicatorul in clasa analizata fata de clasa de
referinta si se calculeaza astfel:
cu baza fixa ∆= 𝒇𝒊 − 𝒇𝟏 , ∀𝒊 = ̅̅̅̅̅
𝟏, 𝒏
cu baza in lant ∆= 𝒇𝒊 − 𝒇𝒊−𝟏 , ∀𝒊 = ̅̅̅̅̅𝟏, 𝒏
O valoare negativa pt ∆ indica scaderea indicatorului fata de clasa de referinta, iar o valoare
pozitiva pt ∆ indica cresterea indicatorului fata de clasa de referinta.
2. Diferenta relativa – arata % cu care se modifica indicatorul in clasa analizata fata de clasa de
referinta si se calculeaza astfel:
𝒇
cu baza fixa 𝑹 = (𝒇 𝒊 − 𝟏) × 𝟏𝟎𝟎, ∀𝒊 = ̅̅̅̅̅
𝟏, 𝒏
𝟏
𝒇𝒊
cu baza in lant 𝑹 = (𝒇 − 𝟏) × 𝟏𝟎𝟎, ∀𝒊 = ̅̅̅̅̅
𝟏, 𝒏
𝒊−𝟏
O valoare negativa pt 𝑅 indica scaderea indicatorului fata de clasa de referinta, iar o valoare
pozitiva pt 𝑅 indica cresterea indicatorului fata de clasa de referinta.
3. Greutatea specifica – arata ponderea unei clase in total si se calculeaza astfel:
𝒇
𝒈𝒊 = 𝒊 × 𝟏𝟎𝟎, 𝒊 = ̅̅̅̅̅
𝒕𝒐𝒕𝒂𝒍
𝟏, 𝒏
Exemplu: Se analizeaza vanzarile lunare ale unei societati comerciale ce are 6 puncte de lucru.
Distributia lunara a vanzarilor este:
𝐽𝑎𝑛 𝐹𝑒𝑏 𝑀𝑎𝑟 𝐴𝑝𝑟 𝑀𝑎𝑦 𝐽𝑢𝑛 𝐽𝑢𝑙 𝐴𝑢𝑔 𝑆𝑒𝑝 𝑂𝑐𝑡 𝑁𝑜𝑣 𝐷𝑒𝑐
𝑣𝑎𝑛𝑧 𝑙𝑢𝑛𝑎𝑟𝑒: ( )
6500 7000 7300 8000 8200 9000 10000 8000 7800 7500 7200 6800
Iar distributia vanzarilor pe cele 6 puncte de lucru este:
𝑃𝐿1 𝑃𝐿2 𝑃𝐿3 𝑃𝐿4 𝑃𝐿5 𝑃𝐿6
𝑣𝑎𝑛𝑧 𝑃𝐿: ( )
15000 16000 18000 16500 15000 12800
Indicii statistici calculati pentru vanzarile lunare si vanzarile punctelor de lucru sunt:
26
diferenta absoluta diferenta relative
greutatea
luna vanzari
baza fixa baza lant baza fixa baza lant specifica
Jan 6500 0 x 0.00% X 7%
Feb 7000 500 500 7.69% 7.69% 8%
Mar 7300 800 300 12.31% 4.29% 8%
Apr 8000 1500 700 23.08% 9.59% 9%
May 8200 1700 200 26.15% 2.50% 9%
Jun 9000 2500 800 38.46% 9.76% 10%
Jul 10000 3500 1000 53.85% 11.11% 11%
Aug 8000 1500 -2000 23.08% -20.00% 9%
Sep 7800 1300 -200 20.00% -2.50% 8%
Oct 7500 1000 -300 15.38% -3.85% 8%
Nov 7200 700 -300 10.77% -4.00% 8%
Dec 6800 300 -400 4.62% -5.56% 7%
Interpretare:
Vanzarile in luna Martie au crescut cu 800 lei, adica au crescut cu cu 12.31% fata de luna Ianuarie.
Vanzarile in luna Martie au crescut cu 300 lei, adica au crescut cu cu 4.29% fata de luna Februarie.
Vanzarile in luna August au crescut cu 1500 lei, adica au crescut cu 23.08% fata de luna Ianuarie.
Vanzarile in luna August au scazut cu 2000 lei, adica au scazut cu 20% fata de luna Iulie.
In luna Iunie s-au realizat 10% din vanzarile anuale.
Lasam in seama cititorului interpretarea valorilor marcate cu rosu, folosind modelul anterior.
27
1. Valoarea medie
Valoarea medie reprezinta acea valoare ce ar avea-o datele analizate daca toti factorii de influenta
ar actiona la fel.
Valoarea medie se calculeaza DOAR pentru date cantitative.
Notatie: 𝑥̅ .
Calculul valorii medii pentru date cantitative discrete.
Consideram tabelul frecventelor absolute pentru un set de n date cantitative discrete
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 ), 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛.
1 2 𝑛−1 𝑓𝑛
28
• mijlocul intervalului (438044; 622270] este (438044+622270)/2=530157;
• mijlocul intervalului (622270; 806496] este (622270+806496)/2=714383;
• mijlocul intervalului (806496; 990722] este (806496+990722)/2=898609.
Cifra de afaceri medie a celor 50 de firme se calculeaza astfel:
161705 ∗ 10 + 345931 ∗ 11 + 530157 ∗ 10 + 714383 ∗ 10 + 898609 ∗ 9
𝑥̅ = = 519103.4
50
Interpretare: Aproximam ca cifra de afaceri medie a celor 50 de firme analizate este de 519103.4 lei.
Rezultatele obtinute prin aplicarea in Excel a formulei AVERAGE sunt: 4.6 in cazul angajatilor si
532604 in cazul cifrei de afaceri.
Interpretare: Numarul mediu de angajati in cele 50 de firme analizate este de 4.6 persoane.
Interpretare: Cifra de afaceri medie a celor 50 de firme analizate este de 532604 lei.
Cifra de afaceri medie a celor 50 de firme, calculata in Excel folosind formula AVERAGE, este de
532604, valoare ce difera de cea calculate prin aplicarea formulei 𝑥̅ si care este de 519103.4 lei.
Astfel este evidentiata aproximarea generata de formula 𝑥̅ si amintita in randurile de mai sus.
Mentionam ca 532604 lei este valoarea REALA a cifrei de afaceri medie a celor 50 de firme.
2. Imprastierea datelor in jurul mediei (dispersia si abaterea medie patratica)
Factori de influenta ce actioneaza asupra elementelor statistice face ca datele statistice sa fie diferite
(in general) de valoarea medie. De exemplu, nici una din cele 50 de firme analizate nu are 4.6
angajati, respective o cifra de afaceri de 519103.4 lei (532604 lei).
Prin urmare, apar o serie de abateri intre datele analizate si valoarea medie a acestora. Obiectivul
nostru in acest punct este de a masura aceasta abaterea/imprastiere.
Dispersia
Dispersia masoara imprastierea datelor fata de valoarea medie.
Se noteaza cu s2 si in mod evident se calculeaza doar pentru date cantitative.
Calculul dispersiei in cazul datelor cantitative discrete
29
Consideram tabelul frecventelor absolute pentru un set de n date cantitative
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 ), 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛
1 2 𝑛−1 𝑓𝑛
2
(𝑥1 − 𝑥̅ )2 𝑓1 + (𝑥2 − 𝑥̅ )2 𝑓2 + ⋯ + (𝑥𝑛−1 − 𝑥̅ )2 𝑓𝑛−1 + (𝑥𝑛 − 𝑥̅ )2 𝑓𝑛
𝑠 =
𝑛−1
Exemplu: In cazul numarului de angajati din cele 50 de firme, pentru care am calculat anterior ca
media este 𝑥̅ = 4.6, dispersia se calculeaza astfel:
(0 − 4.6)2 ∗ 3 + (1 − 4.6)2 ∗ 7 + (2 − 4.6)2 ∗ 2 + ⋯ + (9 − 4.6)2 ∗ 3
𝑠2 = = 7.84
50 − 1
La calcularea dispersiei s-au folosit mijloace intervalelor determinate anterior pentru calcularea
valorii medii.
Interpretare: Datorita ridicarii la patrat ce apare in formula dispersiei se obtine o unitate de masura
ce nu are semnificatie si prin urmare dispersia nu se interpreteaza.
Variatia numarului de angajati fata de media de 4.6 persoane este de 7.84 persoane 2. Unitatea de
masura persoane2 nu are semnificatie.
Variatia cifrei de afaceri fata de media de 519103.4 lei este de 67061126345.68 lei2. Unitatea de
masura lei2 nu are semnificatie.
Mentionam ca, valoarea de 67061126345.68 lei2 reprezinta o APROXIMARE a dispersiei datelor din
esantion.
30
Calcularea dispersiei in Excel pentru date cantitative discrete si continue
Formula de calculul a dispersiei este
=VAR(datele analizate)
folosindu-se atat pentru date cantitative discrete cat si pentru date cantitative continue.
Exemplu: Imaginile urmatoare prezinta calculul dispersiei pentru numarul de angajati si cifra de
afaceri in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri
Rezultatele obtinute prin aplicarea in Excel a formulei VAR sunt: 7.84 in cazul angajatilor si
82696919532 in cazul cifrei de afaceri.
Interpretare: Datorita unitatii de masura, dispersia de 7.84 persoane2 nu se interpreteaza.
Interpretare: Datorita unitatii de masura, dispersia de 82696919532 lei2 nu se interpreteaza.
Dispersia cifrei de afaceri a celor 50 de firme fata de media de 532604 lei, calculata in Excel folosind
formula VAR, este de 82696919532 lei2, valoare ce difera de cea calculata prin aplicarea formulei 𝑠 2 ,
care este de 67061126345.68 lei2. Astfel este evidentiata aproximarea generata de formula 𝑠 2 si
amintita in randurile de mai sus.
Mentionam ca 82696919532 lei2 reprezinta valoarea REALA a dispersiei datelor din esantion.
Calculul abaterii pentru date cantitative discrete si continue se face folosind formula 𝑠 = √𝑠 2 .
Exemplu: Abaterea numarului de angajati din cele 50 de firme fata de media de 4.6 persoane se
calculeaza astfel
𝑠 = √7.84 = 2.8
Interpretare: Numarul de angajati din cele 50 de firme se abate de la media de 4.6 persoane in
medie cu 2.8 persoane.
Abaterea cifrei de afaceri a celor 50 de firme fata de media de 519103.4 lei se calculeaza astfel
𝑠 = √67061126345.68 = 258961.6
31
Interpretare: Aproximam ca cifra de afaceri a celor 50 de firme se abate de la media de 519103.4 lei
in medie cu 258961.6 lei.
Calcularea abaterii in Excel pentru date cantitative discrete si continue
Formula de calculul a abaterii este
=STDEV(datele analizate)
folosindu-se atat pentru date cantitative discrete cat si pentru date cantitative continue.
Exemplu: Imaginile urmatoare prezinta calculul abaterii pentru numarul de angajati si cifra de afaceri
in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri
Rezultatele obtinute prin aplicarea in Excel a formulei STDEV sunt: 2.8 in cazul angajatilor si 287571
in cazul cifrei de afaceri.
Interpretare: Numarul de angajati din cele 50 de firme se abate de la media de 4.6 persoane in
medie cu 2.8 persoane.
Interpretare: Cifra de afaceri a celor 50 de firme se abate de la media de 532604 in medie cu 287571
lei.
Abaterea, calculata in Excel folosind formula STDEV, a cifrei de afaceri a celor 50 de firme fata de
media de 532604 lei este de 287571 lei. Valoare difera de cea calculata prin aplicarea formulei s,
care este de 258961.6 lei. Este evidentiata aproximarea generata de formula s si amintita in
randurile de mai sus.
Mentionam ca 287571 lei reprezinta valoarea REALA a abaterii datelor din esantion.
Coeficientul de variatie
Se pune intrebarea daca imprastierea datelor analizate in jurul mediei este mare sau nu? Asa cum
am vazut in randurile de mai sus, imprastierea este masurata prin dispersie/abatere, aceasta fiind un
numar.
Privind un numar izolat nu putem stabili daca el este mare sau nu. De exemplu, 1 este o valoare
mare? Dar 1000000? Pentru a stabili daca un numar este mare sau mic, el trebuie comparat cu o
valoare de referinta.
Prin urmare, pentru a evalua daca imprastierea datelor in jurul mediei este mare sau nu se
raporteaza abaterea la valoarea medie.
Calculul coeficientului de variatie pentru date cantitative discrete si continue se face folosind
𝑠
formula 𝑉𝑥 = 𝑥̅ × 100. Coeficientul de variatie se exprima in procente.
32
Prin conventie in domeniul economic, se considera ca daca Vx < 40%, atunci imprastierea datelor in
jurul mediei este mica.
Exemplu: In cazul analizei numarului de angajati din cele 50 de firme, media calculata este 4.6
persoane cu o abatere de 2.8 persoane. Coeficientul de variatie are valoarea
2.8
𝑉𝑥 = × 100 = 61% > 40%.
4.6
Interpretare: Imprastierea datelor in jurul mediei este mare si putem afirma ca numarul mediu de
angajati de 4.6 persoane nu caracterizeaza bine cele 50 de firme analizate.
In cazul analizei cifrei de afaceri a celor 50 de firme, media calculata este de 519103.4 lei cu o
abatere de 258961.6 lei. Coeficientul de variatie are valoarea
258961.6
𝑉𝑥 = × 100 = 49.8% > 40%.
519103.4
Interpretare: Imprastierea datelor in jurul mediei este mare si putem afirma ca cifra de afaceri medie
de 519103.4 lei nu caracterizeaza bine cele 50 de firme analizate.
33
Interpretare: Cele mai multe firme din cele 50 analizate au sediul social in judetul Cluj.
Exemplu: Consideram ca distrubutia culorii pentru 80 de automobile vandute de un dealer este:
𝑎𝑙𝑏𝑎𝑠𝑡𝑟𝑢 𝑛𝑒𝑔𝑟𝑢 𝑎𝑙𝑏 𝑔𝑟𝑖
𝑐𝑢𝑙𝑜𝑎𝑟𝑒: ( )
25 25 20 10
Cea mai mare frecventa este 25 si ea corespunde culorilor albastru si negru. Variabila culoare este
plurimodala (are mai multe valori modale – doua in acest exemplu), iar valorile modale sunt
Mo1=albastru si Mo2=negru.
Interpretare: Culorile cele mai solicitate pentru cele 80 de masini comercializate sunt albastru si
negru.
34
∆2 = 𝑓𝑘 − 𝑓𝑘+1 (frecventa intervalului modal – frecventa intervalului urmator)
𝑙 = 𝑥𝑘 − 𝑥𝑘−1 (lungimea intervalului modal).
Modala calculata prin aplicarea acestei formule este o APROXIMARE a modalei celor 50 de valori
analizate.
Exemplu: Distributia cifrei de afaceri pentru cele 50 de firme analizate este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
Frecventa cea mai mare este 𝑓𝑘 = 11. Intervalul corespunzator este intervalul modal, acesta fiind
(𝑥𝑘−1 − 𝑥𝑘 ] = (253818; 438044]. Valoarea modala o calculam astfel:
(11 − 10)
𝑀𝑜 = 253818 + (438044 − 253818) = 345931
(11 − 10) + (11 − 10)
Interpretare: Din cele 50 de firme analizate, cel mai frecvent avem firme cu CA de 345931 lei.
Rezultatele obtinute prin aplicarea in Excel a formulei MODE sunt: 3 in cazul angajatilor si #NA in
cazul cifrei de afaceri.
Interpretare: Din cele 50 de firme analizate, cele mai frecvente sunt cele cu 3 angajati.
Interpretare: In cazul variabilei cifra de afaceri, functia MODE nu returneaza nici o valoare. Aceasta
inseamna ca variabila este plurimodala (mai multe valori modale). In exemplu analizat, fiecare cifra
de afaceri este unica si prin urmare fiecare valoare apare cu frecventa 1.
Abaterea, calculata in Excel folosind formula MODE, difera de cea calculata prin aplicarea formulei
MO. Este evidentiata aproximarea generata de formula MO si amintita in randurile de mai sus.
In cazul datelor calitative formula MODE nu este functionala. Totusi formula poate fi aplicata daca
datele calitative sunt codificate cu date numerice, asa cum a fost cazul si la construirea tabelului de
frecventa.
Descrierea procesului
35
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B in
exemplul nostru), ce va avea eticheta judet.
2. Determinarea valorilor unice: Copiem datele pe o noua coloana (Coloana E in exemplul
nostru) si folosim eticheta valori unice judet. Folosind optiunea Data - Remove Duplicates
sunt filtrare pe Coloana E doar valorile unice.
3. Generarea codurilor: Excelul nu stie sa lucreze cu date calitative (cuvinte, atribute). Pentru a
rezolva aceasta deficienta a Excelului se folosesc coduri. Prin operatiunea de codificare
fiecare valoare calitativa unica primeste un cod numeric.
Codurile numerice se introduc de la tastatura pe o coloana distincta (Coloana F in exemplul
nostru), si se foloseste eticheta coduri.
Codurile numerice generate trebuie atasate si datelor ce le prelucram (cele aflate pe
Coloana B). Astfel pe Coloana C, in dreptul fiecarei valori se trec codurile corespunzatoare.
Operatiunea se poate face introducand codurile de la tastatura sau folosind functia
VLOOKUP. Coloana ce contine codurile (Coloana C) va primi eticheta coduri.
4. Determinarea valorii modale pentru coduri: se face aplicand formula MODE pentru codurile
generate pe Coloana C.
5. Identificarea valorii modale folosind modala codurilor.
Exemplu: Imaginea urmatoare prezinta determinarea modalei atunci cand este analizat sediul social
al celor 50 de firme.
Rezultatul obtinut prin aplicarea in Excel a functiei MODE asupra codurilor generate in Coloana C
este 1. Cautand in Coloanele E si F, deduce ca 1 este codul numeric corespunzator judetului Cluj. Prin
urmare, valoarea modala este judetul Cluj.
Interpretare: Din cele 50 de firme analizate, cele mai multe au sediul social in judetul Cluj.
4. Quartilele
Quartilele reprezinta acele valori numerice ce impart datele analizate in 4 parti egale.
Notatii si denumiri: Q1 - quartile inferioara
Q2 sau Me - quartila mijlocie sau mediana
Q3 – quartile superioara
Distributia datelor analizate in raport cu quartilele se prezinta astfel
[𝑣𝑎𝑙 min − 𝑄1 ] (𝑄1 − 𝑄2 ] (𝑄2 − 𝑄3 ] (𝑄3 − 𝑣𝑎𝑙 𝑚𝑎𝑥]
𝑋: ( )
25% 25% 25% 25%
semnificatia acestora fiind:
36
Q1 delimiteaza cele mai mici valori;
Q2 (Me) imparte datele in 2 parti egale (jumatate sunt mai mici decat Q2 si jumatate mai mari);
Q3 delimiteaza cele mai mari valori.
Chiar din definitia quartilelor (valori numerice) este evident ca acestea pot fi calculate doar pentru
date cantitative.
Calculul quartilelor in cazul datelor cantitative discrete
Consideram tabelul frecventelor absolute pentru un set de n date cantitative discrete
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 )
1 2 𝑛−1 𝑓𝑛
Calcularea quartilelor este un process mai complex ce presupune parcurgerea urmatorilor pasi:
1. Se aranjaza datele in ordine crescatoare
2. Determinarea rangului quartilei (rk) – rangul quartilei indica pozitia quartilei in sirul de
valori, adica spus in limbaj natural ne arata a cata valoare este quartile in sirul de n valori.
Rangul quartilei Q1 este r1 si se calculeaza tinand cont ca in fata quartilei Q1 sunt un
sfert din valorile analizate. Astfel
1
𝑟1 = 𝑛
4
Rangul quartilei Q2 este r2 si se calculeaza tinand cont ca in fata quartilei Q2 sunt
jumatate din valorile analizate. Astfel
1
𝑟2 = 𝑛
2
Rangul quartilei Q3 este r3 si se calculeaza tinand cont ca in fata quartilei Q3 sunt trei
sferturi din valorile analizate. Astfel
3
𝑟3 = 𝑛
4
3. Determinarea quartilei
daca 𝑟𝑘 ∈ 𝑍 (rangul quartilei este numar intreg: 2, 3, 10) atunci quartila se calculeaza
astfel:
𝑥𝑟 + 𝑥𝑟𝑘 +1
𝑄𝑘 = 𝑘
2
daca 𝑟𝑘 ∉ 𝑍 (rangul quartilei nu este numar intreg: 2.5, 3.75, 10.25) atunci quartila
se calculeaza astfel:
𝑄𝑘 = 𝑥[𝑟𝑘 ]+1
Rangul quartilei (rk) indica pozitia quartilei in acest sir. Avem asadar:
37
1
rangul quartilei Q1 este 𝑟1 = 10 = 2.5, ceea ce inseamna ca quartila Q1 va fi plasata
4
undeva in zona pozitiei 2.5 in sirul de 10 valori.
Deoarece r1=2.5 nu este numar intreg, prima quartila va fi calculata astfel:
𝑄1 = 𝑥[2.5]+1 = 𝑥2+1 = 𝑥3 = 𝑎𝑑𝑖𝑐𝑎 𝑣𝑎𝑙𝑜𝑎𝑟𝑒𝑎 𝑎𝑓𝑙𝑎𝑡𝑎 𝑝𝑒 𝑝𝑜𝑧 3 𝑖𝑛 𝑠𝑖𝑟 = 1
1
rangul quartilei Q2 este 𝑟1 = 2 10 = 5, cee ace inseamna ca quartila Q2 va fi plasata
undeva in zona pozitiei 5 in sirul de 10 valori.
Deoarece r2=5 este numar intreg, quartila mijlocie (mediana) va fi calculata astfel:
𝑥5 + 𝑥5+1 𝑥5 + 𝑥6 2 + 3
𝑄2 = = = = 2.5
2 2 2
3
rangul quartilei Q3 este 𝑟3 = 4 10 = 7.5, ceea ce inseamna ca quartila Q3 va fi
plasata undeva in zona pozitiei 7.5 in sirul de 10 valori.
Deoarece r3=7.5 nu este numar intreg, quartila a treia va fi calculata astfel:
𝑄3 = 𝑥[7.5]+1 = 𝑥7+1 = 𝑥8 = 𝑎𝑑𝑖𝑐𝑎 𝑣𝑎𝑙𝑜𝑎𝑟𝑒𝑎 𝑎𝑓𝑙𝑎𝑡𝑎 𝑝𝑒 𝑝𝑜𝑧 8 𝑖𝑛 𝑠𝑖𝑟 = 4
38
Deoarece r2=25 este numar intreg, a doua quartila (mediana) o vom calcula astfel:
𝑥25 + 𝑥25+1 𝑥25 + 𝑥26
𝑄2 = =
2 2
In continuare trebuie sa identificam care sunt a 25-a si a 26-a valoare in sirul de 50 de valori.
Folosind rationamentul descries mai sus, in care adunam frecventele calselor pana cand ajungem la
pozitia cautata, obtinem ca 𝑥25 = 4 si 𝑥26 = 5, ceea ce inseamna ca
𝑥25 + 𝑥26 4 + 5
𝑄2 = = = 4.5
2 2
Deoarece r3=37.5 nu este numar intreg, a treia quartila o vom calcula astfel:
𝑄3 = 𝑥[37.5]+1 = 𝑥37+1 = 𝑥38 = 𝑎𝑑𝑖𝑐𝑎 𝑎 38 𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑑𝑖𝑛 𝑠𝑖𝑟𝑢𝑙 𝑑𝑒 50 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑖
In continuare trebuie sa identificam care este a 38-a valoare in sir. Folosind rationamentul descries
mai sus, in care adunam frecventele calselor pana cand ajungem la pozitia cautata, obtinem ca 𝑥38 =
7, ceea ce inseamna ca
𝑄3 = 7.
Interpretare: Q1 Un sfert din firmele analizate au mai putin de 3 angajati.
Q2 Jumatate din firmele analizate au mai putin de 4.5 angajati.
Q3 Un sfert din firmele analizate au mai mult de 7 angajati.
39
Valorile quartilelor astfel calculate reprezinta APROXIMARI ale quartilelor reale la nivel de esantion.
Exemplu: Sa ne reamintim ca distributia cifrei de afaceri in cele 50 de firme analizate este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
Deoarece esantionul analizat contine 50 de valori, rangurile celor 3 quartile vor fi:
1
𝑟1 = 50 = 12.5
4
1
𝑟2 = 50 = 25
2
3
𝑟3 = 50 = 37.5
4
Rangul primei quartile este 𝑟1 = 12.5. Primul interval contine 10 valori, deci Q1 nu este in primul
interval. Luand in considerare si al doilea interval, ajungem pana la valoarea a 21-a in sirul de 50 de
valori. Prin urmare 𝑄1 ∈ (253818; 438044].
Calcularea valorii lui Q1 se face astfel:
12.5 − 10
𝑄1 = 253818 + 184226 = 295687.5
11
Interpretare: Un sfert din cele 50 de firme analizate au cifra de afaceri intre 253818 si 295687.5 lei.
Rangul quartilei a doua este 𝑟2 = 25. Pentru determinarea intervalului ce contine a doua quartila
adunam frecventele pana cand ajungem la valoarea de 25. Astfel, 𝑄2 ∈ (438044; 622270].
Calcularea valorii lui Q2 se face astfel:
25 − (10 + 11)
𝑄2 = 438044 + 184226 = 511734.4
10
Interpretare: Jumatate din cele 50 de firme analizate au cifra de afaceri intre 253818 si 511734.4 lei.
Rangul quartilei a treia este 𝑟3 = 37.5. Pentru determinarea intervalului ce contine a treia quartila
adunam frecventele pana cand ajungem la valoarea de 37.5. Astfel, 𝑄3 ∈ (622270; 806496].
Calcularea valorii lui Q3 se face astfel:
37.5 − (10 + 11 + 10)
𝑄3 = 622270 + 184226 = 742016.9
10
Interpretare: Un sfert din cele 50 de firme analizate au cifra de afaceri intre 742016.9 si 990722 lei.
40
Exemplu: Imaginile urmatoare prezinta calculul quartilelor pentru numarul de angajati si cifra de
afaceri in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri
Dupa prezentarea celor 4 categorii de statistici consideram util sa facem un scurt rezumat si o scurta
analiza a lor:
41
1. Statisticile (parametrii) tendintei centrale – indica pozitia in jurul careia se grupeaza
ansamblul datelor studiate. Din aceasta categorie fac parte: valoarea medie (𝑥̅ ), valoarea
modala (Mo) si mediana (Me).
2. Statisticile (parametrii) de structura – arata structura datelor analizate in raport cu variabila
considerata. Din aceasta categorie fac parte quartilele.
3. Statisticile (parametrii) variatiei – arata imprastierea datelor analizate in jurul valorii medii.
Din aceasta categorie fac parte: dispersia (s2), abaterea (s) si coeficientul de variatie (Vx).
Relatia de ordine existent intre valoarea media, valoarea modala si mediana furnizeaza informatii
suplimentare despre distributia datelor, astfel:
1. Daca 𝑥̅ = 𝑀𝑜 = 𝑀𝑒, atunci datele au o distributie simetrica.
2. Daca valorile celor trei statistici nu sunt egale, atunci datele au o distributie asimetrica, fiind
posibile doua situatii:
Asimetrie pozitiva, daca 𝑀𝑜 ≤ 𝑀𝑒 ≤ 𝑥̅
42
4.3 Analiza legaturii intre variabile
Pentru datele colectate din esantion se pot obtine informatii utile si prin analiza legaturilor ce pot sa
apara intre variabile. Astfel pot sa apara indicii despre existenta unor factori de influenta. In acest
context vom lucra cu variabile dependente si variabile independente.
Legaturile dintre variabile pot fi studiate, de exemplu, folosind coeficientul de corelatie si coeficientul
de determinatie. Acesti coeficienti pot fi calculate doar pentru date cantitative.
Sa presupunem ca datele colectate dintr-un esantion de volum n studiat in raport cu doua variabile X
si Y sunt:
X Y
x1 y 1
x2 y 2
⋮ ⋮
xi y i
⋮ ⋮
xn y n
Prin conventie, variabila dependenta este notata Y, iar variabila independenta este notata X.
Coeficientul de corelatie
Coeficientul de corelatie (r) – arata daca exista sau nu legatura intre variabilele X si Y, iar daca
legatura exista indica tipul si intensitatea ei.
Coeficientul de corelatie se calculeaza folosind formula
𝑛∑𝑥𝑦 − ∑𝑥∑𝑦
𝑟=
√𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ∗ √𝑛 ∑ 𝑦 2 − (∑ 𝑦)2
Coeficientul de corelatie r poate avea valori doar in intervalul [−1; 1 ].
Indicii privind existenta legaturii
Daca 𝑟 = 0, atunci intre X si Y nu exista legatura.
Daca 𝑟 ≠ 0, atunci intre X si Y exista legatura.
Indicii privind tipul legaturii (directa sau indirecta)
Legatura dintre X si Y este:
Directa, daca 𝑟 ∈ (0; 1].
In cazul legaturii directe, sensul de modificare a datelor este acelasi. Daca valorile lui
X cresc, atunci si valorile lui Y cresc.
Indirecta, daca 𝑟 ∈ [−1; 0).
In cazul legaturii indirecte, sensul de modificare a datelor este opus. Daca valorile lui
X cresc, atunci si valorile lui Y scad.
Indicii privind intensitatea legaturii (cat de puternica este legatura intre X si Y)
Legatura dintre X si Y este:
Slaba, daca 𝑟 ∈ (0; 0.3] sau 𝑟 ∈ [−0.3; 0)
Medie, daca 𝑟 ∈ (0.3; 0.7] sau 𝑟 ∈ [−0.7; −0.3)
Puternica, daca 𝑟 ∈ (0.7; 1] sau 𝑟 ∈ [−1; −0.7)
43
Coeficientul de determinatie
Coeficientul de determinatie (r2) – arata in ce % variatia variabilei dependente este influentata de
variatia variabilei independente.
Coeficientul de determinatie se calculeaza prin ridicarea la patrat a valorii coeficientului de corelatie.
Coeficientul de determinatie se exprima in %.
Exemplu:
Consideram cifra de afaceri si numarul de angajati in cazul a 10 firme si dorim sa analizam existenta
unei posibile legaturi intre cele doua variabile. In mod logic cifra de afaceri este variabila
independenta (X), iar numarul de angajati este variabila dependenta (Y). Datele analizate sunt:
44