Nothing Special   »   [go: up one dir, main page]

Referat La Tema Reprezentarea Tabelara A Datelor Si Elemente Asociate

Descărcați ca rtf, pdf sau txt
Descărcați ca rtf, pdf sau txt
Sunteți pe pagina 1din 16

Ministerul Educației, Culturii și Cercetării al Republicii Moldova 

Universitatea Tehnică a Moldovei 


Facultatea Calculatoare, Informatică și Microelectronică 
Departamentul Ingineria Software și Automatică 
 
 
 
 
 
REFERAT 

La disciplina: Analiză exploratorie a datelor 


Tema: Reprezentarea tabelară a datelor și elemente asociate cu
noțiuni din TP 
 

Au efectuat (gr. TIA-221): Suruceanu Olga 


Leah Arcadie 
Tcacenco Svetlana 
Bucari Eduard 
Volchivschi Arina 
Bulmaga Jana  
 
A verificat: prof., dr. univ.: Leahu Alexei 
 
 

Chișinău  2022 
1
CUPRINS 
 
INTRODUCERE…………………………….…………………………………...2 
1.NOTIUNI DIN TP.....………….........…………………………………….........4 
1. Caracteristici (variabile) statistice și serii statistice.............................5 
2. Seria statistică......................................................................................7 
3. Reprezentarea seriilor statistice de distribuție unidimensională..........8 
2. Reprezentarea tabelara a datelor....................................................................11 
2.1.    Reprezentarea de tip Stem-and-Leaf............................................................11 
2.2.    Reprezentarea tabelara..................................................................................13 
2.3. Reprezentarea seriei statistică de distribuție bidimensională..................13 
 
CONCLUZII.........................................................................................................15 
BIBLIOGRAFIE...................................................................................................15

2
INTRODUCERE
 
Teoria probabilităților este o ramură a matematicii care studiază modul în care se
desfășoară fenomenele aliatoare, opuse celor numite deterministe. În lumea înconjurătoare,
fenomenele deterministe ocupă doar o mică parte. Imensa majoritate a fenomenelor din natură și
societate sunt  (aliatoare). Studiul acestora nu poate fi făcut pe cale deterministă, de aceea, știința
hazardului a apărut ca o necesitate. 
Aplicarea matematicii la studierea fenomenelor aliatoare se bazează pe faptul că, prin
repetarea de mai multe ori a unui experiment, în condiții practic identice, frecvența relativă a
apariției unui anumit rezultat (raportul dintre numărul experimentelor în care apare rezultatul și
numărul tuturor experimentelor efectuate) este aproximativ același, oscilând în jurul unui număr
constant. Dacă acest lucru se întâmplă, atunci unui eveniment dat i se poate asocia un număr,
anume probabilitatea sa.  
Această legătură între structura unui câmp de evenimente și număr este o reflectare în
matematică a transformării calității în cantitate. Problema convertirii în număr a unui câmp de
evenimente revine la a defini o funcție numerică pe această structură, care să fie o măsură a
posibilităților de realizare a evenimentelor. Realizarea unui eveniment fiind probabilă, această
funcție se numește probabilitate. 
  Apariția Teoriei Probabilităților ca ramură a Matematicii datează din sec. XVII și este legată de
numele marilor matematicieni Blaise Pascal (1623-1662), Pierre Fermat (1601-1665), Christian
Huygens (1629-1695) și Jacob Bernoulli (1654-1705), plecând de la rezolvarea unor probleme
legate de jocurile de noroc.  
Începând cu secolul XIX, statistica prinde conturul științei care actualmente are drept obiect de
studiu metodele, procedeele de colectare, organizare, prelucrare, analiza si interpretare a datelor
ce vizează rezultatele observărilor făcute asupra fenomenelor sau experimentelor aliatoare. 
Acea parte a statisticii care are drept obiect de studiu metodele, procedeele de colectare,
organizare si prelucrare a datelor statistice este cunoscuta sub denumirea de Statistica
Descriptiva sau Analiza Exploratorie a Datelor. Statistica moderna, mai exact, acea parte a
Statisticii care se numește Statistica matematica , bazându-se esențial pe realizările, științelor
matematice, folosește din plin Teoria Probabilităților.  
Tema proiectului este reprezentarea datelor statistice care reprezintă o metoda de
prezentare a analizei si interpretării datelor statistice care oferă o imagine intuitiva si imediata
asupra datelor studiate. Rezultatele prelucrării statistice a datelor sunt prezentate in tabele. Aceste
forme de prezentare a datelor se utilizează la toate operațiile de manifestare logica a operațiilor
dintr-o colectivitate, pentru a decide succesiunea logica a operațiilor de prelucrare ulterioara. In
acest proiect voi descrie forma de reprezentare tabelara a datelor statistice si voi formula
concluzii asupra acesteia. 
In aplicațiile Teoriei Probabilităților se întâlnesc adesea situații care nu pot fi modelate de
o singura variabila aliatoare, ci de doua sau mai multe, acestea formând un vector aliator, cu
doua sau mai multe componente. Un vector aliator cu două componente (X, Y ) se numește si
variabila aliatoare bidimensionala, pe care o vom utiliza in proiectul dat. 

3
I. NOTIUNI DIN TEORIA PROBABILITATII
1.1. Caracteristici (variabile) statistice și serii statistice
 
Caracteristica statistică desemnează însușirea, proprietatea, trăsătura comună unităților
unei colectivități statistice, reținută în programul statistic pentru a fi înregistrată și care capătă
accepțiuni sau valori diferite de la o unitate la alta sau de la un grup de unități la altul. Exemple
de caracteristici statistice pot fi: vârsta, greutatea, sexul, culoarea ochilor, statutul matrimonial,
naționalitatea, ocupația, cifra de afaceri, nivelul extrasului de cont etc.  
Valorile înregistrate de aceeași caracteristică la unitățile colectivității statistice se
numesc variante.  
Caracteristicile statistice se mai numesc variabile statistice deoarece au proprietatea de a-
și modifica valoarea în timp și spațiu de la o unitate la alta. Nivelul de dezvoltare (varianta) este
valoarea observată a unei variabile la o unitate (element) statistică.  
 Variabilele statistice se clasifică după diferite criterii și în mod deosebit după natura
spațiului observațiilor. Aceasta este determinată de numărul unităților (cardinalul lui P), structura
algebrică a spațiului observațiilor – pe baza acestora selectându-se și scala de măsurare a
variabilelor. 
 
Relevante sunt următoarele criterii de clasificare:  
  
1. După modul de exprimare există:  

- variabile calitative - acestea sunt exprimate prin cuvinte care desemnează apartenența la
o categorie sau o modalitate dintr-o mulțime finită de observații a unităților populației statistice.
 
- variabile cantitative - care sunt exprimate numeric 
 
2. După cardinalul mulțimii observațiilor există: 
 
- Variabile alternative (binare). În cazul acestora, spațiul lor de observații este compus din două
valori numerice (de exemplu {0,1}) sau două modalități (de exemplu {masculin, feminin} sau
{urban, rural} etc.)  
- Variabile cu un număr finit de valori numerice. În această clasă se încadrează toate
variabilele calitative, pentru care spațiul observațiilor (mulțimea valorilor individuale) format
dintr-un număr finit de modalități, precum și variabilele cantitative discrete pentru care mulțimea
valorilor individuale (spațiul observațiilor) este echivalentă cu mulțimea numerelor naturale
(card M ≡ card N). 
Variabile cantitative continue. În cazul acestora mulțimea specifică a valorilor individuale este un
interval de numere reale.    
Dacă valorile variabilelor discrete sunt mărimi „exacte” (de multe ori ele contorizează
elementele care aparțin unei grupe sau clase de echivalență) nu același lucru se poate spun despre

4
valorile variabilelor continue, datorită impreciziei instrumentelor de măsurare și a factorilor care
influențează procesul măsurării.  
Din această cauză, „greutatea exactă”, „înălțimea exactă” etc. nu mai sunt decât noțiuni
abstracte, concretizabile numai sub forma unor aproximații din ce în ce mai bune. 
Este posibil ca din diverse motive practice să nu fie necesară o precizie foarte mare și
atunci se apelează la „discretizare”, adică la aproximarea valorilor reale cu valori dintr-o mulțime
discretă. Această discretizare nu trebuie realizată oricum (la întâmplare) ci în funcție de natura
originală a mulțimii valorilor individuale. 
Acuratețea observațiilor statistice depinde în mod decisiv de procesul de măsurare. Acesta
nu poate fi, însă, aplicat în mod uniform tuturor variabilelor statistice. Gradele diferite de
măsurabilitate sunt determinate de exprimarea cantitativă și calitativă a variabilelor, de structura
algebrică cu care este înzestrată mulțimea valorilor individuale (spațiul observațiilor M) și care
induc tipul scalei de măsurare. 
 
3. După structura algebrică (SA) cu care este înzestrată mulțimea valorilor individuale și
după tipul scalei de măsurare există:  
- Variabilele calitative nominale se caracterizează prin faptul că mulțimea specifică a
valorilor individuale (M) nu este înzestrată cu structură algebrică și se măsoară pe o scală
nominală.  
Exemple de astfel de variabile pot fi: categoria socioprofesională, starea civilă, tipologia
școlilor profesionale, ramura de activitate etc. Din analiza acestor exemple se observă
următoarele: 
- Mulțimea de modalități M este finită, singurul criteriu distinctiv al acestora
fiind denumirea (cuvântul sau cuvintele prin care acestea se exprimă);  
Mulțimea M nu posedă nici o structură, exceptând relația de identitate (=) – non identitate
( ≠ ) care asigură diferențierea unităților. Nici în cazul în care se recurge la codificarea
modalităților (prin atribuirea de coduri numerice) nu este posibil să fie indusă o structură. 
Deci, singura operație obiectivă permisă de scala nominală este structurarea (divizarea)
populației statistice (eșantionului) în clase. În general, numărul claselor este identic cu numărul
de modalități distincte. Nu este exclusă însă agregarea/dezagregarea claselor formate inițial în
clase mai mari sau în subclase, mai mult sau mai puțin compacte. 
Variabilele calitative ordinale au mulțimea finită a valorilor individuale (M) exprimate prin
modalități (sau coduri numerice asociate) înzestrată cu o structură de ordine totală (≤ ) și se
măsoară pe scala ordinală. Existența acestei structuri definește în M o ierarhie care, deseori,
sugerează informații raționale pentru luarea unor decizii.  
 Variabilele cantitative ordinale  se caracterizează prin faptul că au o
mulțime continuă de valori individuale înzestrată cu o structură de ordine și se măsoară
pe scala de interval. Pe scala de interval are sens definirea distanței dintre valorile
(numeric exprimate) ale unei variabile. Punctul zero al acestei scale și unitatea de măsură
se pot alege în mod arbitrar. Datorită caracterului relativ al localizării originii pe această
scală, nu are sens suma a două valori precum și raportul acestora. În schimb au
sens, diferența dintre două valori și suma sau raportul diferențelor. Pentru înțelegerea
utilizării acestui tip de scală sunt clasice următoarele exemple: 
 Măsurarea timpului calendaristic. Punctul zero (de origine) al scalei este ales
convențional pentru a desemna de către unele popoare începutul erei creștine (nu
toate popoarele au adoptat aceeași convenție). 
5
 Temperatura se măsoară fie pe scala Celsius, fie pe scala Fahrenheit. Pe acestea,
punctul zero și unitatea de măsură sunt alese în mod arbitrar. Astfel, 00 pe Celsius
nu înseamnă lipsa temperaturii, ci este un punct critic care desemnează
schimbarea stării de agregare a apei. Aceeași semnificație o regăsim pe Fahrenheit
la 320F. 
 
 Variabile cantitative măsurabile cardinal. Mulțimea valorilor numerice a acestor
variabile este înzestrată cu o structură de corp ordonat (≤,+,× ), iar scala de măsurare
corespunzătoare este scala de raport. Spre deosebire de scala de interval, scala de raport
se caracterizează prin faptul că numai unitatea de măsură se poate alege arbitrar,
punctul zero (de origine) este dat în mod natural, specifică absența fenomenului
studiat. 
Două valori măsurate pe această scală, indiferent de unitatea de măsură folosită, se află în același
raport. Deci, prin trecerea de la o unitate de măsură la alta raportul dintre cele două valori nu se
schimbă. Scala de raport permite cel mai înalt grad de măsurabilitate, deoarece valorilor
precizate pe această scală li se pot aplica toate operațiile aritmetice permise de structura de corp
ordonat. Pe această scală au sens pe lângă relația de ordine și operația de diferență (preluate de
scalele anterioare) și suma și raportul a două valori ale variabilei. Prin urmare, scalele de
măsurare prezentate oferă accesul la un conținut informațional care crește de la scala nominală la
cea de raport, treptele superioare integrând și informația disponibilă în treptele inferioare. 

4. După conținutul variabilelor, acestea pot fi de timp, de spațiu și atributive. 


 Variabilele de timp se caracterizează prin faptul că sunt exprimate prin funcții de timp
(u:T → M), adică valorile lor individuale aparțin unor momente de timp sau intervale de
timp; 
 Variabilele de spațiu (teritoriale) sunt definite ca funcții de spațiu (u:S → M), în sensul
că fiecare valoare individual aparține unei unități teritoriale care aparține unui anumit
nomenclator; 
 Variabilele atributive sunt definite printr-o funcție (u:P →M) asociată fiecărei unități din
populația statistică (eșantionul) investigat(ă). Valorile individuale ale acestor variabile
(calitative sau cantitative) și care formează spațiul observațiilor M se exprimă printr-un
atribut (numeric sau nenumeric) asociat unităților observate; 
O sinteză a tipurilor de variabile studiate într-o populație statistică (eșantion), potrivit scopului
cercetării, se prezintă în figura următoare: 

Schema repartizarii variabilelor o puteti vedea in imaginea nr.1

6
Imaginea nr.1

1.2. Seria statistică  

Seria statistica reprezintă o paralelă între două sau mai multe șiruri de date, dintre care
cel puțin unul vizează variabila de grupare.  Seria statistică este o construcție care redă fie
distribuția unei populații în raport cu una sau mai multe variabile, fie variația unei mărimi în
timp, în spațiu sau de la o categorie la alta. 

Seriile statistice pot fi:  

 serii simple - atunci când sunt construite dintr-o paralelă între două șiruri de date și
conțin o singură variabilă de grupare;  
 serii complexe - atunci când sunt construite dintr-o paralelă între trei sau mai multe șiruri
de date și conțin cel puțin o variabilă de grupare; Seriile complexe sunt constituite, în
general, din mai multe serii simple. 
 
Având în vedere tipurile de variabile de grupare și dependență tipului de serie de tipul
variabilei de grupare se pot distinge următoarele tipuri de serii statistice: 
 
 serii de distribuție (repartiții) sau serii atributive, care au la bază variabile atributive;  
 serii cronologice (de timp sau istorice), care au la bază variabile de timp (de timp);  
 serii de spațiu sau teritoriale, care au la bază o variabilă de spațiu.  

Seriile statistice se mai se clasifica și în raport cu mai multe criterii, astfel: 

7
In raport cu numărul variabilelor: 
 serii statistice unidimensionale, au la bază o singură variabilă; 
 serii statistice multidimensionale, care au la bază două sau mai multe variabile. 

După modul de exprimare al stărilor variabilei deosebim: 


 serii calitative, care au la bază variabile calitative; 
 serii cantitative, care au la bază variabile cantitative si care după modul de variație a
variabilei pot fi:  discrete (când variabila este discretă) si continue (când variabila este
continuă). 
In raport cu natura indicatorului din care este alcătuită seria, avem: 
 serii de frecventă sau serii de distribuție (repartiție); 
 serii de variație. 
Seria statistica redând distribuția populației în raport cu una sau mai multe variabile
constituie o descompunere a acesteia într-un număr R  de clase.  O astfel de serie este
formată în exclusivitate din frecvențe (absolute cumulate sau necumulate, relative
cumulate sau necumulate) si de aceea se numesc serii de frecventă, de distribuție sau de
repartiție. Prescurtat se mai folosește si denumirea de repartiție statistica sau distribuție
statistica. 
Seria statistica ce redă variație unei mărime în timp, în spațiu sau de la o categorie la alta se
numește serie de variație. 
Prezentăm în continuare cele mai importante serii statistice: 

1.3. Reprezentarea seriilor statistice de distribuție unidimensională


 
O serie statistică este un șir de date (observații) ale uneia sau mai multor variabile despre
entitățile unui eșantion obținute într-un studiu statistic.  

În funcție de numărul de variabile studiate o serie poate fi: 


 
a) uni variată când se observă o singură variabilă;  
b) bivariată când se observă două variabile;  
c) multivariată când se observă mai multe variabile.  

Dacă variabilele sunt cantitative continue atunci seriile vor fi unidimensionale,


bidimensionale respectiv multidimensionale.  
Fie o serie statistica unidimensionala având la bază variabila X, respectiv: 
X :     x1     x2. .      .  xi ... xR , N          (1.1) 
        N1        N2. . .   Ni. . .  NR 
 
unde Ni  este frecventă absolută a clasei i, i  = 1, R  si reprezintă numărul de unități ale populației
pentru care variabila X  a înregistrat valoarea xi.  Remarcam faptul că volumul populației se poate
exprima cu ajutorul frecvențelor absolute: 
N = N1 + N2 + . . . + NR. 

8
Clasa (grupa) de unități în raport cu o variabilă reunește acele unități din cadrul populației
care înregistrează aceeași stare a variabilei sau stările variabilei aparținând unui anumit interval
de variație. 
Ca urmare, în raport cu o variabilă statistică populație poate fi structurată într-un anumit
număr de clase. De asemenea, relativ la seria statistică unidimensională având la bază variabila
X, aceasta poate fi formată cu frecvente relative, frecvente absolute cumulate sau relative
cumulate. 
Fie seria X  formată cu frecvențe relative: 
X: x1    x2. . .   xi . . .   xR                  (1.2) 
                                  f1 f2. . . f i   . . .    fR 
 
unde fi  ne arată ponderea unităților din populație care au înregistrat pentru variabila X  starea xi: 
                                fi =  Ni/N,    i = 1, R.   
Pornind de la seria (1.1) se poate deduce seria formată cu frecvențe absolute cumulate, respectiv: 
X: x1 x2     . . . xi     . . . xR                                  (1.3) 
                                                  Nx1 Nx2. . .  Nxi . . .  NxR 
 
unde Nxi    reprezintă numărul de unități din populația studiată pentru care variabila
înregistrează valori ce nu depășesc valoarea xi. Avem că: 
                                           Nxi = N1 + N2 + . . . + Ni,,  i = 1, R. 
Pornind de la seria (1.1) sau (1.2) se poate deduce seria formată cu frecvențe relative cumulate,
respectiv: 
X : x1 x2 . . . xi . . . xR                                       (1.4) 
                                                        Fx1 Fx2   . . .  Fxi   . . .  FxR 
unde Fxi   exprimă ponderea unităților populației studiate pentru care variabila a înregistrat valori
ce nu depășesc valoarea xi. Avem că:  

Exemplu. Distribuția clienților în raport cu sortimentele de cafea servite într-o anumită zi la o


cafenea a fost:

Sortiment cafea  Nr.clienti 


Naturală  21 
Cappuccino  32 
Espresso  43 

a) Identificați populația statistică, unitatea statistică si volumul populației statistice; 


b) Construiți seriile de distribuție unidimensionale cu frecvențe derivate; 
c) Caracterizați variabila care stă la baza seriilor uni- dimensionale. 

Rezolvare.  
a. Populația statistica este reprezentată în acest caz de mulțimea clienților. 
9
Unitatea statistica este clientul.
Volumul populației statistice este  
N  = 21 + 32 + 43 = 96 clienți. 
   b)  Folosind tabelul de mai sus, se pot construi următoarele serii: 
  Seria unidimensională cu frecvențe absolute:  
X :    Naturala   Cappuccino    Espresso ,   96  
                  21                32                   43 
 Seria unidimensională cu frecvențe absolute cumulate: 
 X :    Naturală   Cappuccino    Espresso        ⇔    X :  Naturală   Cappuccino    Espresso   
              21            21+32          21+32+43                              21              53                   96 
  Seria unidimensională cu frecvențe relative: 
X :    Naturală   Cappuccino    Espresso    ⇔  X :  Naturală   Cappuccino    Espresso, 100%   
              21/96          32/96          43/96                           21,88%        33,33%          44,79%  
  Seria unidimensională cu frecvențe relative cumulate: 
X :    Naturală       Cappuccino    Espresso 
          21,88%        55,21%              100% 
 
b. La baza seriilor unidimensionale de mai sus, se află variabila statistică X  ce
indică sortimentul de cafea ales de clienții cafenelei. Variabila X  este calitativă și
atributivă.  

Exemple de serii statistice unidimensionale: 


 
- valoare calcemiei pentru un eșantion de n subiecte;  
- valoarea tensiunii arteriale sistolice determinată la n indivizi;  
- concentrația de thiomersal a unui set de n vaccinuri antigripale. 

II. Reprezentarea tabelara a datelor 


10
 
2.1. Reprezentarea de tip Stem-and-Leaf  

Acest tip de reprezentare a datelor unidimensionale a fost introdusă de John W. Tukey în


cartea sa Exploratory Data Analysis, (Addison-Wesley, 1977). Tehnica respectiva urmărește, în
particular, depistarea valorilor extremale. Poate servi la formularea unor noi întrebări,
neprevăzute înainte de a efectua acest tip de analiza. Tehnica aceasta se aseamănă cu cele ale
unui explorator. Exploratorul are o idee unde vrea sa ajungă, dar este conștient ca se poate întâlni
cu situații neașteptate, situații în care trebuie sa se descurce rapid pentru a se clarifica. Aplicarea
ei se poate explica, apelând la următorul exemplu de pregătire preliminară a rezultatelor finale –
destul de ușor de pus în aplicare – diagrama Tulpina & Frunze (Stem & Leaf) în statistici. 
Diagramele Tulpina & Frunze pot fi utilizate în același timp pentru a analiza datele și a le
prezența. Acesta este un mod de a arăta valorile și relația lor cu alte date. 
Tulpina & Frunze este o metodă de reprezentare a frecvenței cu care apar anumite grupuri de
valori. Puteți face un tabel de distribuție a frecvenței sau o histogramă pentru valori sau puteți
utiliza diagramă permițând numerelor să arate aproape aceleași informații. 
Pentru a crea o diagramă Tulpina & Frunze, creați „tulpină” prin listarea cifrelor cu cea
mai mare valoare în partea stânga, pe o linie verticală. Cifrele rămase vor fi scrise în dreapta
liniei verticale pentru a crea „frunzele”. Știm, sună destul de abstract.
Acesta reprezentare grafică este mai bine explicată folosind un exemplu. 

Figura 2.1. Exemplu de reprezentare Stem and Leaf

2.2. Reprezentarea tabelară  


În studiile biostatistice, tabelul este principalul mod de prezentare a datelor statistice. De
aceea, tabelele sunt construite astfel încât să permită realizarea unei analize corecte.  
La realizarea tabelelor se va ține cont de:  
- tabelul trebuie să aibă titlu, care trebuie să fie la concis și obiect;  
- rândurile și coloanele ce indică natura datelor sunt etichetate simplu și precis;  
11
- sunt incluse unitățile de măsură ale datelor;  
- sunt precizate sursele de informare;  
- este recomandat a se construi două sau mai multe tabele de dimensiuni mai mici sau mai
simple în locul unui tabel mare sau foarte detaliat;  
- este de preferat să există linii sau coloane ce conțin medii sau totaluri; - dacă sunt
folosite abrevieri acestea se vor explica într-o locație separată;  
- formatarea tabelelor trebuie să fie sugestivă.  
 
În studiile biostatistice tabelele pot conține:  
- coloane de identificare a subiecților; 
- coloane cu denumirile claselor pentru datele calitative;  
- coloane cu numărul de apariții a claselor sau frecvența absolută; 
- coloane cu frecvența relativă;  
- coloane pentru frecvențe absolute sau relative cumulate;  
- coloane cu măsuri matematice (totaluri, medii, minimum, maximum);  
- linii cu date detaliate ale subiecților sau claselor;  
- linii cu măsuri matematice 
 
 Frecvența absolută a unei valori x dintr-o serie statistică S este numărul de repetări ale
valorii x în seria S. Deci suma frecvențelor absolute ale tuturor valorilor distincte dintr-o serie
statistică este egală cu talia seriei.  
Frecvența relativă a unei valori x dintr-o serie statistică S este raportul dintre frecvența
absolută a valorii x și talia seriei. De obicei frecvența relativă este prezentată în procente.  
Frecvența absolută cumulată crescătoare a unei valori x dintr-o serie statistică S este
suma frecvențelor absolute ale valorilor seriei mai mici sau egale cu x.  
Frecvența absolută cumulată descrescătoare a unei valori x dintr-o serie statistică S
este suma frecvențelor absolute ale valorilor seriei mai mari sau egale cu x.
Frecvența relativă cumulată crescătoare a unei valori x dintr-o serie statistică S este
raportul dintre frecvența absolută cumulată crescătoare a valorii x și talia seriei.  
Frecvența relativă cumulată descrescătoare a unei valori x dintr-o serie statistică S este
raportul dintre frecvența absolută cumulată descrescătoare a valorii x și talia seriei.  
Exemplu de tabel simplu ce conține clase, frecvența absolută și relativă: Tratamentele
aplicate pentru HTA în județul AAAA spitalul BBBB. Exemplu de tabel de contingență cu mai
multe nivele:  
Clasificarea absolvenților Facultăților de Farmacie după tipul locului de muncă la finalul
studiilor pentru promoția din anul 2018. 

Centru Tip loc muncă  Total 


universitar  Spital  Farmacie  Producție Fără
medicamente  ocupație         
   
București  25  145  10  20  200 
Craiova  5  85  0  10  100 
Iași  10  105  20   15  150 

12
Cluj-Napoca   10  110  15  15  150 
  
Timișoara  7  98  10  10  125 
Tg.-Mureș  4  71  0  5  80 

Sursa: Registrul de ocupare a forței de muncă... 


 
Exemplu de tabel de contingență cu două nivele:  
Frecvența cazurilor de apariție a HTA după sex
 
HTA / Sex  Masculin  Feminin  Total 
prezentă   100  80  180 
absentă    800  1020  1820 
Total  900  1100  2000 
 
O altă categorie de tabele pentru datele statistice sunt tabelele de sinteză sau master ce realizează
un mod complet de prezentare a datelor, utilizând mai multe linii sau coloane de sub totaluri și
totaluri.  

Exemplu de tabel master:  


Internările într-o clinică de cardiologie a unui spital  

Vârsta  Mediu urban  Mediu rural  Total 


  Masc.  Fem.  Total  Masc.  Fem.  Total  Masc.  Fem.  Total 
sub 30                   
ani 30-                  
40 
ani 40-                  
50 
ani 50-                  
60 ani 
peste                  
60 ani  
Total                   

Sursa: Registrul internări ...  


 
Exemplu de tabel pentru frecvență cumulată:  
Tabelul claselor de frecvență a TAS  

Tensiune arterială Pacienți (frecvența Frecvența relativă Frecventa relativă


13
sistolică [mm Hg]  absolută)  [%]  cumulată crescătoare
[%] 
[0,10)  6  6%  6% 
[10,12)  10  10%  16% 
[12,14)  15  15%  31% 
[14,16)  21  21%  52% 
[16,18)  28  28%  80% 
[18,22)  20  20%  100% 
Total  100  100%   

2.3. Reprezentarea seriei statistică de distribuție bidimensională.


 
Seria statistică de distribuție bidimensională este o construcție ce reda distribuția unei
populații în raport cu două variabile. 
Astfel, fie populația statistică A studiată în raport cu variabilele X si Y . Rezultatele
observării se pot grupa într-un tabel de forma următoare: 

unde: 
Nij  − reprezintă numărul de unități pentru care, variabila X  înregistrează starea
xj  si variabila Y  înregistrează starea yi; 
Ni· − reprezintă numărul de unități pentru care Y  = yi,  indiferent de nivelul
înregistrat de variabila X; 
N·j  − reprezintă numărul de unități pentru care X = xj,  indiferent de nivelul
înregistrat de variabila Y ; 
         N  − reprezintă numărul total de unități analizate, adică volumul populației statistice. 
 
Din seria bidimensională se pot extrage următoarele serii unidimensionale: 
 
Serii de repartiție marginale în raport cu X  si Y : 
 
14
X :   x1        x2    . . .   xj   . . .   xK  ,     respectiv        Y :   y1        y2      . . .      yi    . . .      yL 
           N·1     N·2    . . .  N·j   . . . N·K                                                      N·1      N·2    . . .    Nij      . . . NL 
   
Serii de repartiție condiționate: 
-seria de repartiție unidimensională în raport cu X, condiționată de Y  = yi 
X/Y =yi  :   x1         x2 . . . xj ... xK , pentru orice i = 1, L;  
                     Ni1 Ni2 . . .    Nij . . .    NiK 
 
-seria de repartiție unidimensională  în raport cu Y , condiționată de X = xj 
Y/X=xj :     y1 y2 ... yi ... yL , pentru orice j = 1, K.  
                    N1j       N2j. . .   Nij . . . NLj 
 
De asemenea se poate elabora sau deduce seria de repartiție bidimensională formată cu
frecvențe relative, unde: 
fij =  [Equation],     fi =  [Equation],       fj = =  [Equation],     pentru orice:  i = 1, L,  j = 1, K.     
 

CONCLUZIE

În urma efectuării acestui proiect am constat faptul ca reprezentarea datelor


statistice este o metoda care oferă o imagine imediata asupra datelor studiate.
Aceasta metoda are o importanta foarte mare in sesizarea mai rapida a informației,
deoarece omul nu poate sa perceapă la prima vedere semnificația unui număr
foarte mare de date individuale. De aceea cu ajutorul reprezentării prin tabele se
obține o grupare a datelor si se extrage esențialul, iar informația individuala se
pierde. Atunci omul înțelege cu claritate informațiile supuse. Datorita acestor
reprezentări putem obține concluzii mai rapide privind particularitatea acestui
grup. 
 

BIBLIOGRAFIE
  
1. Buiga A., Metodologie de sondaj si analiza datelor în studiile de piață, Ed. Presa Universitară
Clujeană, Cluj-Napoca, 2001; 
2. Buiga A., Dragoș C., Lazăr D., Parpucea I., Todea A., Statistică I, Ed. Presa Universitară 
Clujeană, Cluj-Napoca, 2003; 
3. Buiga A., Dragoș C., Lazăr D., Brendea G., Litan C., Mare C., Statistică Descriptivă, Ed. 
Napoca Star, Cluj-Napoca, 2018; 
4. Florea I., Parpucea I., Buiga A., Statistică descriptivă, Ed. Continental, Cluj-Napoca, 1998 
5. ANALIZA EXPLORATORIE A DATELOR Prof. univ. dr., Alexei LEAHU

15
16

S-ar putea să vă placă și