Presentations şi caracterizarea variabilelor aleatoare">
Caracterizarea Variabilelor Aleatoare
Caracterizarea Variabilelor Aleatoare
Caracterizarea Variabilelor Aleatoare
5
Modelarea variabilelor aleatoare discrete
Obiective:
de studiat i nsuit materialul teoretic pentru evidenierea esenialului n elaborarea modelelor;
s se elaboreze scenarii de modelare i analiza simulrii elementelor caracteristice i funciilor
de repartiii ale seriilor statistice n baza diferitor modele de reprezentare pentru propria variant
(Exemplu);
s se elaboreze modelul cu propria funcie de generare a numerelor aleatoare cu repartiia dat
conform variantei;
Consideraii teoretice
1. Noiuni generale i definiii.
Orice disciplina stiintifica isi are metoda sa generala si particulara, iar la randul sau fiecare metoda este
legata in mod specific de un anumit obiect al cercetarii.
Obiectul constituie, in oricare din sistemele de stiinte particulare, un criteriu de baza al clasificarii stiintelor in
sistemul dat.
In toate momentele dezvoltarii sale, statistica s-a ocupat cu acele fenomene si procese care se produceau intrun numar mare de cazuri, prezentau in reproducerea lor anumite regularitati si care pot fi denumite fenomene de
masa sau fenomene de tip colectiv.
Fenomenele de masa apar ca o multime de forme individuale diferite, cu existenta distincta, dar care analizate
comparativ se constata ca au aceeasi esenta. Principala proprietate a acestor fenomene este variabilitatea in timp
si spatiu. Legea de aparitie a lor se manifesta ca tendinta ce nu poate fi cunoscuta si verificata decat la nivelul
ansamblului si nu in fiecare caz in parte.
Fenomenelor de masa le sunt specifice legile statistice, legi care se manifesta sub forma de tendinta, fata de
care abaterile intamplatoare, intr-un sens sau altul, se compenseaza reciproc.
Deci, statistica studiaza i fenomenele social-economice de masa in cadrul carora actioneaza legile statistice
si care prezinta proprietatea de a fi variabile in timp si spatiu.
Statistica studiaza aceste fenomene prin caracterizarea laturii cantitativ-numerice a fenomenelor socialeconomice, stabilindu-le dimensiunea, dinamica, intensitatea, structura.
Statistica este stiinta care studiaza aspectele cantitative ale determinarilor calitative ale fenomenelor de masa,
fenomene care sunt supuse actiunii legilor statistice.
Obiectul de studiu al statisticii il constituie miscarile curente-continue ale fenomenelor si proceselor ce-si au
existenta sub forma de colectivitati.
In functie de specificitatea obiectului sau de studiu - miscarile curente-continue, in timp, in spatiu si din punct
de vedere calitativ ale fenomenelor de tip colectiv -, statistica si-a dezvoltat o metoda particulara de investigare.
Totalitatea operatiilor, tehnicilor, procedeelor si metodelor de investigare statistica a fenomenelor formeaza
metodologia statistica .
Statistica este o ramur a matematicii aplicate care se ocupa cu extragerea informaiilor relevante din
date. Procesul de obinere a informaiei din date se numete inferen statistic referitoare la unii parametri
statistici, sau chiar intregii distribuii probabilistice. Acesta este punctul de vedere mai general adoptat de teoria
neparametric in statistic. n statistica aplicat clasic este preferat idea de a construi un model statistic cu
care se pot face inferene; n majoritatea cazurilor acest model nu este verificat, ceea ce poate conduce la
concluzii eronate. Statistica aplicat modern analizeaz ns date mult prea complexe, cum ar fi imagini sau
structura proteinelor, pentru a se putea mrgini la ideea de modelare.
Statistica urmrete, n principal, studierea fenomenelor de mas fenomene i procese ce prezint, n
producerea lor, o serie de regulariti, fiecare manifestare fiind definit de cealalt n condiii concrete de timp i
spaiu.
Din punct de vedere al scopului urmrit - n sensul caracterizarii unei populatii sau a unei subpopulatii cu
extinderea concluziilor asupra intregii populaii statistica cuprinde dou laturi:
statistica descriptiv - urmrete prezentarea informaiilor rezultate n urma colectii i
prelucrrii datelor ntr-o form ct mai expresiv, clar, concis
statistica inferenial - cuprinde o serie de tehnici metode pentru inferena asupra populatiei
generale avnd la baz informai privind un subset (eantion) desprins din colectivitatea general.
Observarea statistic reprezint prima etap a cercetrii statistice i const n culegerea datelor necesare
analizei dup un plan de observare statistic riguros stabilit.
Observarea statistic poate mbrca mai multe forme. Astfel, ea poate fi total (ex: recensmntul,
rapoarte statistice etc.) sau parial (sondajul statistic, ancheta statistic, monografia sau observarea prii
principale).
Dup culegerea datelor statistice, este necesar prelucrarea i sistematizarea acestora, pentru a putea
observa tendina de evoluie a fenomenului cercetat, legturile dintre variabilele analizate etc.
Sistematizarea datelor statistice presupune parcurgerea urmtoarelor etape:
a)
centralizarea datelor;
b)
gruparea pe intervale egale sau neegale;
c)
calculul indicatorilor ce caracterizeaz fenomenul analizat;
d)
prezentarea rezultatelor analizei (sub form de tabele, serii sau grafice).
Experimentarea modelului se poate face "in vivo" prin aplicarea modelului descriptiv sau normativ n
practica i prin constatarea eficienei sale descriptive/normative. Acest mod de experimentare se poate realiza
numai pe eantioane extrem de reduse, deoarece implic riscuri considerabile. Experimentarea modelului se mai
poate face "in vitro" prin generarea unor situaii posibile ale sistemului, denumite variante, i prin analiza, cu
ajutorul modelelor, a consecinelor acestor variante, asupra indicatorilor de eficien ai sistemului. Acest mod de
experimentare se cunoate ca simulare.
La planificarea experimentelor sunt folosite msurri intenionate din sistema studiat i se include o
valoare statistic a acestor msurri , n rezultat apar posibiliti de determinare a caracteristicilor principale ale
sistemei sau studierea influenei unui sau ctorva factori la aceste caracteristici ale sistemului.
rezultatului. O pregtire special de a organiza i a studia condiiilor n care trebuie s fie petrecute
experimentele, are numele de sistematizare a experimentelor dar nsi planificarea se face cu scopul de
determinare a cerinelor, fa de care trebuie s se fac experimentul.
La planificarea experimentelor sunt folosite msurri intenionate din sistema studiat i se include o
valoare statistic a acestor msurri , n rezultat apar posibiliti de determinare a caracteristicilor principale ale
sistemei sau studierea influenei unui sau ctorva factori la aceste caracteristici ale sistemului.
n x
i
i 1
x este o valoare astfel incat jumatatea valorilor x i ale esantionului sunt mai mici
2. Mediana Mediana ~
~
x .
sau egale cu x si cealalta jumate a valorilor x i sunt mai mari sau egale cu ~
3. Modulul Prin modulul (sau dominanta) unei serii statistice se intelege valoarea caracteristicii
corespunzatoare cele mai mari frecvente daca valorile caracteristicii sunt discrete si valoarea centrala a
clasei corespunzatoare celei mai mari frecvente daca variabila este continua.
4. Dispersia
2
2
2
n x x n2 x2 x ... nk xk x
v 1 1
n1 n2 ... nk
Numarul v se numeste dispersia valorilor esantionului.
Numarul v se numeste abaterea mediei patratelor.
k
v f xi xi x
i 1
v f xi xi2 x
i 1
1 k
2
ni xi2 x
n i 1
Definitie: Daca seria pixi este absolut convergenta, atunci suma acestei serii este valoarea medie M(X) a
variabilei X.
Valoarea medie a unei variabile aleatoare discrete trebuie sa fie perfect determinata de multimea valorilor
sale si de probabilitatile cu care este luata din aceste valori.Media nu trebuie sa depinda de ordinea in care sunt
scrise valorile pe care le ia variabila. De acea in definitia data s-a pus conditia ca seria p ixi sa fie absolut
convergenta.Daca o serie nu este absolut convergenta, suma sa depinde de ordine termenilor.
Valoarea medie a variabilelor aleatoare care iau o multime numarabila de valori are proprietati anologe
valorii medii din cazul variabilelor aleatoare simple.
Daca X si Y au valorii medii, atunci:
M(X+Y)=M(X)+M(Y);
M(kX)=kM(X);
Observatia Daca variabila aleatoare X este simpla, adica are un numar finit de valori, atunci valoarea
medie exista.
Daca multimea de indici I este infinit numarabila, valoarea medie exista cand seria care o defineste este
absolut convergenta.
Exemplul 1. Fie variabila aleatoare X ce urmeaza legea binomiala, adica are distributia
In sirul de egalitati scrise, s-a folosit formula de recurenta pentru numarul de combinari
formula binomului lui Newton. Daca se tine seama de faptul ca
rezulta ca
Exemplul 2 Se considera variabila aleatoare X ce urmeaza legea lui Poisson, adica are distributia
unde
si
deci
Propozitia Valoarea medie poseda urmatoarele proprietati:
(1)
(2)
(3) daca variabilele aleatoare X si Y sunt independente, atunci
si
de unde
(2) Daca variabilele aleatoare X si Y au distributiile, precizate mai sus, atunci variabila aleatoare
are distributia
(3) Avand in vedere ca variabilele aleatoare X si Y sunt independente, se obtine distributia variabilei
aleatoare produs
adica
Observatia . Daca in propozitia precedenta, la punctul (1) se ia
, atunci se obtine ca valoarea
medie a unei constante este constanta insasi, iar punctele (2) si (3) se pot extinde pentru un numar finit
de variabile aleatoare.
Definitia . Numim valoare medie (speranta matematica) pentru variabiala aleatoare X de tip continuu,
caracteristica numerica
, adica are
avem ca
A doua integrala este zero, deoarece functia ce se integreaza este o functie impara, iar intervalul de
integrare este simetric fata de origine. Prima integrala se cunoaste ca este
se obtine succesiv
deci
(2) Daca notam prin
o notam prin
, atunci
deci
.
(3)
, iar densitatea de
Demonstratie.
(1) Avand in vedere proprietati ale valorii medii, putem scrie succesiv
(2)
(3)
Observatia Deoarece
folosind (1), avem ca
se obtine ca dispersia unei constante este zero.
Exemplul 5 Fie variabila aleatoare X ce urmeaza legea binomiala, adica are distributia
. Se stie ca
Deoarece
rezulta ca
deci
Exemplul 6. Daca variabila alatoare X urmeaza legea normala
porbabilitate
si vom obtine
Pentru ultima egalitate am avut in vedere ca functia ce se integreaza este functie para, iar intervalul de integrare
este simetric fata de origine. Mai efectuam schimbarea de variabila
Dar se stie ca
arfel ca
ceea ce conduce la
Definitia
avem ca
Observatia Pentru
iar pentru
avem ca
se obtine
Demonstratie. Folosind formula binomului lui Newton si avand in vedere proprietatile valorii medii, se poate
scrie
Inlocuindu-se
Observatia In statistica matematica se utilizeaza de regula momente centrate pana la ordinul patru, pentru care
avem:
Exemplul 7. Vrem sa calculam momentele centrate ale variabilei aleatoare X ce urmeaza legea normala
. Se stie ca variabila aleatoare X are media
Pentru calculul acestei integrale, facem schimbarea de variabila data prin relatia
.Astfel obtinem ca:
Se observa ca pentru k impar, adica k = 2r-1, functia care se integreaza este functie impara, iar intervalul de
integrare este simetric fata de origine, drept urmare integrala este zero, deci
Pentru k=2r, functia care se integreaza este functie para, deci
.Astfel se obtine
Folosind aceste
In concluzie
al vectorului aleator
respectiv
si
, caracteristica numerica
al vectorului aleator
Definitia Numim corelatia sau covarianta dintre variabilele aleatoare X si Y, caracteristica numerica
adica
Observatia Daca variabilele aleatoare X si Y sunt independente, atunci
deci
Definitia Numim coeficient de corelatie dintre variabilele aleatoare X si Y, caracteristica numerica
Observatia
De asemenea, daca
vom spune ca variabilele aleatoare sunt necorelate, ceea ce nu este
echivalent cu independenta variabileleor aleatoare.
Propozitia Coeficientul de corelatie satisface urmatoarele proprietati:
(1)
sau
(2)
Demonstartie.
(1)
Astfel avem ca
pentru orice
pentru orice
Rezulta
ca
.
discriminantul
Prin
sau
adica
Astfel s-a ajuns la
sau
urmare,
se
obtine
ca
(2)
si
prin urmare
de unde rezulta ca
, dupa cum
, atunci
, respectiv
unde
Deoarece
avem ca
pot fi determinate.
Invers, daca
de unde
dupa cum
adica
si de asemenea,
Pentru a calcula dispersiile X si Y, calculam
si in mod analog
Mai avem ca
Definitia Numim mediana unei variabile aleatoare X, caracteristica numerica m, care satisface conditia
Observatia
Daca
este
functia
de
repartitie
si
variabilei
aleatoare
X,
atunci
Ca o consecinta a acestei scrieri, avem ca daca F este continua, atunci mediana m este data de ecuatia
Observatia
ecuatie
Madiana unei variabile aleatoare poate avea o infinitate de valori, in cazul in care dreapta de
si curba de ecuatie
interval, sa zicem
Definitia Numim valoare modala sau modul variabilei aleatoare X, orice punct de maxim local al distributiei
lui X (in cazul discret), respectiv al densitatii de probabilitate (in cazul continuu).
Observatia Dcaa exista o singura vloare modala pentru variabila aleatoare X, vom spune ca aceasta este
uninominala, iar daca exista doua sau mai multe valori modale o numim bimodala, respectiv plurimodala.
, atunci
De asemenea, pentru o
, atunci ordonata maxima a disributiei corespunde unei abcise mai mari decat
, atunci
De aseaenea, pentru o
functia
.
OBSERVATIE Din definitie, se observa, ca daca
este o variabila aleatoare discreta, atunci
de suma tuturor probabilitatilor valorilor lui
situate la stanga lui .
EXEMPLU 9 Fie
este data
.
Expresia
in punctul
.
PROPOZITIE Daca
orice
1)
2)
3)
4)
.
Demonstratie. Fie
,
1)
2)
si
3)
, atunci
, adica
Cu o repartiie dat
Concepte splitorialeGenerarea
unei succesiuni
Generarea
unor
aleatoare
Cu o repartiie
uniform
variabile
stochastic
1.6.
s.con
ime
izoba
izotr
par
s.cat
deni
diio
ritat
opita
diii
Con
ial
en
stat
tate
at
lung
ient
bari
orie
legat
ntat
neor
Pentru modelarea proceselor complexe este necesar s se genereze una sau mai multe secvene de
numere pseudoaleatoare. Modelele matematice ale sistemelor tehnice mari (STM) vor contine
obligatoriu informatii despre caracterul aleator al proceselor din sistem. Simularea fenomenelor
intimplatoare care au loc intr-un sistem real se bazeaza pe teoria probabilitatilor si se
realizeaza cu ajutorul asa numitelor generatoare de numere aleatoare
Functia de repartitie corespunzatoare unei variabile aleatoare de tip discret se numeste functie de repartitie
de tip discret.
Proprietati ale functiei de repartitie atasata unei variabile aleatoare:
1) x1, x2 R cu x1<=x2 implica F(x1)<=F(x2) (F este nedescrescatoare);
2) Functia de repartitie este continua la stinga F(x)=F(x-0);
stoc
ispl.
plito
rior
raii
tispl
zy
stoc
orat
mult
subs
sub.
inte
ope
mul
s.fu
cu
fr
difer
sum
reve
reve
ena
a2
a1
nire
eniu
dom
inii
eniu
al
s.col
final
dom
asar
ii
oten
depl
e
rela
titat
iden
alen
echiv
echip
e litic
mor
tate
izar
Ana
Mece
egali
e Fizi
nual
te Ma
Mix
ve
cati
tipli
ive
Mul
Adit
legat
niii
Defi
diii
erii
Con
ativ ode
Pro
e
cede
Crit
e
apro
rii
xim Met
oda
nulu
Met
dire
i
oda
ct
Met
resp
ode
inge
oda
Met
jobe
Met
dependente
0, cnd x 0;
F ( x) x, cnd x 0,1;
1, cnd x 1.
2.
s fie statistic independente (ceea ce se poate confirma sau infirma cu ajutorul testelor);
3.
s fie reproductibile (n scopul ncercrii programelor i comparrii rezultatelor);
4.
repartiia funciei s fie stabil, adic s nu se schimbe n timpul rulrii programului de
generare a irului cu ajutorul calculatorului;
5.
irul generat s aib o perioad de repetiie mare i predeterminabil;
6.
generarea irului s se poat efectua cu vitez mare i cu consum redus de memorie
intern.
Pentru generarea numerelor pseudoaleatoare se pot utiliza patru tipuri de procedee i anume:
procedee manuale;
procedee fizice;
procedee de memorizare a numerelor pseudoaleatoare;
procedee analitice.
Una dintre cele mai cunoscute metode de generare a numerelor pseudoaleatoare este algoritmul conceput de
von Neumann Metropolis, denumit i algoritmul mijlocul ptratului. Acest algoritm const n ridicarea unui
numr la ptrat i reinerea cifrelor centrale. n anul 1954 Tocher a artat c numerele generate astfel nu sunt
satisfctoare, deoarece au perioada h relativ mic i necesit timp mare de calcul.
n anul 1949, Lehmer a iniiat metodele congruente de generare a numerelor pseudoaleatoare. Aceste
metode utilizeaz teoria claselor de resturi i sunt cele mai rspndite. n anul 1966, Naylor clasific metodele
congrueniale n: metode congrueniale aditive, multiplicative i mixte.
Metodele congrueniale aditive. Se dau r numere iniiale: k1 , k 2 ,..., k r i se genereaz numere ntregi
pseudoaleatoare prin formula recursiv.
k i (k i 1 k i r ) (mod M ), i {r 1, r 2,...}
Aceast relaie se poate generaliza astfel:
Metode congrueniale mixte. Se consider dou valori ntregi constante a i c, precum i o valoare iniial
k1 . ntregii pseudoaleatori consecutivi sunt de forma:
k i 1 ( ak i c ) (mod M ), i {2, 3, ...,}
Acest metod se poate generaliza considernd r valori iniiale k1 , k 2 ,..., k r , constantele multiplicative
a1 , a2 ,..., ar i constanta aditiv c.
r
Zi
ki
M
Dispunnd de numere Z i uniform repartizate n intervalul (0,1) se pot obine numere uniforme xi n
intervalul ( a, b) , utiliznd transformarea: X i a (b a ) Z i
Calitatea numerelor aleatoare generate se apreciaz pe baza unor criterii i anume:
uniformicitatea, adic funcia de repartiie trebuie s fie uniform
caracterul aleator al numerelor generate este necesar ca elementele primitive s ndeplineasc o
serie de condiii. Aceste condiii se pot stabiliza utiliznd teoria numerelor. De exemplu, ntre constanta
multiplicativ utilizat la metodele i modulul M trebuie s existe relaia: ( a, M ) 1
Pentru ca perioada h s fie maxim este necesar ca a s fie o rdcin primitiv a lui M.
De asemenea, numerele iniiale trebuie s ndeplineasc anumite condiii. De exemplu n cazul unei metode
congrueniale multiplicative i a utilizrii bazei de numeraie b 10 , trebuie ca numrul iniial X 0 s nu fie
multiplu de 2 sau de 5.
Generarea numerelor pseudoaleatoare uniform repartizate este analog cu generarea unor puncte
aparinnd unui interval ( a, b) adic unui spaiu unidimensional. Problema se poate generaliza pentru un
domeniu multidimensional. Cel mai simplu caz este cel al unui hiperparalelipiped cu muchiile
( ai , bi ), i 1, 2,..., n ntr-un spaiu unidimensional. Pentru a genera puncte uniform repartizate, aparinnd
acestui hiperparalelipiped, se genereaz numere xi , aparinnd intervalelor ( ai , bi ) :
xi (ai , bi ), i 1, 2,..., n .
1.7. Generarea numerelor pseudoaleatoare cu o repartiie dat
Generarea numerelor pseudoaleatoare cu o repartiie dat se efectueaz n dou etape. n prima etap se
genereaz numere pseudoaleatoare cu o repartiie uniform, iar n a doua etap se aplic un algoritm care
asigur transformarea repartiiei uniforme n repartiia dat. Acest algoritm depinde de natura repartiiei
empiric sau teoretic precum i de natura variabilei discret sau continu.
Din aceste puncte de vedere se pot aplica apte metode de generare a numerelor pseudoaleatoare cu o
repartiie dat. Iat cteva dintre ele:
1. Metoda jobenului, este recomandabil pentru acele tipuri de repartiii la care frecvena maxim este
mult mai mare dect frecvena medie. n cazul repartiiilor discrete, se calculeaz frecvenele cumulate Fi 1 i
Fi , iar apoi se genereaz numere (0,1) , uniform repartizate. Dac:
Fi 1 Fi
atunci x i este numrul generat de frecven Fi Fi 1 Fi . Prin mprirea n intervale, orice repartiie
continu teoretic se poate aproxima cu o repartiie discret, iar metoda jobenului se aplic aa cum s-a artat
mai sus.
2. Metoda direct se bazeaz pe acelai principiu ca metoda jobenului, dar se aplic mai ales n cazul
repartiiilor continue. n acest scop se genereaz numere uniform repartizate (0,1) ; numerele cu o
repartiie oarecare se obin din relaia:
x F 1 ( )
unde F 1 reprezint inversa funciei de repartiie. Evident, metoda se poate aplica numai dac aceast
invers se calculeaz uor (cum este cazul repartiiilor liniar, exponenial, Cauchy, etc.)
De exemplu, dac se consider funcia de densitate de probabilitate exponenial negativ:
f ( x) e x , 0 , atunci funcia de repartiie este:
F ( x)
f (t )dt e z dz 1 e x
0
De unde:
ln(1 )
x
c max f ( x)
x
f ( x)
C ax C Nn xa
C Nn
unde: n este numrul de probe (extrageri); N numrul total al evenimentelor posibile, iar
a
reprezint
N
Stabilirea numrului
de experiene efectuate
n
Indicarea probabilitii
realizrii unui
eveniment
Determinarea seriei
de distribuie
binomial
Calcularea valorii
medii (Speranei
matematice) a
variabilei aleatoare
Determinarea
Dispersiei variabilei
aleatoare
Listingul programului:
#include<stdio.h>
#include<conio.h>
#include<math.h>
long factorial(int n)
{
if(n<=1) return 1;
else return n*factorial(n-1);
}
void main()
{
int n=10,i,x,y;
double p=0.8,q=1-p,prob;
clrscr();
x=5;y=8;
gotoxy(x+15,y-2);
printf("Seria de distributie binomiala cu n=10, p=0.8");
gotoxy(x,y);
printf("");
gotoxy(x,y+1);
printf(" Xj ");
gotoxy(x,y+2);
printf("");
gotoxy(x,y+3);
printf(" Pj ");
gotoxy(x,y+4);
printf("");
for(i=0;i<=n;i++)
{
gotoxy(x+6*(i+1),y);
printf("");
gotoxy(x+6*(i+1),y+1);
printf("%5d",i);
gotoxy(x+6*(i+1),y+2);
printf("");
gotoxy(x+6*(i+1),y+3);
prob=factorial(n)*pow(p,i)*pow(q,n-i)/(factorial(i)*factorial(n-i));
printf("%5.3lf",prob);
gotoxy(x+6*(i+1),y+4);
printf("");
}
gotoxy(x+6*(n+2),y);
printf("");
gotoxy(x+6*(n+2),y+1);
printf("");
gotoxy(x+6*(n+2),y+2);
printf("");
gotoxy(x+6*(n+2),y+3);
printf("");
gotoxy(x+6*(n+2),y+4);
printf("");
gotoxy(x+1,y+6);
printf("Valoarea medie a numarului de trageri reusite M[X]=%.2lf",n*p);
gotoxy(x+1,y+8);
printf("Dispersia variabilei aleatoare D[X]=%.2lf",p*n*q);
getch();
}
2.
Variante suplimentare
S se elaboreze scenariile de modelare i analiza simulrii elementelor caracteristice i funciilor de
repartiii ale seriilor statistice conform punctelor 1.7, 1.8. n baza diferitor texte i adugtor cerinele din
variante.
Varianta 2.1
1. De creat un dicionar de frecven a cuvintelor din textul dat (~5000 cuvinte )
2. De calculat probabilitatea cuvintelor din text :
Pc/t probabilitatea cuvntului c n text t
n numrul de apariie a cuvntului dat n textul dat
m numrul total de cuvinte n textul dat
n
Pc / t
m
3. De creat diagrama probabilitii P cuvintelor n dependen de rangul lor r n dicionar
4. De calculat constantele P, , B formulei lui Zipf - Mandelbrot n baza diagramei empirice (reale)
Formula :
f = P(r+ )-B
Exemplu
Exemplu dicionarului de frecven
Rang
Num de
Probabilita Formula
(r)
cuvant
aparitii
tea (P)
lui Zipf
Coeficientele
1 de
44004
0,06461
0,06403
P=
0,06461
2 in
3 a
4 si
5 la
6 cu
7 ca
8 din
9 care
10 sa
Exemplu de diagram:
19801
17383
15402
13711
8525
8284
8231
7857
7510
0,02907
0,02552
0,02261
0,02013
0,01252
0,01216
0,01209
0,01154
0,01103
0,03447
0,02397
0,01851
0,01515
0,01286
0,01120
0,00993
0,00893
0,00813
B=
Ro=
0,90000
0,01000
Varianta 2.2
Probabilitile apriore i aposteriore, formula lui Bayes
1. De ales din dicionar de frecven cteva cuvinte mai frecvente (2-3 cuvinte).
2. De mprit textul n 10 pri aproximativ egale (5000/10=500) ~ cte 500 de cuvinte.
3. De calculat probabilitatea fiecrui cuvnt n fiecare text (probabilitatea apriora) :
Pc/t probabilitatea cuvntului c in text t
n - numrul de apariie a cuvntului dat n textul dat
m - numrul total de cuvinte n textul dat
n
Pc / t
m
4. De calculat probabilitatea total a cuvintelor :
Pc - probabilitatea totala a cuvntului
Pt - raia textului t
Pc Pt * Pc / t
texte
unde Pt se calculeaz :
m
M
unde M - numrul total de cuvinte n toate textele.
5. De calculat probabilitatea fiecrui text pentru apariie fiecrui cuvnt (probabilitatea aposteriora).
Probabilitatea c cuvntul c ales aparine textului t :
Pt
Pt / c
Pt * Pc / t
Pt * Pc / t
texte
Pt / 2 c
Pt * ( Pc / t ) 2
Pt * ( Pc / t ) 2
texte
total
512
489
523
479
546
2549
ratia textului
0,2008631
0,1918399
0,2051785
0,1879168
0,2142016
probabilitatea
totala a cuvintelor
0,09690
0,01373
0,01491
49
50
P num de ap a cuvant
um de aparitie a cuvantului
3
5
2
2
4
6
3
3,571429
1.
2.
3.
4.
5.
Num de aparitie a
cuvantului
Num de fragmente cu
acest num de aparitie
total
10
15
50
numarul de
fragmente
4
5
6
7
numarul de aparitii
t=
S2 N
5. Analiznd rezultatul de fcut concluzie despre perechea (bigram) corespunztoare (comparnd cu valoarea
critic 2,576)
6. De efectuat t test pentru combinaia frecvent din 3 cuvinte
7. De creat tabelul 2-pe-2
W1= primul cuvnt
W1 primul cuvnt
W2 = al doilea cuvnt
O11
O12
O21
O22
W2 al doilea cuvnt
8. De efectuat 2 test pentru aceleai mbinri de cuvinte:
2 =
unde
N numarul total de cuvinte
9. De comparat rezultatul cu valoarea critica pentru =0,05 2 =3,841 i de fcut concluzia despre mbinarea
de cuvinte dat.
EXEMPLU
1. Perechile de cuvinte frecvente :
a fost ipoteza nul H0 c a fost e o mbinare
probabilitatea ipotezei :
X = 62/5361 = 0,011565
P(a) = 196/5362 = 0,0365
P(fost) = 174/5362 = 0,0324
M = 0,00118
S2 ~ X = 0,00429
N = 5362
t = (0,00429 - 0,00118)/1,9 = 0,0016368
Varianta 2.5
exp(
) I 0 ( 2 );
2
2
Varianta 2.6
Scrieti un program care simuleaza repartizarea pe ecran n forma de histograma a unor numere
introduse de la tastatura sau alese aleator.
Varianta 2.7-2.10
Distribuirea care trebuie de
obinut
Poisson
Hi la patrat
Puasson
Densitatea de distribuire
Modalitatea de primire a
mrimii aleatoare
Pk=(ak*e-a)/k!, k=0,1,2,3.
a=1; a=2: a>0 E numar pozitiv
P(z)=(1/2**(q/2)*
((q/2)))*z**((q/2)I*exp(z/2),0<=z<~
P( z )
e u u z
z!
Z=exp(GZ*XN+mz)
1/ y * ln(1 xr (1)) 1
i 1
Nota: Repartitia Poisson (sau legea evenimentelor rare). Daca numarul n al probelor este mare, iar
probabilitatea p a aparitiei evenimentului intr-o proba este foarte mica, atunci evenimentul este un
eveniment rar iar legea de repartitie a variabilei aleatoare care caracterizeaza acest
eveniment este
legea
evenimentelor
rare. Repartitia determinata de probabilitatile pk =
(a**k)*(e**(-a))/k! Se numeste repartitia Poisson de parametru a.
Varianta 2.11-2.15
Scrieti un program care simuleaza repartizarea pe ecran histograma unor numere introduse de la
tastatura sau alese aleator. Generarea numerelor pseudoaleatoare cu o urmatoare repartiie:
Repartitia Bernoulli. Repartitia determinata de probabilitatile Pn(k)=Cnp q se numeste repartitie
binomiala de ordinul n si parametru p iar variabila aleatoare
0 1 ... k ... n
y: (
n 1
n-1 k k n-k n ), q = 1-p
q C pq ...C p q ... p
n
n
se numeste variabila aleatoare binominala.
Repartitia normala (sau legea lui Laplace si Gauss). O variabila aleatoare y care ia o infinitate de
valori se spune ca este normala de parametri m si D (sau ca este supusa unei legi normale de
probabilitate), daca densitatea sa de repartitie este definita prin:
f(x,m,D) = e**(-(x-m)**2/(2*D))/(2*_*D)**(1/2).
Repartitia uniforma. Variabila y se numeste uniforma pe [a,b], daca ea admite densitatea de
repartitie
1/(b-a) daca x apartine [a,b]
f(x) =
0 in caz contrar.
Scrieti un progrum care simuleaza o mini ruleta.
Observatie: In program se acorda dublul mizei in cazul m care s-a mizat
pe culoarea cistigatoare, de 10 ori miza daca s-a mizat pe
numarul cstigator ,si de 25 de ori miza daca s-a mizat pe
numarul ,si pe culoarea ctigatoare.
5. INTREBARI DE CONTROL
1. Definiti notiunea de "variabila aleatoare".
2. Ce tipuri de variabile aleatoare cunoastei?
3. Dati citeva exemple de variabile aleatoare.
4. Care este destinatia variabilelor aleatoare in studiul S.T.M.?
5. Care sint caracteristicele ce descriu complet in sens probabilistic comportamentul variabilelor aleatoare?
6. Ce este o lege de repartitie si pentru care tip de variabile aleatoare este utilizata?
7. Definiti notiunea de functie de reparitie si care este relatia dintre o functie de repartitie si densitatea de repartitie?
8. Ce tipuri de repartitii a probabilitatilor cunoasteti?
9. Descrieti analitic si fizic cele mai des intilnite repartitii.
10. Ce caracteristici numerice ale numerelor aleatoare cunoasteti? Definiti-le si explicati sensul lor.
11. Determinati caracteristicele numerice pentru cele mai frecvente legi de repartitie.
11. In ce consta metoda aditiva-multiplicativa a congruentelor?
13. Cum pot fi generate numere aleatoare cu legi de repartitie diferite de legea uniforma pe (0;1)?
14. De ce numerele obtinute la calculator se numesc pseudoaleatoare?
15. Exista oare posibilitatea generarii pe calculator a unor numere aleatoare dintr-o multime continuala prin
intermediul transformarii inverse?
16. Ce se numeste ciclul (perioada) generatorului?
17. Din care cauza perioada generatorului este limitata?
BIBLIOGRAFIE:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10. .. . .: , 1988.
11. Issledovanie operaii. Modeli i primenenia. Tom 2. M.: Mir. 1995.
12. . ., .. 1:
. . -. 1997.
13. . . .- 1985.
14. .. , : .
. .- 2000.
15. ., ., . . 1968.
16. .. : . , 1994.
17. ., . . ., , 1979.
18. .. . 6- ., . . ., , 1988.
19. . . //
. . I.LVLVI. . 4: . 1915. 2.
. 65127; 3. . 143; 4. . 94 125.
20. . : . . ., , 1980.
21. . : . . ., , 1996.