Mathematics">
Apunte 25
Apunte 25
Apunte 25
1
XIX sobre el teorema ergódico (relativo a la mezcla en un sistema fśico) y una
axiomática definitiva es dada por A. Kolmogorov en 1933 en su libro sobre los
Fundamentos de teorı́a de Probabilidades, axiomática que desarrollaremos más
aelante y que discutiremos más abajo.
Para un espacio Ω, la clase de todos sus subconjuntos los notamos por P(Ω) =
{A : A ⊆ Ω}. Ası́ pues la familia de eventos B satisface B ⊆ P(Ω), es decir los
eventos son subconjuntos del espacio Ω. Las propiedades que debe satisfacer la
clase de eventos corresponde a lo que se define como σ−álgebra, que veremos
más adelante ası́ como las propiedades que verifica una medida de probabilidad.
Ilustremos estos conceptos con el juego de dados. Al respecto es útil la siguiente
notación: para un conjunto finito A notamos por |A| el cardinal de A, esto es
el número de sus elementos.
Lanzamiento de un dado. Lancemos un dado equilibrado. En este caso Ω =
{1, ..., 6} es el conjunto de resultados posibles, B = P(Ω) es la clase de todos los
subconjuntos de Ω. Como el dado es equilibrado para todo ω ∈ Ω, el singleton
{ω} tiene probabilidad P({ω}) = 1/|Ω| = 1/6. Luego P(A) = |A|/6 para todo
evento A ∈ P(Ω). La probabilidad P(A) = |A|/6 se lee: es el número de casos
favorables |A| dividido por el número de casos totales |Ω| = 6.
Lanzamiento de dos dados. Lancemos dos dados equilibrados de manera inde-
pendiente. Estos dos dados se pueden distinguir, uno será el primer dado y el
otro el segundo. En este caso Ω = {1, ..., 6} × {1, ..., 6} es el conjunto de parejas
(ω1 , ω2 ) de los resultados de estos dados, la primera componente ω1 es el resul-
tado del primer dado y la segunda componente ω2 el resultado del segundo dado.
Se toma B = P(Ω) la clase de todos los subconjuntos de Ω. Como los dados
son equilibrados e independientes se tiene que para toda pareja (ω1 , ω2 ) ∈ Ω,
el singleton {(ω1 , ω2 )} tiene probabilidad P({(i, j)}) = 1/|Ω| = 1/36. Luego
P(A) = |A|/36 para todo A ∈ P(Ω), que tambien corresponde al número de
casos favorables dividido por el número de casos totales.
2
Se puede deducir que el lanzamiento de un número finito de dados puede mod-
elarse siguiendo la misma forma con un espacio finito, la clase de eventos B
siendo todos los subconjuntos de este espacio y la probabilidad se fija con los
singletons. Entonces: por qué es necesario introducir espacios más generales?
En el marco de los dados, ello ocurre pues incluso juegos muy simples de dados
requiere una infinidad de lanzamiento de dados, por ejemplo si dos jugadores
lanzan de manera independiente un dado y el evento es ’el segundo jugador es
quien obtiene por primera vez un resultado mayor que el otro’. La razón de
porqué en este juego tan simple se necesita considerar una infinidad de lanza-
mientos es que el número de empates puede ser tan grande como se quiera, la
probabilidad que hayan k empates desde el comienzo es 1/6k y esto es estricta-
mente positivo para todo k. Abajo veremos un juego donde este fenomeno es
aún más claro.
Notaremos N = {1, 2, ..} y N0 = {0, 1, 2, ..}.
Lanzamiento de un número infinito de una pareja de dados. Será útil fijar como
notación N = {1, 2, ..}. consideremos el conjunto
y
n
X n
X
Bm = {((ω1n , ω2n ) : n ∈ N) ∀n < m : 1(ω2k > ω1k ) − 1(ω1k > ω2k ) < M1 }.
k=1 k=1
3
El evento Am expresa que en la partida m−ésima hay una diferencia de M2
partidas ganadas en favor del jugador 1 y el evento Bm expresa que antes de m
el jugador 2 no ha tenido una diferencia de M1 partidas en su favor. Observemos
que Dm significa que el jugador 1 es el ganador del juego y que este se acaba
antes ó en la partida m. Si se quisiera descomponer A∗ en términos de una unión
de eventos disjuntos, cuyo iı́ndice es exactamente la partida donde se acaba el
juego escribimos
[
A∗ = Em con Em = Am ∩ Bm ∩ Cm ,
m≥M
donde
n
X n
X
Cm = {((ω1n , ω2n ) : n ∈ N) ∀n < m : 1(ω1k > ω2k ) − 1(ω2k > ω1k ) < M2 }.
k=1 k=1
4
siendo N (M ) el número de sismos de magnitud mayor o igual a M , y las con-
stantes a, b dependen de la región (se tiene b > 0). Esta ley ajusta bien la
frecuencia sı́smica salvo en los extremos, para magnitudes pequeñas o grandes.
Consideremos una cota inferior m0 y una cota superior M0 para la magnitud, tal
que en el intervalo [m0 , M0 ] la ley se cumpla. Luego podemos tomar la ecuacion
para la frecuencia de sismos,
N (M ) − N (M0 )
F (M ) = 1 − para M ∈ [m0 , M0 ].
N (m0 ) − N (M0 )
ea−bM − N (M0 )
F (M ) = 1 − = 1 − α(e−bM − β), M ∈ [m0 , M0 ],
N (m0 ) − N (M0 )
donde α = ea /(N (m0 ) − N (M0 )), β = N (M0 ) y b son cosntantes. Esta dis-
tribución es una exponencial truncada.
1.3 Paradojas
Para definir las bases dela teorı́a de probabilidades se tuvó que superar distintos
obstaculos, entre ellos uno filosofico ’si se le da sentido exacto al azar dejarı́a
de ser azar’ y tambien habı́an paradojas que hasta hoy se discuten. Aunque
no tengamos el formalismo para mirarlas más en detalle plantearemos una bien
conocida.
Paradoja del prisionero. Hay tres prisioneros, que los distinguiremos como O,
A, B. Ellos está encerrados en una prisión donde están aislados y solo hay un
guardia que los vigila. El paı́s está dirigido por un autocrata cuyas decisiones
las toma al azar (digamos con un dado). Fruto de su capricho anuncia que al
dı́a siguiente hará ahorcar un prisionero y los otros dos será liberados. Ası́ pues
cada uno de los prisioneros tiene probabilidad 1/3 de ser ahorcado y 2/3 de
ser liberado. Durante la noche al guardia se le comunica una noticia, y este se
acerca a la celda donde está O y le dice que el prisionero A no será ahorcado.
Despues de esto, cual es la probabilidad que O sea el ejecutado? Observemos
que O sabe que al menos uno de los dos otros prisioneros no será ejecutado. Por
lo que la noticia que le da el guardia no afecta en nada su probabilidad de ser
ahorcado y su probabilidad sigue siendo 1/3.
Paradoja de San Petersburgo. En el casino de San Petersburgo se debe pagar
por entrar a jugar el siguiente juego. El casino tira una moneda equilibrada y
le paga al jugador la recompensa rN = 2N rublos siendo N la primera vez que
la moneda sale cara. Observemos que la probabilidad pN que por primera vez
salga cara en la tirada N es que salgan N − 1 sellos seguidos de una cara, y
como la moneda es equilibrada esto tiene probabilidad (1/2)N .
5
Cuanto Ud. está dispuestro a pagar por entrar al juego? La paradoja se derivaba
que el jugador está dispuesto a pagar cantidades pequeñas por entrar al juego
siendo que la recompensa media que recibe el jugador es
∞
X ∞
X ∞
X
N N
pn rn = (1/2) 2 = 1 = +∞.
N =1 N =1 N =1
que en un juego equilibrado es lo que deberı́a pagar el jugador por entrar a este
juego. La cantidad anterior es una cantidad moderada. Por ejemplo si ese juego
tuviera lugar en un casino nacional disponiendo de un el capital que bordea los
30 · 109 pesos, el que es menos que 235 pesos, si el jugador pagara 36 pesos esta
serı́a una cantidad razonable si lo que pagamos es la media de la recompensa
que recibirı́amos del casino.
Bibliografı́a Recomendada.
1. M.H. DeGroot, M. J. Schervish (2012). Probability and Statistics. Fourth
Edition, Addison-Wesley.
2. W. Feller. An Introduction to Probablity Theory and Statistics. Vol.1 , 3rd
Edition, Wiley Series.
6
2 Probabilidad en caso finito, medida uniforme,
urnas
2.1 Cardinal y Producto de Conjuntos
Sea Ω un conjunto. Definimos
P(Ω) = {A : A ⊆ Ω}
el conjunto producto de Ωi . i = 1, .., k, sus elementos son las k−tuplas (ω1 , .., ωk )
cuya coordenada l−ésima está en Ωl . Se tiene
k
Y k
Y
| Ωi | = |Ωi |.
i=1 i=1
Si
Qktodos los kΩl son los mismos, Ωl = Ω para l = 1, ..., k, entonces escribimos
l=1 Ωl = Ω . Se tiene
|Ωk | = |Ω|k .
El conjunto de todas las partes de IN es P(IN ) = {J : J ⊆ IN }. Este tiene
cardinal
|P(IN )| = 2N .
En efecto, la función {0, 1}N → P(IN ), dada por,
7
es una biyección (con inversa A → (il = 1(l ∈ A) : l ∈ IN ), por lo que |P(I)| =
|{0, 1}N | = 2N .
El conjunto de todas las k−tuplas (ordenadas) a valores en IN es
k
IN = {(i1 , ..., ik ) : i1 , ..., ik ∈ IN }
k
y su cardinal es |IN | = N k . Observe que este es tambien el cardinal de todas
las funciones de Ik = {1, .., k} en IN pues todo elemento
k
(i1 , .., ik ) ∈ IN
define una única función f : Ik → IN dada por f (l) = il para cada l = 1, .., k.
Sea k ≤ N . Consideremos la clase de k−tuplas a valores en IN que tengan
todas sus componentes distintas, esta clase la notamos
Se tiene
N!
|I(k, N )| = N (N − 1)...(N − k + 1) = .
(N − k)!
En efecto, para la componente j = 1 podemos elegir N posibles valores de IN ,
para j = 2 podemos elegir N − 1 y ası́ sucesivamente, finalmente para l = k
podemos elegir N − (k − 1) valores, por lo que se tiene el resultado.
Observe que I(k, N ) corresponde al conjunto de funciones inyectivas de Ik en IN
pues toda k−tupla (i1 , ..., ik ) ∈ I(k, N ) define la función inyectiva f : Ik → IN
con f (l) = ij para j = 1, .., k.
En particular si k = N se tiene I(N, N ) = N !, es el cardinal de las biyecciones
de IN en sı́ mismas, o permutaciones de IN .
Sea k ≤ N . Consideremos P(N, k) = {J : J ⊆ IN , |J| = k} la clase de sub-
conjuntos de IN que tienen k elementos. Un subconjunto de k elementos de
IN está determinado por k elementos distintos de IN en cualquier orden, y este
subconjunto determina k! tuplas de elementos de IN que son distintas entre sı́.
Esto da |I(k, N )| = |P(N, k)| · k!, con lo que se obtiene
N! N
|P(N, k)| = = .
(N − k)!k! k
8
La clase de eventos es P(Ω) que es la clase de todos los subconjuntos de Ω, y la
probabilidad de un evento es
X
P : P(Ω) → [0, 1], A → P(A) = p(ω). (3)
ω∈A
P(Ac ) = 1 − P(A) si A ⊆ Ω.
Tambien notaremos por X el valor aleatorio del experimento, esto permite usar
la notación siguiente,
9
Se verifica que p es una densidad discreta en Ω = Ω1 × Ω2 pues
X X X X X
p(ω1 , ω2 ) = p1 (ω1 )p2 (ω2 ) = p1 (ω1 ) p2 (ω1 ) = 1.
(ω1 ,ω2 )∈Ω ω1 ∈Ω1 ω2 ∈Ω2 ω1 ∈Ω1 ω2 ∈Ω2
y en general
P(X1 ∈ A1 , X2 ∈ A2 ) = P(A1 × A2 ).
El experimento conjunto se nota como una pareja de experimentos X = (X1 , X2 ).
10
respectivamente. Si estos dos experimentos son independientes, entonces el
Entonces la densidad discreta producto es la uniforme en Ω1 × Ω2 pues,
1 1
p(ω1 , ω2 ) = p1 (ω1 ) · p2 (ω2 ) = = , (ω1 , ω2 ) ∈ Ω1 × Ω2 .
|Ω1 ||Ω2 | |Ω1 × Ω2 |
Para este evento se tiene P(A1 ) = 6/36 = 1/6. Otro evento es ’A2 = {X1 = X2 }:
hay empate en los lanzamientos’, luego
11
lanzamientos de estos dados, respectivamente. El dado D1 es equilibrado, es
decir P(X1 = i) = 1/6 para i ∈ {1, ..., 6}. Por otra parte, el dado D2 satisface
P(X2 = i) = qi para i ∈ {1, ..., 6}. probemos que P(X1 + X2 = 7) = 1/6, es
decir es la misma probabilidad a que si ambos lados fueran equilibrados.
En efecto por independencia se tiene P(X1 = i, X2 = j) = P(X1 = i)P(X2 =
j) = qj /6, luego
X 6 X6 X6
q7−i 1
P(X1 +X2 = 7) = P(X1 = i, X2 = 7−i) = P(X1 = i)P(X2 = 7−i) = = ,
i=1 i=1 i=1
6 6
P6 P6
donde usamos = i=1 q7−i = j=1 qj = 1.
12
2.4 Extracción de bolas de una urna
Modelemos la extracción de bolas de una urna. Para fijar ideas IN = {1, .., N }
representa un conjunto de N bolas contenidas en una urna y numeradas entre 1
y N . Sacar una bola X de manera uniforme de esta urna se modela por Ω = IN ,
con la ley de probabilidad,
1
P(X = i) =
N
Modelearemos la extracción de k bolas de la urna. Dependiendo del experi-
mento, que en este caso es el método de extracción, se fijará el conjunto mues-
tral Ω y una vez que lo hayamos fijado la probabilidad en Ω resultará ser la
probabilidad uniforme.
Ωr = IN
k
= {ω = (i1 , .., ik ) : il ∈ IN para i = 1, ..., k}.
|A| |A|
∀A ⊆ Ωr : Pr (A) = r
= k.
|Ω | N
Y esto equivale a que las k bolas extraı́das sean distintas entre sı́, esto lo notamos
i1 , .., ik 6=′ s entre sı́. Luego el conjunto muestral que notaremos Ωs (notamos s
por sin reposición) es
Ωs = {ω = (i1 , .., ik ) ∈ IN
k
: i1 , .., ik 6=′ s entre sı́}.
13
La secuencia de k bolas (i1 , .., ik ) ∈ Ωs se extraen pues de acuerdo a la probabil-
idad uniforme en Ωs . Para determinarla observemos que |Ωs | es igual al número
de funciones inyectivas de Ik en Im por lo que
N!
|Ωs | = .
(N − k)!
1 (N − k)!
Ps ({(i1 , .., ik )}) = = .
|Ωs | N!
Obtenemos
|A| (N − k)!
∀A ⊆ Ωs : P(A) = s
= |A| .
|Ω | N!
1 1 k!(N − k)!
∀ω ∈ P(N, k) : P({ω}) = = N = .
|P(N, k)| k
N!
donde se suma sobre el conjunto de permutaciones de {1, ..., k}. Se tiene |Aω | =
k! y de acuerdo a la medida de probabilidad para secuencias sin reposición se
tiene
(N − k)! (N − k)!
Ps (Aω ) = |Aω | = k! .
N! N!
14
Esto prueba que la medida de probabilidad en Ω = P(N, k), que notamos P, es
la probabilidad uniforme, en efecto
k!(N − k)! 1 1
P({ω}) = = N = .
N! k
|P(N, k)|
P Como |a| = k
Esta unión es disjunta (pues la primera coordenada es distinta).
para todo a ∈ P(N, k) se tiene |{a} × a| = k, luego |C| = a∈P(N.k) |a| =
|P(N, k)|k. Concluı́mos que la probabilidad buscada eP(X ∈ Y ) = P(C) es
|C| |P(N, k)|k k
P(C) = = = .
|Ω| |P(N, k)|N N
15
Se tiene
|A| |A|
∀A ⊆ P(N, k) : P(A) = = N .
|P(N, k)| k
A = {ω ∈ Ω : |ω ∩ Lr | = kr , r = 1, .., s},
Ps
Qskr ≤ Nr , r = 1, .., s, con r=1 kr = k. Se tiene que A esta en biyección
donde
con r=1 P(Nr , kr ) luego
Ys
Nr
|A| = ,
r=1
kr
y obtenemos Qs
Nr
r=1 kr
P(A) = N
.
k
16
3 Espacios de Probabilidad
Como dijimos en la Sección 1, el formalismo matemático con el que se modela
el cálculo de probabilidades es un triple (Ω, B, P) donde:
17
Para probar la segunda igualdad basta notar que aplicando la primera a la
familia (Aci ) y usando (Aci )c = Ai , se obtiene
[ \
( Aci )c = Ai .
i∈I i∈I
18
Veamos ahora propiedades de una σ−álgebra B en el caso general.
Notemos que la parte ∅ ∈ B en (a) se deduce de Ω ∈ B y de la propiedad (b)
pues Ω ∈ B implica ∅ = Ω ∈ B.
19
Luego por ser B cerrado para complemento, unión e intersección finitas deduci-
mos:
A \ B = A ∩ B c ∈ B, A∆B = (A \ B) ∪ (B \ A) ∈ B.
Notemos que en todo conjunto Ω podemos definir al menos dos σ−álgebras (las
que son distintas si Ω no es un singleton):
N (Ω) ⊆ B ⊆ P(Ω).
• Los intervalos semi-infinitos (−∞, x], (−∞, x), (x, ∞), [x, ∞);
• Los intervalos finitos (x, y], [x, y], [x, y), (x, y);
20
Prueba. La única pruebaSque no es directa es para probar que (−∞, x) ∈ B(R).
Ella resulta de (−∞, x) = n∈N (−∞, x−1/n] y que B(R) es cerrada por uniones
numerables.
De lo anterior se deduce que (x, ∞) = (∞, x]c y [x, ∞) = (∞, x)c están en
B(R) pues está es cerrada para complementos. De aqui también se tiene [a, b] =
(−∞, b] ∩ [a, ∞) ∈ B(R) pues es cerrada por complementos. Y todos los inter-
valos están en B(R). Luego {x} = [x, x] ∈ B(R).
Finalemente
S todo abierto O es unión de intervalos abiertos, es decir satisface
O = n∈N N (an , bn ), luego O ∈ B(R), y como los cerrados son complementos
de abiertos tambien los están en B(R).
21
(c) P es creciente esto es:
A ⊆ B ⇒ P(A) ≤ P(B).
en particular es sub-aditiva,esto es
22
n + 1. La siguiente unión es disjunta
[ [ [ [
Ai = ( Ai ) ∩ An ∪ ( Ai ) ∩ Acn ∪ An ∩ ( Ai )c
i∈In+1 i∈In i∈In i∈In
[ [ [
= ( Ai ∩ An ) ∪ ( Ai ∩ Acn ) ∪ (An \ ( An ∩ Ai ))
i∈In i∈In i∈In
[ [
= ( Ai ∪ (An \ ( An ∩ Ai )).
i∈In i∈In
Esto es:
[
si An ր entonces P( An ) = lim P(An ) ,
n→∞
n∈N
\
si An ց entonces P( An ) = lim P(An ).
n→∞
n∈N
23
Prueba: Supongamos que la sucesión es creciente. Definamos la sucesión de
conjuntos (∆n : i ∈ N) por
[ [ X N
X
P( An ) = P( ∆n ) = P(∆n ) = lim P(∆n ) = lim P(AN ).
N →∞ N →∞
n∈N n∈N n∈N n=1
24
Sn
Para el caso numerable I = N S Sn = i=1 Ai para n ∈ N. Se tiene
definamos B
que que Bn es creciente y que n∈N Bn = n∈N An . Luego, por la proposición
anterior se tiene
[ [ n
[
P( An ) = P( Bn ) = lim P(Bn ) = lim P( Ai )
n→∞ n→∞
n∈N n∈N i=1
n
X X
≤ lim ( P(Ai )) = Ai .
n→∞
i=1 i∈N
Proposición 11.
S (i) Si (An : n ∈ N) ⊆ B es tal que P(An ) = 0 para todo
n ∈ N entonces P( n∈N An ) = 0.
(ii)T Si (An : n ∈ N) ⊆ B es tal que P(An ) = 1 para todo n ∈ N entonces
P( n∈N An ) = 1.
(iii) N (Ω, P) = {A ∈ B : P(A) = 0 ó P(A) = 1} es una σ−álgebra.
S P
Prueba: (i) por la sub σ−aditividad An ) ≤ n∈N P(An ) = 0.
T se tiene P( n∈N S
La propiedad (ii) resulta de (i) y P( n∈N An ) = 1 − P( n∈N Acn ). La parte (iii)
se deduce fácilmente.
25
Para I = N se obtiene usando la Proposición 9. Para hacerlo tomemos Bn =
S n
i=1 Ai , la que es una sucesión creciente de conjuntos cuando n crece y se
obtiene
[ [ n
[ n
X X
P( Ai ) = P( Bi ) = lim P( Ai ) = lim P(Ai ) = P(Ai ).
n→∞ n→∞
i∈I i∈I i=1 i=1 i∈N
Ella es una medida de probabilidad pues toma valores en [0, 1], P(Ω) = 1 y es
σ−aditiva pues para una familia disjunta (An : n ∈ N) ⊆ P(Ω) se cumple
!
X X X
p(ω) = p(ω).
n∈N ω∈An ω∈∪n∈N An
26
4 Probabilidad Condicional
De ahora en adelante (Ω, B, P) es un espacio de probabilidad fijo.
Definición 12. Sean A, C ∈ B con P(C) > 0. La probabilidad condicional
de A dado C es
P(A ∩ C)
P(A | C) = . (8)
P(C)
27
Proposición 13. Sea C ∈ B con P(C) > 0. Entonces
P(· | C) : B ∩ C → [0, 1], A → P(A | C)
P(C | C) = 1
S
y si (An : n ∈ N) ⊆ B ∩ C es una familia disjunta, se tiene P(
P n∈N An ) =
n∈N P(An ) y como An = An ∩ C (pues An ⊆ C) se tiene
[ X
P( An | C) = P(An | C).
n∈N n∈N
|A|/|6| |A|
P(A | C) = P(A)/P(C) = = ,
|C|/|6| |C|
28
o escrito de manera más compacta,
k
! k k
!
\ Y \
P Ar = P Ar As y
r=1 r=1 s=r+1
k
! k−1 k−r−1
!
\ Y \
P Ar = P Ak−r As ,
r=1 r=0 s=1
Tk T0
donde hemos notado P Ak | s=k+1 As = P(Ak ), P A1 | s=1 As = P(A1 ).
Prueba: Las dos fórmulas del enunciado son equivalentes pues correponden
simplemente a una distinta reenumeración de los conjuntos. Probemos la primera,
lo que haremos por un método inductivo. Ası́,
k
! k−1
! k−1
! k−1
!
\ \ \ \
P Ar = P Ak ∩ Ar = P Ak Ar P Ar ,
r=1 r=1 r=1 r=1
29
entonces todo las propiedades que veremos para una partición tambien son sat-
isfechas por una P−partición.
Supondremos que los conjuntos de la partición satisfacen P(Ai ) > 0 para todo
i ∈ I pues un conjunto P-nulo se puede sacar de la P−partición.
S Sea C ∈ B. Al
intersectar C con ambos términos de la igualdad Ω = i∈I Ai se obtiene
[
C= C ∩ Ai
i∈I
o equivalentemente X
P(C) = P(C | Ai )P(Ai ). (10)
i∈I
Ejercicio 4’. Consideremos una urna con N bolas, de las cuales M son blancas
y N − M son negras. Hagamos el siguiente expermento: saquemos al azar un
conjunto de k bolas de la urna, y enseguida, de este conjunto saquemos al azar
una bola. Probemos que la probabilidad de que esta bola sea blanca es M/N ,
es decir es la misma probabilidad de ser blanca que si de la urna hubieramos
extraı́do una bola al azar.
Notemos por Y el conjunto de k bolas extraı́das al azar y notemos por X el
color de la bola extraı́da al azar del conjunto Y . Notemos por A el evento X es
bola blanca y Bl el evento Y contiene l bolas blancas. Se tiene
l
P(A | Bl ) = .
k
Por probabilidades totales se tiene
k k
M N −M
X X l l k−l
P(A) = P(A ∩ Bl )P(Bl ) = N
k k
l=0 l=0
k
M −1 N −1−(M −1)
M X l−1 k−1−(l−1) M
= ) N −1
= .
N k−1
N
l=1
30
Ejercicio 4”. Se dispone de n monedas, numeradas de M1 a Mn . La moneda
Mi tiene probabilidad pi de ser Cara. Supongamos que el experimento es: se
escoge una moneda ’al azar’ (es decir uniformemente entre las n monedas).
Cuál es la probabilidad que si esta se lanza salga Cara? Para ello notemos ξ
el indice de la moneda escogida. Este es un número aleatorio entre 1 y n con
P(ξ = i) = 1/n para i ∈ In . Observemos que
({ξ = i} : i ∈ In ) es una partición
pues {ξ = i} ∩ {ξ = j} = ∅ si i 6= j y Ω = {ξ ∈ In }. El evento considerado
es {Mξ = Cara}. Luego, por fórmula de probabilidades totales y tomando
C = {Mξ = Cara}, Ai = {ξ = i} se obtiene:
X X
P(C) = P(C | Ai )P(Ai ) = P(Mξ = Cara | ξ = i)P(ξi = i)
i∈In i∈In
X n
1 1X
= pi = pi .
n n i=1
i∈In
31
Ejercicio 6. (Problema de Monty-Hall). En un concurso hay tres puertas, sólo
detrás de una de ellas hay un premio y las otras dos están vacı́as. Quién anima
el concurso conoce la puerta que contiene el premio. Un concursante busca
escoger la puerta que contiene el premio, y para ello elige al azar una de las
tres puertas. Antes de chequear si ella contiene el premio, el animador abre una
de las otras dos puertas mostrandole al concursante que ella esta vacı́a y acto
seguido le ofrece al concursante la posibilidad de cambiar la puerta elegida por
la puerta que el animador no abrió. Conviene al concursante hacer éste cambio?
Resolvamoslo.
Notemos por {−1, 0, 1} las tres puertas, siendo 0 la puerta que tiene el premio.
El conjunto muestral lo definiremos por Ω = {−1, 0, 1}×{−1, 1}, donde la pareja
(ω1 , ω2 ) ∈ Ω significa que la puerta ω1 es la puerta escogida por el concursante
y ω2 es la puerta abierta por el animador, la que está vacı́a y por ello no es
0. La probabilidad P en Ω se define de la manera siguiente: fijemos q ∈ (0, 1),
luego P está definida por
1 1 1 1
P{(0, −1)} = q · , P({(0, 1)}) = (1 − q) · , P{(1, −1)} = , P{(−1, 1)} = .
3 3 3 3
Y esto significa que condicionalmente a que el concusante elija ω1 , el animador
abre una de las dos puertas ω2 = 1 ó ω2 = −1 (ambas están vacı́as) con prob-
abilidad q y 1 − q respectivamente. Si el concursante elige una puerta vacı́a
ω1 ∈ {−1, 1} el animador abre la puerta ω2 = −ω1 pues esta debe estar vacı́a.
La puerta ω1 escogida por el concursante verifica P(ω1 = i) = 1/3 para i ∈
{−1, 0, 1}. Sean ω2 , ω3 las otras dos puertas. La puerta ω2 abierta por el
animador esta vacı́a, y notamos por ω3 la puerta que no se abre y que se ofrece
al concursante para ser intercambiada por ω1 . Se tiene {ω1 , ω2 , ω3 } = {−1, 0, 1}
luego P(ω1 = 0) + P(ω2 = 0) + P(−ω2 = 0) = 1. Como P(ω1 = 0) = 1/3 y
P(ω2 = 0) = 0, deducimos P(ω3 = 0) = 2/3, luego al concursante le conviene
intercambiar ω3 por ω1 .
32
5 Independencia
Fijemos el espacio de probabilidad (Ω, B, P).
A1 = {(i1 , i2 ) : i1 ∈ C1 } = C1 × I6 , A2 = {(i1 , i2 ) : i2 ∈ C2 } = I6 × C2 .
Luego
1 1 1 1
P(A1 ∩ A2 ) = |A1 ∩ A2 | = |C1 × C2 | = |C1 | · |C2 | = P(A1 )P(A2 ).
36 36 6 6
33
De la la Proposición 17 se tiene la equivalencia
Tk
Propiedad 20. Si A1 , ..., Ak son independientes con P( r=1 Ar ) > 0, en-
tonces para Br = Ar ó Br = Acr , r = 1, ..., k, tal que P(Br ) > 0 se tiene:
k−1
\
P(Bk | Br ) = P(Bk )
r=1
34
Tk Qk Tk−1 Qk−1
Prueba: Resulta de P( r=1 Br ) = r=1 P(Br ) y P( r=1 Br ) = r=1 P(Br ).
Se tiene la equivalencia:
35
Por hipotesis de inducción sobre ℓ se obtiene
ℓ+1 k
! ℓ k ℓ r
\ \ Y Y Y Y
c
P (Al ) ∩ Ak = P(Acl ) P(Al ) − P(Acl ) P(Al )
l=1 l=ℓ+2 l=1 l=ℓ+2 l=1 l=ℓ+1
ℓ
Y k
Y ℓ+1
Y k
Y
= P(Acl )(1 − P(Aℓ+1 )) P(Al ) = P(Acl ) P(Al ).
l=1 l=ℓ+2 l=1 l=ℓ+2
Lo que da el resultado.
36
Entonces A1 , A2 , C son independientes de a pares (esto es los pares A1 , A2 ;
A1 , C; A2 , C; son independientes), pero A1 , A2 , C no son independientes.
En efecto P(A1 ) = 1/2 = P(A2 ), P(C) = 1/18, P(A1 ∩ A2 ) = {(i1 , i2 ) ∈ Ω :
i1 , i2 son pares} = 9/36 = 1/4. Además A1 ∩ C = A2 ∩ C = A1 ∩ A2 ∩
C = {(6, 6)} por lo que P(A1 ∩ C) = P{(6, 6)} = P(A2 ∩ C) = 1/36 y se
tiene la independencia de a pares. Pero P(A1 ∩ A2 ∩ C) = 1/36 6= 1/64 =
P(A1 )P(A2 )P(C) por lo que no se tiene la independencia. Esto se ve en la
relación: P(A1 | A2 ∩ A3 ) = 1 6= 1/2 = P(A1 ).
Para ilustrar que A1 , A2 , C no son independientes, se tiene que
esto es ella es diferente a P(A2 ) = 1/2, lo que por la propiedad 20 implica que
A1 , A2 , C no son independientes.
37
6 Variables aleatorias
Observemos que ada vez que se juega un nuevo juego de dados hemos cambiado
de espacio de probabilidad, en efecto si se juegan k juegos de dados consideramos
el espacio de probabilidad dado por Ω = I6k con la medida de probabilidad
dada por la densidad discreta p((ω1 , ..., ωk ) = 1/6k . Sin embargo esta forma
de modelar los juego por una parte no nos da agilidad para poder combinar
resultados y peor aún no permite considerar juegos donde deba considerarse un
número de juegos que no esten determinados a priori, por ejemplo esto ocurre
para dos jugadores con ciertas fortunas iniciales, en que jueguen hasta que uno
de los dos haya perdido todo.
En lo que sigue modelaremos los juegos considerando un solo espacio de prob-
abilidad (Ω, B, P) y los distintos juegos 1, 2, ... corresponden a funciones, que se
llaman aleatorias, con dominio en Ω y que toman valores en R, en este caso
I6 = {1, ..., 6}. Hagamos más rigurosa esta forma de modelar.
38
Nota 6. Sea X : Ω → R una función. Se tiene que {ω ∈ Ω : X(ω) ∈ C} =
X −1 (C) es la imagen inversa de C. La familia de todos los conjuntos es
• (v) lim inf Xn , lim sup Xn son v.a.’s aleatorias tomando valores en R ∪
n∈N n∈N
{−∞} y R ∪ {+∞} respectivamente;
{max(X, Y ) ≤ x} = {X ≤ x} ∩ {Y ≤ x} ∈ B,
{min(X, Y ) ≥ x} = {X ≥ x} ∩ {Y ≥ x} ∈ B.
39
Por otra parte es directo mostrar que,
Es útil poder descomponer una v.a. como diferencia de sus partes positiva y
negativa.
Definición 26. Para X : Ω → R, definimos
X + = max(X, 0), X − = max(−X, 0). (12)
Observemos que
40
6.2 Probabilidad inducida
Definición 28. Sea X : Ω → R v.a., se tiene que
P(X ∈ ·) : B(R) → [0, 1], C → P({X ∈ C}) (15)
define una medida de probabilidad en (R, B(R)) que se dice inducida por X y
que tambien se llama la ley (de probabilidad) de X. Ella es una medidad de
probabilidad pues P(X ∈ R) = 1 y para una familia numerable disjunta de
conjuntos Borelianos (Cn : n ∈ N) ⊂ B(R) se cumple
[ X
P(X ∈ Cn ) = P(X ∈ Cn )
n∈N n∈N
41
donde en la penúltima igualdad se usa la independencia de X1 , ..., Xk .
Independencia para familia infinita de v.a.’s. Una familia infinita de v.a.’s
discretas (Xi : i ∈ N) a valores en I se dicen independientes si para todo n finito
se tiene que las v.a.’s X1 , ..., Xn son independientes.
42
7 Variables aleatorias discretas
Recordemos que en la definición 24 dimos la condición para que una función
X : Ω → R sea una v.a. Ellq se llamará discreta si toma valores en un conjunto
numerable de valores, es decir si su conjunto imagen X(Ω) = {X(ω) : ω ∈ Ω}
es numerable. Sea X : Ω → R una función que toma un conjunto numerable de
valores I = X(Ω). Entonces ella es v.a. si y solo si satisface
Las v.a. discretas X que toman un número finito de valores, es decir tal que su
rango X(Ω) es finito, se les llama v.a. simples. Ejemplos de v.a. simples son
las v.a. constantes y las v.a. indicadoras.
43
la v.a. X discreta puede ser escrita en términos de indicadoras como sigue
X
X= a 1{X=a} . (20)
a∈I
Ası́ pues, una variable discreta X está caracterizada por su conjunto de llegada
I y por la densidad discreta pX . Diremos que X se distribuye según pX y esto
se escribe X ∼ pX .
S
Prueba: Es directa pues {g(X) = b} = a∈I:g(a)=b {X = a} y la unión es
disjunta.
44
Ejemplo 1.1. Consideremos X la v.a. que es el resultado del lanzamiento de un
dado equilibrado, en este caso I = I6 = {1, ..., 6} y pX (i) = 1/6 para i ∈ I6 .
Supongamos que g : I6 → R con g(i) = 1 si i es par y g(i) = 0 si i es impar.
Entonces J = g(I) = {0, 1} y la v.a. Y = g ◦ X es tal que Y (ω) = g(X(ω)) = 1
si el valor del dado X(ω) es par y Y (ω) = 0 si el valor X(ω) es impar. Luego
pY (1) = pX (2) + pX (4) + pX (6) = 1/2, pY (0) = pX (1) + pX (3) + pX (5) = 1/2,
asi que Y corresponde al lanzamiento de una moneda equilibrada.
45
Independencia de las indicadoras. Considere A1 , ..., An ∈ B y sus fun-
ciones indicadoras X1 = 1A1 , ..., Xn = 1An . Mostremos que ellas son inde-
pendientes si y solo si los conjuntos A1 , ..., An son independientes. En efecto
{X1 = i1 , ..., Xn = in } = B1 ∩ .... ∩ Bn siendo Bk = Ak si ik = 1 o Bk = Ack
si ik = 0 para k = 1, ..., n. Luego la equivalencia resulta de la definición de
independencia para conjuntos y de la igualdad
P(X = 1) = p, P(X = 0) = 1 − p.
Ası́ pues
P(X ∈ {0, 1}) = P(X1 ) + P(X = 1) = 1.
La densidad discreta está dada por
luego
P(X ∈ {0, ..., n}) = 1.
46
n
La densidad discreta es pX (k) = P(X = k) = k pk (1 − p)n−k para k = 0, .., n.
Pn
Prueba:
Pn Sea X = r=1 Xr . Se tiene X : Ω → {0, .., n}, ω → X(ω) =
r=1 X r (ω). Se tiene que Xr (ω) = 0 ó Xr (ω) = 1, entonces
n
X
Xr (ω) = |{r ∈ {1, ..., n} : Xr (ω) = 1}|}
r=1
47
esto es [
{X = k} = {Xr = 1, r ∈ J; Xr = 0, r ∈ J c }. (21)
J∈P(n,k)
de donde
X
k n−k k n−k n k
P(X = k) = p (1 − p) = |P(n, k)|p (1 − p) = p (1 − p)n−k .
k
J∈P(n,k)
Z = inf{k ∈ N : Xk = 1} ∼ Geométrica(p).
Luego por independencia de las v.a.’s (Xk : k ∈ N) y dado que todos los Xl ∼
Bernoulli(p) se deduce
Y
P(Z = n) = P(Xl = 0) P(Xn = 1) = (1 − p)n−1 p para n ∈ N.
1≤l<n
Esto es:
1. Si lanzamos n veces y de manera independiente una moneda con probabilidad
p de éxito, entonces el número de éxitos en los n lanzamientos se distribuye según
48
una Binomial(n,
p), es decir la probabilidad que se obtenga exactamente k éxitos
es nk pk (1 − p)n−k .
2. Si lanzamos de manera indepeniente una moneda con probabilidad p de
éxito y esto lo hacemos de manera indefinida, entonces el momento en que por
primera vez se tenga un éxito se distribuye según una Geométrica(p), es decir
la probabilidad que el primer éxito se obtenga en el n−ésimo lanzamiento es
(1 − p)n−1 p.
Ejemplo 2.1 Los experimentos que son Bernoulli no son asociados exclusiva-
mente a monedas. En efecto supongamos que X1 , X2 son los resultados de
dos lanzamientos independientes de un dado, cada uno de ellos uniforme, ası́
pX1 ,X2 (i, j) = 1/36 es la uniforme en I 2 = {1, ..., 6}2 . Ahora el caso en que el
éxito sea que la suma de estos dos lanzamientos sea 7, definimos la v.a. Y por
Y = 1 si X1 + X2 = 7, Y = 0 en caso contrario.
Consideremos ahora (X1k , X2k ) : k ∈ N) una sucesión de lanzamientos indepen-
dientes de parejas de dados independientes y uniformes, se tiene que la primera
vez que la suma de los dados es 7 es la v.a.
Ejercicio 10. Sean 0 < p, q < 1. Sean (X, X1 , .., Xk ) v.a.’s independientes con
X ∼ Binomial(n, p), Xl ∼ Bernoulli(q) para l = 1, .., k. Entonces pruebe que la
v.a. Y definida por
X(ω)
X
Y (ω) = Xl (ω)
l=1
verifica Y ∼ Binomial(pq).
Observemos que Y (ω) = 0 en el caso X(ω) = 0. La v.a. anterior se escribe
PX
Y = l=1 Xl . Para probar esto por probabilidades totales, condicionando en
49
X y usando la independencia se obtiene
n
X m
X n
X m
X
P(Y = k) = P( Xl , X = m) = P( Xl = k | X = m)P(X = m)
m=0 l=1 m=0 l=1
Xn Xm Xn m
X
= P( Xl = k)P(X = m) = P( Xl = k)P(X = m)
m=0 l=1 m=k l=1
Xn
m k m−k n
= q (1 − q) pm (1 − p)n−m
k m
m=k
Xn
n (n − k)!
= (pq)k (p(1 − q))m−k (1 − p)(n−k)−(m−k)
k (m − k)!(n − m)!
m=k
X n − k
n−k
n k
= (pq) (p(1 − q))j (1 − p)(n−k)−j
k j=0
j
n
= (pq)k (p(1 − q) + 1 − p)n−k .
k
Luego se tiene el resultado.
Se cumple:
Proposición 33. Sea Z ∼ Geométrica(p). Entonces se satisface,
P(Z > n) = (1 − p)n para n ≥ 0, (22)
y se cumple la recı́proca, (22) equivale a Z ∼ Geométrica(p).
Además Z ∼ Geométrica(p) cumple la propiedad,
P(Z > n + m|Z > n) = P(Z > m) para n, m ≥ 0 (pérdida de memoria) , (23)
y se cumple la siguiente recı́proca, la condición (23) equivale a Z ∼ Geométrica(p)
con p = 1 − P(Z > 1) = P(Z = 1).
50
Luego se tiene la propiedad de pérdida de memoria P(Z > n + m | Z > n) =
P(Z > m) para n, m ≥ 0.
Recı́procamente (23) implica que para n > 1 se cumple: P(Z > n) = P(Z >
n − 1)P(Z > 1) y por inducción se obtiene P(Z > n) = P(Z > 1)n para todo
n ≥ 1. Por la primera parte se deduce Z ∼ Geométrica(1 − P(Z > 1)).
51
En efecto, usando la independencia y la Proposición 34 se tiene,
P(X1 = k, X1 + X2 = n)
P(X1 = k | X1 + X2 = n) =
P(X1 + X2 = n)
P(X1 = k, X2 = n − k) (λk1λ2n−k (λ1 +λ2 ) n!
= = e−(λ1 +λ2 ) e
P(X1 + X2 = n) k!(n − k)! (λ1 + λ2 )n
k n−k
n λ1 λ2
= ,
k λ1 + λ2 λ1 + λ2
λk −λ
lim P(Xn = k) = e para k ≥ 0,
n→∞ k!
es decir este lı́mite es una Poisson(λ).
52
Prueba: Se tiene
1 n!
P(Xn = k) = p(n)k (1 − p(n))n−k .
k! (n − k)!
Ce−n nn+1/2
lim = 1,
n→∞ n!
donde 0 < C < ∞ es constante, para probar
k−1
!
n! Y n−l
lim p(n)k = lim (p(n) n)k = λk .
n→∞ (n − k)! n→∞ n
l=0
Y se obtiene el resultado.
Ce−n nn+1/2
lim = 1.
n→∞ n!
Como log x es creciente se tiene para k ≥ 1,
Z k Z k+1
log x < log k < log x.
k−1 k
Pn
Como log n! = k=1 log k, (x log x − x)′ = log x se obtiene,
Z n Z n+1
n log n − n = log x dx < log n! < log x dx < (n + 1) log(n + 1) − n.
0 1
X t2l 1 X 2l 1
dn −dn+1 = ≤ t = = (12n)−1 −(12(n+1))−1 .
(2l + 1) 3 3((2n + 1)2 − 1)
l≥1 l≥1
53
De estas últimas relaciones se deduce dn decreciente y dn − (12n)−1 creciente.
Luego existe C = lim dn y es finito. Concluı́mos que
n→∞
n!
1 → 1 si n → ∞.
C nn+ 2 e−n
54
2, .., k, y ellas son independientes y caen en tales arcos 2, ..., k con probabilidades
condicionadas a no caer en el arco 1, esto es con probabilidades respectivas
(n − n1 )! n1 n2
P(X2 = n2 ..., Xk = nk |X1 = n1 ) = p p · · · pnk k (1 − p1 )−(n−n1 ) .
n2 ! · · · nk ! 1 2
Luego combinando esta igualdad con (25) y (26), se prueba que (24) se satisface
para k.
es la convolución de pX y pY .
Prueba: Se tiene,
X X
pX+Y (i) = P(X + Y = i) = P(X = k, Y = i − k) = P(X = k)P(Y = i − k)
k∈Z k∈Z
X
= pX (k) pY (i − k),
k∈Z
S
En la segunda igualdad usamos la igualdad {X +Y = i} = k∈Z {X = k, Y = i−
k} siendo esta unión disjunta, y en la tercera igualdad usamos la independencia
de X e Y . Hemos probadopX+Y = pX ∗ pY .
La convolución de las densidades discretas de probabilidad p y q en Z es
X
(p ∗ q)(i) = p(k)q(i − k), i ∈ Z.
k∈Z
55
donde hicimos el cambio de ı́ndice j = i − k. La convolución ∗ es conmutativa,
asociativa y su elemento neutro es la densidad discreta δ0 , dada por δ0 (i) = 0
si i 6= 0 y δ0 (0) = 1.
Si p, q estaán concentradas en N0 , es decir se cumple p(i) = q(i) = 0 cuando
i < 0, entonces p ∗ q tambi’én está concentrada en N0 y se tiene
i
X
(p ∗ q)(i) = p(k)q(i − k), i ∈ N0 .
k=0
56
8 Función de distribución
Sea X : Ω → R. Su probabilidad inducida PX es
Se nota X ∼ FX .
57
Es analoga a (ii) pues si xn ր +∞ entonces (−∞, xn ] crece y se tiene
(iii) S
R = n∈N (−∞, xn ]. Luego
[
{X ∈ R} = {X ∈ (−∞, xn ]}.
n∈N
+
Prueba: Para mostrar la primera parte tomemos unaS sucesión 0 < hn ց 0
hn ] crece y se tiene (−∞, x) = n∈N (−∞, x − hn ], luego
entonces (−∞, x − S
{X ∈ (−∞, x)} = n∈N {X ∈ (−∞, x − hn ]}. Por convergencia monotona se
obtiene P(X ∈ (−∞, x)) = lim P(X ∈ (−∞, x − hn ]) y concluı́mos P(X <
n→∞
x) = lim FX (x − hn ).
n→∞
Para las otras propiedades basta notar que P(X = x) = P(X ≤ x) − P(X <
x) = FX (x) − FX (x− ).
58
por lo que Dn (FX ) ≤ n es finito. Luego todo conjunto numerable incluı́do
en Dn (FX ) es finito, por lo que Dn (FX ) es finitoy satisface |Dn (FX )| ≤ n. Se
concluye que D(FX ) es numerable por ser union numerable de conjuntos finitos.
V.a. continuas y discretas. Se tiene P(X ∈ D(FX )) ≤ 1. Se tiene:
59
9 Distribuciones absolutamente continuas
Hagamos primero una corta discsuión de conjuntos de medida nula, pues una
parte de los conceptos que introduciremos serán válidos Rsalvo conjuntos de me-
dida nula. Un Rconjunto B ⊂ R se dice de medida nulo si B dx = 0, R o de manera
equivalente si 1B (x)dx = 0. Si B es de medida nula se tiene B h(x)dx = 0
para toda función Boreliana acotada h : B → R. Luego podemos modificar
una función en un conjunto de medida nula, sin que su integral cambie. Los
conjuntos formados por un punto, o por un conjunto finito de puntos, o por un
conjunto numerable de puntos, son conjuntos de medida nula. En general no
distinguiremos entre funciones que difieran en conjuntos de medida nula.
y se cumple Z x
∀x ∈ R : FX (x) = fX (u)du.
−∞
fX se le llama la función de densidad de FX . También diremos que la v.a. X
tiee densidad fX y notaremos indistintamente X ∼ FX o X ∼ fX .
Si FX : R → [0, 1] es a.c. entonces es continua: P(X = x) = F (x) − F (x− ) = 0
para todo x ∈ R. La función de densidad fX de FX no es única pues basta
modificarla en conjunto de medida nula (por ejemplo un punto cualquiera) man-
teniendola no-negativa para que siga siendo la función de densidad de FX , estas
funciones serán identificadas.
Si fX es la función densidad de la función de distribución de la función de
distribución a.c.FX entonces
dFX
fX (x) = (x)
dx
para x ∈ R salvo en un conjunto de medida nula.
60
Las funciones de distribución que consideraremos serán las que son discretas o
a.c.’s, esto permite estudiar las que se descomponen en una parte discreta y otra
a.c.
61
Cuando F es continua estrictamente creciente en R entonces es una biyección
en R y existe su función inversa, la que coincice con F −1 definida en (27).
c
Prueba: Se tiene fX (x) = 0 si x ∈ SX , por lo que
Z
c
P(X ∈ SX )= fX (x)dx = 0,
c
SX
c
de donde 1 = P(X ∈ R) = 1 − P(X ∈ SX ) = P(X ∈ SX ).
Uno puede modificar fX en un conjunto de medida nula, en particular en un
conjunto finito de puntos y para esta modificaión de tendraá la misma propiedad
de la Propiedad 45. Para un conjunto C que verifica P(C) = 1 siempre se puede
definir fX (x) = 0 para x 6∈ C.
Teorema 46. Sea X v.a. a.c. con función de densidad fX . Sea D abierto
con P(X ∈ D) = 1. Sea h : D → R función a derivada continua tal que
62
h′ (x) 6= 0 para x ∈ D. Entonces, la v.a. Y = h(X) es a.c. y su función de
densidad fY verifica
X
∀y ∈ h(D) : fY (y) = |h′ (xy )|−1 fX (xy ), (28)
xy ∈h−1 {y}
FY (y) = P(X ≥ h−1 (y)) = 1−P(X < h−1 (y)) = 1−P(X ≤ h−1 (y)) = 1−FX (h−1 (y)).
La penúltima igualdad pues por ser FX continua se tiene P(X = h−1 (y)) = 0.
Derivando el primer y último término de la cadena de igualdades se obtiene,
fY (y) = −h′ (h−1 (y))−1 fX (h−1 (y)) = |h′ (h−1 (y))−1 |fX (h−1 (y)).
63
Caso h(x) = x2 . Se tiene Y = h(X) = X 2 . Dado que h′ (x) = 2x se cumple
h′ (0) = 0. Tomemos D = R \ {0}, h : R \ {0} → R, x → h(x) = x2 . Como una
X v.a. a.c. verifica P(X = 0) = 0, se cumple P(X ∈ D) = 1. Notemos que en
este dominio D se verfica las hipotesis del teorema, pues h′ (x) 6= 0 para x ∈ D.
Se tiene Y ≥ 0 y se tiene,
√ 1 √ 1
fY (y) = fX ( y) √ + fX (− y) √ .
2 y 2 y
√ √ √
Como h−1 {y} = { y, − y} y se verifica |h′ (xy )|−1 = 1/(2 y), luego que la
relación (28) se verifica en este caso.
64
Debemos probar que la fX dada por R(32) efectivamente es una densidad. Como
∞
ella es no-negativa basta mostrar que −∞ fX (x)dx = 1. Por cambio de variables
h(x) = (x − µ)/σ, basta mostrar que,
Z ∞
1 x2
√ e− 2 dx = 1,
2π −∞
III. Exponencial.
65
esto es fT (t) = λe−λt si t > 0, fT (t) = 0 si t ≤ 0. Luego T > 0.
Su función de distribución verifica
(
1 − e−λt si t ≥ 0;
FT (t) =
0 si t ≤ 0.
66
La función ⌈·⌉ : R → Z, t → ⌈t⌉ llamada el entero superior se define por ⌈t⌉ = n
si t ∈ (n − 1, n]. Observe que si t > 0 entonces ⌈t⌉ ∈ N.
Ejercicio 15. Sea T ∼ Exponencial[λ] entonces ⌈T ⌉ ∼ Geométrica(1 − e−λ ).
En efecto, como T > 0 entonces ⌈T ⌉ ∈ N. Por otra parte para n ≥ 0 se tiene
IV. Gamma.
La función Γ : (0, ∞) → (0, ∞) está definida por
Z ∞
Γ(α) = xα−1 e−x dx,
0
Γ(α + 1) = αΓ(α),
67
10 Vectores aleatorios
A Rk lo dotamos de la σ−álgebra de Borel notada B(Rk ). Ella es la σ−álgebra
generada por la familia de productos de intervalos semi-infinitos, es decir
k
Y
B(Rk ) = σ(Lk ) con Lk = { (−∞, xk ] : x1 , ..., xk ∈ R}.
l=1
Y en general,
∀C ∈ B(Rk ) : {(X1 , .., Xk ) ∈ C} ∈ B. (36)
Arriba hemos notado {ω ∈ Ω : (X1 (ω), .., Xk (ω)) ∈ C} = {(X1 , .., Xk ) ∈ C}.
A continuación notemos por ~x = (x1 , .., xk ), ~y = (y1 , .., yk ) vectores columna de
Rk , que se distinguen de los vectores filas que se escriben ~xt . Un vc.a. de largo
k será notado por X~ = (X1 , .., Xk ) siendo las v.a.’s X1 , .., Xk sus componentes
y siempre será considerado como vector columna.
~ ó la ley
Definición 54. Definimos la probabilidad inducida por el vc.a. X
~ es la medidad de probabilidad en (Rk , B(Rk )) dada
de probabilidad del vc.a. X,
por,
P(X~ ∈ ·) : B(Rk ) → [0, 1], C → P((X1 , .., Xk ) ∈ C), (37)
donde P((X1 , .., Xk ) ∈ C) = P(ω ∈ Ω : (X1 (ω), .., Xk (ω)) ∈ C).
Observemos que la probabilidad inducidas por una v.a. Xl que sea componente
~ se puede recuperar por la ley de probabilidad de este por,
del vc.a. X,
68
Caso Independiente. Sean X1 , .., Xk v.a.’s independientes entonces X ~ =
(X1 , .., Xk ) es un vc.a. cuya ley de probabilidad en (Rk , B(Rk )) satisface
k
Y k
Y
∀C1 , ..., Ck ∈ B(R), ~ ∈
P(X Ci ) = P(Xl ∈ Cl ),
l=1 l=1
Qk
o de manera más explı́cta P(X1 ∈ C1 , ..., Xk ∈ Ck ) = l=1 P(Xl ∈ Cl ).
~ analogamente a como
Podemos definir la función de distribución para el vc.a. X
lo hicimos para una v.a. Para ello a continuación notamos por ~x = (x1 , .., xk ),
~y = (y1 , .., yk ) vectores columna de Rk , y usamos el siguiente orden en Rk :
~x ≤ ~y si xl ≤ yl para l = 1, .., k. (Cuando queramos notar vectores filas los
escribiremos ~xt ).
~ = (X1 , ..., Xk )
Definición 55. La función de distribución (multidimensional) de X
es la función
~ ≤ ~x) = P(Xl ≤ xl , l = 1, ..., k).
FX~ : Rk → [0, 1], ~x → FX~ (~x) = P(X
(iv) Para cualquier l ∈ {1, .., k} se tiene, lim FX~ (x1 , .., xk ) = 0.
xl ց−∞
69
(iii) Es analoga a (ii) pues si para todo i = 1, .., k se tiene xni ր +∞ con n → ∞
entonces
[Y k
Rk = (−∞, xni ]
n∈N i=1
~ en la coordenada l.
A FXl se le llama función de distribución marginal de X
y Z Z
x1 xk
∀~x = (x1 , ..., xk ) ∈ Rk : FX~ (~x) = .. fX~ (~u)du1 ..duk . (39)
−∞ −∞
A esta función fX~ se le llama función de densidad de FX~ . En este caso también
se dice que el vc.a. X~ es a.c. con función de densidad (conjunta) f ~ .
X
70
Nota: A menudo a fX~ se la llama función de densidad conjunta para diferen-
ciarla de las densidades de las funciones de densidad de sus componentes.
Nota 8. Las propiedades dadas por 38 son las que caracterizan una función de
densidad multidimensional.
~ es a.c. con densidad f ~ se tiene que para C ∈ B(Rk ) se
En el caso en que X X
cumple Z
P(X~ ∈ C) = fX~ (~x)dx1 ...dxk
C
Además para ~x ∈ Rk se verifica
∂ k FX~
fX~ (~x) = (~x).
∂x1 ....∂xk
Se tiene que la función de densidad fX~ de FX~ no es única pues basta modifi-
carla en un punto cualquiera manteniendola no-negativa para que siga siendo
función de densidad asociada a FX~ . En general se puede R modificar en un con-
junto C ∈ B(Rk ) de medida nula, es decir que verifica C dx1 ...dxk = 0 y esta
sigue definiendo la misma función de distribución. En lo que sigue no haremos
particular enfasis sobte esto, solo haremos la identificación.
Al igual que en caso unidimensional, para el vc.a.a.c. X ~ definimos el soporte
SX~ = {~x ∈ Rk : fX~ (~x) > 0}. Se cumple P(X ~ ∈ S ~ ) = 1 pues P(X ~ ∈ Sc ) =
R X ~
X
k
S c f ~
X (~
x )dx 1 ...dx k = 0. Luego para cualquier D ∈ B(R ) con S ~
X ⊆ D se tiene
~
X
~ ∈ D) = 1.
P(X
Notemos que para l = 1, ..., k la función de distribución de Xl está dada por:
para xl ∈ R se tiene
Z ∞ Z xl Z ∞
FXl (xl ) = .. ... f(X1 ,..,Xk ) (u1 , .., ul , .., uk )du1 ..dul ..duk . (40)
−∞ −∞ −∞
71
Proposición 58. Sean X1 , .., Xk v.a.’s. Se tiene que ellas son independi-
entes si y solo si las funciones de distribución y la función de densidad conjunta
del vector aleatorio X ~ = (X1 , ..., Xk ) satisfacen:
k
Y
∀~x = (x1 , ..., xk ) ∈ Rk : FX~ (~x) = FXl (xl ). (42)
l=1
k
Y
fX~ (~x) = fXi (xi ), ~x = (x1 , ..., xk ) ∈ Rk .
i=1
entonces X1 , .., Xk son v.a.’s i.i.d. con Xi ∼ N(0, 1). En efecto, se cumple
k
Y 1 x2i
fX~ (~x) = √ e− 2
i=1
2π
72
es decir
k
Y 1 x2i
fX~ (~x) = fXi (xi ) con fXi (xi ) = √ e− 2 .
i=1
2π
Observemos que P la densidad conjunta se escribe en términos de la norma eu-
k
clideana ||~x|| = ( i=1 x2i )1/2 , en efecto
x||2
||~
fX~ (~x) = (2π)−k/2 e− 2 .
73
~ = (X1 , .., Xk ) vc.a.a.c. con función de densidad f ~ .
Teorema 59. Sea X X
Sea D abierto con P(X ~ ∈ D) = 1. Sea h : D → Rk , ~x → (hl (~x) : l = 1, .., k).
~ ~ = h(X)
Considere el vc.a. Y = (Y1 , ..., Yk ) definido por Y ~ es decir tal que
~ i = 1, ..., k.
Yi = hi (X),
Asuma que h es una función a derivada continua tal que J(~x) 6= 0 para ~x ∈ D.
Asumamos que D se particionar en un conjunto numerable de abiertos (Vi : i ∈
I) tal que h : Vi → h(Vi ) es biyectiva. Entonces, el vc.a. Y ~ = h(X) ~ es a.c. y su
función de densidad fY~ verifica
X
∀~y ∈ h(D) : fY~ (~y ) = |J(~xy~ )|−1 fX (xy ) (45)
−1 (~
~
xy~ ∈h y)
∀~y ∈ h(D) : fY~ (~y ) = |J(h−1 (~y ))|−1 fX~ (h−1 (~y )). (47)
Ejercicio 19. Sean X, Y v.a.’s i.i.d. con X, Y ∼ N(0, 1). Luego f( X, Y )(x, y) =
x2 +y 2
(2π)−1 e− 2 . Sean
√ √
V = (X + Y )/ 2, W = (X − Y )/ 2.
Probemos que V, W son v.a.’s i.i.d. con V, W ∼ N(0, 1). Para ello consideremos
√ √
h(x, y) = ((x + y)/ 2, (x − y)/ 2))
74
esto es h(x, y) = A(x, y) siendo (x, y) un vector columna, y A la matriz (de
rotación), √ √
1/√2 1/ √2
A= .
1/ 2 −1/ 2
se cumple (V, W ) = A (X, Y ) (los vectores son columna). Se cumple | det(A)| =
1. Luego la densidad conjunta de (V, W ) es
Finalmente de la fórmula
1
x2 + y 2 = (x + y)2 + (x − y)2 = v 2 + w2 ,
2
v 2 +w2
se deduce fV,W (v, w) = f( X, Y )(v, w) = (2π)−1 e− 2 y se tiene el resultado.
Pk k
Y
yl2 /2 2
fY~ (~y ) = (2π)−k/2 e− l=1 = (2π)−1/2 e−yl /2 .
l=1
Y se concluye el resultado.
75
Definición 60. Sean f, g dos funciones de densidad f, g. Su convolución es
Z ∞
f ∗ g(x) = f (x − y)g(y)dy, x ∈ R.
−∞
Prueba: Por asociatividad basta probar la propiedad para dos variables aleato-
rias X, Y independientes. Notemos sus funciones de densidad por fX , fY re-
spectivamente. Luego la función de densidad del vector aleatorio (X, Y ) es
fY,Y (x, y) = fX (x) · fY (y) para x, y ∈ R. Consideremos el vector aleatorio
(U, V ) = h(X, Y ) con h(x, y) = (x + y, y) es decir U = X + Y
, V = Y .Se tiene
1 1
que h es una transformación lineal (u, v) = A(x, y) con A = . Como
0 1
1 −1
A−1 = . se tiene
0 1
fU,V (u, v) = fX,Y (u − v, v) = fX (u − v)fY (v).
Como fX+Y = fU es la densidad buscada y ella es la densidad marginal de fU,V
en la primera componente, se tiene
Z ∞ Z ∞
fX+Y (u) = fU (u) = fU,V (u, v)dv = fX (u − v)fY (v)dv = fX ∗ fY (u).
−∞ −∞
76
Probar que una v.a. T ∼ tm Student tiene una densidad
−(m+1)/2
Γ((m + 1)/2) t2
fT (t) = √ 1+ .
mπΓ(m/2) m
Notemos que
77
Dado que la densidad marginal de X verifica
Z ∞
fX (x) = fX,Y (x, y)dy,
−∞
78
y la función de densidad marginal f2 de Y está dada por
Z ∞ Z ∞
f2 (y) = f (x, y)dx = f (y | x)f1 (x)dx.
−∞ −∞
Lo anterior también se emplea para combinar variables discretas y absoluta-
mente continuas como ilustramos a continuación.
P(Y = 1 | U = u) = u, P(Y = 0 | U = u) = 1 − u.
Luego
Z ∞ Z 1
1
P(Y = 1) = P(Y = 1 | U = u)1(0,1) (u)du = udu =
−∞ 0 2
1
P(Y = 0) = 1 − P(Y = 1) = .
2
79
11 Esperanza de variables aleatorias
La esperanza ó valor esperado de una variable aleatoria la definiremos primero
para las variables aleatorias discretas, y ellas correponden a la linearización
de la probabilidad. Obtendremos ciertas propiedades, creciemte y lineal, que
permitirán extenderesta noción a variables aleatorias generales.
La esperanza o valor esperado de una v.a. X, que se nota E(X), es el valor
medio teórico de la v.a. Para definirla supongamos primero que X : Ω → I es
simple, esto significa que su conjunto de valores I es finito.
80
Definamos ahora la esperanza para X : Ω → I v.a. discreta donde I ⊂ R es un
conjunto numerable discreto infinito. Siempre que podamos definir la esperanza
esta tendrá la forma X
E(X) = aP(X = a),
a∈I
se deduce
E(X) es finita ⇔ E(|X|) < ∞.
De ahora en adelante cuando para una v.a. discreta X escribamos E(X) supon-
dremos que esta esperanza es finita, es decir E(X) ∈ R.
En lo que sigue identificamos la v.a. constante X ≡ a con la constante a.
81
Sea X v.a. Sus partes positivas y negativas son X + = max(X, 0), X − =
max(−X, 0). Se cumple X + ≥ 0 y X − ≥ 0 y X + (ω) > 0 implica X − (ω) = 0,
X − (ω) > 0 implica X + (ω) = 0. Se tiene
X = X + − X −.
Si E(X + ) < ∞ ó si E(X − ) < ∞ se define la esperanza
E(X) = E(X + ) − E(X − ).
Además se satisface
|X| = X + + X − , E(|X|) = E(X + ) + E(X − ).
Luego se tiene E(X) ∈ R finita si y solo si E(|X|) < ∞.
Teorema 66. Para las v.a’s de esperanza finita se verifica las propiedades
siguientes.
(a) E(a) = a, en particular E(E(X)) = E(X) (idempotencia).
(b) Para B ∈ B se tiene E(1B ) = P(B).
(c) Si X, Y tienen esperanza finita y X ≤ Y entonces E(X) ≤ E(Y ) (monótona).
En particular: X ≥ 0 implica E(X) ≥ 0.
(d) Si X, Y v.a.’s de esperanza finita, α, β ∈ R, entonces
E(αX + βY ) = αE(X) + βE(Y ) lineal.
(e) E(X − E(X)) = 0.
(f ) Si X es v.a. simple y h : R → R entonces se satisface
X
E(h(X)) = h(a)P(X = a). (52)
a∈I
82
Prueba: Las partes (a) y (b) ya fueron hechas.
Sólo desmotraremos el caso de v.a.’s simples. El caso general se prueba en el
Apéndice 20. Se prueba para las v.a.’s no-negativas, luego se extiende al caso
general con la representación X = X + − X − .
Para mostrar las propiedades en el caso
P de v.a.’s simples X,
P Y es útil la escritura
de estas en la forma siguiente X = a∈I a1{X=a} , Y = b∈I b1{Y =b} . Como
[ [
{X = a} = {X = a, Y = b}, {Y = b} = {X = a, Y = b}
b∈I a∈I
se tiene: X X
X= a1{X=a,Y =b} , Y = b1{X=a,Y =b} . (56)
a,b∈I a,b∈I
Y obtenemos,
X X
E(X) = aP(X = a, Y = b), E(Y ) = bP(X = a, Y = b).
a,b∈I a,b∈I
(f ) Para la primera S
parte se tiene que h(X) toma valores en h(I). Se tiene la
unión disjunta I = b∈h(I) h−1 {b} (recordemos que a ∈ h−1 {b} si h(a) = b.
Luego.
X X
E(h(X)) = bP(h(X) = b) = b P(X ∈ h−1 {b}))
b∈h(I) b∈h(I)
X X X
= h(a)P(X = a) = h(a)P(X = a).
b∈I a∈h−1 ({b}) a∈I
Si h es convexa para x0 ∈ D existe una recta {(x, a+bx} pasando por (x0 , h(x0 ))
y tal que la curva {(x, h(x)) : x ∈ D} queda sobre la recta, es decir a+bx ≤ h(x)
(en caso h estrictamente convexo la curva está estrictamente sobre la recta
excepto en el punto de interseccón). Como (x0 , h(x0 )) está en la recta se tiene
a + bx0 = h(x0 ), por lo que la condición es
h(x0 ) + b(x − x0 ) ≤ h(x).
83
P
Ahora bien, como E(X) = a∈I aP(X = a), por ser D convexo se tiene E(X) ∈
D, luego podemos tomar x0 = E(X). Evaluemos la relación anterior en la v.a.
X, luego nos queda
Tomemos E a estas v.a.’s y usemos las propiedades (b), (c), (d), para obtener
h(E(X)) ≤ E(h(X)).
Si h es estrictamente convexa y P(X − E(X) = 0) < 1 se tendrá P(h(E(X)) +
b(X − E(X)) < h(X)) > 0 y la desigualdad de Jensen será estricta.
P
(g) Como X ≥ 0 se tiene X = a∈I a 1{X=a} para I ⊆ R+ . Como E(X) =
suma∈I a P(X = a) deducimos que si para a > 0 se tiene P(X = a) > 0 entonces
E(X) > 0.
(h). Sean X1 , ..., Xn v.a.’s discretas a valores en I independientes entre sı́.
Qn−1
Luego las v.a.’s X = l=1 Xl , Y = Xn son independientes. De donde, por
un argumento inductivo basta probar el resultado para n = 2. Sean pues X, Y
v.a.’s discretas independientes, esto es
Luego,
X X
E(X · Y ) = a · b P(X = a, Y = b) = a · b P(X = a)P(Y = b)
a,b∈I a,b∈I
! !
X X
= a P(X = a) b P(Y = b) = E(X)E(Y ),
a∈I b∈I
84
Tomemos X v.a. simple tal que P(X = pi ) = k −1 para i = 1, .., k. Luego
E(X) = k −1 . Por otra parte la función ϕ : [0, 1] → R+ , x → −x log x se
anula en los extremos, es continua y es estrictamente cóncava (basta mostrar
que su segunda derivada es estrictamente negativa en (0, 1)). Luego, usando la
desigualdad de Jensen, parte (f ) del Teorema 66, se tiene
Como E(ϕ(X)) = k −1 H(p) se tiene la desigualdad. Por otra parte H(pu ) = log k
para pu = (1/k, .., 1/k), y la unicidad del máximo se deduce de la estricta
concavidad.
85
Propiedad 68. Si X es v.a. a.c. con densidad fX . Como dFX (x) =
fX (x)dx, se tiene Z ∞
E(X) = xfX (x)dx
−∞
86
12 Momentos, Varianza, Covarianza, Correlación
12.1 Momentos, Varianza
Sea r ∈ N. Cuando E(|X|r ) < ∞ la cantidad E(X r ) es finita y se llama el
momento de orden r de X.
La desigualdad de Jensen es h(E(X) ≤ E(h(X)) cuando h : R → R es convexa.
Se tiene que para α ≥ 1 la función h(x) = xα es convexa y es estrictamente
convexa si α > 1. Consideremos r ≥ s > 0 luego r/s ≥ 1 por lo que la función
h(x) = xr/s es convexa en R+ . Como |X|r = (|X|s )r/s obtenemos aplicando la
desigualdad de Jensen a h(x) = xr/s para x ≥ 0:
r/s
E(|X|r ) = E (|X|s )r/s ) ≥ (E(|X|s )) .
Y deducimos
Para v.a.’s simples la varianza está bien definida y es finita pues E(X 2 ) es finita.
Desarrollando el término (X − E(X))2 = X 2 − 2E(X)X + E(X)2 y usando la
linealidad de E se obtiene
Esta última igualdad se satisface pues si una v.a. es constante entonces nece-
sariamente la constante es su esperanza.
87
Propiedad 70. Para α, β ∈ R se tiene
Var(α + βX) = β 2 Var(X) = Var(βX). (58)
y deducimos
2
Var(α + βX) = E ((α + βX) − E(α + βX)) = β 2 Var(X) = Var(βX).
Los parámetros de las v.a. Normales están dados por la media y la varianza.
88
Propiedad 72. Supongamos E(X 2 ) < ∞. Entonces c = E(X) es el real
para el cual se realiza el mı́nimo de la función deviación cuadrática:
Luego ϕ′ (c) = −2cE(X) + 2c. Se tiene ϕ′′ (c) = 2, por lo que ϕ(c) es estricta-
mente convexa y la condición ϕ′ (c) = 0 caracteriza su mı́nimo. Luego el mı́nimo
se alcanza en c = E(X), y en este valor se tiene ϕ(E(X)) = Var(X).
Proposición 73. Sean X1 , .., Xn v.a.’s independientes con E(Xk2 ) < ∞ para
k = 1, ..., n. Entonces la varianza de la suma es la suma de las varianzas, esto
es
Xn Xn
Var( Xk ) = Var(Xk ). (59)
k=1 k=1
Prueba: Observemos que nos basta probar (59). En efecto al usar (58) se
puede considerar α = 0 en (60) y al tomar Yk = βk Xk en (59) se obtiene (60).
Además, por inducii’on basta probarlo para el caso k = 2.
Se tiene E(X1 + X2 ) = E(X1 ) + E(X2 ), de donde
2
Var(X1 + X2 ) = E ((X1 − E(X1 )) + (X2 − E(X2 ))) .
Desarrollando se obtiene
89
12.2 Covarianza y Correlación
Comencemos definiendo la covarianza y la correlación entre dos v.a.’s.
Sea X, Y v.a.’s tal que X, Y, XY son de esperanza finita. Su covarianza es
Var(X1 +X2 ) = E((X1 −E(X1 ))2 )+2E((X1 −E(X1 ))(X2 −E(X2 )))+E((X2 −E(X2 ))2 )
que es exactamente
90
Cuando Var(X) > 0 y Var(Y ) > 0 (es decir cuando no son constantes) definimos
la correlación entre X, Y como
Cov(X, Y )
Corr(X, Y ) = p p .
Var(X) Var(Y )
Proposición 75. Sean X, Y v.a.’s con Var(X) > 0, Var(Y ) > 0. Entonces
(a) Corr(X, Y ) = Corr(Y, X);
(b) Para α, β, γ, δ ∈ R con βδ 6= 0, entonces: Corr(α+βX, γ+δY ) = sign(βδ)Corr(X, Y )
(donde sign : R → {−1, 0, 1} con sign(0) = 0, sign(x) = 1 si x > 0, sign(x) = −1
si x < 0). .
(c) Se cumple Corr(X, X) = 1, Corr(X, −X) = −1.
(d) Si X, Y son independientes entonces Corr(X, Y ) = 0.
(e) −1 ≤ Corr(X, Y ) ≤ 1.
~ y Corr(X)
Se tiene que Cov(X) ~ son matrices simétricas pues
91
~ y
Asumamos Var(Xi ) > 0, i = 1, .., n y relacionemos las matrices Cov(X)
~ Para ello condieremos ∆ la matriz diagonal de varianzas,
Corr(X).
~
Se tiene ∆−1/2 ∆−1/2 = ∆−1 . Se tiene que la matriz de correlaciones de X
satsiface
~ = ∆−1/2 Cov(X)∆
Corr(X) ~ −1/2 . (61)
Escribiremos µ ~ siendo µ
~ = E(X) ~ = (µ1 , .., µn ) con µl = E(Xl ).
De las propiedades de E en v.a.’s deducimos las propiedades de E en vc.a.’s.
Algunas de estas son:
~ Y
X, ~ vc.a..’s , α, β ∈ R ⇒ E(αX
~ + βY
~ ) = αE(X)
~ + βE(Y
~ ).
92
En efecto se tiene
m X
X n
E(AZB + D)i,j = E( Ai,k Zk,l Bl.j + Di,j )
k=1 j=1
m X
X n
= Ai,k E(Zk,l )Bl.j + Di,j )(AE(Z)B + D)i,j .
k=1 j=1
~ = E((X
Cov(X) ~ −µ ~ −µ
~ )(X ~ )t ) siendo µ ~
~ = E(X).
De la igualdad (61) se tiene que la matriz de correlaciones se puede escribir en
términos similares.
~ ) = E(V (X
Cov(Y ~ −µ ~ −µ
~ )(X ~ t .
~ )t V t ) = V Cov(X)V
93
y ella es definida positiva si además ~at A~a > 0 para ~a 6= ~0. Se tiene que A si es
semi-definida positiva entonces todos los valores propios son no-negativos, y si
es definida positiva todos su valores propios son positivos.
Notemos que si C es una matriz n × n entonces CC t es simeétrica y es semi-
definida positiva pues ~at CC t~a = ||C t~a||2 . Además, ella es definida positiva si y
solo si C es invertible. En efecto esto ocurre si y solo si CC t es invertible, esto
es si y solo si no tiene valores propios que se anulan, lo que equivale a que sea
definida positiva (ya que sabemos que es semi-definida positiva).
De la relación (61) se tiene que Corr(X) esa simétrica, semi-definida positiva y
es definida positiva si y solo si Cov(X) lo es.
Σ = H t DH.
94
es simétrica, semi-definida positiva y es definida positiva si Σ lo es. Se tiene que
C es raı́z cuadrada de Σ pues
C 2 = H t D1/2 HH t D1/2 H = Σ.
Notamos
C = Σ1/2 .
Ahora si Σ es definida positiva entonces es invertible y se tiene
Además ella es raı́z cuadrada de Σ−1 pues (Σ1/2 )−1 (Σ1/2 )−1 = H t D−1 H = Σ−1 .
Luego notamos
Σ−1/2 = (Σ1/2 )−1 .
~ ∼ N(~
En este caso notaremos X µ, Σ).
y se cumple
µ ~ Cov(X)
~ = E(X), ~ = Σ.
Prueba: ~ = Σ−1/2 (X
Tomemos Y ~ −µ
~ ). Su función de densidad es:
95
luego
Pn n
Y
~t y
−n/2 − 12 y ~ −n/2 − 12 yi2
fY~ (~y ) = (2π) e = (2π) e i=1 = fYi (yi ).
i=1
1 2 R
con fYi (yi ) = (2π)−1/2 e− 2 yi . En particular la primera parte Rn fX~ (~x)dx1 ...dxn =
1. Además esto prueba la última parte, Y ~ ∼ N(~0, Id), lo que equivale (Y1 , .., Yn )
i.i.d. con Yi ∼ N(0, 1). De esto último deducimos E(Y ~ ) = ~0, Cov(Y
~ ) = Id.
~ = Σ1/2 Y
Como X ~ +µ
~ obtenemos
~ = Σ1/2 E(Y
E(X) ~)+µ
~ =µ
~, ~ = Σ1/2 Cov(Y
Cov(X) ~ )Σ1/2 = Σ.
Por lo que
k
Y
fX~ (~x) = fXi (xi ),
i=1
96
13 Función generadora de momentos y Función
caracterı́stica
13.1 Función generadora de momentos
Introduzcamos la función generadora de momentos para v.a.’s no-negativas (o
acotadas inferiormente). Notemos que si X v.a. ≥ 0 entonces FX (0− ) = 0.
97
Prueba: (a) Como 0 < e−sX ≤ 1 se cumple 0 < E(−sX ) ≤ 1. Por otra parte
E(e0X ) = E(1) = 1.
(b) sigue de e−s(α+βX) = e−sα e−(sβ)X) , en efecto al tomar esperanza a ambos
lados se obtiene el resultado.
(c) Si se puede intercambiar la derivada l−ésima con la esperanza en una vecin-
dad de s = 0 se obtiene el resultado
R∞
dl E(e−sX ) dl 0 e−sx dFX (x)dx
= .
dsl dsl
La existencia del momento r ≥ l garantiza que se puede intercambiar la derivada
l−ésima con la integral para s en una vecindad de s = 0 (esto no lo de-
mostraremos). Usanso esto y que (dl e−sx /dsl ) = (−x)l e−sx , se obtiene
Z ∞ l −sx Z ∞
dl E(e−sX ) de
= dF X (x)dx = (−x)l e−sx dFX (x)dx,
dsl 0 dsl 0
y esto muestra
dl E(e−sX )
(s) = E((−X)l ).
dsl s=0
98
Como para todo r > 0 se tiene e−λt tr → 0 si t → ∞ se tiene que E(T n ) es finito
para todo n > 0 y
dn Θ T dn λ
E(T n ) = (−1)n (s) = (−1)n = n! λ−n .
dn s s=0 dn s λ + s s=0
Y se tiene el resultado.
99
Estas variables describen la suma de cuadrados de variables aleatorias Normales(0, 1).
Para dar el resultado de manera rigurosa, recuerde que si Y ∼ N (0, 1) entonces
Y 2 ∼ Gamma[ 12 , 21 ], propiedad que proviene directamente del Ejercicio 14, esto
es según la definicón, Y 2 se distribuye como una χ21 , chi-cuadrado con 1 grado
de libertad.
Ahora bien, si Y1 , ..., Yn son variables aleatorias i.i.d. con Yi ∼ N (0, 1), entonces
P n 2 n 1 2
i=1 Yi ∼ Gamma[ 2 , 2 ], que siguiendo la definición es una χn , chi-cuadrado
con n grado de libertad. Esta clase de densidades son muy usadas en estadı́stica.
100
Se tiene que E es lineal: para γj ∈ C, Zj v.a. compleja, j = 1, 2, se tiene,
E(γ1 Z1 + γ2 Z2 ) = γ1 E(Z1 ) + γ2 E(Z2 ).
Y sobre la independencia se satisface que si X1 , .., Xn son v.a.’s reales indepen-
dientes y g1 , ..gn : R → C son funciones Borelianas entonces g1 (X1 ), .., gn (Xn )
son independientes. Si además E(gj (Xj )) son finitas para j = 1, .., n entonces
se cumple
n
Y n
Y
E( gj (Xj ) = E(gj (Xj )). (64)
j=1 j=1
Recordemos que para x ∈ RR, eix = cos x+i sin x. Luego e−ix = cos x−i sin x =
eix , de donde |eix |2 = (cos x)2 + (sin x)2 = 1.
101
Prueba: (a) proviene de eitX = 1 para t = 0. La propiedad (c) se deduce de
itα itβX
E(eit(α+βX)=e E(e .
Probemos (b). Por Jensen y dado que (cos y)2 + (sin y)2 = 1 para y ∈ R, se
obtiene
|ϕX (t)|2 = (E(cos tX))2 + (E(sin tX))2 ≤ E (cos tX)2 + (sin tX)2 = 1.
Pk k
Y k
Y k
Y
itXl
ϕP k Xl (t) = E(e
l=1 ) = E( eitXl ) = E(itXl ) = ϕXl (t).
l=1
l=1 l=1 l=1
k
Proposición 91. Si E(|X|
R
) < ∞ entonces existe la derivada k−ésima de
(k)
ϕX , esta verifica ϕX (t) = (ix)k eitx dFX (x) y es continua para t ∈ R. En
(k) (k)
particular obtenemos E(X k ) = i−k ϕX (0) = (−i)k ϕX (0).
102
Nota sobre convolución. Sabemos que si X, Y son v.a.’s independientes entonces
la densidad de la suma X + Y es la convolución de las denisdades de X e Y ,
esto es fX+Y = fX ∗ fY . Esta propiedad tambien se puede probar usando la
función caracterı́stica. En efecto, se tiene
Z ∞ Z ∞ Z ∞
itx itx
e fX ∗ fY (x)dx = e fX (x − y)fY (y)dy dx
−∞ −∞ −∞
Z ∞Z ∞ Z ∞ Z ∞
= eit(x−y) fX (x − y)eity fY (y)dydydx = eitu fX (u) eity fY (y)dy dx,
−∞ −∞ −∞ −∞
t2 σ 2
Proposición 92. Si X ∼ N(µ, σ 2 ) entonces ϕX (t) = eiµt e− 2 .
Prueba: Observemos que basta probar el caso X ∼ N(0, 1), es decir que en
t2
caso se cumple ϕX (t) = e− 2 . En efecto, una vez probado esto aplicamos la
Propiedad 89 (c) a la traslación lineal Y = µ + σX ∼ N(µ, σ 2 ) la que verifica
t2 σ 2
ϕY (t) = eiµt ϕX (σt) = eiµt e− 2 .
t2
Sea pues X ∼ N(0, 1). La demostración de ϕX (t) = e− 2 la haremos usando el
teorema de Cauchy en integración en C.
Observemos que −(x − it)2 = −x2 + 2itx − t2 . Luego
Z ∞ Z ∞
1 1 2 1 1 2 2
ϕX (t) = √ eitx− 2 x dx = √ e− 2 (x−it) et /2 dx.
2π −∞ 2π −∞
103
Luego, se tiene la equivalencia
h Z ∞
2 i 1
− t2 − 21 (x2 −2itx)
ϕX (t) = e ⇔ √ e dx = 1 .
2π −∞
R∞ 1 2
Como √1 e− 2 x dx = 1 se tendrá el resultado si mostramos
2π −∞
Z ∞ Z ∞
1 2 1 2
e− 2 (x−it) dx = e− 2 x dx. (67)
−∞ −∞
ΓR = γ R
t 0
∪ Γ(R, +) ∪ −γR ∪ Γ(R, −)
1 2
es un camino cerrado y que la función e− 2 z es holomorfa
R en una vecindad en C
1 2
conteniendo el camino y su región interior, por lo cual ΓR e− 2 z dz = 0. Luego
Z Z Z Z
1 2 1 2 1 2 1 2
lim e− 2 z dz+lim e− 2 z dz+lim e− 2 z dz+lim e− 2 z dz = 0.
t
γR 0
−γR Γ(R,+) Γ(R,−)
R 1 2 R 1 2
Se tiene lim t e− 2 z dz = t e− 2 z dz y
R→∞ γR γ∞
Z Z ∞
1 2 1 2
lim e− 2 z = − e− 2 x dx.
R→∞ 0
−γ∞ −∞
1 2 1 + 2
Y esto se obtiene de e− 2 z ≤ e− 2 (R−|t|) cuando z ∈ Γ(R, − ), por lo que
Z
1 2 1 2
lim e− 2 z dz ≤ lim |t|e− 2 (R−|t|) = 0.
R→∞ +
Γ(R, − ) R→∞
104
Propiedad 93. Se tiene que si X1 , ..., Xk son normales independientes con
Xl ∼ N(µl , σl2 ) para l = 1, ..., k entonces
k
X k
X k
X
Xl ∼ N( µl , σl2 ).
l=1 l=1 l=1
Pk
Prueba: Sea Y = l=1 Xl . Usando la independencia y la Proposición 92 se
obtiene,
k
Y k
Y Pk
t2 σl2 Pk t2 2
l=1 σl
ϕY (t) = ϕXl (t) = eiµl t e− 2 = ei l=1 µl t −
e 2 .
l=1 l=1
Como laPfunciónP
caracterı́stica determina la función de distribución deducimos
k k
Y ∼ N( l=1 µl , l=1 σl2 ).
105
14 Teorema de los Grandes Números y Teorema
Central del Lı́mite
Comencemos definiendo las convergencias de v.a.’s a las que hace referencia el
Teorema de los Grandes Números.
Notemos que en (b) basta considerar ǫ = 1/m para m ∈ N, con lo que ∀ǫ > 0 se
reemplaza por ∀m ∈ N.
Algunas relaciones entre estas convergencias son las siguientes que prueban que
la convergencia en probabilidad es la más débil entre ellas:
a la media teórica E(X). Este enunciado se hace en general, pese a que solo
probaremos la convergencia en media 2 y la convergencia en probabilidad.
106
Teorema 96. Sean (Xk : k ∈ N) una sucesión de v.a.’s i.i.d. con µ = E(Xk )
finita. Entonces
lim X n = µ P − c.s. (73)
n→∞
Pn
Prueba: Probaremos la convergencia en media p = 2. Siendo X n = n1 k=1 Xk ,
por linealidad se tiene
1
E(X n ) = nµ = µ.
n
Luego se tiene E (X n − µ)2 = Var(X n ), y usando que las v.a.’s son i.i.d. se
deduce
n
X n
1 1 X
E (X n − µ)2 = Var(X n ) = Var( X k ) = Var(Xk )
n2 n2
k=1 k=1
1
= Var(X1 ) → 0 con n → ∞ .
n
Esto prueba (121) para p = 2, y por la Proposición 124 se tiene la convergencia
en probabilidad P.
E(ǫ1{X≥ǫ} ) ≤ E(X)
107
y como
E(ǫ1{X≥ǫ} ) = ǫE(1{X≥ǫ} ) = ǫP(X ≥ ǫ),
obtenemos la desigualdad (75). Luego para cualquier v.a. X la podemos aplicar
a |X| y obtenemos,
E(|X|)
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ . (77)
ǫ
Sea h : R+ → R+ función monótona creciente con h(x) > 0 si x > 0 (necesaria-
mente h(0) ≥ 0). Analogamente a (76) se obtiene
E(h(|X|))
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ .
h(ǫ)
E(|X|p )
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ . (78)
ǫp
Ahora supongamos X tiene segundo momento finito. Notemos µ = E(X). Luego
al tomar la v.a. X − µ y p = 2 en (78) se obtiene la desigualdad de Bienaymeé-
Chevyshev:
E(|X − µ|p )
∀ǫ > 0 : P(|X − µ| ≥ ǫ) ≤ . (80)
ǫp
108
14.4 Teorema Central del Lı́mite
Como recuerdo si X es una v.a. con esperanza E(X) = µ y varianza Var(X) =
σ 2 entonces su v.a. normalizada Y = (X −µ)/σ satisface E(Y ) = 0, Var(Y ) = 1.
Teorema 97. Sean (Xk : k ∈ N) v.a.’s i.i.d. con µ = E(X1 ) finita y 0 <
σ 2 = Var(X1 ) < ∞. Entonces
n
! Z x
X (Xk − µ) 1 y2
lim P √ ≤x = √ e− 2 dy , x ∈ R. (81)
n→∞ nσ 2π −∞
k=1
Pn
La media empı́rica al tiempo n es X n = k=1 Xk /n. Usando la simetrá de
la N(0, 1) obtenemos el error de aproximar la media teórica µ por la media
empı́rica X n usando n observaciones independientes,
Corolario 98. Sea x > 0, se tiene:
√ Z −x
σx 2 y2
lim P |X n − µ| > √ =√ e− 2 dy.
n→∞ n π −∞
Luego
n
! Z
σx 1X σx 1 x
y2
lim P − √ ≤ (Xk − µ) ≤ √ =√ e− 2 dy.
n→∞ n n n 2π −x
k=1
109
Definición 99. Diremos que (Fn : n ∈ N) ⊂ F converge débilmente a F ∈ F,
notaremos Fn =⇒ F , si F (x) = limn→∞ Fn (x) para todo punto de continuidad
de F .
Si (Xn :∈ N) es una familia de v.a.’s y X es una v.a. diremos que Xn converge
en distribución a X si FXn =⇒ FX , esto es si FX (x) = limn→∞ FXn (x) para
n→∞
todo punto de continuidad de FX . Por abuso de notación, esto lo extendere-
mos al caso en que (Xn :∈ N) es una familia de v.a.’s y F es una función de
distribución, decimos que Xn converge en distribución a F si FXn =⇒ F ,
n→∞
Se tiene
Se deduce
F (x) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x).
n→∞ n→∞
110
En lo que sigue para una función de distribución F notaremos (con evidente
abuso de notación), Z ∞
ϕF (t) = eitx dF (x).
−∞
Ası́ pues si X es v.a. se tiene ϕX = ϕFX . Se tiene el siguiente resultado debido
a Paul Lévy, que es crucial para el estudio de convergencia de distribuciones.
Este Lema es crucial en la demostración del Teorema Central del Lı́mite que
sigue que es de Lindberg-Lévy. La demostración del Lema será efectuada en
en la Subsección 22.4 de la Apéndice 21 y en ella utilizaremos los resutados de
Helly, los que son dados y probados en la Subsección 22.1 del Apéndice 21.
Entonces
F√
Zn =⇒ Ψ, (84)
n k→∞
t2
Recordemos que ϕΨ (t) = e− 2 (ver Proposición 92).
Se tiene
!
√ n
Y √ n
Y √ t n
i√ X
ϕZn /√n (t) = E eitZn / n
=E eitXn / n
= E eitXn / n = E e n 1
k=1 k=1
111
en que en la tercera igualdad se uso la independencia y en la última que tienen
la misma distribución. Luego hemos probado
n
t
ϕZn /√n (t) = ϕX1 √ ,
n
o equivalentemente
t
log(ϕZn /√n (t)) = n log(ϕX1 ( √ )).
n
Como E(X12 ) < ∞, por la Proposición 91 se deduce que ϕX1 (t) tiene segundas
derivadas continuas en R. Como ϕ′X1 (0) = iE(X1 ) = 0, ϕ′′X1 (0) = i2 E(X12 ) =
−Var(X1 ) = −1 la expansión de ϕX1 (u) es de la forma
u2 ′′ u2 o(u2 )
ϕX1 (u) = ϕX1 (0)+uϕ′X1 (0)+ ϕX1 (0) = 1− +o(u2 ) donde → 0 si u → 0.
2 2 u2
√
Ahora tomemos u = t/ n. Luego, fijando t, se tiene
t t2 1
ϕX 1 √ =1− +o .
n 2n n
Luego
t t2
log ϕZn /√n (t) = n log ϕX1 √ =− + o(1).
n 2
Por desarrollo de Taylor se tiene.
ln(1 + z) = z + r(z), con |r(z)| ≤ 2z 2 si |z| < 1/2.
Como t está fijo, tomando n suficientemente grande para que |−t2 /2n+o(1/n)| <
1/2 podemos aplicar la fórmula anterior. Como |r(t2 /n)| = t4 /(2n2 ) + o(1/n2 )
se obtiene:
t t2 1 t2 1
ln ϕX1 √ = ln 1 − +o =− +o .
n 2n n 2n n
Luego
t t2
log ϕZn /√n (t) = n log ϕX1 √ =− + o(1).
n 2
Concluı́mos que
t2
lim ϕZn /√n (t) = e− 2 = ϕΨ (t).
n→∞
Como las funciones caracterı́sticas convergen a la de una N(0, 1), por el Lema
101 concluı́mos el resultado.
Nota 9. Una consecuencia del teorema de los grandes números Pn es que si (Xn )
es una sucesión de v.a.’s i.i.d. con Xn ∼ N(0, 1) entonces ( i=1 Xi2 )/n converge
c.s. a E(Xi2 ) = 1 y al combimarlo con el teorema del lı́mite central se obtiene
que una sucesión de v.a.’s con distribución tm Student converge en distribución
a una N(0, 1) cuando m → ∞.
112
15 Esperanza Condidional
15.1 Esperanza Condicional para v.a.’s simples
Veamos esperanza condicional para el caso de v.a.’s simples, es decir suponemos
que I es finito. Sea g : I → R. Considerando h : I k → R dado por g(b1 , .., bk−1 , b) =
g(b), se tiene que la esperanza condicional de g(Xk ) dado X1 = a1 , .., Xk−1 =
ak−1 es
X
E(g(Xk ) | X1 = a1 , .., Xk−1 = ak−1 ) = g(b) P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ),
b∈I
Prueba: Se tiene
113
Ejercicio 32. Sean (X1 , .., Xk ) v.a.’s reales simples independientes tomando
valores en el conjunto I. Ellos serán los resultados (aleatorios) de los juegos
1, .., k. El jugador tiene una fortuna inicial s0 (cantidad fija), consideremos la
Pl
fortuna (aleatoria) del jugador despues de jugar l veces, Sl = s0 + i=1 Xi ,
para l = 1, .., k. Entonces
X
E(g(Sk ) | S1 , ..., Sk−1 ) = g(a + Sk−1 )pXk (a),
a∈I
P(Sk = b | S1 = a1 , .., Sk−1 = ak−1 ) = P(Xk = b − ak−1 | X1 = a1 , .., Xk−1 = ak−1 −ak−2 )
= pXn (b − ak−1 ).
Luego
X
E(g(Sk ) | S1 = a1 , .., Sk−1 = ak−1 ) = g(b)P(Sk = b | S1 = a1 , .., Sk−1 = ak−1 −ak−2 )
b∈I
X X
= g(b)pXn (b − ak−1 ) = g(a + ak−1 )pXn (a).
b∈I a∈I
Y concluı́mos
X X
E(g(Sk ) | S1 , .., Sk−1 ) = g(a + ak−1 )pXn (a)1{Sk−1 =ak−1 }
ak−1 ∈I a∈I
X
= g(a + Sk−1 )pXn (a).
a∈I
Se satisface,
114
De la definición se tiene
Z ∞
E(E(g(Y ) | X))) = E(g(Y ) | X = x)fX (x)dx
−∞
Z ∞ Z ∞
= g(y)fY (y | X = x)dy fX (x)dx
−∞ −∞
Z ∞Z ∞ Z ∞
= g(y)fX,Y (x, y)dxdy = g(y)fY (y)dy = E(g(Y )).
−∞ −∞ −∞
E(g(Xk ) | X1 , .., Xk−1 )(ω) = E(g(Xk ) | X1 = X1 (ω), .., Xk−1 = Xk−1 (ω)).
Prueba: Se tiene
115
Luego, usando
obtenemos,
Z
E(E(g(Xk ) | X1 , .., Xk−1 )) = g(xk )fXk (xk )dxk = E(g(Xk )).
Se satisface,
116
16 Estadı́stica básica
16.1 Discusión introductoria
En Estadı́stica se dispone ó se construye un conjunto de datos x1 , ..., xn y se
busca extraer información de ellos, obtener ciertos patrones de conducta o pre-
decir ciertas caracterı́sticas que se cumplirı́an en un contexto más amplio. Para
estudiar esto se pueden acudir a distintos enfoques, el principal es el proba-
bilı́stico que expondremos más abajo. Pero vale la pena mencionar que el estu-
dio de grandes bases de datos y el disponer de grandes capacidades de cálculo
ha llevado a considerar enfoques que mezclan técnicas descriptivas, de álgebra
lineal o combinatoriales, que permite extraer informaci’on a cierta base de datos,
hacer predicciones -que se han revelado útiles-, y en que la extensión a otras
poblaciones se hace via simulaciones. Pero en alguno de estos pasos se debe dar
algún grado de confiabilidad a los resultados obtenidos y para ello se acude a
resultados básicos del modelo probabilista dando por verificadas las hipotesis
que estos requieran.
En cualquier caso para que podamos obtener resultados estadı́sticos con cierto
grado de validez se requiere que los datos o los experimentos tengan la ho-
mogenidad acorde a lo que se busca estudiar. Cuando ello no sucede se pueden
producir paradojas, una de las más conocidas es la siguiente.
· T1 T2
E1 m11 /n11 m21 /n21
E2 m12 /n12 m22 /n22
Total M 1 /N M 2 /N
Es fácil ver que hay casos en que m1j /n1j > m2j /n2j para j = 1, 2, es decir que en
ambas enfermedades el porcentaje de individuos que se curan con el tratamiento
T 1 es mayor que el porcentaje con se curan con el tratamiento T 2 . Y sin embargo
podrı́a tenerse M 1 /N < M 2 /N , es decir el porcentaje total de individuos que se
curan con el tratamiento T 1 es menor que el porcentaje del total de individuos
117
con que se cura con el tratamiento T 2 . Por ejemplo basta tomar N = 100 y la
matriz siguiente
T1 T2
E1 9/16 = 0.5625 2/4 = 0.5000
E2 76/84 = 0.9047 84/96 = 0.8750
Total 85/100 = 0.85 86/100 = 0.86
118
Los supuestos previos nos indican que el conjunto de datos x1 , ..., xn es el resul-
tado o realización de n variables aleatorias X1 , ..., Xn i.i.d. tomando valores en
el conjunto muestral X con ley de probabilidad Pθ . Ası́ pues xi = Xi (x) para
cierta realización x.
Por X designaremos una v.a, con ley de probabilidad Pθ . Notaremos por F (θ; ·)
la función de distribución asociada es decir F (θ; x) = Pθ (X ≤ x), en el caso
numerable la densidad discreta se escribe p(θ; a) = Pθ (X = a) para a ∈ I,
y en el caso en que F (θ; x) es absolutamente continua en x su densidad la
notamos por f (θ; x). Además notaremos Eθ y Varθ la esperanza y la varianza
con respecto a la distribución F (θ; ·).
Para las X1 , ..., Xn v.a.’s i.i.d. notaremos su densidad conjunta por: en caso en
discreto,
n
Y n
Y
p(θ; a1 , ..., an ) = Pθ (X1 = a1 , ..., Xn = an ) = Pθ (Xi = ai ) = p(θ; ai ),
i=1 i=1
pero cuando se busque acentuar que es una v.a. lo notaremos θbn (X1 , ..., Xn ) y
para la realización x toma el valor θbn (X1 (x), ..., Xn (x)). En general no haremos
una distinción estricta entre ambas escrituras.
Si θ es multidimensional, θ = (θ1 , ..., θk ) entonces
θbn (X1 , ..., Xn ) = (θbn1 (X1 , ..., Xn ), ..., θbnk (X1 , ..., Xn )
119
En este caso escribimos θ = µ. El estimador de la media teórica µ es la media
empı́rica
n
1X
µ
bn = X n = Xi .
n i=1
Observemos que
µ = Eµ (X) = Eµ (X n )
y por el Teorema de los Grandes Números
lim X n = µ Pµ − c.s.
n→∞
En efecto,
120
Luego σ 2 es un parámetro de media de las variables i.i.d. Yi = (Xi − µ0 )2 ,
i = 1, ..., n, ya que Eσ2 (Yi ) = σ 2 . Luego su estimador es la media empı́rica
n n
1X 1X
Yn = bn2 =
Yi esto es σ (Xi − µ0 )2 =,
n i=1 n i=1
Y concluimos
n n
1X 1X
bn2 =
σ (Xi − X n )2 = (Xi − µ)2 − (µ − X n )2 . (86)
n i=1 n i=1
Luego Eθ (Sbn−1
2
) = σ 2 . Se tiene que Sbn−1
2
es un estimador insesgado y consis-
2
tente de σ .
Ejemplo II. Si X1 , ..., Xn son i.i.d. con ley de probabilidad N(µ, σ 2 ) siendo
θ = (µ, σ 2 ) parametro desconocido tomando valores en Θ = R × R+ . Por lo
bn2 ) es estimador consistente de (µ, σ 2 ) y (X n , Sbn−1
hecho (X n , σ 2
) es estimador
insesgado y consistente de (µ, σ 2 ).
121
16.5 Estimadores máximo verosı́miles
El estimador máximo verosı́mil es el valor del parametro que maximiza la prob-
abilidad de ocurrencia de la muestra. Para discutirlo coloquemonos en el caso
discreto. Sea pues X1 , ..., Xn i.i.d. a valores en el conjunto numerable I con
densidad discreta p(θ; ·) siendo θ el parametro tomado valores en el conjunto
convexo Θ. A la función
n
Y
Ln (a1 , ..., an ; θ) = Pθ (Xi = ai , i = 1, ..., n) = Pθ (Xi = ai )
i=1
n
Y
= p(θ; ai ), a1 , ..., an ∈ I,
i=1
log Ln (a1 , ..., an ; θbn (a1 , ..., an )) = max{log Ln (a1 , ..., an ; θ) : θ ∈ Θ}.
Ahora bien
n
X
log Ln (a1 , ..., an ; θ) = log p(θ; ai ).
i=1
122
El estimador máximo verosı́mil θbn de θ verifica
Ln (x1 , ..., xn ; θbn (x1 , ..., xn )) = max{Ln (x1 , ..., xn ; θ) : θ ∈ Θ}.
o equivalentemente
log Ln (x1 , ..., xn ; θbn (x1 , ..., xn )) = max{log Ln (x1 , ..., xn ; θ) : θ ∈ Θ},
con
n
X
log Ln (x1 , ..., xn ; θ) = log f (θ, xi ).
i=1
Todo el analisis sobre la condición de máximo en el caso diferenciable es analogo
al caso discreto. En particular, Si f (θ, x) es diferenciable en θ ∈ Θ y el máximo
se encuentra en el interior de Θ, el estimador máximo verosı́mil θbn verifica
la condición de ser un punto estacionario que en el caso θ = (θ1 , ..., θk ) es
k−dimensional se escribe,
n
X 1 ∂f (θ; xi )
= 0, j = 1, ..., k.
b
f (θ n ; x i ) ∂θj θ=θbn
i=1
Luego
n
X n
X
log Ln (a1 , ..., 1n ; θ) = ( ai ) log θ + (n − ( ai )) log(1 − θ)
i=1 i=1
n
X
θ
= n log(1 − θ) + ( ai ) log .
i=1
(1 − θ)
123
b 1 , ..., Xn ) = X n , la media empı́rica.
Luego el estimador máximo verosı́mil es θ(X
Luego
n
n log(2πσ 2 ) 1 X
log Ln (x1 , ..., xn ; µ, σ 2 ) = − − 2 ( (xi − µ)2 ).
2 2σ i=1
En efecto si θ < max{x1 , ..., xn } se tiene Ln (x1 , ..., xn ; θ) = 0 y si θ > max{x1 , ..., xn }
se tiene Ln (x1 , ..., xn ; θ) = θ−n < max{x1 , ..., xn }−n .
124
16.6 Estimadores suficientes
Los estimadores suficientes son tales que la probabilidad de la ocurrencia de las
variables sólo depende del estimador. Introduzcamolos en el caso discreto.
Ejercicio 25. Probemos que si X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 ),
bn2 es un estimador suficiente de (µ, σ 2 ). Del Ejericio II se tiene,
se tiene que (X n , σ
Pn 2
i=1 (xi −µ)
2 2 −n/2
Ln (x1 , ..., xn ; µ, σ ) = (2πσ ) e 2σ 2 .
Luego
Pn 2 2
i=1 (Xi −X n ) +n(X n −µ)
Ln (x1 , ..., xn ; µ, σ 2 ) = (2πσ 2 )−n/2 e 2σ 2
nσ
bn2 +n(X −µ)2
n
= (2πσ 2 )−n/2 e 2σ 2 .
125
17 Intervalos de confianza y Tests de hipotesis
Ambos conceptos necesitan de evaluar la distribución de los estimadores que
fueron introducidos previamente. Algunos nuevos resultados de probabilidades
nos serán necesarios en esta tarea.
Si α ∈ (0, 1) y se tiene
Xn − µ
√ ∼ N(0, 1).
σ0 / n
Para α tomemos xα > 0 tal que P(N(0, 1) < −xα ) = α/2, esto equivale a que
126
Luego, √
n(X n − µ)
Pµ ( −xα ≤ ≤ xα = 1 − α.
σ0
Se tiene
Xn − µ xα σ0 xα σ0
−xα ≤ √ ≤ xα ⇔ X n − √ ≤ µ ≤ Xn + √ .
σ0 / n n n
Luego
xα σ0 xα σ0
Pµ X n − √ ≤ µ ≤ X n + √ =1−α
n n
h i
Es decir X n − x√
α σ0
n
, X n + x√
α σ0
n
es un intervalo (centrado) de confianza 1 − α
√
de µ. Notemos que es de largo 2xα σ0 / n.
Prueba: Como (Xi −µ)/σ ∼ N(0, 1) basta demostrar el resultado para el caso
µ = 0, σ = 1.
Recordemos que del Ejericio 18, si X1 , ..., Xn v.a.’s i.i.d. con X ∼ N(0, 1), A es
una matriz ortogonal y Y ~ = AX~ entonces Y1 , ..., Yn son i.i.d. con Y ∼ N(0, 1).
Sabemos que las filas de una matriz ortogonal es una base ortonormal (esto
caracteriza las matrices ortogonales). Ello proviene de AAt = Id la matriz
identidad, luego Ati,• Aj,• = δ(i, j) para i, j = 1, ..., n por lo que cumple la
aseveración.
√ √
Por otra parte el vector (1/ n, ..., 1/ n) tienen norma (euclideana) 1, y hay
una base ortogonal que la contiene. Definamos una matriz A cuyas filas esten
127
√ √
constituı́da por tal base, siendo su última fila An,• = (1/ n, ..., 1/ n). Dado
que A es ortogonal el vector ~y = A~x satisface (ver (49),
n
X n
X
~tY
Yl2 = Y ~ =X
~ t At AX
~ =X
~ tX
~ = Xl2 .
i=1 i=1
Pn √ √ 2
Como Yn = ( i=1 Xi )/ n = nX n se tiene Yn2 = nX n . Luego
n−1
X n
X n
X 2
Yl2 = Xl2 − Yn2 = Xl2 − nX n .
i=1 i=1 i=1
De (86) se tiene
n
X n
X
(Xi − X n )2 = (Xi − µ)2 − n(µ − X n ))2 ,
i=1 i=1
Pn Pn−1 Pn−1
por lo que i=1 (Xi − X n )2 = i=1 Yl2 . Como i=1 Yl2 ∼ χ2n−1 obtenemos
Pn Pn−1
que i=1 (Xi − X n )2 ∼ χ2n−1 y por otra parte como i=1 Yl2 es independiente
Pn
de Yn concluı́mos que i=1 (Xi − X n )2 es independiente de X n .
Recordemos la definición de t de 62: si X, Z sin variables independientes entre
sı́ con X ∼ N(0, 1), Z ∼ χm entonces T = √ X se dice distribuı́da según
Z/m
tm Student con m grados de libertad, ella es simétrica con respecto al origen y
su densidad verifica
−(m+1)/2
Γ((m + 1)/2) t2
fT (t) = √ 1+ .
mπΓ(m/2) m
128
del Teorema 111 y de la definición 62 se tiene
√
n(X n − µ)
∼ tn−1 Student.
Sbn−1
Tomemos τα/2,n−1 > 0 tal que P(tn−1 Student ≤ −τα/2,n−1 ) = α/2. Luego, por
simetrı́a
√ !
n(X n − µ)
Pµ,σ2 −τα/2,n−1 ≤ ≤ τα/2,n−1 = 1 − α,
Sbn−1
129
es decir si dado que se cumple θ = θ0 la probilidad de rechazar la hipotesis nula
θ = θ0 es menor o igual a α. Si Θ ⊆ R y si t(~x) es un estimador de θ, una región
de rechazo puede ser del estilo R = {~x : |t(~x) − θ0 | > ǫ(~x)} y ella es de confianza
1 − α si Pθ0 (|t(~x) − θ0 | > ǫ(~x)) ≤ α. Se rechazará la hipotesis nula H0 : θ = θ0
si |t(~x) − θ0 | > ǫ(~x) y en caso contrario no la rechazaremos.
Ejercicio 29. Consideremos X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 )
con parametros (µ, σ 2 ) ∈ R × R∗+ . Se quiere testear la hipotesis H0 : µ = µ0
versus H1 : µ 6= µ0 . Siendo X n un estimador de µ0 una región de rechazo de
confianza α es
Sbn−1
R = {~x : |xn − µ0 | > τα/2,n−1 √ }.
n
~
En efecto, por (87) se tiene Pµ (X ∈ R) = α.
0
130
Y efectivamente esto ocurre pues se reduce a (1 − θ2 )θ1 < (1 − θ1 )θ2 , lo que se
cumple si y solo si θ1 < θ2 . Ası́ pues para la binomial se cumple (88).
131
18 Regresión lineal y mı́nimos cuadrados
Coemzaremos por ver la recta de mı́nimos cuadrados o regrssión simple y de-
spues pasaremos a ver regersión en varias variables. En la literatura puede verse
modelos de regresión no-lineales.
yi = β0 + β1 xi + ǫi , i = 1, ..., n,
y como criterio
Pn usamos Pnel elegir la recta que minimice la suma de mı́nimos
cuadrados i=1 ǫ2i = i=1 (yi − (βb0 + βb1 xi ))2 . Esto es se estima (β0 , β1 ) por
los valores (βb0 , βb1 ) tal que
n
X n
X
(yi − (βb0 + βb1 xi ))2 = min{ (yi − (β0 + β1 xi ))2 : (β0 , β1 ) ∈ R2 }.
i=1 i=1
Se tiene
Pn 2 n
X
∂ i=1 ǫi
= −2 (yi − (β0 + β1 xi ))
∂β0 i=1
Pn 2 Xn
∂ i=1 ǫi
= −2 (yi − (β0 + β1 xi ))xi .
∂β1 i=1
Pn Pn
Definamos xy n = i=1 xi yi /n, x2 n = i=1 x2i /n. La condición estacionaria
equivale a
y n = βb0 + βb1 xn , xy n = βb0 xn + βb1 x2 n . (90)
Este punto estacionario es un mı́nimo pues la matrix Hessiana es
1 xn
H = 2n ,
xn x2 n
132
Tambien definamos los valores medios
Xn n
X
ybn = ybi /n, b
ǫn = ǫi /n.
b
i=1 i=1
133
18.2 Regresión en varias variables
El problema general se plantea como sigue. Se busca explicar o predecir
Pl una
variable Y por las funciones X1 , ..., Xl de manera lineal Y = β0 + j=1 βj Xj .
Notemos queP si se crea una variables constante X0 = 1, lo anterior se puede
l
escribir Y = j=0 βj Xj .
Luego, de manera general suponemos que se dispone k variables X1P , ..., Xk y se
k
quiere estudiar en que sentido se puede establecer una relación Y = j=1 βj Xj .
En general para esta formulación se admite que la relación se admite un error
ǫ, y se busca establecer la relación
k
X
Y = βj Xj + ǫ.
j=1
~y = (yi : i = 1, ..., n), ~ǫ = (ǫi : i = 1, ..., n)), ~xj = (xi,j : i = 1, ..., n), j = 1, ..., k.
134
Introduzcamos la matriz de variables explicativas X cuyas columnas son los
vectores ~xj , j = 1, .., k, esto es
Por último notemos β~ = (β1 , ..., βk ) el vector de coeficientes lineales. Luego las
relaciones (95) se escriben,
~y = X β~ + ~ǫ. (96)
Junto a introducir el modelo, Gauss introduce el criterio de elegir el estimador
de β~ que minimiza la suma de errores cuadráticos. Este estimador lo notamos
~b
β y se llama de mı́nimos cuadrados, luego el debe verificar min ~ǫt ~ǫ, esto es,
~b t ~b ~ t (~y − X β)
~ : β~ ∈ Rk }.
(~y − X β) (~y − X β) = min{(~y − X β)
Notemos que
2
n
X k
X
~b t ~b y i −
(~y − X β) (~y − X β) = xi,j .
i=1 j=1
135
Otra manera de decirlo es que se cumple
k
X k
X
∀~a = (a1 , ..., ak ) ∈ Rk : Var( ai βbi ) ≤ Var( ai β i ). (101)
l=1 l=1
Prueba: ~ = {(~y − X β)
(a) Definamos ϕ(β) ~ t (~y − X β).
~ Se tiene,
~ = ~y t ~y − 2β t X t ~y + β~ t X t Xβ.
ϕ(β)
La condición de primer orden para la minimización de esta cantidad es ∂ϕ(β)/∂βi =
0, i = 1, ..., n, lo que entrega la relación,
~b
2X t ~y = 2X t X β,
~
aquı́ βb indica un estimador verificando la condición de mı́nimo. Como las k
columnas de X son independientes y k ≤ n, se tiene que el rango de la matriz
X t X es k, como ella es de dimensión k deducimos que es invertible, lo que nos
~
permite deducir que βb satisface la relación (97). Para verificar que es un mı́nimo
Por otra parte se tiene que la matriz Hessiana satisface
∂ 2 ϕ(β)
= 2(X t X)i,j , i, j = 1, ..., k,
∂βi ∂βj
luego la matriz Hessiana es X t X la que es definida positiva, en efecto ~at X t X~a =
||X~a||2 ≥ 0, y X t X tiene rango k por lo que ||X~a||2 = 0 solo sı́ ~a = ~0. Con-
~ alcanza su mı́nimo en ~β.
cluı́mos que ϕ(β) b
(b) De la condición (98) se obtiene que para toda matriz A con n columnas se
verifica E(A~ǫ) = AE(~ǫ) = ~0. De donde
~b
E(β) = E((X t X)−1 X t ~y ) = E((X t X)−1 X t (X β~ + ~ǫ)) = (X t X)−1 X t X β~ = β.
~
~
Hemos probado que βb es insesgado.
(c) Sea ~β = (β i : i = 1, ..., k) un estimador de lineal en ~y , es decir ~β = C~y .
Tomando A = C − (X t X)−1 X t se tiene
~β = ((X t X)−1 X t + A)~y = ((X t X)−1 X t + A)(X β~ + ~ǫ).
~
Asumamos que ~β es insesgado, como βb lo es y E(X β~ + ~ǫ) = X β,
~ obtenemos
β~ = E(~β) = β~ + AXβ
136
pues E(CX β~ ~ǫ)t C t ) = E(C~ǫ X β)
~ = 0. Luego
~b ~b ~b
Var(~at ~β) = ~at Cov(~β)~a = ~at Cov(β) ~a + σ 2~at AAt ~at ≥ ~at Cov(β) ~a = Var(~at β).
137
19 Apéndice 1: Demostración de propiedades de
variables aleatorias y de funciones Borelianas
X : Ω → R es una variable aleatoria (v.a.) a valores en R si X −1 (C) ∈ B para
todo Boreliano C ∈ B(R).
Lema 113. Si la clase I ⊆ P(R) es tal que σ(I) = B(R) entonces X es v.a.
si y solo si X −1 (C) ∈ B para todo C ∈ I.
138
y como este conjunto es una unión finita de conjuntos en B, deducimos el está
en B. Observemos que puede ser vacı́o cuando C ∩ I = ∅.
Observemos que 1Ω donde 1Ω (ω) = 1 para todo ω ∈ Ω por lo que la v.a constante
Xa se escribe Xa = a 1Ω .
Si X : Ω → R es v.a. simple con I = X(Ω) (finito pues X es simple). Al tomar
{X = a} = {ω ′ ∈ Ω : X(ω ′ ) = a} ∈ B, a ∈ I, la v.a. X simple podemos
escribirla en términos de indicadoras,
X
X= a 1{X=a} . (103)
a∈I
Se tiene:
X X
X +Y = (a+b)1{X=a,Y =b} , X · Y = (a·b)1{X=a,Y =b} , (104)
(a,b)∈I×J (a,b)∈I×J
y si X ≥ 0 se tiene,
X v.a. ⇔ X = lim ր Xn con Xn v.a. simple, Xn ∈ σ(X), Xn ≤ Xn+1 , n ∈ N.
N →∞
(107)
Si X v.a. entonces se cumple las relaciones,
X v.a., B ∈ B ⇒ X 1B v.a., (108)
X = lim X1|X|≤n , (109)
n→∞
siendo X1|X|≤n v.a. acotada por n.
Se tiene,
lim Xk 1{∃ lim Xk } es v.a.. (110)
k→∞ k→∞
139
Prueba: Mostremos la relación (108). Si x < 0, {X 1B ≤ x} = {X ≤ x} ∩ B
y si x ≥ 0, {X 1B ≤ x} = ({X ≤ x} ∩ B) ∪ B c , y se tiene (108). Notemos que
(105) junto |X| v.a. y (108), implican (109).
X = lim ր Xn .
n→∞
X + = lim ր (X + )n , X − = lim ր (X − )n ,
n→∞ n→∞
de donde
X = X + − X − = lim ((X + )n − (X − )n ),
n→∞
+ −
siendo (X )n − (X )n v.a. simple. Usando (105) obtenemos el resultado.
X + Y = lim ((X + )n + (Y + )n − (X − )n − (Y − )n ),
n→∞
140
Por (105) obtenemos X + Y es v.a.. Esto muestra que si X + , X − son v.a.’s
entonces X es v.a..
Por otra parte, también se tiene
X·Y = lim (X + )n · (Y + )n + (X − )n · (Y − )n − (X + )n · (Y − )n − (X − )n · (Y + )n ) ,
n→∞
y de nuevo por (105), se obtiene que X · Y es v.a. Por último, si Y v.a. entonces
Y −1 1Y 6=0 es v.a.. Por (108) nos basta mostar que si Y v.a. tal que {Y = 0} = ∅
entonces Y −1 v.a.. Esto lo podemos hacer tomado lı́mites, pero también resulta
de otras caracterizaciones, como se explica en la Ejercicio 13 de más abajo.
Prueba: Toda la parte (a) se deduce del Teorema 116 pues una función es
Boreliana si cumple las condiciones de v.a. cuando (Ω, B) = (R, B(R)).
(b) Se deduce de g|−1
C0 (C) = g
−1
(C) ∩ C0 .
141
Prueba: Si C ∈ B(R) se tiene (g ◦ X)−1 (C) = X −1 (g −1 (C)) ∈ B(R) pues
g −1 (C) ∈ B(R) y X es v.a.. Luego, se tiene
De donde g(X) ∈ σ(X). Solo nos falta mostrar la implicación directa en (114).
Sea pues Y v.a. tal que Y ∈ σ(X).
P
Supongamos primero que Y es v.a. simple, ası́ se tiene Y = a∈I a1{Y =a} con
P(Y = a) > 0. Luego σ(Y ) = σ({Y = a} : a ∈ I). Por hipotesis se cumple
σ({Y = a} : a ∈ I) ⊆ σ(X), en particular {YP= a} = X −1 (Ca ) para Ca ∈ B(R),
a ∈ I = 1. De donde Y = g(X) con g = a∈I a1Ca . Y se tiene g es simple,
luego es una función Boreliana por la Proposición 118. Notemos que g(x) = 0
si x 6∈ Y (Ω).
Sea ahora Y ≥ 0. Luego por la relación (107) del Teorema 116 se cumple
142
20 Apéndice 2: Demostración propiedades de
Esperanza
Sea X v.a., X ≥ 0. En el Teorema 116, relación (107), se estableció que
X = lim ր Xn donde ր es Xn v.a. simple, Xn ≤ Xn+1 , Xn ∈ σ(X) n ∈ N.
N →∞
143
Teorema 123. Sean X, Y ∈ L1 , α, β ∈ R.
(a) E(E(X)) = E(X) (idempotencia).
(b) X ≤ Y implica E(X) ≤ E(Y ) (monótona). En particular: X ≥ 0 implica
E(X) ≥ 0.
(c) E(αX + βY ) = αE(X) + βE(Y ) (lineal).
(d) E(X − E(X)) = 0.
(e) Sea D convexo conteniendo X(Ω) y h : D → R función convexa y tal que
h(X) ∈ L1 , entonces
(f ) Se tiene i
X ≥ 0, E(X) = 0 ⇒ P(X = 0) = 1. (116)
0 ≤ Xn ≤ Y n , X = lim ր Xn , Y = lim ր Xn ,
n→∞ n→∞
X = lim ր Xn , Y = lim ր Yn .
n→∞ n→∞
144
y concluı́mos
145
21 Apéndice 3: Lema de Borel Cantelli y de-
mostración c.s. en Teorema Grandes Números
Recordemos la Proposición 124 estableciendo las relaciones entre las convergen-
cias y probemosla.
Se tiene,
(lim sup An )c = lim inf Acn ;
n→∞ n→∞
En el caso lim sup An = lim inf An se dice que existe lim An y se define por
n→∞ n→∞ n→∞
lim An = lim sup An = lim inf An .
n→∞ n→∞ n→∞
146
Lema 125. Sea (An : n ∈ N) ⊂ B. Entonces:
P
(a) Si P(An ) < ∞ entonces P(lim sup An ) = 0.
n∈N n→∞
P
(b) Si los eventos (An : n ∈ N) son P−independientes y P(An ) = ∞ entonces
n∈N
P(lim sup An ) = 1.
n→∞
P
Prueba: (a) La hipotesis implica lim k≥n P(Ak ) = 0. Luego, de la
n→∞
definicón del lı́mite superior de conjuntos, la Proposición 9 (continuidad mono-
tona de P) y la Proposición 10 (sub-σ-aditividad de P), se obtiene
[ X
P(lim sup An ) = lim P( Ak ) ≤ lim P(Ak ) = 0.
n→∞ n→∞ n→∞
k≥n k≥n
S
(b) Por la Proposición 9, basta
T probar que para todo n se tiene P( k≥n Ak ) = 1
o equivalentemente que P( k≥n Ack ) = 0. Ahora bien, por independencia se
tiene
\ N
\ N
Y N
Y
P( Ack ) = lim P( Ack ) = lim P(Ack ) = lim (1 − P(Ak )).
N →∞ N →∞ N →∞
k≥n k=1 k=1 k=1
P
Usemos 1 − x ≤ e−x y la hipotesis P(An ) = ∞ para obtener:
n∈N
\ PN P
P( Ack ) ≤ lim e− k=1 P(Ak )
= e− k∈N P(Ak )
= 0.
N →∞
k≥n
Ahora mostremos:
P
Prueba: Coloquemos ǫ = 1/m con m ∈ N. Como n∈N P (|Xn − X| > 1/m) <
∞, usando el Lema de Borel Cantelli (a) deducimos
147
es decir
P(ω ∈ Ω : ∀m ∈ N ∃n(m), ∀k ≥ n(m) : |Xn (ω) − X| ≤ 1/m}) = 1.
El resultado está probado.
Enunciaremos el Teorema de los Grandes Números para v.a.’s i.i.d. enP
su gener-
N
alidad, este establece la convergencia de la media empı́rica X N = N1 n=1 Xn
a la media teórica E(X). Este enunciado se hace en general, pese a que solo lo
probaremos con hipotesis adicionales.
Teorema 127. Sean (Xn : n ∈ N) una sucesión de v.a.’s i.i.d. con E(Xn )
finita. Entonces
lim X n = E(X) P − c.s. (120)
n→∞
Si (Xn : n ∈ N) ⊂ Lp para p ≥ 1, entonces
lim X n = E(X) en Lp . (121)
n→∞
148
21.1 Paseo Aleatorio
Sean (Yk : k ∈ N) v.a.’s i.i.d. con P(Yk = 1) = p = 1 − P(Yk = −1). Defina
n
X
Sn = Yk , n ∈ N,
k=1
P(Sn+1 = b | Sn = a) = P(Sn+1 − Sn = b − a | Sn = a)
p si b = a + 1
= P(Yn+1 = b − a | Sn = a) = 1 − p si b = a − 1
0 si |b − a| 6= 1.
X X 2n n −1/2
P(An ) = (p(1 − p)) = (1 − p(1 − p)) .
n
n≥0 n≥0
Es fácil mostrar que si p 6= 1/2, p ∈ [0, 1] entonces p(1 − p) < 1/4, luego
−1/2 P
(1 − p(1 − p)) < ∞, por lo que n≥0 P(An ) < ∞. Por el Lema de Borel
Cantelli (a) deducimos P(lim sup An ) = 0 y se deduce (123).
n→∞
149
22 Apéndice 4: Demostración de resultados de
función caracterı́stica y convergencia de fun-
ciones de distribución
22.1 Lemas de Helly
Demos los dos lemas de Helly en relación a la convergencia de funciones de
distribución.
150
Sea g continua y acotada. Sea ||g|| = sup{g(x) : x ∈ R} < ∞. Fijemos ǫ < 0.
Como F (−∞) y F (∞) finitos y F ∈ C existen a < b finitos, {a, b} ⊂ C(F ) y
F (a) < F (b), tal que
∀x ≥ b : F (∞) − F (x) < ǫ, ∀x ≤ a : F (a) − F (−∞) < ǫ. (126)
Notemos que como Fn =⇒ F existe n(ǫ) tal que
n→∞
Z ∞ l
X
h(x)dF (x) = g(xk )(F (xk )−F (xk−1 ))
−∞ k=1
l
X Z ∞
= lim g(xk )(Fn (xk )−Fn g(xk−1 )) = h(x)dFn (x).
n→∞ −∞
k=1
151
22.2 Demostración Teorema 90
Observemos que basta probar la igualdad (66) pues ella implica (65). En efecto,
de (66) se deduce que para todo a ∈ R se tiene
Z u −itx
1 e − e−ity
FX (a) = lim lim lim lim ϕX (t)dt (128)
yցa x→−∞ u→∞ 2π u→∞ −u it
Notemos que
e−itx − e−ity
lim = y − x,
t→0 it
luego la función
e−itx − e−ity itv
h(t, v) = e
it
es continua
R y acotada en Du = {v ∈ R, t ∈ [−u, u]}, digamos |h(t, v)| ≤ C en D,
luego Du h(t, v)dF (v)dt ≤ 2Cu. Por el Teorema de Fubini se puede cambiar el
orden de la integral y se obtiene
Z ∞ Z u it(v−x)
e − e−it(v−y)
I(u) = dt dF (v).
−∞ −u it
por lo que
Z u
π/2 si a > 0,
sin at
lim dt = 0 si a = 0,
u→∞ 0 t
−π/2 si a < 0.
Luego, como x < y, se deduce:
0 si v < x ó v > y,
lim θu (v) = π si v = x ó v = y,
u→∞
2π si x < v < y.
152
por lo que se tiene la convergencia de v.a.’s
De esto se deducirı́a
1 1 1
lim I(u) = lim E(θu (X)) = E( lim θu (X))
u→∞ 2π 2π u→∞ 2π u→∞
1 1 1
= E(V ) = P(X = x) + P(x < X < y) + P(X = y),
2π 2 2
lo que darı́a el resultado.
Ahora terminemos la prueba mostrando (129), y en ello usaremos el Teorema
de Convergencia Dominada que es el siguiente. Sea µ una medida en (Ω, B),
esto quiere decir que µ : B → [0, ∞] es una función que satisface µ(∅) = 0 y µ
es σ−aditiva. Ahora considere una familia de variables aleatorias (fn : n ∈ N)
con fn : Ω → R tal que el conjunto de puntos ω que no cumplen ∃ lim fn (ω)
n→∞
1
R de medida µ−nula. Luego, si existe una v.a. g ∈ L (µ) (es decir tal que
es
gdµ < ∞), y que domina a (fn : n ∈ N), es decir |fn | ≤ g para n ∈ N,
entonces el lı́mite siguiente existe y se cumple la igualdad,
Z Z
lim fn dµ = lim fn dµ.
n→∞ n→∞
Ru
Notemos que la función h(u) = 0 sintt dt es continua en u > 0, y converge a un
número finito cuando u → ∞, luego es acotada |h(u)| ≤ M para todo u ∈ R,
siendo M < ∞. Luego θu (X) ≤ 2M para todo u > 0. Como E(M ) = M < ∞,
se tienen las condiciones para aplicar el Teorema de Convergencia Dominada y
se cumple (129).
153
Notemos que
Z x
|eihx − 1| ≤ 2 y |eihx − 1| = | eiy dy| ≤ |x|.
0
Ahora tomemos a > 0 tal que a, −a sean puntos de continuidad de FX , por las
desigualdades anetriores se tiene
Z Z
|ϕX (t+h)−ϕX (t)| ≤ 2dFX (x)+ |h| |X|dFX (x) = 2P(|X| > a)+|h| a.
|X|>a |X|≤a
Tomando a = a(ǫ) > 0 tal que P(|X| > a(ǫ)) < ǫ y posteriormente |h| < ǫ/a(ǫ)
se obtiene el resultado.
(eihX − 1)
eitX ≤ |X| ∈ L1 .
h
R
Concluı́mos que ϕ(1) (t) = (ix)k eitx dFX (x). El mismo argumento anterior-
mente utilizado también muestra que ϕ(1) (t) es continua en t. Esto finaliza el
resultado para k = 1. La demostración para k > 1 es analoga.
154
Sea g continua y acotada. Sea ||g|| = sup{g(x) : x ∈ R} < ∞. Fijemos ǫ < 0.
Como F (−∞) y F (∞) finitos y F ∈ C existen a < b finitos, {a, b} ⊂ C(F ) y
F (a) < F (b), tal que
Por ser g continua en [a, b] podemos encontrar {x1 , .., xl−1 } ⊂ C(F ) con a =
x0 < x1 < ... < xl = b y tal que |g(x) − g(xk )| < δ para x ∈ (xk−1 , x − k].
Pl
Tomemos h = k=1 g(xk )1(xk−1 ,xk ] . Se tiene:
Z ∞ Z ∞
g(x)dF (x) − g(x)dFn (x) ≤ A1,n + A2,n + A3 ,
−∞ −∞
con
Z ∞ Z ∞ Z ∞
A1,n = |g(x) − h(x)|dFn (x), A2,n = h(x)dF (x) − h(x)dFn (x) ,
−∞ −∞ −∞
Z ∞
A3 = |g(x) − h(x)|dF (x)
−∞
Z ∞ l
X
h(x)dF (x) = g(xk )(F (xk )−F (xk−1 ))
−∞ k=1
l
X Z ∞
= lim g(xk )(Fn (xk )−Fn g(xk−1 )) = h(x)dFn (x).
n→∞ −∞
k=1
155
Ahora probemos el Lema 101 Como sin x y cos x son funciones continuas y
acotadas, del Lema 131 concluı́mos que
Z ∞ Z ∞ Z ∞ Z ∞
cos(x)dF (x) = lim cos(x)dFn (x), sin(x)dF (x) = lim sin(x)dFn (x),
−∞ n→∞ −∞ −∞ n→∞ −∞
luego
Z ∞ Z ∞
itx
ϕF (t) = e dF (x) = lim eitx dFn (x) = lim ϕFn (t). (133)
−∞ n→∞ −∞ n→∞
Ahora probemos la recı́proca, supongamos que ϕF (t) = lim ϕFn (t) para t ∈ R.
n→∞
Por el Lema 128 existe F ∗ ∈ C continua por la derecha con 0 ≤ F ∗ (x) ≤ 1 para
x ∈ R, y una subsucesión (nk : k ∈ N) tal que Fnk =⇒ F ∗ . Luego, por el Lema
k→∞
131 ϕFnk (t) → ϕF (t) si n → ∞. Como por hipotesis lim ϕFnk (t) = ϕF (t)
k→∞
pata t ∈ R, concluı́mos ϕF (t) = ϕF ∗ (t) para t ∈ R. Por ser F una función de
distribución se tiene,
156