Mathematics">
Nothing Special   »   [go: up one dir, main page]

Apunte 25

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 156

Versión preliminar Curso MA 3401:

Probabilidades y Estadı́stica, 2023-1


Servet Martı́nez ∗

Departamento de Ingenierı́a Matemática and Centro de Modelamiento Matemático,


UMR 2071 CNRS-UCHILE, Facultad de Ciencias Fı́sicas, Universidad de Chile,
Casilla 170-3, Correo 3, Santiago, Chile.

April 24, 2023

1 Introducción a las Probabilidades


Se ha postulado que la experiencia probabilı́stica proviene de los comienzos de la
vida social, principalmente asociado al juego, de hecho se han encontrado piedras
talladas de manera simétrica y se conjetura que su propósito principal habrı́a
sido el tener formas que permitieran el juego. El juego de dados se encuentra
en la época egipcia y desde entonces se continúo desarrollando distintos tipos
de juegos, y cálculos relacionados a ellos de discuten y realizan durante todo el
comienzo de laépoca moderna.
En particular mucha discusión se produjó sobre cual de los eventos siguientes
tenı́a mayor probabilidad de realizarse al lanzar tres dados independientes: que
sus suma fuera 10 ó que ésta fuera 12? La historia cambia radicalmente a
partir de 1654 con la solución de B. Pascal, en correspondecia con P. Fermat,
al problema de la división justa de lo apostado entre dos jugadores cuando un
juego queda interrumpido, y también del libro ’Razonamiento sobre los juegos
de azar’ de C. Huygens en 1656. Ellos desarrollan la reflexión matemática de
probabilidades donde ya figuran los elementos básicos modernos en particular
el valor esperado.
El desarrollo de la reflexión probabilı́stica se hace tanto sobre juegos de azar
como sobre temas de seguros y su relaci’on a tablas de mortalidad. Un hito
importante es el teorema de los grandes números probado por J. Bernoulli y su
libro Ars Conjectandi publicado en 1713. El desarrollo de las proabilidades con-
tinua desarrollandose de manera continua, las ley de A. De-Moivre, P. Laplace,
C. Gauss y P. Chevyshev del teorema del Lı́mite Central, por parte de C. Gauss
ligado a la distribución de errores; los trabajo de H. Poincaré a fines del soglo
∗ E-mail address: smartine@dim.uchile.cl

1
XIX sobre el teorema ergódico (relativo a la mezcla en un sistema fśico) y una
axiomática definitiva es dada por A. Kolmogorov en 1933 en su libro sobre los
Fundamentos de teorı́a de Probabilidades, axiomática que desarrollaremos más
aelante y que discutiremos más abajo.

1.1 Introducción al Modelo Probabilı́stico


El formalismo matemático con el que se modela el cálculo de probabilidades es
un triple (Ω, B, P) donde

• Ω 6= ∅ es el conjunto de todos los resultados de un experimento, y se le


llama espacio muestral;

• B es una familia de subconjuntos de Ω ó familia de eventos, que son los


objetos cuya probabilidad nos interesa medir (un evento está formado por
el conjunto de resultados que hacen que este se verifique);

• P : B → [0, 1] una medida de probabilidad, en que a cada evento A ∈ B se


le asigna una probabilidad P(A).

Para un espacio Ω, la clase de todos sus subconjuntos los notamos por P(Ω) =
{A : A ⊆ Ω}. Ası́ pues la familia de eventos B satisface B ⊆ P(Ω), es decir los
eventos son subconjuntos del espacio Ω. Las propiedades que debe satisfacer la
clase de eventos corresponde a lo que se define como σ−álgebra, que veremos
más adelante ası́ como las propiedades que verifica una medida de probabilidad.
Ilustremos estos conceptos con el juego de dados. Al respecto es útil la siguiente
notación: para un conjunto finito A notamos por |A| el cardinal de A, esto es
el número de sus elementos.
Lanzamiento de un dado. Lancemos un dado equilibrado. En este caso Ω =
{1, ..., 6} es el conjunto de resultados posibles, B = P(Ω) es la clase de todos los
subconjuntos de Ω. Como el dado es equilibrado para todo ω ∈ Ω, el singleton
{ω} tiene probabilidad P({ω}) = 1/|Ω| = 1/6. Luego P(A) = |A|/6 para todo
evento A ∈ P(Ω). La probabilidad P(A) = |A|/6 se lee: es el número de casos
favorables |A| dividido por el número de casos totales |Ω| = 6.
Lanzamiento de dos dados. Lancemos dos dados equilibrados de manera inde-
pendiente. Estos dos dados se pueden distinguir, uno será el primer dado y el
otro el segundo. En este caso Ω = {1, ..., 6} × {1, ..., 6} es el conjunto de parejas
(ω1 , ω2 ) de los resultados de estos dados, la primera componente ω1 es el resul-
tado del primer dado y la segunda componente ω2 el resultado del segundo dado.
Se toma B = P(Ω) la clase de todos los subconjuntos de Ω. Como los dados
son equilibrados e independientes se tiene que para toda pareja (ω1 , ω2 ) ∈ Ω,
el singleton {(ω1 , ω2 )} tiene probabilidad P({(i, j)}) = 1/|Ω| = 1/36. Luego
P(A) = |A|/36 para todo A ∈ P(Ω), que tambien corresponde al número de
casos favorables dividido por el número de casos totales.

2
Se puede deducir que el lanzamiento de un número finito de dados puede mod-
elarse siguiendo la misma forma con un espacio finito, la clase de eventos B
siendo todos los subconjuntos de este espacio y la probabilidad se fija con los
singletons. Entonces: por qué es necesario introducir espacios más generales?
En el marco de los dados, ello ocurre pues incluso juegos muy simples de dados
requiere una infinidad de lanzamiento de dados, por ejemplo si dos jugadores
lanzan de manera independiente un dado y el evento es ’el segundo jugador es
quien obtiene por primera vez un resultado mayor que el otro’. La razón de
porqué en este juego tan simple se necesita considerar una infinidad de lanza-
mientos es que el número de empates puede ser tan grande como se quiera, la
probabilidad que hayan k empates desde el comienzo es 1/6k y esto es estricta-
mente positivo para todo k. Abajo veremos un juego donde este fenomeno es
aún más claro.
Notaremos N = {1, 2, ..} y N0 = {0, 1, 2, ..}.
Lanzamiento de un número infinito de una pareja de dados. Será útil fijar como
notación N = {1, 2, ..}. consideremos el conjunto

Ω∞ = ({1, .., 6} × {1, .., 6})N (1)

de sucesiones infinitas ((ω1n , ω2n ) : n ∈ N) ∈ Ω∞ , el subı́ndice de ωin es i = 1 ó


i = 2 e indica el jugador que lanza, y el superı́ndice n ∈ N indica el número del
lanzamiento de los dados. Las coordendas ωin toman valores en {1, .., 6}.
Un juego de gran interés es el siguiente: supongamos que el jugador 1 tiene al
inicio del juego una fortuna de M1 pesos y el jugador 2 una fortuna M2 . Una
partida o lanzamiento la gana el que obtiene un número estrictamente mayor
que el otro, y en ese caso el que gana la partida recibe un peso de su oponente.
El juego se acaba cuando uno de los jugadores pierde toda su fortuna, es decir
cuando el perdedor tiene 0 opesos y el ganador M1 + M2 pesos. El evento ’el
jugador 1 gana el juego’ equivale a que el jugador 1 obtiene una diferencia de
M2 partidas en su favor antes que el jugador 2 obtenga una diferencia de M1
partidas en su favor. Este es el evento
[
A∗ = Dm con Dm = Am ∩ Bm ,
m≥M

donde Am y Bm son eventos que dependen de las primeras m partidas y que


son los siguientes (para describirlos escribimos 1(x) la función que vale 1 si se
cumple la propiedad x y vale 0 si esta no se cumple):
m
X m
X
Am = {((ω1n , ω2n ) : n ∈ N) : 1(ω1k > ω2k ) − 1(ω2k > ω1k ) = M2 }
k=1 k=1

y
n
X n
X
Bm = {((ω1n , ω2n ) : n ∈ N) ∀n < m : 1(ω2k > ω1k ) − 1(ω1k > ω2k ) < M1 }.
k=1 k=1

3
El evento Am expresa que en la partida m−ésima hay una diferencia de M2
partidas ganadas en favor del jugador 1 y el evento Bm expresa que antes de m
el jugador 2 no ha tenido una diferencia de M1 partidas en su favor. Observemos
que Dm significa que el jugador 1 es el ganador del juego y que este se acaba
antes ó en la partida m. Si se quisiera descomponer A∗ en términos de una unión
de eventos disjuntos, cuyo iı́ndice es exactamente la partida donde se acaba el
juego escribimos
[
A∗ = Em con Em = Am ∩ Bm ∩ Cm ,
m≥M

donde
n
X n
X
Cm = {((ω1n , ω2n ) : n ∈ N) ∀n < m : 1(ω1k > ω2k ) − 1(ω2k > ω1k ) < M2 }.
k=1 k=1

En efecto, en Bm ∩ Cm ni el jugador 1 ha sacado una diferencia en su favor de


M2 partidas, ni el jugador 2 ha sacado una diferencia en su favor de M1 partidas
antes de la partida m, por lo que el juego no se ha terminado antes o en m − 1,
y en Am expresa que en la partida m el jugador tiene una diferencia de M2
partidas ganadas. Luego, Em = Am ∩ Bm ∩ Cm expresa que en la partida m
toda la fortuna del jugador 2 la ha ganado el jugador 1 y además es la primera
vez que esto ocurre en beneficio de alguno de los dos jugadores.
En el conjunto Ω∞ dado por (1), se considera la σ−álgebra de eventos B gener-
ada por todas las partidas finitas. Los conjuntos del tipo Am son determinados
por un número finito de partidas y el conjunton A∗ descrito más arriba es
una unión numerable de ellos. Esta es una propiedad de cualquier σ−álgebra
de eventos, debe ser cerrada para S unión numerable. Luego en el caso de lan-
zamiento infinito de dados A∗ = m≥M Am es un evento al que se le puede
calcular la probabilidad. El evento A∗ se puede escribir como una unión dis-
junta de eventos, y como la probabilidad de un evento que es uni’on numerable
disjunta de eventos es la suma de las probabilidades de tales eventos, se tiene
X
P(A∗ ) = P(Am ∩ Bm ∩ Cm ).
m≥M

Hacemos notar que el conjunto Ω∞ tiene la cardinalidad de R. Y la σ−álgebra


B que estamos considerando, que es la menor σ−álgebra que contiene a todos los
eventos definidos por partidas de duración finita, también tiene la cardinalidad
de R. Luego B es distinta a P(Ω∞ ), la clase de todas las partes de Ω∞ , pues
esta tiene cardinalidad 2R que es estrictamente mayor que R. 

1.2 Leyes escritas en términos probabilistas.


Ley de Gutenberg Richter. Esta ley da la frecuencia de sismos por magnitud en
una región determinada. Esta es
log N (M ) = a − bM

4
siendo N (M ) el número de sismos de magnitud mayor o igual a M , y las con-
stantes a, b dependen de la región (se tiene b > 0). Esta ley ajusta bien la
frecuencia sı́smica salvo en los extremos, para magnitudes pequeñas o grandes.
Consideremos una cota inferior m0 y una cota superior M0 para la magnitud, tal
que en el intervalo [m0 , M0 ] la ley se cumpla. Luego podemos tomar la ecuacion
para la frecuencia de sismos,

N (M ) − N (M0 )
F (M ) = 1 − para M ∈ [m0 , M0 ].
N (m0 ) − N (M0 )

Observemos que F (M ) es creciente en [m0 , M0 ], F (m0 ) = 0, F (M0 ) = 1 y


F (M ). Esto es la función de distribución de la magnitud sı́smica. Se tiene

ea−bM − N (M0 )
F (M ) = 1 − = 1 − α(e−bM − β), M ∈ [m0 , M0 ],
N (m0 ) − N (M0 )

donde α = ea /(N (m0 ) − N (M0 )), β = N (M0 ) y b son cosntantes. Esta dis-
tribución es una exponencial truncada.

1.3 Paradojas
Para definir las bases dela teorı́a de probabilidades se tuvó que superar distintos
obstaculos, entre ellos uno filosofico ’si se le da sentido exacto al azar dejarı́a
de ser azar’ y tambien habı́an paradojas que hasta hoy se discuten. Aunque
no tengamos el formalismo para mirarlas más en detalle plantearemos una bien
conocida.
Paradoja del prisionero. Hay tres prisioneros, que los distinguiremos como O,
A, B. Ellos está encerrados en una prisión donde están aislados y solo hay un
guardia que los vigila. El paı́s está dirigido por un autocrata cuyas decisiones
las toma al azar (digamos con un dado). Fruto de su capricho anuncia que al
dı́a siguiente hará ahorcar un prisionero y los otros dos será liberados. Ası́ pues
cada uno de los prisioneros tiene probabilidad 1/3 de ser ahorcado y 2/3 de
ser liberado. Durante la noche al guardia se le comunica una noticia, y este se
acerca a la celda donde está O y le dice que el prisionero A no será ahorcado.
Despues de esto, cual es la probabilidad que O sea el ejecutado? Observemos
que O sabe que al menos uno de los dos otros prisioneros no será ejecutado. Por
lo que la noticia que le da el guardia no afecta en nada su probabilidad de ser
ahorcado y su probabilidad sigue siendo 1/3.
Paradoja de San Petersburgo. En el casino de San Petersburgo se debe pagar
por entrar a jugar el siguiente juego. El casino tira una moneda equilibrada y
le paga al jugador la recompensa rN = 2N rublos siendo N la primera vez que
la moneda sale cara. Observemos que la probabilidad pN que por primera vez
salga cara en la tirada N es que salgan N − 1 sellos seguidos de una cara, y
como la moneda es equilibrada esto tiene probabilidad (1/2)N .

5
Cuanto Ud. está dispuestro a pagar por entrar al juego? La paradoja se derivaba
que el jugador está dispuesto a pagar cantidades pequeñas por entrar al juego
siendo que la recompensa media que recibe el jugador es

X ∞
X ∞
X
N N
pn rn = (1/2) 2 = 1 = +∞.
N =1 N =1 N =1

Hay muchas formas de abordar esta paradoja, lo haremos de la siguiente manera.


El casino miente cuando propone el juego pues el no disponde una cantidad
infinita, solo disponde una cantidad finita (por grande que esta sea). Digamos
que tiene 2N0 rublos. Luego si la cara sale en un momemnto mayor que N0
el casino le paga 2N0 rublos al jugador y se declara en quiebra. Ası́ pues la
recompensa media recibida por el jugador es
N0
X X
(1/2)N 2N + ( (1/2)N )2N0 = N0 + (1/2)N0 2N0 = N0 + 1,
N =1 n>N0

que en un juego equilibrado es lo que deberı́a pagar el jugador por entrar a este
juego. La cantidad anterior es una cantidad moderada. Por ejemplo si ese juego
tuviera lugar en un casino nacional disponiendo de un el capital que bordea los
30 · 109 pesos, el que es menos que 235 pesos, si el jugador pagara 36 pesos esta
serı́a una cantidad razonable si lo que pagamos es la media de la recompensa
que recibirı́amos del casino.

Bibliografı́a Recomendada.
1. M.H. DeGroot, M. J. Schervish (2012). Probability and Statistics. Fourth
Edition, Addison-Wesley.
2. W. Feller. An Introduction to Probablity Theory and Statistics. Vol.1 , 3rd
Edition, Wiley Series.

6
2 Probabilidad en caso finito, medida uniforme,
urnas
2.1 Cardinal y Producto de Conjuntos
Sea Ω un conjunto. Definimos

P(Ω) = {A : A ⊆ Ω}

la clase de todos los subconjuntos de Ω, y se le conoce como el conjunto potencia


de Ω.
Se dice que dos conjuntos Ω1 , Ω2 tiene igual cardinal si existe una biyección de
Ω1 en Ω2 . Notamos por |Ω| la cardinalidad de Ω. Si Ω es finito entonces |Ω|
es el número de sus elementos. En el caso en que Ω = ∅ se tiene |∅| = 0. A
menudo notaremos IN = {1, ..., N }, luego N = |IN |.
Un conjunto es numerable si es finito o si tiene la cardinalidad de N, es decir
si está en biyección con N, en cuyo caso es numerable infinito. Se tiene que el
conjunto de números enteros Z es numerable, el producto finito de conjuntos
numerables es numerable, la unión numerable de conjuntos numerables es nu-
merable. El conjunto de número racionales Q es numerable. Sin embargo R no
es numerable.
Sea Ω1 × Ω2 = {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 } el conjunto producto de Ω1 y Ω2
cuyos elementos son las parajas (ω1 , ω2 ). Se tiene que el cardinal del conjunto
producto es el producto de cardinales, esto es |Ω1 × Ω2 | = |Ω1 | × |Ω2 |. Si Ωi ,
i = 1, .., k es un conjunto finito de conjuntos notamos
k
Y
Ω1 × · · · × Ωk = Ωl = {(ω1 , .., ωk ) : ωl ∈ Ωl , l = 1, .., k}
l=1

el conjunto producto de Ωi . i = 1, .., k, sus elementos son las k−tuplas (ω1 , .., ωk )
cuya coordenada l−ésima está en Ωl . Se tiene
k
Y k
Y
| Ωi | = |Ωi |.
i=1 i=1

Si
Qktodos los kΩl son los mismos, Ωl = Ω para l = 1, ..., k, entonces escribimos
l=1 Ωl = Ω . Se tiene
|Ωk | = |Ω|k .
El conjunto de todas las partes de IN es P(IN ) = {J : J ⊆ IN }. Este tiene
cardinal
|P(IN )| = 2N .
En efecto, la función {0, 1}N → P(IN ), dada por,

{0, 1}N → P(IN ) dada por (il : l ∈ IN ) ∈ {0, 1}N → J = {l ∈ IN : il = 1}

7
es una biyección (con inversa A → (il = 1(l ∈ A) : l ∈ IN ), por lo que |P(I)| =
|{0, 1}N | = 2N .
El conjunto de todas las k−tuplas (ordenadas) a valores en IN es
k
IN = {(i1 , ..., ik ) : i1 , ..., ik ∈ IN }
k
y su cardinal es |IN | = N k . Observe que este es tambien el cardinal de todas
las funciones de Ik = {1, .., k} en IN pues todo elemento
k
(i1 , .., ik ) ∈ IN

define una única función f : Ik → IN dada por f (l) = il para cada l = 1, .., k.
Sea k ≤ N . Consideremos la clase de k−tuplas a valores en IN que tengan
todas sus componentes distintas, esta clase la notamos

I(k, N ) = {(i1 , ..., ik ) ∈ IN : ij 6= il si j 6= l}.

Se tiene
N!
|I(k, N )| = N (N − 1)...(N − k + 1) = .
(N − k)!
En efecto, para la componente j = 1 podemos elegir N posibles valores de IN ,
para j = 2 podemos elegir N − 1 y ası́ sucesivamente, finalmente para l = k
podemos elegir N − (k − 1) valores, por lo que se tiene el resultado.
Observe que I(k, N ) corresponde al conjunto de funciones inyectivas de Ik en IN
pues toda k−tupla (i1 , ..., ik ) ∈ I(k, N ) define la función inyectiva f : Ik → IN
con f (l) = ij para j = 1, .., k.
En particular si k = N se tiene I(N, N ) = N !, es el cardinal de las biyecciones
de IN en sı́ mismas, o permutaciones de IN .
Sea k ≤ N . Consideremos P(N, k) = {J : J ⊆ IN , |J| = k} la clase de sub-
conjuntos de IN que tienen k elementos. Un subconjunto de k elementos de
IN está determinado por k elementos distintos de IN en cualquier orden, y este
subconjunto determina k! tuplas de elementos de IN que son distintas entre sı́.
Esto da |I(k, N )| = |P(N, k)| · k!, con lo que se obtiene
 
N! N
|P(N, k)| = = .
(N − k)!k! k

2.2 Probabilidad en caso finito


Sea Ω 6= ∅ el conjunto de resultados de un experimento dado, y lo llamamos
espacio muestral. Veamos primero el caso en que Ω es finito. En este caso una
medida de probabilidad está definida por una función p : Ω → R, ω ∈ Ω → p(ω),
que verifica X
∀ω ∈ Ω : p(ω) ≥ 0 y p(ω) = 1. (2)
ω∈Ω

8
La clase de eventos es P(Ω) que es la clase de todos los subconjuntos de Ω, y la
probabilidad de un evento es
X
P : P(Ω) → [0, 1], A → P(A) = p(ω). (3)
ω∈A

Con esta notación se tiene P({ω}) = p(ω) para ω ∈ Ω.


A la función p : Ω → R verificando (2) la llamamos densidad discreta (de P). A
menudo al vector (p(ω) : ω ∈ Ω) lo llamamos un vector de probabilidad.
Algunas propiedades que verifica la medida de probabilidad P que son directas
de verificar son:
P P
• (a) P(Ω) = ω∈Ω p(ω) = 1 y P(∅) = ω∈∅ p(ω) = 0;
• (b′ ) Para una familia finita disjunta (Ai : i ∈ I) de subconjuntos de Ω se
cumple la propiedad aditiva:
[ X X X X
P( Ai ) = p(ω) = p(ω) = P(Ai ).
S
i∈I ω∈ i∈I Ai i∈I ω∈Ai i∈I

Dado que A y Ac son disjuntos, las propiedades (a) y (b) implican

P(Ac ) = 1 − P(A) si A ⊆ Ω.

Tambien notaremos por X el valor aleatorio del experimento, esto permite usar
la notación siguiente,

P(X = ω) = p(ω) para ω ∈ Ω,

luego se tiene la siguiente equivalencia de escritura,

P(X ∈ A) = P(A) para A ⊆ Ω,

y la llamamos la ley de probabilidad de X.

Nota 1. Cuando estudiemos la medida de probabilidad en espacios generales


se requerira que esta verifique la propiedad llamada σ−aditiva, en que si un
evento A es unión numerable infinita de eventos disjuntos (An : ninN), entonces
la probabilidad de A es la suma de probabilidades de los (An : n ∈ N N ). 
Caso finito independiente. Conideremos dos experimentos con espacios
muestrales Ω1 y Ω2 y con densidades discretas dadas por p1 y p2 respectiva-
mente. Si estos dos experimentos son independientes, entonces el experimento
conjunto se modela por el espacio muestral producto Ω = Ω1 × Ω2 y la densidad
discreta producto dada por:

p(ω1 , ω2 ) = p1 (ω1 ) · p2 (ω2 ), (ω1 , ω2 ) ∈ Ω1 × Ω2 .

9
Se verifica que p es una densidad discreta en Ω = Ω1 × Ω2 pues
X X X X X
p(ω1 , ω2 ) = p1 (ω1 )p2 (ω2 ) = p1 (ω1 ) p2 (ω1 ) = 1. 
(ω1 ,ω2 )∈Ω ω1 ∈Ω1 ω2 ∈Ω2 ω1 ∈Ω1 ω2 ∈Ω2

Consideremos P1 y P2 las medidads asociadas a p1 y p2 , entonces la medidad


de probabilidad P asociada a la densidad discreta producto p satisface

P(A1 × A2 ) = P1 (A1 )P(A2 ), A1 ∈ P(Ω1 ), A1 ∈ P(Ω1 ),

y a P se le llama la medidad de probabilidad producto de P1 y P2 .


Si notamos por X1 y X2 los valores aleatorios del primer y segundo experimento
respectivamente, se tiene

P(X1 = ω1 , X2 = ω2 ) = p(ω1 , ω2 ) = p1 (ω1 )p2 (ω2 ) = P(X1 = ω1 )P(X2 = ω2 ).

y en general
P(X1 ∈ A1 , X2 ∈ A2 ) = P(A1 × A2 ).
El experimento conjunto se nota como una pareja de experimentos X = (X1 , X2 ).


2.3 Probabilidad uniforme


Como Ω es finito, existe la medida de probabilidad dada por
1
pU (ω) = , ω ∈ Ω,
|Ω|

que se llama densidad discreta uniforme, y la medidad de probabilidad asociada


se le dice uniforme. Esta es la única medida de probabilidad cuya densidad es
constante en todos los puntos. Para A ⊆ Ω se tiene
X |A|
P(A) = pU (ω) = , (4)
|Ω|
ω∈A

y la fórmula P(A) = |A|/|Ω| se lee la probabilidad uniforme es el número de


casos favorables (|A|) dividido por el número de casos totales (|Ω|). Ası́ pues
para computar la probabilidad de un evento basta encontrar la cardinalidad del
conjunto.
Caso uniforme independiente. Conideremos dos experimentos con espacios
muestrales Ω1 y Ω2 cuyas densidades discretas p1 y p2 son uniformes, es decir
1 1
p1 (ω1 ) = , p2 (ω2 ) = , ω1 ∈ Ω1 , ω2 ∈ Ω2 .
|Ω1 | |Ω2 |

10
respectivamente. Si estos dos experimentos son independientes, entonces el
Entonces la densidad discreta producto es la uniforme en Ω1 × Ω2 pues,
1 1
p(ω1 , ω2 ) = p1 (ω1 ) · p2 (ω2 ) = = , (ω1 , ω2 ) ∈ Ω1 × Ω2 .
|Ω1 ||Ω2 | |Ω1 × Ω2 |

Y la medidad producto satisface,

|A1 | |A2 | |A1 × A2 |


P(A1 × A2 ) = P1 (A1 )P(A2 ) = = .
|Ω1 | |Ω2 | |Ω1 × Ω2 |

2.3.1 Ejemplo: Lanzamiento de dados independientes


La probabilidad uniforme modela lo siguiente:

Lanzamiento de un dado equilibrado. En este caso Ω = I6 (siendo I6 = {1, .., 6})


y la probabilidad uniforme es p(ω) = 1/6 para ω ∈ Ω. Un evento es ’A: el
lanzamiento del dado X sale par’, que corresponde a X ∈ A = {2, 4, 6} y para
este evento se tiene P(A) = 3/6 = 1/2.
Lanzamiento independiente de dos dados equilibrados. Se tiene Ω = {1, ..., 6}2
y p(ω1 , ω2 ) = 1/62 = 1/36. Si A ⊂ Ω su probabilidad es la uniforme P(A) =
|A|/36. Notemos X1 y X2 los valores aleatorios del primer y segundo dado.
Algunos eventos son:
’A1 = {X1 + X2 = 7}: la suma de los dos lanzamientos es 7’, luego

A1 = {(ω1 , ω2 ) : ω1 + ω2 = 7} = {(ω1 , 7 − ω1 ) : ω1 = 1, ..., 6}


= {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.

Para este evento se tiene P(A1 ) = 6/36 = 1/6. Otro evento es ’A2 = {X1 = X2 }:
hay empate en los lanzamientos’, luego

A2 = {(ω1 , ω2 ) : ω1 = ω2 } = {(ω1 , ω1 ) : ω1 = 1, ..., 6}


= {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}.

Se tiene P(A2 ) = 6/36 = 1/6. Ahora, si tomamos A3 = {X1 6= X2 } se tiene


A3 = {(ω1 , ω2 ) : ω1 6= ω2 } = Ω \ A2 , luego |A3 | = 30 y P(A) = 30/36 = 5/6.
Lanzamiento independiente de k dados equilibrados. Si los dados son enumerados
por 1 hasta k, se tiene Ω = I6k , y cada k−tupla (ω1 , .., ωk ) ∈ Ω correponde a que
en el dado l sale ωl para l = 1, .., k. La medida de probabilidad es uniforme, se
tiene p(ω1 , .., ωk ) = 1/6k para (ω1 , .., ωk ) ∈ Ω. 
Tambien el caso uniforme modela la extracción de bolas de una urna que veremos
en la próxima sección.
Ejercicio con dado no-equilibrado. Consideremos dos dados, D1 y D2 que
se lanzan de manera independiente. Notemos por X1 y X2 los resultados de los

11
lanzamientos de estos dados, respectivamente. El dado D1 es equilibrado, es
decir P(X1 = i) = 1/6 para i ∈ {1, ..., 6}. Por otra parte, el dado D2 satisface
P(X2 = i) = qi para i ∈ {1, ..., 6}. probemos que P(X1 + X2 = 7) = 1/6, es
decir es la misma probabilidad a que si ambos lados fueran equilibrados.
En efecto por independencia se tiene P(X1 = i, X2 = j) = P(X1 = i)P(X2 =
j) = qj /6, luego

X 6 X6 X6
q7−i 1
P(X1 +X2 = 7) = P(X1 = i, X2 = 7−i) = P(X1 = i)P(X2 = 7−i) = = ,
i=1 i=1 i=1
6 6
P6 P6
donde usamos = i=1 q7−i = j=1 qj = 1. 

12
2.4 Extracción de bolas de una urna
Modelemos la extracción de bolas de una urna. Para fijar ideas IN = {1, .., N }
representa un conjunto de N bolas contenidas en una urna y numeradas entre 1
y N . Sacar una bola X de manera uniforme de esta urna se modela por Ω = IN ,
con la ley de probabilidad,
1
P(X = i) =
N
Modelearemos la extracción de k bolas de la urna. Dependiendo del experi-
mento, que en este caso es el método de extracción, se fijará el conjunto mues-
tral Ω y una vez que lo hayamos fijado la probabilidad en Ω resultará ser la
probabilidad uniforme.

2.4.1 Extracción secuencial de bolas con reposición


Supondremos que se sacan k bolas con reposición, es decir cada vez que sacamos
una bola se anota cual es y se devuelve a la urna a fin de rehacer el experimento
de manera independiente y con probabilidad uniforme en IN . El resultado
de ello es una k−tupla de bolas (las que pueden repetirse), luego el conjunto
muestra que notaremos Ωr (notamos r por reposición) es

Ωr = IN
k
= {ω = (i1 , .., ik ) : il ∈ IN para i = 1, ..., k}.

Se tiene Ωr = N k . Las k−tuplas se distribuyen de manera uniforme en el


conjunto producto. Luego la probabilidad Pr de obtener la secuencia de k bolas
ω = (i1 , .., ik ) es
1
Pr ({(i1 , .., ik )}) = r = N −k .
|Ω |
Concluı́mos que la medida de probabilidad en Ωr es la uniforme dada por

|A| |A|
∀A ⊆ Ωr : Pr (A) = r
= k.
|Ω | N

2.4.2 Extracción secuencial de bolas sin reposición


Ahora se extrae k bolas de manera análoga al proceso anterior, pero esta vez es
sin reposición, es decir cada vez que se saca una bola se anota cual es pero no
se devuelve a la urna. Obviamente para sacar k bolas se debe cumplir k ≤ N .
Notemos que las restricciones cuando no se reponen las bolas, ses escriben

∀l = 2, .., k : il 6∈ {i1 , .., il−1 }.

Y esto equivale a que las k bolas extraı́das sean distintas entre sı́, esto lo notamos
i1 , .., ik 6=′ s entre sı́. Luego el conjunto muestral que notaremos Ωs (notamos s
por sin reposición) es

Ωs = {ω = (i1 , .., ik ) ∈ IN
k
: i1 , .., ik 6=′ s entre sı́}.

13
La secuencia de k bolas (i1 , .., ik ) ∈ Ωs se extraen pues de acuerdo a la probabil-
idad uniforme en Ωs . Para determinarla observemos que |Ωs | es igual al número
de funciones inyectivas de Ik en Im por lo que
N!
|Ωs | = .
(N − k)!

Notemos Ps la medida de probabilidad en Ωs , ella está determinada por la


probabilidad de cada una de estas secuencias que es,

1 (N − k)!
Ps ({(i1 , .., ik )}) = = .
|Ωs | N!

Obtenemos
|A| (N − k)!
∀A ⊆ Ωs : P(A) = s
= |A| .
|Ω | N!

2.4.3 Extracción de conjuntos de bolas


Sea k ≤ N . Supongamos que se extrae al azar un conjunto de k bolas. Esto
define un subconjunto de IN de cardinal k, luego el conjunto muestral es Ω =
P(N, k), la clase de todos los subconjuntos de IN de tamaño k. Es decir un
elemento ω de Ω es un subconjunto de Ω con k elementos. Cada elemento ω
se obtendrá con la misma probabilidad, es decir la probabilidad P escoge cada
singleton {ω} ∈ P(N, k) con la misma probabilidad,

1 1 k!(N − k)!
∀ω ∈ P(N, k) : P({ω}) = = N = .
|P(N, k)| k
N!

Forma de escoger uniformenete un conjunto de tamaño k de IN . Esta es la


siguiente: se sacan k bolas sin reposición, pero no se las anota cada vez que
se las saca, sino que una vez que se han sacado todas se anota el conjunto de
bolas que se ha extraı́do. Probemos que esto nos da la probabilidad uniforme
de obtener un subconjunto determinado ω = {i1 , .., ik } ∈ P(N, k). En efecto,
si por este procedimiento se obtiene cierto conjunto ω ∈ P(N, k) ello equivale a
obtener la siguiente clase Aω ⊂ Ωs de secuencias de bolas ordenadas extraı́das
sin reposicón: [
Aω = {(iπ(1) , .., iπ(k) )},
π∈Per(Ik )

donde se suma sobre el conjunto de permutaciones de {1, ..., k}. Se tiene |Aω | =
k! y de acuerdo a la medida de probabilidad para secuencias sin reposición se
tiene
(N − k)! (N − k)!
Ps (Aω ) = |Aω | = k! .
N! N!

14
Esto prueba que la medida de probabilidad en Ω = P(N, k), que notamos P, es
la probabilidad uniforme, en efecto
k!(N − k)! 1 1
P({ω}) = = N = .
N! k
|P(N, k)|

Ejercicio 1. Suponga que en la urna con N bolas numeradas hace el experi-


mento siguiente. Saca un conjunto al azar Y de k bolas, siendo k < N . Despues
se devuelve estas bolas a la urna y se saca una bola X al azar. Calcule la prob-
abilidad que la bola pertenezca al conjunto sacado, esto es calcule P(X ∈ Y ).
El experimento consiste de dos experimentos independientes y ello se estudia
tomando Ω = P(N.k) × IN , donde la primera coordenda indica el conjunto al
azar de k bolas y la seguna coordenada la bola que se extrae posteriormente. En
los conjuntos formando el producto la extracción se hace de manera uniforme,
ası́ que esto tambien ocurre en Ω. Luego la densidad discreta en Ω es la uniforme.
Se tiene,
|Ω| = |P(N, k)|N.
Notamos por (a, i) ∈ P(N.k) × IN los elementos de Ω. El conjunto de casos
favorables es
[
C = {(a, i) ∈ P(N.k) × IN : i ∈ a} = {a} × a,
a∈P(N.k)

P Como |a| = k
Esta unión es disjunta (pues la primera coordenada es distinta).
para todo a ∈ P(N, k) se tiene |{a} × a| = k, luego |C| = a∈P(N.k) |a| =
|P(N, k)|k. Concluı́mos que la probabilidad buscada eP(X ∈ Y ) = P(C) es
|C| |P(N, k)|k k
P(C) = = = . 
|Ω| |P(N, k)|N N

2.4.4 Extracción de bolas de dos colores


Supongamos que las bolas en IN pueden ser de dos colores, blancas ó negras.
Supongamos que hay M bolas blancas y N − M bolas negras. Luego si sacamos
al azar (es decir de manera uniforme) una bola de la urna, ella será blanca con
probabilidad M/N (y será negra con probabilidad (N − M )/M .
Notemos L el conjunto de bolas blancas, luego |IN \ L| es el conjunto de bolas
negras.
Sea k ≤ N . Sacaremos un conjunto de k bolas de IN ’al azar’, es decir con prob-
abilidad uniforme. Luego el conjunto muestral es Ω = P(N, k) y los elementos
ω ∈ Ω son subconjuntos de IN de tamaño k. La es probabilidad uniforme. Se
tiene  
N 1
|Ω| = , P({ω}) = N  para ω ∈ Ω.
k k

15
Se tiene
|A| |A|
∀A ⊆ P(N, k) : P(A) = = N .
|P(N, k)| k

Supongamos que con probabilidad uniforme se saca un subconjunto ω ∈ P(N, k)


de k bolas y se quiere calcular la probabilidad que el número de blancas sea k1
(luego el número de bolas negras es k − k1 ). Necesariamente k1 ≤ k, k1 ≤ M ,
k − k1 ≤ N − M . Ası́ pues se quiere calcular

P(A) con A = {ω ∈ P(N, k) : |ω ∩ L| = k1 , |ω ∩ (IN \ L)| = k − k1 }.

Se tiene que A esta en biyección con P(M, k1 ) × P(N − M, k − k1 ), luego,


  
M N −M
|A| =
k1 k − k1

luego la probabilidad del evento A es


M
 N −M

|A| k1 k−k1
P(A) = = N

|Ω| k

2.4.5 Extracción de bolas de s colores


Supongamos que el color de cada bola en IN pueden ser uno entre s colores.
Esto da una partición (L1 , .., Ls )Pde IN , las bolas en Lr serán las de color r.
s
Notaremos Nr = |Lr | por lo que r=1 Nr = N .
Sea k ≤ N . El conjunto muestral es Ω = P(N, k) con la probabilidad uniforme.
Los elementos ω ∈ Ω son subconjuntos de IN de tamaño k y se tiene
|A| |A|
∀A ⊆ P(N, k) : P(A) = = N .
|P(N, k)| k

Supongamos que se saca con probabilidad uniforme un conjunto ω ∈ P(N, k) de


k bolas y se quiere calcular P(A) con

A = {ω ∈ Ω : |ω ∩ Lr | = kr , r = 1, .., s},
Ps
Qskr ≤ Nr , r = 1, .., s, con r=1 kr = k. Se tiene que A esta en biyección
donde
con r=1 P(Nr , kr ) luego
Ys  
Nr
|A| = ,
r=1
kr
y obtenemos Qs 
Nr
r=1 kr
P(A) = N
 .
k

16
3 Espacios de Probabilidad
Como dijimos en la Sección 1, el formalismo matemático con el que se modela
el cálculo de probabilidades es un triple (Ω, B, P) donde:

• Ω 6= ∅ es el espacio muestral de todos los resultados de un experimento;

• B es una familia de subconjuntos de Ω ó familia de eventos, que son los


objetos cuya probabilidad nos interesa medir;

• P : B → [0, 1] una medida de probabilidad, en que a cada evento A ∈ B se


le asigna una probabilidad P(A).

Sea Ω es un espacio muestral, la familia de eventos B ⊆ P(Ω) deberá verificar


ciertas propiedades básicas que describiremos en términos conjuntos y de op-
eraciones sobre conjuntos. Estas operaciones reflejan la clase de conjuntos en
los que la medida de probabilidad se define. Una de estas propiedades hace
intervenir la unión numerable de conjuntos por lo que requiere una definición
previa.

3.1 Unión e interseccioń de familia de conjuntos


Conideraremos Ω un conjunto no vacı́o. Sean A, B ∈ P(Ω). Notamos por Ac el
complemento de A en Ω. Se define A \ B = A ∩ B c , A∆B = A \ B ∪ B \ A. Si
Ω0 ⊆ Ω y A ⊆ Ω0 el complemento de A en Ω0 es Ω0 \ A.
Veamos uniones e interseeciones de familias numerables de conjuntos.
Sea I un conjunto finito o numerable. Escribimos (Ai : i ∈ I) ⊆ P(Ω) para
notar una familia de conjuntos en Ω, esto es tal que Ai ⊆ Ω para todo i ∈ I.
Por ejemplo si I = In entonces (Ai : i ∈ In ) ⊆ P(Ω) significa que Ai ⊆ Ω para
i = 1, ..., n. Si I = N entonces (Ai : i ∈ N) ⊆ P(Ω) significa Ai ⊆ Ω para i ∈ N.
Para (Ai : i ∈ I) ⊆ P(Ω) se define
[ \
Ai = {ω ∈ Ω : ∃ i ∈ I, ω ∈ Ai }, Ai = {ω ∈ Ω : ∀ i ∈ I, ω ∈ Ai }.
i∈I i∈I

Se cumple la ley de Morgan


[ \ \ [
( Ai )c = Aci , ( Ai )c = Aci ,
i∈I i∈I i∈I i∈I

Para probar la primera igualdad se tiene:


[ \
ω 6∈ Ai ⇔ 6 ∃i ∈ I, ω ∈ Ai ⇔ ∀i ∈ I, ω ∈ Aci ⇔ ω ∈ Aci .
i∈I i∈I

17
Para probar la segunda igualdad basta notar que aplicando la primera a la
familia (Aci ) y usando (Aci )c = Ai , se obtiene
[ \
( Aci )c = Ai .
i∈I i∈I

Luego tomado complemento en ambos lados se obtiene la segunda igualdad.


S Sn S S∞
(Nota: A menudos se nota i∈In Ai = i=1 Ai y i∈N Ai = i=1 Ai .)
S T
(Si I = ∅ se tiene i∈∅ Ai = ∅ y i∈∅ Ai = Ω).

Definición 1. Los conjuntos (Ai : i ∈ I) se dicen disjuntos si Ai ∩ Aj = ∅


para i 6= j, i, j ∈ I.
La familia de conjuntos (Ai : i ∈ I) ⊆ P(Ω) se S dice una partición de Ω si son
disjuntos y cubren Ω, esto último significa Ω = i∈I Ai .

Diremos que una sucesión de conjuntos (An : n ∈ N) ⊆ P(Ω) es creciente


si An ⊆ An+1 para n ∈ N, y se denota An ր. Se dice que la sucesión es
decreciente si An ⊇ An+1 para n ∈ N y se denota An ց. Si la sucesión es
creciente o decreciente diremos que es monótona. Si la sucesión (An : n ∈ N) es
monótona se tiene que existe lim An y este es
n→∞
[ \
lim An = An si An ր , lim An = An si An ց .
n→∞ n→∞
n∈N n∈N
T
Si An ր para n ∈ N, entonces
S se cumple n∈N An = A1 y si An ց para n ∈ N,
necesariamente se tiene n∈N An = A1

Ejemplo.S En R la sucesión deTconjuntos An = (−n, n], n ∈ N, es creciente y


se tiene n∈N An = R, además n∈N An = A1 = (−1, 1].

3.2 Eventos: σ−álgebra de conjuntos


Sea Ω un conjunto no vacı́o que llamamos conjunto muestral. Consideraremos
clases relevantes de subconjuntos de Ω, que en teorı́a de probabilidades serán
los eventos a los que se asignará una probabilidad.
Definición 2. Una clase B ⊆ P(Ω) de subconjuntos de Ω se llama σ−álgebra
en Ω, si verifica las propiedades siguientes:
(a) Ω ∈ B, ∅ ∈ B;
(b) A ∈ B implica Ac ∈ B (cerrado por complemento);
S
(c) (An : n ∈ N) ⊆ B implica n∈N An ∈ B (cerrado para uniones numerables).
A la pareja (Ω, B) se le llama espacio medible.

18
Veamos ahora propiedades de una σ−álgebra B en el caso general.
Notemos que la parte ∅ ∈ B en (a) se deduce de Ω ∈ B y de la propiedad (b)
pues Ω ∈ B implica ∅ = Ω ∈ B.

Propiedad 3. La σ−álgerbra B es cerrada por intersecciones numerables, es


decir cumple:
T
(c′ ) (An : n ∈ N) ⊆ B implica n∈N An ∈ B.
Más aún se tiene la equivalencia (b) + (c) ⇔ (b) + (c′ ).

Prueba: Basta probar la equivalencia. Por las leyes de Morgan se tiene


!c !c
\ [ [ \
c c
An = An , An = An .
n∈N n∈N n∈N n∈N

y usando (b) se obtiene la equivalencia deseada.

Nota 2. Supongamos que la σ−álgebra B contiene la familia de todos los


singletons de Ω, es decir {ω} ∈ B para ω ∈ Ω. En este caso todo subconjunto
A ⊆ Ω que sea numerable (finito o infinito) necesariamente estará en B. Esto se
deduce de que en general un conjunto es la unión de sus puntos, es decir
[
A= {ω}. (5)
ω∈A

Luego, si A es numerable y los singletons están en B, se tiene que A es unión


numerable de conjuntos en B y por la propiedad (c) se deduce que A ∈ B.
Notemos que de la propiedad (b) tambien se obtiene que un conjunto A ⊆ Ω
cuyo complenento Ac es numerable, tambien estará en B.
En el caso en que Ω es numerable, la única σ−álgebra que consideraremos en él
es la clase de todos sus subconjuntos B = P(Ω). Esto pues si imponemos que
{ω} ∈ B para ω ∈ Ω, el argumento anterior prueba que todo subconjunto de Ω
está en B. .

Propiedad 4. Una σ−álgebra B es cerrada para unión (finita), intersección


(finita), diferencia y diferencia simétrica, esto es:
A, B ∈ B implica A ∪ B ∈ B, A ∩ B ∈ B, A \ B ∈ B, A∆B ∈ B.
Sn Tn
También: A1 , .., An ∈ B implica i=1 Ai ∈ B, i=1 Ai ∈ B.

Prueba: Para (A1 , .., An ) ⊆ B, definimos Ak = An para k > n y se tiene


(Ak : k ∈ N) ⊂ B por lo que
n
[ [ n
\ \
Ak = Ak ∈ B, Ak = Ak ∈ B.
k=1 k∈N k=1 k∈N

19
Luego por ser B cerrado para complemento, unión e intersección finitas deduci-
mos:
A \ B = A ∩ B c ∈ B, A∆B = (A \ B) ∪ (B \ A) ∈ B. 

Luego la σ−álgebra B es cerrada para unión e intersección numerable: numer-


able infinita como en el caso de la definición I = N, o finita; esto es
h i h[ \ i
I numerable (finito o infinito) , (Ai : i ∈ I) ⊆ B ⇒ Ai ∈ B, Ai ∈ B .
i∈I i∈I

Notemos que en todo conjunto Ω podemos definir al menos dos σ−álgebras (las
que son distintas si Ω no es un singleton):

N (Ω) = {∅, Ω} (σ − álgebra trivial) , P(Ω) (σ − álgebra discreta) .

Toda σ−álgebra B en Ω verifica

N (Ω) ⊆ B ⊆ P(Ω).

La familia de σ−álgebras en Ω está parcialmente ordenada por ⊆. Se tiene que


N (Ω) es la más pequeña σ−álgebra y P(Ω) es la más grande.
Para toda clase de partes L ⊆ P(Ω) hay una más pequeña σ−álgebra que la
contiene, la notamos σ(L). Esto es σ(L) verifica:
· σ(L) es σ−álgebra;
· L ⊆ σ(L);
· Si B es σ−álgebra tal que L ⊆ B entonces σ(L) ⊆ B.

Ejemplo 1. (1) Si L = ∅ o más generalmente si L ⊆ N (Ω) se tiene σ(L) =


N (Ω).
(2) Para A ∈ B se tiene σ({A}) = {∅, A, Ac , Ω}.
(3) Para L = {{ω} : ω ∈ Ω} la clase formada por los singletons se tiene

σ(L) = {A ⊆ Ω : A numerable ∨ Ac numerable }.

σ-álgebra de Borel en R. Al conjunto de los reales Ω = R lo dotamos de la


σ−álgebra de Borel B(R) = σ(L) siendo L = {(−∞, x] : x ∈ R}. Se tiene que
B(R) contiene a las siguientes clases de conjuntos:

• Los intervalos semi-infinitos (−∞, x], (−∞, x), (x, ∞), [x, ∞);

• Los intervalos finitos (x, y], [x, y], [x, y), (x, y);

• Los singletons {x};

• Los abiertos y cerrados en R.

20
Prueba. La única pruebaSque no es directa es para probar que (−∞, x) ∈ B(R).
Ella resulta de (−∞, x) = n∈N (−∞, x−1/n] y que B(R) es cerrada por uniones
numerables.
De lo anterior se deduce que (x, ∞) = (∞, x]c y [x, ∞) = (∞, x)c están en
B(R) pues está es cerrada para complementos. De aqui también se tiene [a, b] =
(−∞, b] ∩ [a, ∞) ∈ B(R) pues es cerrada por complementos. Y todos los inter-
valos están en B(R). Luego {x} = [x, x] ∈ B(R).
Finalemente
S todo abierto O es unión de intervalos abiertos, es decir satisface
O = n∈N N (an , bn ), luego O ∈ B(R), y como los cerrados son complementos
de abiertos tambien los están en B(R). 

3.3 Medidas de probabilidad


Definición 5. Sea (Ω, B) espacio medible. Diremos que P : B → [0, 1] es una
medida de probabilidad si verifica,
(0) P : B → [0, 1] es una función;
(a) P(Ω) = 1, P(∅) = 0;
(b) Si (An : n ∈ N) ⊆ B es una familia disjunta entonces
[ X
P( An ) = P(An ) (σ − aditividad).
n∈N n∈N

Al triplete (Ω, B, P) se le llama espacio de probabilidad. Como anunciamos Ω


es el conjunto muestral y a los elementos de B, se les llama eventos.

Nota 6. La propiedad P(∅) = 0 en (i) se deduce de (0) y (b), en efecto de (0)


se tienePP(∅) ∈ [0, 1] y si se toma An = ∅ para todo n ∈ N en (b), se deduce
P(∅) = n∈N P(∅), por lo que si P(∅) > 0 se llega a una contradicción. 

Proposición 7. (a) Si (Ai : i ∈ I) ⊆ B es una familia numerable (finita si


|I| finito, o infinita si |I| = |N|) que es disjunta, entonces se verifica,
[ X
P( Ai ) = P(Ai ).
i∈I i∈I

En caso I finito la propiedad anterior se llama aditiva y para el caso |I| = 2


significa
P(A ∪ B) = P(A) + P(B) si A, B ∈ B, A ∩ B = ∅ .
(b) Para A, B ∈ B se cumple

P(B \ A) = P(B) − P(B ∩ A),

en particular si A ⊆ B se verifica P(B \ A) = P(B) − P(A).

21
(c) P es creciente esto es:

A ⊆ B ⇒ P(A) ≤ P(B).

(d) Todo A ∈ B cumple,


P(Ac ) = 1 − P(A).
(e) Para A, B ∈ B se cumple,

P(A ∪ B) = P(A) + P(B) − P(A ∩ B),

en particular es sub-aditiva,esto es

P(A ∪ B) ≤ P(A) + P(B) .

Prueba: (a). Si I es infinito numerable, esta es la propiedad σ− aditiva


(b) en la definición 5 pues podemos enumerar los conjuntos (Ai : i ∈ I) con
S suponerSI = IN , para N ∈ N0 .
I = N. Supongamos I es finito, luego podemos
Definamos Ai = ∅ para i > N por lo que n∈N An = i∈I Ai . Además (An :
n ∈ N) ⊆ B es una familia disjunta y usando la propiedad de σ−aditividad en
la definición 5 y P(∅) = 0 se deduce
[ [ X X
P( Ai ) = P( An ) = P(An ) = P(Ai ).
i∈I n∈N n∈N i∈I

(b). Basta considerar la familia disjunta (B \ A, B ∩ A) en (a) y usar que


B = (B \ A) ∪ (B ∩ A).
(c). En (b) se usa P(B ∩ A) ≥ 0.
(d). En (b) se toma B = Ω.
(e). Basta notar que (A \ A ∩ B, A ∩ B, B \ A ∩ B) es una familia disjunta de
subconjuntos cuya unión es A ∪ B. 

Propiedad 8. Consideremos Ai , i ∈ In = {1, ..., n} una familia finita de


conjuntos en B, entonces se cumple la propiedad de inclusión-exclusión
 
[ n
X X \
P( Ai ) = (−1)k+1  P( Ai ) . (6)
i∈In k=1 J⊆In :|J|=k i∈J

Prueba: La demostración es por inducción. Para n = 2 es la propiedad (e) de


la Proposición anterior. Supongamos que se cumple hasta n probemoslo para

22
n + 1. La siguiente unión es disjunta
[ [ [ [
Ai = ( Ai ) ∩ An ∪ ( Ai ) ∩ Acn ∪ An ∩ ( Ai )c
i∈In+1 i∈In i∈In i∈In
[ [ [
= ( Ai ∩ An ) ∪ ( Ai ∩ Acn ) ∪ (An \ ( An ∩ Ai ))
i∈In i∈In i∈In
[ [
= ( Ai ∪ (An \ ( An ∩ Ai )).
i∈In i∈In

Por hipotesis de inducción se obtiene,


[ [ [
P( Ai ) = P( Ai ) + P(An ) − P( An ∩ Ai )
i∈In+1 i∈In i∈In
n
X X \
= (−1)k+1 P( Ai ) + P(An )
k=1 J⊆In :|J|=k i∈J
n
X X \
− (−1)k+1 P(An ∩ ( Ai ))
k=1 J⊆In :|J|=k i∈J
n
X X \
= (−1)k+1 P( Ai ) .
k=1 J⊆In+1 :|J|=k i∈J

En el caso n = 3, la relación (6) se reduce a:


3
X 2
X 3
X 3
\
P(A1 ∪ A2 ∪ A3 ) = P(Ai ) − P(Ai ∩ Aj ) + P( Ai ).
i=1 i=1 j=i+1 i=1

El primer término de la derecha corresponde a k = 1 pues los subconjuntos de


I3 con |J| = 1 son {1}, {2}, {3}; el segundo término corresponde a k = 2 pues
los subconjuntos de I3 con |J| = 2 son {1, 2}, {1, 3}, {2, 3}; y el tercer término
corresponde a k = 3 pues el único subconjuntos de I3 con |J| = 3 es {1, 2, 3}.

Proposición 9. Si (An : i ∈ N) ⊆ B es una sucesión monótona entonces


P( lim An ) = lim P(An ).
n→∞ n→∞

Esto es:
[
si An ր entonces P( An ) = lim P(An ) ,
n→∞
n∈N
\
si An ց entonces P( An ) = lim P(An ).
n→∞
n∈N

Esta propiedad se llama continuidad monotona (secuencial).

23
Prueba: Supongamos que la sucesión es creciente. Definamos la sucesión de
conjuntos (∆n : i ∈ N) por

∆1 = A1 , ∆n = An \ An−1 para n > 1.

Se tiene (∆n : i ∈ N) ⊆ B y además es una familia disjunta. Es directo ver que


por ser (An ) creciente se cumple
N
[ N
[
∆n = An = AN . (7)
n=1 n=1

De manera similar se obtiene


[ [
∆n = An .
n∈N n∈N

La primera unión es disjunta luego podemos usar la σ−aditividad, ello junto a


la relación (7) permite obtener

[ [ X N
X
P( An ) = P( ∆n ) = P(∆n ) = lim P(∆n ) = lim P(AN ).
N →∞ N →∞
n∈N n∈N n∈N n=1

Y esta es la propiedad buscada en caso creciente. El caso en que (An : n ∈ N)


es decreciente, la propiedad resulta de observar que (Acn : n ∈ N) es creciente, y
usar la propiedad ya obtenida en este caso, junto a la igualdad P(A) = 1−P(Ac )
y la ley de Morgan. En efecto,
\ \ [
1 − P( An ) = P(( An )c ) = P( Acn ) = lim P(Acn ) = 1 − lim P(AN ). 
n→∞ n→∞
n∈N n∈N n∈N

Proposición 10. Sean I numerable, (Ai : i ∈ I) ⊆ B una sucesión de


conjuntos en B. Entonces se cumple
[ X
P( Ai ) ≤ P(Ai ).
i∈I i∈I

En caso I finito se dice propiedad subaditiva, si I es numerable infinito se dice


propiedad sub-σ−aditiva.

Prueba: Probemos el caso finito. Si |I| = 0 ó |I| = 1 esto es trivial. Sea


I = IN con N ≥ 2. El caso N = 2 esta incluı́do en la Proposición 7 (e), el caso
SN SN −1
N ≥ 2 se prueba por inducción usando i=1 Ai = i=1 Ai ∪ AN .

24
Sn
Para el caso numerable I = N S Sn = i=1 Ai para n ∈ N. Se tiene
definamos B
que que Bn es creciente y que n∈N Bn = n∈N An . Luego, por la proposición
anterior se tiene
[ [ n
[
P( An ) = P( Bn ) = lim P(Bn ) = lim P( Ai )
n→∞ n→∞
n∈N n∈N i=1
n
X X
≤ lim ( P(Ai )) = Ai .
n→∞
i=1 i∈N

De particular interés es lo que ocurre con los conjuntos de medida 0 o de medida


1. Se tiene:

Proposición 11.
S (i) Si (An : n ∈ N) ⊆ B es tal que P(An ) = 0 para todo
n ∈ N entonces P( n∈N An ) = 0.
(ii)T Si (An : n ∈ N) ⊆ B es tal que P(An ) = 1 para todo n ∈ N entonces
P( n∈N An ) = 1.
(iii) N (Ω, P) = {A ∈ B : P(A) = 0 ó P(A) = 1} es una σ−álgebra.

S P
Prueba: (i) por la sub σ−aditividad An ) ≤ n∈N P(An ) = 0.
T se tiene P( n∈N S
La propiedad (ii) resulta de (i) y P( n∈N An ) = 1 − P( n∈N Acn ). La parte (iii)
se deduce fácilmente. 

Si A ∈ B verifica P(A) = 0 a menudo se le llama P−nulo, y si P(A) = 1 se le


llama P−lleno.
En un espacio de probabilidad (Ω, B, P) no haremos especial distinción entre
los conjuntos que difieran en un conjunto de probabilidad nula, es decir entre
A, B ∈ B cuando P(A∆B) = 0.
Para ilustrar porque esto se puede hacer en un caso concreto veamos el ejercio
siguiente.

Ejercicio 2. Asumamos que I es numerable, que se tiene (Ai : i ∈ I) ⊆ B y


que esta familia es P−disjunta, esto es P(Ai ∩ Aj ) = 0 si i 6= j. Emtonces se
cumple [ X
P( Ai ) = P(Ai ).
i∈I i∈I

Para el caso I finito se deduce de la Propiedad 8 de inclusión-exclusión, pues


como P(Ai ∩ Aj ) = 0 si i 6= j se deduce que el único término que sobrevive
S en
el
P término de la derecha de igualdad (6) es para k = 1, lo que da P( i∈I i =
A )
i∈I P(A i ).

25
Para I = N se obtiene usando la Proposición 9. Para hacerlo tomemos Bn =
S n
i=1 Ai , la que es una sucesión creciente de conjuntos cuando n crece y se
obtiene
[ [ n
[ n
X X
P( Ai ) = P( Bi ) = lim P( Ai ) = lim P(Ai ) = P(Ai ).
n→∞ n→∞
i∈I i∈I i=1 i=1 i∈N

Probabilidad en caso discreto. Si Ω es numerable Ω se le dota de la


σ−álgebra P(Ω). Una medida de probabilidad está definida por la función de
densidad
P discreta p : Ω → R, ω ∈ Ω → p(ω), que verifica (2): p(ω) ≥ 0 para y
ω∈Ω p(ω) = 1. La medida de probabilidad en (Ω, P(Ω)) está dada por
X
A → P(A) = p(ω) para A ∈ P(Ω).
ω∈A

Ella es una medida de probabilidad pues toma valores en [0, 1], P(Ω) = 1 y es
σ−aditiva pues para una familia disjunta (An : n ∈ N) ⊆ P(Ω) se cumple
!
X X X
p(ω) = p(ω).
n∈N ω∈An ω∈∪n∈N An

Notemos que se cumple P({ω}) = p(ω) para ω ∈ Ω. 

26
4 Probabilidad Condicional
De ahora en adelante (Ω, B, P) es un espacio de probabilidad fijo.
Definición 12. Sean A, C ∈ B con P(C) > 0. La probabilidad condicional
de A dado C es
P(A ∩ C)
P(A | C) = . (8)
P(C)


La probabilidad condicional de A dado C correponde a medir la probabilidad


de la parte de A contendida en C siendo normalizada por la probabilidad de C.
Muchas veces se dice la probabilidad de A dado que ocurrió C. Como veremos
en la Proposición 13, cuando hacemos A variar en B (o en la clase de eventos
contenidos en B) la probabilidad condicionada a C corresponde a medir las
probabilidades en un nuevo universo dado por C.
Las propiedades siguientes son satisfechas:
· Si P(C) = 1 entonces P(A | C) = P(A) para todo A ∈ B;
· P(C | C) = 1 y en general P(A | C) = 1 si y solo si P(C \ A) = 0 (pues
P(C) = P(C ∩ A) + P(C \ A));
· Si A ⊆ C entonces P(A | C) = P(A)/P(C).
· A partir de (8) se tiene
P(A∩C) = P(A | C)P(C) si P(C) > 0, P(A∩C) = P(C | A)P(A) si P(A) > 0. (9)
Por lo que si P(A) > 0 y P(C) > 0 se tiene
P(A)
P(A | C) = P(C | A) .
P(C)
· Si (An : n ∈ N) ⊆ B es una familia disjunta, entonces es directo mostrar que
[ X
P( An C) = P(An C).
n∈N n∈N

La probabilidad condicional con respecto a un conjunto C ∈ B con P(C) > 0 es


de hecho una medidad de probabilidad siendo el conjunto C el nuevo universo.
Para dar rigurosidad a este enunciado introduzcamos el concepto de σ−álgebra
inducida.
En todo conjunto C ∈ B no vacı́o, B induce la σ−álgebra
B ∩ C = {A ∈ B : A ⊆ C},
que es la clase de los eventos de B contenidos en C. Ella satisface,
B ∩ C = {A ∩ C : A ∈ B}.
Ası́ pues (C, B ∩ C) es un espacio medible y se llama el inducido por B en C.

27
Proposición 13. Sea C ∈ B con P(C) > 0. Entonces
P(· | C) : B ∩ C → [0, 1], A → P(A | C)

es una medida de probabilidad en el espacio inducido (C, B ∩ C). Ella se llama


medida de probabilidad condicionada a C.

Prueba: Notemos que si A ∈ B ∩ C entonces P(A | C) = P(A)/P(C) pues


A = A ∩ C (ya que A ⊆ C)..
Resulta claro que P(· | C) : B ∩ C → [0, 1] es una función bien definida. Además,

P(C | C) = 1
S
y si (An : n ∈ N) ⊆ B ∩ C es una familia disjunta, se tiene P(
P n∈N An ) =
n∈N P(An ) y como An = An ∩ C (pues An ⊆ C) se tiene
[ X
P( An | C) = P(An | C). 
n∈N n∈N

Ejercicio 3. En el lanzamiento de un dado equilibrado consideremos el evento


que el lanzamiento es par, es decir que pertenezca a C = {2, 4, 6}. Se tiene
P(C) = |C|/6 = 1/2. Se cumple que B = P(I6 ) y B ∩ C = P(C) el conjunto
de todas las partes de C = {2, 4, 6}, ya que la familia de subconjuntos de I6
que están contenidos en C son todos los subconjuntos de C. Para A ∈ P(C) la
probabilidad condicional de A con respecto a C es

|A|/|6| |A|
P(A | C) = P(A)/P(C) = = ,
|C|/|6| |C|

que es la probabilidad uniforme en el conjunto de los pares. 

A partir de (9), para A, B, C ∈ B con P(B ∩ C) > 0 se tiene

P(A ∩ B ∩ C) = P(A | B ∩ C)P(B ∩ C) = P(A | B ∩ C)P(B | C)P(C).

Y en general, se tiene la siguiente descomposición:


T 
k
Proposición 14. Sean A1 , .., Ak ∈ B con k ≥ 2 y tal que P r=1 Ar > 0.
Entonces, se cumple
k
\ k
\
P (A1 ∩ A2 ∩ .... ∩ Ak ) = P(A1 As ) · P(A2 As ) · · · P(Ak−1 Ak )P(Ak ) ,
s=2 s=3
k−1
\ k−2
\
P (A1 ∩ A2 ∩ .... ∩ Ak ) = P(Ak As )P(Ak−1 As ) · · · P(A2 A1 )P(A1 ),
s=1 s=1

28
o escrito de manera más compacta,
k
! k k
!
\ Y \
P Ar = P Ar As y
r=1 r=1 s=r+1
k
! k−1 k−r−1
!
\ Y \
P Ar = P Ak−r As ,
r=1 r=0 s=1
 Tk   T0 
donde hemos notado P Ak | s=k+1 As = P(Ak ), P A1 | s=1 As = P(A1 ).

Prueba: Las dos fórmulas del enunciado son equivalentes pues correponden
simplemente a una distinta reenumeración de los conjuntos. Probemos la primera,
lo que haremos por un método inductivo. Ası́,
k
! k−1
! k−1
! k−1
!
\ \ \ \
P Ar = P Ak ∩ Ar = P Ak Ar P Ar ,
r=1 r=1 r=1 r=1

y en el paso final se usa P(A2 ∩ A1 ) = P(A2 | A1 )P(A1 ) obteniendose la fórmula


deseada
k
! k−1
! k−2
!
\ \ \
P Ar = P Ak Ar P Ak−1 Ar ...P(A2 A1 )P(A1 ). 
r=1 r=1 r=1

El ejercicio siguiente es directo:


Ejercicio 4. Si se tiene P(A | C1 ) = ... = P(A | Ck ) y C1 , .., Ck disjuntos,
entonces
[k
P(A | Ci ) = P(A | C1 ) = ... = P(A | Ck ).
i=1

Para probarlo notemos α = P(A | Ci ) para i = 1, ..., k. Entonces P(A ∩ Ci ) =


αP(Ci ). Ahora usamos que los Ci son disjuntos por lo que sumando se ob-
Sk Sk Sk
tiene P(A ∩ i=1 Ci ) = αP( i=1 Ci ) y dividiendo por P( i=1 Ci ) concluı́mos el
resultado. 

Fórmula de Bayes. Consideremos I un conjunto numerable y (Ai : i ∈ I) una


partición, esto (Ai : i ∈ I) ⊆ B y se satisface
[
Ai ∩ Aj = ∅ si i 6= j, Ai = Ω.
i∈I

Observemos que si (Ai : i ∈ I) es una P−partición, esto es se cumple las


propiedades de partición salvo conjuntos P-nulos,
[
P(Ai ∩ Aj ) = 0 si i 6= j, P( Ai ) = 1.
i∈I

29
entonces todo las propiedades que veremos para una partición tambien son sat-
isfechas por una P−partición.
Supondremos que los conjuntos de la partición satisfacen P(Ai ) > 0 para todo
i ∈ I pues un conjunto P-nulo se puede sacar de la P−partición.
S Sea C ∈ B. Al
intersectar C con ambos términos de la igualdad Ω = i∈I Ai se obtiene
[
C= C ∩ Ai
i∈I

sienbo la unión disjunta. Y se cumple la llamada Fórmula de Probabilidades


Totales: X
∀C ∈ B : P(C) = P(C ∩ Ai ),
i∈I

o equivalentemente X
P(C) = P(C | Ai )P(Ai ). (10)
i∈I

(En el Ejercicio 5 se ve una aplicación de ella.)


Siguiendo con lo anterior se tiene P(C ∩ Aj ) = P(C | Aj )P(Aj ) y en caso en que
P(C) > 0 se obtiene la llamada:
P(C | Aj )P(Aj )
Fórmula de Bayes: P(Aj | C) = P .
i∈I P(C | Ai )P(Ai )

Ejercicio 4’. Consideremos una urna con N bolas, de las cuales M son blancas
y N − M son negras. Hagamos el siguiente expermento: saquemos al azar un
conjunto de k bolas de la urna, y enseguida, de este conjunto saquemos al azar
una bola. Probemos que la probabilidad de que esta bola sea blanca es M/N ,
es decir es la misma probabilidad de ser blanca que si de la urna hubieramos
extraı́do una bola al azar.
Notemos por Y el conjunto de k bolas extraı́das al azar y notemos por X el
color de la bola extraı́da al azar del conjunto Y . Notemos por A el evento X es
bola blanca y Bl el evento Y contiene l bolas blancas. Se tiene
l
P(A | Bl ) = .
k
Por probabilidades totales se tiene
k k

M N −M

X X l l k−l
P(A) = P(A ∩ Bl )P(Bl ) = N

k k
l=0 l=0
k

M −1 N −1−(M −1)

M X l−1 k−1−(l−1) M
= ) N −1
 = .
N k−1
N
l=1

30
Ejercicio 4”. Se dispone de n monedas, numeradas de M1 a Mn . La moneda
Mi tiene probabilidad pi de ser Cara. Supongamos que el experimento es: se
escoge una moneda ’al azar’ (es decir uniformemente entre las n monedas).
Cuál es la probabilidad que si esta se lanza salga Cara? Para ello notemos ξ
el indice de la moneda escogida. Este es un número aleatorio entre 1 y n con
P(ξ = i) = 1/n para i ∈ In . Observemos que
({ξ = i} : i ∈ In ) es una partición
pues {ξ = i} ∩ {ξ = j} = ∅ si i 6= j y Ω = {ξ ∈ In }. El evento considerado
es {Mξ = Cara}. Luego, por fórmula de probabilidades totales y tomando
C = {Mξ = Cara}, Ai = {ξ = i} se obtiene:
X X
P(C) = P(C | Ai )P(Ai ) = P(Mξ = Cara | ξ = i)P(ξi = i)
i∈In i∈In
X n
1 1X
= pi = pi .
n n i=1
i∈In

Un cálculo más detallado de la probabilidad condicional de arriba es


P(Mξ = Cara | ξ = i) = P(Mξ = Cara, ξ = i)P(ξ = i)
= P(Mi = Cara, ξ = i)P(ξ = i) = P(Mi = Cara)P(ξ = i)P(ξ = i) = pi .

Ejercicio 5. Considere el concurso siguiente: hay n puertas, una de ellas da a


un cuarto conteniendo un tesoro y las n − 1 restantes a un cuarto vacı́o. Hay n
participantes, a cada uno de ellos se le asigna ’al azar’ un número distinto entre
1 y n, y de manera secuencial de acuerdo al orden asignado cada participante
abre una puerta distinta, hasta el momento en que uno de ellos encuentra el
tesoro. Pruebe que todos los candidatos tienen la misma probabilidad 1/n de
ganar el tesoro.
Probemoslo por inducción. Para n = 1 es evidente. Tomemos n > 1 y supong-
amos que lo hemos probado hasta n − 1, mostremoslo para n. El participante 1
tiene probabilidad 1/n de obtener el tesoro y (n − 1)/n de no obtenerlo. Si la
puerta que abre no contiene el tesoro, quedan n − 1 participantes con un orden
asignado para abrir las n − 1 restantes puertas donde solo una de ellas tiene
el tesoro. Este es el mismo cuadro con n − 1, luego por inducción, cada uno
de ellos tiene la misma probabilidad 1/(n − 1) de abrir la puerta con el tesoro.
Luego, por este argumento inductivo anterior se tiene para todo i ∈ {2, .., n},
P(i gana tesoro) = P(i gana tesoro | 1 no gana tesoro)P(1 no gana tesoro)
+ P(i gana tesoro | 1 gana tesoro)P(1 gana tesoro)
1 (n − 1) 1 1
= · +0· = .
n−1 n n n
Esto prueba el resultado. Observe que hemos usado la relación de probabilidades
totales (10) con los conjuntos siguientes: I = {1, 2}, A1 = {1 no obtiene tesoro)},
A2 = {1 obtiene tesoro)}, C = {i obtiene tesoro}. 

31
Ejercicio 6. (Problema de Monty-Hall). En un concurso hay tres puertas, sólo
detrás de una de ellas hay un premio y las otras dos están vacı́as. Quién anima
el concurso conoce la puerta que contiene el premio. Un concursante busca
escoger la puerta que contiene el premio, y para ello elige al azar una de las
tres puertas. Antes de chequear si ella contiene el premio, el animador abre una
de las otras dos puertas mostrandole al concursante que ella esta vacı́a y acto
seguido le ofrece al concursante la posibilidad de cambiar la puerta elegida por
la puerta que el animador no abrió. Conviene al concursante hacer éste cambio?
Resolvamoslo.
Notemos por {−1, 0, 1} las tres puertas, siendo 0 la puerta que tiene el premio.
El conjunto muestral lo definiremos por Ω = {−1, 0, 1}×{−1, 1}, donde la pareja
(ω1 , ω2 ) ∈ Ω significa que la puerta ω1 es la puerta escogida por el concursante
y ω2 es la puerta abierta por el animador, la que está vacı́a y por ello no es
0. La probabilidad P en Ω se define de la manera siguiente: fijemos q ∈ (0, 1),
luego P está definida por
1 1 1 1
P{(0, −1)} = q · , P({(0, 1)}) = (1 − q) · , P{(1, −1)} = , P{(−1, 1)} = .
3 3 3 3
Y esto significa que condicionalmente a que el concusante elija ω1 , el animador
abre una de las dos puertas ω2 = 1 ó ω2 = −1 (ambas están vacı́as) con prob-
abilidad q y 1 − q respectivamente. Si el concursante elige una puerta vacı́a
ω1 ∈ {−1, 1} el animador abre la puerta ω2 = −ω1 pues esta debe estar vacı́a.
La puerta ω1 escogida por el concursante verifica P(ω1 = i) = 1/3 para i ∈
{−1, 0, 1}. Sean ω2 , ω3 las otras dos puertas. La puerta ω2 abierta por el
animador esta vacı́a, y notamos por ω3 la puerta que no se abre y que se ofrece
al concursante para ser intercambiada por ω1 . Se tiene {ω1 , ω2 , ω3 } = {−1, 0, 1}
luego P(ω1 = 0) + P(ω2 = 0) + P(−ω2 = 0) = 1. Como P(ω1 = 0) = 1/3 y
P(ω2 = 0) = 0, deducimos P(ω3 = 0) = 2/3, luego al concursante le conviene
intercambiar ω3 por ω1 . 

32
5 Independencia
Fijemos el espacio de probabilidad (Ω, B, P).

Definición 15. Se dice que A, B ∈ B son P−independientes si P(A ∩ B) =


P(A)P(B).

Propiedad 16. (a) Todo conjunto A ∈ B de probabilidad 0 ó 1 es indepen-


diente de todo conjunto B ∈ B.
(b) Un conjunto A ∈ B es independiente de sı́ mismo si y solo si P(A) = 0 ó
P(A) = 1.

Prueba: (a) La igualdad P(A ∩ B) = P(A)P(B) se cumple siendo igual a 0 si


P(A) = 0 y a P(B) si P(A) = 1. 
(b) A es independiente de A si y solo sı́ P(A ∩ A) = P(A)P(A), esto es si
P(A) = P(A)2 y se deduce que esto ocurre si y solo si P(A) = 0 ó P(A) = 1.
Observemos que si A, B ∈ B son disjuntos y ambos de probabilidad no-nula,
entonces no pueden ser independientes pues 0 = P(A ∩ B) 6= P(A)P(B).
Si P(B) > 0 se tiene que A, B son P−independientes si y solo si P(A | B) = P(A).

Ejercicio 7. Consideremos el lanzamiento de dos dados independientes, lo que


se modela por Ω = I62 y la probabilidad P{(i1 , i2 )} = 1/36 para (i1 , i2 ) ∈ Ω. Sea
Yl : Ω → I6 , (i1 , i2 ) → il para l = 1, 2. Sean C1 , C2 dos subconjuntos cualquiera
de I6 . Se tiene que los eventos A1 = {(i1 , i2 ) : i1 ∈ C1 } y A2 = {(i1 , i2 ) : i2 ∈
C2 } son P−independientes. En efecto

A1 = {(i1 , i2 ) : i1 ∈ C1 } = C1 × I6 , A2 = {(i1 , i2 ) : i2 ∈ C2 } = I6 × C2 .

Luego
1 1 1 1
P(A1 ∩ A2 ) = |A1 ∩ A2 | = |C1 × C2 | = |C1 | · |C2 | = P(A1 )P(A2 ).
36 36 6 6

Proposición 17. Si A, B son P−independientes entonces las siguientes


parejas de conjuntos A, B c ; Ac , B; y Ac , B c ; también son P−independientes.

Prueba: Sean A, B P−independientes, basta probar que A, B c son P−independientes.


Se tiene

P(A∩B c ) = P(A)−P(A∩B) = P(A)−P(A)P(B) = P(A)(1−P(B)) = P(A)P(B c ).

33
De la la Proposición 17 se tiene la equivalencia

A1 , A2 son P−independientes si y solo si


P(B1 ∩ B2 ) = P(B1 )P(B2 ) para B1 = A1 ó Ac1 , B2 = A2 ó Ac2 .

Inspirados por esta relación hacemos la siguiente definición de independencia de


más de dos conjuntos:

Definición 18. La familia de conjuntos A1 , A2 , ..., Ak ∈ B con k ≥ 2 es


P−independiente si y solo si
k
\ k
Y
P( Bl ) = P(Bl ),
l=1 l=1

siendo B1 , .., Bk tal que Br = Ar ó Br = Acr para r = 1, .., k.


Cuando P está clara del contexto se dice que A1 , ..., Ak son independientes ó
independientes conjuntamente. 
T  Q
k k
En particular esto implica que necesariamente se cumple P l=1 Al = l=1 P(Al ).
Sin embargo está condición no es suficiente para la independencia en el caso
k > 2.

De la definicón de independencia se tiene directamente:

Propiedad 19. Sea k ≥ 2. Se tiene que A1 , A2 , ..., Ak ∈ B son P−independiente


si y solo si para cualquier (y para toda) familia B1 , .., Bk son independientes,
con Br = Ar ó Br = Acr para r = 1, .., k. 

Ejemplo Ia. Los conjuntos A1 , A2 , A3 son P−independientes si se cumple

P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ), P(A1 ∩ A2 ∩ Ac3 ) = P(A1 )P(A2 )P(Ac3 ),


P(A1 ∩ Ac2 ∩ A3 ) = P(A1 )P(Ac2 )P(A3 ), P(A1 ∩ Ac2 ∩ Ac3 ) = P(A1 )P(Ac2 )P(Ac3 ),
P(Ac1 ∩ A2 ∩ A3 ) = P(Ac1 )P(A2 )P(A3 ), P(Ac1 ∩ A2 ∩ Ac3 ) = P(Ac1 )P(A2 )P(Ac3 ),
P(Ac1 ∩ Ac2 ∩ A3 ) = P(Ac1 )P(Ac2 )P(A3 ), P(Ac1 ∩ Ac2 ∩ Ac3 ) = P(Ac1 )P(Ac2 )P(Ac3 ).

Tk
Propiedad 20. Si A1 , ..., Ak son independientes con P( r=1 Ar ) > 0, en-
tonces para Br = Ar ó Br = Acr , r = 1, ..., k, tal que P(Br ) > 0 se tiene:
k−1
\
P(Bk | Br ) = P(Bk )
r=1

34
Tk Qk Tk−1 Qk−1
Prueba: Resulta de P( r=1 Br ) = r=1 P(Br ) y P( r=1 Br ) = r=1 P(Br ).


Se tiene la equivalencia:

Proposición 21. Los conjuntos A1 , A2 , ..., Ak ∈ B siendo k ≥ 2, son P−independientes


si y solo si para toda subfamilia Ai1 , .., Ais con 1 ≤ i1 < i2 < .. < is ≤ k, s ≥ 2,
se tiene !
\s Ys
P Air = P(Air ).
r=1 r=1

Prueba: Asumamos A1 , A2 , ..., Ak son P−independientes. Sea 1 ≤ i1 < .. <


is ≤ k, con s ≥ 2, y notemos K = {i1 , .., is }. Por independencia se tiene
s
\ \ s
Y Y
P( Air ∩ Bl ) = P(Air ) × P(Bl ),
r=1 l6∈K r=1 l6∈K
P
donde Bl = Al ó Bl = Acl . Luego haciendo la suma l6∈K:Bl =Al ,Bl =Acl obten-
emos la igualdad
s
\ s
Y
P( Air ) = P(Air ).
r=1 r=1

por lo que la condición es necesaria.


Probemos que la condición es suficiente. Tomemos Bl = Al ó Bl = Acl , para
l = 1, .., k, debemos probar que
k
! k
\ Y
P Bl = P(Bl ).
l=1 l=1

Esto lo haremos por inducción sobre ℓ = |L|, siendo L = {l ∈ {1, .., k} : Bl =


Acl }. Observemos que necesariamente se tiene Bl = Al si l 6∈ L. Notemos que si
ℓ = 0 el resultado se tiene por hipótesis. Supongamos que se ha probado para
0 ≤ ℓ < k, probemoslo para ℓ + 1. Reenumerando los conjuntos basta probarlo
para L = {1, .., ℓ + 1}, es decir debemos probar
ℓ+1 k
! ℓ+1 k
\ \ Y Y
c
P Al ∩ Al = P(Acl ) × P(Al ).
s=1 l=ℓ+2 l=1 l=ℓ+2

Ahora bien se tiene


ℓ+1 k ℓ k
! ℓ k
!
\ \ \ \ \ \
Acl ∩ Al = Acl ∩ Al \ Acl ∩ Al .
l=1 l=ℓ+2 l=1 l=ℓ+2 l=1 l=ℓ+1

35
Por hipotesis de inducción sobre ℓ se obtiene
ℓ+1 k
! ℓ k ℓ r
\ \ Y Y Y Y
c
P (Al ) ∩ Ak = P(Acl ) P(Al ) − P(Acl ) P(Al )
l=1 l=ℓ+2 l=1 l=ℓ+2 l=1 l=ℓ+1

Y k
Y ℓ+1
Y k
Y
= P(Acl )(1 − P(Aℓ+1 )) P(Al ) = P(Acl ) P(Al ).
l=1 l=ℓ+2 l=1 l=ℓ+2

Lo que da el resultado. 

Ejemplo Ib. Los conjuntos A1 , A2 , A3 son P−independientes si se cumple

P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ), P(A1 ∩ A2 ) = P(A1 )P(A2 ),


P(A1 ∩ A3 ) = P(A1 )P(A3 ), P(A2 ∩ A3 ) = P(A2 )P(A3 ).

Esto es, las ocho igualdades que caracterizan la P−independencia de A1 , A2 , A3


dadas en el Ejemplo Ia se reducen a las cuatro igualdades dadas en el Ejemplo
Ib. 

De la última proposición se obtiene directamente:

Propiedad 22. Si los conjuntos A1 , A2 , ..., Ak ∈ B con k ≥ 2, son P−independientes


entonces cualquier subfamilia Ai1 , .., Air con 1 ≤ i1 < i2 < .. < ir ≤ k y r ≥ 2,
también es P−independiente.

De la definición 18 y de la Proposición 21 se tiene que si A1 , A2 , ..., Ak ∈ B son


P−independientes entonces para todo 1 ≤ i1 < i2 < .. < is ≤ k con s ≥ 2 y
para Bi1 = Ai1 ó Bi1 = Aci1 para r = 1, ..., s se tiene
s
! s
\ Y
P Bir = P(Bir ).
r=1 r=1

Definición 23. Se dice que A1 , A2 , ..., Ak ∈ B son independientes de a pares


si se cumple

∀1 ≤ i, j ≤ k, i 6= j : P(Ai ∩ Aj ) = P(Ai )P(Aj ).

Por la propiedad 22 se tiene que si A1 , A2 , ..., Ak ∈ B son P−independientes


entonces son idnependientes de a pares. Pero, salvo en el caso k = 2, la inde-
pendencia de a pares no equivale a la independencia para k > 3.

Ejercicio 8. En el lanzamiento de dos dados independientes consideremos los


eventos: Al = {(i1 , i2 ) ∈ Ω : il es par} para l = 1, 2, y C = {(1, 1), (6, 6)}.

36
Entonces A1 , A2 , C son independientes de a pares (esto es los pares A1 , A2 ;
A1 , C; A2 , C; son independientes), pero A1 , A2 , C no son independientes.
En efecto P(A1 ) = 1/2 = P(A2 ), P(C) = 1/18, P(A1 ∩ A2 ) = {(i1 , i2 ) ∈ Ω :
i1 , i2 son pares} = 9/36 = 1/4. Además A1 ∩ C = A2 ∩ C = A1 ∩ A2 ∩
C = {(6, 6)} por lo que P(A1 ∩ C) = P{(6, 6)} = P(A2 ∩ C) = 1/36 y se
tiene la independencia de a pares. Pero P(A1 ∩ A2 ∩ C) = 1/36 6= 1/64 =
P(A1 )P(A2 )P(C) por lo que no se tiene la independencia. Esto se ve en la
relación: P(A1 | A2 ∩ A3 ) = 1 6= 1/2 = P(A1 ).
Para ilustrar que A1 , A2 , C no son independientes, se tiene que

P(A2 ∩ A1 ∩ C) P({(6, 6)})


P(A2 | A1 ∩ C) = = =1
P(A1 ∩ C) P({(6, 6)})

esto es ella es diferente a P(A2 ) = 1/2, lo que por la propiedad 20 implica que
A1 , A2 , C no son independientes. 

37
6 Variables aleatorias
Observemos que ada vez que se juega un nuevo juego de dados hemos cambiado
de espacio de probabilidad, en efecto si se juegan k juegos de dados consideramos
el espacio de probabilidad dado por Ω = I6k con la medida de probabilidad
dada por la densidad discreta p((ω1 , ..., ωk ) = 1/6k . Sin embargo esta forma
de modelar los juego por una parte no nos da agilidad para poder combinar
resultados y peor aún no permite considerar juegos donde deba considerarse un
número de juegos que no esten determinados a priori, por ejemplo esto ocurre
para dos jugadores con ciertas fortunas iniciales, en que jueguen hasta que uno
de los dos haya perdido todo.
En lo que sigue modelaremos los juegos considerando un solo espacio de prob-
abilidad (Ω, B, P) y los distintos juegos 1, 2, ... corresponden a funciones, que se
llaman aleatorias, con dominio en Ω y que toman valores en R, en este caso
I6 = {1, ..., 6}. Hagamos más rigurosa esta forma de modelar.

De aquı́ en adelante (Ω, B, P) es un espacio de probabilidad que permanece fijo.


las variables que modelaremos son del tipo
X : Ω → R, ω → X(ω)
y observaremos los resultados que toman en R. En el caso de un juego de dados
la variable toma un número finito de valores, pero hay otras que pueden tomar
un continuo de valores, por ejemplo la temperatura que se tendrá en un lugar
dado en un instante de tiempo dado.
Nosotros buscaremos calcular las probabilidades que la variable toma en un
conjunto especı́fico, por ejemplo la probabilidad que X ≤ x0 para x0 un valor
real fijado. Es decir lo que queremos es conocer la probabilidad de {ω ∈ Ω :
X(ω) ≤ x0 }, es decir calcular P({ω ∈ Ω : X(ω) ≤ x0 }). Pero para ello se
requiere que el conjunto en cuestión sea un evento, es decir que {ω ∈ Ω :
X(ω) ≤ x0 } ∈ B.

6.1 Definición y Propiedades


Definición 24. X : Ω → R es variable aleatoria (v.a.) a valores en R si
∀C ∈ B(R) : {ω ∈ Ω : X(ω) ∈ C} ∈ B,
Notamos {X ∈ C} = {ω ∈ Ω : X(ω) ∈ C}, por lo que X : Ω → R es v.a. si se
tiene {X ∈ C} ∈ B para todo C ∈ B(R). Pero basta que esto se cumpla para
los intervalos semi-infinitos, esto es, Se tiene
X : Ω → R es v.a. ⇔ {X ≤ x} ∈ B ∀ x ∈ R.
(La demostración de ello se encuentra en el Lema 113 del Apéndice 19). Notemos
que {X ≤ x} = {X ∈ (−∞, x]. En lo que sugue tambien notamos {X = a} =
{ω ∈ Ω : X(ω) = a} (también los notaremos (X ≤ x), (X = a)).

38
Nota 6. Sea X : Ω → R una función. Se tiene que {ω ∈ Ω : X(ω) ∈ C} =
X −1 (C) es la imagen inversa de C. La familia de todos los conjuntos es

X −1 (B(R)) = {X −1 (C) : C ∈ B(R)},

es una σ−álgebra en Ω pues la imagen inversa X −1 preserva complementos y


uniones numerables. Luego X es v.a. si X −1 (B(R)) ⊆ B. En este caso se dice
que X −1 (B(R)) es la σ−álgebra de eventos dependiendo de la v.a. X. 

Propiedades de variables aleatorias.

Propiedad 25. Sean X, Y v.a.’s y (Xn : n ∈ N) una sucesión de v.a.’s.


Entonces:

• (i) Para a, b ∈ R se tiene aX + bY es v.a. (linealidad) donde aX + bY :


Ω → R, ω → aX(ω) + bY (ω);

• (ii) max(X, Y ), min(X, Y ) son v.a.’s (reticulado) donde max(X, Y ) : Ω →


R, ω → max(X(ω), Y (ω)), lo mismo para min;

• (iii) X · Y es v.a. y si Y 6= 0 entonces X/Y es v.a.;

• (iv) inf n∈N Xn y supn∈N Xn son v.a.’s tomando valores en R ∪ {−∞} y


R∪{+∞} respectivamente, donde inf n∈N Xn : Ω → R, ω → inf n∈N Xn (ω),
lo mismo para sup;

• (v) lim inf Xn , lim sup Xn son v.a.’s aleatorias tomando valores en R ∪
n∈N n∈N
{−∞} y R ∪ {+∞} respectivamente;

• (vi) Si el lı́mite lim Xn existe, entonces lim Xn es v.a.


n→∞ n→∞

La propiedad (ii) sigue de

{max(X, Y ) ≤ x} = {X ≤ x} ∩ {Y ≤ x} ∈ B,
{min(X, Y ) ≥ x} = {X ≥ x} ∩ {Y ≥ x} ∈ B.

Las relaciones (iv) resulta de


\ \
{ inf Xk ≥ x} = {Xk ≥ x} ∈ B, {sup Xk ≤ x} = {Xk ≤ x} ∈ B.
k∈N k∈N
k∈N k∈N

Esto y las igualdades siguientes


   
lim inf Xk = sup inf(sup Xk , lim sup Xk = inf sup Xk ,
k→∞ n∈N k≥n k→∞ n∈N k≥n

nos dan (v). De aquı́ se deduce (vi).

39
Por otra parte es directo mostrar que,

X v.a., α ∈ R ⇒ α X v.a.. (11)

Si α = 0 se tiene α X = 0 v.a. constante. Si α > 0 entonces {αX ≤ x} = {X ≤


x/α}, y si α < 0 se tiene {αX ≤ x} = {X ≥ x/α}, de donde concluı́mos (11).
En particular se tiene X v.a. implica −X es v.a.. Para probar las propiedades
(i) y (iii) es importante introducir las v.a.’s simples que son aquellas que toman
un conjunto finito de valores.
V.a. constante. La constante Xa ≡ a es dada por Xa : Ω → R, Xa (ω) = a
para todo ω ∈ Ω. Ella es v.a. pues {ω ∈ Ω : Xa (ω) = a} = Ω ∈ B.

Es útil poder descomponer una v.a. como diferencia de sus partes positiva y
negativa.
Definición 26. Para X : Ω → R, definimos
X + = max(X, 0), X − = max(−X, 0). (12)

Observemos que

X = X + − X − , |X| = max(X + , X − ) = X + + X − . (13)

Como la constante 0 es v.a., de (ii) se deduce que si X es v.a. entionces X y


X son v.a.’s. De nuevo por la propiedad (ii) y usando |X| = max(X + , X − ) se
obtiene que |X| es v.a. cuando X lo es.

Nos gustaria describir las funciones g : R → R tal que si X es v.a. entonces


g ◦ X : Ω → R, ω → g(X(ω)) resulta ser v.a. Con este proposito introducimos
la clase de funciones siguientes.
Definición 27. La función g : R → R es Boreliana si para todo C ∈ B(R)
se tiene {x ∈ R : g(x) ∈ C} ∈ B(R). Para ello es suficiente que se cumpla para
los conjuntos C = (−∞, x], x ∈ R.
La familia de funciones Borelianas satisface analogas propiedades a las v.a.’s,
es decir es cerrada para suma, ponderación, mı́nimo, máximo, supremo, infimo,
lı́mite.
Se puede mostrar que si g : R → R es continua, o continua salvo un conjunto
discreto de discontonuidades, entonces es una función Boreliana. Por ejemplo
g(x) = xl , g(x) = ex , son funciones Borelianas.
Por la definicón resulta que

X : Ω → R v.a., g : R → R Boreliana ⇒ g◦X : Ω → R, ω → g◦X(ω) = g(X(ω)) es v.a.


(14)
En efecto, por definición se tiene que para todo C ∈ B(R) se cumple (g ◦
X)−1 (C) = X −1 (g −1 (C)) ∈ B.

40
6.2 Probabilidad inducida
Definición 28. Sea X : Ω → R v.a., se tiene que
P(X ∈ ·) : B(R) → [0, 1], C → P({X ∈ C}) (15)
define una medida de probabilidad en (R, B(R)) que se dice inducida por X y
que tambien se llama la ley (de probabilidad) de X. Ella es una medidad de
probabilidad pues P(X ∈ R) = 1 y para una familia numerable disjunta de
conjuntos Borelianos (Cn : n ∈ N) ⊂ B(R) se cumple
[ X
P(X ∈ Cn ) = P(X ∈ Cn )
n∈N n∈N

pues los conjuntos ({X ∈ Cn } : n ∈ N) están contenidos en B (por ser X v.a.)


y son disjuntos.
La probabilidad inducida tambien la escribiremos PX , es decir
PX : B(R) → [0, 1], C → XX (C) = P({X ∈ C}). (16)

Diremos que X se distribuye según PX y esto se escribe X ∼ PX .

6.3 Independencia de Variables Aleatorias


Definición 29. Sean X1 , .., Xk variables aleatorias. Diremos que ellas son
inpendientes entre sı́ cuando para toda clase de conjuntos Borelianos C1 , .., Ck ∈
B(R) se tiene
k
Y
P(Xl ∈ Cl , l = 1, ..., k) = P(Xl ∈ Cl ).
l=1

Basta que la igualdad anterior se cumpla para los intervalos Cl = (−∞, xl ], l =


1, .., k, es decir X1 , .., Xk son independientes si y solo si para todo x1 , ..., xk ∈ R
se cumple
k
Y
P(Xl ≤ xl , l = 1, ..., k) = P(Xl ≤ xl ). (17)
l=1
Una familia infinita de v.a.’s (Xi : i ∈ N) se dice independiente si para todo n
finito se tiene que las v.a.’s X1 , ..., Xn son independientes.

Funciones Borelianas de v.a. independientes son independientes. Con-


sidere una familia (Xl : l = 1, ..., k) de v.a.’s independientes y sean gl : R → R
funciones Borelianas. Entonces (gl ◦ Xl : l = 1, ..., k) son v.a. independientes.
En efecto para todo Cl ∈ B(R), l = 1, ..., k, se tiene
k
Y
P(gl ◦ Xl ∈ Cl , l = 1, ..., k) = P(Xl ∈ gl−1 (Cl ), l = 1, ..., k) = P(Xl ∈ gl−1 (Cl ))
l=1
k
Y
= P(gl ◦ Xl ∈ Cl ).
l=1

41
donde en la penúltima igualdad se usa la independencia de X1 , ..., Xk . 
Independencia para familia infinita de v.a.’s. Una familia infinita de v.a.’s
discretas (Xi : i ∈ N) a valores en I se dicen independientes si para todo n finito
se tiene que las v.a.’s X1 , ..., Xn son independientes.

42
7 Variables aleatorias discretas
Recordemos que en la definición 24 dimos la condición para que una función
X : Ω → R sea una v.a. Ellq se llamará discreta si toma valores en un conjunto
numerable de valores, es decir si su conjunto imagen X(Ω) = {X(ω) : ω ∈ Ω}
es numerable. Sea X : Ω → R una función que toma un conjunto numerable de
valores I = X(Ω). Entonces ella es v.a. si y solo si satisface

{X = a} ∈ B para todo a ∈ I. (18)

En efecto, para todo C ∈ B(R) se tiene


[
{X ∈ C} = {X = a}, (19)
a∈C∩I

y como este conjunto es una unión finita de conjuntos en B, deducimos el está


en B. Observemos que puede ser vacı́o cuando C ∩ I = ∅.

Nota 4. Sea I ⊂ R un conjunto numerable y X : Ω → I una función. Para


J ⊆ I, se tiene {X ∈ J} = X −1 (J) = {ω ∈ Ω : X(ω) ∈ J} y la la familia de
conjuntos
X −1 (P(I)) = {X −1 (J) : J ⊆ I},
es una σ−álgebra en Ω pues la imagen inversa X −1 preserva el complemento y
las uniones numerables. Luego la propiedad de que X sea v.a. equivale a decir
que X −1 (P(I)) ⊆ B. En este caso se dice que X −1 (P(I)) es la σ−álgebra de
eventos dependiendo de la v.a. X. 

Las v.a. discretas X que toman un número finito de valores, es decir tal que su
rango X(Ω) es finito, se les llama v.a. simples. Ejemplos de v.a. simples son
las v.a. constantes y las v.a. indicadoras.

Las funciones indicadoras Para A ⊆ Ω su función indicadora 1A : Ω → {0, 1}


es definida por (
1 si ω ∈ A,
1A (ω) =
0 si ω 6∈ A.
Se tiene que X = 1A es una v.a. (a valores en I = {0, 1} si y solo si A ∈ B. En
efecto si esto se satisface se tiene {X = 1} = A ∈ B, {X = 0} = Ac ∈ B por ser
B cerrada por complemento. Ello tambien nos dice que la condición de v.a. se
cumple solo en el caso A ∈ B.
Observemos que 1Ω donde 1Ω (ω) = 1 para todo ω ∈ Ω por lo que la v.a constante
Xa se escribe Xa = a 1Ω .
Sea X : Ω → R v.a. discreta con I = X(Ω) (numerable). Observemos que al
tomar
{X = a} = {ω ′ ∈ Ω : X(ω ′ ) = a} ∈ B, a ∈ I,

43
la v.a. X discreta puede ser escrita en términos de indicadoras como sigue
X
X= a 1{X=a} . (20)
a∈I

Esta igualdad se muestra como sigue: para ω0 ∈ Ω tomemos a0 = X(ω0 ) ∈ I.


Entonces 1{X=a} )(ω0 ) = P 1 si y solo si a = a0 (para todo a 6= a0 se tiene
1{X=a} )(ω0 ) = 0). Luego a∈I a 1{X=a} (ω0 ) = a0 = X(ω0 ) y esto es para todo
ωo ∈ Ω, de donde se tiene la igualdad de funciones (103).
Las propiedades de variables aleatorias discretas son las establecidas para las
v.a.’s generales enunciadas en la Propiedad 25. Notemos que si X, Y son v.a.’s
discretas y a, b ∈ R, entonces es directo de verificar que tambien lo son aX + bY ,
max(X, Y ),min(X, Y ), X · Y y X/Y cuando Y 6= 0.

Nota 5. Si X, Y son v.a.’s discretas podemos suponer que su conjunto de


llegada es el mismo, en efecto si X : Ω → I, Y : Ω → J entonces X : Ω → I ∪ J,
Y : Ω → I ∪ J, siendo I ∪ J conjunto numerable. Esto tambi’en vale si se tiene
una familia numerable de v.a. discretas (Xl : l ∈ L) siendo L finito ó numerable
S En efecto, si Xl : Ω → Il para l ∈ L, entonces Xl : Ω → K siendo
infinito.
K = l′ ∈L Il′ un conjunto numerable.

Si X : Ω → I es v.a. discreta entonces ella induce la medida de probabilidad en


R que fue introducida en la Definición 28 y que pueden verse en (15) y (16). En
este caso se tiene PX (I) = P(X ∈ I) = 1 y ella está dad por la densidad discreta
P = a), a ∈ I. Ella es una densidad
pX (a) = P(X S discreta pues pX (a) ≥ 0 para
a ∈ I, y a∈I pX (a) = 1, esto último pues i∈I {X = i} = {X ∈ I} = Ω.
Notemos que
X X
∀J ⊆ I : P(X ∈ J) = P(X = i) = pX (i).
i∈J i∈J

Ası́ pues, una variable discreta X está caracterizada por su conjunto de llegada
I y por la densidad discreta pX . Diremos que X se distribuye según pX y esto
se escribe X ∼ pX .

Proposición 30. Consideremos X : Ω → I una v.a. discreta y g : I → R


una función. El conjunto imagen de I por g es notado J = g(I). Entonces
Y = g ◦ X = g(X) : ω → Y (ω) = g(X(ω)) es una v.a. discreta a valores en J y
su densidad discreta pY está dada por: para b ∈ J = g(I),
X X
pY (b) = P(Y = b) = P(g(X) = b) = P(X = a) = pX (a).
a∈I:g(a)=b a∈I:g(a)=b

S
Prueba: Es directa pues {g(X) = b} = a∈I:g(a)=b {X = a} y la unión es
disjunta.

44
Ejemplo 1.1. Consideremos X la v.a. que es el resultado del lanzamiento de un
dado equilibrado, en este caso I = I6 = {1, ..., 6} y pX (i) = 1/6 para i ∈ I6 .
Supongamos que g : I6 → R con g(i) = 1 si i es par y g(i) = 0 si i es impar.
Entonces J = g(I) = {0, 1} y la v.a. Y = g ◦ X es tal que Y (ω) = g(X(ω)) = 1
si el valor del dado X(ω) es par y Y (ω) = 0 si el valor X(ω) es impar. Luego
pY (1) = pX (2) + pX (4) + pX (6) = 1/2, pY (0) = pX (1) + pX (3) + pX (5) = 1/2,
asi que Y corresponde al lanzamiento de una moneda equilibrada.

Independencia de Variables Aleatorias Discretas. Sean X1 , .., Xk vari-


ables aleatorias discretas a valores en I. La definición 29 de independencia de
v.a.’s puede escribirse de manera más directa cuando X1 , .., Xk son v.a. discre-
tas. En este caso ellas son independientes entre sı́ cuando para toda k−tupla
de elementos i1 , .., ik en I se tiene
k
Y
P(Xl = il , l = 1, ..., k) = P(Xl = il ),
l=1

(esto es P(X1 = i1 , X2 = i2 , ..., Xk = ik ) = P(X1 = i1 )P(X2 = i2 ) · · · P(Xk =


ik )).
Hemos notado pXl (i) la densidad discreta de la v.a. Xl para l = 1, .., k. Si
escribimos pX1 ...Xk (i1 , .., ik ) = P(Xl = il , l = 1, ..., k) la densidad discreta del
conjunto de variable (X1 , .., Xk ) : Ω → I k , ω → (X1 (ω), ..., Xk (ω)), podemos
escribirla la independencia como,
k
Y
pX1 ...Xk (i1 , .., ik ) = pXl (il ) para todo i1 , .., ik ∈ I.
l=1

Ejemplo 2. Consideremos X la v.a. que es el resultado del lanzamiento de


un dado, en este caso I = {1, ..., 6}. Si el dado es equilibrado su densidad
discreta es la uniforme pX (i) = P(X = i) = 1/6 para i = 1, ..., 6. Si X1 , X2 son
los resultados de dos lanzamientos independientes de un dado, la condición de
independencia es P(X1 = i, X2 = j) = P(X1 = i)P(X2 = j) para i, j = 1, ..., 6, y
como las densidades son uniformes se tiene P(X1 = i, X2 = j) = (1/6)2 = 1/36.
Luego la densidad discreta pX1 ,X2 de la pareja de dados (X1 , X2 ) es la uniforme
pX1 ,X2 (i, j) = 1/36 en I 2 = {1, ..., 6}2 . 

Funciones de v.a. independientes son independientes. Considere una


familia (Xl : l = 1, ..., n) de v.a.’s discretas a valores en I y gl : I → R fun-
ciones para l = 1, ..., n. Entonces (gl ◦ Xl : l = 1, ..., n) son v.a. discretas
independientes. En efecto para todo jl ∈ gl (I), l = 1, ..., n, se tiene

P(gl ◦ Xl = jl , l = 1, ..., n) = P(Xl ∈ gl−1 {il }, l = 1, ..., n)


Yn Y n
= P(Xl ∈ gl−1 {il }) = P(gl ◦ Xl = jl ).
l=1 l=1

45
Independencia de las indicadoras. Considere A1 , ..., An ∈ B y sus fun-
ciones indicadoras X1 = 1A1 , ..., Xn = 1An . Mostremos que ellas son inde-
pendientes si y solo si los conjuntos A1 , ..., An son independientes. En efecto
{X1 = i1 , ..., Xn = in } = B1 ∩ .... ∩ Bn siendo Bk = Ak si ik = 1 o Bk = Ack
si ik = 0 para k = 1, ..., n. Luego la equivalencia resulta de la definición de
independencia para conjuntos y de la igualdad

P(X1 = i1 , ..., Xn = in ) = P(X1 = i1 ) · · · P(Xn = in )


⇔ P(B1 ∩ .... ∩ Bn = P(B1 ) · · · P(Bn ).

7.1 Familias de variables aleatorias discretas


I. Bernoulli. Sea p ∈ [0, 1]. La v.a. X es Bernoulli(p) si X : Ω → {0, 1} (toma
dos valores) y verifica

P(X = 1) = p, P(X = 0) = 1 − p.

Ası́ pues
P(X ∈ {0, 1}) = P(X1 ) + P(X = 1) = 1.
La densidad discreta está dada por

pX (1) = P(X = 1) = p, pX (0) = P(X = 0) = 1 − p.

A menudo diremos que el estado 1 es éxito y el estado 0 es fracaso. Si se lanza


una moneda y cara es éxito le asignamos el valor 1 y al sello se le asigna el valor
0. En este caso p es la probabilidad que en un lanzamiento la moneda salga
cara. La moneda es equilibrada si p = 1/2, es decir si la densidad discreta es
uniforme en {0, 1}.

En el caso p = 1 se tiene que P(X = 1) = 1 es decir X ≡ 1, y si p = 0 se tiene


que P(X = 0) = 1 es decir X ≡ 0. Por lo que el caso no trivial es p ∈ (0, 1). 

II. Binomial. Sea p ∈ [0, 1], n ≥ 1. La v.a. X se dice Binomial(n, p) si


X : Ω → {0, 1, .., n} y
 
n k
P(X = k) = p (1 − p)n−k , k = 0, .., n.
k

Notemos que por la fórmula de expansión del binomio se tiene


n  
X n
1 = (p + (1 − p))n = pk (1 − p)n−k ,
k
k=0

luego
P(X ∈ {0, ..., n}) = 1.

46
n

La densidad discreta es pX (k) = P(X = k) = k pk (1 − p)n−k para k = 0, .., n.

En el caso p = 1 se tiene que P(X = n) = 1 es decir X ≡ n, y si p = 0 se tiene


que P(X = 0) = 1 es decir X ≡ 0. Por lo que el caso no trivial es p ∈ (0, 1). 

III. Geométrica. Sea p ∈ (0, 1). La v.a. Z se dice Geométrica(p) si Z : Ω →


N = {1, 2, ..} y se tiene

P(Z = n) = (1 − p)n−1 p, n ∈ N = {1, 2, ...}.


P 1
Notemos que al usar la fórmula n≥0 an = 1−a para 0 < a < 1 se obtiene
 
X X
P(Z ∈ N) = P(Z = n) = p  (1 − p)n−1 
n≥1 n≥1
 
X  
1 p
= p (1 − p) n
=p = = 1.
1 − (1 − p) p
n≥0

Luego la densidad discreta es PZ (n) = P(Z = n) = p(1 − p)n−1 para n ∈ N. 

Las variables Binomial(n, p) y Geométrica(p), pueden obtenerse a partir de lan-


zamientos independientes Bernoulli(p). Se tiene:

Proposición 31. Si X1 , .., Xn son v.a.’s independientes idénticamente dis-


tribuı́das (se abrevia i.i.d.) con Xr ∼ Bernoulli(p) para r = 1, ..., n, entonces
n
X
Xr ∼ Binomial(n, p).
r=1

Pn
Prueba:
Pn Sea X = r=1 Xr . Se tiene X : Ω → {0, .., n}, ω → X(ω) =
r=1 X r (ω). Se tiene que Xr (ω) = 0 ó Xr (ω) = 1, entonces
n
X
Xr (ω) = |{r ∈ {1, ..., n} : Xr (ω) = 1}|}
r=1

es el número de veces que se obtenga un éxito en los n lanzamientos.


Luego X(ω) = k significa que el conjunto de lanzamientos en que se tiene un
éxito, notado
J(ω) = {r ∈ {1, ..., n} : Xr (ω) = 1},
es de cardinal k, es decir J(ω) ∈ P(n, k) (notemos que J(ω)c = {r ∈ {1, ..., n} :
Xr (ω) = 0}). Luego podemos descomponer el evento {X = k} según el conjunto
donde ocurrieron los éxitos por
[
{X = k} = {J(ω) = J},
J∈P(n,k)

47
esto es [
{X = k} = {Xr = 1, r ∈ J; Xr = 0, r ∈ J c }. (21)
J∈P(n,k)

Notemos que la relación anterior prueba que X es v.a. discreta. La unión en


(21) es disjunta por lo que se obtiene,
X
P(X = k) = P(Xr = 1, r ∈ J; Xr = 0, r ∈ J c ).
J∈P(n,k)

Y ahora usamos independencia de las v.a.’s (Xr : r = 1, ..., n) y que P(Xr =


1) = p, P(Xr = 0) = 1 − p, para obtener
Y Y
P(Xr = 1, r ∈ J; Xr = 0, r ∈ J c ) = P(Xr = 1)· P(Xr = 0) = p|J| (1−p)n−|J| ,
r∈J r∈J c

de donde
X  
k n−k k n−k n k
P(X = k) = p (1 − p) = |P(n, k)|p (1 − p) = p (1 − p)n−k .
k
J∈P(n,k)

Proposición 32. Si (Xk : k ∈ N) es una sucesión de v.a.’s independientes


idénticamente distribuı́das con Xk ∼ Bernoulli(p) para k ∈ N, entonces

Z = inf{k ∈ N : Xk = 1} ∼ Geométrica(p).

Prueba: Observemos que {Z = 1} ⇔ {X1 = 1}, {Z = 2} ⇔ {X1 = 0, X2 =


1}, y en general

{Z = n} = {Xl = 0 para 1 ≤ l < n, Xn = 1}.

Luego por independencia de las v.a.’s (Xk : k ∈ N) y dado que todos los Xl ∼
Bernoulli(p) se deduce
 
Y
P(Z = n) =  P(Xl = 0) P(Xn = 1) = (1 − p)n−1 p para n ∈ N.
1≤l<n

Esto muestra el resultado.


P Notemos que esto tambien prueba que P(Z = ∞) =
1 − P(Z ∈ N) = 1 − n≥1 (1 − p)n−1 p = 0. 

Esto es:
1. Si lanzamos n veces y de manera independiente una moneda con probabilidad
p de éxito, entonces el número de éxitos en los n lanzamientos se distribuye según

48
una Binomial(n,
 p), es decir la probabilidad que se obtenga exactamente k éxitos
es nk pk (1 − p)n−k .
2. Si lanzamos de manera indepeniente una moneda con probabilidad p de
éxito y esto lo hacemos de manera indefinida, entonces el momento en que por
primera vez se tenga un éxito se distribuye según una Geométrica(p), es decir
la probabilidad que el primer éxito se obtenga en el n−ésimo lanzamiento es
(1 − p)n−1 p.

Ejemplo 2.1 Los experimentos que son Bernoulli no son asociados exclusiva-
mente a monedas. En efecto supongamos que X1 , X2 son los resultados de
dos lanzamientos independientes de un dado, cada uno de ellos uniforme, ası́
pX1 ,X2 (i, j) = 1/36 es la uniforme en I 2 = {1, ..., 6}2 . Ahora el caso en que el
éxito sea que la suma de estos dos lanzamientos sea 7, definimos la v.a. Y por
Y = 1 si X1 + X2 = 7, Y = 0 en caso contrario.
Consideremos ahora (X1k , X2k ) : k ∈ N) una sucesión de lanzamientos indepen-
dientes de parejas de dados independientes y uniformes, se tiene que la primera
vez que la suma de los dados es 7 es la v.a.

Z = inf{k ≥ 1 : X1k + X2k = 7}.

Se tiene Z ∼Geométrica(1/6). En efecto si uno define la sucesión de v.a.’s


(Yk : k ∈ N) por Yk = 1 si X1k + X2k = 7, Yk = 0 en caso contrario, se tiene que
(Yk : k ∈ N) es una sucesión de v.a.’s i.i.d. con Yk ∼Bernoulli(1/6)por lo que a
Proposición 32 prueba que Z = inf{k ≥ 1 : Yk = 1} es Geométrica(1/6).
Ejercicio 9. Sean (Yk : k =P1, .., m) v.a.’s i.i.d. con P(Yk = 1) = p =
m
1 − P(Yk = −1). Calculemos P( k=1 Yk = 0). Obviamente esta es nula si m es
impar, luego podemos asumir m = 2n es par. Definamos Xk = (Yk + 1)/2, luego
P2n P2n
(Xk : k = 1, .., 2n) i.i.d. Bernoulli(p). Se tiene k=1 Yk = 0 ⇔ k=1 Xk = n.
Luego
X2n  
2n n
P( Yk = 0) = (p(1 − p)) para n ∈ N. 
n
k=1

Ejercicio 10. Sean 0 < p, q < 1. Sean (X, X1 , .., Xk ) v.a.’s independientes con
X ∼ Binomial(n, p), Xl ∼ Bernoulli(q) para l = 1, .., k. Entonces pruebe que la
v.a. Y definida por
X(ω)
X
Y (ω) = Xl (ω)
l=1

verifica Y ∼ Binomial(pq).
Observemos que Y (ω) = 0 en el caso X(ω) = 0. La v.a. anterior se escribe
PX
Y = l=1 Xl . Para probar esto por probabilidades totales, condicionando en

49
X y usando la independencia se obtiene
n
X m
X n
X m
X
P(Y = k) = P( Xl , X = m) = P( Xl = k | X = m)P(X = m)
m=0 l=1 m=0 l=1
Xn Xm Xn m
X
= P( Xl = k)P(X = m) = P( Xl = k)P(X = m)
m=0 l=1 m=k l=1
Xn    
m k m−k n
= q (1 − q) pm (1 − p)n−m
k m
m=k
  Xn
n (n − k)!
= (pq)k (p(1 − q))m−k (1 − p)(n−k)−(m−k)
k (m − k)!(n − m)!
m=k
  X n − k 
n−k
n k
= (pq) (p(1 − q))j (1 − p)(n−k)−j
k j=0
j
 
n
= (pq)k (p(1 − q) + 1 − p)n−k .
k
Luego se tiene el resultado. 

Se cumple:
Proposición 33. Sea Z ∼ Geométrica(p). Entonces se satisface,
P(Z > n) = (1 − p)n para n ≥ 0, (22)
y se cumple la recı́proca, (22) equivale a Z ∼ Geométrica(p).
Además Z ∼ Geométrica(p) cumple la propiedad,
P(Z > n + m|Z > n) = P(Z > m) para n, m ≥ 0 (pérdida de memoria) , (23)
y se cumple la siguiente recı́proca, la condición (23) equivale a Z ∼ Geométrica(p)
con p = 1 − P(Z > 1) = P(Z = 1). 

Prueba: Si Z ∼ Geométrica(p) entonces para n ≥ 0 se tiene


X X X
P(Z > n) = P(Z = l) = p(1−p)l−1 = p(1−p)n (1−p)l = (1−p)n .
l≥n+1 l≥n+1 l≥0

Recı́procamente, si P(Z > n) = (1 − p)n para n ≥ 0 entonces se tiene,


P(Z = n) = P(Z > n − 1) − P(Z > n) = (1 − p)n−1 − (1 − p)n = p(1 − p)n−1 ,
por lo que Z ∼ Geométrica(p).
Por otra parte, si Z ∼ Geométrica(p), se tiene P(Z > n) = (1 − p)n , lo que
implica P(Z > n + m) = P(Z > n)P(Z > m) y como P(Z > n + m) = P(Z >
n + m, Z > n) se deduce
P(Z > n + m, Z > n) = P(Z > n)P(Z > m).

50
Luego se tiene la propiedad de pérdida de memoria P(Z > n + m | Z > n) =
P(Z > m) para n, m ≥ 0.
Recı́procamente (23) implica que para n > 1 se cumple: P(Z > n) = P(Z >
n − 1)P(Z > 1) y por inducción se obtiene P(Z > n) = P(Z > 1)n para todo
n ≥ 1. Por la primera parte se deduce Z ∼ Geométrica(1 − P(Z > 1)). 

IV. Poisson. Sea λ > 0. La v.a. X se dice Poisson(λ) si X : Ω → N0 =


k
{0, 1, 2, ..} y se tiene pX (k) = P(X = k) = λk! e−λ para k ≥ 0. Observemos que
es una densidad discreta bien definida pues,
X X λk
P(X ∈ N0 ) = P(X = k) = ( )e−λ = eλ e−λ = 1.
k!
k≥0 k≥0

Se tiene la siguiente propiedad:

Proposición 34. Si X1 , .., Xk son v.a.’s independientes con Xl ∼ Poisson(λl )


para l = 1, ..., k, entonces
k
X k
X
Xl ∼ Poisson( λl ).
l=1 l=1

(Esto es la suma de Poisson independientes es Poisson cuyo parámetro es la


suma de los parámetros). 

Prueba: Por inducción basta mostrarlo para k = 2. Por independencia se


tiene
l
X l
X
P(X1 + X2 = l) = P(X1 = r, X2 = l − r) = P(X1 = r)P(X2 = l − r)
r=0 r=0
l
X λr 1 −λ1 λl−r
= e 2
e−λ2
r=0
r! (l − r)!
l
X  r  l−r !
(λ1 +λ2 )l −(λ1 +λ2 ) l! λ1 λ2
= e
l! r=0
r!(l−r)! λ1 +λ2 λ1 +λ2
(λ1 +λ2 )l −(λ1 +λ2 )
= e .
l!
Pl l! λ1
Para esta última igualdad se usa r=0 r!(l−r)! pr (1−p)n−r = 1, con p = (λ1 +λ2 ) ,
λ2
1−p= (λ1 +λ2 ) . Luego el resultado se tiene. 

Ejercicio 11’. Sea X1 y X2 variables aleatorias independientes con Xi ∼


Poisson(λi ) para i = 1, 2. Se tiene que X1 condicionada al evento {X1 +X2 = n}
se distribuye según una Binomial(n, p) con p = λ1 /(λ1 + λ2 ).

51
En efecto, usando la independencia y la Proposición 34 se tiene,

P(X1 = k, X1 + X2 = n)
P(X1 = k | X1 + X2 = n) =
P(X1 + X2 = n)
P(X1 = k, X2 = n − k) (λk1λ2n−k (λ1 +λ2 ) n!
= = e−(λ1 +λ2 ) e
P(X1 + X2 = n) k!(n − k)! (λ1 + λ2 )n
  k  n−k
n λ1 λ2
= ,
k λ1 + λ2 λ1 + λ2

lo que prueba el resultado. 

Ejercicio 11. Sean (Xn : n ∈ N) v.a.’s i.i.d. Xn ∼ Bernoulli(p). Sea Z v.a.


independiente de (Xn : n ∈ N) con Z ∼ Poisson(λ). Como P(Z < ∞) = 1, la
v.a.
Z(ω)
X
Y (ω) = Xn (ω)
n=0
PZ
está bien definida. Se escribe Y = n=0 Xn . Probemos que Y ∼ Poisson(λ p).
Se tiene

X X
P(Y = k) = P(Y = k | Z = n)P(Z = n) = P(Y = k | Z = n)P(Z = n)
n=0 n≥k
X n! λn −λ
= pk (1 − p)n−k e
k!(n − k)! n!
n≥k
 
(p λ)k −λ p  X 1 (p λ)k −λ p
= e ((1 − p)λ)m e−λ (1−p)  = e .
k! m! k!
m≥0

Ejercicio 11’. Sea X1 y X2 variables aleatorias independientes con Xi ∼


Poisson(λi ) para i = 1, 2. Se tiene que X1 condicionada al evento {X1 +X2 = n}
se distribuye según una Binomial(n, p).
Las v.a. Poisson se puede aproximar por Binomiales. Enunciemos la propiedad:

Proposición 35. Para n ≥ 1 toememos la sucesión p(n) > 0 tal que


lim np(n) = λ > 0. Sea (Xn : n ≥ 1) una sucesión de v.a.’s con Xn ∼
n→∞
Binomial(n, pn ). Entonces se tiene

λk −λ
lim P(Xn = k) = e para k ≥ 0,
n→∞ k!
es decir este lı́mite es una Poisson(λ). 

52
Prueba: Se tiene
1 n!
P(Xn = k) = p(n)k (1 − p(n))n−k .
k! (n − k)!

Como p(n)/(λ/n) → 1 si n → ∞, se obtiene,

lim (1 − p(n))n−k = e−λ .


n→∞

Ahora usemos la aproximación de Stirling

Ce−n nn+1/2
lim = 1,
n→∞ n!
donde 0 < C < ∞ es constante, para probar
k−1
!
n! Y n−l
lim p(n)k = lim (p(n) n)k = λk .
n→∞ (n − k)! n→∞ n
l=0

Y se obtiene el resultado. 

Apéndice 0: Prueba de Fórmula de Stirling. Se tiene

Ce−n nn+1/2
lim = 1.
n→∞ n!
Como log x es creciente se tiene para k ≥ 1,
Z k Z k+1
log x < log k < log x.
k−1 k
Pn
Como log n! = k=1 log k, (x log x − x)′ = log x se obtiene,
Z n Z n+1
n log n − n = log x dx < log n! < log x dx < (n + 1) log(n + 1) − n.
0 1

Definamos dn = log n! − (n + 21 ) log n + n. Se tiene


 
1 n+1
dn − dn+1 = (n + ) log − 1.
2 n
Como
1
n+1 1 + 2n+1
= 1 ,
n 1 − 2n+1
  P
t2l+1
y usando la expansión 12 log 1−t
1+t
= l≥0 (2l+1) se obtiene

X t2l 1 X 2l 1
dn −dn+1 = ≤ t = = (12n)−1 −(12(n+1))−1 .
(2l + 1) 3 3((2n + 1)2 − 1)
l≥1 l≥1

53
De estas últimas relaciones se deduce dn decreciente y dn − (12n)−1 creciente.
Luego existe C = lim dn y es finito. Concluı́mos que
n→∞

n!
1 → 1 si n → ∞. 
C nn+ 2 e−n

Multinomial. Introduciremos la Multinomial a traves de una ruleta, que la


suponemos una circunferencia de largo 1, la que está dividida en k arcos que
los notaremos i = 1, ..., k, y donde sus largos son p1 , ..., pk respectivamente. Ası́
pues si uno da una vuelta a la ruleta el arco que es seleccionado lo notamos
por la v.a. Y siendo {Y = i} el evento en que se cae en el arco i−ésimo. La
probabilidad de caer en el arco i es pi . es decir P(Y = i) = pi para i = 1, ..., k.
Demos n vueltas independientes de la ruleta y los arcos en que caen los notamos
por las v.a.’s (Yl : l = 1, ..., n). Sea Xi el número de veces que en estas vueltas
de ruleta se cae en el arco i, es decir

Xi = |{l ∈ {1, ..., n} : Yl = i}| para i = 1, ..., k.

Como el número de total de vueltas de la ruleta es n se tiene


k
X
Xi = n.
i=1
Pk
Proposición 36. Para n1 , ..., nk enteros no-negativos tal que i=1 ni = n
se satisface
n!
P(X1 = n1 , X2 = n2 , ..., Xk = nk ) = pn1 pn2 · · · pnk k . (24)
n1 !n2 ! · · · nk ! 1 2
Por esta relación se dice que (X1 , ..., Xk ) ∼Multinomial(n, p1 , ..., pk ).

Prueba: Lo haremos por inducción sobre k ≥ 1. Para k = 1 se tiene pues en


este caso p1 = 1, n1 = n. Ahora sea k > 1, se tiene,

P(X1 = n1 , X2 = n2 ..., Xk = nk ) = P(X2 = n2 ..., Xk = nk |X1 = n1 )P(X1 = n1 ).


Pn (25)
Se tiene que Xi = l=1 Wl donde Wl = 1 si Yl = i y Wl = 0 si Yl 6= i. Las
v.a.’s (Wk : l = 1, ..., n) son i.i.d. con Wl ∼ Bernoulli(pi ) pues P(Wl = 1) =
P(Yl = i) = pi . Por ser Xi una suma de n v.a.’s Bernpoulli(pi ) independientes,
de la Proposición 31 deducimos Xi ∼Binomial(n, pi ). Luego

P(X1 = n1 , X2 = n2 ..., Xk = nk ) (26)


 
n n1
= P(X2 = n2 ..., Xk = nk |X1 = n1 ) p (1 − p1 )n−n1 .
n1 1
Ahora bien, en el evento {X1 = n1 }, el número de vueltas de la ruleta en
que no se cae en el arco 1 es n − n1 . Sabemos que ellas deben caer en los arcos

54
2, .., k, y ellas son independientes y caen en tales arcos 2, ..., k con probabilidades
condicionadas a no caer en el arco 1, esto es con probabilidades respectivas

P(Y = 2|Y 6= 1) = p2 /(1 − p1 ), ..., P(Y = k|Y 6= 1) = pk /(1 − p1 ).

Luego, vale el argumento inductivo para k − 1 arcos, con n − n1 lanzamientos,


dividido entre n2 ,..,nk y con las probabilidades condicionales pi /(1 − p1 ) para
i = 2, ..., k. Aplicando (24) obtenemos

(n − n1 )! n1 n2
P(X2 = n2 ..., Xk = nk |X1 = n1 ) = p p · · · pnk k (1 − p1 )−(n−n1 ) .
n2 ! · · · nk ! 1 2

Luego combinando esta igualdad con (25) y (26), se prueba que (24) se satisface
para k.

7.2 Suma de v.a.’s independientes y convolución


Proposición 37. Sean X, Y v.a.’s independientes a valores en Z. Entonces,
la densidad pX+Y de X + Y verifica pX+Y = pX ∗ pY , donde
X
(pX ∗ pY )(i) = pX (k)pY (i − k), i ∈ Z
k∈Z

es la convolución de pX y pY .

Prueba: Se tiene,
X X
pX+Y (i) = P(X + Y = i) = P(X = k, Y = i − k) = P(X = k)P(Y = i − k)
k∈Z k∈Z
X
= pX (k) pY (i − k),
k∈Z
S
En la segunda igualdad usamos la igualdad {X +Y = i} = k∈Z {X = k, Y = i−
k} siendo esta unión disjunta, y en la tercera igualdad usamos la independencia
de X e Y . Hemos probadopX+Y = pX ∗ pY . 
La convolución de las densidades discretas de probabilidad p y q en Z es
X
(p ∗ q)(i) = p(k)q(i − k), i ∈ Z.
k∈Z

Se tiene que p ∗ q es densidad de probabilidad en Z pues es no-negativa y se


tiene
! ! 
X X X X X
p ∗ q(i) = p(k) q(i − k) = p(k)  q(j) = 1.
i∈Z k∈Z i∈Z k∈Z j∈Z

55
donde hicimos el cambio de ı́ndice j = i − k. La convolución ∗ es conmutativa,
asociativa y su elemento neutro es la densidad discreta δ0 , dada por δ0 (i) = 0
si i 6= 0 y δ0 (0) = 1.
Si p, q estaán concentradas en N0 , es decir se cumple p(i) = q(i) = 0 cuando
i < 0, entonces p ∗ q tambi’én está concentrada en N0 y se tiene
i
X
(p ∗ q)(i) = p(k)q(i − k), i ∈ N0 .
k=0

Luego, el hecho que ∗ es conmutativa, asociativa y con elemento neutro δ0 , se


deduce de la conmutatividad y asociatividad de + en Z y que 0 es su elemento
neutro, es decir que si Y ≡ 0 entonces pY = δ0 pues δ0 (0) = P(Y = 0) = 1.
Si p es densidad discreta en Z notaremos p∗n la densidad discreta dada por
p∗0 = δ0 , p∗1 = p, p∗(n+1) = p∗n ∗ p. Con esta notación escribamos por q la
densidad discreta de Bernoulli(θ) para θ ∈ [0, 1], esto es q(0) = 1 − θ, q(1) = θ.
Entonces las Proposiciones 31 y 37 muestran que q ∗n es la densidad discreta de
Binomial(n, p).

56
8 Función de distribución
Sea X : Ω → R. Su probabilidad inducida PX es

PX : B(R) → [0, 1], C → XX (C) = P({X ∈ C}),

decimos que X se distribuye según PX y se escribe X ∼ PX .


Una propiedad importante (y que no probaremos) es que la medida de probabil-
idad PX queda enteramente definida por sus valores en la familia de intervalos
I = {(−∞, x] : x ∈ R}, es decir por los valores

P(X ≤ x) = PX ((−∞, x]), x ∈ R.

Esto es por la que introducimos la función de distribución asociada a X.

Definición 38. Sea X : Ω → R v.a. Su función de distribución es:


FX : R → [0, 1], FX (x) = P(X ≤ x) = P(X ≤ x).

Se nota X ∼ FX .

Proposición 39. La función de distribución FX : R → [0, 1] verifica las sigu-


ientes propiedades (que son las que caracterizan las funciones de distribución):
(i) FX es creciente: x ≤ y ⇒ FX (x) ≤ FX (y);
(ii) FX es continua por la derecha: FX (x) = FX (x+ ) para todo x ∈ R, donde
FX (x+) = lim+ FX (x + h);
hց0

(iii) El lı́mite siguiente existe FX (+∞) = lim FX (x) y satisface FX (+∞) = 1;


xր∞

(iv) El lı́mite siguiente existe FX (−∞) = lim FX (x) y satisface FX (−∞) = 0.


xց−∞

Prueba: (i) Si x ≤ y entonces {X ≤ x} ⊆ {X ≤ y}, luego FX (x) =


PX P ((−∞, x]) ≤ PX ((−∞, y]) = FX (y).
+
T sucesión 0 < hn ց 0 entonces (−∞, x + hn ] decrece y
(ii) Consideremos una
se tiene (−∞, x] = n∈N (−∞, x + hn ], luego
\
{X ∈ (−∞, x]} = {X ∈ (−∞, x + hn ]}.
n∈N

Por convergencia monotona se obtiene PX ((−∞, x]) = lim PX ((−∞, x + hn ])


n→∞
y concluı́mos FX (x) = lim FX (x + hn ), lo que prueba la continuidad por la
n→∞
derecha.

57
Es analoga a (ii) pues si xn ր +∞ entonces (−∞, xn ] crece y se tiene
(iii) S
R = n∈N (−∞, xn ]. Luego
[
{X ∈ R} = {X ∈ (−∞, xn ]}.
n∈N

Por convergencia monotona se tiene 1 = PX (R) = lim PX ((−∞, xn ]) = lim FX (xn ).


n→∞ n→∞

T Es analoga a (iii) pues si xn ց −∞ entonces (−∞, xn ] decrece y ∅ =


(iv)
n∈N (−∞, xn ]. Luego
\
{X ∈ ∅} = {X ∈ (−∞, xn ]}.
n∈N

Por convergencia monotona se tiene 0 = PX (∅) = lim PX ((−∞, xn ]) = lim FX (xn ).


n→∞ n→∞


La función de distribución FX define únicamente la medida de probabilidad


P(X ∈ ·) en (R, B(R)) que satisfaga PX ((−∞, x]) = F (x) para todo x ∈ R.
Este hecho fundamental no lo probaremos.

Proposición 40. Se tiene


∃FX (x− ) = lim FX (x − h) y se tiene FX (x− ) = P(X < x);
hց0+

FX (x) − FX (x− ) = P(X = x);


FX continua en x ⇔ FX (x− ) = FX (x) ⇔ P(X = x) = 0.

+
Prueba: Para mostrar la primera parte tomemos unaS sucesión 0 < hn ց 0
hn ] crece y se tiene (−∞, x) = n∈N (−∞, x − hn ], luego
entonces (−∞, x − S
{X ∈ (−∞, x)} = n∈N {X ∈ (−∞, x − hn ]}. Por convergencia monotona se
obtiene P(X ∈ (−∞, x)) = lim P(X ∈ (−∞, x − hn ]) y concluı́mos P(X <
n→∞
x) = lim FX (x − hn ).
n→∞

Para las otras propiedades basta notar que P(X = x) = P(X ≤ x) − P(X <
x) = FX (x) − FX (x− ). 

El conjunto de puntos de discontinuidad de FX es D(FX ) = {x ∈ R : FX (x) 6=


FX (x− )} = {x ∈ R : P(X = x) > 0}. Probemos que D(FX ) es numerable. Se
tiene
[
D(FX ) = Dn (FX ) con Dn (FX ) = {x ∈ R : P(X = x) ≥ 1/n},
n∈N

luego si Dn ⊆ Dn (FX ) es numerable se tiene por σ−aditividad,


1 X
Dn ≤ P(X = x) = P{X ∈ Dn } ≤ 1,
n
x∈Dn

58
por lo que Dn (FX ) ≤ n es finito. Luego todo conjunto numerable incluı́do
en Dn (FX ) es finito, por lo que Dn (FX ) es finitoy satisface |Dn (FX )| ≤ n. Se
concluye que D(FX ) es numerable por ser union numerable de conjuntos finitos.
V.a. continuas y discretas. Se tiene P(X ∈ D(FX )) ≤ 1. Se tiene:

• Si P(X ∈ D(FX )) = 1 se tiene que X es v.a. discreta tomado valores en


el conjunto numerable D(FX ).

• Si P(X ∈ D(FX )) = 0 se tiene que FX es continua, y esto significa que


P(X = x) = 0 para todo x ∈ R.

Ejercicio 12. Sea X = 0 la v.a. constante X ≡ 0. Entonces FX (x) = P(X ≤


x) = 0 si x < 0 y FX (x) = 1 si x ≥ 0. Luego FX = H la función de distribución
de Heaviside dada por

H(x) = 1 si x ≥ 0, H(x) = 0 si x < 0.

Si X ≡ a entonces FX = H(· − a) la función de Heaviside trasladada en a, luego


H(· − a)(x) = H(x − a) que es 1 si x ≥ a y 0 si x < a. 

59
9 Distribuciones absolutamente continuas
Hagamos primero una corta discsuión de conjuntos de medida nula, pues una
parte de los conceptos que introduciremos serán válidos Rsalvo conjuntos de me-
dida nula. Un Rconjunto B ⊂ R se dice de medida nulo si B dx = 0, R o de manera
equivalente si 1B (x)dx = 0. Si B es de medida nula se tiene B h(x)dx = 0
para toda función Boreliana acotada h : B → R. Luego podemos modificar
una función en un conjunto de medida nula, sin que su integral cambie. Los
conjuntos formados por un punto, o por un conjunto finito de puntos, o por un
conjunto numerable de puntos, son conjuntos de medida nula. En general no
distinguiremos entre funciones que difieran en conjuntos de medida nula.

9.1 Función de distribución con densidad


Definición 41. Sea X : Ω → R v.a. Su función de distribución FX : R →
[0, 1] se dice absolutamente continua (a.c.) si existe fX : R → R que verifica
Z ∞
fX ≥ 0, fX (x)dx = 1 (función de densidad)
−∞

y se cumple Z x
∀x ∈ R : FX (x) = fX (u)du.
−∞
fX se le llama la función de densidad de FX . También diremos que la v.a. X
tiee densidad fX y notaremos indistintamente X ∼ FX o X ∼ fX .
Si FX : R → [0, 1] es a.c. entonces es continua: P(X = x) = F (x) − F (x− ) = 0
para todo x ∈ R. La función de densidad fX de FX no es única pues basta
modificarla en conjunto de medida nula (por ejemplo un punto cualquiera) man-
teniendola no-negativa para que siga siendo la función de densidad de FX , estas
funciones serán identificadas.
Si fX es la función densidad de la función de distribución de la función de
distribución a.c.FX entonces
dFX
fX (x) = (x)
dx
para x ∈ R salvo en un conjunto de medida nula.

Propiedad 42. Se tiene


Z x Z
P(X ∈ (−∞, x]) = P(X ≤ x) = FX (x) = fX (u)du = fX (u)du,
−∞ −∞,x]

y en general para todo Boreliano C ∈ B(R) se cumple


Z
P(X ∈ C) = fX (u)du.
C

60
Las funciones de distribución que consideraremos serán las que son discretas o
a.c.’s, esto permite estudiar las que se descomponen en una parte discreta y otra
a.c.

Ahora veamos una clase espacial de v.a.’s a.c.


I. Densidad Uniforme.

Definición 43. La v.a. U : Ω → R se dice v.a. Uniforme (0, 1) si tiene


función de densidad fU = 1(0,1) , esto es
(
1 si u ∈ (0, 1);
fU (u) =
0 si u 6∈ (0, 1).

Notaremos U ∼ Uniforme(0, 1). Su función de distribución es




0 si x ≤ 0;
FU (x) = x si x ∈ [0, 1];


1 si x ≥ 1.

Es decir ella es 0 antes ó en 0, es lineal en (0, 1) y despues es 1. Una modifi-


cación de fU en un conjunto de medida nula es en los puntos {0, 1}, por ejemplo
fU = 1[0,1] define la misma función de distribución FU .
Nota. La v.a. U ∼ Uniforme(0, 1) es la que se simula cuando se escoge un
número al azar en (0, 1).

Sean U ∼ Uniforme(0, 1), α ∈ R, β > 0. Consideremos la v.a. X = α + βU .


Ella tiene función de distribución dada por
FX (x) = P(X ≤ x) = P(α + βU ≤ x) = P(U ≤ β −1 (x − α)).
Luego


0 si x < α;
FX (x) = FU (β −1 (x − α) = β −1 (x − α) si x ∈ [α, α + β];


1 si x ≥ α + β.

Y se deduce que X es v.a. a.c. con densidad


fX (x) = dFX dx(x) = β −1 1(α,α+β) .
Escribimos X ∼ Uniforme(α, α + β). 

Sea F : R → [0, 1] una función de distribución, es decir creciente, continua por


la derecha con F (+∞) = 1, F (−∞) = 0. Su función inversa F −1 : [0, 1] →
R ∪ {−∞, ∞}, u → F −1 (u) es definida por
F −1 (u) = inf{x ∈ R : F (x) > u} si u < 1, F −1 (1) = lim F −1 (u). (27)
uր1

61
Cuando F es continua estrictamente creciente en R entonces es una biyección
en R y existe su función inversa, la que coincice con F −1 definida en (27).

Propiedad 44. Sea F : R → [0, 1] una función de distribución. Sea U v.a.


∼ Uniforme(0, 1). Entonces la v.a. X = F −1 (U ) verifica FX = F .

Prueba: Solo lo haremos en caso en que F es continua estrictamente creciente.


Por ser U ∼ Uniforme(0, 1) se tiene FU (u) = u para u ∈ [0, 1]. Como FU (u) = u
para u ∈ [0, 1] se tiene,

F (x) = FU (F (x)) = P{U ≤ F (x)} = P{F −1 (U ) ≤ x} = P(X ≤ x) = FX (x).

Donde en la tercera igualdad se usa que F es biyectiva y creciente y F −1 tiene


estas mismas propiedades. Hemos probado que la v.a. X = F −1 (U ) verifica
FX ∼ F . 
Nota. Ası́ pues para simular una v.a. X cuya distribución sea F , se escoge
un número al azar en (0, 1) con una v.a. U ∼ Uniforme(0, 1) y luego se toma
X = F −1 (U ).
Antes de continuar con introducir clases de v.a.’s a.c. veamos que ocurre con
funciones de estas v.a.’s.

Propiedad 45. Sea X v.a. a.c. con función de densidad fX . Sea SX =


{x ∈ R : fX (x) > 0}. Entonces P(X ∈ SX ) = 1.

c
Prueba: Se tiene fX (x) = 0 si x ∈ SX , por lo que
Z
c
P(X ∈ SX )= fX (x)dx = 0,
c
SX

c
de donde 1 = P(X ∈ R) = 1 − P(X ∈ SX ) = P(X ∈ SX ). 
Uno puede modificar fX en un conjunto de medida nula, en particular en un
conjunto finito de puntos y para esta modificaión de tendraá la misma propiedad
de la Propiedad 45. Para un conjunto C que verifica P(C) = 1 siempre se puede
definir fX (x) = 0 para x 6∈ C.

9.2 Teorema de Cambio de variables


Demos este teorema es su generalidad:

Teorema 46. Sea X v.a. a.c. con función de densidad fX . Sea D abierto
con P(X ∈ D) = 1. Sea h : D → R función a derivada continua tal que

62
h′ (x) 6= 0 para x ∈ D. Entonces, la v.a. Y = h(X) es a.c. y su función de
densidad fY verifica
X
∀y ∈ h(D) : fY (y) = |h′ (xy )|−1 fX (xy ), (28)
xy ∈h−1 {y}

∀y 6∈ h(D) : fY (y) = 0. (29)

(El sentido de esta fórmula estará claro en la demostración, insistimos en que


los puntos xy ∈ h−1 {y} son los que están en la preimagen de {y} por h, es decir
son aquellos puntos en D que verifican h(xy ) = y). En el caso h inyectiva se
tiene
∀y ∈ h(D) : fY (y) = |h′ (h−1 (y))|−1 fX (h−1 (y)). (30)

Prueba: Notemos que P(X ∈ D) = 1, h : D → R, Y = h(X), luego P(Y ∈


h(D) = 0 por lo que podemos tomar fY (y) = 0 para y 6∈ h(D).
Ahora bien, se tiene

FY (y) = P(Y ≤ y) = P(h(X)) ≤ y). (31)

Primero probemos el caso D = R, h : R → R inyectiva, como h(x) 6= 0 para


x ∈ R, se cumple que ó bien h es creciente ó decreciente en todo R. Además
como h′ 6= 0 en R implica que h es estrictamente creciente ó estrictamente
decreciebte pues h′ > 0 ó h′ < 0.
Si h es creciente se tiene h(x) ≤ y si y solo si x ≤ h−1 (y), por lo que en (31)
queda
FY (y) = P(X ≤ h−1 (y)) = FX (h−1 (y))
y derivando se obtiene,

∀y ∈ h(D) : fY (y) = h′ (h−1 (y))−1 fX (h−1 (y)).

lo que prueba a (30) pues h′ > 0


Si h es decreciente se tiene h(x) ≤ y si y solo si x ≥ h−1 (y), por lo que en (31)
se tiene,

FY (y) = P(X ≥ h−1 (y)) = 1−P(X < h−1 (y)) = 1−P(X ≤ h−1 (y)) = 1−FX (h−1 (y)).

La penúltima igualdad pues por ser FX continua se tiene P(X = h−1 (y)) = 0.
Derivando el primer y último término de la cadena de igualdades se obtiene,

fY (y) = −h′ (h−1 (y))−1 fX (h−1 (y)) = |h′ (h−1 (y))−1 |fX (h−1 (y)).

Luego hemos probado el resultado (30).


El caso general (28) no lo probaremos, Para entender el caso no inyectivo tomare-
mos el siguiente caso:

63
Caso h(x) = x2 . Se tiene Y = h(X) = X 2 . Dado que h′ (x) = 2x se cumple
h′ (0) = 0. Tomemos D = R \ {0}, h : R \ {0} → R, x → h(x) = x2 . Como una
X v.a. a.c. verifica P(X = 0) = 0, se cumple P(X ∈ D) = 1. Notemos que en
este dominio D se verfica las hipotesis del teorema, pues h′ (x) 6= 0 para x ∈ D.
Se tiene Y ≥ 0 y se tiene,

FY (0) = P(Y ≤ 0 = P(Y = 0) = P(X = 0) = 0 para y ≤ 0.

Luego podemos suponer y > 0. Se satisface


√ √ √ √
FY (y) = P(X 2 ≤ y) = P(− y ≤ X ≤ y) = P(X ≤ y) − P(X < − y)
√ √
= FX ( y) − FX (− y),
√ √
otra vez usamos P(X < − y) = P(X ≤ − y). Luego, derivando se obtiene

√ 1 √ 1
fY (y) = fX ( y) √ + fX (− y) √ .
2 y 2 y
√ √ √
Como h−1 {y} = { y, − y} y se verifica |h′ (xy )|−1 = 1/(2 y), luego que la
relación (28) se verifica en este caso.

Ejercicio 13. Sea X v.a. a.c. y consideremos Y = α+βX con β 6= 0. Entonces


h(x) = α+βx que es biyectiva y se tiene h−1 (y) = (y −α)/β y |h′ (h−1 (y))| = |β|
de donde  
−1 y−α
∀y ∈ R : fY (y) = |β| fX .
β


9.3 Familias de densidades


Además de la Uniforme introduzcamos otras familias de v.a.’s con densidades.
II. Densidad Normal N(µ, σ 2 ) (o Gaussiana (µ, σ 2 )).
Definición 47. Sea µ ∈ R, σ > 0. Sea X : Ω → R v.a.a.c. Se escribe
X ∼ N(µ, σ 2 ) y se le llama Normal(µ, σ 2 ), si su función de densidad verifica
1 (x−µ)2
fX (x) = √ e− 2σ2 .x ∈ R, (32)
2πσ
Luego Z ∼ N(0, 1) (es decir µ = 0, σ = 1) si su densidad satisface
1 x2
fZ (x) = √ e− 2 , x ∈ R. (33)

Por cambio de variables lineal se cumple: si X ∼ N(µ, σ 2 ) entonces Z = (X −
µ)/σ ∼ N(0, 1). Y recı́procamente si Z ∼ N(0, 1) entonces X = µ + σZ ∼
N(µ, σ 2 ).

64
Debemos probar que la fX dada por R(32) efectivamente es una densidad. Como

ella es no-negativa basta mostrar que −∞ fX (x)dx = 1. Por cambio de variables
h(x) = (x − µ)/σ, basta mostrar que,
Z ∞
1 x2
√ e− 2 dx = 1,
2π −∞

es decir que la función no-negativa dada por (33) es densidad.


√ R∞ 2
Con el cambio de variables x → x/ 2 esto equivale a probar que −∞ e−x dx =

π.
R∞ 2 √ R∞R∞ 2 2
Por simetrı́a lo anterior equivale a 0 e−x dx = π/2. Esto equivale a 0 0 e−(x +y ) dxdy =
π/4. Por cambio de variables esto equivale a
Z ∞ Z π/2
2
r e−r drdθ = π/4,
0 0
R∞ 2 2 2
esto es, 0
r e−r drdθ = 1/2, lo que se sumple usando d(− 12 e−r ) = r e−r .

Finalmente, del cambio lineal en el Ejercicio 13 se deduce directamente la se-


gunda propiedad involucrada en la definición anterior. En efecto si X ∼ N(µ, σ 2 )
tiene densidad dada por (32), luego Z = (X − µ)/σ ∼ N(0, 1) tiene densidad
dada por (33). Y si Z ∼ N(0, 1) entonces µ + σZ ∼ N(µ, σ 2 ). 

La función de distribución de una v.a. Z ∼ N(0, 1) se notará Φ, es decir


Z x
1 y2
Φ(x) = √ e− 2 dy. (34)
2π −∞

Ejercicio 14. Si Z ∼ N(0, 1) entonces Z 2 tiene densidad


√ √ 1 1 z 1
fZ 2 (z) = (fZ ( z) + fZ (− z)) √ = √ e− 2 z − 2 .
2 z 2π
Definimos a esta densidad como la de una chi-cuadrado con un grado de libertad,
se escribe Z 2 ∼ χ21 . 

Más adelante, cuando hayamops definido la esperanza y la varianza, probaremos


que si X ∼ N(µ, σ 2 ) entonces µ es la esperanza de X y σ 2 es su varianza.

III. Exponencial.

Definición 48. Sea λ > 0. La v.a. T : Ω → R se dice v.a. Exponencial[λ] y


notaremos T ∼ Exponencial[λ], si es a.c. con función de densidad

fT (t) = λe−λt 1(0,∞) (t),

65
esto es fT (t) = λe−λt si t > 0, fT (t) = 0 si t ≤ 0. Luego T > 0.
Su función de distribución verifica
(
1 − e−λt si t ≥ 0;
FT (t) =
0 si t ≤ 0.

La distribución está determinada por P(T > t) = e−λt para t >≥ 0.

Proposición 49. Si T ∼ Exponencial[λ] verifica la propiedad de pérdida de


memoria
∀t, s ≥ 0 : P(T > t + s | T > t) = P(T > s). (35)
Además las distribuciones Exponenciales son las únicas distribuciones a.c. que
verifican esta propiedad.

Prueba: Como {T > t + s} ⊆ {T > t} la propiedad de pérdida de memoria


equivale a
∀t, s ≥ 0 : P(T > t + s) = P(T > t)P(T > s).
Cuando T ∼ Exponencial[λ], se tiene P(T > t) = e−λt por lo que se verifica (35).
Probemos la recı́proca. Sea T v.a. a.c. que verifica la propiedad de pérdida de
memoria
∀t, s ≥ 0 : P(T > t + s) = P(T > t)P(T > s).
Luego la función ϕ(t) = − log P(T > t) es no-negativa para t ≥ 0, es aditiva,
∀t, s ≥ 0 : ϕ(t + s) = ϕ(t) + ϕ(s),
se anula en t = 0 y satisface ϕ(t) → ∞ si t → ∞. Deducimos que ϕ es
lineal, es decir que existe λ ∈ R tal que ϕ(t) = λt para t > 0, y como ϕ
es nonegativa y positiva en algún punto positivo deducimos que lambda > 0.
Luego P(T > t) = e−λt para t ≥ 0, de donde fT (t) = λe−λt 1(0,∞) (t) y se cumple
el resultado. 

Propiedad 50. (a) Si T ∼ Exponencial[λ] entonces λT ∼ Exponencial[1].


(b) Si T1 , .., Tk son independientes con Tl ∼ Exponencial[λl ] para l = 1, .., k
Pk
entonces T = min{T1 , .., Tk } ∼ Exponencial[ l=1 λl ].

Prueba: (a) Si T ∼ Exponencial[λ] entonces T ′ = λT tiene función de densi-


dad fT ′ (t) = fT (t/λ)/λ = e−t para t > 0.
(b) Usando la independencia y Tl ∼ Exponencial[λl ], se obtiene
k
Y
P(min{T1 , .., Tk } > t) = P(Tl > t, l = 1, .., k) = P(Tl > t)
l=1
k
Y Pk
= e−λt = e− l=1 λl t
.
l=1

Luego se tiene el resultado. 

66
La función ⌈·⌉ : R → Z, t → ⌈t⌉ llamada el entero superior se define por ⌈t⌉ = n
si t ∈ (n − 1, n]. Observe que si t > 0 entonces ⌈t⌉ ∈ N.
Ejercicio 15. Sea T ∼ Exponencial[λ] entonces ⌈T ⌉ ∼ Geométrica(1 − e−λ ).
En efecto, como T > 0 entonces ⌈T ⌉ ∈ N. Por otra parte para n ≥ 0 se tiene

P(⌈T ⌉ > n) = P(T > n) = e−λn = (1 − p)n con p = 1 − e−λ .

Y de la Proposición 33 se deduce que ⌈T ⌉ ∼ Geométrica(1 − e−λ ). 

IV. Gamma.
La función Γ : (0, ∞) → (0, ∞) está definida por
Z ∞
Γ(α) = xα−1 e−x dx,
0

(esta integral es finita para α > 0). Ella verifica

Γ(α + 1) = αΓ(α),

y al iterarla para α = n entero positivo y dado que


√ Γ(1) = 1 se obtiene Γ(n) =
(n − 1)! para n ∈ N. Tambien se tiene Γ(1/2) = π.

Definición 51. Sea α > 0. Se dice que la v.a. X ∼ Gamma[α] si es a.c. y


su función de densidad verifica
1 α−1 −x
fX (x) = x e 1(0,∞) (x).
Γ(α)

Por definición de la función Γ se tiene que fX es función de densidad. Note que


para α = 1 se tiene Gamma[1] = Exponencial[1].

Definición 52. Sea α > 0, β > 0. Se dice Y ∼ Gamma[α, β] si la v.a. Y es


a.c. y su función de densidad satisface
β α α−1 −βy
fy (y) = y e 1(0,∞) (y).
Γ(α)

Se tiene que Gamma[α, 1] = Gamma[α]. Es directo de probar que si Y ∼


Gamma[α, β] entonces βY ∼ Gamma[α], por lo que si X ∼ Gamma[α] entonces
β −1 X ∼ Gamma[α, β]. Luego, las propiedades de la distribución Gamma[α, β]
se deducen directamente de las de una Gamma[α].
Colocando α = 1 se chequea directamente que Gamma[1, β] = Exponencial[β].
Por otra parte del Ejercicio 14 se deduce que si Y ∼ N (0, 1). Se tiene que
Y 2 ∼ Gamma[ 12 , 21 ].

67
10 Vectores aleatorios
A Rk lo dotamos de la σ−álgebra de Borel notada B(Rk ). Ella es la σ−álgebra
generada por la familia de productos de intervalos semi-infinitos, es decir
k
Y
B(Rk ) = σ(Lk ) con Lk = { (−∞, xk ] : x1 , ..., xk ∈ R}.
l=1

Esta σ−álgebra tiene propiedades analogas al caso real k = 1. En particular se


tiene
k
Y
Si Cl ∈ B(R), l = 1, ..., k, entonces C = Cl ∈ B(Rk ).
l=1

Definición 53. Un vector aleatorio (vc.a.) es un conjunto finito de variables


aleatorias reales. Luego, si X1 , .., Xk v.a.’s, entonces

(X1 , .., Xk ) : Ω → Rk , ω → (X1 (ω), ..., Xk (ω))

es un vc.a.y lo llamamos de largo k. Para Cl ∈ B(R), l = 1, ..., k tomemos


Qk
C = l=1 Cl . Se tiene
k
\
{(X1 , .., Xk ) ∈ C} = {Xl ∈ Cl : l = 1, ..., k} = {Xl ∈ Cl } ∈ B,
l=1

Y en general,
∀C ∈ B(Rk ) : {(X1 , .., Xk ) ∈ C} ∈ B. (36)

Arriba hemos notado {ω ∈ Ω : (X1 (ω), .., Xk (ω)) ∈ C} = {(X1 , .., Xk ) ∈ C}.
A continuación notemos por ~x = (x1 , .., xk ), ~y = (y1 , .., yk ) vectores columna de
Rk , que se distinguen de los vectores filas que se escriben ~xt . Un vc.a. de largo
k será notado por X~ = (X1 , .., Xk ) siendo las v.a.’s X1 , .., Xk sus componentes
y siempre será considerado como vector columna.

~ ó la ley
Definición 54. Definimos la probabilidad inducida por el vc.a. X
~ es la medidad de probabilidad en (Rk , B(Rk )) dada
de probabilidad del vc.a. X,
por,
P(X~ ∈ ·) : B(Rk ) → [0, 1], C → P((X1 , .., Xk ) ∈ C), (37)
donde P((X1 , .., Xk ) ∈ C) = P(ω ∈ Ω : (X1 (ω), .., Xk (ω)) ∈ C). 

Observemos que la probabilidad inducidas por una v.a. Xl que sea componente
~ se puede recuperar por la ley de probabilidad de este por,
del vc.a. X,

∀Cl ∈ B(R), P(Xl ∈ Cl ) = P(Xl ∈ Cl , Xr ∈ R para r 6= l}.

68
Caso Independiente. Sean X1 , .., Xk v.a.’s independientes entonces X ~ =
(X1 , .., Xk ) es un vc.a. cuya ley de probabilidad en (Rk , B(Rk )) satisface
k
Y k
Y
∀C1 , ..., Ck ∈ B(R), ~ ∈
P(X Ci ) = P(Xl ∈ Cl ),
l=1 l=1
Qk
o de manera más explı́cta P(X1 ∈ C1 , ..., Xk ∈ Ck ) = l=1 P(Xl ∈ Cl ). 

~ analogamente a como
Podemos definir la función de distribución para el vc.a. X
lo hicimos para una v.a. Para ello a continuación notamos por ~x = (x1 , .., xk ),
~y = (y1 , .., yk ) vectores columna de Rk , y usamos el siguiente orden en Rk :
~x ≤ ~y si xl ≤ yl para l = 1, .., k. (Cuando queramos notar vectores filas los
escribiremos ~xt ).

~ = (X1 , ..., Xk )
Definición 55. La función de distribución (multidimensional) de X
es la función
~ ≤ ~x) = P(Xl ≤ xl , l = 1, ..., k).
FX~ : Rk → [0, 1], ~x → FX~ (~x) = P(X

Proposición 56. La función de distribución FX~ satisface las propiedades


siguientes (analogas al caso unidimensional):
(i) FX~ es creciente: ~x ≤ ~y ⇒ FX~ (~x) ≤ FX~ (~y );
(ii) FX~ es continua por la derecha: lim .. lim + FX~ (x1 + h1 , .., xk + hk ) =
h1 ց0+ hk ց0
k
FX~ (x1 , .., xk ) para ~x = (x1 , .., xk ) ∈ R ;
(iii) lim .. lim FX~ (x1 , .., xk ) = 1;
x1 ր∞ xk ր∞

(iv) Para cualquier l ∈ {1, .., k} se tiene, lim FX~ (x1 , .., xk ) = 0.
xl ց−∞

Prueba: La demostración de estas propiedades es similar al caso unidimen-


sional.
~ ≤ ~x} ⊆ {X
(i) Si ~x ≤ ~y entonces {X ~ ≤ ~x) ≤ P(X
~ ≤ ~y }, luego F ~ (~x) = P(X ~ ≤
X
~y ) = FX~ (~y ).
(ii) Para i = 1, ..., k, consideremos sucesiones 0 < hni ց 0+ si n ր ∞, entonces
Qk n
Qk T Qk n
i=1 (−∞, xi +hi ] decrece y se tiene i=1 (−∞, xi ] = n∈N i=1 (−∞, xi +hi ].
Y por la propiedad de continuidad monotona se concluye:
k
Y k
Y
~ ∈
P(X ~ ∈
(−∞, xi ]) = lim P(X (−∞, xi + hni ])
n→∞
i=1 i=1

lo que prueba la continuidad por la derecha.

69
(iii) Es analoga a (ii) pues si para todo i = 1, .., k se tiene xni ր +∞ con n → ∞
entonces
[Y k
Rk = (−∞, xni ]
n∈N i=1

y por continuidad monotona se obtiene 1 = P(Xi < +∞, i = 1, ..., k) =


lim P(Xi ≤ xni , i = 1, ..., k).
n→∞

(iv) Es analoga a (iii) pues si para algún l se tiene xnl ց −∞ cuando n ր ∞,


entonces \ Y
∅= (−∞, xln ] × (−∞, xi ].
n∈N i6=l

Por convergencia monotona se obtiene

0 = P(∅) = lim P(Xl ≤ xnl ; Xi ≤ xi para i 6= l). 


xn
l ց−∞

De manera similar al caso unidimensional la función de distribución FX~ carac-


teriza de manera única la medida de probabilidad P(X~ ∈ ·) inducida por X ~ en
(R, B(Rk ).

Distribución marginal. La distribución de Xl satisface

∀l = 1, .., k; xl ∈ R : FXl (xl ) = FX1 ,..,Xk (.., ∞, xl , ∞...)


= ... lim lim ...FX1 ,..,Xk (..., yl−1 , xl , yl+1 , ...).
yl−1 ր∞ yl+1 ր∞

~ en la coordenada l.
A FXl se le llama función de distribución marginal de X

10.1 Vectores aleatorios absolutamente continuos


Definición 57. Diremos que la función de distribución FX~ es absolutamente
continua (a.c.) si existe fX~ : Rk → R que verifica
Z ∞ Z ∞
fX~ ≥ 0, .. fX~ (x1 , .., xk )dx1 ..dxk = 1, (38)
−∞ −∞

y Z Z
x1 xk
∀~x = (x1 , ..., xk ) ∈ Rk : FX~ (~x) = .. fX~ (~u)du1 ..duk . (39)
−∞ −∞

A esta función fX~ se le llama función de densidad de FX~ . En este caso también
se dice que el vc.a. X~ es a.c. con función de densidad (conjunta) f ~ .
X

70
Nota: A menudo a fX~ se la llama función de densidad conjunta para diferen-
ciarla de las densidades de las funciones de densidad de sus componentes.
Nota 8. Las propiedades dadas por 38 son las que caracterizan una función de
densidad multidimensional. 
~ es a.c. con densidad f ~ se tiene que para C ∈ B(Rk ) se
En el caso en que X X
cumple Z
P(X~ ∈ C) = fX~ (~x)dx1 ...dxk
C
Además para ~x ∈ Rk se verifica
∂ k FX~
fX~ (~x) = (~x).
∂x1 ....∂xk
Se tiene que la función de densidad fX~ de FX~ no es única pues basta modifi-
carla en un punto cualquiera manteniendola no-negativa para que siga siendo
función de densidad asociada a FX~ . En general se puede R modificar en un con-
junto C ∈ B(Rk ) de medida nula, es decir que verifica C dx1 ...dxk = 0 y esta
sigue definiendo la misma función de distribución. En lo que sigue no haremos
particular enfasis sobte esto, solo haremos la identificación.
Al igual que en caso unidimensional, para el vc.a.a.c. X ~ definimos el soporte
SX~ = {~x ∈ Rk : fX~ (~x) > 0}. Se cumple P(X ~ ∈ S ~ ) = 1 pues P(X ~ ∈ Sc ) =
R X ~
X
k
S c f ~
X (~
x )dx 1 ...dx k = 0. Luego para cualquier D ∈ B(R ) con S ~
X ⊆ D se tiene
~
X
~ ∈ D) = 1.
P(X
Notemos que para l = 1, ..., k la función de distribución de Xl está dada por:
para xl ∈ R se tiene
Z ∞ Z xl Z ∞
FXl (xl ) = .. ... f(X1 ,..,Xk ) (u1 , .., ul , .., uk )du1 ..dul ..duk . (40)
−∞ −∞ −∞

Luego la v.a. Xl es a.c. y su función de densidad satisface


dFXl
fXl (xl ) = (xl ) (41)
dx
Z ∞l Z ∞
= ... f(X1 ,..,Xk ) (u1 , ..ul−1 , xl , ul+1 ., uk )du1 ..dul−1 dul+1 ..duk .
−∞ −∞
| {z }
k−1integrales

A FXl y fXl las llamaremos respectivamente la distribución marginal y la den-


sidad marginal en la coordenada l.
En el caso k = 2 se tiene densidad conjunta fX1 ,X2 , la distribución y la densidad
marginales de X1 en x1 son respectivamente
Z x1 Z ∞  Z ∞
FX1 (x1 ) = fX1 ,X2 (x1 , u2 )du2 du1 , fX1 (x1 ) = fX1 ,X2 (x1 , u2 )du2 .
−∞ −∞ −∞

En el caso independiente se tiene la caracterización siguiente,

71
Proposición 58. Sean X1 , .., Xk v.a.’s. Se tiene que ellas son independi-
entes si y solo si las funciones de distribución y la función de densidad conjunta
del vector aleatorio X ~ = (X1 , ..., Xk ) satisfacen:

k
Y
∀~x = (x1 , ..., xk ) ∈ Rk : FX~ (~x) = FXl (xl ). (42)
l=1

~ es vc.a. a.c. entonces las v.a.’s X1 , .., Xk son independientes si y solo si


Si X
k
Y
∀~x = (x1 , ..., xk ) ∈ Rk : fX~ (~x) = fXl (xl ). (43)
l=1

Prueba: Se tiene que X1 , .., Xk son independientes si P(Xl ∈ Cl : l = 1, .., k) =


Qk
l=1 P(Xl ∈ Cl ). Luego tomando Cl = {−∞, xl ] para l = 1, ..., k se deduce que
si X1 , .., Xk son independientes entonces se cumple (42).
Ahora derivando ∂ k /∂x1 ..∂xk se prueba que (42) implica (43). Para la recı́proca
Qk
basta integrar (43) en un conjunto l=1 Cl para probar que
k
Y Z Z k
Y
~ ∈
P(Xl ∈ Cl , l = 1, ..., k) = P(X Cl ) = ... fXl (xl )dx1 ...dxk
l=1 C1 Ck l=1
k Z
Y k
Y
= fXl (xl )dxl = . P(Xl ∈ Cl ).
l=1 Cl l=1

Lo que prueba la independencia. 


Nota. De lo anterior se tiene que si X1 , .., Xk son v.a.’s independientes a.c. con
funciones de densidad fX1 , ..., fXk respectivamente, entonces el vector aleatorio
X~ = (X1 , ..., Xk ) tiene función de densidad conjunta

k
Y
fX~ (~x) = fXi (xi ), ~x = (x1 , ..., xk ) ∈ Rk .
i=1

~ = (X1 , .., Xk ) vc.a. a.c. con función de densidad


Ejercicio 18. Sea X
Pk 2
i=1 xi
fX~ (~x) = (2π)−k/2 e− 2 , ~x ∈ Rk ,

entonces X1 , .., Xk son v.a.’s i.i.d. con Xi ∼ N(0, 1). En efecto, se cumple
k
Y 1 x2i
fX~ (~x) = √ e− 2
i=1

72
es decir
k
Y 1 x2i
fX~ (~x) = fXi (xi ) con fXi (xi ) = √ e− 2 .
i=1

Observemos que P la densidad conjunta se escribe en términos de la norma eu-
k
clideana ||~x|| = ( i=1 x2i )1/2 , en efecto
x||2
||~
fX~ (~x) = (2π)−k/2 e− 2 .

10.2 Teorema de cambio de variables multidimensional


Sea D ⊆ Rk abierto y

h : D → Rk , con h = (h1 , .., hk ), hl : D → R, h(~x) = (h1 (~x), .., hk (~x)).

Supondremos que h es continuamente diferenciable en D, esto es


∂hj
∀i, j = 1, .., n ∃ (~x), y es continua en D.
∂xi
Notemos la matriz Jacobiana por
∂hj
∂ h(~x) = ( (~x) : i, j = 1, .., k).
∂xi
El determinante Jacobiano es:

J(~x) = | det ∂ h(~x)|.

Si h(D) ⊆ Rk es abierto y h : D → h(D) es biyectiva con ∂ h(~x) invertible para


todo ~x ∈ D, se tiene J(~x) 6= 0 si ~x ∈ D. En este caso la inversa h−1 : h(D) → D
es a derivadas continuas y se cumple el teorema de cambio de variables: para
todo f : D → R Boreliana se cumple,
Z Z
∀C ∈ B(h(D)) : f (~x)dx1 · · · dxk = f (h−1 (~y ))|J(h−1 (~y ))|−1 dy1 · · · dyk . (44)
h−1 (C) C

En caso J(~x) 6= 0 para ~x ∈ D, se tiene que h : D → h(D) es invertible local-


mente, esto es para todo ~x ∈ D existe ǫ(~x) > 0 tal que la bola abierta Bǫ (~x) cen-
trada en ~x de radio ǫ(~x) está contenida en D y verifica h : Bǫ(~x) (~x) → h(Bǫ(~x) (~x))
es biyectiva.
Recordemos que los vectores y vectores aleatorios los estamos notando como
vectores columnas.

73
~ = (X1 , .., Xk ) vc.a.a.c. con función de densidad f ~ .
Teorema 59. Sea X X
Sea D abierto con P(X ~ ∈ D) = 1. Sea h : D → Rk , ~x → (hl (~x) : l = 1, .., k).
~ ~ = h(X)
Considere el vc.a. Y = (Y1 , ..., Yk ) definido por Y ~ es decir tal que
~ i = 1, ..., k.
Yi = hi (X),
Asuma que h es una función a derivada continua tal que J(~x) 6= 0 para ~x ∈ D.
Asumamos que D se particionar en un conjunto numerable de abiertos (Vi : i ∈
I) tal que h : Vi → h(Vi ) es biyectiva. Entonces, el vc.a. Y ~ = h(X) ~ es a.c. y su
función de densidad fY~ verifica
X
∀~y ∈ h(D) : fY~ (~y ) = |J(~xy~ )|−1 fX (xy ) (45)
−1 (~
~
xy~ ∈h y)

∀~y 6∈ h(D) : fY~ (~y ) = 0. (46)

En particular si h es inyectiva se tiene

∀~y ∈ h(D) : fY~ (~y ) = |J(h−1 (~y ))|−1 fX~ (h−1 (~y )). (47)

Prueba: Si h(D) ⊆ Rk abierto y h : D → h(D) es biyectiva con ∂ h(~x)


invertible para todo ~x ∈ D, deducimos de (44) que para C ∈ B(h(D)) se cumple:
Z
P(Y~ ∈ C) = P(h(X) ~ ∈ C) = P(X ~ ∈ h−1 (C)) = fX~ (~x)dx1 · · · dxk
h−1 (C)
Z
= fX~ (h−1 (~y ))|J(h−1 (~y ))|−1 dy1 · · · dyk .
C

De donde obtenemos (47). La demostración del caso no inyectivo verlo en el


Apunte del Curso de Probabilidades.

Cambo de variables lineal afin. Sea h : Rk → Rk , ~x → h(~x) = A~x + ~b,


una transformación lineal afin con A invertible, entonces h es invertible con
6 0. Se cumple h−1 (~y ) = A−1 (~y −~b). Luego si X
|J(~x)| = | det(A)| = ~ es vc.a. a.c.
con función de densidad conjunta fX~ , entonces el Y~ = AX ~ +~b (con componentes
Pk
Yi = j=1 Ai,j Xj + bi , i = 1, ..., k) es a.c. con función de densidad conjunta

∀~y ∈ Rk : fY~ (~y ) = | det(A)|−1 fX~ (A−1 (~y − ~b)). (48)

Ejercicio 19. Sean X, Y v.a.’s i.i.d. con X, Y ∼ N(0, 1). Luego f( X, Y )(x, y) =
x2 +y 2
(2π)−1 e− 2 . Sean
√ √
V = (X + Y )/ 2, W = (X − Y )/ 2.

Probemos que V, W son v.a.’s i.i.d. con V, W ∼ N(0, 1). Para ello consideremos
√ √
h(x, y) = ((x + y)/ 2, (x − y)/ 2))

74
esto es h(x, y) = A(x, y) siendo (x, y) un vector columna, y A la matriz (de
rotación),  √ √ 
1/√2 1/ √2
A= .
1/ 2 −1/ 2
se cumple (V, W ) = A (X, Y ) (los vectores son columna). Se cumple | det(A)| =
1. Luego la densidad conjunta de (V, W ) es

fV,W (v, w) = fX,Y (A−1 (v, w)).

Se tiene A−1 = A, luego


√ √
h−1 (u, v) = (x, y) con x = (u + v)/ 2, y = (u − v)/ 2.

Finalmente de la fórmula
1 
x2 + y 2 = (x + y)2 + (x − y)2 = v 2 + w2 ,
2
v 2 +w2
se deduce fV,W (v, w) = f( X, Y )(v, w) = (2π)−1 e− 2 y se tiene el resultado.


Una generalización directa de este ejercicio es:


Ejercicio 20. Sean X ~ = (X1 , .., Xk ) siendo las v.a.’s X1 , ., Xk i.i.d. Xl ∼
N(0, 1). Sean A una matriz de dimensión k×k, que es ortogonal, es decir verifica
A At = Id = At A, siendo Id la matriz identidad y At la matriz transpuesta de
A, esto es A−1 = At .
~ .., Yk =
Notemos por Al,• la fila l−ésima de A. Entonces, las v.a.’s Y1 = A1,• X,
~
Ak,• X son i.i.d. con Yl ∼ N(0, 1) para l = 1, .., k.
Para probarlo notemos que | det(A) = det(At ) = | det(A−1 )| luego | det(A)| = 1.
Por otra parte si ~y = A~x entonces,
k
X k
X
yl2 = ~y t ~y = ~xt At A~x = ~xt ~x = x2l . (49)
l=1 l=1
Pk 2
Luego, dado que X~ tiene densidad f ~ (~x) = (2π)−k/2 e− l=1 xl /2 , por el teorema
X
~ = AX
de cambio de variables obtenemos que el vector aleatorio Y ~ tiene densidad

Pk k
Y
yl2 /2 2
fY~ (~y ) = (2π)−k/2 e− l=1 = (2π)−1/2 e−yl /2 .
l=1

Y se concluye el resultado. 

75
Definición 60. Sean f, g dos funciones de densidad f, g. Su convolución es
Z ∞
f ∗ g(x) = f (x − y)g(y)dy, x ∈ R.
−∞

Se tiene que f ∗ g es una función de densidad pues tomando u = x − y,.


Z ∞ Z ∞ Z ∞ 
f ∗ g(x)dx = f (u)g(y)dy du = 1.
−∞ −∞ −∞

Es fácil verificar que la convolución ∗ es conmutativa, es decir se cumple


Z ∞
f ∗ g(x) = f (y)g(x − y)dy, x ∈ R.
−∞

La convolución tambien es asociativa.

Propiedad 61. Sean X1 , .., Xk v.a.’s a.c. independientes


P
con funciones
k
de densidad fX1 , .., fXk respectivamente. Entonces Z = i=1 Xi es a.c. con
función de densidad es la convolución de las densidades:
fZ = fX1 ∗ · · · ∗ fXk .

Prueba: Por asociatividad basta probar la propiedad para dos variables aleato-
rias X, Y independientes. Notemos sus funciones de densidad por fX , fY re-
spectivamente. Luego la función de densidad del vector aleatorio (X, Y ) es
fY,Y (x, y) = fX (x) · fY (y) para x, y ∈ R. Consideremos el vector aleatorio
(U, V ) = h(X, Y ) con h(x, y) = (x + y, y) es decir U = X + Y 
, V = Y .Se tiene
1 1
que h es una transformación lineal (u, v) = A(x, y) con A = . Como
  0 1
1 −1
A−1 = . se tiene
0 1
fU,V (u, v) = fX,Y (u − v, v) = fX (u − v)fY (v).
Como fX+Y = fU es la densidad buscada y ella es la densidad marginal de fU,V
en la primera componente, se tiene
Z ∞ Z ∞
fX+Y (u) = fU (u) = fU,V (u, v)dv = fX (u − v)fY (v)dv = fX ∗ fY (u).
−∞ −∞

Una variable de importancia en estadśtica es la siguiente.


Definición 62. Si X, Z sin variables independientes entre sı́ con X ∼ N(0, 1),
Z ∼ χm entonces
X
T =p
Z/m
es una v.a. que se dice distribuı́da según una t de Student con m grados de
libertad y lo notamos T ∼ tm Student

76
Probar que una v.a. T ∼ tm Student tiene una densidad
 −(m+1)/2
Γ((m + 1)/2) t2
fT (t) = √ 1+ .
mπΓ(m/2) m

La v.a. T ∼ tm Student es simétrica (con respecto a 0).

10.3 Densidad Condicional


10.4 Densidad y Esperanza Condicional para v.a.’s disc-
retas
Asumamos k ≥ 2. Sean X1 , .., Xk v.a.’s discretas tomando valores en el conjunto
I ⊂ R. Su densidad discreta es

pX1 ,..,Xk (a1 , .., ak ) = P(X1 = a1 , .., Xk = ak ), a1 , .., ak ∈ I.

La densidad condicional de Xk | X1 = a1 , .., Xk−1 = ak−1 , que llamamos la


densidad condicional de Xk dado X1 = a1 , .., Xk−1 = ak−1 está dada por
pX1 ,..,Xk (a1 , .., ak−1 , b)
P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ) = b ∈ I.
pX1 ,..,Xk−1 (a1 , .., ak−1 )

Se tiene que P(Xk = · | X1 = a1 , .., Xk−1 = ak−1 ) es una densidad discreta en I


pues X
P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ) = 1.
b∈I

Notemos que

P(X1 = b1 , .., Xk−1 = bk−1 , Xk = b | X1 = a1 , .., Xk−1 = ak−1 )


= 1(b1 = a1 , .., bk−1 = ak−1 )P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ). (50)

10.5 Densidad condicional para v.a.’s absolutamente con-


tinuas
Caso bidimensional
Consideremos el vector aleatorio bidimensional (X, Y ) con función de densidad
fX,Y (x, y), x, y ∈ R.
Definición 63. Se define la densidad condicional de Y dado X = x, notada
por fY (· | X = x, que al evaluarla en y ∈ R es
fX,Y (x, y)
fY (y | X = x) =
fX (x)
donde fX (x) es la densidad de X en x.

77
Dado que la densidad marginal de X verifica
Z ∞
fX (x) = fX,Y (x, y)dy,
−∞

swe deduce que la densidad condicional fY (· | X = x es una densidad, es decir


verifica
Z ∞ Z ∞
1 fX (x)
fY (y | X = x)dy = fX,Y (x, y)dy = = 1.
−∞ fX (x) −∞ fX (x)

Caso k−dimensional. Asumamos k ≥ 2. Sean X1 , .., Xk v.a.’s a.c. en R con


densidad conjunta
fX1 ,..,Xk (x1 , .., xk ), (x1 , .., xk ) ∈ Rk .
La densidad condicional de Xk | X1 = x1 , .., Xk−1 = xk−1 , que llamamos la
densidad condicional de Xk dado X1 = x1 , .., Xk−1 = xk−1 y que notamos
fXk (· | X1 = x1 , .., Xk−1 = xk−1 está dada por
fX1 ,..,Xk (x1 , .., xk−1 , xk )
fXk (xk | X1 = x1 , .., Xk−1 = xk−1 ) = , xk ∈ R.
fX1 ,..,Xk−1 (x1 , .., xk−1 )
R∞
Ella es densidad pues fX1 ,..,Xk−1 (x1 , .., xk−1 ) = −∞ fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )dxk
implica Z ∞
fXk (xk | Xl = xl , l = 1, .., k − 1)dxk = 1.
−∞

Extensión en caso bidimensional. Extendamos y profundicemos lo anterior y si


bien lo haremos solo en el caso bidimensional, se extiende directamente al caso
multidiemnsional. Sea (X, Y ) vector aleatorio con función de densidad conjunta
f , cuyo valor en (x, y) ∈ R2 es f (x, y) (la densidad conjunta la notamos f para no
tener confusión en lo que sigue). Las densidades marginales en sus componentes
las notamos f1 y f2 respectivamente. Ası́ pues
Z ∞
f1 (x) = f (x, y)dy.
−∞

Queremos darle sentido a la densidad condicional de (X, Y ) dado X, esta la


notamos f (· | X) y está dada por
f (X, Y )
f (· | X) = .
f1 (X)
Es decir, en el cociente evaluamos la denidad conjunta en en el vector aleatorio
y la densidad marginal se efectua y evalua en la variable alatoria con respecto
a la cual condicionamos. Notemos que a partir de f (·|X) y f1 obtenemos la
densidad conjunta f por
f (x, y) = f (y | x)f1 (x)

78
y la función de densidad marginal f2 de Y está dada por
Z ∞ Z ∞
f2 (y) = f (x, y)dx = f (y | x)f1 (x)dx.
−∞ −∞

La notación introducida nos permite abordar problemas con enunciado como el


que sigue.

Ejercicio. Considere U ∼ Uniforme(1/2, 1), y Y ∼ Exponencial(U ). Calcule la


función de densidad de Y .
La densidad de U es f1 (u) = 21(1/2,1) (u) y la densidad condicional de Y dado
U está dada por
f (y | u) = ue−uy 1(0,∞) (y),
y la función de densidad conjunta de (U, Y ) notada por f es,

f (u, y) = f (y | u)f1 (u) = f (y | u)1(1/2,1) (u)1(0,∞) (y).

Luego f − s(y) = 0 swi y ≤ 0, para y > 0 se tiene,


Z ∞  Z 1 
−uy −uy
f2 (y) = ue 1(0,1) (u) = ue du
−∞ 0
 Z 1 
u 1 1
= − e−uy +( e−uy du
y 1/2 y 0
 
e −y/2
e−y 1 1 1  
= − − 2 e−uy = (y/2 + 1)e −y/2
− (y + 1)e −y
.
2y y y 1/2 y2


Lo anterior también se emplea para combinar variables discretas y absoluta-
mente continuas como ilustramos a continuación.

Ejercicio. Considere U ∼ Uniforme(0, 1), y Y ∼ Bernoulli(U ). Calcule la ley


de probabilidad de Y .
Del enunciado se tiene,

P(Y = 1 | U = u) = u, P(Y = 0 | U = u) = 1 − u.

Luego
Z ∞ Z 1
1
P(Y = 1) = P(Y = 1 | U = u)1(0,1) (u)du = udu =
−∞ 0 2
1
P(Y = 0) = 1 − P(Y = 1) = . 
2

79
11 Esperanza de variables aleatorias
La esperanza ó valor esperado de una variable aleatoria la definiremos primero
para las variables aleatorias discretas, y ellas correponden a la linearización
de la probabilidad. Obtendremos ciertas propiedades, creciemte y lineal, que
permitirán extenderesta noción a variables aleatorias generales.
La esperanza o valor esperado de una v.a. X, que se nota E(X), es el valor
medio teórico de la v.a. Para definirla supongamos primero que X : Ω → I es
simple, esto significa que su conjunto de valores I es finito.

Definición 64. Definimos la esperanza o valor esperado de la v.a. X : Ω → I


simple, es decir con I finito, por
X X
E(X) = a P(X = a) = a pX (a). (51)
a∈I a∈I

Nota 65. La esperanza E(X) solo depende de la densidad pX . De hecho si


p = (p1 , .., pk ) es un vector de probabilidad, la media de los valores a1 , .., ak
Pk
reales ponderados por p es m = l=1 ak pk . Luego la esperanza es la media de
los valores tomados por una v.a. simple ponderados por su densidad discreta.


Si Xa ≡ aentonces podemos tomar I = {a} con lo que E(Xa ) = a P(X = a) = a.


Recordemos que para A ∈ B su función indicadora 1A : Ω → {0, 1} está dada
por (
1 si ω ∈ A,
1A (ω) =
0 si ω 6∈ A,
Si X = 1A se tiene E(X) = 1 · P(X = 1) + 0 · P(X = 0), luego E(1A ) = P(A). Es
por ello que se dice que la esperanza extiende la medida de probabilidad desxe
los conjuntos a las v.a.’s.
Si X : Ω → I es una v.a. discreta, usando indicadoras se puede escribir,
X
X= a · 1{X=a} .
a∈I

En efecto, tomemos ω ∈ Ω y supongamos que X(ω) = a0 . Luego ω ∈ {X = a0 }


y se tiene 1{X=a0 } (ω) = 1, y 1{X=a} (ω) = 0 si a 6=P
a0 . De donde al evaluar la
suma del lado derecho en ω nos entrega la igualdad a∈I a1{X=a} (ω) = a0 · 1 =
a0 = X(ω). Luego si X : Ω → I v.a. con I finito se tiene
X X
E( a · 1{X=a} ) = a · P(X = a).
a∈I a∈I

80
Definamos ahora la esperanza para X : Ω → I v.a. discreta donde I ⊂ R es un
conjunto numerable discreto infinito. Siempre que podamos definir la esperanza
esta tendrá la forma X
E(X) = aP(X = a),
a∈I

pero ella toma valores en R ∪ {∞, −∞}.


P
Si I ⊂ R+ , es decir X ≥ 0,la cantidad E(X) = a∈I aP(X = a) ∈ [0, ∞] está
bien definida pudiendo ser ∞ cuando la suma anterior no converge.
P
Si I ⊂ R− , es decir X ≤ 0,la cantidad E(X) = a∈I aP(X = a) ∈ [−∞, 0] está
bien definida pudiendo ser −∞.
Consideremos el caso general X : Ω → I con I ⊂ R numerable infinito.
Tomemos I+ = I ∩ R+ , I− = I ∩ R− . Si
X X
aP(X = a) < ∞ ó (−a)P(X = a) < ∞,
a∈I+ a∈I−

decimos que E(X) existe y se tiene


X X X
E(X) = aP(X = a) + aP(X = a) = aP(X = a),
a∈I+ a∈I− a∈I

la ∪ {−∞, ∞}. Se tiene que E(X) es finita si y solo si


P que toma valores en R P
a∈I+ aP(X = a) < ∞ y a∈I− (−a)P(X = a) < ∞. Como
X X
E(|X|) = aP(X = a) + (−a)P(X = a),
a∈I+ a∈I−

se deduce
E(X) es finita ⇔ E(|X|) < ∞.
De ahora en adelante cuando para una v.a. discreta X escribamos E(X) supon-
dremos que esta esperanza es finita, es decir E(X) ∈ R.
En lo que sigue identificamos la v.a. constante X ≡ a con la constante a.

Ahora definamos la esperanza en el caso general. Si X es v.a. tal que X ≥ 0


entonces se probó en el Apéndice 19 que existe una sucesión creciente de v.a.’s
simples no-negativas (Xn : n ∈ N) tal que X = lim ր Xn . Se define E(X)
n→∞
por,
E(X) = lim ր E(Xn ) ∈ [0, ∞].
n→∞

Se prueba que esta relación define bien la esperanza de X, es decir no depende


de la sucesión de v.a.’s simples no-negativas que converjan en forma creciente a
X.

81
Sea X v.a. Sus partes positivas y negativas son X + = max(X, 0), X − =
max(−X, 0). Se cumple X + ≥ 0 y X − ≥ 0 y X + (ω) > 0 implica X − (ω) = 0,
X − (ω) > 0 implica X + (ω) = 0. Se tiene
X = X + − X −.
Si E(X + ) < ∞ ó si E(X − ) < ∞ se define la esperanza
E(X) = E(X + ) − E(X − ).
Además se satisface
|X| = X + + X − , E(|X|) = E(X + ) + E(X − ).
Luego se tiene E(X) ∈ R finita si y solo si E(|X|) < ∞.

Teorema 66. Para las v.a’s de esperanza finita se verifica las propiedades
siguientes.
(a) E(a) = a, en particular E(E(X)) = E(X) (idempotencia).
(b) Para B ∈ B se tiene E(1B ) = P(B).
(c) Si X, Y tienen esperanza finita y X ≤ Y entonces E(X) ≤ E(Y ) (monótona).
En particular: X ≥ 0 implica E(X) ≥ 0.
(d) Si X, Y v.a.’s de esperanza finita, α, β ∈ R, entonces
E(αX + βY ) = αE(X) + βE(Y ) lineal.
(e) E(X − E(X)) = 0.
(f ) Si X es v.a. simple y h : R → R entonces se satisface
X
E(h(X)) = h(a)P(X = a). (52)
a∈I

Ahora cobnsideremosh : R → R es función convexa, entonces para X v.a. con


esperanza finita se cumple,
h(E((X)) ≤ E(h(X)) desigualdad de Jensen. (53)
Si h es estrictamente convexo la desigualdad es estricta salvo si X es una v.a.
constante.
(g) Se tiene    
X ≥ 0, E(X) = 0 ⇒ P(X = 0) = 1 . (54)
En particular E(|X|) = 0 implica P(X = 0) = 1
(h) Si X1 , .., Xn son v.a.’s independientes, entonces
n
Y n
Y
E( Xi ) = E(Xl ). (55)
l=1 l=1

82
Prueba: Las partes (a) y (b) ya fueron hechas.
Sólo desmotraremos el caso de v.a.’s simples. El caso general se prueba en el
Apéndice 20. Se prueba para las v.a.’s no-negativas, luego se extiende al caso
general con la representación X = X + − X − .
Para mostrar las propiedades en el caso
P de v.a.’s simples X,
P Y es útil la escritura
de estas en la forma siguiente X = a∈I a1{X=a} , Y = b∈I b1{Y =b} . Como
[ [
{X = a} = {X = a, Y = b}, {Y = b} = {X = a, Y = b}
b∈I a∈I

se tiene: X X
X= a1{X=a,Y =b} , Y = b1{X=a,Y =b} . (56)
a,b∈I a,b∈I

Y obtenemos,
X X
E(X) = aP(X = a, Y = b), E(Y ) = bP(X = a, Y = b).
a,b∈I a,b∈I

(c) En el caso X ≤ Y se tiene que {X = a, Y = b} = 6 ∅ implica a ≤ b, y se


deduce E(X) ≤ E(Y ).
P
(d) Se tiene αX + βY = a,b∈I (α a + β b)1{X=a,Y =b} luego
X
E(αX + βY ) = (α a + β b)P(X = a, Y = b)
a,b∈I
X X
= α a P(X = a, Y = b) + β b P(X = a, Y = b)
a,b∈I a,b∈I
X X
= α a P(X = a) + β b P(Y = b) = αE(X) + βE(Y ).
a∈I b∈I

(f ) Para la primera S
parte se tiene que h(X) toma valores en h(I). Se tiene la
unión disjunta I = b∈h(I) h−1 {b} (recordemos que a ∈ h−1 {b} si h(a) = b.
Luego.
X X
E(h(X)) = bP(h(X) = b) = b P(X ∈ h−1 {b}))
b∈h(I) b∈h(I)
 
X X X
=  h(a)P(X = a) = h(a)P(X = a).
b∈I a∈h−1 ({b}) a∈I

Si h es convexa para x0 ∈ D existe una recta {(x, a+bx} pasando por (x0 , h(x0 ))
y tal que la curva {(x, h(x)) : x ∈ D} queda sobre la recta, es decir a+bx ≤ h(x)
(en caso h estrictamente convexo la curva está estrictamente sobre la recta
excepto en el punto de interseccón). Como (x0 , h(x0 )) está en la recta se tiene
a + bx0 = h(x0 ), por lo que la condición es
h(x0 ) + b(x − x0 ) ≤ h(x).

83
P
Ahora bien, como E(X) = a∈I aP(X = a), por ser D convexo se tiene E(X) ∈
D, luego podemos tomar x0 = E(X). Evaluemos la relación anterior en la v.a.
X, luego nos queda

h(E(X)) + b(X − E(X)) ≤ h(X).

Tomemos E a estas v.a.’s y usemos las propiedades (b), (c), (d), para obtener
h(E(X)) ≤ E(h(X)).
Si h es estrictamente convexa y P(X − E(X) = 0) < 1 se tendrá P(h(E(X)) +
b(X − E(X)) < h(X)) > 0 y la desigualdad de Jensen será estricta.
P
(g) Como X ≥ 0 se tiene X = a∈I a 1{X=a} para I ⊆ R+ . Como E(X) =
suma∈I a P(X = a) deducimos que si para a > 0 se tiene P(X = a) > 0 entonces
E(X) > 0.
(h). Sean X1 , ..., Xn v.a.’s discretas a valores en I independientes entre sı́.
Qn−1
Luego las v.a.’s X = l=1 Xl , Y = Xn son independientes. De donde, por
un argumento inductivo basta probar el resultado para n = 2. Sean pues X, Y
v.a.’s discretas independientes, esto es

∀a, b ∈ I : P(X = a, Y = b) = P(X = a)P(Y = b).

Usando la representación (56) se tiene


X
X ·Y = a · b 1{X=a,Y =b} .
a,b∈I

Luego,
X X
E(X · Y ) = a · b P(X = a, Y = b) = a · b P(X = a)P(Y = b)
a,b∈I a,b∈I
! !
X X
= a P(X = a) b P(Y = b) = E(X)E(Y ),
a∈I b∈I

donde en la segunda igualdad usamos la independencia. Esto prueba el resul-


tado. 

Nota. A la v.a. X − E(X) se le llama v.a. centrada, su esperanza es nula,


E(X − E(X)) = 0 (ver propiedad (e)).

Ejercicio 15. Sea p = (p1 , .., pk ) un vector de probabilidad. La entropı́a de


Shannon de p está dada por
k
X
H(p) = − pi log pi .
i=1

Mostremos que H(p) ≤ log k y éste máximo se alcanza en el vector uniforme


pu = (1/k, .., 1/k) (y solo en él).

84
Tomemos X v.a. simple tal que P(X = pi ) = k −1 para i = 1, .., k. Luego
E(X) = k −1 . Por otra parte la función ϕ : [0, 1] → R+ , x → −x log x se
anula en los extremos, es continua y es estrictamente cóncava (basta mostrar
que su segunda derivada es estrictamente negativa en (0, 1)). Luego, usando la
desigualdad de Jensen, parte (f ) del Teorema 66, se tiene

E(ϕ(X)) ≤ ϕ(E(X)) = ϕ(k −1 ) = k −1 log k

Como E(ϕ(X)) = k −1 H(p) se tiene la desigualdad. Por otra parte H(pu ) = log k
para pu = (1/k, .., 1/k), y la unicidad del máximo se deduce de la estricta
concavidad. 

Nota. La esperanza de una v.a. X solo depende de la ley de probabilidad PX


que X induce en R. Como PX está definida por FX , se obtiene que E(X) se
puede escribir en términos de FX . También E(h(X)) se escribe en términos de
FX . En efecto, para X v.a. y h función Boreliana, se tiene,
Z ∞
E(h(X)) = h(x)dFX (x).
−∞

Nota 67. Si h es continua y acotada y las integrales de Riemann-Stieltjes de


h y |h| con respecto a FX existen y son finitas, entonces la expresión anterior
coincide con la integral de Riemann-Stieltjes de h con respecto a FX .

Recordamos que la integrales de Riemann-Stieltjes de h existe y es finita, si los


lı́mites siguientes existen y son finitos,
Z ∞ Z b
h(x)dFX (x) = lim h(x)dFX (x) con
−∞ aց−∞,bր∞ a
Z b n
X
h(x)dFX (x) = lim + h(yi )(FX (xk+1 ) − FX (xk )),
a ∆n →0
k=0

donde a = x0 < x1 < ... < xn = b, yi ∈ [xi , xi+1 ], ∆n = max{xi − xi−1 : i =


1, .., n}. 
P
Lo probaremos solo
P en el caso en que X es v.a. simple. Sea X = a∈I a 1{X=a} .
Entonces FX = a∈I:a P(X = a)H(·−a), siendo H(·−a) la función de Heaviside
trasladada en a, de donde
Z X Z X
h(x)dFX (x) = P(X = a) h(x)dH(· − a)(x) = P(X = a)h(a)
a∈I a∈I
= E(h(X)).

85
Propiedad 68. Si X es v.a. a.c. con densidad fX . Como dFX (x) =
fX (x)dx, se tiene Z ∞
E(X) = xfX (x)dx
−∞

y si h : R → R es función Boreliana y h(X) tiene esperanza finita entonces


Z ∞
E(h(X)) = h(x)fX (x)dx.
−∞

Nota: Si las v.a.’s X e Y tienen Rigual distribuci’on, FX = FY , entonces



E(h(X)) = E(h(Y )) pues E(h(X)) = −∞ h(x)dFX (x).

86
12 Momentos, Varianza, Covarianza, Correlación
12.1 Momentos, Varianza
Sea r ∈ N. Cuando E(|X|r ) < ∞ la cantidad E(X r ) es finita y se llama el
momento de orden r de X.
La desigualdad de Jensen es h(E(X) ≤ E(h(X)) cuando h : R → R es convexa.
Se tiene que para α ≥ 1 la función h(x) = xα es convexa y es estrictamente
convexa si α > 1. Consideremos r ≥ s > 0 luego r/s ≥ 1 por lo que la función
h(x) = xr/s es convexa en R+ . Como |X|r = (|X|s )r/s obtenemos aplicando la
desigualdad de Jensen a h(x) = xr/s para x ≥ 0:
 
r/s
E(|X|r ) = E (|X|s )r/s ) ≥ (E(|X|s )) .

Y deducimos

E(|X|r ) < ∞ ⇒ E(|X|s ) < ∞ para s = 1, ..., r; (57)

es decir si el momento de orden r es finito todos los momentos de orden menor


o igual a r son finitos. Para las v.a.’s simples (que toman un número finito de
valores) los momentos siempre son finitos.
Si µ = E(X) es finita podemos analizar los momentos centrados E((X − µ)r ),
para r ∈ N, ellos son finitos cuando E(|X − µ|r ) < ∞.
Por la desigualdad de Jensen se tiene E(X)2 ≤ E(X 2 ) < ∞.

Definición 69. Si E(X 2 ) < ∞, la varianza de X es el segundo memento


centrado, esto es
Var(X) = E((X − E(X))2 ).
Como (X − E(X))2 ≥ 0 se tiene Var(X) ≥ 0. 

Para v.a.’s simples la varianza está bien definida y es finita pues E(X 2 ) es finita.
Desarrollando el término (X − E(X))2 = X 2 − 2E(X)X + E(X)2 y usando la
linealidad de E se obtiene

Var(X) = E(X 2 ) − E(X)2 .

Además como la función h(x) = x2 es estrictamente convexa se tiene que


E(X 2 ) = E(X)2 solo si X es v.a. constante, luego

Var(X) = 0 ⇔ P(X = E(X)) = 1 ⇔ X = constante.

Esta última igualdad se satisface pues si una v.a. es constante entonces nece-
sariamente la constante es su esperanza.

87
Propiedad 70. Para α, β ∈ R se tiene
Var(α + βX) = β 2 Var(X) = Var(βX). (58)

Prueba: Se tiene E(α + βX) = α + βE(X), luego (α + βX) − E(α + βX) =


β(X − E(X)) de donde
2
((α + βX) − E(α + βX)) = β 2 (X − E(X))2

y deducimos
2
Var(α + βX) = E ((α + βX) − E(α + βX)) = β 2 Var(X) = Var(βX).

Ejercicio 16. Si Y ∼ Bernoulli(p), para r > 0 se tiene Y r = Y pues Y solo


toma valores 0 y 1. Luego, para r ≥ 1 se satisface E(Y ) = E(Y r ) = p y
Var(Y ) = E(Y 2 ) − E(Y )2 = p − p2 = p(1 − p).

Los parámetros de las v.a. Normales están dados por la media y la varianza.

Propiedad 71. Si X ∼ N(µ, σ 2 ) entonces µ = E(X), σ 2 = Var(X).

Prueba: Si Z ∼ N(0, 1) entonces por cambio de variables lineal afin se tenia


X = µ + σZ ∼ N(µ, σ 2 ). Luego, por linealidad y por la relación (58) se tiene

E(X) = µ + σE(Z), Var(X) = σ 2 Var(Z).

Luego basta probar que si Z ∼ N(0, 1) entonces E(Z) = 0 y Var(Z) = 1.


x2
Se tiene que E(Z) es finita. Por simetrı́a de la densidad fZ (x) = √12π e− 2 en
torno a x = 0 se prueba que E(Z) = 0. En efecto, usando integración por partes
se satisface
Z ∞ Z 0 Z ∞
E(Z) = xfZ (x)dx = xfZ (x)dx + xfZ (x)dx
−∞ −∞ 0
Z ∞ Z ∞
= − xfZ (x)dx + xfZ (x)dx = 0.
0 0

Notemos que la expresión anterior es suma (resta) de cantidades finitas pues


R ∞ − x2
√1 xe 2 dx < ∞.
2π 0

Por otra parte como E(Z) = 0 se tiene


Z ∞ Z ∞ Z ∞
1 x2 1 x2 1 x2
Var(Z) = √ x2 e− 2 dx = − √ d(xe− 2 ) + √ e− 2 dx
2π −∞ 2π −∞ 2π −∞
  ∞
Z ∞
1 x 2 1 x 2
= −√ xe− 2 +√ e− 2 dx = 1.
2π −∞ 2π −∞


88
Propiedad 72. Supongamos E(X 2 ) < ∞. Entonces c = E(X) es el real
para el cual se realiza el mı́nimo de la función deviación cuadrática:

ϕ(c) = E((X − c)2 ), c ∈ R;

y este mı́nimo es la varianza: Var(X) = ϕ(E(X)). 

Prueba: Desarrollando se tiene

ϕ(c) = E(X 2 − 2cX + c2 ) = E(X 2 ) − 2cE(X) + c2 .

Luego ϕ′ (c) = −2cE(X) + 2c. Se tiene ϕ′′ (c) = 2, por lo que ϕ(c) es estricta-
mente convexa y la condición ϕ′ (c) = 0 caracteriza su mı́nimo. Luego el mı́nimo
se alcanza en c = E(X), y en este valor se tiene ϕ(E(X)) = Var(X). 

Proposición 73. Sean X1 , .., Xn v.a.’s independientes con E(Xk2 ) < ∞ para
k = 1, ..., n. Entonces la varianza de la suma es la suma de las varianzas, esto
es
Xn Xn
Var( Xk ) = Var(Xk ). (59)
k=1 k=1

Además, para α, β1 , .., βn ∈ R, se obtiene


n
X n
X
Var(α + βk Xk ) = βk2 Var(Xk ). (60)
k=1 k=1

Prueba: Observemos que nos basta probar (59). En efecto al usar (58) se
puede considerar α = 0 en (60) y al tomar Yk = βk Xk en (59) se obtiene (60).
Además, por inducii’on basta probarlo para el caso k = 2.
Se tiene E(X1 + X2 ) = E(X1 ) + E(X2 ), de donde
 
2
Var(X1 + X2 ) = E ((X1 − E(X1 )) + (X2 − E(X2 ))) .

Desarrollando se obtiene

Var(X1 + X2 ) = E((X1 − E(X1 ))2 ) + 2E((X1 − E(X1 ))(X2 − E(X2 )))


+ E((X2 − E(X2 ))2 )
= Var(X1 ) + E((X1 − E(X1 ))(X2 − E(X2 )) + Var(X2 ).

Por independencia de X1 y X2 se tiene

E((X1 − E(X1 ))(X2 − E(X2 ))) = E(X1 − E(X1 )) − E(X2 − E(X2 )) = 0,

de donde se concluye el resultado.

89
12.2 Covarianza y Correlación
Comencemos definiendo la covarianza y la correlación entre dos v.a.’s.
Sea X, Y v.a.’s tal que X, Y, XY son de esperanza finita. Su covarianza es

Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ).

Proposición 74. La covarianza satisface las propiedades siguientes:


(a) Cov(X, Y ) = Cov(Y, X);
(b) Para α, β, γ, δ ∈ R, se tiene: Cov(α + βX, γ + δY ) = βδCov(X, Y ).
(c) Se cumple Cov(X, X) = Var(X), Cov(X, −X) = −Var(X).
(d) Si X, Y son independientes entonces Cov(X, Y ) = 0.
(e) Para X1 , .., Xn v.a.’s, α, β1 , .., , βn , ∈ R, se tiene
n
X n
X n X
X i−1
Var(α + βi Xi ) = βi2 Var(Xi ) + 2 βi βj Cov(Xi , Xj )
i=1 i=1 i=1 j=1

(f ) |Cov(X, Y )|2 ≤ Var(X)Var(Y ) (esto es desigualdad de Cauchy-Schwarz)


con igualdad solo en caso en que X e Y son conlineales, es decir ∃α, β, γ ∈ R
tal que α + βX + γY = 0.

Prueba: Probemos (e). Basta probarlo para α = 0, β − i = 1, i = 1, ..., n, y


n = 2. En la demostración de (refvar210) habı́amos obtenido

Var(X1 +X2 ) = E((X1 −E(X1 ))2 )+2E((X1 −E(X1 ))(X2 −E(X2 )))+E((X2 −E(X2 ))2 )

que es exactamente

Var(X1 + X2 ) = E((X1 − E(X1 ))2 ) + 2Cov(X1 , X2 ).

Ahora probemos (f ). Se tiene Var(αXp+ βY ) ≥ 0. Desarrollemos


p esta cantidad
+
de acuerdo a (e) para las parejas α = Var(Y ) y β = − Var(X). Luego,
 
p +p
0 ≤ Var Var(Y )X Var(X)Y

+ p p
= 2Var(X)Var(Y ) 2 Var(X) Var(Y )Cov(XY ),

de donde se obtiene la desigualdad.
p p
Septendrá la igualdad
p solo si una de las dos expresiones Var(Y )X + Var(X)Y
ó Var(Y )X − Var(X)Y , es constante. Esto ocurre si y solo si X, Y son
colineales. 

90
Cuando Var(X) > 0 y Var(Y ) > 0 (es decir cuando no son constantes) definimos
la correlación entre X, Y como

Cov(X, Y )
Corr(X, Y ) = p p .
Var(X) Var(Y )

Proposición 75. Sean X, Y v.a.’s con Var(X) > 0, Var(Y ) > 0. Entonces
(a) Corr(X, Y ) = Corr(Y, X);
(b) Para α, β, γ, δ ∈ R con βδ 6= 0, entonces: Corr(α+βX, γ+δY ) = sign(βδ)Corr(X, Y )
(donde sign : R → {−1, 0, 1} con sign(0) = 0, sign(x) = 1 si x > 0, sign(x) = −1
si x < 0). .
(c) Se cumple Corr(X, X) = 1, Corr(X, −X) = −1.
(d) Si X, Y son independientes entonces Corr(X, Y ) = 0.
(e) −1 ≤ Corr(X, Y ) ≤ 1. 

La demostración de todas estas propiedades provienen directamente de las de


covarianza. En (b) imponemos que βδ 6= 0 para que α + βX y γ + δY no
sean constantes y ası́ exista la correlación de p
estas variables. p
Observemos que
Cov(α
p + βX, γ
p + δY ) = βδCov(X, Y ) y que Var(α + βX) Var(γ + δY ) =
|βγ| Var(X) Var(Y ) y por ello aparece sign(βδ) = βδ/|βδ|.

12.3 Matriz de Covarianzas


~ = (X1 , .., Xn ) definimos su matriz de (varianzas-
Definición 76. Para X
~ de X
)covarianzas Cov(X) ~ por:

~ i,j = Cov(Xi , Xj ) : i, j = 1, .., n.


(Cov(X))

Si se tiene Var(Xi ) > 0 para i = 1, ..., n definimos la matriz de correlaciones


~ de X
Corr(X) ~ por:

~ i,j = Corr(Xi , Xj ) = p Cov(Xi , Xj )


(Corr(X)) p , i, j = 1, .., n. 
Var(Xi Var(Xj

~ y Corr(X)
Se tiene que Cov(X) ~ son matrices simétricas pues

∀i, j = 1, .., n : ~ j,i = Cov(Xj , Xi ) = Cov(Xi , Xj ) = (Cov(X))


(Cov(X)) ~ i,j ,
~ j,i = Corr(Xj , Xi ) = Corr(Xi , Xj ) = (Corr(X))
(Corr(X)) ~ i,j .

Además sus términos diagonales verifican:

∀i)1, .., n : ~ i,i = Var(Xi ),


Cov(X) ~ i,i = 1.
Corr(X)

91
~ y
Asumamos Var(Xi ) > 0, i = 1, .., n y relacionemos las matrices Cov(X)
~ Para ello condieremos ∆ la matriz diagonal de varianzas,
Corr(X).

∆i,i = Var(Xi ), i = 1, .., n.

Luego ∆ es invertible con

(∆−1 )i,i = (Di,i )−1 = Var(Xi )−1

Definimos ∆−1/2 la matriz diagonal cuyos términos son

(∆−1/2 )i,i = (∆i,i )−1/2 .

~
Se tiene ∆−1/2 ∆−1/2 = ∆−1 . Se tiene que la matriz de correlaciones de X
satsiface
~ = ∆−1/2 Cov(X)∆
Corr(X) ~ −1/2 . (61)

Es útil tener a la matriz de varianzas escrita de manera analoga a la varianza,


pero de manera vectorial. Para ello introduciremos la esperanza de vectores y
de matrices aleatorias además de fijar notaci’on.
Por ~x = (x1 , .., xn ) notamos un vector columna de Rn , y los distinguiremos de
los vectores filas que se escriben ~xt .
Sea X~ = (X1 , .., Xn ) vc.a. (n−dimensional), X ~ : Ω → Rn , ω → X(ω)
~ =
(X1 (ω), ..., Xn (ω)). Definimos su esperanza por

~ = (E(X1 ), .., E(Xn )).


E(X)

Escribiremos µ ~ siendo µ
~ = E(X) ~ = (µ1 , .., µn ) con µl = E(Xl ).
De las propiedades de E en v.a.’s deducimos las propiedades de E en vc.a.’s.
Algunas de estas son:

E(~a) = ~a siendo ~a ∈ Rn constante ;

~ Y
X, ~ vc.a..’s , α, β ∈ R ⇒ E(αX
~ + βY
~ ) = αE(X)
~ + βE(Y
~ ).

Ahora consideremos Z = (Zi,j : i = 1, .., m; j = 1, .., n) una matriz aleatoria (de


tamaño) m × n, es decir donde Zi,j es v.a. para todo i = 1, .., m; j = 1, .., n.
Analogamente a como lo hicimos antes para vectores aleatorios definimos

E(Z) = (E(Zi,j ) : i = 1, .., m; j = 1, .., n).

Ella tiene propiedades analogas a las de linealidad a las ya encontradas para


vc.a.’s. Una que resulta de la misma linealidad de v.a.’s es:

E(AZB + D) = AE(Z)B + D para matrices A, B, C


de tamaños r × m, n × s, r × s respectivamente.

92
En efecto se tiene
m X
X n
E(AZB + D)i,j = E( Ai,k Zk,l Bl.j + Di,j )
k=1 j=1
m X
X n
= Ai,k E(Zk,l )Bl.j + Di,j )(AE(Z)B + D)i,j .
k=1 j=1

Notemos que si X,~ Y~ son vc.a.’s en Rn entonces X


~Y~ t = (Xi Yj : i, j = 1, .., n)
es una matriz aleatoria n × n. En particular
~ µ)(X−~
(X−~ ~ µ)t matriz n×n, término (i,j) es ((X−~
~ µ)(X−~
~ µ)t )i,j = (Xi −µi )(Xj −µj ).

~ = (X1 , .., Xn ) se tiene que su matriz de covarian-


Proposición 77. Para X
~ verifica:
zas Cov(X)

~ = E((X
Cov(X) ~ −µ ~ −µ
~ )(X ~ )t ) siendo µ ~
~ = E(X).

Prueba: Se tiene para i, j = 1, .., n,


~ −µ
E((X ~ −µ
~ )(X ~ i,j .
~ )t )i,j = E((Xi − µi )(Xj − µj )) = Cov(Xi , Xj ) = (Cov(X))


De la igualdad (61) se tiene que la matriz de correlaciones se puede escribir en
términos similares.

~ vc.a. n−dimensional, ~a ∈ Rm , V matriz m × n.


Proposición 78. Sea X
~ ~ Pn
Entones para el vc.a. Y = ~a + V X (es decir con Yi = ai + j=1 Vi,j Xj ,
i = 1, ..., m), se tiene
Cov(Y~ ) = V Cov(X)V
~ t (62)

Prueba: Se tiene E(Y ~ ) = ~a + V µ


~ , siendo µ ~ luego Y
~ = E(X), ~ − E(Y
~) =
~ −µ
V (X ~ ) y se tiene,

~ ) = E(V (X
Cov(Y ~ −µ ~ −µ
~ )(X ~ t .
~ )t V t ) = V Cov(X)V

Recordemos que una matriz n × n simétrica A es semi-definida positiva si y solo


si
n X
X n
n t
∀ ~a = (a1 , ..., an ) ∈ R : ~a A~a ≥ 0 ( es decir ai aj Ai,j ≥ 0),
i=1 j=1

93
y ella es definida positiva si además ~at A~a > 0 para ~a 6= ~0. Se tiene que A si es
semi-definida positiva entonces todos los valores propios son no-negativos, y si
es definida positiva todos su valores propios son positivos.
Notemos que si C es una matriz n × n entonces CC t es simeétrica y es semi-
definida positiva pues ~at CC t~a = ||C t~a||2 . Además, ella es definida positiva si y
solo si C es invertible. En efecto esto ocurre si y solo si CC t es invertible, esto
es si y solo si no tiene valores propios que se anulan, lo que equivale a que sea
definida positiva (ya que sabemos que es semi-definida positiva).

~ vc.a.. Entonces su matriz de covarianzas Cov(X)


Proposición 79. Sea X
es simétrica semi-definida positiva, es decir
~ t = Cov(X),
Cov(X) ~ a ≥ 0, ∀ ~a ∈ Rn .
~at Cov(X)~
~ es definida-positiva si y solo si para todo ~a 6= ~0 la v.a at X
Además Cov(X) ~ =
P n
a X
i=1 i i no es constante.

Prueba: La simetrı́a es clara, probemos


Pn la semi-positividad. Fijemos ~a ∈ Rn
t~ ~ = ~at µ
y consideremos la v.a. Y = ~a X = i=1 ai Xi . Se tiene E(Y ) = ~at E(X) ~.
Luego
~ −µ
0 ≤ Var(Y ) = E(~at (X ~ −µ
~ )(X ~ a,
~ )t~a) = ~at Cov(X)~
y se tiene el primer resultado. La caracterización para definida positiva se
obtiene de la equivalencia
~ es constante P − c.s..
~at Cov(X)~a = 0 ⇔ Var(Y ) = 0 ⇔ Y es constante ⇔ ~at X


De la relación (61) se tiene que Corr(X) esa simétrica, semi-definida positiva y
es definida positiva si y solo si Cov(X) lo es.

Diagonalización de matrices definidas positivas. Tomemos una matriz


simétrica Σ. Entonces existe una matriz ortogonal H, es decir verificando
HH t = Id = H t H tal que

D = HΣH t es la matriz diagonal de valores propios de Σ.

Usando la ortogonalidad de H se tiene,

Σ = H t DH.

Asumamos Σ es semi-definida positiva. Entonces sus valores propios Di,i ,


i = 1, .., n son no-negativos y si ella es definida positiva ellos son positivos,
en particular no se anulan.
Sea D1/2 la raı́z cuadrad de la matriz diagonal D es decir (D1/2 )i,i = (Di,i )1/2 .
Luego la matriz
C = H t D1/2 H

94
es simétrica, semi-definida positiva y es definida positiva si Σ lo es. Se tiene que
C es raı́z cuadrada de Σ pues

C 2 = H t D1/2 HH t D1/2 H = Σ.

Notamos
C = Σ1/2 .
Ahora si Σ es definida positiva entonces es invertible y se tiene

Σ−1 = H t D−1 H pues H t D−1 HΣ = H t D−1 HHDH t = Id.

Se cumple que Σ1/2 es invertible, con inversa dada por

(Σ1/2 )−1 = H t D−1/2 H.

Además ella es raı́z cuadrada de Σ−1 pues (Σ1/2 )−1 (Σ1/2 )−1 = H t D−1 H = Σ−1 .
Luego notamos
Σ−1/2 = (Σ1/2 )−1 .

12.4 Normal Multivariada


~ ∈ Rn y Σ = (Σi,j : i, j = 1, .., n) una matrix n × n,
Definición 80. Sea µ
~ = (X1 , .., Xn ) se dice distribuı́do
simétrica y definida positiva.. El vc.a. X
según una Normal Multivariada de media µ ~ y matriz de varianzas Σ si es a.c.
y tiene densidad
1 t
Σ−1 (~
fX~ (~x) = (2π)−n/2 | det Σ|−1/2 e− 2 (~x−~µ) x−~
µ)
, ~x ∈ Rn . (63)

~ ∼ N(~
En este caso notaremos X µ, Σ). 

Ahora mostremos que la consistencia de la definicón.


~ ∼ N(µ, Σ), entonces:
Proposición 81. Si X
Z Z
1 t
Σ−1 (~
fX~ (~x)dx1 ...dxn = (2π)−n/2 | det Σ|−1/2 e− 2 (~x−~µ) x−~
µ)
dx1 ...dxn = 1,
Rn Rn

y se cumple
µ ~ Cov(X)
~ = E(X), ~ = Σ.

Además el vc.a. Y ~ = Σ−1/2 (X ~ −µ ~ ∼ N(~0, Id), siendo sus compo-


~ ) verifica Y
nentes (Y1 , .., Yn ) i.i.d. con Yi ∼ N(0, 1).

Prueba: ~ = Σ−1/2 (X
Tomemos Y ~ −µ
~ ). Su función de densidad es:

fY~ (~y ) = fX~ (Σ1/2 ~y + µ


~ ) | det Σ1/2 |, ~y ∈ Rn ,

95
luego

Pn n
Y
~t y
−n/2 − 12 y ~ −n/2 − 12 yi2
fY~ (~y ) = (2π) e = (2π) e i=1 = fYi (yi ).
i=1

1 2 R
con fYi (yi ) = (2π)−1/2 e− 2 yi . En particular la primera parte Rn fX~ (~x)dx1 ...dxn =
1. Además esto prueba la última parte, Y ~ ∼ N(~0, Id), lo que equivale (Y1 , .., Yn )
i.i.d. con Yi ∼ N(0, 1). De esto último deducimos E(Y ~ ) = ~0, Cov(Y
~ ) = Id.
~ = Σ1/2 Y
Como X ~ +µ
~ obtenemos
~ = Σ1/2 E(Y
E(X) ~)+µ
~ =µ
~, ~ = Σ1/2 Cov(Y
Cov(X) ~ )Σ1/2 = Σ. 

Nota 10. De manera similar y usando (refm-cov-t) de la Proposición 78, se


prueba que: si Y1 , ..., Yk son i.i.d. con Yi ∼ N(0, 1), si C es una matriz invertible
~ =µ
k × k, entonces X ~ + CY~ ∼ N(~ µ, Σ) con Σ = CC t . 

Propiedad 82. Sea X ~ = (X, .., Xk ) ∼ N(~ µ, Σ) con Σ definida positiva.


Considere r < k, 1 ≤ i1 < .. < ir ≤ k, J = {i1 , .., ir }. Entonces, (Xl : l ∈ J) ∼
N(µJ , ΣJ×J ), donde µJ = (µi1 , .., µir ), ΣJ×J es la submatriz de Σ restringida
al conjunto de ı́ndices J × J.
En particular Xi ∼ N(µi , Σii ), siendo Σi,i = Var(Xi ).

Nota 11. Observemos que si X ~ = (X, .., Xk ) ∼ N(~


µ, Σ) con Σ definida positiva,
entonces X1 , .., Xk son independientes si y solo si Σ es una matriz diagonal, y
en este caso Σ = ∆ con ∆ii = Var(Xi ). En efecto si X1 , .., Xk son inde-
pendientes entonces Cov(Xi , Xj ) = 0 cuando i 6= j por lo que Σ es diagonal.
Recı́procamente, si Σ = ∆ es diagonal con ∆i,i = Σi,i = Var(Xi ), y se satisface
k
X
~ )t Σ−1 (~x − µ) =
(~x − µ Var−1 2
i,i (xi − µi ) .
i=1

Por lo que
k
Y
fX~ (~x) = fXi (xi ),
i=1

luego X1 , .., Xk son independientes. 

96
13 Función generadora de momentos y Función
caracterı́stica
13.1 Función generadora de momentos
Introduzcamos la función generadora de momentos para v.a.’s no-negativas (o
acotadas inferiormente). Notemos que si X v.a. ≥ 0 entonces FX (0− ) = 0.

Definición 83. Sea X ≥ 0 v.a. Entonces su función generadora de momen-


tos está definida por por
Z ∞
−sX
ΘX : R+ → [0, 1] satisface ΘX (s) = E(e )= e−sx dFX (x)dx. para s ≥ 0.
0

Para una v.a. discreta X : Ω → I ⊂ R+ se tiene


X X
ΘX (s) = e−sa P(X = a) = e−sa pX (a).
a∈I a∈I

Para una v.a. a.c. X : Ω → R+ con densidad fX se tiene


Z ∞
ΘX (s) = e−sx fX (x)dx.
0

Por ejemplo para X v.a. Bernoulli(p) se tiene ΘX (s) = pe−s + 1 − p = 1 − p(1 −


e−s ).

Propiedad 84. Sea X v.a. ≥ 0. Se tiene:


(a) Para todo s ∈ R+ se cumple ΘX (s) ∈ (0, 1], y ΘX (0) = 1.
(b) Para v.a. X ≥ 0 v.a.’s, α, β ≥ 0, se cumple
Θα+βX (s) = e−sα ΘX (βs).
(c) Si E(X r ) < ∞ entonces
 
dl Θ X
∀l ≤ r : E(X l ) = (−1)l (s)
dsl s=0

(d) Si X1 , .., Xk ≥ 0 independientes, entonces


k
Y
ΘPk Xl (s) = ΘXl (s)
l=1
l=1

(e) Para X, Y ≥ 0 v.a.’s se cumple:


FX = FY ⇔ Θ X = Θ Y .
(En caso discreto esto es pX = pY si y solo si ΘX = ΘY y en caso aboslutamente
continuo fX = fY si y solo si ΘX = ΘY ).

97
Prueba: (a) Como 0 < e−sX ≤ 1 se cumple 0 < E(−sX ) ≤ 1. Por otra parte
E(e0X ) = E(1) = 1.
(b) sigue de e−s(α+βX) = e−sα e−(sβ)X) , en efecto al tomar esperanza a ambos
lados se obtiene el resultado.
(c) Si se puede intercambiar la derivada l−ésima con la esperanza en una vecin-
dad de s = 0 se obtiene el resultado
R∞
dl E(e−sX ) dl 0 e−sx dFX (x)dx
= .
dsl dsl
La existencia del momento r ≥ l garantiza que se puede intercambiar la derivada
l−ésima con la integral para s en una vecindad de s = 0 (esto no lo de-
mostraremos). Usanso esto y que (dl e−sx /dsl ) = (−x)l e−sx , se obtiene
Z ∞ l −sx Z ∞
dl E(e−sX ) de
= dF X (x)dx = (−x)l e−sx dFX (x)dx,
dsl 0 dsl 0

y esto muestra  
dl E(e−sX )
(s) = E((−X)l ).
dsl s=0

En el caso en que X toma un número finito de valores resulta de la linealidad


de las derivadas pues
P  l −sX 
dl E(e−sX ) dl ( i∈I pX (a)e−sa ) X dl e−sa de
= = p X (a) = E .
dsl dsl dsl dsl
i∈I

(d) Si X1 , .., Xk ≥ 0 independientes, entonces Si e−sX1 , .., e−sXk independientes


y se obtiene el resultado.
(e) La implicación es directa pues la función generadora de momentos ΘX se
escribe en términos de FX . La recı́proca es un resultado profundo que no pro-
baremos. 
Por ejemplo para X1 , ..., Xn v.a.’s i.i.d. Bernoulli(p), por (d) se tiene

ΘPni=1 Xi (s) = (1 − p(1 − e−s ))n , s ≥ 0,


Pn
y como i=1 Xi ∼ Binomial(n, p) se deduce que la anterior es la función gen-
eradora de una Binomial(n, p).

Propiedad 85. Si T ∼ Exponencial[λ] entonces su función generadora de


λ
momentos es ΘT (s) = λ+s para s ≥ 0 y sus momentos son E(T n ) = n! λ−n .

Prueba: La función generadora de momentos de T ∼ Exponencial[λ] es es


Z ∞ Z ∞
−(λ+s)t λ λ
ΘT (s) = λe dt = (λ + s)e−(λ+s)t dt = , s ≥ 0.
0 λ + s 0 λ + s

98
Como para todo r > 0 se tiene e−λt tr → 0 si t → ∞ se tiene que E(T n ) es finito
para todo n > 0 y
dn Θ T dn λ
E(T n ) = (−1)n (s) = (−1)n = n! λ−n .
dn s s=0 dn s λ + s s=0

Y se tiene el resultado. 

Propiedad 86. (a) Si X ∼ Gamma[α] su función generadora de momentos


satisface ΘX (s) = (s + 1)−α para s ≥ 0.
(b) Si X1 , .., Xk v.a.’s independientes con Xl ∼ Gamma[αl ] entonces
k
X k
X
Xl ∼ Gamma[ αl ].
l=1 l=1

Prueba: (a) Para s ≥ 0 se tiene


Z ∞ Z ∞
1 α−1 −(s+1)x 1 1 1
ΘX (s) = x e dx = y α−1 e−y dy = ,
Γ(α) 0 (s + 1)α Γ(α) 0 (s + 1)α

donde hicimos el cambio de variables y = (s + 1)x.


(b) Por independencia se tiene
k
Y Pk
Θ Pk (s) = ΘXl (s) = (s + 1)− l=1 αl
,
l=1 Xl
l=1
Pk
que es la función generadora de momentos de una v.a. Gamma[ l=1 αl ]. Como
Θ determina únicamente la función de distribución, ver Propiedad 84 (e), obten-
emos el resultado. 

Nota 7. De manera similar, si Y ∼ Gamma[α, β] (ver la Definicón 52),


es directo comprobar que su función generadora de momentos satisface Y ∼
 −α
Gamma[α, β] satisface ΘY (s) = βs + 1 para s ≥ 0. Luego, si Y1 , ..., Yn son
variables aleatorias independientes con Yi ∼ Gamma[αi , β], usando
n 
Y −αi  − Pni=1 αi
s s
+1 = +1 ,
i=1
β β
Pn Pn
deducimos que i=1 Yi ∼ Gamma [ i=1 αi , β]. 

Chi-cuadrado con n grados de libertad. Se define:


Definición 87. La distribución Gamma[ n2 , 12 ] se la denota χ2n y se la llama
chi-cuadrado con n grados de libertad. 

99
Estas variables describen la suma de cuadrados de variables aleatorias Normales(0, 1).
Para dar el resultado de manera rigurosa, recuerde que si Y ∼ N (0, 1) entonces
Y 2 ∼ Gamma[ 12 , 21 ], propiedad que proviene directamente del Ejercicio 14, esto
es según la definicón, Y 2 se distribuye como una χ21 , chi-cuadrado con 1 grado
de libertad.

Ahora bien, si Y1 , ..., Yn son variables aleatorias i.i.d. con Yi ∼ N (0, 1), entonces
P n 2 n 1 2
i=1 Yi ∼ Gamma[ 2 , 2 ], que siguiendo la definición es una χn , chi-cuadrado
con n grado de libertad. Esta clase de densidades son muy usadas en estadı́stica.


Nota. Para s ≥ 0 coloquemos u = e−s , se tiene u ∈ (0, 1] (s = − log u), y en


este caso la función generadora de momentos de una v.a. X ≥ 0 se escribe
Z ∞
b X (u) = E(uX ) =
Θ ux dFX (x) para u ∈ (0, 1].
0

En caso en que X es v.a. discreta tomando valores en I ⊂ R+ se tiene


X
b X (u) =
Θ P(X = a)ua ,
a∈I

y en caso en que X es aboslutamente continua


Z ∞
b X (u) =
Θ ux fX (x)dx.
0

Las propiedades obtenidas para ΘX (s), s ≥ 0, se pueden escribir de manera


b X (u), u ∈ (0, 1.
analoga para Θ

13.2 Función Caracterı́stica


La función caracterı́stica es útil para el estudio de las distribuciones de variables
alaetorias siendo la transformada de Fourier de la función de distribución. Ella
tambien es útil para el estudio de la convergencia en distribución de las variables
aleatorias, y nos servir’a para probar el terorema central del lı́mite. Una gran
parte de las demostraciones de las funciones caracterı́sticas serán dadas en el
Apéndice 22.
Trabajaremos con números complejos: z = a + bi ∈ C, siendo a, b ∈ R sus partes
real e imaginaria notadas a = Re(z), b = Im(z). El complejo conjugado de z se
escribe z = a − bi, y el módulo de z es |z|2 = zz = a2 + b2 .
Una función h : R → C, x → Reh(x) + iImh(x) es Boreliana si Re(h) e Im(h)
son funciones Borelianas (de R → R).
Diremos que Z : Ω → C es v.a. (compleja) si Re(Z) e Im(Z) son v.a.’s.. Decimos
que E(Z) existe y es finita si E(Re(Z)) y E(Im(Z)) son finitas y definimos
E(Z) = E(Re(Z)) + i E(Im(Z)).

100
Se tiene que E es lineal: para γj ∈ C, Zj v.a. compleja, j = 1, 2, se tiene,
E(γ1 Z1 + γ2 Z2 ) = γ1 E(Z1 ) + γ2 E(Z2 ).
Y sobre la independencia se satisface que si X1 , .., Xn son v.a.’s reales indepen-
dientes y g1 , ..gn : R → C son funciones Borelianas entonces g1 (X1 ), .., gn (Xn )
son independientes. Si además E(gj (Xj )) son finitas para j = 1, .., n entonces
se cumple
n
Y n
Y
E( gj (Xj ) = E(gj (Xj )). (64)
j=1 j=1

Recordemos que para x ∈ RR, eix = cos x+i sin x. Luego e−ix = cos x−i sin x =
eix , de donde |eix |2 = (cos x)2 + (sin x)2 = 1.

Definición 88. Sea X : Ω → R v.a. Su función caracterı́stica está definida


por
ϕX : R → C, t → ϕX (t) = E(eitX ) = E(cos tX) + i E(sin tX).
Observemos que la definición está bien hecha pues E(cos tX) y E(sin tX) son
finitas ya que | cos tX| ≤ 1, | sin tX| ≤ 1.
Como
Z +∞ Z +∞ Z +∞
itx
ϕX (t) = e dFX (x) = cos tx dFX (x) + i sin tx dFX (x),
−∞ −∞ −∞

se tiene que ϕX solo depende de FX .


En el caso X : Ω → I es v.a. discreta con I ⊂ R numerable se tiene
X X X X
ϕX (t) = eita P(X = a) = eita pX (a) cos(ta)pX (a) + i sin(ta)pX (a),
a∈I a∈I a∈I a∈I

y en el caso X : Ω → R es v.a.a.c. con función de densidad fX se tiene


Z +∞ Z +∞ Z +∞
ϕX (t) = eitx fX (x)dx = cos(tx) fX (x)dx + i sin(tx) fX (x)dx.
−∞ −∞ −∞

Propiedad 89. Sean X : Ω → R v.a., α, β ∈ R. Se tiene:


(a) ϕX (0) = 1.
(b) |ϕX (t)| ≤ 1 para t ∈ R.
(c) ϕα+βX (t) = ei αt ϕX (β t).
(d) ϕX (−t) = ϕX (t) = ϕ−X (t).
(e) Si FX = F−X (es decir FX es simétrica en torno a 0) entonces ϕX (t) ∈ R
para todo t ∈ R. Y se tiene la recı́proca, si ϕX (t) ∈ R para todo t ∈ R entonces
FX = F−X .
Qk
(f ) Si X1 , .., Xk son v.a.’s independientes entonces ϕPk Xl = l=1 ϕXl .
l=1

101
Prueba: (a) proviene de eitX = 1 para t = 0. La propiedad (c) se deduce de
itα itβX
E(eit(α+βX)=e E(e .
Probemos (b). Por Jensen y dado que (cos y)2 + (sin y)2 = 1 para y ∈ R, se
obtiene

|ϕX (t)|2 = (E(cos tX))2 + (E(sin tX))2 ≤ E (cos tX)2 + (sin tX)2 = 1.

Para (d) basta notar que ei(−t)X = eit(−X) = e−itX = eitX .


De (d) se obtiene la parte suficiente en (e). En efecto, como ϕX solo depende
de FX , si FX = F−X entonces ϕX (t) = ϕ−X (t) = ϕX (t), por lo que ϕX (t) ∈ R.
Para la recı́proca debemos utilizar el siguiente Teorema el que establece que ϕX
determina FX . Ası́, aplicando este resultado se obtiene que si ϕX (t) ∈ R para
todo t ∈ R entonces

ϕX (t) = ϕX (t) = ϕX (−t) = ϕ−X (t), t ∈ R,

y de allı́ se obtiene FX = F−X .


Finalmente (f ) se deduce directamente de la propiedad de (64) pues

Pk k
Y k
Y k
Y
itXl
ϕP k Xl (t) = E(e
l=1 ) = E( eitXl ) = E(itXl ) = ϕXl (t).
l=1
l=1 l=1 l=1

Teorema 90. ϕX determina únicamente FX , es decir se tiene


ϕ X = ϕY ⇔ F X = F Y . (65)

Más precisamente se tiene la siguiente fórmula de inversión para x < y:


Z u −itx
FX (y) + FX (y − ) FX (x) + FX (x− ) 1 e − e−ity
− = lim ϕX (t)dt
2 2 2π u→∞ −u it
(66)

La demostración de este importante resultado está hecha en la Subsección 22.2


de la Sección 22.
El resultado siguiente establece condiciones de diferenciabilidad de la función
caracterı́stica de una v.a. cuando ella tiene momentos finitos. Su demostración
se desarrolla en la Sección 22.3 del Apéndice 22.

k
Proposición 91. Si E(|X|
R
) < ∞ entonces existe la derivada k−ésima de
(k)
ϕX , esta verifica ϕX (t) = (ix)k eitx dFX (x) y es continua para t ∈ R. En
(k) (k)
particular obtenemos E(X k ) = i−k ϕX (0) = (−i)k ϕX (0).

102
Nota sobre convolución. Sabemos que si X, Y son v.a.’s independientes entonces
la densidad de la suma X + Y es la convolución de las denisdades de X e Y ,
esto es fX+Y = fX ∗ fY . Esta propiedad tambien se puede probar usando la
función caracterı́stica. En efecto, se tiene
Z ∞ Z ∞ Z ∞ 
itx itx
e fX ∗ fY (x)dx = e fX (x − y)fY (y)dy dx
−∞ −∞ −∞
Z ∞Z ∞ Z ∞ Z ∞ 
= eit(x−y) fX (x − y)eity fY (y)dydydx = eitu fX (u) eity fY (y)dy dx,
−∞ −∞ −∞ −∞

donde en la última igualdad hicimos el cambio de variables u = x − y. Luego se


cumple para todo t ∈ R,
Z ∞ Z ∞ Z ∞ 
itx itu ity
e fX ∗ fY (x)dx = e fX (u) e fY (y)dy dx = ϕX (t)ϕY (t)
−∞ −∞ −∞
= ϕX+Y (t), .

donde en la última igualdad usamos la Propiedad 89 (f ) para variables indepen-


dientes. El Teorema 90 nos dice que ϕX+Y determina FX+Y , y de la igualdad
anterior deducimos que X + Y es v.a. absolutamente continua con función de
densidad fX ∗ fY . 
Para la v.a. constante a, se tiene ϕa (t) = eita .
it it
Para Y ∼ Bernoulli(p) se cumple ϕY (t) = (1 − p) + pe Pn = 1 + p(e − 1). Sean
X1 , .., Xn i.i.d. con Xl ∼ Bernoulli(p), se tiene X = l=1 Xi ∼ Binomial(n, p)
y de la Propiedad 89 (f ) se deduce ϕX (t) = (1 + p(eit − 1))n
P itn n it
Si X ∼ Poisson(λ) se tiene ϕX (t) = n≥0 e n!λ e−λ = eλ(e −1) .

t2 σ 2
Proposición 92. Si X ∼ N(µ, σ 2 ) entonces ϕX (t) = eiµt e− 2 .

Prueba: Observemos que basta probar el caso X ∼ N(0, 1), es decir que en
t2
caso se cumple ϕX (t) = e− 2 . En efecto, una vez probado esto aplicamos la
Propiedad 89 (c) a la traslación lineal Y = µ + σX ∼ N(µ, σ 2 ) la que verifica
t2 σ 2
ϕY (t) = eiµt ϕX (σt) = eiµt e− 2 .

t2
Sea pues X ∼ N(0, 1). La demostración de ϕX (t) = e− 2 la haremos usando el
teorema de Cauchy en integración en C.
Observemos que −(x − it)2 = −x2 + 2itx − t2 . Luego
Z ∞ Z ∞
1 1 2 1 1 2 2
ϕX (t) = √ eitx− 2 x dx = √ e− 2 (x−it) et /2 dx.
2π −∞ 2π −∞

103
Luego, se tiene la equivalencia
h  Z ∞ 
2 i 1
− t2 − 21 (x2 −2itx)
ϕX (t) = e ⇔ √ e dx = 1 .
2π −∞
R∞ 1 2
Como √1 e− 2 x dx = 1 se tendrá el resultado si mostramos
2π −∞
Z ∞ Z ∞
1 2 1 2
e− 2 (x−it) dx = e− 2 x dx. (67)
−∞ −∞

Escribiendo esto en términos de integrales de caminos en C la igualdadanterior


es equivalente a,
Z Z ∞
− 12 z 2 1 2
e dz+ = e− 2 z dz con el camino γ∞
t
= (z(x) = x − it : x ∈ R).
t
γ∞ ∞

Para R > 0 definamos los caminos


t
γR = (z(x) = x − it : u ∈ [−R, R]), Γ(R, +) = (z(x) = R + ix : u ∈ [−R, R]),
0
−γR = (z(x) = −x : x ∈ [−R, R]), Γ(R, −) = (z(x) = −R + ix : x ∈ [−t, t]).

Se tiene que el camino

ΓR = γ R
t 0
∪ Γ(R, +) ∪ −γR ∪ Γ(R, −)
1 2
es un camino cerrado y que la función e− 2 z es holomorfa
R en una vecindad en C
1 2
conteniendo el camino y su región interior, por lo cual ΓR e− 2 z dz = 0. Luego
Z Z Z Z
1 2 1 2 1 2 1 2
lim e− 2 z dz+lim e− 2 z dz+lim e− 2 z dz+lim e− 2 z dz = 0.
t
γR 0
−γR Γ(R,+) Γ(R,−)

R 1 2 R 1 2
Se tiene lim t e− 2 z dz = t e− 2 z dz y
R→∞ γR γ∞

Z Z ∞
1 2 1 2
lim e− 2 z = − e− 2 x dx.
R→∞ 0
−γ∞ −∞

Luego para mostrar (67) nos basta probar que


Z Z
1 2 1 2
lim e− 2 z dz = lim e− 2 z dz = 0
R→∞ Γ(R,+) R→∞ Γ(R,+)

1 2 1 + 2
Y esto se obtiene de e− 2 z ≤ e− 2 (R−|t|) cuando z ∈ Γ(R, − ), por lo que
Z
1 2 1 2
lim e− 2 z dz ≤ lim |t|e− 2 (R−|t|) = 0. 
R→∞ +
Γ(R, − ) R→∞

104
Propiedad 93. Se tiene que si X1 , ..., Xk son normales independientes con
Xl ∼ N(µl , σl2 ) para l = 1, ..., k entonces
k
X k
X k
X
Xl ∼ N( µl , σl2 ).
l=1 l=1 l=1

Pk
Prueba: Sea Y = l=1 Xl . Usando la independencia y la Proposición 92 se
obtiene,
k
Y k
Y Pk
t2 σl2 Pk t2 2
l=1 σl
ϕY (t) = ϕXl (t) = eiµl t e− 2 = ei l=1 µl t −
e 2 .
l=1 l=1

Como laPfunciónP
caracterı́stica determina la función de distribución deducimos
k k
Y ∼ N( l=1 µl , l=1 σl2 ). 

105
14 Teorema de los Grandes Números y Teorema
Central del Lı́mite
Comencemos definiendo las convergencias de v.a.’s a las que hace referencia el
Teorema de los Grandes Números.

14.1 Convergencia de v.a.’s


Definición 94. Sea (Xn : n ∈ N) una secuencia de v.a.’s y X una v.a..
Diremos que:
(a) X = lim Xn P−c.s. (c.s. se lee casi seguramente) si
n→∞

P{ω ∈ Ω : X(ω) = lim Xn (ω)} = 1. (68)


n→∞

(b) X = lim Xn en probabilidad P si


n→∞

∀ǫ > 0 : lim P{ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ} = 0. (69)


n→∞

(c) Sea p ≥ 1. Se dice que X = lim Xn en media p, si (Xn ∈ N), X tienen


n→∞
momento p finito, y se tiene
lim E(|Xn − X|p ) = 0. (70)
n→∞

Notemos que en (b) basta considerar ǫ = 1/m para m ∈ N, con lo que ∀ǫ > 0 se
reemplaza por ∀m ∈ N.
Algunas relaciones entre estas convergencias son las siguientes que prueban que
la convergencia en probabilidad es la más débil entre ellas:

Proposición 95. Se tiene:


X = lim Xn P − c.s. ⇒ X = lim Xn en probabilidad P, (71)
n→∞ n→∞
X = lim Xn en media p ⇒ X = lim Xn en probabilidad P. (72)
n→∞ n→∞

La demostración que la convergencia en media p implica la convergencia en


probabilidad la veremos más adelante. .

14.2 Teorema de los Grandes Números


Enunciaremos el Teorema de los Grandes Números para v.a.’s i.i.d. en su gen-
eralidad, este establece la convergencia de la media empı́rica
n
1X
Xn = Xk
n
k=1

a la media teórica E(X). Este enunciado se hace en general, pese a que solo
probaremos la convergencia en media 2 y la convergencia en probabilidad.

106
Teorema 96. Sean (Xk : k ∈ N) una sucesión de v.a.’s i.i.d. con µ = E(Xk )
finita. Entonces
lim X n = µ P − c.s. (73)
n→∞

Si p ≥ 1 y (Xk : k ∈ N) tienen momento p finito, entonces

lim X n = µ en media p. (74)


n→∞

En particular lim X n = µ en probabilidad P.


n→∞

Pn
Prueba: Probaremos la convergencia en media p = 2. Siendo X n = n1 k=1 Xk ,
por linealidad se tiene
1
E(X n ) = nµ = µ.
n

Luego se tiene E (X n − µ)2 = Var(X n ), y usando que las v.a.’s son i.i.d. se
deduce
n
X n
 1 1 X
E (X n − µ)2 = Var(X n ) = Var( X k ) = Var(Xk )
n2 n2
k=1 k=1
1
= Var(X1 ) → 0 con n → ∞ .
n
Esto prueba (121) para p = 2, y por la Proposición 124 se tiene la convergencia
en probabilidad P.

En el caso de lanzamientos de moneda, (Xk : k ∈ N) i.i.d.


 con Xk ∼ Bernoulli(p)
se tiene E(X1 ) = p = E(X12 ) luego lim E (X n − p)2 = 0. 
n→∞

14.3 Convergencia y Desigualdades de Markov-Chevyshev


Es importante fijar algunas herramientas para el estudio de convergencias de
v.a.’s, estas son las Desigualdades de Markov-Chevyshev.
Desigualdades básica. Para X ≥ 0 se tiene la desigualdad llamada de
Markov-Chevyshev,
E(X)
∀ǫ > 0 : P(X ≥ ǫ) ≤ . (75)
ǫ
La demostración proviene de la desigualdad entre funciones,

∀ω ∈ Ω : ǫ1{X≥ǫ} (ω) ≤ X(ω) es decir epsilon1{X≥ǫ} ≤ X, (76)

luego tomando esperanza queda

E(ǫ1{X≥ǫ} ) ≤ E(X)

107
y como
E(ǫ1{X≥ǫ} ) = ǫE(1{X≥ǫ} ) = ǫP(X ≥ ǫ),
obtenemos la desigualdad (75). Luego para cualquier v.a. X la podemos aplicar
a |X| y obtenemos,
E(|X|)
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ . (77)
ǫ
Sea h : R+ → R+ función monótona creciente con h(x) > 0 si x > 0 (necesaria-
mente h(0) ≥ 0). Analogamente a (76) se obtiene

∀ω ∈ Ω : h(ǫ)1{|X|≥ǫ} (ω) ≤ h(|X(ω)|),

y luego tomando E se obtiene

E(h(|X|))
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ .
h(ǫ)

En particular para h(x) = xp si p > 0 se verifica la desigualdad de Markov-


Chevyshev para momentos,

E(|X|p )
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ . (78)
ǫp
Ahora supongamos X tiene segundo momento finito. Notemos µ = E(X). Luego
al tomar la v.a. X − µ y p = 2 en (78) se obtiene la desigualdad de Bienaymeé-
Chevyshev:

E(|X − µ|2 ) Var(X)


∀ǫ > 0 : P(|X − µ| ≥ ǫ) ≤ 2
= . (79)
ǫ ǫ2
Analogamente cuando p ≥ 1 y X tiene p−ésimo momento finito se obtiene

E(|X − µ|p )
∀ǫ > 0 : P(|X − µ| ≥ ǫ) ≤ . (80)
ǫp

Demostración que convergencia media p implica convergencia en probabilidad.


Probemos (119). Usaremos la desigualdad de Markov (80),
1
∀ǫ > 0 : P(|Xn − X| > ǫ) ≤ E(|Xn − X|p ).
ǫp
Tomando lim en esta desigualdad y como esto es para todo ǫ > 0 obtenemos
n→∞
que la convergencia en media p implica la convergencia en probabilidad P. 

108
14.4 Teorema Central del Lı́mite
Como recuerdo si X es una v.a. con esperanza E(X) = µ y varianza Var(X) =
σ 2 entonces su v.a. normalizada Y = (X −µ)/σ satisface E(Y ) = 0, Var(Y ) = 1.

Teorema 97. Sean (Xk : k ∈ N) v.a.’s i.i.d. con µ = E(X1 ) finita y 0 <
σ 2 = Var(X1 ) < ∞. Entonces
n
! Z x
X (Xk − µ) 1 y2
lim P √ ≤x = √ e− 2 dy , x ∈ R. (81)
n→∞ nσ 2π −∞
k=1

Pn
La media empı́rica al tiempo n es X n = k=1 Xk /n. Usando la simetrá de
la N(0, 1) obtenemos el error de aproximar la media teórica µ por la media
empı́rica X n usando n observaciones independientes,
Corolario 98. Sea x > 0, se tiene:
  √ Z −x
σx 2 y2
lim P |X n − µ| > √ =√ e− 2 dy.
n→∞ n π −∞

Prueba: Por el teorema del Lı́mite Central en x y −x obtenemos


n
! Z x
1 X 1 y2
lim P −x ≤ √ (Xk − µ) ≤ x = √ e− 2 dy.
n→∞ σ n 2π −x
k=1

Luego
n
! Z
σx 1X σx 1 x
y2
lim P − √ ≤ (Xk − µ) ≤ √ =√ e− 2 dy.
n→∞ n n n 2π −x
k=1

Usando la simetrı́a de la N(0, 1) se obtiene el resultado. 

En el caso en que (Xk : k ∈ N) son i.i.d. Bernoulli(p) se tiene µ = p, σ 2 =


p(1 − p).
Ahora daremos el concepto de convergencia referido en el Teorema Central del
Lı́nite y daremos los pasos esenciales para su demostración.

14.5 Convergencia en distribución


Notaremos F = {F : R → [0, 1]} el conjunto de las funciones de distribución, es
decir crecientes, continuas por la derecha con F (∞) = 1, F (−∞) = 0. Recorde-
mosmos que x es un punto de continuidad de F ∈ F, si F (x+ ) = F (x) = F (x− ),
y el conjunto de estos puntos lo notamos por C(F ).
Antes ya probamos que el conjunto de puntos de discontinuidad D(F ) = R \
C(F ) es a lo más numerable.

109
Definición 99. Diremos que (Fn : n ∈ N) ⊂ F converge débilmente a F ∈ F,
notaremos Fn =⇒ F , si F (x) = limn→∞ Fn (x) para todo punto de continuidad
de F .
Si (Xn :∈ N) es una familia de v.a.’s y X es una v.a. diremos que Xn converge
en distribución a X si FXn =⇒ FX , esto es si FX (x) = limn→∞ FXn (x) para
n→∞
todo punto de continuidad de FX . Por abuso de notación, esto lo extendere-
mos al caso en que (Xn :∈ N) es una familia de v.a.’s y F es una función de
distribución, decimos que Xn converge en distribución a F si FXn =⇒ F ,
n→∞

Relacionemos la convergencia en distribución con las convergencias definidas


previamente.

Proposición 100. Sean (Xn : n ∈ N), X v.a.’s tal que Xn → X en proba-


bilidad P. Entonces FXn =⇒ FX .
n→∞

Prueba: Notemos F = FX , Fn = FXn . Sean x′ < x < x′′ . Primero


mostremos que

F (x′ ) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x′′ ). (82)


n→∞ n→∞

Se tiene

F (x′ ) = P(X ≤ x′ , Xn − X ≥ x − x′ ) + P(X ≤ x′ , Xn − X < x − x′ )


≤ P(Xn − X ≥ x − x′ ) + P(X ≤ x′ , Xn ≤ X + (x − x′ ))
≤ P(Xn − X ≥ x − x′ ) + P(Xn ≤ x).

Como x − x′ > 0 y Xn → X en probabilidad P se tiene lim P(Xn − X ≥


n→∞
x − x′ ) = 0, luego hemos probado la primera desigualdad en (82). De manera
similar se prueba la segunda desigualdad.
Ahora tomemos una sucesión creciente (x′k ) convergiendo a x, y (x′′k ) una sucesión
decreciente convergiendo a x. Se tiene x′k < x < x′′k . Aplicando (82) deducimos

F (x′k ) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x′′k ).


n→∞ n→∞

Por otra parte por hipotesis, F es continua en x, luego se tiene

lim F (x′k ) = F (x) = lim F (x′′k )


k→∞ n→∞

Se deduce
F (x) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x).
n→∞ n→∞

Esto prueba el resultado. 

110
En lo que sigue para una función de distribución F notaremos (con evidente
abuso de notación), Z ∞
ϕF (t) = eitx dF (x).
−∞
Ası́ pues si X es v.a. se tiene ϕX = ϕFX . Se tiene el siguiente resultado debido
a Paul Lévy, que es crucial para el estudio de convergencia de distribuciones.

Lema 101. Sean (Fn : n ∈ N), F funciones de distribución. Entonces, se


tiene la equivalencia entre la convergencia débil de las distribuciones y la con-
vergencia puntual de las funciones caracterı́sticas, es decir
h i h i
Fn =⇒ F ⇔ ϕF (t) = lim ϕFn (t) ∀t ∈ R . (83)
n→∞ n→∞

Este Lema es crucial en la demostración del Teorema Central del Lı́mite que
sigue que es de Lindberg-Lévy. La demostración del Lema será efectuada en
en la Subsección 22.4 de la Apéndice 21 y en ella utilizaremos los resutados de
Helly, los que son dados y probados en la Subsección 22.1 del Apéndice 21.

14.6 Demostración del Teorema Central del Lı́mite


Observemos que el enunciado del Teorema Central del Lı́mite, Teorema 97,
equivale al siguiente, dado que (81) se escribe como (84).

Teorema 102. Sean (Xn : n ∈ N) v.a.’s i.i.d. con µ = E(X1 ) finita y


0 < σ 2 = Var(X1 ) < ∞. Denotemos
n
X (Xk − µ)
Zn = .
σ
k=1

Entonces
F√
Zn =⇒ Ψ, (84)
n k→∞

siendo Ψ la función de distribución de una v.a. N(0, 1) (ver (34)).

Prueba: Por la expresión de Zn basta probar elPresultado en el caso normal-


n
izado, es decir cuando µ = 0 y σ = 1. Luego Zn = k=1 Xk . Usaremos el Lema
101, por lo que debemos probar que
∀t ∈ R : lim ϕZn /√n (t) = ϕΨ (t).
n→∞

t2
Recordemos que ϕΨ (t) = e− 2 (ver Proposición 92).
Se tiene
!
 √  n
Y √ n
Y  √    t n
i√ X
ϕZn /√n (t) = E eitZn / n
=E eitXn / n
= E eitXn / n = E e n 1
k=1 k=1

111
en que en la tercera igualdad se uso la independencia y en la última que tienen
la misma distribución. Luego hemos probado
  n
t
ϕZn /√n (t) = ϕX1 √ ,
n
o equivalentemente
t
log(ϕZn /√n (t)) = n log(ϕX1 ( √ )).
n
Como E(X12 ) < ∞, por la Proposición 91 se deduce que ϕX1 (t) tiene segundas
derivadas continuas en R. Como ϕ′X1 (0) = iE(X1 ) = 0, ϕ′′X1 (0) = i2 E(X12 ) =
−Var(X1 ) = −1 la expansión de ϕX1 (u) es de la forma
u2 ′′ u2 o(u2 )
ϕX1 (u) = ϕX1 (0)+uϕ′X1 (0)+ ϕX1 (0) = 1− +o(u2 ) donde → 0 si u → 0.
2 2 u2

Ahora tomemos u = t/ n. Luego, fijando t, se tiene
   
t t2 1
ϕX 1 √ =1− +o .
n 2n n
Luego   
 t t2
log ϕZn /√n (t) = n log ϕX1 √ =− + o(1).
n 2
Por desarrollo de Taylor se tiene.
ln(1 + z) = z + r(z), con |r(z)| ≤ 2z 2 si |z| < 1/2.
Como t está fijo, tomando n suficientemente grande para que |−t2 /2n+o(1/n)| <
1/2 podemos aplicar la fórmula anterior. Como |r(t2 /n)| = t4 /(2n2 ) + o(1/n2 )
se obtiene:
       
t t2 1 t2 1
ln ϕX1 √ = ln 1 − +o =− +o .
n 2n n 2n n
Luego   
 t t2
log ϕZn /√n (t) = n log ϕX1 √ =− + o(1).
n 2
Concluı́mos que
t2
lim ϕZn /√n (t) = e− 2 = ϕΨ (t).
n→∞
Como las funciones caracterı́sticas convergen a la de una N(0, 1), por el Lema
101 concluı́mos el resultado. 
Nota 9. Una consecuencia del teorema de los grandes números Pn es que si (Xn )
es una sucesión de v.a.’s i.i.d. con Xn ∼ N(0, 1) entonces ( i=1 Xi2 )/n converge
c.s. a E(Xi2 ) = 1 y al combimarlo con el teorema del lı́mite central se obtiene
que una sucesión de v.a.’s con distribución tm Student converge en distribución
a una N(0, 1) cuando m → ∞.

112
15 Esperanza Condidional
15.1 Esperanza Condicional para v.a.’s simples
Veamos esperanza condicional para el caso de v.a.’s simples, es decir suponemos
que I es finito. Sea g : I → R. Considerando h : I k → R dado por g(b1 , .., bk−1 , b) =
g(b), se tiene que la esperanza condicional de g(Xk ) dado X1 = a1 , .., Xk−1 =
ak−1 es
X
E(g(Xk ) | X1 = a1 , .., Xk−1 = ak−1 ) = g(b) P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ),
b∈I

De esta definición se tiene que para g : I → R la esperanza condicional de Xk


dado X1 , .., Xk−1 es la v.a. definida por

E(g(Xk ) | X1 , .., Xk−1 )(ω)


X
= E(g(Xk ) | X1 = a1 , .., Xk−1 = ak−1 ) 1{X1 =a1 ,..,,Xk−1 =ak−1 } (ω).
(a1 ,..,ak−1 )∈I k−1

Propiedad 103. Si g, g ′ : I → R, α, β ∈ R, se tiene la linealidad,


E (αg(Xk ) + βg ′ (Xk ) | X1 , .., Xk−1 ) = αE(g(Xk ) | X1 , ..Xk−1 )
+βE(g ′ (Xk ) | X1 , .., Xk−1 ).

Propiedad 104. Para g : I → R se cumple


E(g(Xk )) = E (E(g(Xk ) | X1 , .., Xk−1 )) .

Prueba: Se tiene

E (E(g(Xk ) | X1 , .., Xk−1 ))


!
X X
= g(b) P(Xk = b |X1 = a1 , .., Xk−1 = ak−1 ) P(X1 = a1 , .., Xk−1 = ak−1 )
(a1 ,..,ak−1 )∈I k−1 b∈I
X X
= g(b) P(X1 = a1 , .., Xk−1 = ak−1 , Xk = b)
(a1 ,..,ak−1 )∈I k−1 b∈I
X X
= g(b)( P(X1 = a1 , .., Xk−1 = ak−1 , Xk = b))
b∈I (a1 ,..,ak−1 )∈I k−1
X
= g(b)P(Xk = b).
b∈I

113
Ejercicio 32. Sean (X1 , .., Xk ) v.a.’s reales simples independientes tomando
valores en el conjunto I. Ellos serán los resultados (aleatorios) de los juegos
1, .., k. El jugador tiene una fortuna inicial s0 (cantidad fija), consideremos la
Pl
fortuna (aleatoria) del jugador despues de jugar l veces, Sl = s0 + i=1 Xi ,
para l = 1, .., k. Entonces
X
E(g(Sk ) | S1 , ..., Sk−1 ) = g(a + Sk−1 )pXk (a),
a∈I

siendo, como es habitual pXk la densidad discreta de Xn . En efecto, por inde-


pendencia,

P(Sk = b | S1 = a1 , .., Sk−1 = ak−1 ) = P(Xk = b − ak−1 | X1 = a1 , .., Xk−1 = ak−1 −ak−2 )
= pXn (b − ak−1 ).

Luego
X
E(g(Sk ) | S1 = a1 , .., Sk−1 = ak−1 ) = g(b)P(Sk = b | S1 = a1 , .., Sk−1 = ak−1 −ak−2 )
b∈I
X X
= g(b)pXn (b − ak−1 ) = g(a + ak−1 )pXn (a).
b∈I a∈I

Y concluı́mos
X X
E(g(Sk ) | S1 , .., Sk−1 ) = g(a + ak−1 )pXn (a)1{Sk−1 =ak−1 }
ak−1 ∈I a∈I
X
= g(a + Sk−1 )pXn (a).
a∈I

Nota. La varianza condicional Xk dado X1 , .., Xk−1 es la v.a.


 
2
Var(Xk | X1 , .., Xk−1 ) = E (Xk − E(Xk | X1 , .., Xk−1 ) | X1 , .., Xk−1 .

Se satisface,

Var(Xk | X1 , .., Xk−1 ) = E(Xk2 | X1 , .., Xk−1 ) − E(Xk | X1 , .., Xk−1 )2 .

15.2 Esperanza condicional para v.a.’s absolutamente con-


tinuas
Caso bidimensional
Definición 105. Definimos esperanza condicional de g(Y ) dado X = x por
Z ∞
E(g(Y ) | X = x) = g(y)fY (y | X = x)dy.
−∞

114
De la definición se tiene
Z ∞
E(E(g(Y ) | X))) = E(g(Y ) | X = x)fX (x)dx
−∞
Z ∞ Z ∞ 
= g(y)fY (y | X = x)dy fX (x)dx
−∞ −∞
Z ∞Z ∞ Z ∞
= g(y)fX,Y (x, y)dxdy = g(y)fY (y)dy = E(g(Y )).
−∞ −∞ −∞

Caso k−dimensional. Asumamos k ≥ 2. Sean X1 , .., Xk v.a.’s a.c. en R con


densidad conjunta

fX1 ,..,Xk (x1 , .., xk ), (x1 , .., xk ) ∈ Rk .

Definición 106. Sea g : R → R Boreliana. Definimos la esperanza condi-


cional de g(Xk ) dado X1 = x1 , .., Xk−1 = xk−1 por,

E(g(Xk ) | X1 = x1 , .., Xk−1 = xk−1 )


Z
= g(xk ) fXk (xk | Xl = xl , l = 1, .., k − 1)dxk . (85)

Observemos que se puede definir la v.a. esperanza condicional de g(Xk ) dado


X1 , .., Xk−1 por

E(g(Xk ) | X1 , .., Xk−1 )(ω) = E(g(Xk ) | X1 = X1 (ω), .., Xk−1 = Xk−1 (ω)). 

Esta v.a.’s será notada E(g(Xk ) | X1 , .., Xk−1 ).


La propiedad siguiente es directa de la definición.

Propiedad 107. Sean g, h : R → R Borelianas, se cumple la aditividad


E ((g(Xk ) + h(Xk )) | X1 , .., Xk−1 ) = E(g(Xk ) | X1 , .., Xk−1 )+E(h(Xk ) | X1 , .., Xk−1 ).

Proposición 108. Sea g : R → R Boreliana. Se cumple


E(E(g(Xk ) | X1 , .., Xk−1 )) = E(g(Xk )).

Prueba: Se tiene

E(E(g(Xk ) | X1 , .., Xk−1 ))


Z ∞ Z ∞
= ... E(g(Xk ) | X1 = x1 , ..., Xk−1 = xx−1 )fX1 ,...,Xk−1 (x1 , ..., xk−1 )dx1 ...dxk−1
−∞ −∞
Z ∞ Z ∞ Z ∞ 
= ... g(y)fXk (y | X1 = x1 , ..., Xk = xk )dy fX1 ,...,Xk−1 (x1 , ..., xk−1 )dx1 ...dxk−1 .
−∞ −∞ −∞

115
Luego, usando

fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )


fX1 ,..,Xk−1 (x1 , .., xk−1 ) = fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )
fX1 ,..,Xk−1 (x1 , .., xk−1 )

y la propiedad de densida marginal (41),


Z ∞ Z ∞
fXk (xk ) = ... fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )dx1 ...dxk−1
−∞ −∞

obtenemos,
Z
E(E(g(Xk ) | X1 , .., Xk−1 )) = g(xk )fXk (xk )dxk = E(g(Xk )).

La varianza condicional Xk dado X1 , .., Xk−1 es la v.a.


 
2
Var(Xk | X1 , .., Xk−1 ) = E (Xk − E(Xk | X1 , .., Xk−1 ) | X1 , .., Xk−1 .

Se satisface,

Var(Xk | X1 , .., Xk−1 ) = E(Xk2 | X1 , .., Xk−1 ) − E(Xk | X1 , .., Xk−1 )2 .

116
16 Estadı́stica básica
16.1 Discusión introductoria
En Estadı́stica se dispone ó se construye un conjunto de datos x1 , ..., xn y se
busca extraer información de ellos, obtener ciertos patrones de conducta o pre-
decir ciertas caracterı́sticas que se cumplirı́an en un contexto más amplio. Para
estudiar esto se pueden acudir a distintos enfoques, el principal es el proba-
bilı́stico que expondremos más abajo. Pero vale la pena mencionar que el estu-
dio de grandes bases de datos y el disponer de grandes capacidades de cálculo
ha llevado a considerar enfoques que mezclan técnicas descriptivas, de álgebra
lineal o combinatoriales, que permite extraer informaci’on a cierta base de datos,
hacer predicciones -que se han revelado útiles-, y en que la extensión a otras
poblaciones se hace via simulaciones. Pero en alguno de estos pasos se debe dar
algún grado de confiabilidad a los resultados obtenidos y para ello se acude a
resultados básicos del modelo probabilista dando por verificadas las hipotesis
que estos requieran.
En cualquier caso para que podamos obtener resultados estadı́sticos con cierto
grado de validez se requiere que los datos o los experimentos tengan la ho-
mogenidad acorde a lo que se busca estudiar. Cuando ello no sucede se pueden
producir paradojas, una de las más conocidas es la siguiente.

Paradoja der Simpson. Supongamos que estamos evaluando la efectividad de


dos tratamientos, T 1 y T 2 , en dos tipos de enfermedades E1 y E2 , siendo a
priori E1 más difı́cil de curar que E2 . Cada tratamiento se da a un número N
de individuos. El tratamiento T 1 se suministra a un grupo de n11 individuos
sufriendo E1 y a n12 sufriendo E2 . El tratamiento T 2 se suministra a n21 indi-
viduos sufriendo E1 y a n22 sufriendo E2 . Ası́ pues ni1 + ni2 = N para i = 1, 2.
Los resultados de estos tratamiento en estos grupos de individuos son: mij
individuos de los nij se curan para i, j = 1, 2, el resto no se cura. Luego la
efectividad del tratamiento T i en los individuos con enfermedad Ej es mij /nij ,
para i, j = 1, 2. Notemos que de los N individuos a los que se le aplica el
tratamiento T i se curan M i = mi1 + mi2 para i = 1, 2. Ası́ pues la matriz de
tratamiento, enfermedad y porcentaje de cura es:

· T1 T2
E1 m11 /n11 m21 /n21
E2 m12 /n12 m22 /n22
Total M 1 /N M 2 /N

Es fácil ver que hay casos en que m1j /n1j > m2j /n2j para j = 1, 2, es decir que en
ambas enfermedades el porcentaje de individuos que se curan con el tratamiento
T 1 es mayor que el porcentaje con se curan con el tratamiento T 2 . Y sin embargo
podrı́a tenerse M 1 /N < M 2 /N , es decir el porcentaje total de individuos que se
curan con el tratamiento T 1 es menor que el porcentaje del total de individuos

117
con que se cura con el tratamiento T 2 . Por ejemplo basta tomar N = 100 y la
matriz siguiente

T1 T2
E1 9/16 = 0.5625 2/4 = 0.5000
E2 76/84 = 0.9047 84/96 = 0.8750
Total 85/100 = 0.85 86/100 = 0.86

La paradoja se refiere a que el tratamiento T 1 tiene mejores resultados que el


tratamiento T 2 en ambas enfermedades, y al mezclar los grupos, en el total de
la población el orden se revierte y T 1 apareciera ser menos efectivo que T 2 .
La inhomogeneidad proviene de que T 1 en comparación a T 2 se aplicó en una
mayor proporción de individuos con la enferemedad E1 que es más difı́cil de
curar que E2 . 

16.2 Estadı́stica: base probabilı́stica


Como ya enunciamos un problema básico en Estadı́stica es extraer información
de cierto conjunto de datos x1 , ..., xn . Uno de los problemas básicos es compren-
der la interacción entre las caracterı́sticas de estos datos y ciertos patrones de
cierta población o predecir la factibilidad que se cumplan ciertas caracterı́sticas
en la población a partir de relaciones que se verifiquen en los datos. Una hipote-
sis fundamental que asumiremos es que los datos se extraen de una población
bien determinada siguiendo ciertos procedimientos pobabilı́sticos, más precisa-
mente suponemos que se extraen de manera independiente y se distribuyen
siguiendo una misma ley de probabilidad, esto es ellos son la realización prob-
abilı́stica de un aspecto común de la población. En este caso se dice que el
conjunto de datos es una muestra aleatoria simple (m.a.s.).
La ley de probabilidad referida es sobre la población, conjugando consideraciones
abstractas ó de diseño, y existe cierta incerteza sobre esta ley, la que deberı́a irse
identificando a traves de lo que nos revela la muestra. Si se busca inferir ciertos
patrones en la población esto se hace a traves de como ciertas relaciones se dan
en la muestra siempre que las relaciones en la muestra sean consistentes con
las consecuencias probabilı́sticas implicadas por las patrones en la población.
Herramientas esenciales para ello son los teoremas de Grandes Números y del
Lı́mite Central.
La población o conjunto muestral es notado por X . En general este será R
o Rl o un subconjunto Boreliano de ellos (por ejemplo R+ ), ó un conjunto
numerable que lo notaremos I. El conjunto X está dotado de la σ−álgebra de
Borel o la inducida por ella en caso de R ó Rl , y si la población es numerable
la σ−álgebra es la discreta. La ley de probabilidad será notada P indiciada
por la incerteza de la ley, en una primera etapa la incerteza se concentra en un
parámetro (desconocido) θ, ası́ pues la ley será notada Pθ , y el parametro θ
varı́a en un conjunto convexo Θ ⊆ Rk para cierto k.

118
Los supuestos previos nos indican que el conjunto de datos x1 , ..., xn es el resul-
tado o realización de n variables aleatorias X1 , ..., Xn i.i.d. tomando valores en
el conjunto muestral X con ley de probabilidad Pθ . Ası́ pues xi = Xi (x) para
cierta realización x.
Por X designaremos una v.a, con ley de probabilidad Pθ . Notaremos por F (θ; ·)
la función de distribución asociada es decir F (θ; x) = Pθ (X ≤ x), en el caso
numerable la densidad discreta se escribe p(θ; a) = Pθ (X = a) para a ∈ I,
y en el caso en que F (θ; x) es absolutamente continua en x su densidad la
notamos por f (θ; x). Además notaremos Eθ y Varθ la esperanza y la varianza
con respecto a la distribución F (θ; ·).
Para las X1 , ..., Xn v.a.’s i.i.d. notaremos su densidad conjunta por: en caso en
discreto,
n
Y n
Y
p(θ; a1 , ..., an ) = Pθ (X1 = a1 , ..., Xn = an ) = Pθ (Xi = ai ) = p(θ; ai ),
i=1 i=1

y en caso absolutamente continuo la densidad conjunta de en (x1 , ..., xn ) es,


n
Y
f (θ; x1 , ..., xn ) = f (θ; xi ).
i=1

En el caso X ∼ Bernoulli(θ) se tiene Pθ (X = 1) = θ, y Eθ (X) = θ.

16.3 Estimación puntual de parámetros


En este caso se busca estimar el par’ametro θ ∈ Θ indiciando la ley de proba-
bilidad Pθ . El estimador será una función

θbn (·) : X n → Θ, (x1 , ..., xn ) → θbn (x1 , ..., xn ),

pero cuando se busque acentuar que es una v.a. lo notaremos θbn (X1 , ..., Xn ) y
para la realización x toma el valor θbn (X1 (x), ..., Xn (x)). En general no haremos
una distinción estricta entre ambas escrituras.
Si θ es multidimensional, θ = (θ1 , ..., θk ) entonces

θbn (X1 , ..., Xn ) = (θbn1 (X1 , ..., Xn ), ..., θbnk (X1 , ..., Xn )

donde θbnj (X1 , ..., Xk ) es un estimador de θj .

16.4 Estimadores media, varianza. Sesgo, Consistencia.


Supongamos que θ es la media teórica de X, esto es
Z ∞
θ = Eθ (X) = xdF (θ; x).
−∞

119
En este caso escribimos θ = µ. El estimador de la media teórica µ es la media
empı́rica
n
1X
µ
bn = X n = Xi .
n i=1
Observemos que
µ = Eµ (X) = Eµ (X n )
y por el Teorema de los Grandes Números

lim X n = µ Pµ − c.s.
n→∞

Les daremos nombre a estas propiedades.

Definición 109. El estimador θbn (X1 , ..., Xn ) de θ es:


(a) Insegado si Eθ (θbn (X1 , ..., Xn )) = θ. Si θ = (θ1 , ..., θk ) es multidimensional,
entonces es insegado si Eθ (θbnj (X1 , ..., Xn )) = θj para j = 1, ..., k.
(b) Consistente (respectivamente probabilidad o media p) si lim θbn (X1 , ..., Xn ) =
n→∞
θ Pθ −c.s. (respectialmente probabilidad o media p).

Por las relaciones anteriores X n es un estimador insesgado y consistente de la


media teórica µ.
Ejemplo I. En el lanzamiento de una moneda la probabilidad θ que salga cara
(valor 1) es deconocido, es el parametro tomando valores en Θ = [0, 1]. Tomemos
n lanzamientos X1 , ..., Xn i.i.d. con X ∼ Bernoulli(θ). Se cumple θ = Eθ (X).
Luego θbn (X1 , ..., Xn ) = X n es estimador insesgado y consistente de θ. 

De ahora en delante notaremos al estimador simplemente por θbn y cuando sea


necesario volverenos a la notación θbn (X1 , ..., Xn ).
El sesgo del estimador es s(θbn ) = ||Eθ (θbn ) − θ|| y el error medio cuadrático es
e2 (θbn ) = Eθ (||θbn − θ||2 ). En caso unidimensional se tiene

e2 (θbn ) = Var(θbn ) + |s(θbn )|2 .

En efecto,

e2 (θbn ) = Eθ (|θbn − θ|2 ) = Eθ (|θbn − Eθ (θbn ) + Eθ (θbn ) − θ|2 )


= Var(θbn ) + |s(θbn )|2 + 2(Eθ (θbn ) − θ)Eθ (Eθ (θbn ) − θ),

y como Eθ (θbn − Eθ (θbn )) = 0 se tiene el resultado.


Supongamos que la media teórica es conocida, esto es µ = µ0 , y el parámetro
es la varianza σ 2 esto es
Z ∞
σ 2 = Eσ2 ((X − µ0 )2 ) = (x − µ0 )2 dFσ2 (x).
−∞

120
Luego σ 2 es un parámetro de media de las variables i.i.d. Yi = (Xi − µ0 )2 ,
i = 1, ..., n, ya que Eσ2 (Yi ) = σ 2 . Luego su estimador es la media empı́rica
n n
1X 1X
Yn = bn2 =
Yi esto es σ (Xi − µ0 )2 =,
n i=1 n i=1

que es insesgado y consistente.


Ahora supongamos que el parámetro es la pareja θ = (µ, σ 2 ) ∈ Θ = R × R+ . La
media empŕica X n es estimador insesgado y consistente de µ. Un estimador de
la varianza es
n
1X
bn2 =
σ (Xi − X n )2 .
n i=1

Como µ bn2 es un estimador


bn = X n es estimador consistente de µ, se deduce que σ
2 2
consistente de σ . Sin embargo σ
bn no es insesgado, calculemos su sesgo. Se tiene,
n
X n
X
(Xi − X n )2 = ((Xi − µ) + (µ − X n ))2
i=1 i=1
n
X n
X
= (Xi − µ)2 + n(µ − X n )2 + 2(µ − X n ) ((Xi − µ)
i=1 i=1
Xn
= (Xi − µ)2 + n(µ − X n )2 − 2n(µ − X n )2
i=1

Y concluimos
n n
1X 1X
bn2 =
σ (Xi − X n )2 = (Xi − µ)2 − (µ − X n )2 . (86)
n i=1 n i=1

Como Eθ (X n ) = µ, Varθ (X n ) = σ 2 /n obtenemos Eθ (X n − µ)2 = Varθ (X n ) =


σ 2 /n y concluı́mos
1 n−1 2
σn2 ) = σ 2 − σ 2 =
Eθ (b σ .
n n
Podemos corregir el sesgo con el estimador siguiente definido para n > 1,
n
1 X n
Sbn−1
2
= (Xi − X n )2 = b2 .
σ
n − 1 i=1 n−1 n

Luego Eθ (Sbn−1
2
) = σ 2 . Se tiene que Sbn−1
2
es un estimador insesgado y consis-
2
tente de σ .

Ejemplo II. Si X1 , ..., Xn son i.i.d. con ley de probabilidad N(µ, σ 2 ) siendo
θ = (µ, σ 2 ) parametro desconocido tomando valores en Θ = R × R+ . Por lo
bn2 ) es estimador consistente de (µ, σ 2 ) y (X n , Sbn−1
hecho (X n , σ 2
) es estimador
insesgado y consistente de (µ, σ 2 ). 

121
16.5 Estimadores máximo verosı́miles
El estimador máximo verosı́mil es el valor del parametro que maximiza la prob-
abilidad de ocurrencia de la muestra. Para discutirlo coloquemonos en el caso
discreto. Sea pues X1 , ..., Xn i.i.d. a valores en el conjunto numerable I con
densidad discreta p(θ; ·) siendo θ el parametro tomado valores en el conjunto
convexo Θ. A la función
n
Y
Ln (a1 , ..., an ; θ) = Pθ (Xi = ai , i = 1, ..., n) = Pθ (Xi = ai )
i=1
n
Y
= p(θ; ai ), a1 , ..., an ∈ I,
i=1

se le llama la función de verosı́militud de la muestra. El estimador máximo


verosı́mil θbn de θ verifica

Ln (a1 , ..., an ; θbn (a1 , ..., an )) = max{Ln (a1 , ..., an ; θ) : θ ∈ Θ}.

Como log es creciente se tiene que θbn se caracteriza por

log Ln (a1 , ..., an ; θbn (a1 , ..., an )) = max{log Ln (a1 , ..., an ; θ) : θ ∈ Θ}.

Ahora bien
n
X
log Ln (a1 , ..., an ; θ) = log p(θ; ai ).
i=1

Si p(θ, a) es diferenciable en θ ∈ Θ y el máximo se encuentra en el interior


de Θ, el estimador máximo verosı́mil θbn verifica la condición de ser un punto
estacionario. En el caso en que θ = (θ1 , ..., θk ) es k−dimensional esta se escribe,
n
X 1 ∂p(θ; ai )
= 0, j = 1, ..., k.
b
p(θn ; ai ) ∂θj θ=θbn
i=1

Y la condición de ser máximo requiere como condición de segundo orden que la


matriz Hessiana evaluada en θbn sea definida negativa. En el caso unidimensional
esta condición de segundo orden es,
n
!
X 1 dp(θ, ai ) 1 d2 p(θ; ai )
− + < 0.
i=1 p2 (θbn ; ai ) dθ θ=θbn p(θbn ; ai ) dθ2 θ=θbn

Es enteramente analogo el caso en que X1 , ..., Xn i.i.d. son a valores en R con


densidad fθ siendo θ el parámetro a valores en el conjunto convexo Θ. La función
de verosı́militud de la muestra es la densidad conjunta, que por independencia
e igualmente distribuı́do es
n
Y
Ln (x1 , ..., xn ; θ) = f (θ; x1 , ...., xn ) = f (θ; xi ), x1 , ..., xn ∈ R.
i=1

122
El estimador máximo verosı́mil θbn de θ verifica
Ln (x1 , ..., xn ; θbn (x1 , ..., xn )) = max{Ln (x1 , ..., xn ; θ) : θ ∈ Θ}.
o equivalentemente
log Ln (x1 , ..., xn ; θbn (x1 , ..., xn )) = max{log Ln (x1 , ..., xn ; θ) : θ ∈ Θ},
con
n
X
log Ln (x1 , ..., xn ; θ) = log f (θ, xi ).
i=1
Todo el analisis sobre la condición de máximo en el caso diferenciable es analogo
al caso discreto. En particular, Si f (θ, x) es diferenciable en θ ∈ Θ y el máximo
se encuentra en el interior de Θ, el estimador máximo verosı́mil θbn verifica
la condición de ser un punto estacionario que en el caso θ = (θ1 , ..., θk ) es
k−dimensional se escribe,
n
X 1 ∂f (θ; xi )
= 0, j = 1, ..., k.
b
f (θ n ; x i ) ∂θj θ=θbn
i=1

En los dos ejercicios siguientes encontraremos los estimadores máximos verosı́miles


en el caso Bernoulli y Normal, solo verificaremos la condición de caso crı́tico.
Ejercicio 21.. Caso Bernoulli(θ). Analicemos el caso del lanzamiento de una
moneda, X1 , ..., Xn i.i.d. con X ∼ Bernoulli(θ). Luego el conjunto de valores
que toma cada variable I = {0, 1}, el parámetro toma valores en θ ∈ [0, 1]. Es
directo verificar que para para a ∈ {0, 1} se tiene pθ (a) = θa (1 − θ)1−a . En
efecto, esto da pθ (1) = θ, pθ (0) = 1 − θ. Luego, la función de verosimilitud es
n
Y Pn Pn
Ln (a1 , ..., 1n ; θ) = θai (1−θ)1−ai = θ i=1 ai
(1−θ)n− i=1 ai
, a1 , ..., an ∈ {0, 1}.
i=1

Luego
n
X n
X
log Ln (a1 , ..., 1n ; θ) = ( ai ) log θ + (n − ( ai )) log(1 − θ)
i=1 i=1
n
X  
θ
= n log(1 − θ) + ( ai ) log .
i=1
(1 − θ)

Luego la condición de punto estacionario es


Pn Pn
i=1 ai n − i=1 ai
− = 0.
θbn 1 − θbn
lo que tiene como solución
n
1X
θbn (a1 , ..., an ) = ai .
n i=1

123
b 1 , ..., Xn ) = X n , la media empı́rica.
Luego el estimador máximo verosı́mil es θ(X


Ejercicio 22.. Caso N(µ, σ 2 ). Consideremos X1 , ..., Xn i.i.d. con X ∼ N(µ, σ 2 ).


El parametro es la pareja θ = (µ, σ 2 ) ∈ Θ = R× R+ . La función de verosmilitud
es
n
Y Pn 2
1 (xi −µ)2 i=1 (xi −µ)
Ln (x1 , ..., xn ; µ, σ 2 ) = √ e− 2σ 2 = (2πσ 2 )−n/2 e− 2σ 2 .
i=1 2πσ 2

Luego
n
n log(2πσ 2 ) 1 X
log Ln (x1 , ..., xn ; µ, σ 2 ) = − − 2 ( (xi − µ)2 ).
2 2σ i=1

La condición de punto estacionario ∂ log L/∂µ = 0 al evaluarla en (b bn2 ), nos


µn , σ
da
n
1 X
(xi − µ
bn ) = 0,
bn2 i=1
σ
por lo que el estimador máximo verosı́mil es µ bn (x1 , ..., xn ) = xn , es decir
µ
bn (X1 , ..., Xn ) = X n es la media empı́rica. Por otra parte la condición de
punto estacionario ∂ log L/∂σ 2 = 0 al evaluarla en (b bn2 ), nos da
µn , σ
n
n 1 X
− + ( bn )2 ) = 0.
(xi − µ
σn2
2b σn4 i=1
2b
Pn
Luego el estimador máximo verosı́mil es σ bn2 (x1 , ..., xn ) = n1 i=1 (xi − µ
bn ) 2
, esto
es
n
1X
bn2 (X1 , ..., Xn ) =
σ (Xi − X n )2 . 
n i=1
Ejercicio 23. Un caso en que no se puede aplicar la diferenciabilidad pues el
máximo se encuentra en el borde, es el siguiente. Supongamos que X1 , ..., Xn
son i.i.d. distribuı́das según una Uniforme(0, θ] con θ ∈ (0, ∞). En este caso

fθ (x) = θ−1 1x∈(0,θ] ,

por lo que la función de verosı́militud es

Ln (x1 , ..., xn ; θ) = θ−n 1(x1 ,...,xn )∈(0,θ]n .

Luego θbn (x1 , ..., xn ) = max{x1 , ..., xn }, pues

Ln (x1 , ..., xn ; max{x1 , ..., xn }) = max{x1 , ..., xn }−n .

En efecto si θ < max{x1 , ..., xn } se tiene Ln (x1 , ..., xn ; θ) = 0 y si θ > max{x1 , ..., xn }
se tiene Ln (x1 , ..., xn ; θ) = θ−n < max{x1 , ..., xn }−n . 

124
16.6 Estimadores suficientes
Los estimadores suficientes son tales que la probabilidad de la ocurrencia de las
variables sólo depende del estimador. Introduzcamolos en el caso discreto.

Definición 110. El estimador θbn es suficiente para el parametro θ en el caso


en que X es discreta si para a1 , ..., an ∈ I se verifica
b 1 , ..., an ) = θ) = hn (a1 , ..., an ), con θ(a
Pθ (X1 = a1 , ..., Xn = an | θ(a b 1 , ..., an ) = θ.

Esto implica que la función de verosimilitud se factoriza como sigue


b 1 , ..., an ), θ), a1 , ..., an ∈ I.
Ln (a1 , ..., an ; θ) = hn (a1 , ..., an )ϕ(θ(a

En efecto basta tomar

hn (a1 , ..., an ) = b 1 , ..., an ), ϕ(θ(a


Pθ (X1 = a1 , ..., Xn = an | θ(a b 1 , ..., an ), θ)
= b 1 , ..., an ) = θ).
Pθ (θ(a

En el caso aboslutamente continuo θn se dice suficiente si existen funciones


hn : Rn → R, ϕ : Θ2 → R tal que se satisfaga,
b 1 , ..., xn ), θ), x1 , ..., xn ∈ I.
Ln (x1 , ..., xn ; θ) = hn (x1 , ..., xn )ϕ(θ(x

Ejercicio 24. En el caso X1 , ..., Xn i.i.d. con ley de probabilidad Bernoulli(θ),


se tiene que X n es un estimador suficiente de θ pues del Ejericio I se tiene,
Pn Pn
ai
Ln (a1 , ..., 1n ; θ) = θ i=1 (1−θ)n− i=1 ai
= θn an (1−θ)n(1−an a1 , ..., an ∈ {0, 1}.

Ejercicio 25. Probemos que si X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 ),
bn2 es un estimador suficiente de (µ, σ 2 ). Del Ejericio II se tiene,
se tiene que (X n , σ
Pn 2
i=1 (xi −µ)
2 2 −n/2
Ln (x1 , ..., xn ; µ, σ ) = (2πσ ) e 2σ 2 .

Por otra parte, de (86) se tiene


n
X n
X
(Xi − µ)2 = (Xi − X n )2 + n(X n − µ)2 .
i=1 i=1

Luego
Pn 2 2
i=1 (Xi −X n ) +n(X n −µ)
Ln (x1 , ..., xn ; µ, σ 2 ) = (2πσ 2 )−n/2 e 2σ 2


bn2 +n(X −µ)2
n
= (2πσ 2 )−n/2 e 2σ 2 .

Luego basta tomar hn ≡ 1 y se cumple la factorización. 

125
17 Intervalos de confianza y Tests de hipotesis
Ambos conceptos necesitan de evaluar la distribución de los estimadores que
fueron introducidos previamente. Algunos nuevos resultados de probabilidades
nos serán necesarios en esta tarea.

17.1 Intervalos de confianza


Por el momento coloquemenos en el caso en que el parametro θ ∈ Θ es uni-
dimensional, es decir Θ ⊆ R. Sea θbn = θbn (x1 , ..., xn ) un estimador de θ para
las observaciones xn , ..., xn . Un intervalo de confianza para el estimador es del
estilo |γL (θbn ), γR (θbn | que puede ser cerrado o abierto por la derecha o izquierda.
La idea es que este intervalo puede ser evaluado por las observaciones, y por
otra parte dado que θbn , (X1 , ..., Xn ) es una variable aleatoria entonces se puede
evaluar la probabilidad

Pθ (θ ∈ |γL (θbn ), γR (θbn )|).

Si α ∈ (0, 1) y se tiene

Pθ (θ ∈ |γL (θbn ), γR (θbn )|) ≥ 1 − α

entonces se dice que intervalo tiene confianza (al menos) 1 − α. La elección de


α es variada, por ejemplo α = 0.05, 0.01.0, 10 son valores usados- A medida que
se quiere mayor confianza 1 − α el intervalo de confianza crece, pues esa es la
forma en que el parametro pueda pertenecer al confianza con una probabilidad
mayor.
Se puede tener γL (θbn ) = inf Θ, en cuyo caso el intervalo de confianza se dice
derecho, ó tambien se puede dar γR (θbn ) = sup Θ, en cuyo caso se dice que el
intervalo de confianza es izquierdo. En ambos casos, el intervalo de confianza se
toma generalmente abierto por el extremo es el inf Θ ó sup Θ. Si esto no ocurre
en general el intervalo de confianza se toma cerrad por el extremo respesctivo.
Cuando Θ = R y θbn − γL (θbn ) = γR (θbn ) − θbn se le llama equilibrado.
Veamos algunos ejemplos.
Ejercicio 26. Supongamos X1 , ..., Xn i.i.d. con X ∼ N(µ, σ02 ) donde la media
µ ∈ R es el parámetro desconocido, aquı́ la varianza σ02 se supone conocida.
En este caso µ bn = µ bn (x1 , ..., xn ) = xn es la media
Pn empı́rica.
PnSabemosPn que si
Y1 , ..., Yn son i.i.d. con Yi ∼ N(µi P , σi2 ) entonces i=1 Yi ∼ N( i=1 µi , i=1 σi2 ).
n 2 2
Luego bajo la ley Pµ se tiene i=1 Xi ∼ N(nµ, nσ0 ), y obtenemos X n ∼
N(µ, σ02 /n). Ello equivale a

Xn − µ
√ ∼ N(0, 1).
σ0 / n
Para α tomemos xα > 0 tal que P(N(0, 1) < −xα ) = α/2, esto equivale a que

P(−xα < N(0, 1) < xα ) = 1 − α.

126
Luego,  √ 
n(X n − µ)
Pµ ( −xα ≤ ≤ xα = 1 − α.
σ0
Se tiene
Xn − µ xα σ0 xα σ0
−xα ≤ √ ≤ xα ⇔ X n − √ ≤ µ ≤ Xn + √ .
σ0 / n n n

Luego  
xα σ0 xα σ0
Pµ X n − √ ≤ µ ≤ X n + √ =1−α
n n
h i
Es decir X n − x√
α σ0
n
, X n + x√
α σ0
n
es un intervalo (centrado) de confianza 1 − α

de µ. Notemos que es de largo 2xα σ0 / n. 

Ejercicio 27. Consideremos X1 , ..., Xn i.i.d. con X ∼ N(µ0 , σ 2 ), siendo µ0


conocida, y donde σ 2 ∈ (0, ∞) es el parámetro que se busca estimar. Se tiene
(Xi − µ0 )/σ ∼ N(0, 1), por lo que la independencia implica
n
X (Xi − µ0 )2
∼ χ2n .
i=1
σ2

Construyamos un intervalo de confianza izquierdo con confianza 1−α. Tomemos


wα,n tal que P(χ2n ≥ wα,n ) = α, es decir P(χ2n ≤ wα,n ) = 1 − α. De donde
deducimos,
Xn
−1
Pσ2 (wα,n (Xi − µ0 )2 ≤ σ 2 ) = 1 − α,
i=1
−1
Pn
y se tiene que [wα,n i=1 (Xi − µ0 )2 , ∞) es el intervalo de confianza buscado.

Teorema 111. Tomemos


P X1 , ..., Xn v.a.’s i.i.d. con X ∼ N(µ, σ 2 ). En-
n
tonces las v.a.’s Z = i=1 (Xi − X n )2 es independiente de X n y se cumple
Z/σ 2 ∼ χ2n−1 .

Prueba: Como (Xi −µ)/σ ∼ N(0, 1) basta demostrar el resultado para el caso
µ = 0, σ = 1.
Recordemos que del Ejericio 18, si X1 , ..., Xn v.a.’s i.i.d. con X ∼ N(0, 1), A es
una matriz ortogonal y Y ~ = AX~ entonces Y1 , ..., Yn son i.i.d. con Y ∼ N(0, 1).
Sabemos que las filas de una matriz ortogonal es una base ortonormal (esto
caracteriza las matrices ortogonales). Ello proviene de AAt = Id la matriz
identidad, luego Ati,• Aj,• = δ(i, j) para i, j = 1, ..., n por lo que cumple la
aseveración.
√ √
Por otra parte el vector (1/ n, ..., 1/ n) tienen norma (euclideana) 1, y hay
una base ortogonal que la contiene. Definamos una matriz A cuyas filas esten

127
√ √
constituı́da por tal base, siendo su última fila An,• = (1/ n, ..., 1/ n). Dado
que A es ortogonal el vector ~y = A~x satisface (ver (49),
n
X n
X
~tY
Yl2 = Y ~ =X
~ t At AX
~ =X
~ tX
~ = Xl2 .
i=1 i=1
Pn √ √ 2
Como Yn = ( i=1 Xi )/ n = nX n se tiene Yn2 = nX n . Luego
n−1
X n
X n
X 2
Yl2 = Xl2 − Yn2 = Xl2 − nX n .
i=1 i=1 i=1

De (86) se tiene
n
X n
X
(Xi − X n )2 = (Xi − µ)2 − n(µ − X n ))2 ,
i=1 i=1
Pn Pn−1 Pn−1
por lo que i=1 (Xi − X n )2 = i=1 Yl2 . Como i=1 Yl2 ∼ χ2n−1 obtenemos
Pn Pn−1
que i=1 (Xi − X n )2 ∼ χ2n−1 y por otra parte como i=1 Yl2 es independiente
Pn
de Yn concluı́mos que i=1 (Xi − X n )2 es independiente de X n . 
Recordemos la definición de t de 62: si X, Z sin variables independientes entre
sı́ con X ∼ N(0, 1), Z ∼ χm entonces T = √ X se dice distribuı́da según
Z/m
tm Student con m grados de libertad, ella es simétrica con respecto al origen y
su densidad verifica
 −(m+1)/2
Γ((m + 1)/2) t2
fT (t) = √ 1+ .
mπΓ(m/2) m

Ejercicio 28. Consideremos X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 )


con parámetros (µ, σ 2 ) ∈ R × R∗+ .
Construyamos un intervalo de confianza 1 − α para σ 2 . Del Teorema 111 se
tiene
Xn
(n − 1)Sbn−1
2
= (Xi − X n )2 ∼ χ2n−1 .
i=1

El intervalo de confianza será derecho. Tomemos wα,n−1 tal que P(χ2n−1 ≤


wα,n−1 ) = α. Luego
n
X
−1
Pµ,σ2 (wα,n−1 (Xi − X n )2 ≤ σ 2 ) = 1 − α,
i=1
−1 Pn 2
y se tiene que (wα.n−1 i=1 (Xi −X n ) , ∞) es el intervalo de confianza buscado.
Ahora construyamos un intervalo centrado de confianza 1 − α para µ. Del
Teorema 111 se tiene (n − 1)Sbn−1
2
∼ χ2n−1 y es independiete de X n . Como
√ (X n − µ)
Y = n =∼ N(0, 1),
σ

128
del Teorema 111 y de la definición 62 se tiene

n(X n − µ)
∼ tn−1 Student.
Sbn−1
Tomemos τα/2,n−1 > 0 tal que P(tn−1 Student ≤ −τα/2,n−1 ) = α/2. Luego, por
simetrı́a
√ !
n(X n − µ)
Pµ,σ2 −τα/2,n−1 ≤ ≤ τα/2,n−1 = 1 − α,
Sbn−1

de donde se obtiene el intervalo centrado de confianza(1 − α),


!
Sbn−1 Sbn−1
Pµ,σ2 X n − τα/2,n−1 √ ≤ µ ≤ X n + τα/2,n−1 √ = 1 − α. (87)
n n

17.2 Test de hipotesis


Un problema importante es verificar ciertas hipotesis sobre los parámetros. Por
ejemplo se quiere testear que una cierta moneda este equilibrada es decir que la
probabilidad de obtener cara sea 1/2.
El problema en toda su generalidad se coloca de la manera siguiente: hay una
partición de los valores del parámetro Θ = Θ0 ∪ Θ1 , y se quiere estudiar la
hipotesis nula H0 : θ ∈ Θ0 versus la hipotesis alternativa H1 : θ ∈ Θ1 . La
decisión será rechazar o no rechazar la hipotesis nula H0 . Esto lo haremos en
base al comportamiento de la muestra aleatoria simple X ~ = (X1 , ..., Xn ). Esta
conducta se analizará fijando una región R1 que es llamada región de rechazo:
y si la muestra X ~ cae en R1 se rechaza la hipotesis H0 , y si la muestra cae fuera
de R1 no se rechaza H0 .
~ es un estimador (o la función de un estimador) de θ, la región de rechazo
Si t(X)
puede ser del estilo
R1 = {~x : t(~x) ∈ R}
donde R es una región de R tal que si el estimador toma valores en éste ello
tenga una baja probabilidad para θ ∈ Θ0 . Con esta región, se rechaza H0 si
t(~x) ∈ R y no se rechaza H0 si t(~x) 6∈ R.
~ ∈ R1 ) se llama la potencia del
Si R1 es la región de rechazo la función Pθ (X
~ se tiene qie la
test. Ası́ si la región de rechazo es en base al estimador t(X)
potencia es Pθ (X~ ∈ R)
Analicemos el caso en que Θ0 = {θ0 } es un singleton. Se tiene H0 : θ = θ0 y
se dice que la hipotesis nula es simple. En este caso H1 : θ 6= θ0 . Fijemos un
α > 0. Una región R1 de rechazo se dice de confianza 1 − α si bajo la condición
θ = θ0 se tiene
~ ∈ R1 ) ≤ α,
Pθ0 (X

129
es decir si dado que se cumple θ = θ0 la probilidad de rechazar la hipotesis nula
θ = θ0 es menor o igual a α. Si Θ ⊆ R y si t(~x) es un estimador de θ, una región
de rechazo puede ser del estilo R = {~x : |t(~x) − θ0 | > ǫ(~x)} y ella es de confianza
1 − α si Pθ0 (|t(~x) − θ0 | > ǫ(~x)) ≤ α. Se rechazará la hipotesis nula H0 : θ = θ0
si |t(~x) − θ0 | > ǫ(~x) y en caso contrario no la rechazaremos.
Ejercicio 29. Consideremos X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 )
con parametros (µ, σ 2 ) ∈ R × R∗+ . Se quiere testear la hipotesis H0 : µ = µ0
versus H1 : µ 6= µ0 . Siendo X n un estimador de µ0 una región de rechazo de
confianza α es
Sbn−1
R = {~x : |xn − µ0 | > τα/2,n−1 √ }.
n
~
En efecto, por (87) se tiene Pµ (X ∈ R) = α. 
0

Si se rechaza una hipotesis nula verdadera se dice que se comete un error de


tipo I y si se no se rechaza una falsa hiptesis nula se dice que se comete un error
de tipo II. Luego en el caso en que H0 : θ = θ0 y R1 es la región de rechazo, se
tiene que Pθ0 (X~ ∈ R1 ) es la probabilidad de cometer un error de tipo I, y que
~
1 − Pθ (X ∈ R1 ) es la probabilidad de cometer un error de tipo II cuando θ 6= θ0
es verdadera.
Ejercicio 30. Analicemos el caso Bernoulli cuando la hipotesis nula no es
simple. Sea pues X1 , ..., Xn i.i.d. con X ∼ Bernoulli(θ), siendo θ ∈ [0, 1] un
parametro desconocido. Fijemos un valor θ0 ∈ (0, 1) Pny analicemos el test sigu-
iente, H0 : θ ≤ θ0 , H1 : θ > θ0 . Consideremos Y = i=1 Xi = nX n cuya ley es
Binomial(n, θ). Más abajo probaremos que Pθ (Y ≥ k) es creciente con θ, esto
es X X
∀ θ1 < θ2 , l ∈ {0, .., n} : Pθ1 (Y = k) ≤ Pθ1 (Y = k). (88)
k≥l k≥l

En base a esta propiedad se propone una región de rechazo del estilo R = {Y ≥


c} para alguna constante c. Luego para tener un test de confianza 1 − α el valor
c deberı́a ser el menor valor que satisfaga Pθ0 (Y ≥ c) ≤ α.
Ahora probemos (88). Para ello nos bastará mostrar la siguiente monotonia
entre las densidades discretas:
Pθ2 (Y = k) Pθ (Y = k + 1)
∀ θ1 < θ2 , k ∈ {0, .., n − 1} : < 2 . (89)
Pθ1 (Y = k) Pθ1 (Y = k + 1)
P P
En, efecto si esto último ocurre y dado que k≥l Pθ1 (Y = k) = 1 = k≥l Pθ1 (Y =
k) deducimos que necesariamente se sumple que para algún k0 ,
Pθ2 (Y = k0 ) Pθ (X = k0 + 1)
... <1≤ 2 ≤ ...
Pθ1 (Y = k0 ) Pθ1 (X = k0 + 1)
Luego Pθ2 (Y = k) < Pθ2 (Y = k) para k < k0 y se ahı́ se deduce que se cumple
(88). Luego nos basta verificar (89) para la binomial, es decir que se cumple

n k n
 k+1
k θ2 (1 − θ2 )
n−k
k+1 θ2 (1 − θ2 )n−k−1
∀ θ1 < θ2 , k ∈ {0, .., n − 1} : n k n−k
< n
 k+1
.
k θ1 (1 − θ1 ) k+1 θ1 (1 − θ1 )n−k−1

130
Y efectivamente esto ocurre pues se reduce a (1 − θ2 )θ1 < (1 − θ1 )θ2 , lo que se
cumple si y solo si θ1 < θ2 . Ası́ pues para la binomial se cumple (88). 

131
18 Regresión lineal y mı́nimos cuadrados
Coemzaremos por ver la recta de mı́nimos cuadrados o regrssión simple y de-
spues pasaremos a ver regersión en varias variables. En la literatura puede verse
modelos de regresión no-lineales.

18.1 Regresión simple


Nuestros datos son (xi , yi : i = 1, ..., n) y queremos establecer una recta que los
ajuste, yi = β0 + β1 xi , para i = 1, ..., n. Sin embargo esto no puede lograrse con
exactitud en datos empı́ricos, ası́ que se acepta un error en esta relación lineal
y se busca establecer la relación

yi = β0 + β1 xi + ǫi , i = 1, ..., n,

y como criterio
Pn usamos Pnel elegir la recta que minimice la suma de mı́nimos
cuadrados i=1 ǫ2i = i=1 (yi − (βb0 + βb1 xi ))2 . Esto es se estima (β0 , β1 ) por
los valores (βb0 , βb1 ) tal que
n
X n
X
(yi − (βb0 + βb1 xi ))2 = min{ (yi − (β0 + β1 xi ))2 : (β0 , β1 ) ∈ R2 }.
i=1 i=1

Se tiene
Pn 2 n
X
∂ i=1 ǫi
= −2 (yi − (β0 + β1 xi ))
∂β0 i=1
Pn 2 Xn
∂ i=1 ǫi
= −2 (yi − (β0 + β1 xi ))xi .
∂β1 i=1
Pn Pn
Definamos xy n = i=1 xi yi /n, x2 n = i=1 x2i /n. La condición estacionaria
equivale a
y n = βb0 + βb1 xn , xy n = βb0 xn + βb1 x2 n . (90)
Este punto estacionario es un mı́nimo pues la matrix Hessiana es
 
1 xn
H = 2n ,
xn x2 n

que es definida positiva. De donde los estimadores de mı́nimos cuadrados satis-


facen
Pn
xy n − y n xn (y − y n )(xi − xn )
b b b
β0 = y n − β1 xn . β1 = Pn i
= i=1 2
. (91)
i=1 (xi − xn )
2 2
x n − xn
Definamos las estimaciones ybi de yi , y los residuos b
ǫi :

ybi = βb0 + βb1 xi , b


ǫi = yi − ybi , i = 1, ..., n.

132
Tambien definamos los valores medios
Xn n
X
ybn = ybi /n, b
ǫn = ǫi /n.
b
i=1 i=1

ǫn = ybn − y n . De las definiciones y de la primera relación en (90)


Es directo que b
y en (91) se obtiene
ybn = βb0 + βb1 xn = y n .
Luego se cumplen las relaciones siguientes,
ybn = y n , b
ǫn = 0. (92)
Probemos que se verifica
n
X n
X
xi b
ǫi = 0, ybi b
ǫi = 0. (93)
i=1 i=1

NotemosPque basta probarPn la primera Pde ǫn = 0


estas relaciones pues unido a b
n n
ǫi = βb0 i=1 b
nos da i=1 ybi b ǫi + βb1 i=1 xib ǫi = 0. Ahora bien, usando (91)
obtenemos
Xn Xn
xi b
ǫi /n = xi (yi − βb0 − βb1 xi )/n
i=1 i=1

= xy n − βb0 xn − βb1 x2 n = xy n − (y n − βb1 xn )xn − βb1 x2 n


= xy − y xn + βb1 (x2 − x2 n ) = 0
n n n

Con ello se ha probado (93).


Se tiene yi = ybi + b
ǫi , luego
yi − y n = ybi − y n + b
ǫi
de donde
(yi − y n )2 = (b ǫ i )2
yi − y n + b
Desarrollando el término de la derecha y usando las relaciones (92) y (93) se
deduce
Xn Xn n
X n
X
(yi − y n )2 = yi − ybn )2 + 2
(b yi − y n )b
(b ǫi + ǫ2i
b
i=1 i=1 i=1 i=1
n
X n
X
= yi − ybn )2 +
(b ǫ2i .
b
i=1 i=1

Esto es, la suma de cuadrados totales es la suma de los cuadrados explicados


más la suma de residuos al cuadrado. La bondad del ajuste se mide por el
llamado coeficiente de determinación R2 que es dado por
Pn
2 yi − ybn )2
(b
R = Pi=1
n 2
∈ [0, 1].
i=1 (yi − y n )

Se tiene que 1 − R2 es la parte de la proporción de la suma de cuadrados que no


es explicada por la regersión. Luego si R2 es próximo a 0 el ajuste no es bueno.

133
18.2 Regresión en varias variables
El problema general se plantea como sigue. Se busca explicar o predecir
Pl una
variable Y por las funciones X1 , ..., Xl de manera lineal Y = β0 + j=1 βj Xj .
Notemos queP si se crea una variables constante X0 = 1, lo anterior se puede
l
escribir Y = j=0 βj Xj .
Luego, de manera general suponemos que se dispone k variables X1P , ..., Xk y se
k
quiere estudiar en que sentido se puede establecer una relación Y = j=1 βj Xj .
En general para esta formulación se admite que la relación se admite un error
ǫ, y se busca establecer la relación
k
X
Y = βj Xj + ǫ.
j=1

En las relaciones anteriores las funciones X1 , ..., Xn las llamaremos explicativas,


y a partir de ellas se busca conocer la variable Y llamada predictiva En este
esquema, se supone que hay un control de las variables Xj luego su variación se
debe a la manipulación que el experimentador ejerce sobre ellas. Esta variación
produce un cambio en la variable Y en cuya medición se admite cierto error
el que en una parte de nuestro esquema puede ser puramente numérico, puede
deberse a los instrumentos, falta de precisión, pero que en algún momento supon-
dremos que es de caracter aleatorio.
Luego si hacemos observaciones de estas variables, de las explicativas y la pre-
dictiva, observaciones indiciadas por i, entonces se satisface
k
X
Yi = βj Xi,j + ǫi . (94)
j=1

Lo que buscamos es estimar los coeficientes βj , j = 1, ..., k. Para ello se dispone


de n observaciones indiciadas por i = 1, ..., n, ası́ pues se dispone de las ob-
servaciones yi , i = 1, ..., n para la variable predictiva Y , y las observaciones
xi,j : i = 1, ..., n para las variables Xj , j = 1, ..., n. Supondremos que las obser-
vaciones son suficientes para determinar las incógnitas (βi : i = 1, ..., k), esto es
asumimos
k ≤ n.
De acuerdo a (94) en cada una de las medición de yi se comete un error que
continuaremos notando por ǫi , i = 1, ..., n. Luego se tiene
k
X
yi = βj xi,j + ǫi , i = 1, ..., n. (95)
j=1

Escribamos estas relaciones en términos vectoriales y matriciales. Notemos

~y = (yi : i = 1, ..., n), ~ǫ = (ǫi : i = 1, ..., n)), ~xj = (xi,j : i = 1, ..., n), j = 1, ..., k.

134
Introduzcamos la matriz de variables explicativas X cuyas columnas son los
vectores ~xj , j = 1, .., k, esto es

X = (xi,j : i = 1, ..., n; j = 1, ..., k).

Por último notemos β~ = (β1 , ..., βk ) el vector de coeficientes lineales. Luego las
relaciones (95) se escriben,
~y = X β~ + ~ǫ. (96)
Junto a introducir el modelo, Gauss introduce el criterio de elegir el estimador
de β~ que minimiza la suma de errores cuadráticos. Este estimador lo notamos
~b
β y se llama de mı́nimos cuadrados, luego el debe verificar min ~ǫt ~ǫ, esto es,
~b t ~b ~ t (~y − X β)
~ : β~ ∈ Rk }.
(~y − X β) (~y − X β) = min{(~y − X β)

Notemos que
 2
n
X k
X
~b t ~b y i −
(~y − X β) (~y − X β) = xi,j  .
i=1 j=1

En el próximo resultado, la parte (a) es un resultado de minimización en el


cual no juega ningún aspecto probabilı́stico, pues el error pudo deberse solo a
problemas numéricos.
Teorema 112. (a) Suponganos que los vectores columnas (x•,j : j = 1, ..., k)
~
son linealmente independientes. Entonces el estimador βb de mı́nimos cuadrados
satisface
~b
β = (X t X)−1 X t ~y . (97)

(b) Asumamos que el vector de errores ~ǫ es un vector aleatorio que verifica

E(~ǫ) = ~0. (98)


~
Entonces βb = (X t X)−1 X t ~y es un estimador insesgado de β.
(c) Adicionalmente a la condición E(~ǫ) = 0 asumamos que la matriz de covari-
anzas de ~ǫ verifica Cov(~ǫ) = σ 2 Id con σ 2 > 0, es decir

Var(ǫ2i ) = σ 2 , Cov(ǫi , ǫj ) = 0, i = 1, ..., n, j 6= i. (99)

(Es decir los errores de distintas observaciones no están correlacionados, y todos


los errores tienen la misma varianza σ 2 , propiedad que se llama homocedasti-
~
cidad). Entonces βb es de matriz de covarianza mı́nima dentro de la clase de
estimadores insesgados lineales en ~y , esto significa que si ~β = (β 1 , ..., β k ) es
lineal en ~y e insesgado entonces se verifica
~ − Cov(~β) ≤ 0 (es semi-definida negativa).
Cov(β) (100)

135
Otra manera de decirlo es que se cumple
k
X k
X
∀~a = (a1 , ..., ak ) ∈ Rk : Var( ai βbi ) ≤ Var( ai β i ). (101)
l=1 l=1

Prueba: ~ = {(~y − X β)
(a) Definamos ϕ(β) ~ t (~y − X β).
~ Se tiene,

~ = ~y t ~y − 2β t X t ~y + β~ t X t Xβ.
ϕ(β)
La condición de primer orden para la minimización de esta cantidad es ∂ϕ(β)/∂βi =
0, i = 1, ..., n, lo que entrega la relación,
~b
2X t ~y = 2X t X β,
~
aquı́ βb indica un estimador verificando la condición de mı́nimo. Como las k
columnas de X son independientes y k ≤ n, se tiene que el rango de la matriz
X t X es k, como ella es de dimensión k deducimos que es invertible, lo que nos
~
permite deducir que βb satisface la relación (97). Para verificar que es un mı́nimo
Por otra parte se tiene que la matriz Hessiana satisface
∂ 2 ϕ(β)
= 2(X t X)i,j , i, j = 1, ..., k,
∂βi ∂βj
luego la matriz Hessiana es X t X la que es definida positiva, en efecto ~at X t X~a =
||X~a||2 ≥ 0, y X t X tiene rango k por lo que ||X~a||2 = 0 solo sı́ ~a = ~0. Con-
~ alcanza su mı́nimo en ~β.
cluı́mos que ϕ(β) b
(b) De la condición (98) se obtiene que para toda matriz A con n columnas se
verifica E(A~ǫ) = AE(~ǫ) = ~0. De donde
~b
E(β) = E((X t X)−1 X t ~y ) = E((X t X)−1 X t (X β~ + ~ǫ)) = (X t X)−1 X t X β~ = β.
~

~
Hemos probado que βb es insesgado.
(c) Sea ~β = (β i : i = 1, ..., k) un estimador de lineal en ~y , es decir ~β = C~y .
Tomando A = C − (X t X)−1 X t se tiene
~β = ((X t X)−1 X t + A)~y = ((X t X)−1 X t + A)(X β~ + ~ǫ).

~
Asumamos que ~β es insesgado, como βb lo es y E(X β~ + ~ǫ) = X β,
~ obtenemos

β~ = E(~β) = β~ + AXβ

Luego AX β~ = 0 para todo β~ ∈ Rk , y se obtiene AX = 0. Ahora bien la matriz


de covarianza de ~β satisface

Cov(~β) = E(C~y ~y t C t ) = E(C(X β~ + ~ǫ)(X β~ + ~ǫ)t C t )


= E(C~ǫ~ǫt C) = σ 2 CC t ,

136
pues E(CX β~ ~ǫ)t C t ) = E(C~ǫ X β)
~ = 0. Luego

Cov(~β) = σ 2 ((X t X)−1 X t + A)(X X t X)−1 + At ))


~b
= σ 2 Cov(β) + σ 2 AAt ,

donde usamos que AX = 0, X t At = 0. Como AAt es simétrica semi-definida


positiva se obtiene el resultado. Por último para ~a ∈ Rk obtenemos

~b ~b ~b
Var(~at ~β) = ~at Cov(~β)~a = ~at Cov(β) ~a + σ 2~at AAt ~at ≥ ~at Cov(β) ~a = Var(~at β).

Lo que prueba el resultado. 

137
19 Apéndice 1: Demostración de propiedades de
variables aleatorias y de funciones Borelianas
X : Ω → R es una variable aleatoria (v.a.) a valores en R si X −1 (C) ∈ B para
todo Boreliano C ∈ B(R).
Lema 113. Si la clase I ⊆ P(R) es tal que σ(I) = B(R) entonces X es v.a.
si y solo si X −1 (C) ∈ B para todo C ∈ I.

Prueba: Basta probar que

H := {C ∈ B(R) : X −1 (C) ∈ B} es una σ − álgebra.

En efecto, unido al hecho que I ⊂ H uno concluye que B(R) = H. La afirmación


que H es una σ−álgebra se deduce de las siguientes igualdades:
[ [
Ω = X −1 (R), ∅ = X −1 (∅), X −1 (R\C) = Ω\X −1 (C), X −1 ( An ) = X −1 (An ).
n∈N n∈N

Como B(R) = σ(L) con L = {(−∞, x] : x ∈ R} para mostrar que X : Ω →


R es v.a. basta probar que X −1 (−∞, x]) ∈ B para todo x ∈ R, y como
X −1 (−∞, x]) = {X ≤ x}, basta mostrar que {X ≤ x} ∈ B para todo x ∈ R.
Para la v.a. X su σ−álgebra generada es

σ(X) = {X −1 (B) : B ∈ B(R)} = X −1 (B(R)).

Si Y es v.a. diremos que Y es σ(X)−medible si σ(Y ) ⊆ σ(X).


De las referencias (12) y (13) se tiene que

X + , X − , |X| son σ(X) − medibles.

Nota 114. Si C ∈ B(R) y X : Ω → R es v.a. tal que X(Ω) ⊆ C diremos


que X es v.a. a valores en C. Se tiene que X : Ω → R es v.a. si y solo si
X : Ω → C es v.a. a valores en C donde C está dotado de la σ−álgebra inducida
B(C) = {A ∩ C : A ∈ B(R)}.
Introduzacamos llas v.a. simples.
Definición 115. Una v.a. X :→ R se dice simple si toma un número finito
de valores, es decir si el conjunto imagen X(Ω) es finito.
Sea X :→ R es una función que toma un número finito de valores. Se tiene que
X es v.a. (simple) si {X = a} ∈ B para todo a ∈ X(Ω). Probemoslo. Para ello
escribamos I = X(Ω), que por hipotesis es finito. Y se tiene
[
{X ∈ C} = {X = a}, (102)
a∈C∩I

138
y como este conjunto es una unión finita de conjuntos en B, deducimos el está
en B. Observemos que puede ser vacı́o cuando C ∩ I = ∅.
Observemos que 1Ω donde 1Ω (ω) = 1 para todo ω ∈ Ω por lo que la v.a constante
Xa se escribe Xa = a 1Ω .
Si X : Ω → R es v.a. simple con I = X(Ω) (finito pues X es simple). Al tomar
{X = a} = {ω ′ ∈ Ω : X(ω ′ ) = a} ∈ B, a ∈ I, la v.a. X simple podemos
escribirla en términos de indicadoras,
X
X= a 1{X=a} . (103)
a∈I

La propiedades que la suma y el producto de v.a.’s es v.a., se prueban primero


para v.a. simples Para ello tomemos X, Y v.a.’s simples (es decir tomado un
número finito de valores). Probemos X + Y es v.a. En efecto tomando
X X
X= a 1{X=a} , Y = b 1{Y =b} , ∀a ∈ I, b ∈ J, {X = a} ∈ B, {Y = b} ∈ B.
a∈I b∈J

Se tiene:
X X
X +Y = (a+b)1{X=a,Y =b} , X · Y = (a·b)1{X=a,Y =b} , (104)
(a,b)∈I×J (a,b)∈I×J

que son v.a.’s simples pues los conjuntos Aa,b = {X = a, Y = b} = {X =


a} ∩ {Y = b} son disjuntos y están en B. Lo anterior prueba las partes (i) y
(iii) de la Propiedad 25 (pues para la división es analogo).
Recordemos que (vi) de la Propiedad 25 ya fue probado, y en este Apéndice lo
usaremos en varias ocasiones, por lo que lo identificaremos por
Si ∃ lim Xn entonces lim Xn es v.a. (105)
n→∞ n→∞

Teorema 116. Si X : Ω → R se cumple,


X v.a. ⇔ X = lim Xn , con Xn v.a. simple, Xn ∈ σ(X), n ∈ N; (106)
n→∞

y si X ≥ 0 se tiene,
X v.a. ⇔ X = lim ր Xn con Xn v.a. simple, Xn ∈ σ(X), Xn ≤ Xn+1 , n ∈ N.
N →∞
(107)
Si X v.a. entonces se cumple las relaciones,
X v.a., B ∈ B ⇒ X 1B v.a., (108)
X = lim X1|X|≤n , (109)
n→∞
siendo X1|X|≤n v.a. acotada por n.
Se tiene,  
lim Xk 1{∃ lim Xk } es v.a.. (110)
k→∞ k→∞

139
Prueba: Mostremos la relación (108). Si x < 0, {X 1B ≤ x} = {X ≤ x} ∩ B
y si x ≥ 0, {X 1B ≤ x} = ({X ≤ x} ∩ B) ∪ B c , y se tiene (108). Notemos que
(105) junto |X| v.a. y (108), implican (109).

Ahora mostremos (107). Sea X ≥ 0. Si X = lim ր Xn con Xn v.a. simple,


N →∞
de (105), deducimos X v.a.. Probemos la conversa, por lo que asumimos X v.a..
Por la relación (109), nos basta probarlo en el caso acotado: X ≤ N para algún
N . Para n ∈ N definamos los conjuntos

B0,n = X −1 ({0}), Bk,n = {X ∈ ((k − 1)2−n , k2−n ]} si k ∈ {1, .., N 2n }. (111)

Si X es v.a. se tiene que la familia de conjuntos (Bk,n : k = 0, .., n2n ) están en


B y son disjuntos. Luego
X
Xn = (k − 1) 2−n 1Bk,n (112)
k=1,..,N 2n

es una v.a. simple. Probemos que Xn ≤ Xn+1 . Se tiene

Bk,n = B2k,n+1 ∪ B2k+1,n+1 , Xn+1 1B2k,n+1 = Xn 1B2k,n+1 ,


Xn+1 1B2k+1,n+1 = (Xn + 2−(n+1) )1B2k+1,n+1 , k = 1, .., N 2n .

Luego se deduce que (Xn : n ∈ N) es una familia creciente de funciones. Por


otra parte por definición, se tiene que Bk,n ∈ σ(X), luego Xn ∈ σ(X). Y como
|Xn − X| ≤ 2−n se deduce la conversa en (107):

X = lim ր Xn .
n→∞

Podemos suponer |X| ≤ N para algún N . Consideremos las familias de conjun-


+ −
tos (Bk,n : k = 0, .., n2n ) y (Bk,n : k = 0, .., n2n ) asociadas respectivamente a
+ −
X y X , podemos construı́r los lı́mites,

X + = lim ր (X + )n , X − = lim ր (X − )n ,
n→∞ n→∞

de donde
X = X + − X − = lim ((X + )n − (X − )n ),
n→∞
+ −
siendo (X )n − (X )n v.a. simple. Usando (105) obtenemos el resultado.

Recordemos que usando (104) se prueba que la suma y multiplicación de v.a.’s


simples son v.a.’s simples. Ahora probemos que si X, Y v.a.’s entonces X+Y v.a.
Usaremos (105), por lo que por (109) podemos suponer el caso acotado |X| ≤ N
e |Y | ≤ N para algún N . Se tiene que X + Y = X + + Y + − (X − + Y − ). Luego

X + Y = lim ((X + )n + (Y + )n − (X − )n − (Y − )n ),
n→∞

140
Por (105) obtenemos X + Y es v.a.. Esto muestra que si X + , X − son v.a.’s
entonces X es v.a..
Por otra parte, también se tiene

X·Y = lim (X + )n · (Y + )n + (X − )n · (Y − )n − (X + )n · (Y − )n − (X − )n · (Y + )n ) ,
n→∞

y de nuevo por (105), se obtiene que X · Y es v.a. Por último, si Y v.a. entonces
Y −1 1Y 6=0 es v.a.. Por (108) nos basta mostar que si Y v.a. tal que {Y = 0} = ∅
entonces Y −1 v.a.. Esto lo podemos hacer tomado lı́mites, pero también resulta
de otras caracterizaciones, como se explica en la Ejercicio 13 de más abajo.

Definición 117. Una función g : R → R se dice Boreliana si g −1 (C) ∈ B(R)


para todo C ∈ B(R).
Para C0 ∈ B(R) definimos h : C0 → R es Boreliana si h−1 (C) ∈ B(R) ∩ C0 para
todo C ∈ B(R). (Como veremos en la parte (ii) de la siguiente Proposición esta
definición no agrega funciones que no conozcamos por las Borelianas).

Al conjunto de funciones Borelianas podemos aplicar el Teorema anterior. Y se


tiene.

Proposición 118. (a) El conjunto de funciones Borelianas contiene a las


funciones reales simples (i.e. tomando número finito de valores), es cerrada
para combinaciones lineales, multiplicación, máximo y mı́nimo de funciones,
lı́mite de funciones, y cuando extendemos R a R ∪ {−∞, ∞}, es cerrada para
lı́mite inferior y superior respectivamente.
(b) Sea C0 ∈ B(R). Si g es boreliana entonces la restricción g|C0 : C0 → R es
boreliana. Recı́procamente, si g0 : C0 → R es boreliana entonces la extensión g :
R → R es Boreliana, siendo esta función tal que g|C0 = g0 , g|R\C0 : R \ C0 → R
cualquier Boreliana en R \ C0 , en particular una constante.

Prueba: Toda la parte (a) se deduce del Teorema 116 pues una función es
Boreliana si cumple las condiciones de v.a. cuando (Ω, B) = (R, B(R)).
(b) Se deduce de g|−1
C0 (C) = g
−1
(C) ∩ C0 .

Proposición 119. Se tiene:


h i h i
X v.a. , g : R → R Boreliana ⇒ g ◦ X : X → R, ω → g(X(ω)), v.a. .
(113)
Y se cumple g ◦ X ∈ σ(X).
Más aún, para X, Y v.a.’s se tiene
h i h i
Y ∈ σ(X) ⇔ ∃g : R → R Boreliana tal que Y = g ◦ X . (114)

141
Prueba: Si C ∈ B(R) se tiene (g ◦ X)−1 (C) = X −1 (g −1 (C)) ∈ B(R) pues
g −1 (C) ∈ B(R) y X es v.a.. Luego, se tiene

(g ◦ X)−1 (B(R)) = X −1 (g −1 (B(R))) ⊆ X −1 (B(R)).

De donde g(X) ∈ σ(X). Solo nos falta mostrar la implicación directa en (114).
Sea pues Y v.a. tal que Y ∈ σ(X).
P
Supongamos primero que Y es v.a. simple, ası́ se tiene Y = a∈I a1{Y =a} con
P(Y = a) > 0. Luego σ(Y ) = σ({Y = a} : a ∈ I). Por hipotesis se cumple
σ({Y = a} : a ∈ I) ⊆ σ(X), en particular {YP= a} = X −1 (Ca ) para Ca ∈ B(R),
a ∈ I = 1. De donde Y = g(X) con g = a∈I a1Ca . Y se tiene g es simple,
luego es una función Boreliana por la Proposición 118. Notemos que g(x) = 0
si x 6∈ Y (Ω).
Sea ahora Y ≥ 0. Luego por la relación (107) del Teorema 116 se cumple

Y = lim ր Yn con Yn v.a. simple, Yn ∈ σ(Y ), Yn ≤ Yn+1 , n ∈ N.


N →∞

Como Yn v.a. simple, Yn ∈ σ(Y ) ⊆ σ(X), por la parte anterior deducimos


Yn = gn (X) con gn función Boreliana en su forma reducida. Además Yn ≤ Yn+1
implica gn ≤ gn+1 . De donde Y = g(X) con g := lim ր gN . Finalmente para
N →∞
Y v.a. colocamos Y = Y + − Y − y sabemos que Y + ∈ σ(Y ), Y − ∈ σ(Y ). Por
la última parte Y + = g+ (X), Y − = g− (X) para g+ , g− : R → R Borelianas
(no-negativas), luego Y = g(X) con g = g+ − g− función Boreliana. 

Nota 120. Las funciones Borelianas contiene el conjunto de funciones con-


tinuas, las funciones continuas por partes con un conjunto discreto de discon-
tinuidades, las funciones monótonas y las funciones a variación acotada.
Basta probarlo para una función continua. Sea U (R) = {U : U ⊆ R, U abierto }.
Se tiene que g continua entonces g −1 (U ) ∈ U (R) para todo U ∈ U (R). Como
U ⊂ B(R) deducimos g −1 (U ) ∈ B(R) para todo U ∈ U (R). Finalmente como
B(R) = σ(U ), concluı́mos que g es Boreliana. 

Ejercicio 13. Si Y : Ω → R v.a. tal que {Y = 0} = ∅ entonces 1/Y es v.a. En


efecto 1/Y = g(Y ) con g : R → R dada por g(x) = 1/x si x 6= 0, g(0) = 0. Se
tiene g Boreliana, luego por la Proposición 119 concluı́mos que 1/Y es v.a.

142
20 Apéndice 2: Demostración propiedades de
Esperanza
Sea X v.a., X ≥ 0. En el Teorema 116, relación (107), se estableció que
X = lim ր Xn donde ր es Xn v.a. simple, Xn ≤ Xn+1 , Xn ∈ σ(X) n ∈ N.
N →∞

Unido a este hecho usaremos el siguiente resultado, que no desostraremos:


Lema de Beppo Levi. Se tiene
lim ր Xn = lim ր Yn ⇒ lim ր E(Xn ) = lim ր E(Yn ).
n→∞ n→∞ n→∞ n→∞

Luego podemos definir E(X) como sigue.

Definición 121. Sea X v.a., X ≥ 0, entonces definimos


E(X) = lim ր E(Xn ) donde X = lim ր Xn , Xn v.a. simple , n ∈ N.
n→∞ n→∞

Notemos que E(X) ∈ [0, ∞].


Diremos que la v.a. X ≥ 0 es integrable o que tiene esperanza finita y notaremos
X ∈ L1 , si E(X) < ∞.
Sea X v.a., E(X) está definida si E(X + ) < ∞ o E(X − ) < ∞, y en éste caso
definimos
E(X) = E(X + ) − E(X − )
Se dirá que la v.a. X es integrable o tiene esperanza finita, y notamos X ∈ L1 ,
si E(X + ) < ∞ y E(X − ) < ∞, en cuyo caso E(X) ∈ R, es decir es finita.
Sean X + = lim ր Yn , X − = lim ր Zn con Yn , Zn v.a.’s simples , n ∈ N.
n→∞ n→∞
Entonces |X| = X + + X − = lim ր (Yn + Zn ), y deducimos que
n→∞

E(|X|) = E(X + ) + E(X − )


Es directo mostrar que:

Propiedad 122. Sea X v.a..


(a) Se tiene X ∈ L1 ⇔ |X| ∈ L1 , es decir E(X) finita si y solo si E(|X|) finita.
(b) Si |X| ≤ Y con E(Y ) < ∞ entonces X ∈ L1 . 

♠ Notemos que del Lema de Beppo Levi se deduce el Teorema de Convergencia


Monótona:
E( lim ր Xn ) = lim ր E(Xn ).
n→∞ n→∞

Establezcamos la extensión del Teorema 66.

143
Teorema 123. Sean X, Y ∈ L1 , α, β ∈ R.
(a) E(E(X)) = E(X) (idempotencia).
(b) X ≤ Y implica E(X) ≤ E(Y ) (monótona). En particular: X ≥ 0 implica
E(X) ≥ 0.
(c) E(αX + βY ) = αE(X) + βE(Y ) (lineal).
(d) E(X − E(X)) = 0.
(e) Sea D convexo conteniendo X(Ω) y h : D → R función convexa y tal que
h(X) ∈ L1 , entonces

h(E((X)) ≤ E(h(X)) desiguladad de Jensen. (115)

(f ) Se tiene i

X ≥ 0, E(X) = 0 ⇒ P(X = 0) = 1. (116)

En particular E(|X|) = 0 implica P(X = 0) = 1


(g) Si X, Y son v.a.’s independientes, entonces

E(X · Y ) = E(X) · E(Y ). (117)

Prueba: No demostaremos todo el resultado, solo algunas partes de este.


(b) Probemoslo primero para 0 ≤ X ≤ Y . Por la definición de conjuntos en
(111), se tiene que las v.a.’s construı́das en (112) verifican

0 ≤ Xn ≤ Y n , X = lim ր Xn , Y = lim ր Xn ,
n→∞ n→∞

luego E(Xn ) ≤ E(Yn ) para todo n ∈ N, y se deduce E(X) ≤ E(Y ). En caso


general X ≤ Y se tiene X + ≤ Y + , X − ≥ Y − por lo que E(X) = E(X + ) −
E(X − ) ≤ E(Y + ) − E(Y + ) = E(Y ).

(g) Probemoslo primero para X, Y v.a.’s independientes, X, Y ≥ 0. Se tiene que


X, Y verifican que existen (Xn : n ∈ N), (Yn : n ∈ N), Xn ր, Yn ր, Xn , Yn ,
v.a.’s simples, Xn ∈ σ(X), Yn ∈ σ(Y ) para n ∈ N, con

X = lim ր Xn , Y = lim ր Yn .
n→∞ n→∞

Luego X · Y = lim ր Xn · Yn , por lo que


n→∞

E(X · Y ) = lim E(Xn · Yn ).


n→∞

Como Xn ∈ σ(X), Yn ∈ σ(Y ), y por hipotesis σ(X) es independiente de σ(Y ),


se deduce Xn e Yn independientes por lo que

E(Xn · Yn ) = E(Xn )E(Yn )

144
y concluı́mos

E(X · Y ) = lim E(Xn )E(Yn ) = lim E(Xn ) · lim E(Yn ) = E(X)E(Y ).


n→∞ n→∞ n→∞

Ahora si X, Y v.a.’s independientes se tiene que X = X + − X − , Y = Y + − Y − ,


con X + , X − ∈ σ(X), Y + , Y − ∈ σ(X). Luego X + y X − son independientes de
Y + , Y − . Luego, por la parte ya probada para v.a.’s no-negativas,

E(X · Y ) = E((X + − X − )(Y + − Y − ))


= E(X + · Y + − X + · Y − − X − · Y + + X − · Y − )
= E(X + )E(Y + ) − E(X + )E(Y − ) − E(X − )E(Y + ) + E(X − )E(Y − )
= E(X)E(Y ). 

145
21 Apéndice 3: Lema de Borel Cantelli y de-
mostración c.s. en Teorema Grandes Números
Recordemos la Proposición 124 estableciendo las relaciones entre las convergen-
cias y probemosla.

Proposición 124. Se tiene:


X = lim Xn P − c.s. ⇒ X = lim Xn en probabilidad P, (118)
n→∞ n→∞
p
X = lim Xn en L ⇒ X = lim Xn en probabilidad P. (119)
n→∞ n→∞

Prueba: Probemos (118). Notemos


\ [
A = {ω ∈ Ω : X(ω) = lim Xn (ω)} = An,m siendo
n→∞
m∈N n∈N
\
An,m = {ω ∈ Ω : |Xk (ω) − X(ω)| ≤ 1/m}.
k≥n

P(A) = 1. Por otra parte para m ∈ N fijo se tiene


Por hipotesis se tiene S
An,m ⊆ An+1,m y A ⊆ n∈N An,m . Por continuidad monótona de P obtenemos:
1 = lim P(An,m ).
n→∞

Como esto es para todo m ∈ N, ello nos da el resultado.


Probemos (119). La desigualdad de Markov (78) aplicada a |Xn − X| nos da:
1
∀ǫ > 0 : P(|Xn − X| > ǫ) ≤ E(|Xn − X|p ).
ǫp
Tomando lim en la desigualdad nos da el resultado. 
n→∞
Un resultado útil para estudiar la convergencia de v.a.’s es el Lema de Borel
Cantelli referido a la realización de un conjunto infinito de eventos. Intreoduz-
camos previamente algunas definiciones. Sea (An : n ∈ N) ⊆ P(Ω) una clase
numerable (infinita) de subconjuntos de Ω. Se define
\ [ [ \
lim sup An = An , lim inf An = Ak .
n→∞ n→∞
n∈N k≥n n∈N k≥n

Se tiene,
(lim sup An )c = lim inf Acn ;
n→∞ n→∞

ω ∈ lim sup An ⇔ |{n : ω ∈ An }| = ∞, ω ∈ lim inf An ⇔ |{n : ω ∈ Acn }| < ∞.


n→∞ n→∞

En el caso lim sup An = lim inf An se dice que existe lim An y se define por
n→∞ n→∞ n→∞
lim An = lim sup An = lim inf An .
n→∞ n→∞ n→∞

146
Lema 125. Sea (An : n ∈ N) ⊂ B. Entonces:
P
(a) Si P(An ) < ∞ entonces P(lim sup An ) = 0.
n∈N n→∞
P
(b) Si los eventos (An : n ∈ N) son P−independientes y P(An ) = ∞ entonces
n∈N
P(lim sup An ) = 1.
n→∞

P 
Prueba: (a) La hipotesis implica lim k≥n P(Ak ) = 0. Luego, de la
n→∞
definicón del lı́mite superior de conjuntos, la Proposición 9 (continuidad mono-
tona de P) y la Proposición 10 (sub-σ-aditividad de P), se obtiene
 
[ X
P(lim sup An ) = lim P( Ak ) ≤ lim  P(Ak ) = 0.
n→∞ n→∞ n→∞
k≥n k≥n
S
(b) Por la Proposición 9, basta
T probar que para todo n se tiene P( k≥n Ak ) = 1
o equivalentemente que P( k≥n Ack ) = 0. Ahora bien, por independencia se
tiene
\ N
\ N
Y N
Y
P( Ack ) = lim P( Ack ) = lim P(Ack ) = lim (1 − P(Ak )).
N →∞ N →∞ N →∞
k≥n k=1 k=1 k=1
P
Usemos 1 − x ≤ e−x y la hipotesis P(An ) = ∞ para obtener:
n∈N
\ PN P
P( Ack ) ≤ lim e− k=1 P(Ak )
= e− k∈N P(Ak )
= 0. 
N →∞
k≥n

Ahora mostremos:

Lema 126. Si para ǫ > 0 se tiene para una constante K < ∞,


X
P (|Xn − X| > ǫ) ≤ an con an < ∞ ,
n∈N

entonces X = lim Xn P-c.s..


n→∞

P
Prueba: Coloquemos ǫ = 1/m con m ∈ N. Como n∈N P (|Xn − X| > 1/m) <
∞, usando el Lema de Borel Cantelli (a) deducimos

P(lim inf {|Xn − X| ≤ 1/m}) = 1.


n→∞

Luego tormando la intersección se tiene,

P(∀m ∈ N : lim inf {|Xn − X| ≤ 1/m}) = 1,


n→∞

147
es decir
P(ω ∈ Ω : ∀m ∈ N ∃n(m), ∀k ≥ n(m) : |Xn (ω) − X| ≤ 1/m}) = 1.
El resultado está probado. 
Enunciaremos el Teorema de los Grandes Números para v.a.’s i.i.d. enP
su gener-
N
alidad, este establece la convergencia de la media empı́rica X N = N1 n=1 Xn
a la media teórica E(X). Este enunciado se hace en general, pese a que solo lo
probaremos con hipotesis adicionales.

Teorema 127. Sean (Xn : n ∈ N) una sucesión de v.a.’s i.i.d. con E(Xn )
finita. Entonces
lim X n = E(X) P − c.s. (120)
n→∞
Si (Xn : n ∈ N) ⊂ Lp para p ≥ 1, entonces
lim X n = E(X) en Lp . (121)
n→∞

En particular lim X n = E(X) en probabilidad P.


n→∞

Prueba: Ya mostramos la convergencia para p = 2, y por la Proposición 124


se tiene la convergencia en probabilidad P.
Mostremos (120) bajo el siguiente supuesto adicional:
Xn ∈ L4 , esto es ρ = E(Xn4 ) < ∞.
Observemos que esto implica que |Xn | ∈ Lp para p ∈ [1, 4]. Ahora notemos
µ = E(Xn ) y σ 2 = ~a(Xn ).
Pn
Expandamos E( i=1 (Xi − µ)4 ). Como (Xi − µ) es independiente de (Xj − µ)
si i 6= j, todos los términos que involucren
(Xi − µ)3 (Xj − µ), (Xi − µ)(Xj − µ)(Xk − µ)2 con i, j, k 6=′ s
tienen E nula. Además, por independencia se tiene para j 6= i, E((Xi −µ)2 (Xj −
µ)2 )) = σ 2 . Y por ser igualmente distribuı́dos se obtiene:
n
X
E( (Xi − µ)4 ) = nρ + n(n − 1)σ 4 .
i=1

Luego por desigualdad de Markov-Tchevychev,


n
! n
 X 1 X
P |X n − µ| > ǫ = P | (Xi − µ)| > nǫ ≤ E(( (Xi − µ)))4 )
i=1
n4 ǫ4 i=1
nρ + n(n − 1)σ 4 K
≤ 4 4
≤ 2,
n ǫ n
P
para una constante K < ∞. Como n∈N Kn−2 < ∞. Por el Lema 126 deduci-
mos el resultado. 

148
21.1 Paseo Aleatorio
Sean (Yk : k ∈ N) v.a.’s i.i.d. con P(Yk = 1) = p = 1 − P(Yk = −1). Defina
n
X
Sn = Yk , n ∈ N,
k=1

el paseo aleatorio en Z. Observe que (Sn : n ∈ N) no son independientes. En


efecto se tiene Sn+1 − Sn = Yn+1P , luego |Sn+1 − Sn | = 1, y además Sn+1 − Sn =
n
Yn+1 es independiente de Sn = k=1 Yk pues esta última variable depende de
(Yk : k ≤ n) y todas ellas son independientes de Yn+1 . Luego,

P(Sn+1 = b | Sn = a) = P(Sn+1 − Sn = b − a | Sn = a)


p si b = a + 1
= P(Yn+1 = b − a | Sn = a) = 1 − p si b = a − 1


0 si |b − a| 6= 1.

Probemos que si p 6= 1/2 entonces

P(ω ∈ Ω : ∃N (ω) ∈ N, Sn (ω) 6= 0 ∀n ≥ N (ω)) = 1. (122)

Esto equivale a mostrar que

P(lim sup An ) = 0 siendo An = {Sn = 0}. (123)


n→∞

Ahora bien por el Ejercicio 8 se tiene


 
2n n
P(An ) = (p(1 − p)) .
n
P 2n

Luego, usando el desarrollo de Taylor (1 − x)−1/2 = n≥0 n xn se deduce,

X X 2n n −1/2
P(An ) = (p(1 − p)) = (1 − p(1 − p)) .
n
n≥0 n≥0

Es fácil mostrar que si p 6= 1/2, p ∈ [0, 1] entonces p(1 − p) < 1/4, luego
−1/2 P
(1 − p(1 − p)) < ∞, por lo que n≥0 P(An ) < ∞. Por el Lema de Borel
Cantelli (a) deducimos P(lim sup An ) = 0 y se deduce (123).
n→∞

149
22 Apéndice 4: Demostración de resultados de
función caracterı́stica y convergencia de fun-
ciones de distribución
22.1 Lemas de Helly
Demos los dos lemas de Helly en relación a la convergencia de funciones de
distribución.

Lema 128. Sea (Fn : n ∈ N) ⊂ Cb y asumamos que a ≤ Fn (x) ≤ b para todo


x ∈ R, n ∈ N. Luego existe F ∈ C, (nk : k ∈ N) tal que Fnk =⇒ F . Además
k→∞
a ≤ Fn (x) ≤ b para todo x ∈ R, y se puede tomar F continua por la derecha.

Prueba: Sea C un conjunto denso en R. Primero mostremos que


  
F (x) = lim Fn (x) ∀x ∈ C ⇒ Fn =⇒ F . (124)
n→∞

Sea x ∈ C entonces existen (x′k ) ⊂ C, x′k ց x y (x′′k ) ⊂ C, x′′k ր x. Como


Fn (x′k ) ≤ Fn (x) ≤ Fn (x′′k ) obtenemos,

F (x′k ) = lim inf Fn (x) ≤ lim sup Fn (x) = F (x′′k ),


n→∞ n→∞

Y dado que lim F (x′k ) = F (x) = lim F (x′′k ), deducimos (124).


k→∞ k→∞

Ahora enumeremos C = {xl : l ∈ N}. Como (Fn (x1 ) : n ∈ N) es acotada,


contiene una subsucesión (Fkn1 (x1 ) : k ∈ N) convergente, el lı́mite lo notamos
F (x1 ) = lim Fkn1 (x1 ). La sucesión (Fkn1 (x2 ) : n ∈ N) es acotada y contiene
n→∞
una subsucesión (Fkn2 (x2 ) : k ∈ N) convergente, el lı́mite lo notamos F (x2 ) =
lim Fkn2 (x2 ). Luego también F (x1 ) = lim Fkn2 (x1 ). Ası́ se construirá y tendrá:
n→∞ n→∞
F (xr ) = lim Fknl (xr ) para r ≤ n. Y tomado la subsucesión diagonal se tendrá:
n→∞
F (xr ) = lim Fknn (xr ) para todo xr ∈ C. Como C es denso em R por (124)
n→∞
podemos extender esta construcción a todo R.
Como (Fn : n ∈ N) ⊂ Cb deducimos F ∈ Cb , y a ≤ Fn ≤ b implica a ≤ F ≤ b.
Por último podemos tomar F = F +,C continua por la derecha. 

Lema 129. Sean (Fn : n ∈ N) ⊂ Cb y tal que Fn n→∞


=⇒ F . Entonces
Z ∞ Z ∞
∀g : R → R continua y acotada: g(x)dF (x) = lim g(x)dFn (x). (125)
−∞ n→∞ −∞

Prueba: Si F es constante es trivial, supongamos pues que F (−∞) < F (∞).

150
Sea g continua y acotada. Sea ||g|| = sup{g(x) : x ∈ R} < ∞. Fijemos ǫ < 0.
Como F (−∞) y F (∞) finitos y F ∈ C existen a < b finitos, {a, b} ⊂ C(F ) y
F (a) < F (b), tal que
∀x ≥ b : F (∞) − F (x) < ǫ, ∀x ≤ a : F (a) − F (−∞) < ǫ. (126)
Notemos que como Fn =⇒ F existe n(ǫ) tal que
n→∞

∀n ≥ n(ǫ) : ∀x ≥ b : Fn (∞) − Fn (x) < 2ǫ, ∀x ≤ a : Fn (a) − Fn (−∞) < 2ǫ,


(Fn (b) − F (a)) ≤ 2(F (b) − F (a)). (127)
Por ser g continua en [a, b] podemos encontrar {x1 , .., xl−1 } ⊂ C(F ) con a =
x0 < x1 < ... < xl = b y tal que |g(x) − g(xk )| < δ para x ∈ (xk−1 , x − k].
Pl
Tomemos h = k=1 g(xk )1(xk−1 ,xk ] . Se tiene:
Z ∞ Z ∞
g(x)dF (x) − g(x)dFn (x) ≤ A1,n + A2,n + A3 ,
−∞ −∞
con
Z ∞ Z ∞ Z ∞
A1,n = |g(x) − h(x)|dFn (x), A2,n = h(x)dF (x) − h(x)dFn (x) ,
−∞ −∞ −∞
Z ∞
A3 = |g(x) − h(x)|dF (x)
−∞

Por (131) se tiene


Z Z b
A3 = |g(x)|dF (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ ||g|| ((F (a) − F (−∞)) + (F (∞) − F (b))) + ǫ(F (b) − F (a))
= ǫ(2||g|| + F (b) − F (a)).
De manera similar, por (132) se obtiene para n ≥ n(ǫ):
Z Z b
A1,n = |g(x)|dFn (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ 2ǫ(||g|| + F (b)−F (a)).
Finalmente, como Fn =⇒ F se obtiene,
n→∞

Z ∞ l
X
h(x)dF (x) = g(xk )(F (xk )−F (xk−1 ))
−∞ k=1
l
X Z ∞
= lim g(xk )(Fn (xk )−Fn g(xk−1 )) = h(x)dFn (x).
n→∞ −∞
k=1

Luego A2,n → 0 si n → ∞. Luego el resultado está mostrado. 

151
22.2 Demostración Teorema 90
Observemos que basta probar la igualdad (66) pues ella implica (65). En efecto,
de (66) se deduce que para todo a ∈ R se tiene
Z u −itx
1 e − e−ity
FX (a) = lim lim lim lim ϕX (t)dt (128)
yցa x→−∞ u→∞ 2π u→∞ −u it

Mostremos (66). Notemos ϕ = ϕX y F = FX y definamos


Z u −itx Z u Z ∞ −itx 
e − e−ity e − e−ity itv
I(u) = ϕX (t)dt = e dF (v) dt.
−u it −u −∞ it

Notemos que
e−itx − e−ity
lim = y − x,
t→0 it
luego la función
e−itx − e−ity itv
h(t, v) = e
it
es continua
R y acotada en Du = {v ∈ R, t ∈ [−u, u]}, digamos |h(t, v)| ≤ C en D,
luego Du h(t, v)dF (v)dt ≤ 2Cu. Por el Teorema de Fubini se puede cambiar el
orden de la integral y se obtiene
Z ∞ Z u it(v−x) 
e − e−it(v−y)
I(u) = dt dF (v).
−∞ −u it

Como cos(at)/t es función impar y sin(at)/t es función par se obtiene


Z ∞ Z u
sin t(v−x) − sin t(v−y)
I(u) = θu (v)dF (v) = E(θu (X)) con θu (v) = 2 dt.
−∞ 0 t

Recordemos que se tiene


Z u
sin t π
lim dt = ,
u→∞ 0 t 2

por lo que 
Z u 
π/2 si a > 0,
sin at
lim dt = 0 si a = 0,
u→∞ 0 t 

−π/2 si a < 0.
Luego, como x < y, se deduce:


0 si v < x ó v > y,
lim θu (v) = π si v = x ó v = y,
u→∞ 

2π si x < v < y.

152
por lo que se tiene la convergencia de v.a.’s

lim θu (X) = V siendo V = π1{X∈{x,y} + 2π1{x<X<y} .


u→∞

Asumamos por el momento que se tenga

lim E(θu (X)) = E( lim θu (X)), (129)


u→∞ u→∞

De esto se deducirı́a
1 1 1
lim I(u) = lim E(θu (X)) = E( lim θu (X))
u→∞ 2π 2π u→∞ 2π u→∞
1 1 1
= E(V ) = P(X = x) + P(x < X < y) + P(X = y),
2π 2 2
lo que darı́a el resultado.
Ahora terminemos la prueba mostrando (129), y en ello usaremos el Teorema
de Convergencia Dominada que es el siguiente. Sea µ una medida en (Ω, B),
esto quiere decir que µ : B → [0, ∞] es una función que satisface µ(∅) = 0 y µ
es σ−aditiva. Ahora considere una familia de variables aleatorias (fn : n ∈ N)
con fn : Ω → R tal que el conjunto de puntos ω que no cumplen ∃ lim fn (ω)
n→∞
1
R de medida µ−nula. Luego, si existe una v.a. g ∈ L (µ) (es decir tal que
es
gdµ < ∞), y que domina a (fn : n ∈ N), es decir |fn | ≤ g para n ∈ N,
entonces el lı́mite siguiente existe y se cumple la igualdad,
Z Z  
lim fn dµ = lim fn dµ.
n→∞ n→∞

Ru
Notemos que la función h(u) = 0 sintt dt es continua en u > 0, y converge a un
número finito cuando u → ∞, luego es acotada |h(u)| ≤ M para todo u ∈ R,
siendo M < ∞. Luego θu (X) ≤ 2M para todo u > 0. Como E(M ) = M < ∞,
se tienen las condiciones para aplicar el Teorema de Convergencia Dominada y
se cumple (129). 

22.3 Demostración Proposición 91


Veamos primero que la función caracterı́stica es uniformemente continua y en
seguida veamos condiciones para su diferenciablidad cuando la v.a. tiene mo-
mentos finitos.

Lema 130. La función ϕX (t) es uniformemente continua en t.

Prueba: Como |eitX | = 1, se tiene


Z Z
|ϕX (t + h) − ϕX (t)| = eitX (eihX − 1)dFX (x) ≤ |eihX − 1|dFX (x).

153
Notemos que
Z x
|eihx − 1| ≤ 2 y |eihx − 1| = | eiy dy| ≤ |x|.
0

Ahora tomemos a > 0 tal que a, −a sean puntos de continuidad de FX , por las
desigualdades anetriores se tiene
Z Z
|ϕX (t+h)−ϕX (t)| ≤ 2dFX (x)+ |h| |X|dFX (x) = 2P(|X| > a)+|h| a.
|X|>a |X|≤a

Tomando a = a(ǫ) > 0 tal que P(|X| > a(ǫ)) < ǫ y posteriormente |h| < ǫ/a(ǫ)
se obtiene el resultado. 

Ahora probemos la Proposición 91. Lo haremos solo para el caso k = 1, para


k > 1 se deduce por un argumento inductivo. Notemos ϕ = ϕX y F = FX .
Para h 6= 0 se tiene

ϕ(t + h) − ϕ(t) E(ei(t+h)X − eitX ) (eihX − 1)


= = E(eitX )
h h h
Observemos que
(eihX − 1)
lim eitX = iXeitX .
h→0 h
itX
Como |e | = 1, el resultado se probará si mostramos que la familia de v.a.’s
(eitX (eihX − 1)/h) : h 6= 0) estaán dominadas por una v.a. en L1 . Y esto se
Rh
deduce de eihx − 1 = 0 ixeihu du pues implica |eihx − 1| ≤ |xh| de donde

(eihX − 1)
eitX ≤ |X| ∈ L1 .
h
R
Concluı́mos que ϕ(1) (t) = (ix)k eitx dFX (x). El mismo argumento anterior-
mente utilizado también muestra que ϕ(1) (t) es continua en t. Esto finaliza el
resultado para k = 1. La demostración para k > 1 es analoga. 

22.4 Demostración Lema 101


Primero probaremos el siguiente resultado.

Lema 131. Sean (Fn : n ∈ N) ⊂ Cb y tal que Fn n→∞


=⇒ F . Entonces
Z ∞ Z ∞
∀g : R → R continua y acotada: g(x)dF (x) = lim g(x)dFn (x).
−∞ n→∞ −∞
(130)

Prueba: Si F es constante es trivial, supongamos pues que F (−∞) < F (∞).

154
Sea g continua y acotada. Sea ||g|| = sup{g(x) : x ∈ R} < ∞. Fijemos ǫ < 0.
Como F (−∞) y F (∞) finitos y F ∈ C existen a < b finitos, {a, b} ⊂ C(F ) y
F (a) < F (b), tal que

∀x ≥ b : F (∞) − F (x) < ǫ, ∀x ≤ a : F (a) − F (−∞) < ǫ. (131)

Notemos que como Fn =⇒ F existe n(ǫ) tal que


n→∞

∀n ≥ n(ǫ) : ∀x ≥ b : Fn (∞) − Fn (x) < 2ǫ, ∀x ≤ a : Fn (a) − Fn (−∞) < 2ǫ,


(Fn (b) − F (a)) ≤ 2(F (b) − F (a)). (132)

Por ser g continua en [a, b] podemos encontrar {x1 , .., xl−1 } ⊂ C(F ) con a =
x0 < x1 < ... < xl = b y tal que |g(x) − g(xk )| < δ para x ∈ (xk−1 , x − k].
Pl
Tomemos h = k=1 g(xk )1(xk−1 ,xk ] . Se tiene:
Z ∞ Z ∞
g(x)dF (x) − g(x)dFn (x) ≤ A1,n + A2,n + A3 ,
−∞ −∞

con
Z ∞ Z ∞ Z ∞
A1,n = |g(x) − h(x)|dFn (x), A2,n = h(x)dF (x) − h(x)dFn (x) ,
−∞ −∞ −∞
Z ∞
A3 = |g(x) − h(x)|dF (x)
−∞

Por (131) se tiene


Z Z b
A3 = |g(x)|dF (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ ||g|| ((F (a) − F (−∞)) + (F (∞) − F (b))) + ǫ(F (b) − F (a))
= ǫ(2||g|| + F (b) − F (a)).

De manera similar, por (132) se obtiene para n ≥ n(ǫ):


Z Z b
A1,n = |g(x)|dFn (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ 2ǫ(||g|| + F (b)−F (a)).

Finalmente, como Fn =⇒ F se obtiene,


n→∞

Z ∞ l
X
h(x)dF (x) = g(xk )(F (xk )−F (xk−1 ))
−∞ k=1
l
X Z ∞
= lim g(xk )(Fn (xk )−Fn g(xk−1 )) = h(x)dFn (x).
n→∞ −∞
k=1

Luego A2,n → 0 si n → ∞. Luego el resultado está mostrado.  .

155
Ahora probemos el Lema 101 Como sin x y cos x son funciones continuas y
acotadas, del Lema 131 concluı́mos que
Z ∞ Z ∞ Z ∞ Z ∞
cos(x)dF (x) = lim cos(x)dFn (x), sin(x)dF (x) = lim sin(x)dFn (x),
−∞ n→∞ −∞ −∞ n→∞ −∞

luego
Z ∞ Z ∞
itx
ϕF (t) = e dF (x) = lim eitx dFn (x) = lim ϕFn (t). (133)
−∞ n→∞ −∞ n→∞

Ahora probemos la recı́proca, supongamos que ϕF (t) = lim ϕFn (t) para t ∈ R.
n→∞
Por el Lema 128 existe F ∗ ∈ C continua por la derecha con 0 ≤ F ∗ (x) ≤ 1 para
x ∈ R, y una subsucesión (nk : k ∈ N) tal que Fnk =⇒ F ∗ . Luego, por el Lema
k→∞
131 ϕFnk (t) → ϕF (t) si n → ∞. Como por hipotesis lim ϕFnk (t) = ϕF (t)
k→∞
pata t ∈ R, concluı́mos ϕF (t) = ϕF ∗ (t) para t ∈ R. Por ser F una función de
distribución se tiene,

1 = ϕF (0) = V pF ∗ (0) = F ∗ (∞) − F ∗ (−∞),

por lo que F ∗ es una función de distribución. Como ϕF ∗ (t) = ϕF (t) para t ∈ R,


por el Teorema 90 deducimos F ∗ = F , luego Fnk =⇒ F .
k→∞

Probemos ahora que Fn =⇒ F . Sea Fn′k , k ∈ N, subucesión y F ′ tal que


n→∞
Fnk =⇒ F . Por lo hecho anteriormente F ′ es función de distribución con
k→∞
ϕF ′ (t) = ϕF (t) para todo t ∈ R, el Teorema 90 nos da F ′ = F , de donde
Fnk =⇒ F . Concluı́mos que Fn =⇒ F .  .
k→∞ n→∞

156

También podría gustarte