Apunte 25

Versión preliminar Curso MA 3401:
Probabilidades y Estadı́stica, 2023-1

Servet Martı́nez ∗
Departamento de Ingenierı́a Matemática and Centro de Modelamiento Matemático,

UMR 2071 CNRS-UCHILE, Facultad de Ciencias Fı́sicas, Universidad de Chile,
Casilla 170-3, Correo 3, Santiago, Chile.
April 24, 2023
1 Introducción a las Probabilidades

Se ha postulado que la experiencia probabilı́stica proviene de los comienzos de la
vida social, principalmente asociado al juego, de hecho se han encontrado piedras
talladas de manera simétrica y se conjetura que su propósito principal habrı́a
sido el tener formas que permitieran el juego. El juego de dados se encuentra
en la época egipcia y desde entonces se continúo desarrollando distintos tipos
de juegos, y cálculos relacionados a ellos de discuten y realizan durante todo el
comienzo de laépoca moderna.
En particular mucha discusión se produjó sobre cual de los eventos siguientes
tenı́a mayor probabilidad de realizarse al lanzar tres dados independientes: que
sus suma fuera 10 ó que ésta fuera 12? La historia cambia radicalmente a
partir de 1654 con la solución de B. Pascal, en correspondecia con P. Fermat,
al problema de la división justa de lo apostado entre dos jugadores cuando un
juego queda interrumpido, y también del libro ’Razonamiento sobre los juegos
de azar’ de C. Huygens en 1656. Ellos desarrollan la reflexión matemática de
probabilidades donde ya figuran los elementos básicos modernos en particular
el valor esperado.
El desarrollo de la reflexión probabilı́stica se hace tanto sobre juegos de azar
como sobre temas de seguros y su relaci’on a tablas de mortalidad. Un hito
importante es el teorema de los grandes números probado por J. Bernoulli y su
libro Ars Conjectandi publicado en 1713. El desarrollo de las proabilidades con-
tinua desarrollandose de manera continua, las ley de A. De-Moivre, P. Laplace,
C. Gauss y P. Chevyshev del teorema del Lı́mite Central, por parte de C. Gauss
ligado a la distribución de errores; los trabajo de H. Poincaré a fines del soglo
∗ E-mail address: smartine@dim.uchile.cl
1
XIX sobre el teorema ergódico (relativo a la mezcla en un sistema fśico) y una
axiomática definitiva es dada por A. Kolmogorov en 1933 en su libro sobre los
Fundamentos de teorı́a de Probabilidades, axiomática que desarrollaremos más
aelante y que discutiremos más abajo.
1.1 Introducción al Modelo Probabilı́stico

El formalismo matemático con el que se modela el cálculo de probabilidades es
un triple (Ω, B, P) donde
• Ω 6= ∅ es el conjunto de todos los resultados de un experimento, y se le

llama espacio muestral;
• B es una familia de subconjuntos de Ω ó familia de eventos, que son los

objetos cuya probabilidad nos interesa medir (un evento está formado por
el conjunto de resultados que hacen que este se verifique);
• P : B → [0, 1] una medida de probabilidad, en que a cada evento A ∈ B se

le asigna una probabilidad P(A).
Para un espacio Ω, la clase de todos sus subconjuntos los notamos por P(Ω) =
{A : A ⊆ Ω}. Ası́ pues la familia de eventos B satisface B ⊆ P(Ω), es decir los
eventos son subconjuntos del espacio Ω. Las propiedades que debe satisfacer la
clase de eventos corresponde a lo que se define como σ−álgebra, que veremos
más adelante ası́ como las propiedades que verifica una medida de probabilidad.
Ilustremos estos conceptos con el juego de dados. Al respecto es útil la siguiente
notación: para un conjunto finito A notamos por |A| el cardinal de A, esto es
el número de sus elementos.
Lanzamiento de un dado. Lancemos un dado equilibrado. En este caso Ω =
{1, ..., 6} es el conjunto de resultados posibles, B = P(Ω) es la clase de todos los
subconjuntos de Ω. Como el dado es equilibrado para todo ω ∈ Ω, el singleton
{ω} tiene probabilidad P({ω}) = 1/|Ω| = 1/6. Luego P(A) = |A|/6 para todo
evento A ∈ P(Ω). La probabilidad P(A) = |A|/6 se lee: es el número de casos
favorables |A| dividido por el número de casos totales |Ω| = 6.
Lanzamiento de dos dados. Lancemos dos dados equilibrados de manera inde-
pendiente. Estos dos dados se pueden distinguir, uno será el primer dado y el
otro el segundo. En este caso Ω = {1, ..., 6} × {1, ..., 6} es el conjunto de parejas
(ω1 , ω2 ) de los resultados de estos dados, la primera componente ω1 es el resul-
tado del primer dado y la segunda componente ω2 el resultado del segundo dado.
Se toma B = P(Ω) la clase de todos los subconjuntos de Ω. Como los dados
son equilibrados e independientes se tiene que para toda pareja (ω1 , ω2 ) ∈ Ω,
el singleton {(ω1 , ω2 )} tiene probabilidad P({(i, j)}) = 1/|Ω| = 1/36. Luego
P(A) = |A|/36 para todo A ∈ P(Ω), que tambien corresponde al número de
casos favorables dividido por el número de casos totales.
2
Se puede deducir que el lanzamiento de un número finito de dados puede mod-
elarse siguiendo la misma forma con un espacio finito, la clase de eventos B
siendo todos los subconjuntos de este espacio y la probabilidad se fija con los
singletons. Entonces: por qué es necesario introducir espacios más generales?
En el marco de los dados, ello ocurre pues incluso juegos muy simples de dados
requiere una infinidad de lanzamiento de dados, por ejemplo si dos jugadores
lanzan de manera independiente un dado y el evento es ’el segundo jugador es
quien obtiene por primera vez un resultado mayor que el otro’. La razón de
porqué en este juego tan simple se necesita considerar una infinidad de lanza-
mientos es que el número de empates puede ser tan grande como se quiera, la
probabilidad que hayan k empates desde el comienzo es 1/6k y esto es estricta-
mente positivo para todo k. Abajo veremos un juego donde este fenomeno es
aún más claro.
Notaremos N = {1, 2, ..} y N0 = {0, 1, 2, ..}.
Lanzamiento de un número infinito de una pareja de dados. Será útil fijar como
notación N = {1, 2, ..}. consideremos el conjunto
Ω∞ = ({1, .., 6} × {1, .., 6})N (1)
de sucesiones infinitas ((ω1n , ω2n ) : n ∈ N) ∈ Ω∞ , el subı́ndice de ωin es i = 1 ó

i = 2 e indica el jugador que lanza, y el superı́ndice n ∈ N indica el número del
lanzamiento de los dados. Las coordendas ωin toman valores en {1, .., 6}.
Un juego de gran interés es el siguiente: supongamos que el jugador 1 tiene al
inicio del juego una fortuna de M1 pesos y el jugador 2 una fortuna M2 . Una
partida o lanzamiento la gana el que obtiene un número estrictamente mayor
que el otro, y en ese caso el que gana la partida recibe un peso de su oponente.
El juego se acaba cuando uno de los jugadores pierde toda su fortuna, es decir
cuando el perdedor tiene 0 opesos y el ganador M1 + M2 pesos. El evento ’el
jugador 1 gana el juego’ equivale a que el jugador 1 obtiene una diferencia de
M2 partidas en su favor antes que el jugador 2 obtenga una diferencia de M1
partidas en su favor. Este es el evento
[
A∗ = Dm con Dm = Am ∩ Bm ,
m≥M
donde Am y Bm son eventos que dependen de las primeras m partidas y que

son los siguientes (para describirlos escribimos 1(x) la función que vale 1 si se
cumple la propiedad x y vale 0 si esta no se cumple):
m
X m
X
Am = {((ω1n , ω2n ) : n ∈ N) : 1(ω1k > ω2k ) − 1(ω2k > ω1k ) = M2 }
k=1 k=1
y
n
X n
X
Bm = {((ω1n , ω2n ) : n ∈ N) ∀n < m : 1(ω2k > ω1k ) − 1(ω1k > ω2k ) < M1 }.
k=1 k=1
3
El evento Am expresa que en la partida m−ésima hay una diferencia de M2
partidas ganadas en favor del jugador 1 y el evento Bm expresa que antes de m
el jugador 2 no ha tenido una diferencia de M1 partidas en su favor. Observemos
que Dm significa que el jugador 1 es el ganador del juego y que este se acaba
antes ó en la partida m. Si se quisiera descomponer A∗ en términos de una unión
de eventos disjuntos, cuyo iı́ndice es exactamente la partida donde se acaba el
juego escribimos
[
A∗ = Em con Em = Am ∩ Bm ∩ Cm ,
m≥M
donde
n
X n
X
Cm = {((ω1n , ω2n ) : n ∈ N) ∀n < m : 1(ω1k > ω2k ) − 1(ω2k > ω1k ) < M2 }.
k=1 k=1
En efecto, en Bm ∩ Cm ni el jugador 1 ha sacado una diferencia en su favor de

M2 partidas, ni el jugador 2 ha sacado una diferencia en su favor de M1 partidas
antes de la partida m, por lo que el juego no se ha terminado antes o en m − 1,
y en Am expresa que en la partida m el jugador tiene una diferencia de M2
partidas ganadas. Luego, Em = Am ∩ Bm ∩ Cm expresa que en la partida m
toda la fortuna del jugador 2 la ha ganado el jugador 1 y además es la primera
vez que esto ocurre en beneficio de alguno de los dos jugadores.
En el conjunto Ω∞ dado por (1), se considera la σ−álgebra de eventos B gener-
ada por todas las partidas finitas. Los conjuntos del tipo Am son determinados
por un número finito de partidas y el conjunton A∗ descrito más arriba es
una unión numerable de ellos. Esta es una propiedad de cualquier σ−álgebra
de eventos, debe ser cerrada para S unión numerable. Luego en el caso de lan-
zamiento infinito de dados A∗ = m≥M Am es un evento al que se le puede
calcular la probabilidad. El evento A∗ se puede escribir como una unión dis-
junta de eventos, y como la probabilidad de un evento que es uni’on numerable
disjunta de eventos es la suma de las probabilidades de tales eventos, se tiene
X
P(A∗ ) = P(Am ∩ Bm ∩ Cm ).
m≥M
Hacemos notar que el conjunto Ω∞ tiene la cardinalidad de R. Y la σ−álgebra

B que estamos considerando, que es la menor σ−álgebra que contiene a todos los
eventos definidos por partidas de duración finita, también tiene la cardinalidad
de R. Luego B es distinta a P(Ω∞ ), la clase de todas las partes de Ω∞ , pues
esta tiene cardinalidad 2R que es estrictamente mayor que R.
1.2 Leyes escritas en términos probabilistas.

Ley de Gutenberg Richter. Esta ley da la frecuencia de sismos por magnitud en
una región determinada. Esta es
log N (M ) = a − bM
4
siendo N (M ) el número de sismos de magnitud mayor o igual a M , y las con-
stantes a, b dependen de la región (se tiene b > 0). Esta ley ajusta bien la
frecuencia sı́smica salvo en los extremos, para magnitudes pequeñas o grandes.
Consideremos una cota inferior m0 y una cota superior M0 para la magnitud, tal
que en el intervalo [m0 , M0 ] la ley se cumpla. Luego podemos tomar la ecuacion
para la frecuencia de sismos,
N (M ) − N (M0 )
F (M ) = 1 − para M ∈ [m0 , M0 ].
N (m0 ) − N (M0 )
Observemos que F (M ) es creciente en [m0 , M0 ], F (m0 ) = 0, F (M0 ) = 1 y

F (M ). Esto es la función de distribución de la magnitud sı́smica. Se tiene
ea−bM − N (M0 )
F (M ) = 1 − = 1 − α(e−bM − β), M ∈ [m0 , M0 ],
N (m0 ) − N (M0 )
donde α = ea /(N (m0 ) − N (M0 )), β = N (M0 ) y b son cosntantes. Esta dis-
tribución es una exponencial truncada.
1.3 Paradojas
Para definir las bases dela teorı́a de probabilidades se tuvó que superar distintos
obstaculos, entre ellos uno filosofico ’si se le da sentido exacto al azar dejarı́a
de ser azar’ y tambien habı́an paradojas que hasta hoy se discuten. Aunque
no tengamos el formalismo para mirarlas más en detalle plantearemos una bien
conocida.
Paradoja del prisionero. Hay tres prisioneros, que los distinguiremos como O,
A, B. Ellos está encerrados en una prisión donde están aislados y solo hay un
guardia que los vigila. El paı́s está dirigido por un autocrata cuyas decisiones
las toma al azar (digamos con un dado). Fruto de su capricho anuncia que al
dı́a siguiente hará ahorcar un prisionero y los otros dos será liberados. Ası́ pues
cada uno de los prisioneros tiene probabilidad 1/3 de ser ahorcado y 2/3 de
ser liberado. Durante la noche al guardia se le comunica una noticia, y este se
acerca a la celda donde está O y le dice que el prisionero A no será ahorcado.
Despues de esto, cual es la probabilidad que O sea el ejecutado? Observemos
que O sabe que al menos uno de los dos otros prisioneros no será ejecutado. Por
lo que la noticia que le da el guardia no afecta en nada su probabilidad de ser
ahorcado y su probabilidad sigue siendo 1/3.
Paradoja de San Petersburgo. En el casino de San Petersburgo se debe pagar
por entrar a jugar el siguiente juego. El casino tira una moneda equilibrada y
le paga al jugador la recompensa rN = 2N rublos siendo N la primera vez que
la moneda sale cara. Observemos que la probabilidad pN que por primera vez
salga cara en la tirada N es que salgan N − 1 sellos seguidos de una cara, y
como la moneda es equilibrada esto tiene probabilidad (1/2)N .
5
Cuanto Ud. está dispuestro a pagar por entrar al juego? La paradoja se derivaba
que el jugador está dispuesto a pagar cantidades pequeñas por entrar al juego
siendo que la recompensa media que recibe el jugador es
∞
X ∞
X ∞
X
N N
pn rn = (1/2) 2 = 1 = +∞.
N =1 N =1 N =1
Hay muchas formas de abordar esta paradoja, lo haremos de la siguiente manera.

El casino miente cuando propone el juego pues el no disponde una cantidad
infinita, solo disponde una cantidad finita (por grande que esta sea). Digamos
que tiene 2N0 rublos. Luego si la cara sale en un momemnto mayor que N0
el casino le paga 2N0 rublos al jugador y se declara en quiebra. Ası́ pues la
recompensa media recibida por el jugador es
N0
X X
(1/2)N 2N + ( (1/2)N )2N0 = N0 + (1/2)N0 2N0 = N0 + 1,
N =1 n>N0
que en un juego equilibrado es lo que deberı́a pagar el jugador por entrar a este
juego. La cantidad anterior es una cantidad moderada. Por ejemplo si ese juego
tuviera lugar en un casino nacional disponiendo de un el capital que bordea los
30 · 109 pesos, el que es menos que 235 pesos, si el jugador pagara 36 pesos esta
serı́a una cantidad razonable si lo que pagamos es la media de la recompensa
que recibirı́amos del casino.
Bibliografı́a Recomendada.
1. M.H. DeGroot, M. J. Schervish (2012). Probability and Statistics. Fourth
Edition, Addison-Wesley.
2. W. Feller. An Introduction to Probablity Theory and Statistics. Vol.1 , 3rd
Edition, Wiley Series.
6
2 Probabilidad en caso finito, medida uniforme,
urnas
2.1 Cardinal y Producto de Conjuntos
Sea Ω un conjunto. Definimos
P(Ω) = {A : A ⊆ Ω}
la clase de todos los subconjuntos de Ω, y se le conoce como el conjunto potencia

de Ω.
Se dice que dos conjuntos Ω1 , Ω2 tiene igual cardinal si existe una biyección de
Ω1 en Ω2 . Notamos por |Ω| la cardinalidad de Ω. Si Ω es finito entonces |Ω|
es el número de sus elementos. En el caso en que Ω = ∅ se tiene |∅| = 0. A
menudo notaremos IN = {1, ..., N }, luego N = |IN |.
Un conjunto es numerable si es finito o si tiene la cardinalidad de N, es decir
si está en biyección con N, en cuyo caso es numerable infinito. Se tiene que el
conjunto de números enteros Z es numerable, el producto finito de conjuntos
numerables es numerable, la unión numerable de conjuntos numerables es nu-
merable. El conjunto de número racionales Q es numerable. Sin embargo R no
es numerable.
Sea Ω1 × Ω2 = {(ω1 , ω2 ) : ω1 ∈ Ω1 , ω2 ∈ Ω2 } el conjunto producto de Ω1 y Ω2
cuyos elementos son las parajas (ω1 , ω2 ). Se tiene que el cardinal del conjunto
producto es el producto de cardinales, esto es |Ω1 × Ω2 | = |Ω1 | × |Ω2 |. Si Ωi ,
i = 1, .., k es un conjunto finito de conjuntos notamos
k
Y
Ω1 × · · · × Ωk = Ωl = {(ω1 , .., ωk ) : ωl ∈ Ωl , l = 1, .., k}
l=1
el conjunto producto de Ωi . i = 1, .., k, sus elementos son las k−tuplas (ω1 , .., ωk )
cuya coordenada l−ésima está en Ωl . Se tiene
k
Y k
Y
| Ωi | = |Ωi |.
i=1 i=1
Si
Qktodos los kΩl son los mismos, Ωl = Ω para l = 1, ..., k, entonces escribimos
l=1 Ωl = Ω . Se tiene
|Ωk | = |Ω|k .
El conjunto de todas las partes de IN es P(IN ) = {J : J ⊆ IN }. Este tiene
cardinal
|P(IN )| = 2N .
En efecto, la función {0, 1}N → P(IN ), dada por,
{0, 1}N → P(IN ) dada por (il : l ∈ IN ) ∈ {0, 1}N → J = {l ∈ IN : il = 1}
7
es una biyección (con inversa A → (il = 1(l ∈ A) : l ∈ IN ), por lo que |P(I)| =
|{0, 1}N | = 2N .
El conjunto de todas las k−tuplas (ordenadas) a valores en IN es
k
IN = {(i1 , ..., ik ) : i1 , ..., ik ∈ IN }
k
y su cardinal es |IN | = N k . Observe que este es tambien el cardinal de todas
las funciones de Ik = {1, .., k} en IN pues todo elemento
k
(i1 , .., ik ) ∈ IN
define una única función f : Ik → IN dada por f (l) = il para cada l = 1, .., k.
Sea k ≤ N . Consideremos la clase de k−tuplas a valores en IN que tengan
todas sus componentes distintas, esta clase la notamos
I(k, N ) = {(i1 , ..., ik ) ∈ IN : ij 6= il si j 6= l}.
Se tiene
N!
|I(k, N )| = N (N − 1)...(N − k + 1) = .
(N − k)!
En efecto, para la componente j = 1 podemos elegir N posibles valores de IN ,
para j = 2 podemos elegir N − 1 y ası́ sucesivamente, finalmente para l = k
podemos elegir N − (k − 1) valores, por lo que se tiene el resultado.
Observe que I(k, N ) corresponde al conjunto de funciones inyectivas de Ik en IN
pues toda k−tupla (i1 , ..., ik ) ∈ I(k, N ) define la función inyectiva f : Ik → IN
con f (l) = ij para j = 1, .., k.
En particular si k = N se tiene I(N, N ) = N !, es el cardinal de las biyecciones
de IN en sı́ mismas, o permutaciones de IN .
Sea k ≤ N . Consideremos P(N, k) = {J : J ⊆ IN , |J| = k} la clase de sub-
conjuntos de IN que tienen k elementos. Un subconjunto de k elementos de
IN está determinado por k elementos distintos de IN en cualquier orden, y este
subconjunto determina k! tuplas de elementos de IN que son distintas entre sı́.
Esto da |I(k, N )| = |P(N, k)| · k!, con lo que se obtiene

N! N
|P(N, k)| = = .
(N − k)!k! k
2.2 Probabilidad en caso finito

Sea Ω 6= ∅ el conjunto de resultados de un experimento dado, y lo llamamos
espacio muestral. Veamos primero el caso en que Ω es finito. En este caso una
medida de probabilidad está definida por una función p : Ω → R, ω ∈ Ω → p(ω),
que verifica X
∀ω ∈ Ω : p(ω) ≥ 0 y p(ω) = 1. (2)
ω∈Ω
8
La clase de eventos es P(Ω) que es la clase de todos los subconjuntos de Ω, y la
probabilidad de un evento es
X
P : P(Ω) → [0, 1], A → P(A) = p(ω). (3)
ω∈A
Con esta notación se tiene P({ω}) = p(ω) para ω ∈ Ω.

A la función p : Ω → R verificando (2) la llamamos densidad discreta (de P). A
menudo al vector (p(ω) : ω ∈ Ω) lo llamamos un vector de probabilidad.
Algunas propiedades que verifica la medida de probabilidad P que son directas
de verificar son:
P P
• (a) P(Ω) = ω∈Ω p(ω) = 1 y P(∅) = ω∈∅ p(ω) = 0;
• (b′ ) Para una familia finita disjunta (Ai : i ∈ I) de subconjuntos de Ω se
cumple la propiedad aditiva:
[ X X X X
P( Ai ) = p(ω) = p(ω) = P(Ai ).
S
i∈I ω∈ i∈I Ai i∈I ω∈Ai i∈I
Dado que A y Ac son disjuntos, las propiedades (a) y (b) implican
P(Ac ) = 1 − P(A) si A ⊆ Ω.
Tambien notaremos por X el valor aleatorio del experimento, esto permite usar
la notación siguiente,
P(X = ω) = p(ω) para ω ∈ Ω,
luego se tiene la siguiente equivalencia de escritura,
P(X ∈ A) = P(A) para A ⊆ Ω,
y la llamamos la ley de probabilidad de X.
Nota 1. Cuando estudiemos la medida de probabilidad en espacios generales

se requerira que esta verifique la propiedad llamada σ−aditiva, en que si un
evento A es unión numerable infinita de eventos disjuntos (An : ninN), entonces
la probabilidad de A es la suma de probabilidades de los (An : n ∈ N N ).
Caso finito independiente. Conideremos dos experimentos con espacios
muestrales Ω1 y Ω2 y con densidades discretas dadas por p1 y p2 respectiva-
mente. Si estos dos experimentos son independientes, entonces el experimento
conjunto se modela por el espacio muestral producto Ω = Ω1 × Ω2 y la densidad
discreta producto dada por:
p(ω1 , ω2 ) = p1 (ω1 ) · p2 (ω2 ), (ω1 , ω2 ) ∈ Ω1 × Ω2 .
9
Se verifica que p es una densidad discreta en Ω = Ω1 × Ω2 pues
X X X X X
p(ω1 , ω2 ) = p1 (ω1 )p2 (ω2 ) = p1 (ω1 ) p2 (ω1 ) = 1.
(ω1 ,ω2 )∈Ω ω1 ∈Ω1 ω2 ∈Ω2 ω1 ∈Ω1 ω2 ∈Ω2
Consideremos P1 y P2 las medidads asociadas a p1 y p2 , entonces la medidad

de probabilidad P asociada a la densidad discreta producto p satisface
P(A1 × A2 ) = P1 (A1 )P(A2 ), A1 ∈ P(Ω1 ), A1 ∈ P(Ω1 ),
y a P se le llama la medidad de probabilidad producto de P1 y P2 .

Si notamos por X1 y X2 los valores aleatorios del primer y segundo experimento
respectivamente, se tiene
P(X1 = ω1 , X2 = ω2 ) = p(ω1 , ω2 ) = p1 (ω1 )p2 (ω2 ) = P(X1 = ω1 )P(X2 = ω2 ).
y en general
P(X1 ∈ A1 , X2 ∈ A2 ) = P(A1 × A2 ).
El experimento conjunto se nota como una pareja de experimentos X = (X1 , X2 ).
2.3 Probabilidad uniforme

Como Ω es finito, existe la medida de probabilidad dada por
1
pU (ω) = , ω ∈ Ω,
|Ω|
que se llama densidad discreta uniforme, y la medidad de probabilidad asociada

se le dice uniforme. Esta es la única medida de probabilidad cuya densidad es
constante en todos los puntos. Para A ⊆ Ω se tiene
X |A|
P(A) = pU (ω) = , (4)
|Ω|
ω∈A
y la fórmula P(A) = |A|/|Ω| se lee la probabilidad uniforme es el número de

casos favorables (|A|) dividido por el número de casos totales (|Ω|). Ası́ pues
para computar la probabilidad de un evento basta encontrar la cardinalidad del
conjunto.
Caso uniforme independiente. Conideremos dos experimentos con espacios
muestrales Ω1 y Ω2 cuyas densidades discretas p1 y p2 son uniformes, es decir
1 1
p1 (ω1 ) = , p2 (ω2 ) = , ω1 ∈ Ω1 , ω2 ∈ Ω2 .
|Ω1 | |Ω2 |
10
respectivamente. Si estos dos experimentos son independientes, entonces el
Entonces la densidad discreta producto es la uniforme en Ω1 × Ω2 pues,
1 1
p(ω1 , ω2 ) = p1 (ω1 ) · p2 (ω2 ) = = , (ω1 , ω2 ) ∈ Ω1 × Ω2 .
|Ω1 ||Ω2 | |Ω1 × Ω2 |
Y la medidad producto satisface,
|A1 | |A2 | |A1 × A2 |

P(A1 × A2 ) = P1 (A1 )P(A2 ) = = .
|Ω1 | |Ω2 | |Ω1 × Ω2 |
2.3.1 Ejemplo: Lanzamiento de dados independientes

La probabilidad uniforme modela lo siguiente:
Lanzamiento de un dado equilibrado. En este caso Ω = I6 (siendo I6 = {1, .., 6})

y la probabilidad uniforme es p(ω) = 1/6 para ω ∈ Ω. Un evento es ’A: el
lanzamiento del dado X sale par’, que corresponde a X ∈ A = {2, 4, 6} y para
este evento se tiene P(A) = 3/6 = 1/2.
Lanzamiento independiente de dos dados equilibrados. Se tiene Ω = {1, ..., 6}2
y p(ω1 , ω2 ) = 1/62 = 1/36. Si A ⊂ Ω su probabilidad es la uniforme P(A) =
|A|/36. Notemos X1 y X2 los valores aleatorios del primer y segundo dado.
Algunos eventos son:
’A1 = {X1 + X2 = 7}: la suma de los dos lanzamientos es 7’, luego
A1 = {(ω1 , ω2 ) : ω1 + ω2 = 7} = {(ω1 , 7 − ω1 ) : ω1 = 1, ..., 6}

= {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}.
Para este evento se tiene P(A1 ) = 6/36 = 1/6. Otro evento es ’A2 = {X1 = X2 }:
hay empate en los lanzamientos’, luego
A2 = {(ω1 , ω2 ) : ω1 = ω2 } = {(ω1 , ω1 ) : ω1 = 1, ..., 6}

= {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}.
Se tiene P(A2 ) = 6/36 = 1/6. Ahora, si tomamos A3 = {X1 6= X2 } se tiene

A3 = {(ω1 , ω2 ) : ω1 6= ω2 } = Ω \ A2 , luego |A3 | = 30 y P(A) = 30/36 = 5/6.
Lanzamiento independiente de k dados equilibrados. Si los dados son enumerados
por 1 hasta k, se tiene Ω = I6k , y cada k−tupla (ω1 , .., ωk ) ∈ Ω correponde a que
en el dado l sale ωl para l = 1, .., k. La medida de probabilidad es uniforme, se
tiene p(ω1 , .., ωk ) = 1/6k para (ω1 , .., ωk ) ∈ Ω.
Tambien el caso uniforme modela la extracción de bolas de una urna que veremos
en la próxima sección.
Ejercicio con dado no-equilibrado. Consideremos dos dados, D1 y D2 que
se lanzan de manera independiente. Notemos por X1 y X2 los resultados de los
11
lanzamientos de estos dados, respectivamente. El dado D1 es equilibrado, es
decir P(X1 = i) = 1/6 para i ∈ {1, ..., 6}. Por otra parte, el dado D2 satisface
P(X2 = i) = qi para i ∈ {1, ..., 6}. probemos que P(X1 + X2 = 7) = 1/6, es
decir es la misma probabilidad a que si ambos lados fueran equilibrados.
En efecto por independencia se tiene P(X1 = i, X2 = j) = P(X1 = i)P(X2 =
j) = qj /6, luego
X 6 X6 X6
q7−i 1
P(X1 +X2 = 7) = P(X1 = i, X2 = 7−i) = P(X1 = i)P(X2 = 7−i) = = ,
i=1 i=1 i=1
6 6
P6 P6
donde usamos = i=1 q7−i = j=1 qj = 1.
12
2.4 Extracción de bolas de una urna
Modelemos la extracción de bolas de una urna. Para fijar ideas IN = {1, .., N }
representa un conjunto de N bolas contenidas en una urna y numeradas entre 1
y N . Sacar una bola X de manera uniforme de esta urna se modela por Ω = IN ,
con la ley de probabilidad,
1
P(X = i) =
N
Modelearemos la extracción de k bolas de la urna. Dependiendo del experi-
mento, que en este caso es el método de extracción, se fijará el conjunto mues-
tral Ω y una vez que lo hayamos fijado la probabilidad en Ω resultará ser la
probabilidad uniforme.
2.4.1 Extracción secuencial de bolas con reposición

Supondremos que se sacan k bolas con reposición, es decir cada vez que sacamos
una bola se anota cual es y se devuelve a la urna a fin de rehacer el experimento
de manera independiente y con probabilidad uniforme en IN . El resultado
de ello es una k−tupla de bolas (las que pueden repetirse), luego el conjunto
muestra que notaremos Ωr (notamos r por reposición) es
Ωr = IN
k
= {ω = (i1 , .., ik ) : il ∈ IN para i = 1, ..., k}.
Se tiene Ωr = N k . Las k−tuplas se distribuyen de manera uniforme en el

conjunto producto. Luego la probabilidad Pr de obtener la secuencia de k bolas
ω = (i1 , .., ik ) es
1
Pr ({(i1 , .., ik )}) = r = N −k .
|Ω |
Concluı́mos que la medida de probabilidad en Ωr es la uniforme dada por
|A| |A|
∀A ⊆ Ωr : Pr (A) = r
= k.
|Ω | N
2.4.2 Extracción secuencial de bolas sin reposición

Ahora se extrae k bolas de manera análoga al proceso anterior, pero esta vez es
sin reposición, es decir cada vez que se saca una bola se anota cual es pero no
se devuelve a la urna. Obviamente para sacar k bolas se debe cumplir k ≤ N .
Notemos que las restricciones cuando no se reponen las bolas, ses escriben
∀l = 2, .., k : il 6∈ {i1 , .., il−1 }.
Y esto equivale a que las k bolas extraı́das sean distintas entre sı́, esto lo notamos
i1 , .., ik 6=′ s entre sı́. Luego el conjunto muestral que notaremos Ωs (notamos s
por sin reposición) es
Ωs = {ω = (i1 , .., ik ) ∈ IN
k
: i1 , .., ik 6=′ s entre sı́}.
13
La secuencia de k bolas (i1 , .., ik ) ∈ Ωs se extraen pues de acuerdo a la probabil-
idad uniforme en Ωs . Para determinarla observemos que |Ωs | es igual al número
de funciones inyectivas de Ik en Im por lo que
N!
|Ωs | = .
(N − k)!
Notemos Ps la medida de probabilidad en Ωs , ella está determinada por la

probabilidad de cada una de estas secuencias que es,
1 (N − k)!
Ps ({(i1 , .., ik )}) = = .
|Ωs | N!
Obtenemos
|A| (N − k)!
∀A ⊆ Ωs : P(A) = s
= |A| .
|Ω | N!
2.4.3 Extracción de conjuntos de bolas

Sea k ≤ N . Supongamos que se extrae al azar un conjunto de k bolas. Esto
define un subconjunto de IN de cardinal k, luego el conjunto muestral es Ω =
P(N, k), la clase de todos los subconjuntos de IN de tamaño k. Es decir un
elemento ω de Ω es un subconjunto de Ω con k elementos. Cada elemento ω
se obtendrá con la misma probabilidad, es decir la probabilidad P escoge cada
singleton {ω} ∈ P(N, k) con la misma probabilidad,
1 1 k!(N − k)!
∀ω ∈ P(N, k) : P({ω}) = = N = .
|P(N, k)| k
N!
Forma de escoger uniformenete un conjunto de tamaño k de IN . Esta es la

siguiente: se sacan k bolas sin reposición, pero no se las anota cada vez que
se las saca, sino que una vez que se han sacado todas se anota el conjunto de
bolas que se ha extraı́do. Probemos que esto nos da la probabilidad uniforme
de obtener un subconjunto determinado ω = {i1 , .., ik } ∈ P(N, k). En efecto,
si por este procedimiento se obtiene cierto conjunto ω ∈ P(N, k) ello equivale a
obtener la siguiente clase Aω ⊂ Ωs de secuencias de bolas ordenadas extraı́das
sin reposicón: [
Aω = {(iπ(1) , .., iπ(k) )},
π∈Per(Ik )
donde se suma sobre el conjunto de permutaciones de {1, ..., k}. Se tiene |Aω | =
k! y de acuerdo a la medida de probabilidad para secuencias sin reposición se
tiene
(N − k)! (N − k)!
Ps (Aω ) = |Aω | = k! .
N! N!
14
Esto prueba que la medida de probabilidad en Ω = P(N, k), que notamos P, es
la probabilidad uniforme, en efecto
k!(N − k)! 1 1
P({ω}) = = N = .
N! k
|P(N, k)|
Ejercicio 1. Suponga que en la urna con N bolas numeradas hace el experi-

mento siguiente. Saca un conjunto al azar Y de k bolas, siendo k < N . Despues
se devuelve estas bolas a la urna y se saca una bola X al azar. Calcule la prob-
abilidad que la bola pertenezca al conjunto sacado, esto es calcule P(X ∈ Y ).
El experimento consiste de dos experimentos independientes y ello se estudia
tomando Ω = P(N.k) × IN , donde la primera coordenda indica el conjunto al
azar de k bolas y la seguna coordenada la bola que se extrae posteriormente. En
los conjuntos formando el producto la extracción se hace de manera uniforme,
ası́ que esto tambien ocurre en Ω. Luego la densidad discreta en Ω es la uniforme.
Se tiene,
|Ω| = |P(N, k)|N.
Notamos por (a, i) ∈ P(N.k) × IN los elementos de Ω. El conjunto de casos
favorables es
[
C = {(a, i) ∈ P(N.k) × IN : i ∈ a} = {a} × a,
a∈P(N.k)
P Como |a| = k
Esta unión es disjunta (pues la primera coordenada es distinta).
para todo a ∈ P(N, k) se tiene |{a} × a| = k, luego |C| = a∈P(N.k) |a| =
|P(N, k)|k. Concluı́mos que la probabilidad buscada eP(X ∈ Y ) = P(C) es
|C| |P(N, k)|k k
P(C) = = = .
|Ω| |P(N, k)|N N
2.4.4 Extracción de bolas de dos colores

Supongamos que las bolas en IN pueden ser de dos colores, blancas ó negras.
Supongamos que hay M bolas blancas y N − M bolas negras. Luego si sacamos
al azar (es decir de manera uniforme) una bola de la urna, ella será blanca con
probabilidad M/N (y será negra con probabilidad (N − M )/M .
Notemos L el conjunto de bolas blancas, luego |IN \ L| es el conjunto de bolas
negras.
Sea k ≤ N . Sacaremos un conjunto de k bolas de IN ’al azar’, es decir con prob-
abilidad uniforme. Luego el conjunto muestral es Ω = P(N, k) y los elementos
ω ∈ Ω son subconjuntos de IN de tamaño k. La es probabilidad uniforme. Se
tiene
N 1
|Ω| = , P({ω}) = N para ω ∈ Ω.
k k
15
Se tiene
|A| |A|
∀A ⊆ P(N, k) : P(A) = = N .
|P(N, k)| k
Supongamos que con probabilidad uniforme se saca un subconjunto ω ∈ P(N, k)

de k bolas y se quiere calcular la probabilidad que el número de blancas sea k1
(luego el número de bolas negras es k − k1 ). Necesariamente k1 ≤ k, k1 ≤ M ,
k − k1 ≤ N − M . Ası́ pues se quiere calcular
P(A) con A = {ω ∈ P(N, k) : |ω ∩ L| = k1 , |ω ∩ (IN \ L)| = k − k1 }.
Se tiene que A esta en biyección con P(M, k1 ) × P(N − M, k − k1 ), luego,

M N −M
|A| =
k1 k − k1
luego la probabilidad del evento A es

M
N −M

|A| k1 k−k1
P(A) = = N

|Ω| k
2.4.5 Extracción de bolas de s colores

Supongamos que el color de cada bola en IN pueden ser uno entre s colores.
Esto da una partición (L1 , .., Ls )Pde IN , las bolas en Lr serán las de color r.
s
Notaremos Nr = |Lr | por lo que r=1 Nr = N .
Sea k ≤ N . El conjunto muestral es Ω = P(N, k) con la probabilidad uniforme.
Los elementos ω ∈ Ω son subconjuntos de IN de tamaño k y se tiene
|A| |A|
∀A ⊆ P(N, k) : P(A) = = N .
|P(N, k)| k
Supongamos que se saca con probabilidad uniforme un conjunto ω ∈ P(N, k) de

k bolas y se quiere calcular P(A) con
A = {ω ∈ Ω : |ω ∩ Lr | = kr , r = 1, .., s},
Ps
Qskr ≤ Nr , r = 1, .., s, con r=1 kr = k. Se tiene que A esta en biyección
donde
con r=1 P(Nr , kr ) luego
Ys
Nr
|A| = ,
r=1
kr
y obtenemos Qs
Nr
r=1 kr
P(A) = N
.
k
16
3 Espacios de Probabilidad
Como dijimos en la Sección 1, el formalismo matemático con el que se modela
el cálculo de probabilidades es un triple (Ω, B, P) donde:
• Ω 6= ∅ es el espacio muestral de todos los resultados de un experimento;
• B es una familia de subconjuntos de Ω ó familia de eventos, que son los

objetos cuya probabilidad nos interesa medir;
• P : B → [0, 1] una medida de probabilidad, en que a cada evento A ∈ B se

le asigna una probabilidad P(A).
Sea Ω es un espacio muestral, la familia de eventos B ⊆ P(Ω) deberá verificar

ciertas propiedades básicas que describiremos en términos conjuntos y de op-
eraciones sobre conjuntos. Estas operaciones reflejan la clase de conjuntos en
los que la medida de probabilidad se define. Una de estas propiedades hace
intervenir la unión numerable de conjuntos por lo que requiere una definición
previa.
3.1 Unión e interseccioń de familia de conjuntos

Conideraremos Ω un conjunto no vacı́o. Sean A, B ∈ P(Ω). Notamos por Ac el
complemento de A en Ω. Se define A \ B = A ∩ B c , A∆B = A \ B ∪ B \ A. Si
Ω0 ⊆ Ω y A ⊆ Ω0 el complemento de A en Ω0 es Ω0 \ A.
Veamos uniones e interseeciones de familias numerables de conjuntos.
Sea I un conjunto finito o numerable. Escribimos (Ai : i ∈ I) ⊆ P(Ω) para
notar una familia de conjuntos en Ω, esto es tal que Ai ⊆ Ω para todo i ∈ I.
Por ejemplo si I = In entonces (Ai : i ∈ In ) ⊆ P(Ω) significa que Ai ⊆ Ω para
i = 1, ..., n. Si I = N entonces (Ai : i ∈ N) ⊆ P(Ω) significa Ai ⊆ Ω para i ∈ N.
Para (Ai : i ∈ I) ⊆ P(Ω) se define
[ \
Ai = {ω ∈ Ω : ∃ i ∈ I, ω ∈ Ai }, Ai = {ω ∈ Ω : ∀ i ∈ I, ω ∈ Ai }.
i∈I i∈I
Se cumple la ley de Morgan

[ \ \ [
( Ai )c = Aci , ( Ai )c = Aci ,
i∈I i∈I i∈I i∈I
Para probar la primera igualdad se tiene:

[ \
ω 6∈ Ai ⇔ 6 ∃i ∈ I, ω ∈ Ai ⇔ ∀i ∈ I, ω ∈ Aci ⇔ ω ∈ Aci .
i∈I i∈I
17
Para probar la segunda igualdad basta notar que aplicando la primera a la
familia (Aci ) y usando (Aci )c = Ai , se obtiene
[ \
( Aci )c = Ai .
i∈I i∈I
Luego tomado complemento en ambos lados se obtiene la segunda igualdad.

S Sn S S∞
(Nota: A menudos se nota i∈In Ai = i=1 Ai y i∈N Ai = i=1 Ai .)
S T
(Si I = ∅ se tiene i∈∅ Ai = ∅ y i∈∅ Ai = Ω).
Definición 1. Los conjuntos (Ai : i ∈ I) se dicen disjuntos si Ai ∩ Aj = ∅

para i 6= j, i, j ∈ I.
La familia de conjuntos (Ai : i ∈ I) ⊆ P(Ω) se S dice una partición de Ω si son
disjuntos y cubren Ω, esto último significa Ω = i∈I Ai .
Diremos que una sucesión de conjuntos (An : n ∈ N) ⊆ P(Ω) es creciente

si An ⊆ An+1 para n ∈ N, y se denota An ր. Se dice que la sucesión es
decreciente si An ⊇ An+1 para n ∈ N y se denota An ց. Si la sucesión es
creciente o decreciente diremos que es monótona. Si la sucesión (An : n ∈ N) es
monótona se tiene que existe lim An y este es
n→∞
[ \
lim An = An si An ր , lim An = An si An ց .
n→∞ n→∞
n∈N n∈N
T
Si An ր para n ∈ N, entonces
S se cumple n∈N An = A1 y si An ց para n ∈ N,
necesariamente se tiene n∈N An = A1
Ejemplo.S En R la sucesión deTconjuntos An = (−n, n], n ∈ N, es creciente y

se tiene n∈N An = R, además n∈N An = A1 = (−1, 1].
3.2 Eventos: σ−álgebra de conjuntos

Sea Ω un conjunto no vacı́o que llamamos conjunto muestral. Consideraremos
clases relevantes de subconjuntos de Ω, que en teorı́a de probabilidades serán
los eventos a los que se asignará una probabilidad.
Definición 2. Una clase B ⊆ P(Ω) de subconjuntos de Ω se llama σ−álgebra
en Ω, si verifica las propiedades siguientes:
(a) Ω ∈ B, ∅ ∈ B;
(b) A ∈ B implica Ac ∈ B (cerrado por complemento);
S
(c) (An : n ∈ N) ⊆ B implica n∈N An ∈ B (cerrado para uniones numerables).
A la pareja (Ω, B) se le llama espacio medible.
18
Veamos ahora propiedades de una σ−álgebra B en el caso general.
Notemos que la parte ∅ ∈ B en (a) se deduce de Ω ∈ B y de la propiedad (b)
pues Ω ∈ B implica ∅ = Ω ∈ B.
Propiedad 3. La σ−álgerbra B es cerrada por intersecciones numerables, es

decir cumple:
T
(c′ ) (An : n ∈ N) ⊆ B implica n∈N An ∈ B.
Más aún se tiene la equivalencia (b) + (c) ⇔ (b) + (c′ ).
Prueba: Basta probar la equivalencia. Por las leyes de Morgan se tiene

!c !c
\ [ [ \
c c
An = An , An = An .
n∈N n∈N n∈N n∈N
y usando (b) se obtiene la equivalencia deseada.
Nota 2. Supongamos que la σ−álgebra B contiene la familia de todos los

singletons de Ω, es decir {ω} ∈ B para ω ∈ Ω. En este caso todo subconjunto
A ⊆ Ω que sea numerable (finito o infinito) necesariamente estará en B. Esto se
deduce de que en general un conjunto es la unión de sus puntos, es decir
[
A= {ω}. (5)
ω∈A
Luego, si A es numerable y los singletons están en B, se tiene que A es unión

numerable de conjuntos en B y por la propiedad (c) se deduce que A ∈ B.
Notemos que de la propiedad (b) tambien se obtiene que un conjunto A ⊆ Ω
cuyo complenento Ac es numerable, tambien estará en B.
En el caso en que Ω es numerable, la única σ−álgebra que consideraremos en él
es la clase de todos sus subconjuntos B = P(Ω). Esto pues si imponemos que
{ω} ∈ B para ω ∈ Ω, el argumento anterior prueba que todo subconjunto de Ω
está en B. .
Propiedad 4. Una σ−álgebra B es cerrada para unión (finita), intersección

(finita), diferencia y diferencia simétrica, esto es:
A, B ∈ B implica A ∪ B ∈ B, A ∩ B ∈ B, A \ B ∈ B, A∆B ∈ B.
Sn Tn
También: A1 , .., An ∈ B implica i=1 Ai ∈ B, i=1 Ai ∈ B.
Prueba: Para (A1 , .., An ) ⊆ B, definimos Ak = An para k > n y se tiene

(Ak : k ∈ N) ⊂ B por lo que
n
[ [ n
\ \
Ak = Ak ∈ B, Ak = Ak ∈ B.
k=1 k∈N k=1 k∈N
19
Luego por ser B cerrado para complemento, unión e intersección finitas deduci-
mos:
A \ B = A ∩ B c ∈ B, A∆B = (A \ B) ∪ (B \ A) ∈ B.
Luego la σ−álgebra B es cerrada para unión e intersección numerable: numer-

able infinita como en el caso de la definición I = N, o finita; esto es
h i h[ \ i
I numerable (finito o infinito) , (Ai : i ∈ I) ⊆ B ⇒ Ai ∈ B, Ai ∈ B .
i∈I i∈I
Notemos que en todo conjunto Ω podemos definir al menos dos σ−álgebras (las
que son distintas si Ω no es un singleton):
N (Ω) = {∅, Ω} (σ − álgebra trivial) , P(Ω) (σ − álgebra discreta) .
Toda σ−álgebra B en Ω verifica
N (Ω) ⊆ B ⊆ P(Ω).
La familia de σ−álgebras en Ω está parcialmente ordenada por ⊆. Se tiene que

N (Ω) es la más pequeña σ−álgebra y P(Ω) es la más grande.
Para toda clase de partes L ⊆ P(Ω) hay una más pequeña σ−álgebra que la
contiene, la notamos σ(L). Esto es σ(L) verifica:
· σ(L) es σ−álgebra;
· L ⊆ σ(L);
· Si B es σ−álgebra tal que L ⊆ B entonces σ(L) ⊆ B.
Ejemplo 1. (1) Si L = ∅ o más generalmente si L ⊆ N (Ω) se tiene σ(L) =

N (Ω).
(2) Para A ∈ B se tiene σ({A}) = {∅, A, Ac , Ω}.
(3) Para L = {{ω} : ω ∈ Ω} la clase formada por los singletons se tiene
σ(L) = {A ⊆ Ω : A numerable ∨ Ac numerable }.
σ-álgebra de Borel en R. Al conjunto de los reales Ω = R lo dotamos de la

σ−álgebra de Borel B(R) = σ(L) siendo L = {(−∞, x] : x ∈ R}. Se tiene que
B(R) contiene a las siguientes clases de conjuntos:
• Los intervalos semi-infinitos (−∞, x], (−∞, x), (x, ∞), [x, ∞);
• Los intervalos finitos (x, y], [x, y], [x, y), (x, y);
• Los singletons {x};
• Los abiertos y cerrados en R.
20
Prueba. La única pruebaSque no es directa es para probar que (−∞, x) ∈ B(R).
Ella resulta de (−∞, x) = n∈N (−∞, x−1/n] y que B(R) es cerrada por uniones
numerables.
De lo anterior se deduce que (x, ∞) = (∞, x]c y [x, ∞) = (∞, x)c están en
B(R) pues está es cerrada para complementos. De aqui también se tiene [a, b] =
(−∞, b] ∩ [a, ∞) ∈ B(R) pues es cerrada por complementos. Y todos los inter-
valos están en B(R). Luego {x} = [x, x] ∈ B(R).
Finalemente
S todo abierto O es unión de intervalos abiertos, es decir satisface
O = n∈N N (an , bn ), luego O ∈ B(R), y como los cerrados son complementos
de abiertos tambien los están en B(R).
3.3 Medidas de probabilidad

Definición 5. Sea (Ω, B) espacio medible. Diremos que P : B → [0, 1] es una
medida de probabilidad si verifica,
(0) P : B → [0, 1] es una función;
(a) P(Ω) = 1, P(∅) = 0;
(b) Si (An : n ∈ N) ⊆ B es una familia disjunta entonces
[ X
P( An ) = P(An ) (σ − aditividad).
n∈N n∈N
Al triplete (Ω, B, P) se le llama espacio de probabilidad. Como anunciamos Ω

es el conjunto muestral y a los elementos de B, se les llama eventos.
Nota 6. La propiedad P(∅) = 0 en (i) se deduce de (0) y (b), en efecto de (0)

se tienePP(∅) ∈ [0, 1] y si se toma An = ∅ para todo n ∈ N en (b), se deduce
P(∅) = n∈N P(∅), por lo que si P(∅) > 0 se llega a una contradicción.
Proposición 7. (a) Si (Ai : i ∈ I) ⊆ B es una familia numerable (finita si

|I| finito, o infinita si |I| = |N|) que es disjunta, entonces se verifica,
[ X
P( Ai ) = P(Ai ).
i∈I i∈I
En caso I finito la propiedad anterior se llama aditiva y para el caso |I| = 2

significa
P(A ∪ B) = P(A) + P(B) si A, B ∈ B, A ∩ B = ∅ .
(b) Para A, B ∈ B se cumple
P(B \ A) = P(B) − P(B ∩ A),
en particular si A ⊆ B se verifica P(B \ A) = P(B) − P(A).
21
(c) P es creciente esto es:
A ⊆ B ⇒ P(A) ≤ P(B).
(d) Todo A ∈ B cumple,

P(Ac ) = 1 − P(A).
(e) Para A, B ∈ B se cumple,
P(A ∪ B) = P(A) + P(B) − P(A ∩ B),
en particular es sub-aditiva,esto es
P(A ∪ B) ≤ P(A) + P(B) .
Prueba: (a). Si I es infinito numerable, esta es la propiedad σ− aditiva

(b) en la definición 5 pues podemos enumerar los conjuntos (Ai : i ∈ I) con
S suponerSI = IN , para N ∈ N0 .
I = N. Supongamos I es finito, luego podemos
Definamos Ai = ∅ para i > N por lo que n∈N An = i∈I Ai . Además (An :
n ∈ N) ⊆ B es una familia disjunta y usando la propiedad de σ−aditividad en
la definición 5 y P(∅) = 0 se deduce
[ [ X X
P( Ai ) = P( An ) = P(An ) = P(Ai ).
i∈I n∈N n∈N i∈I
(b). Basta considerar la familia disjunta (B \ A, B ∩ A) en (a) y usar que

B = (B \ A) ∪ (B ∩ A).
(c). En (b) se usa P(B ∩ A) ≥ 0.
(d). En (b) se toma B = Ω.
(e). Basta notar que (A \ A ∩ B, A ∩ B, B \ A ∩ B) es una familia disjunta de
subconjuntos cuya unión es A ∪ B.
Propiedad 8. Consideremos Ai , i ∈ In = {1, ..., n} una familia finita de

conjuntos en B, entonces se cumple la propiedad de inclusión-exclusión
 
[ n
X X \
P( Ai ) = (−1)k+1  P( Ai ) . (6)
i∈In k=1 J⊆In :|J|=k i∈J
Prueba: La demostración es por inducción. Para n = 2 es la propiedad (e) de

la Proposición anterior. Supongamos que se cumple hasta n probemoslo para
22
n + 1. La siguiente unión es disjunta
[ [ [ [
Ai = ( Ai ) ∩ An ∪ ( Ai ) ∩ Acn ∪ An ∩ ( Ai )c
i∈In+1 i∈In i∈In i∈In
[ [ [
= ( Ai ∩ An ) ∪ ( Ai ∩ Acn ) ∪ (An \ ( An ∩ Ai ))
i∈In i∈In i∈In
[ [
= ( Ai ∪ (An \ ( An ∩ Ai )).
i∈In i∈In
Por hipotesis de inducción se obtiene,

[ [ [
P( Ai ) = P( Ai ) + P(An ) − P( An ∩ Ai )
i∈In+1 i∈In i∈In
n
X X \
= (−1)k+1 P( Ai ) + P(An )
k=1 J⊆In :|J|=k i∈J
n
X X \
− (−1)k+1 P(An ∩ ( Ai ))
k=1 J⊆In :|J|=k i∈J
n
X X \
= (−1)k+1 P( Ai ) .
k=1 J⊆In+1 :|J|=k i∈J
En el caso n = 3, la relación (6) se reduce a:

3
X 2
X 3
X 3
\
P(A1 ∪ A2 ∪ A3 ) = P(Ai ) − P(Ai ∩ Aj ) + P( Ai ).
i=1 i=1 j=i+1 i=1
El primer término de la derecha corresponde a k = 1 pues los subconjuntos de

I3 con |J| = 1 son {1}, {2}, {3}; el segundo término corresponde a k = 2 pues
los subconjuntos de I3 con |J| = 2 son {1, 2}, {1, 3}, {2, 3}; y el tercer término
corresponde a k = 3 pues el único subconjuntos de I3 con |J| = 3 es {1, 2, 3}.
Proposición 9. Si (An : i ∈ N) ⊆ B es una sucesión monótona entonces

P( lim An ) = lim P(An ).
n→∞ n→∞
Esto es:
[
si An ր entonces P( An ) = lim P(An ) ,
n→∞
n∈N
\
si An ց entonces P( An ) = lim P(An ).
n→∞
n∈N
Esta propiedad se llama continuidad monotona (secuencial).
23
Prueba: Supongamos que la sucesión es creciente. Definamos la sucesión de
conjuntos (∆n : i ∈ N) por
∆1 = A1 , ∆n = An \ An−1 para n > 1.
Se tiene (∆n : i ∈ N) ⊆ B y además es una familia disjunta. Es directo ver que

por ser (An ) creciente se cumple
N
[ N
[
∆n = An = AN . (7)
n=1 n=1
De manera similar se obtiene

[ [
∆n = An .
n∈N n∈N
La primera unión es disjunta luego podemos usar la σ−aditividad, ello junto a

la relación (7) permite obtener
[ [ X N
X
P( An ) = P( ∆n ) = P(∆n ) = lim P(∆n ) = lim P(AN ).
N →∞ N →∞
n∈N n∈N n∈N n=1
Y esta es la propiedad buscada en caso creciente. El caso en que (An : n ∈ N)

es decreciente, la propiedad resulta de observar que (Acn : n ∈ N) es creciente, y
usar la propiedad ya obtenida en este caso, junto a la igualdad P(A) = 1−P(Ac )
y la ley de Morgan. En efecto,
\ \ [
1 − P( An ) = P(( An )c ) = P( Acn ) = lim P(Acn ) = 1 − lim P(AN ).
n→∞ n→∞
n∈N n∈N n∈N
Proposición 10. Sean I numerable, (Ai : i ∈ I) ⊆ B una sucesión de

conjuntos en B. Entonces se cumple
[ X
P( Ai ) ≤ P(Ai ).
i∈I i∈I
En caso I finito se dice propiedad subaditiva, si I es numerable infinito se dice

propiedad sub-σ−aditiva.
Prueba: Probemos el caso finito. Si |I| = 0 ó |I| = 1 esto es trivial. Sea

I = IN con N ≥ 2. El caso N = 2 esta incluı́do en la Proposición 7 (e), el caso
SN SN −1
N ≥ 2 se prueba por inducción usando i=1 Ai = i=1 Ai ∪ AN .
24
Sn
Para el caso numerable I = N S Sn = i=1 Ai para n ∈ N. Se tiene
definamos B
que que Bn es creciente y que n∈N Bn = n∈N An . Luego, por la proposición
anterior se tiene
[ [ n
[
P( An ) = P( Bn ) = lim P(Bn ) = lim P( Ai )
n→∞ n→∞
n∈N n∈N i=1
n
X X
≤ lim ( P(Ai )) = Ai .
n→∞
i=1 i∈N
De particular interés es lo que ocurre con los conjuntos de medida 0 o de medida

1. Se tiene:
Proposición 11.
S (i) Si (An : n ∈ N) ⊆ B es tal que P(An ) = 0 para todo
n ∈ N entonces P( n∈N An ) = 0.
(ii)T Si (An : n ∈ N) ⊆ B es tal que P(An ) = 1 para todo n ∈ N entonces
P( n∈N An ) = 1.
(iii) N (Ω, P) = {A ∈ B : P(A) = 0 ó P(A) = 1} es una σ−álgebra.
S P
Prueba: (i) por la sub σ−aditividad An ) ≤ n∈N P(An ) = 0.
T se tiene P( n∈N S
La propiedad (ii) resulta de (i) y P( n∈N An ) = 1 − P( n∈N Acn ). La parte (iii)
se deduce fácilmente.
Si A ∈ B verifica P(A) = 0 a menudo se le llama P−nulo, y si P(A) = 1 se le

llama P−lleno.
En un espacio de probabilidad (Ω, B, P) no haremos especial distinción entre
los conjuntos que difieran en un conjunto de probabilidad nula, es decir entre
A, B ∈ B cuando P(A∆B) = 0.
Para ilustrar porque esto se puede hacer en un caso concreto veamos el ejercio
siguiente.
Ejercicio 2. Asumamos que I es numerable, que se tiene (Ai : i ∈ I) ⊆ B y

que esta familia es P−disjunta, esto es P(Ai ∩ Aj ) = 0 si i 6= j. Emtonces se
cumple [ X
P( Ai ) = P(Ai ).
i∈I i∈I
Para el caso I finito se deduce de la Propiedad 8 de inclusión-exclusión, pues

como P(Ai ∩ Aj ) = 0 si i 6= j se deduce que el único término que sobrevive
S en
el
P término de la derecha de igualdad (6) es para k = 1, lo que da P( i∈I i =
A )
i∈I P(A i ).
25
Para I = N se obtiene usando la Proposición 9. Para hacerlo tomemos Bn =
S n
i=1 Ai , la que es una sucesión creciente de conjuntos cuando n crece y se
obtiene
[ [ n
[ n
X X
P( Ai ) = P( Bi ) = lim P( Ai ) = lim P(Ai ) = P(Ai ).
n→∞ n→∞
i∈I i∈I i=1 i=1 i∈N
Probabilidad en caso discreto. Si Ω es numerable Ω se le dota de la

σ−álgebra P(Ω). Una medida de probabilidad está definida por la función de
densidad
P discreta p : Ω → R, ω ∈ Ω → p(ω), que verifica (2): p(ω) ≥ 0 para y
ω∈Ω p(ω) = 1. La medida de probabilidad en (Ω, P(Ω)) está dada por
X
A → P(A) = p(ω) para A ∈ P(Ω).
ω∈A
Ella es una medida de probabilidad pues toma valores en [0, 1], P(Ω) = 1 y es
σ−aditiva pues para una familia disjunta (An : n ∈ N) ⊆ P(Ω) se cumple
!
X X X
p(ω) = p(ω).
n∈N ω∈An ω∈∪n∈N An
Notemos que se cumple P({ω}) = p(ω) para ω ∈ Ω.
26
4 Probabilidad Condicional
De ahora en adelante (Ω, B, P) es un espacio de probabilidad fijo.
Definición 12. Sean A, C ∈ B con P(C) > 0. La probabilidad condicional
de A dado C es
P(A ∩ C)
P(A | C) = . (8)
P(C)
La probabilidad condicional de A dado C correponde a medir la probabilidad

de la parte de A contendida en C siendo normalizada por la probabilidad de C.
Muchas veces se dice la probabilidad de A dado que ocurrió C. Como veremos
en la Proposición 13, cuando hacemos A variar en B (o en la clase de eventos
contenidos en B) la probabilidad condicionada a C corresponde a medir las
probabilidades en un nuevo universo dado por C.
Las propiedades siguientes son satisfechas:
· Si P(C) = 1 entonces P(A | C) = P(A) para todo A ∈ B;
· P(C | C) = 1 y en general P(A | C) = 1 si y solo si P(C \ A) = 0 (pues
P(C) = P(C ∩ A) + P(C \ A));
· Si A ⊆ C entonces P(A | C) = P(A)/P(C).
· A partir de (8) se tiene
P(A∩C) = P(A | C)P(C) si P(C) > 0, P(A∩C) = P(C | A)P(A) si P(A) > 0. (9)
Por lo que si P(A) > 0 y P(C) > 0 se tiene
P(A)
P(A | C) = P(C | A) .
P(C)
· Si (An : n ∈ N) ⊆ B es una familia disjunta, entonces es directo mostrar que
[ X
P( An C) = P(An C).
n∈N n∈N
La probabilidad condicional con respecto a un conjunto C ∈ B con P(C) > 0 es

de hecho una medidad de probabilidad siendo el conjunto C el nuevo universo.
Para dar rigurosidad a este enunciado introduzcamos el concepto de σ−álgebra
inducida.
En todo conjunto C ∈ B no vacı́o, B induce la σ−álgebra
B ∩ C = {A ∈ B : A ⊆ C},
que es la clase de los eventos de B contenidos en C. Ella satisface,
B ∩ C = {A ∩ C : A ∈ B}.
Ası́ pues (C, B ∩ C) es un espacio medible y se llama el inducido por B en C.
27
Proposición 13. Sea C ∈ B con P(C) > 0. Entonces
P(· | C) : B ∩ C → [0, 1], A → P(A | C)
es una medida de probabilidad en el espacio inducido (C, B ∩ C). Ella se llama

medida de probabilidad condicionada a C.
Prueba: Notemos que si A ∈ B ∩ C entonces P(A | C) = P(A)/P(C) pues

A = A ∩ C (ya que A ⊆ C)..
Resulta claro que P(· | C) : B ∩ C → [0, 1] es una función bien definida. Además,
P(C | C) = 1
S
y si (An : n ∈ N) ⊆ B ∩ C es una familia disjunta, se tiene P(
P n∈N An ) =
n∈N P(An ) y como An = An ∩ C (pues An ⊆ C) se tiene
[ X
P( An | C) = P(An | C).
n∈N n∈N
Ejercicio 3. En el lanzamiento de un dado equilibrado consideremos el evento

que el lanzamiento es par, es decir que pertenezca a C = {2, 4, 6}. Se tiene
P(C) = |C|/6 = 1/2. Se cumple que B = P(I6 ) y B ∩ C = P(C) el conjunto
de todas las partes de C = {2, 4, 6}, ya que la familia de subconjuntos de I6
que están contenidos en C son todos los subconjuntos de C. Para A ∈ P(C) la
probabilidad condicional de A con respecto a C es
|A|/|6| |A|
P(A | C) = P(A)/P(C) = = ,
|C|/|6| |C|
que es la probabilidad uniforme en el conjunto de los pares.
A partir de (9), para A, B, C ∈ B con P(B ∩ C) > 0 se tiene
P(A ∩ B ∩ C) = P(A | B ∩ C)P(B ∩ C) = P(A | B ∩ C)P(B | C)P(C).
Y en general, se tiene la siguiente descomposición:

T
k
Proposición 14. Sean A1 , .., Ak ∈ B con k ≥ 2 y tal que P r=1 Ar > 0.
Entonces, se cumple
k
\ k
\
P (A1 ∩ A2 ∩ .... ∩ Ak ) = P(A1 As ) · P(A2 As ) · · · P(Ak−1 Ak )P(Ak ) ,
s=2 s=3
k−1
\ k−2
\
P (A1 ∩ A2 ∩ .... ∩ Ak ) = P(Ak As )P(Ak−1 As ) · · · P(A2 A1 )P(A1 ),
s=1 s=1
28
o escrito de manera más compacta,
k
! k k
!
\ Y \
P Ar = P Ar As y
r=1 r=1 s=r+1
k
! k−1 k−r−1
!
\ Y \
P Ar = P Ak−r As ,
r=1 r=0 s=1
Tk T0
donde hemos notado P Ak | s=k+1 As = P(Ak ), P A1 | s=1 As = P(A1 ).
Prueba: Las dos fórmulas del enunciado son equivalentes pues correponden
simplemente a una distinta reenumeración de los conjuntos. Probemos la primera,
lo que haremos por un método inductivo. Ası́,
k
! k−1
! k−1
! k−1
!
\ \ \ \
P Ar = P Ak ∩ Ar = P Ak Ar P Ar ,
r=1 r=1 r=1 r=1
y en el paso final se usa P(A2 ∩ A1 ) = P(A2 | A1 )P(A1 ) obteniendose la fórmula

deseada
k
! k−1
! k−2
!
\ \ \
P Ar = P Ak Ar P Ak−1 Ar ...P(A2 A1 )P(A1 ).
r=1 r=1 r=1
El ejercicio siguiente es directo:

Ejercicio 4. Si se tiene P(A | C1 ) = ... = P(A | Ck ) y C1 , .., Ck disjuntos,
entonces
[k
P(A | Ci ) = P(A | C1 ) = ... = P(A | Ck ).
i=1
Para probarlo notemos α = P(A | Ci ) para i = 1, ..., k. Entonces P(A ∩ Ci ) =

αP(Ci ). Ahora usamos que los Ci son disjuntos por lo que sumando se ob-
Sk Sk Sk
tiene P(A ∩ i=1 Ci ) = αP( i=1 Ci ) y dividiendo por P( i=1 Ci ) concluı́mos el
resultado.
Fórmula de Bayes. Consideremos I un conjunto numerable y (Ai : i ∈ I) una

partición, esto (Ai : i ∈ I) ⊆ B y se satisface
[
Ai ∩ Aj = ∅ si i 6= j, Ai = Ω.
i∈I
Observemos que si (Ai : i ∈ I) es una P−partición, esto es se cumple las

propiedades de partición salvo conjuntos P-nulos,
[
P(Ai ∩ Aj ) = 0 si i 6= j, P( Ai ) = 1.
i∈I
29
entonces todo las propiedades que veremos para una partición tambien son sat-
isfechas por una P−partición.
Supondremos que los conjuntos de la partición satisfacen P(Ai ) > 0 para todo
i ∈ I pues un conjunto P-nulo se puede sacar de la P−partición.
S Sea C ∈ B. Al
intersectar C con ambos términos de la igualdad Ω = i∈I Ai se obtiene
[
C= C ∩ Ai
i∈I
sienbo la unión disjunta. Y se cumple la llamada Fórmula de Probabilidades

Totales: X
∀C ∈ B : P(C) = P(C ∩ Ai ),
i∈I
o equivalentemente X
P(C) = P(C | Ai )P(Ai ). (10)
i∈I
(En el Ejercicio 5 se ve una aplicación de ella.)

Siguiendo con lo anterior se tiene P(C ∩ Aj ) = P(C | Aj )P(Aj ) y en caso en que
P(C) > 0 se obtiene la llamada:
P(C | Aj )P(Aj )
Fórmula de Bayes: P(Aj | C) = P .
i∈I P(C | Ai )P(Ai )
Ejercicio 4’. Consideremos una urna con N bolas, de las cuales M son blancas
y N − M son negras. Hagamos el siguiente expermento: saquemos al azar un
conjunto de k bolas de la urna, y enseguida, de este conjunto saquemos al azar
una bola. Probemos que la probabilidad de que esta bola sea blanca es M/N ,
es decir es la misma probabilidad de ser blanca que si de la urna hubieramos
extraı́do una bola al azar.
Notemos por Y el conjunto de k bolas extraı́das al azar y notemos por X el
color de la bola extraı́da al azar del conjunto Y . Notemos por A el evento X es
bola blanca y Bl el evento Y contiene l bolas blancas. Se tiene
l
P(A | Bl ) = .
k
Por probabilidades totales se tiene
k k

M N −M

X X l l k−l
P(A) = P(A ∩ Bl )P(Bl ) = N

k k
l=0 l=0
k

M −1 N −1−(M −1)

M X l−1 k−1−(l−1) M
= ) N −1
= .
N k−1
N
l=1
30
Ejercicio 4”. Se dispone de n monedas, numeradas de M1 a Mn . La moneda
Mi tiene probabilidad pi de ser Cara. Supongamos que el experimento es: se
escoge una moneda ’al azar’ (es decir uniformemente entre las n monedas).
Cuál es la probabilidad que si esta se lanza salga Cara? Para ello notemos ξ
el indice de la moneda escogida. Este es un número aleatorio entre 1 y n con
P(ξ = i) = 1/n para i ∈ In . Observemos que
({ξ = i} : i ∈ In ) es una partición
pues {ξ = i} ∩ {ξ = j} = ∅ si i 6= j y Ω = {ξ ∈ In }. El evento considerado
es {Mξ = Cara}. Luego, por fórmula de probabilidades totales y tomando
C = {Mξ = Cara}, Ai = {ξ = i} se obtiene:
X X
P(C) = P(C | Ai )P(Ai ) = P(Mξ = Cara | ξ = i)P(ξi = i)
i∈In i∈In
X n
1 1X
= pi = pi .
n n i=1
i∈In
Un cálculo más detallado de la probabilidad condicional de arriba es

P(Mξ = Cara | ξ = i) = P(Mξ = Cara, ξ = i)P(ξ = i)
= P(Mi = Cara, ξ = i)P(ξ = i) = P(Mi = Cara)P(ξ = i)P(ξ = i) = pi .
Ejercicio 5. Considere el concurso siguiente: hay n puertas, una de ellas da a

un cuarto conteniendo un tesoro y las n − 1 restantes a un cuarto vacı́o. Hay n
participantes, a cada uno de ellos se le asigna ’al azar’ un número distinto entre
1 y n, y de manera secuencial de acuerdo al orden asignado cada participante
abre una puerta distinta, hasta el momento en que uno de ellos encuentra el
tesoro. Pruebe que todos los candidatos tienen la misma probabilidad 1/n de
ganar el tesoro.
Probemoslo por inducción. Para n = 1 es evidente. Tomemos n > 1 y supong-
amos que lo hemos probado hasta n − 1, mostremoslo para n. El participante 1
tiene probabilidad 1/n de obtener el tesoro y (n − 1)/n de no obtenerlo. Si la
puerta que abre no contiene el tesoro, quedan n − 1 participantes con un orden
asignado para abrir las n − 1 restantes puertas donde solo una de ellas tiene
el tesoro. Este es el mismo cuadro con n − 1, luego por inducción, cada uno
de ellos tiene la misma probabilidad 1/(n − 1) de abrir la puerta con el tesoro.
Luego, por este argumento inductivo anterior se tiene para todo i ∈ {2, .., n},
P(i gana tesoro) = P(i gana tesoro | 1 no gana tesoro)P(1 no gana tesoro)
+ P(i gana tesoro | 1 gana tesoro)P(1 gana tesoro)
1 (n − 1) 1 1
= · +0· = .
n−1 n n n
Esto prueba el resultado. Observe que hemos usado la relación de probabilidades
totales (10) con los conjuntos siguientes: I = {1, 2}, A1 = {1 no obtiene tesoro)},
A2 = {1 obtiene tesoro)}, C = {i obtiene tesoro}.
31
Ejercicio 6. (Problema de Monty-Hall). En un concurso hay tres puertas, sólo
detrás de una de ellas hay un premio y las otras dos están vacı́as. Quién anima
el concurso conoce la puerta que contiene el premio. Un concursante busca
escoger la puerta que contiene el premio, y para ello elige al azar una de las
tres puertas. Antes de chequear si ella contiene el premio, el animador abre una
de las otras dos puertas mostrandole al concursante que ella esta vacı́a y acto
seguido le ofrece al concursante la posibilidad de cambiar la puerta elegida por
la puerta que el animador no abrió. Conviene al concursante hacer éste cambio?
Resolvamoslo.
Notemos por {−1, 0, 1} las tres puertas, siendo 0 la puerta que tiene el premio.
El conjunto muestral lo definiremos por Ω = {−1, 0, 1}×{−1, 1}, donde la pareja
(ω1 , ω2 ) ∈ Ω significa que la puerta ω1 es la puerta escogida por el concursante
y ω2 es la puerta abierta por el animador, la que está vacı́a y por ello no es
0. La probabilidad P en Ω se define de la manera siguiente: fijemos q ∈ (0, 1),
luego P está definida por
1 1 1 1
P{(0, −1)} = q · , P({(0, 1)}) = (1 − q) · , P{(1, −1)} = , P{(−1, 1)} = .
3 3 3 3
Y esto significa que condicionalmente a que el concusante elija ω1 , el animador
abre una de las dos puertas ω2 = 1 ó ω2 = −1 (ambas están vacı́as) con prob-
abilidad q y 1 − q respectivamente. Si el concursante elige una puerta vacı́a
ω1 ∈ {−1, 1} el animador abre la puerta ω2 = −ω1 pues esta debe estar vacı́a.
La puerta ω1 escogida por el concursante verifica P(ω1 = i) = 1/3 para i ∈
{−1, 0, 1}. Sean ω2 , ω3 las otras dos puertas. La puerta ω2 abierta por el
animador esta vacı́a, y notamos por ω3 la puerta que no se abre y que se ofrece
al concursante para ser intercambiada por ω1 . Se tiene {ω1 , ω2 , ω3 } = {−1, 0, 1}
luego P(ω1 = 0) + P(ω2 = 0) + P(−ω2 = 0) = 1. Como P(ω1 = 0) = 1/3 y
P(ω2 = 0) = 0, deducimos P(ω3 = 0) = 2/3, luego al concursante le conviene
intercambiar ω3 por ω1 .
32
5 Independencia
Fijemos el espacio de probabilidad (Ω, B, P).
Definición 15. Se dice que A, B ∈ B son P−independientes si P(A ∩ B) =

P(A)P(B).
Propiedad 16. (a) Todo conjunto A ∈ B de probabilidad 0 ó 1 es indepen-

diente de todo conjunto B ∈ B.
(b) Un conjunto A ∈ B es independiente de sı́ mismo si y solo si P(A) = 0 ó
P(A) = 1.
Prueba: (a) La igualdad P(A ∩ B) = P(A)P(B) se cumple siendo igual a 0 si

P(A) = 0 y a P(B) si P(A) = 1.
(b) A es independiente de A si y solo sı́ P(A ∩ A) = P(A)P(A), esto es si
P(A) = P(A)2 y se deduce que esto ocurre si y solo si P(A) = 0 ó P(A) = 1.
Observemos que si A, B ∈ B son disjuntos y ambos de probabilidad no-nula,
entonces no pueden ser independientes pues 0 = P(A ∩ B) 6= P(A)P(B).
Si P(B) > 0 se tiene que A, B son P−independientes si y solo si P(A | B) = P(A).
Ejercicio 7. Consideremos el lanzamiento de dos dados independientes, lo que

se modela por Ω = I62 y la probabilidad P{(i1 , i2 )} = 1/36 para (i1 , i2 ) ∈ Ω. Sea
Yl : Ω → I6 , (i1 , i2 ) → il para l = 1, 2. Sean C1 , C2 dos subconjuntos cualquiera
de I6 . Se tiene que los eventos A1 = {(i1 , i2 ) : i1 ∈ C1 } y A2 = {(i1 , i2 ) : i2 ∈
C2 } son P−independientes. En efecto
A1 = {(i1 , i2 ) : i1 ∈ C1 } = C1 × I6 , A2 = {(i1 , i2 ) : i2 ∈ C2 } = I6 × C2 .
Luego
1 1 1 1
P(A1 ∩ A2 ) = |A1 ∩ A2 | = |C1 × C2 | = |C1 | · |C2 | = P(A1 )P(A2 ).
36 36 6 6
Proposición 17. Si A, B son P−independientes entonces las siguientes

parejas de conjuntos A, B c ; Ac , B; y Ac , B c ; también son P−independientes.
Prueba: Sean A, B P−independientes, basta probar que A, B c son P−independientes.

Se tiene
P(A∩B c ) = P(A)−P(A∩B) = P(A)−P(A)P(B) = P(A)(1−P(B)) = P(A)P(B c ).
33
De la la Proposición 17 se tiene la equivalencia
A1 , A2 son P−independientes si y solo si

P(B1 ∩ B2 ) = P(B1 )P(B2 ) para B1 = A1 ó Ac1 , B2 = A2 ó Ac2 .
Inspirados por esta relación hacemos la siguiente definición de independencia de

más de dos conjuntos:
Definición 18. La familia de conjuntos A1 , A2 , ..., Ak ∈ B con k ≥ 2 es

P−independiente si y solo si
k
\ k
Y
P( Bl ) = P(Bl ),
l=1 l=1
siendo B1 , .., Bk tal que Br = Ar ó Br = Acr para r = 1, .., k.

Cuando P está clara del contexto se dice que A1 , ..., Ak son independientes ó
independientes conjuntamente.
T Q
k k
En particular esto implica que necesariamente se cumple P l=1 Al = l=1 P(Al ).
Sin embargo está condición no es suficiente para la independencia en el caso
k > 2.
De la definicón de independencia se tiene directamente:
Propiedad 19. Sea k ≥ 2. Se tiene que A1 , A2 , ..., Ak ∈ B son P−independiente

si y solo si para cualquier (y para toda) familia B1 , .., Bk son independientes,
con Br = Ar ó Br = Acr para r = 1, .., k.
Ejemplo Ia. Los conjuntos A1 , A2 , A3 son P−independientes si se cumple
P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ), P(A1 ∩ A2 ∩ Ac3 ) = P(A1 )P(A2 )P(Ac3 ),

P(A1 ∩ Ac2 ∩ A3 ) = P(A1 )P(Ac2 )P(A3 ), P(A1 ∩ Ac2 ∩ Ac3 ) = P(A1 )P(Ac2 )P(Ac3 ),
P(Ac1 ∩ A2 ∩ A3 ) = P(Ac1 )P(A2 )P(A3 ), P(Ac1 ∩ A2 ∩ Ac3 ) = P(Ac1 )P(A2 )P(Ac3 ),
P(Ac1 ∩ Ac2 ∩ A3 ) = P(Ac1 )P(Ac2 )P(A3 ), P(Ac1 ∩ Ac2 ∩ Ac3 ) = P(Ac1 )P(Ac2 )P(Ac3 ).
Tk
Propiedad 20. Si A1 , ..., Ak son independientes con P( r=1 Ar ) > 0, en-
tonces para Br = Ar ó Br = Acr , r = 1, ..., k, tal que P(Br ) > 0 se tiene:
k−1
\
P(Bk | Br ) = P(Bk )
r=1
34
Tk Qk Tk−1 Qk−1
Prueba: Resulta de P( r=1 Br ) = r=1 P(Br ) y P( r=1 Br ) = r=1 P(Br ).
Se tiene la equivalencia:
Proposición 21. Los conjuntos A1 , A2 , ..., Ak ∈ B siendo k ≥ 2, son P−independientes

si y solo si para toda subfamilia Ai1 , .., Ais con 1 ≤ i1 < i2 < .. < is ≤ k, s ≥ 2,
se tiene !
\s Ys
P Air = P(Air ).
r=1 r=1
Prueba: Asumamos A1 , A2 , ..., Ak son P−independientes. Sea 1 ≤ i1 < .. <

is ≤ k, con s ≥ 2, y notemos K = {i1 , .., is }. Por independencia se tiene
s
\ \ s
Y Y
P( Air ∩ Bl ) = P(Air ) × P(Bl ),
r=1 l6∈K r=1 l6∈K
P
donde Bl = Al ó Bl = Acl . Luego haciendo la suma l6∈K:Bl =Al ,Bl =Acl obten-
emos la igualdad
s
\ s
Y
P( Air ) = P(Air ).
r=1 r=1
por lo que la condición es necesaria.

Probemos que la condición es suficiente. Tomemos Bl = Al ó Bl = Acl , para
l = 1, .., k, debemos probar que
k
! k
\ Y
P Bl = P(Bl ).
l=1 l=1
Esto lo haremos por inducción sobre ℓ = |L|, siendo L = {l ∈ {1, .., k} : Bl =

Acl }. Observemos que necesariamente se tiene Bl = Al si l 6∈ L. Notemos que si
ℓ = 0 el resultado se tiene por hipótesis. Supongamos que se ha probado para
0 ≤ ℓ < k, probemoslo para ℓ + 1. Reenumerando los conjuntos basta probarlo
para L = {1, .., ℓ + 1}, es decir debemos probar
ℓ+1 k
! ℓ+1 k
\ \ Y Y
c
P Al ∩ Al = P(Acl ) × P(Al ).
s=1 l=ℓ+2 l=1 l=ℓ+2
Ahora bien se tiene

ℓ+1 k ℓ k
! ℓ k
!
\ \ \ \ \ \
Acl ∩ Al = Acl ∩ Al \ Acl ∩ Al .
l=1 l=ℓ+2 l=1 l=ℓ+2 l=1 l=ℓ+1
35
Por hipotesis de inducción sobre ℓ se obtiene
ℓ+1 k
! ℓ k ℓ r
\ \ Y Y Y Y
c
P (Al ) ∩ Ak = P(Acl ) P(Al ) − P(Acl ) P(Al )
l=1 l=ℓ+2 l=1 l=ℓ+2 l=1 l=ℓ+1
ℓ
Y k
Y ℓ+1
Y k
Y
= P(Acl )(1 − P(Aℓ+1 )) P(Al ) = P(Acl ) P(Al ).
l=1 l=ℓ+2 l=1 l=ℓ+2
Lo que da el resultado.
Ejemplo Ib. Los conjuntos A1 , A2 , A3 son P−independientes si se cumple
P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ), P(A1 ∩ A2 ) = P(A1 )P(A2 ),

P(A1 ∩ A3 ) = P(A1 )P(A3 ), P(A2 ∩ A3 ) = P(A2 )P(A3 ).
Esto es, las ocho igualdades que caracterizan la P−independencia de A1 , A2 , A3

dadas en el Ejemplo Ia se reducen a las cuatro igualdades dadas en el Ejemplo
Ib.
De la última proposición se obtiene directamente:
Propiedad 22. Si los conjuntos A1 , A2 , ..., Ak ∈ B con k ≥ 2, son P−independientes

entonces cualquier subfamilia Ai1 , .., Air con 1 ≤ i1 < i2 < .. < ir ≤ k y r ≥ 2,
también es P−independiente.
De la definición 18 y de la Proposición 21 se tiene que si A1 , A2 , ..., Ak ∈ B son

P−independientes entonces para todo 1 ≤ i1 < i2 < .. < is ≤ k con s ≥ 2 y
para Bi1 = Ai1 ó Bi1 = Aci1 para r = 1, ..., s se tiene
s
! s
\ Y
P Bir = P(Bir ).
r=1 r=1
Definición 23. Se dice que A1 , A2 , ..., Ak ∈ B son independientes de a pares

si se cumple
∀1 ≤ i, j ≤ k, i 6= j : P(Ai ∩ Aj ) = P(Ai )P(Aj ).
Por la propiedad 22 se tiene que si A1 , A2 , ..., Ak ∈ B son P−independientes

entonces son idnependientes de a pares. Pero, salvo en el caso k = 2, la inde-
pendencia de a pares no equivale a la independencia para k > 3.
Ejercicio 8. En el lanzamiento de dos dados independientes consideremos los

eventos: Al = {(i1 , i2 ) ∈ Ω : il es par} para l = 1, 2, y C = {(1, 1), (6, 6)}.
36
Entonces A1 , A2 , C son independientes de a pares (esto es los pares A1 , A2 ;
A1 , C; A2 , C; son independientes), pero A1 , A2 , C no son independientes.
En efecto P(A1 ) = 1/2 = P(A2 ), P(C) = 1/18, P(A1 ∩ A2 ) = {(i1 , i2 ) ∈ Ω :
i1 , i2 son pares} = 9/36 = 1/4. Además A1 ∩ C = A2 ∩ C = A1 ∩ A2 ∩
C = {(6, 6)} por lo que P(A1 ∩ C) = P{(6, 6)} = P(A2 ∩ C) = 1/36 y se
tiene la independencia de a pares. Pero P(A1 ∩ A2 ∩ C) = 1/36 6= 1/64 =
P(A1 )P(A2 )P(C) por lo que no se tiene la independencia. Esto se ve en la
relación: P(A1 | A2 ∩ A3 ) = 1 6= 1/2 = P(A1 ).
Para ilustrar que A1 , A2 , C no son independientes, se tiene que
P(A2 ∩ A1 ∩ C) P({(6, 6)})

P(A2 | A1 ∩ C) = = =1
P(A1 ∩ C) P({(6, 6)})
esto es ella es diferente a P(A2 ) = 1/2, lo que por la propiedad 20 implica que
A1 , A2 , C no son independientes.
37
6 Variables aleatorias
Observemos que ada vez que se juega un nuevo juego de dados hemos cambiado
de espacio de probabilidad, en efecto si se juegan k juegos de dados consideramos
el espacio de probabilidad dado por Ω = I6k con la medida de probabilidad
dada por la densidad discreta p((ω1 , ..., ωk ) = 1/6k . Sin embargo esta forma
de modelar los juego por una parte no nos da agilidad para poder combinar
resultados y peor aún no permite considerar juegos donde deba considerarse un
número de juegos que no esten determinados a priori, por ejemplo esto ocurre
para dos jugadores con ciertas fortunas iniciales, en que jueguen hasta que uno
de los dos haya perdido todo.
En lo que sigue modelaremos los juegos considerando un solo espacio de prob-
abilidad (Ω, B, P) y los distintos juegos 1, 2, ... corresponden a funciones, que se
llaman aleatorias, con dominio en Ω y que toman valores en R, en este caso
I6 = {1, ..., 6}. Hagamos más rigurosa esta forma de modelar.
De aquı́ en adelante (Ω, B, P) es un espacio de probabilidad que permanece fijo.

las variables que modelaremos son del tipo
X : Ω → R, ω → X(ω)
y observaremos los resultados que toman en R. En el caso de un juego de dados
la variable toma un número finito de valores, pero hay otras que pueden tomar
un continuo de valores, por ejemplo la temperatura que se tendrá en un lugar
dado en un instante de tiempo dado.
Nosotros buscaremos calcular las probabilidades que la variable toma en un
conjunto especı́fico, por ejemplo la probabilidad que X ≤ x0 para x0 un valor
real fijado. Es decir lo que queremos es conocer la probabilidad de {ω ∈ Ω :
X(ω) ≤ x0 }, es decir calcular P({ω ∈ Ω : X(ω) ≤ x0 }). Pero para ello se
requiere que el conjunto en cuestión sea un evento, es decir que {ω ∈ Ω :
X(ω) ≤ x0 } ∈ B.
6.1 Definición y Propiedades

Definición 24. X : Ω → R es variable aleatoria (v.a.) a valores en R si
∀C ∈ B(R) : {ω ∈ Ω : X(ω) ∈ C} ∈ B,
Notamos {X ∈ C} = {ω ∈ Ω : X(ω) ∈ C}, por lo que X : Ω → R es v.a. si se
tiene {X ∈ C} ∈ B para todo C ∈ B(R). Pero basta que esto se cumpla para
los intervalos semi-infinitos, esto es, Se tiene
X : Ω → R es v.a. ⇔ {X ≤ x} ∈ B ∀ x ∈ R.
(La demostración de ello se encuentra en el Lema 113 del Apéndice 19). Notemos
que {X ≤ x} = {X ∈ (−∞, x]. En lo que sugue tambien notamos {X = a} =
{ω ∈ Ω : X(ω) = a} (también los notaremos (X ≤ x), (X = a)).
38
Nota 6. Sea X : Ω → R una función. Se tiene que {ω ∈ Ω : X(ω) ∈ C} =
X −1 (C) es la imagen inversa de C. La familia de todos los conjuntos es
X −1 (B(R)) = {X −1 (C) : C ∈ B(R)},
es una σ−álgebra en Ω pues la imagen inversa X −1 preserva complementos y

uniones numerables. Luego X es v.a. si X −1 (B(R)) ⊆ B. En este caso se dice
que X −1 (B(R)) es la σ−álgebra de eventos dependiendo de la v.a. X.
Propiedades de variables aleatorias.
Propiedad 25. Sean X, Y v.a.’s y (Xn : n ∈ N) una sucesión de v.a.’s.

Entonces:
• (i) Para a, b ∈ R se tiene aX + bY es v.a. (linealidad) donde aX + bY :

Ω → R, ω → aX(ω) + bY (ω);
• (ii) max(X, Y ), min(X, Y ) son v.a.’s (reticulado) donde max(X, Y ) : Ω →

R, ω → max(X(ω), Y (ω)), lo mismo para min;
• (iii) X · Y es v.a. y si Y 6= 0 entonces X/Y es v.a.;
• (iv) inf n∈N Xn y supn∈N Xn son v.a.’s tomando valores en R ∪ {−∞} y

R∪{+∞} respectivamente, donde inf n∈N Xn : Ω → R, ω → inf n∈N Xn (ω),
lo mismo para sup;
• (v) lim inf Xn , lim sup Xn son v.a.’s aleatorias tomando valores en R ∪
n∈N n∈N
{−∞} y R ∪ {+∞} respectivamente;
• (vi) Si el lı́mite lim Xn existe, entonces lim Xn es v.a.

n→∞ n→∞
La propiedad (ii) sigue de
{max(X, Y ) ≤ x} = {X ≤ x} ∩ {Y ≤ x} ∈ B,
{min(X, Y ) ≥ x} = {X ≥ x} ∩ {Y ≥ x} ∈ B.
Las relaciones (iv) resulta de

\ \
{ inf Xk ≥ x} = {Xk ≥ x} ∈ B, {sup Xk ≤ x} = {Xk ≤ x} ∈ B.
k∈N k∈N
k∈N k∈N
Esto y las igualdades siguientes

lim inf Xk = sup inf(sup Xk , lim sup Xk = inf sup Xk ,
k→∞ n∈N k≥n k→∞ n∈N k≥n
nos dan (v). De aquı́ se deduce (vi).
39
Por otra parte es directo mostrar que,
X v.a., α ∈ R ⇒ α X v.a.. (11)
Si α = 0 se tiene α X = 0 v.a. constante. Si α > 0 entonces {αX ≤ x} = {X ≤

x/α}, y si α < 0 se tiene {αX ≤ x} = {X ≥ x/α}, de donde concluı́mos (11).
En particular se tiene X v.a. implica −X es v.a.. Para probar las propiedades
(i) y (iii) es importante introducir las v.a.’s simples que son aquellas que toman
un conjunto finito de valores.
V.a. constante. La constante Xa ≡ a es dada por Xa : Ω → R, Xa (ω) = a
para todo ω ∈ Ω. Ella es v.a. pues {ω ∈ Ω : Xa (ω) = a} = Ω ∈ B.
Es útil poder descomponer una v.a. como diferencia de sus partes positiva y
negativa.
Definición 26. Para X : Ω → R, definimos
X + = max(X, 0), X − = max(−X, 0). (12)
Observemos que
X = X + − X − , |X| = max(X + , X − ) = X + + X − . (13)
Como la constante 0 es v.a., de (ii) se deduce que si X es v.a. entionces X y

X son v.a.’s. De nuevo por la propiedad (ii) y usando |X| = max(X + , X − ) se
obtiene que |X| es v.a. cuando X lo es.
Nos gustaria describir las funciones g : R → R tal que si X es v.a. entonces

g ◦ X : Ω → R, ω → g(X(ω)) resulta ser v.a. Con este proposito introducimos
la clase de funciones siguientes.
Definición 27. La función g : R → R es Boreliana si para todo C ∈ B(R)
se tiene {x ∈ R : g(x) ∈ C} ∈ B(R). Para ello es suficiente que se cumpla para
los conjuntos C = (−∞, x], x ∈ R.
La familia de funciones Borelianas satisface analogas propiedades a las v.a.’s,
es decir es cerrada para suma, ponderación, mı́nimo, máximo, supremo, infimo,
lı́mite.
Se puede mostrar que si g : R → R es continua, o continua salvo un conjunto
discreto de discontonuidades, entonces es una función Boreliana. Por ejemplo
g(x) = xl , g(x) = ex , son funciones Borelianas.
Por la definicón resulta que
X : Ω → R v.a., g : R → R Boreliana ⇒ g◦X : Ω → R, ω → g◦X(ω) = g(X(ω)) es v.a.

(14)
En efecto, por definición se tiene que para todo C ∈ B(R) se cumple (g ◦
X)−1 (C) = X −1 (g −1 (C)) ∈ B.
40
6.2 Probabilidad inducida
Definición 28. Sea X : Ω → R v.a., se tiene que
P(X ∈ ·) : B(R) → [0, 1], C → P({X ∈ C}) (15)
define una medida de probabilidad en (R, B(R)) que se dice inducida por X y
que tambien se llama la ley (de probabilidad) de X. Ella es una medidad de
probabilidad pues P(X ∈ R) = 1 y para una familia numerable disjunta de
conjuntos Borelianos (Cn : n ∈ N) ⊂ B(R) se cumple
[ X
P(X ∈ Cn ) = P(X ∈ Cn )
n∈N n∈N
pues los conjuntos ({X ∈ Cn } : n ∈ N) están contenidos en B (por ser X v.a.)

y son disjuntos.
La probabilidad inducida tambien la escribiremos PX , es decir
PX : B(R) → [0, 1], C → XX (C) = P({X ∈ C}). (16)
Diremos que X se distribuye según PX y esto se escribe X ∼ PX .
6.3 Independencia de Variables Aleatorias

Definición 29. Sean X1 , .., Xk variables aleatorias. Diremos que ellas son
inpendientes entre sı́ cuando para toda clase de conjuntos Borelianos C1 , .., Ck ∈
B(R) se tiene
k
Y
P(Xl ∈ Cl , l = 1, ..., k) = P(Xl ∈ Cl ).
l=1
Basta que la igualdad anterior se cumpla para los intervalos Cl = (−∞, xl ], l =

1, .., k, es decir X1 , .., Xk son independientes si y solo si para todo x1 , ..., xk ∈ R
se cumple
k
Y
P(Xl ≤ xl , l = 1, ..., k) = P(Xl ≤ xl ). (17)
l=1
Una familia infinita de v.a.’s (Xi : i ∈ N) se dice independiente si para todo n
finito se tiene que las v.a.’s X1 , ..., Xn son independientes.
Funciones Borelianas de v.a. independientes son independientes. Con-

sidere una familia (Xl : l = 1, ..., k) de v.a.’s independientes y sean gl : R → R
funciones Borelianas. Entonces (gl ◦ Xl : l = 1, ..., k) son v.a. independientes.
En efecto para todo Cl ∈ B(R), l = 1, ..., k, se tiene
k
Y
P(gl ◦ Xl ∈ Cl , l = 1, ..., k) = P(Xl ∈ gl−1 (Cl ), l = 1, ..., k) = P(Xl ∈ gl−1 (Cl ))
l=1
k
Y
= P(gl ◦ Xl ∈ Cl ).
l=1
41
donde en la penúltima igualdad se usa la independencia de X1 , ..., Xk .
Independencia para familia infinita de v.a.’s. Una familia infinita de v.a.’s
discretas (Xi : i ∈ N) a valores en I se dicen independientes si para todo n finito
se tiene que las v.a.’s X1 , ..., Xn son independientes.
42
7 Variables aleatorias discretas
Recordemos que en la definición 24 dimos la condición para que una función
X : Ω → R sea una v.a. Ellq se llamará discreta si toma valores en un conjunto
numerable de valores, es decir si su conjunto imagen X(Ω) = {X(ω) : ω ∈ Ω}
es numerable. Sea X : Ω → R una función que toma un conjunto numerable de
valores I = X(Ω). Entonces ella es v.a. si y solo si satisface
{X = a} ∈ B para todo a ∈ I. (18)
En efecto, para todo C ∈ B(R) se tiene

[
{X ∈ C} = {X = a}, (19)
a∈C∩I
y como este conjunto es una unión finita de conjuntos en B, deducimos el está

en B. Observemos que puede ser vacı́o cuando C ∩ I = ∅.
Nota 4. Sea I ⊂ R un conjunto numerable y X : Ω → I una función. Para

J ⊆ I, se tiene {X ∈ J} = X −1 (J) = {ω ∈ Ω : X(ω) ∈ J} y la la familia de
conjuntos
X −1 (P(I)) = {X −1 (J) : J ⊆ I},
es una σ−álgebra en Ω pues la imagen inversa X −1 preserva el complemento y
las uniones numerables. Luego la propiedad de que X sea v.a. equivale a decir
que X −1 (P(I)) ⊆ B. En este caso se dice que X −1 (P(I)) es la σ−álgebra de
eventos dependiendo de la v.a. X.
Las v.a. discretas X que toman un número finito de valores, es decir tal que su
rango X(Ω) es finito, se les llama v.a. simples. Ejemplos de v.a. simples son
las v.a. constantes y las v.a. indicadoras.
Las funciones indicadoras Para A ⊆ Ω su función indicadora 1A : Ω → {0, 1}

es definida por (
1 si ω ∈ A,
1A (ω) =
0 si ω 6∈ A.
Se tiene que X = 1A es una v.a. (a valores en I = {0, 1} si y solo si A ∈ B. En
efecto si esto se satisface se tiene {X = 1} = A ∈ B, {X = 0} = Ac ∈ B por ser
B cerrada por complemento. Ello tambien nos dice que la condición de v.a. se
cumple solo en el caso A ∈ B.
Observemos que 1Ω donde 1Ω (ω) = 1 para todo ω ∈ Ω por lo que la v.a constante
Xa se escribe Xa = a 1Ω .
Sea X : Ω → R v.a. discreta con I = X(Ω) (numerable). Observemos que al
tomar
{X = a} = {ω ′ ∈ Ω : X(ω ′ ) = a} ∈ B, a ∈ I,
43
la v.a. X discreta puede ser escrita en términos de indicadoras como sigue
X
X= a 1{X=a} . (20)
a∈I
Esta igualdad se muestra como sigue: para ω0 ∈ Ω tomemos a0 = X(ω0 ) ∈ I.

Entonces 1{X=a} )(ω0 ) = P 1 si y solo si a = a0 (para todo a 6= a0 se tiene
1{X=a} )(ω0 ) = 0). Luego a∈I a 1{X=a} (ω0 ) = a0 = X(ω0 ) y esto es para todo
ωo ∈ Ω, de donde se tiene la igualdad de funciones (103).
Las propiedades de variables aleatorias discretas son las establecidas para las
v.a.’s generales enunciadas en la Propiedad 25. Notemos que si X, Y son v.a.’s
discretas y a, b ∈ R, entonces es directo de verificar que tambien lo son aX + bY ,
max(X, Y ),min(X, Y ), X · Y y X/Y cuando Y 6= 0.
Nota 5. Si X, Y son v.a.’s discretas podemos suponer que su conjunto de

llegada es el mismo, en efecto si X : Ω → I, Y : Ω → J entonces X : Ω → I ∪ J,
Y : Ω → I ∪ J, siendo I ∪ J conjunto numerable. Esto tambi’en vale si se tiene
una familia numerable de v.a. discretas (Xl : l ∈ L) siendo L finito ó numerable
S En efecto, si Xl : Ω → Il para l ∈ L, entonces Xl : Ω → K siendo
infinito.
K = l′ ∈L Il′ un conjunto numerable.
Si X : Ω → I es v.a. discreta entonces ella induce la medida de probabilidad en

R que fue introducida en la Definición 28 y que pueden verse en (15) y (16). En
este caso se tiene PX (I) = P(X ∈ I) = 1 y ella está dad por la densidad discreta
P = a), a ∈ I. Ella es una densidad
pX (a) = P(X S discreta pues pX (a) ≥ 0 para
a ∈ I, y a∈I pX (a) = 1, esto último pues i∈I {X = i} = {X ∈ I} = Ω.
Notemos que
X X
∀J ⊆ I : P(X ∈ J) = P(X = i) = pX (i).
i∈J i∈J
Ası́ pues, una variable discreta X está caracterizada por su conjunto de llegada
I y por la densidad discreta pX . Diremos que X se distribuye según pX y esto
se escribe X ∼ pX .
Proposición 30. Consideremos X : Ω → I una v.a. discreta y g : I → R

una función. El conjunto imagen de I por g es notado J = g(I). Entonces
Y = g ◦ X = g(X) : ω → Y (ω) = g(X(ω)) es una v.a. discreta a valores en J y
su densidad discreta pY está dada por: para b ∈ J = g(I),
X X
pY (b) = P(Y = b) = P(g(X) = b) = P(X = a) = pX (a).
a∈I:g(a)=b a∈I:g(a)=b
S
Prueba: Es directa pues {g(X) = b} = a∈I:g(a)=b {X = a} y la unión es
disjunta.
44
Ejemplo 1.1. Consideremos X la v.a. que es el resultado del lanzamiento de un
dado equilibrado, en este caso I = I6 = {1, ..., 6} y pX (i) = 1/6 para i ∈ I6 .
Supongamos que g : I6 → R con g(i) = 1 si i es par y g(i) = 0 si i es impar.
Entonces J = g(I) = {0, 1} y la v.a. Y = g ◦ X es tal que Y (ω) = g(X(ω)) = 1
si el valor del dado X(ω) es par y Y (ω) = 0 si el valor X(ω) es impar. Luego
pY (1) = pX (2) + pX (4) + pX (6) = 1/2, pY (0) = pX (1) + pX (3) + pX (5) = 1/2,
asi que Y corresponde al lanzamiento de una moneda equilibrada.
Independencia de Variables Aleatorias Discretas. Sean X1 , .., Xk vari-

ables aleatorias discretas a valores en I. La definición 29 de independencia de
v.a.’s puede escribirse de manera más directa cuando X1 , .., Xk son v.a. discre-
tas. En este caso ellas son independientes entre sı́ cuando para toda k−tupla
de elementos i1 , .., ik en I se tiene
k
Y
P(Xl = il , l = 1, ..., k) = P(Xl = il ),
l=1
(esto es P(X1 = i1 , X2 = i2 , ..., Xk = ik ) = P(X1 = i1 )P(X2 = i2 ) · · · P(Xk =

ik )).
Hemos notado pXl (i) la densidad discreta de la v.a. Xl para l = 1, .., k. Si
escribimos pX1 ...Xk (i1 , .., ik ) = P(Xl = il , l = 1, ..., k) la densidad discreta del
conjunto de variable (X1 , .., Xk ) : Ω → I k , ω → (X1 (ω), ..., Xk (ω)), podemos
escribirla la independencia como,
k
Y
pX1 ...Xk (i1 , .., ik ) = pXl (il ) para todo i1 , .., ik ∈ I.
l=1
Ejemplo 2. Consideremos X la v.a. que es el resultado del lanzamiento de

un dado, en este caso I = {1, ..., 6}. Si el dado es equilibrado su densidad
discreta es la uniforme pX (i) = P(X = i) = 1/6 para i = 1, ..., 6. Si X1 , X2 son
los resultados de dos lanzamientos independientes de un dado, la condición de
independencia es P(X1 = i, X2 = j) = P(X1 = i)P(X2 = j) para i, j = 1, ..., 6, y
como las densidades son uniformes se tiene P(X1 = i, X2 = j) = (1/6)2 = 1/36.
Luego la densidad discreta pX1 ,X2 de la pareja de dados (X1 , X2 ) es la uniforme
pX1 ,X2 (i, j) = 1/36 en I 2 = {1, ..., 6}2 .
Funciones de v.a. independientes son independientes. Considere una

familia (Xl : l = 1, ..., n) de v.a.’s discretas a valores en I y gl : I → R fun-
ciones para l = 1, ..., n. Entonces (gl ◦ Xl : l = 1, ..., n) son v.a. discretas
independientes. En efecto para todo jl ∈ gl (I), l = 1, ..., n, se tiene
P(gl ◦ Xl = jl , l = 1, ..., n) = P(Xl ∈ gl−1 {il }, l = 1, ..., n)

Yn Y n
= P(Xl ∈ gl−1 {il }) = P(gl ◦ Xl = jl ).
l=1 l=1
45
Independencia de las indicadoras. Considere A1 , ..., An ∈ B y sus fun-
ciones indicadoras X1 = 1A1 , ..., Xn = 1An . Mostremos que ellas son inde-
pendientes si y solo si los conjuntos A1 , ..., An son independientes. En efecto
{X1 = i1 , ..., Xn = in } = B1 ∩ .... ∩ Bn siendo Bk = Ak si ik = 1 o Bk = Ack
si ik = 0 para k = 1, ..., n. Luego la equivalencia resulta de la definición de
independencia para conjuntos y de la igualdad
P(X1 = i1 , ..., Xn = in ) = P(X1 = i1 ) · · · P(Xn = in )

⇔ P(B1 ∩ .... ∩ Bn = P(B1 ) · · · P(Bn ).
7.1 Familias de variables aleatorias discretas

I. Bernoulli. Sea p ∈ [0, 1]. La v.a. X es Bernoulli(p) si X : Ω → {0, 1} (toma
dos valores) y verifica
P(X = 1) = p, P(X = 0) = 1 − p.
Ası́ pues
P(X ∈ {0, 1}) = P(X1 ) + P(X = 1) = 1.
La densidad discreta está dada por
pX (1) = P(X = 1) = p, pX (0) = P(X = 0) = 1 − p.
A menudo diremos que el estado 1 es éxito y el estado 0 es fracaso. Si se lanza

una moneda y cara es éxito le asignamos el valor 1 y al sello se le asigna el valor
0. En este caso p es la probabilidad que en un lanzamiento la moneda salga
cara. La moneda es equilibrada si p = 1/2, es decir si la densidad discreta es
uniforme en {0, 1}.
En el caso p = 1 se tiene que P(X = 1) = 1 es decir X ≡ 1, y si p = 0 se tiene

que P(X = 0) = 1 es decir X ≡ 0. Por lo que el caso no trivial es p ∈ (0, 1).
II. Binomial. Sea p ∈ [0, 1], n ≥ 1. La v.a. X se dice Binomial(n, p) si

X : Ω → {0, 1, .., n} y

n k
P(X = k) = p (1 − p)n−k , k = 0, .., n.
k
Notemos que por la fórmula de expansión del binomio se tiene

n
X n
1 = (p + (1 − p))n = pk (1 − p)n−k ,
k
k=0
luego
P(X ∈ {0, ..., n}) = 1.
46
n

La densidad discreta es pX (k) = P(X = k) = k pk (1 − p)n−k para k = 0, .., n.
En el caso p = 1 se tiene que P(X = n) = 1 es decir X ≡ n, y si p = 0 se tiene

que P(X = 0) = 1 es decir X ≡ 0. Por lo que el caso no trivial es p ∈ (0, 1).
III. Geométrica. Sea p ∈ (0, 1). La v.a. Z se dice Geométrica(p) si Z : Ω →

N = {1, 2, ..} y se tiene
P(Z = n) = (1 − p)n−1 p, n ∈ N = {1, 2, ...}.

P 1
Notemos que al usar la fórmula n≥0 an = 1−a para 0 < a < 1 se obtiene
 
X X
P(Z ∈ N) = P(Z = n) = p  (1 − p)n−1 
n≥1 n≥1
 
X
1 p
= p (1 − p) n
=p = = 1.
1 − (1 − p) p
n≥0
Luego la densidad discreta es PZ (n) = P(Z = n) = p(1 − p)n−1 para n ∈ N.
Las variables Binomial(n, p) y Geométrica(p), pueden obtenerse a partir de lan-

zamientos independientes Bernoulli(p). Se tiene:
Proposición 31. Si X1 , .., Xn son v.a.’s independientes idénticamente dis-

tribuı́das (se abrevia i.i.d.) con Xr ∼ Bernoulli(p) para r = 1, ..., n, entonces
n
X
Xr ∼ Binomial(n, p).
r=1
Pn
Prueba:
Pn Sea X = r=1 Xr . Se tiene X : Ω → {0, .., n}, ω → X(ω) =
r=1 X r (ω). Se tiene que Xr (ω) = 0 ó Xr (ω) = 1, entonces
n
X
Xr (ω) = |{r ∈ {1, ..., n} : Xr (ω) = 1}|}
r=1
es el número de veces que se obtenga un éxito en los n lanzamientos.

Luego X(ω) = k significa que el conjunto de lanzamientos en que se tiene un
éxito, notado
J(ω) = {r ∈ {1, ..., n} : Xr (ω) = 1},
es de cardinal k, es decir J(ω) ∈ P(n, k) (notemos que J(ω)c = {r ∈ {1, ..., n} :
Xr (ω) = 0}). Luego podemos descomponer el evento {X = k} según el conjunto
donde ocurrieron los éxitos por
[
{X = k} = {J(ω) = J},
J∈P(n,k)
47
esto es [
{X = k} = {Xr = 1, r ∈ J; Xr = 0, r ∈ J c }. (21)
J∈P(n,k)
Notemos que la relación anterior prueba que X es v.a. discreta. La unión en

(21) es disjunta por lo que se obtiene,
X
P(X = k) = P(Xr = 1, r ∈ J; Xr = 0, r ∈ J c ).
J∈P(n,k)
Y ahora usamos independencia de las v.a.’s (Xr : r = 1, ..., n) y que P(Xr =

1) = p, P(Xr = 0) = 1 − p, para obtener
Y Y
P(Xr = 1, r ∈ J; Xr = 0, r ∈ J c ) = P(Xr = 1)· P(Xr = 0) = p|J| (1−p)n−|J| ,
r∈J r∈J c
de donde
X
k n−k k n−k n k
P(X = k) = p (1 − p) = |P(n, k)|p (1 − p) = p (1 − p)n−k .
k
J∈P(n,k)
Proposición 32. Si (Xk : k ∈ N) es una sucesión de v.a.’s independientes

idénticamente distribuı́das con Xk ∼ Bernoulli(p) para k ∈ N, entonces
Z = inf{k ∈ N : Xk = 1} ∼ Geométrica(p).
Prueba: Observemos que {Z = 1} ⇔ {X1 = 1}, {Z = 2} ⇔ {X1 = 0, X2 =

1}, y en general
{Z = n} = {Xl = 0 para 1 ≤ l < n, Xn = 1}.
Luego por independencia de las v.a.’s (Xk : k ∈ N) y dado que todos los Xl ∼
Bernoulli(p) se deduce
 
Y
P(Z = n) =  P(Xl = 0) P(Xn = 1) = (1 − p)n−1 p para n ∈ N.
1≤l<n
Esto muestra el resultado.

P Notemos que esto tambien prueba que P(Z = ∞) =
1 − P(Z ∈ N) = 1 − n≥1 (1 − p)n−1 p = 0.
Esto es:
1. Si lanzamos n veces y de manera independiente una moneda con probabilidad
p de éxito, entonces el número de éxitos en los n lanzamientos se distribuye según
48
una Binomial(n,
p), es decir la probabilidad que se obtenga exactamente k éxitos
es nk pk (1 − p)n−k .
2. Si lanzamos de manera indepeniente una moneda con probabilidad p de
éxito y esto lo hacemos de manera indefinida, entonces el momento en que por
primera vez se tenga un éxito se distribuye según una Geométrica(p), es decir
la probabilidad que el primer éxito se obtenga en el n−ésimo lanzamiento es
(1 − p)n−1 p.
Ejemplo 2.1 Los experimentos que son Bernoulli no son asociados exclusiva-
mente a monedas. En efecto supongamos que X1 , X2 son los resultados de
dos lanzamientos independientes de un dado, cada uno de ellos uniforme, ası́
pX1 ,X2 (i, j) = 1/36 es la uniforme en I 2 = {1, ..., 6}2 . Ahora el caso en que el
éxito sea que la suma de estos dos lanzamientos sea 7, definimos la v.a. Y por
Y = 1 si X1 + X2 = 7, Y = 0 en caso contrario.
Consideremos ahora (X1k , X2k ) : k ∈ N) una sucesión de lanzamientos indepen-
dientes de parejas de dados independientes y uniformes, se tiene que la primera
vez que la suma de los dados es 7 es la v.a.
Z = inf{k ≥ 1 : X1k + X2k = 7}.
Se tiene Z ∼Geométrica(1/6). En efecto si uno define la sucesión de v.a.’s

(Yk : k ∈ N) por Yk = 1 si X1k + X2k = 7, Yk = 0 en caso contrario, se tiene que
(Yk : k ∈ N) es una sucesión de v.a.’s i.i.d. con Yk ∼Bernoulli(1/6)por lo que a
Proposición 32 prueba que Z = inf{k ≥ 1 : Yk = 1} es Geométrica(1/6).
Ejercicio 9. Sean (Yk : k =P1, .., m) v.a.’s i.i.d. con P(Yk = 1) = p =
m
1 − P(Yk = −1). Calculemos P( k=1 Yk = 0). Obviamente esta es nula si m es
impar, luego podemos asumir m = 2n es par. Definamos Xk = (Yk + 1)/2, luego
P2n P2n
(Xk : k = 1, .., 2n) i.i.d. Bernoulli(p). Se tiene k=1 Yk = 0 ⇔ k=1 Xk = n.
Luego
X2n
2n n
P( Yk = 0) = (p(1 − p)) para n ∈ N.
n
k=1
Ejercicio 10. Sean 0 < p, q < 1. Sean (X, X1 , .., Xk ) v.a.’s independientes con
X ∼ Binomial(n, p), Xl ∼ Bernoulli(q) para l = 1, .., k. Entonces pruebe que la
v.a. Y definida por
X(ω)
X
Y (ω) = Xl (ω)
l=1
verifica Y ∼ Binomial(pq).
Observemos que Y (ω) = 0 en el caso X(ω) = 0. La v.a. anterior se escribe
PX
Y = l=1 Xl . Para probar esto por probabilidades totales, condicionando en
49
X y usando la independencia se obtiene
n
X m
X n
X m
X
P(Y = k) = P( Xl , X = m) = P( Xl = k | X = m)P(X = m)
m=0 l=1 m=0 l=1
Xn Xm Xn m
X
= P( Xl = k)P(X = m) = P( Xl = k)P(X = m)
m=0 l=1 m=k l=1
Xn
m k m−k n
= q (1 − q) pm (1 − p)n−m
k m
m=k
Xn
n (n − k)!
= (pq)k (p(1 − q))m−k (1 − p)(n−k)−(m−k)
k (m − k)!(n − m)!
m=k
X n − k
n−k
n k
= (pq) (p(1 − q))j (1 − p)(n−k)−j
k j=0
j

n
= (pq)k (p(1 − q) + 1 − p)n−k .
k
Luego se tiene el resultado.
Se cumple:
Proposición 33. Sea Z ∼ Geométrica(p). Entonces se satisface,
P(Z > n) = (1 − p)n para n ≥ 0, (22)
y se cumple la recı́proca, (22) equivale a Z ∼ Geométrica(p).
Además Z ∼ Geométrica(p) cumple la propiedad,
P(Z > n + m|Z > n) = P(Z > m) para n, m ≥ 0 (pérdida de memoria) , (23)
y se cumple la siguiente recı́proca, la condición (23) equivale a Z ∼ Geométrica(p)
con p = 1 − P(Z > 1) = P(Z = 1).
Prueba: Si Z ∼ Geométrica(p) entonces para n ≥ 0 se tiene

X X X
P(Z > n) = P(Z = l) = p(1−p)l−1 = p(1−p)n (1−p)l = (1−p)n .
l≥n+1 l≥n+1 l≥0
Recı́procamente, si P(Z > n) = (1 − p)n para n ≥ 0 entonces se tiene,

P(Z = n) = P(Z > n − 1) − P(Z > n) = (1 − p)n−1 − (1 − p)n = p(1 − p)n−1 ,
por lo que Z ∼ Geométrica(p).
Por otra parte, si Z ∼ Geométrica(p), se tiene P(Z > n) = (1 − p)n , lo que
implica P(Z > n + m) = P(Z > n)P(Z > m) y como P(Z > n + m) = P(Z >
n + m, Z > n) se deduce
P(Z > n + m, Z > n) = P(Z > n)P(Z > m).
50
Luego se tiene la propiedad de pérdida de memoria P(Z > n + m | Z > n) =
P(Z > m) para n, m ≥ 0.
Recı́procamente (23) implica que para n > 1 se cumple: P(Z > n) = P(Z >
n − 1)P(Z > 1) y por inducción se obtiene P(Z > n) = P(Z > 1)n para todo
n ≥ 1. Por la primera parte se deduce Z ∼ Geométrica(1 − P(Z > 1)).
IV. Poisson. Sea λ > 0. La v.a. X se dice Poisson(λ) si X : Ω → N0 =

k
{0, 1, 2, ..} y se tiene pX (k) = P(X = k) = λk! e−λ para k ≥ 0. Observemos que
es una densidad discreta bien definida pues,
X X λk
P(X ∈ N0 ) = P(X = k) = ( )e−λ = eλ e−λ = 1.
k!
k≥0 k≥0
Se tiene la siguiente propiedad:
Proposición 34. Si X1 , .., Xk son v.a.’s independientes con Xl ∼ Poisson(λl )

para l = 1, ..., k, entonces
k
X k
X
Xl ∼ Poisson( λl ).
l=1 l=1
(Esto es la suma de Poisson independientes es Poisson cuyo parámetro es la

suma de los parámetros).
Prueba: Por inducción basta mostrarlo para k = 2. Por independencia se

tiene
l
X l
X
P(X1 + X2 = l) = P(X1 = r, X2 = l − r) = P(X1 = r)P(X2 = l − r)
r=0 r=0
l
X λr 1 −λ1 λl−r
= e 2
e−λ2
r=0
r! (l − r)!
l
X r l−r !
(λ1 +λ2 )l −(λ1 +λ2 ) l! λ1 λ2
= e
l! r=0
r!(l−r)! λ1 +λ2 λ1 +λ2
(λ1 +λ2 )l −(λ1 +λ2 )
= e .
l!
Pl l! λ1
Para esta última igualdad se usa r=0 r!(l−r)! pr (1−p)n−r = 1, con p = (λ1 +λ2 ) ,
λ2
1−p= (λ1 +λ2 ) . Luego el resultado se tiene.
Ejercicio 11’. Sea X1 y X2 variables aleatorias independientes con Xi ∼

Poisson(λi ) para i = 1, 2. Se tiene que X1 condicionada al evento {X1 +X2 = n}
se distribuye según una Binomial(n, p) con p = λ1 /(λ1 + λ2 ).
51
En efecto, usando la independencia y la Proposición 34 se tiene,
P(X1 = k, X1 + X2 = n)
P(X1 = k | X1 + X2 = n) =
P(X1 + X2 = n)
P(X1 = k, X2 = n − k) (λk1λ2n−k (λ1 +λ2 ) n!
= = e−(λ1 +λ2 ) e
P(X1 + X2 = n) k!(n − k)! (λ1 + λ2 )n
k n−k
n λ1 λ2
= ,
k λ1 + λ2 λ1 + λ2
lo que prueba el resultado.
Ejercicio 11. Sean (Xn : n ∈ N) v.a.’s i.i.d. Xn ∼ Bernoulli(p). Sea Z v.a.

independiente de (Xn : n ∈ N) con Z ∼ Poisson(λ). Como P(Z < ∞) = 1, la
v.a.
Z(ω)
X
Y (ω) = Xn (ω)
n=0
PZ
está bien definida. Se escribe Y = n=0 Xn . Probemos que Y ∼ Poisson(λ p).
Se tiene
∞
X X
P(Y = k) = P(Y = k | Z = n)P(Z = n) = P(Y = k | Z = n)P(Z = n)
n=0 n≥k
X n! λn −λ
= pk (1 − p)n−k e
k!(n − k)! n!
n≥k
 
(p λ)k −λ p  X 1 (p λ)k −λ p
= e ((1 − p)λ)m e−λ (1−p)  = e .
k! m! k!
m≥0
Ejercicio 11’. Sea X1 y X2 variables aleatorias independientes con Xi ∼

Poisson(λi ) para i = 1, 2. Se tiene que X1 condicionada al evento {X1 +X2 = n}
se distribuye según una Binomial(n, p).
Las v.a. Poisson se puede aproximar por Binomiales. Enunciemos la propiedad:
Proposición 35. Para n ≥ 1 toememos la sucesión p(n) > 0 tal que

lim np(n) = λ > 0. Sea (Xn : n ≥ 1) una sucesión de v.a.’s con Xn ∼
n→∞
Binomial(n, pn ). Entonces se tiene
λk −λ
lim P(Xn = k) = e para k ≥ 0,
n→∞ k!
es decir este lı́mite es una Poisson(λ).
52
Prueba: Se tiene
1 n!
P(Xn = k) = p(n)k (1 − p(n))n−k .
k! (n − k)!
Como p(n)/(λ/n) → 1 si n → ∞, se obtiene,
lim (1 − p(n))n−k = e−λ .

n→∞
Ahora usemos la aproximación de Stirling
Ce−n nn+1/2
lim = 1,
n→∞ n!
donde 0 < C < ∞ es constante, para probar
k−1
!
n! Y n−l
lim p(n)k = lim (p(n) n)k = λk .
n→∞ (n − k)! n→∞ n
l=0
Y se obtiene el resultado.
Apéndice 0: Prueba de Fórmula de Stirling. Se tiene
Ce−n nn+1/2
lim = 1.
n→∞ n!
Como log x es creciente se tiene para k ≥ 1,
Z k Z k+1
log x < log k < log x.
k−1 k
Pn
Como log n! = k=1 log k, (x log x − x)′ = log x se obtiene,
Z n Z n+1
n log n − n = log x dx < log n! < log x dx < (n + 1) log(n + 1) − n.
0 1
Definamos dn = log n! − (n + 21 ) log n + n. Se tiene

1 n+1
dn − dn+1 = (n + ) log − 1.
2 n
Como
1
n+1 1 + 2n+1
= 1 ,
n 1 − 2n+1
P
t2l+1
y usando la expansión 12 log 1−t
1+t
= l≥0 (2l+1) se obtiene
X t2l 1 X 2l 1
dn −dn+1 = ≤ t = = (12n)−1 −(12(n+1))−1 .
(2l + 1) 3 3((2n + 1)2 − 1)
l≥1 l≥1
53
De estas últimas relaciones se deduce dn decreciente y dn − (12n)−1 creciente.
Luego existe C = lim dn y es finito. Concluı́mos que
n→∞
n!
1 → 1 si n → ∞.
C nn+ 2 e−n
Multinomial. Introduciremos la Multinomial a traves de una ruleta, que la

suponemos una circunferencia de largo 1, la que está dividida en k arcos que
los notaremos i = 1, ..., k, y donde sus largos son p1 , ..., pk respectivamente. Ası́
pues si uno da una vuelta a la ruleta el arco que es seleccionado lo notamos
por la v.a. Y siendo {Y = i} el evento en que se cae en el arco i−ésimo. La
probabilidad de caer en el arco i es pi . es decir P(Y = i) = pi para i = 1, ..., k.
Demos n vueltas independientes de la ruleta y los arcos en que caen los notamos
por las v.a.’s (Yl : l = 1, ..., n). Sea Xi el número de veces que en estas vueltas
de ruleta se cae en el arco i, es decir
Xi = |{l ∈ {1, ..., n} : Yl = i}| para i = 1, ..., k.
Como el número de total de vueltas de la ruleta es n se tiene

k
X
Xi = n.
i=1
Pk
Proposición 36. Para n1 , ..., nk enteros no-negativos tal que i=1 ni = n
se satisface
n!
P(X1 = n1 , X2 = n2 , ..., Xk = nk ) = pn1 pn2 · · · pnk k . (24)
n1 !n2 ! · · · nk ! 1 2
Por esta relación se dice que (X1 , ..., Xk ) ∼Multinomial(n, p1 , ..., pk ).
Prueba: Lo haremos por inducción sobre k ≥ 1. Para k = 1 se tiene pues en

este caso p1 = 1, n1 = n. Ahora sea k > 1, se tiene,
P(X1 = n1 , X2 = n2 ..., Xk = nk ) = P(X2 = n2 ..., Xk = nk |X1 = n1 )P(X1 = n1 ).

Pn (25)
Se tiene que Xi = l=1 Wl donde Wl = 1 si Yl = i y Wl = 0 si Yl 6= i. Las
v.a.’s (Wk : l = 1, ..., n) son i.i.d. con Wl ∼ Bernoulli(pi ) pues P(Wl = 1) =
P(Yl = i) = pi . Por ser Xi una suma de n v.a.’s Bernpoulli(pi ) independientes,
de la Proposición 31 deducimos Xi ∼Binomial(n, pi ). Luego
P(X1 = n1 , X2 = n2 ..., Xk = nk ) (26)

n n1
= P(X2 = n2 ..., Xk = nk |X1 = n1 ) p (1 − p1 )n−n1 .
n1 1
Ahora bien, en el evento {X1 = n1 }, el número de vueltas de la ruleta en
que no se cae en el arco 1 es n − n1 . Sabemos que ellas deben caer en los arcos
54
2, .., k, y ellas son independientes y caen en tales arcos 2, ..., k con probabilidades
condicionadas a no caer en el arco 1, esto es con probabilidades respectivas
P(Y = 2|Y 6= 1) = p2 /(1 − p1 ), ..., P(Y = k|Y 6= 1) = pk /(1 − p1 ).
Luego, vale el argumento inductivo para k − 1 arcos, con n − n1 lanzamientos,

dividido entre n2 ,..,nk y con las probabilidades condicionales pi /(1 − p1 ) para
i = 2, ..., k. Aplicando (24) obtenemos
(n − n1 )! n1 n2
P(X2 = n2 ..., Xk = nk |X1 = n1 ) = p p · · · pnk k (1 − p1 )−(n−n1 ) .
n2 ! · · · nk ! 1 2
Luego combinando esta igualdad con (25) y (26), se prueba que (24) se satisface
para k.
7.2 Suma de v.a.’s independientes y convolución

Proposición 37. Sean X, Y v.a.’s independientes a valores en Z. Entonces,
la densidad pX+Y de X + Y verifica pX+Y = pX ∗ pY , donde
X
(pX ∗ pY )(i) = pX (k)pY (i − k), i ∈ Z
k∈Z
es la convolución de pX y pY .
Prueba: Se tiene,
X X
pX+Y (i) = P(X + Y = i) = P(X = k, Y = i − k) = P(X = k)P(Y = i − k)
k∈Z k∈Z
X
= pX (k) pY (i − k),
k∈Z
S
En la segunda igualdad usamos la igualdad {X +Y = i} = k∈Z {X = k, Y = i−
k} siendo esta unión disjunta, y en la tercera igualdad usamos la independencia
de X e Y . Hemos probadopX+Y = pX ∗ pY .
La convolución de las densidades discretas de probabilidad p y q en Z es
X
(p ∗ q)(i) = p(k)q(i − k), i ∈ Z.
k∈Z
Se tiene que p ∗ q es densidad de probabilidad en Z pues es no-negativa y se

tiene
! ! 
X X X X X
p ∗ q(i) = p(k) q(i − k) = p(k)  q(j) = 1.
i∈Z k∈Z i∈Z k∈Z j∈Z
55
donde hicimos el cambio de ı́ndice j = i − k. La convolución ∗ es conmutativa,
asociativa y su elemento neutro es la densidad discreta δ0 , dada por δ0 (i) = 0
si i 6= 0 y δ0 (0) = 1.
Si p, q estaán concentradas en N0 , es decir se cumple p(i) = q(i) = 0 cuando
i < 0, entonces p ∗ q tambi’én está concentrada en N0 y se tiene
i
X
(p ∗ q)(i) = p(k)q(i − k), i ∈ N0 .
k=0
Luego, el hecho que ∗ es conmutativa, asociativa y con elemento neutro δ0 , se

deduce de la conmutatividad y asociatividad de + en Z y que 0 es su elemento
neutro, es decir que si Y ≡ 0 entonces pY = δ0 pues δ0 (0) = P(Y = 0) = 1.
Si p es densidad discreta en Z notaremos p∗n la densidad discreta dada por
p∗0 = δ0 , p∗1 = p, p∗(n+1) = p∗n ∗ p. Con esta notación escribamos por q la
densidad discreta de Bernoulli(θ) para θ ∈ [0, 1], esto es q(0) = 1 − θ, q(1) = θ.
Entonces las Proposiciones 31 y 37 muestran que q ∗n es la densidad discreta de
Binomial(n, p).
56
8 Función de distribución
Sea X : Ω → R. Su probabilidad inducida PX es
PX : B(R) → [0, 1], C → XX (C) = P({X ∈ C}),
decimos que X se distribuye según PX y se escribe X ∼ PX .

Una propiedad importante (y que no probaremos) es que la medida de probabil-
idad PX queda enteramente definida por sus valores en la familia de intervalos
I = {(−∞, x] : x ∈ R}, es decir por los valores
P(X ≤ x) = PX ((−∞, x]), x ∈ R.
Esto es por la que introducimos la función de distribución asociada a X.
Definición 38. Sea X : Ω → R v.a. Su función de distribución es:

FX : R → [0, 1], FX (x) = P(X ≤ x) = P(X ≤ x).
Se nota X ∼ FX .
Proposición 39. La función de distribución FX : R → [0, 1] verifica las sigu-

ientes propiedades (que son las que caracterizan las funciones de distribución):
(i) FX es creciente: x ≤ y ⇒ FX (x) ≤ FX (y);
(ii) FX es continua por la derecha: FX (x) = FX (x+ ) para todo x ∈ R, donde
FX (x+) = lim+ FX (x + h);
hց0
(iii) El lı́mite siguiente existe FX (+∞) = lim FX (x) y satisface FX (+∞) = 1;

xր∞
(iv) El lı́mite siguiente existe FX (−∞) = lim FX (x) y satisface FX (−∞) = 0.

xց−∞
Prueba: (i) Si x ≤ y entonces {X ≤ x} ⊆ {X ≤ y}, luego FX (x) =

PX P ((−∞, x]) ≤ PX ((−∞, y]) = FX (y).
+
T sucesión 0 < hn ց 0 entonces (−∞, x + hn ] decrece y
(ii) Consideremos una
se tiene (−∞, x] = n∈N (−∞, x + hn ], luego
\
{X ∈ (−∞, x]} = {X ∈ (−∞, x + hn ]}.
n∈N
Por convergencia monotona se obtiene PX ((−∞, x]) = lim PX ((−∞, x + hn ])

n→∞
y concluı́mos FX (x) = lim FX (x + hn ), lo que prueba la continuidad por la
n→∞
derecha.
57
Es analoga a (ii) pues si xn ր +∞ entonces (−∞, xn ] crece y se tiene
(iii) S
R = n∈N (−∞, xn ]. Luego
[
{X ∈ R} = {X ∈ (−∞, xn ]}.
n∈N
Por convergencia monotona se tiene 1 = PX (R) = lim PX ((−∞, xn ]) = lim FX (xn ).

n→∞ n→∞
T Es analoga a (iii) pues si xn ց −∞ entonces (−∞, xn ] decrece y ∅ =

(iv)
n∈N (−∞, xn ]. Luego
\
{X ∈ ∅} = {X ∈ (−∞, xn ]}.
n∈N
Por convergencia monotona se tiene 0 = PX (∅) = lim PX ((−∞, xn ]) = lim FX (xn ).

n→∞ n→∞
La función de distribución FX define únicamente la medida de probabilidad

P(X ∈ ·) en (R, B(R)) que satisfaga PX ((−∞, x]) = F (x) para todo x ∈ R.
Este hecho fundamental no lo probaremos.
Proposición 40. Se tiene

∃FX (x− ) = lim FX (x − h) y se tiene FX (x− ) = P(X < x);
hց0+
FX (x) − FX (x− ) = P(X = x);

FX continua en x ⇔ FX (x− ) = FX (x) ⇔ P(X = x) = 0.
+
Prueba: Para mostrar la primera parte tomemos unaS sucesión 0 < hn ց 0
hn ] crece y se tiene (−∞, x) = n∈N (−∞, x − hn ], luego
entonces (−∞, x − S
{X ∈ (−∞, x)} = n∈N {X ∈ (−∞, x − hn ]}. Por convergencia monotona se
obtiene P(X ∈ (−∞, x)) = lim P(X ∈ (−∞, x − hn ]) y concluı́mos P(X <
n→∞
x) = lim FX (x − hn ).
n→∞
Para las otras propiedades basta notar que P(X = x) = P(X ≤ x) − P(X <
x) = FX (x) − FX (x− ).
El conjunto de puntos de discontinuidad de FX es D(FX ) = {x ∈ R : FX (x) 6=

FX (x− )} = {x ∈ R : P(X = x) > 0}. Probemos que D(FX ) es numerable. Se
tiene
[
D(FX ) = Dn (FX ) con Dn (FX ) = {x ∈ R : P(X = x) ≥ 1/n},
n∈N
luego si Dn ⊆ Dn (FX ) es numerable se tiene por σ−aditividad,

1 X
Dn ≤ P(X = x) = P{X ∈ Dn } ≤ 1,
n
x∈Dn
58
por lo que Dn (FX ) ≤ n es finito. Luego todo conjunto numerable incluı́do
en Dn (FX ) es finito, por lo que Dn (FX ) es finitoy satisface |Dn (FX )| ≤ n. Se
concluye que D(FX ) es numerable por ser union numerable de conjuntos finitos.
V.a. continuas y discretas. Se tiene P(X ∈ D(FX )) ≤ 1. Se tiene:
• Si P(X ∈ D(FX )) = 1 se tiene que X es v.a. discreta tomado valores en

el conjunto numerable D(FX ).
• Si P(X ∈ D(FX )) = 0 se tiene que FX es continua, y esto significa que

P(X = x) = 0 para todo x ∈ R.
Ejercicio 12. Sea X = 0 la v.a. constante X ≡ 0. Entonces FX (x) = P(X ≤

x) = 0 si x < 0 y FX (x) = 1 si x ≥ 0. Luego FX = H la función de distribución
de Heaviside dada por
H(x) = 1 si x ≥ 0, H(x) = 0 si x < 0.
Si X ≡ a entonces FX = H(· − a) la función de Heaviside trasladada en a, luego

H(· − a)(x) = H(x − a) que es 1 si x ≥ a y 0 si x < a.
59
9 Distribuciones absolutamente continuas
Hagamos primero una corta discsuión de conjuntos de medida nula, pues una
parte de los conceptos que introduciremos serán válidos Rsalvo conjuntos de me-
dida nula. Un Rconjunto B ⊂ R se dice de medida nulo si B dx = 0, R o de manera
equivalente si 1B (x)dx = 0. Si B es de medida nula se tiene B h(x)dx = 0
para toda función Boreliana acotada h : B → R. Luego podemos modificar
una función en un conjunto de medida nula, sin que su integral cambie. Los
conjuntos formados por un punto, o por un conjunto finito de puntos, o por un
conjunto numerable de puntos, son conjuntos de medida nula. En general no
distinguiremos entre funciones que difieran en conjuntos de medida nula.
9.1 Función de distribución con densidad

Definición 41. Sea X : Ω → R v.a. Su función de distribución FX : R →
[0, 1] se dice absolutamente continua (a.c.) si existe fX : R → R que verifica
Z ∞
fX ≥ 0, fX (x)dx = 1 (función de densidad)
−∞
y se cumple Z x
∀x ∈ R : FX (x) = fX (u)du.
−∞
fX se le llama la función de densidad de FX . También diremos que la v.a. X
tiee densidad fX y notaremos indistintamente X ∼ FX o X ∼ fX .
Si FX : R → [0, 1] es a.c. entonces es continua: P(X = x) = F (x) − F (x− ) = 0
para todo x ∈ R. La función de densidad fX de FX no es única pues basta
modificarla en conjunto de medida nula (por ejemplo un punto cualquiera) man-
teniendola no-negativa para que siga siendo la función de densidad de FX , estas
funciones serán identificadas.
Si fX es la función densidad de la función de distribución de la función de
distribución a.c.FX entonces
dFX
fX (x) = (x)
dx
para x ∈ R salvo en un conjunto de medida nula.
Propiedad 42. Se tiene

Z x Z
P(X ∈ (−∞, x]) = P(X ≤ x) = FX (x) = fX (u)du = fX (u)du,
−∞ −∞,x]
y en general para todo Boreliano C ∈ B(R) se cumple

Z
P(X ∈ C) = fX (u)du.
C
60
Las funciones de distribución que consideraremos serán las que son discretas o
a.c.’s, esto permite estudiar las que se descomponen en una parte discreta y otra
a.c.
Ahora veamos una clase espacial de v.a.’s a.c.

I. Densidad Uniforme.
Definición 43. La v.a. U : Ω → R se dice v.a. Uniforme (0, 1) si tiene

función de densidad fU = 1(0,1) , esto es
(
1 si u ∈ (0, 1);
fU (u) =
0 si u 6∈ (0, 1).
Notaremos U ∼ Uniforme(0, 1). Su función de distribución es



0 si x ≤ 0;
FU (x) = x si x ∈ [0, 1];


1 si x ≥ 1.
Es decir ella es 0 antes ó en 0, es lineal en (0, 1) y despues es 1. Una modifi-

cación de fU en un conjunto de medida nula es en los puntos {0, 1}, por ejemplo
fU = 1[0,1] define la misma función de distribución FU .
Nota. La v.a. U ∼ Uniforme(0, 1) es la que se simula cuando se escoge un
número al azar en (0, 1).
Sean U ∼ Uniforme(0, 1), α ∈ R, β > 0. Consideremos la v.a. X = α + βU .

Ella tiene función de distribución dada por
FX (x) = P(X ≤ x) = P(α + βU ≤ x) = P(U ≤ β −1 (x − α)).
Luego


0 si x < α;
FX (x) = FU (β −1 (x − α) = β −1 (x − α) si x ∈ [α, α + β];


1 si x ≥ α + β.
Y se deduce que X es v.a. a.c. con densidad

fX (x) = dFX dx(x) = β −1 1(α,α+β) .
Escribimos X ∼ Uniforme(α, α + β).
Sea F : R → [0, 1] una función de distribución, es decir creciente, continua por

la derecha con F (+∞) = 1, F (−∞) = 0. Su función inversa F −1 : [0, 1] →
R ∪ {−∞, ∞}, u → F −1 (u) es definida por
F −1 (u) = inf{x ∈ R : F (x) > u} si u < 1, F −1 (1) = lim F −1 (u). (27)
uր1
61
Cuando F es continua estrictamente creciente en R entonces es una biyección
en R y existe su función inversa, la que coincice con F −1 definida en (27).
Propiedad 44. Sea F : R → [0, 1] una función de distribución. Sea U v.a.

∼ Uniforme(0, 1). Entonces la v.a. X = F −1 (U ) verifica FX = F .
Prueba: Solo lo haremos en caso en que F es continua estrictamente creciente.

Por ser U ∼ Uniforme(0, 1) se tiene FU (u) = u para u ∈ [0, 1]. Como FU (u) = u
para u ∈ [0, 1] se tiene,
F (x) = FU (F (x)) = P{U ≤ F (x)} = P{F −1 (U ) ≤ x} = P(X ≤ x) = FX (x).
Donde en la tercera igualdad se usa que F es biyectiva y creciente y F −1 tiene

estas mismas propiedades. Hemos probado que la v.a. X = F −1 (U ) verifica
FX ∼ F .
Nota. Ası́ pues para simular una v.a. X cuya distribución sea F , se escoge
un número al azar en (0, 1) con una v.a. U ∼ Uniforme(0, 1) y luego se toma
X = F −1 (U ).
Antes de continuar con introducir clases de v.a.’s a.c. veamos que ocurre con
funciones de estas v.a.’s.
Propiedad 45. Sea X v.a. a.c. con función de densidad fX . Sea SX =

{x ∈ R : fX (x) > 0}. Entonces P(X ∈ SX ) = 1.
c
Prueba: Se tiene fX (x) = 0 si x ∈ SX , por lo que
Z
c
P(X ∈ SX )= fX (x)dx = 0,
c
SX
c
de donde 1 = P(X ∈ R) = 1 − P(X ∈ SX ) = P(X ∈ SX ).
Uno puede modificar fX en un conjunto de medida nula, en particular en un
conjunto finito de puntos y para esta modificaión de tendraá la misma propiedad
de la Propiedad 45. Para un conjunto C que verifica P(C) = 1 siempre se puede
definir fX (x) = 0 para x 6∈ C.
9.2 Teorema de Cambio de variables

Demos este teorema es su generalidad:
Teorema 46. Sea X v.a. a.c. con función de densidad fX . Sea D abierto
con P(X ∈ D) = 1. Sea h : D → R función a derivada continua tal que
62
h′ (x) 6= 0 para x ∈ D. Entonces, la v.a. Y = h(X) es a.c. y su función de
densidad fY verifica
X
∀y ∈ h(D) : fY (y) = |h′ (xy )|−1 fX (xy ), (28)
xy ∈h−1 {y}
∀y 6∈ h(D) : fY (y) = 0. (29)
(El sentido de esta fórmula estará claro en la demostración, insistimos en que

los puntos xy ∈ h−1 {y} son los que están en la preimagen de {y} por h, es decir
son aquellos puntos en D que verifican h(xy ) = y). En el caso h inyectiva se
tiene
∀y ∈ h(D) : fY (y) = |h′ (h−1 (y))|−1 fX (h−1 (y)). (30)
Prueba: Notemos que P(X ∈ D) = 1, h : D → R, Y = h(X), luego P(Y ∈

h(D) = 0 por lo que podemos tomar fY (y) = 0 para y 6∈ h(D).
Ahora bien, se tiene
FY (y) = P(Y ≤ y) = P(h(X)) ≤ y). (31)
Primero probemos el caso D = R, h : R → R inyectiva, como h(x) 6= 0 para

x ∈ R, se cumple que ó bien h es creciente ó decreciente en todo R. Además
como h′ 6= 0 en R implica que h es estrictamente creciente ó estrictamente
decreciebte pues h′ > 0 ó h′ < 0.
Si h es creciente se tiene h(x) ≤ y si y solo si x ≤ h−1 (y), por lo que en (31)
queda
FY (y) = P(X ≤ h−1 (y)) = FX (h−1 (y))
y derivando se obtiene,
∀y ∈ h(D) : fY (y) = h′ (h−1 (y))−1 fX (h−1 (y)).
lo que prueba a (30) pues h′ > 0

Si h es decreciente se tiene h(x) ≤ y si y solo si x ≥ h−1 (y), por lo que en (31)
se tiene,
FY (y) = P(X ≥ h−1 (y)) = 1−P(X < h−1 (y)) = 1−P(X ≤ h−1 (y)) = 1−FX (h−1 (y)).
La penúltima igualdad pues por ser FX continua se tiene P(X = h−1 (y)) = 0.
Derivando el primer y último término de la cadena de igualdades se obtiene,
fY (y) = −h′ (h−1 (y))−1 fX (h−1 (y)) = |h′ (h−1 (y))−1 |fX (h−1 (y)).
Luego hemos probado el resultado (30).

El caso general (28) no lo probaremos, Para entender el caso no inyectivo tomare-
mos el siguiente caso:
63
Caso h(x) = x2 . Se tiene Y = h(X) = X 2 . Dado que h′ (x) = 2x se cumple
h′ (0) = 0. Tomemos D = R \ {0}, h : R \ {0} → R, x → h(x) = x2 . Como una
X v.a. a.c. verifica P(X = 0) = 0, se cumple P(X ∈ D) = 1. Notemos que en
este dominio D se verfica las hipotesis del teorema, pues h′ (x) 6= 0 para x ∈ D.
Se tiene Y ≥ 0 y se tiene,
FY (0) = P(Y ≤ 0 = P(Y = 0) = P(X = 0) = 0 para y ≤ 0.
Luego podemos suponer y > 0. Se satisface

√ √ √ √
FY (y) = P(X 2 ≤ y) = P(− y ≤ X ≤ y) = P(X ≤ y) − P(X < − y)
√ √
= FX ( y) − FX (− y),
√ √
otra vez usamos P(X < − y) = P(X ≤ − y). Luego, derivando se obtiene
√ 1 √ 1
fY (y) = fX ( y) √ + fX (− y) √ .
2 y 2 y
√ √ √
Como h−1 {y} = { y, − y} y se verifica |h′ (xy )|−1 = 1/(2 y), luego que la
relación (28) se verifica en este caso.
Ejercicio 13. Sea X v.a. a.c. y consideremos Y = α+βX con β 6= 0. Entonces

h(x) = α+βx que es biyectiva y se tiene h−1 (y) = (y −α)/β y |h′ (h−1 (y))| = |β|
de donde
−1 y−α
∀y ∈ R : fY (y) = |β| fX .
β
9.3 Familias de densidades

Además de la Uniforme introduzcamos otras familias de v.a.’s con densidades.
II. Densidad Normal N(µ, σ 2 ) (o Gaussiana (µ, σ 2 )).
Definición 47. Sea µ ∈ R, σ > 0. Sea X : Ω → R v.a.a.c. Se escribe
X ∼ N(µ, σ 2 ) y se le llama Normal(µ, σ 2 ), si su función de densidad verifica
1 (x−µ)2
fX (x) = √ e− 2σ2 .x ∈ R, (32)
2πσ
Luego Z ∼ N(0, 1) (es decir µ = 0, σ = 1) si su densidad satisface
1 x2
fZ (x) = √ e− 2 , x ∈ R. (33)
2π
Por cambio de variables lineal se cumple: si X ∼ N(µ, σ 2 ) entonces Z = (X −
µ)/σ ∼ N(0, 1). Y recı́procamente si Z ∼ N(0, 1) entonces X = µ + σZ ∼
N(µ, σ 2 ).
64
Debemos probar que la fX dada por R(32) efectivamente es una densidad. Como
∞
ella es no-negativa basta mostrar que −∞ fX (x)dx = 1. Por cambio de variables
h(x) = (x − µ)/σ, basta mostrar que,
Z ∞
1 x2
√ e− 2 dx = 1,
2π −∞
es decir que la función no-negativa dada por (33) es densidad.

√ R∞ 2
Con el cambio de variables x → x/ 2 esto equivale a probar que −∞ e−x dx =
√
π.
R∞ 2 √ R∞R∞ 2 2
Por simetrı́a lo anterior equivale a 0 e−x dx = π/2. Esto equivale a 0 0 e−(x +y ) dxdy =
π/4. Por cambio de variables esto equivale a
Z ∞ Z π/2
2
r e−r drdθ = π/4,
0 0
R∞ 2 2 2
esto es, 0
r e−r drdθ = 1/2, lo que se sumple usando d(− 12 e−r ) = r e−r .
Finalmente, del cambio lineal en el Ejercicio 13 se deduce directamente la se-

gunda propiedad involucrada en la definición anterior. En efecto si X ∼ N(µ, σ 2 )
tiene densidad dada por (32), luego Z = (X − µ)/σ ∼ N(0, 1) tiene densidad
dada por (33). Y si Z ∼ N(0, 1) entonces µ + σZ ∼ N(µ, σ 2 ).
La función de distribución de una v.a. Z ∼ N(0, 1) se notará Φ, es decir

Z x
1 y2
Φ(x) = √ e− 2 dy. (34)
2π −∞
Ejercicio 14. Si Z ∼ N(0, 1) entonces Z 2 tiene densidad

√ √ 1 1 z 1
fZ 2 (z) = (fZ ( z) + fZ (− z)) √ = √ e− 2 z − 2 .
2 z 2π
Definimos a esta densidad como la de una chi-cuadrado con un grado de libertad,
se escribe Z 2 ∼ χ21 .
Más adelante, cuando hayamops definido la esperanza y la varianza, probaremos

que si X ∼ N(µ, σ 2 ) entonces µ es la esperanza de X y σ 2 es su varianza.
III. Exponencial.
Definición 48. Sea λ > 0. La v.a. T : Ω → R se dice v.a. Exponencial[λ] y

notaremos T ∼ Exponencial[λ], si es a.c. con función de densidad
fT (t) = λe−λt 1(0,∞) (t),
65
esto es fT (t) = λe−λt si t > 0, fT (t) = 0 si t ≤ 0. Luego T > 0.
Su función de distribución verifica
(
1 − e−λt si t ≥ 0;
FT (t) =
0 si t ≤ 0.
La distribución está determinada por P(T > t) = e−λt para t >≥ 0.
Proposición 49. Si T ∼ Exponencial[λ] verifica la propiedad de pérdida de

memoria
∀t, s ≥ 0 : P(T > t + s | T > t) = P(T > s). (35)
Además las distribuciones Exponenciales son las únicas distribuciones a.c. que
verifican esta propiedad.
Prueba: Como {T > t + s} ⊆ {T > t} la propiedad de pérdida de memoria

equivale a
∀t, s ≥ 0 : P(T > t + s) = P(T > t)P(T > s).
Cuando T ∼ Exponencial[λ], se tiene P(T > t) = e−λt por lo que se verifica (35).
Probemos la recı́proca. Sea T v.a. a.c. que verifica la propiedad de pérdida de
memoria
∀t, s ≥ 0 : P(T > t + s) = P(T > t)P(T > s).
Luego la función ϕ(t) = − log P(T > t) es no-negativa para t ≥ 0, es aditiva,
∀t, s ≥ 0 : ϕ(t + s) = ϕ(t) + ϕ(s),
se anula en t = 0 y satisface ϕ(t) → ∞ si t → ∞. Deducimos que ϕ es
lineal, es decir que existe λ ∈ R tal que ϕ(t) = λt para t > 0, y como ϕ
es nonegativa y positiva en algún punto positivo deducimos que lambda > 0.
Luego P(T > t) = e−λt para t ≥ 0, de donde fT (t) = λe−λt 1(0,∞) (t) y se cumple
el resultado.
Propiedad 50. (a) Si T ∼ Exponencial[λ] entonces λT ∼ Exponencial[1].

(b) Si T1 , .., Tk son independientes con Tl ∼ Exponencial[λl ] para l = 1, .., k
Pk
entonces T = min{T1 , .., Tk } ∼ Exponencial[ l=1 λl ].
Prueba: (a) Si T ∼ Exponencial[λ] entonces T ′ = λT tiene función de densi-

dad fT ′ (t) = fT (t/λ)/λ = e−t para t > 0.
(b) Usando la independencia y Tl ∼ Exponencial[λl ], se obtiene
k
Y
P(min{T1 , .., Tk } > t) = P(Tl > t, l = 1, .., k) = P(Tl > t)
l=1
k
Y Pk
= e−λt = e− l=1 λl t
.
l=1
Luego se tiene el resultado.
66
La función ⌈·⌉ : R → Z, t → ⌈t⌉ llamada el entero superior se define por ⌈t⌉ = n
si t ∈ (n − 1, n]. Observe que si t > 0 entonces ⌈t⌉ ∈ N.
Ejercicio 15. Sea T ∼ Exponencial[λ] entonces ⌈T ⌉ ∼ Geométrica(1 − e−λ ).
En efecto, como T > 0 entonces ⌈T ⌉ ∈ N. Por otra parte para n ≥ 0 se tiene
P(⌈T ⌉ > n) = P(T > n) = e−λn = (1 − p)n con p = 1 − e−λ .
Y de la Proposición 33 se deduce que ⌈T ⌉ ∼ Geométrica(1 − e−λ ).
IV. Gamma.
La función Γ : (0, ∞) → (0, ∞) está definida por
Z ∞
Γ(α) = xα−1 e−x dx,
0
(esta integral es finita para α > 0). Ella verifica
Γ(α + 1) = αΓ(α),
y al iterarla para α = n entero positivo y dado que

√ Γ(1) = 1 se obtiene Γ(n) =
(n − 1)! para n ∈ N. Tambien se tiene Γ(1/2) = π.
Definición 51. Sea α > 0. Se dice que la v.a. X ∼ Gamma[α] si es a.c. y

su función de densidad verifica
1 α−1 −x
fX (x) = x e 1(0,∞) (x).
Γ(α)
Por definición de la función Γ se tiene que fX es función de densidad. Note que

para α = 1 se tiene Gamma[1] = Exponencial[1].
Definición 52. Sea α > 0, β > 0. Se dice Y ∼ Gamma[α, β] si la v.a. Y es

a.c. y su función de densidad satisface
β α α−1 −βy
fy (y) = y e 1(0,∞) (y).
Γ(α)
Se tiene que Gamma[α, 1] = Gamma[α]. Es directo de probar que si Y ∼

Gamma[α, β] entonces βY ∼ Gamma[α], por lo que si X ∼ Gamma[α] entonces
β −1 X ∼ Gamma[α, β]. Luego, las propiedades de la distribución Gamma[α, β]
se deducen directamente de las de una Gamma[α].
Colocando α = 1 se chequea directamente que Gamma[1, β] = Exponencial[β].
Por otra parte del Ejercicio 14 se deduce que si Y ∼ N (0, 1). Se tiene que
Y 2 ∼ Gamma[ 12 , 21 ].
67
10 Vectores aleatorios
A Rk lo dotamos de la σ−álgebra de Borel notada B(Rk ). Ella es la σ−álgebra
generada por la familia de productos de intervalos semi-infinitos, es decir
k
Y
B(Rk ) = σ(Lk ) con Lk = { (−∞, xk ] : x1 , ..., xk ∈ R}.
l=1
Esta σ−álgebra tiene propiedades analogas al caso real k = 1. En particular se

tiene
k
Y
Si Cl ∈ B(R), l = 1, ..., k, entonces C = Cl ∈ B(Rk ).
l=1
Definición 53. Un vector aleatorio (vc.a.) es un conjunto finito de variables

aleatorias reales. Luego, si X1 , .., Xk v.a.’s, entonces
(X1 , .., Xk ) : Ω → Rk , ω → (X1 (ω), ..., Xk (ω))
es un vc.a.y lo llamamos de largo k. Para Cl ∈ B(R), l = 1, ..., k tomemos

Qk
C = l=1 Cl . Se tiene
k
\
{(X1 , .., Xk ) ∈ C} = {Xl ∈ Cl : l = 1, ..., k} = {Xl ∈ Cl } ∈ B,
l=1
Y en general,
∀C ∈ B(Rk ) : {(X1 , .., Xk ) ∈ C} ∈ B. (36)
Arriba hemos notado {ω ∈ Ω : (X1 (ω), .., Xk (ω)) ∈ C} = {(X1 , .., Xk ) ∈ C}.
A continuación notemos por ~x = (x1 , .., xk ), ~y = (y1 , .., yk ) vectores columna de
Rk , que se distinguen de los vectores filas que se escriben ~xt . Un vc.a. de largo
k será notado por X~ = (X1 , .., Xk ) siendo las v.a.’s X1 , .., Xk sus componentes
y siempre será considerado como vector columna.
~ ó la ley
Definición 54. Definimos la probabilidad inducida por el vc.a. X
~ es la medidad de probabilidad en (Rk , B(Rk )) dada
de probabilidad del vc.a. X,
por,
P(X~ ∈ ·) : B(Rk ) → [0, 1], C → P((X1 , .., Xk ) ∈ C), (37)
donde P((X1 , .., Xk ) ∈ C) = P(ω ∈ Ω : (X1 (ω), .., Xk (ω)) ∈ C).
Observemos que la probabilidad inducidas por una v.a. Xl que sea componente
~ se puede recuperar por la ley de probabilidad de este por,
del vc.a. X,
∀Cl ∈ B(R), P(Xl ∈ Cl ) = P(Xl ∈ Cl , Xr ∈ R para r 6= l}.
68
Caso Independiente. Sean X1 , .., Xk v.a.’s independientes entonces X ~ =
(X1 , .., Xk ) es un vc.a. cuya ley de probabilidad en (Rk , B(Rk )) satisface
k
Y k
Y
∀C1 , ..., Ck ∈ B(R), ~ ∈
P(X Ci ) = P(Xl ∈ Cl ),
l=1 l=1
Qk
o de manera más explı́cta P(X1 ∈ C1 , ..., Xk ∈ Ck ) = l=1 P(Xl ∈ Cl ).
~ analogamente a como
Podemos definir la función de distribución para el vc.a. X
lo hicimos para una v.a. Para ello a continuación notamos por ~x = (x1 , .., xk ),
~y = (y1 , .., yk ) vectores columna de Rk , y usamos el siguiente orden en Rk :
~x ≤ ~y si xl ≤ yl para l = 1, .., k. (Cuando queramos notar vectores filas los
escribiremos ~xt ).
~ = (X1 , ..., Xk )
Definición 55. La función de distribución (multidimensional) de X
es la función
~ ≤ ~x) = P(Xl ≤ xl , l = 1, ..., k).
FX~ : Rk → [0, 1], ~x → FX~ (~x) = P(X
Proposición 56. La función de distribución FX~ satisface las propiedades

siguientes (analogas al caso unidimensional):
(i) FX~ es creciente: ~x ≤ ~y ⇒ FX~ (~x) ≤ FX~ (~y );
(ii) FX~ es continua por la derecha: lim .. lim + FX~ (x1 + h1 , .., xk + hk ) =
h1 ց0+ hk ց0
k
FX~ (x1 , .., xk ) para ~x = (x1 , .., xk ) ∈ R ;
(iii) lim .. lim FX~ (x1 , .., xk ) = 1;
x1 ր∞ xk ր∞
(iv) Para cualquier l ∈ {1, .., k} se tiene, lim FX~ (x1 , .., xk ) = 0.
xl ց−∞
Prueba: La demostración de estas propiedades es similar al caso unidimen-

sional.
~ ≤ ~x} ⊆ {X
(i) Si ~x ≤ ~y entonces {X ~ ≤ ~x) ≤ P(X
~ ≤ ~y }, luego F ~ (~x) = P(X ~ ≤
X
~y ) = FX~ (~y ).
(ii) Para i = 1, ..., k, consideremos sucesiones 0 < hni ց 0+ si n ր ∞, entonces
Qk n
Qk T Qk n
i=1 (−∞, xi +hi ] decrece y se tiene i=1 (−∞, xi ] = n∈N i=1 (−∞, xi +hi ].
Y por la propiedad de continuidad monotona se concluye:
k
Y k
Y
~ ∈
P(X ~ ∈
(−∞, xi ]) = lim P(X (−∞, xi + hni ])
n→∞
i=1 i=1
lo que prueba la continuidad por la derecha.
69
(iii) Es analoga a (ii) pues si para todo i = 1, .., k se tiene xni ր +∞ con n → ∞
entonces
[Y k
Rk = (−∞, xni ]
n∈N i=1
y por continuidad monotona se obtiene 1 = P(Xi < +∞, i = 1, ..., k) =

lim P(Xi ≤ xni , i = 1, ..., k).
n→∞
(iv) Es analoga a (iii) pues si para algún l se tiene xnl ց −∞ cuando n ր ∞,

entonces \ Y
∅= (−∞, xln ] × (−∞, xi ].
n∈N i6=l
Por convergencia monotona se obtiene
0 = P(∅) = lim P(Xl ≤ xnl ; Xi ≤ xi para i 6= l).

xn
l ց−∞
De manera similar al caso unidimensional la función de distribución FX~ carac-

teriza de manera única la medida de probabilidad P(X~ ∈ ·) inducida por X ~ en
(R, B(Rk ).
Distribución marginal. La distribución de Xl satisface
∀l = 1, .., k; xl ∈ R : FXl (xl ) = FX1 ,..,Xk (.., ∞, xl , ∞...)

= ... lim lim ...FX1 ,..,Xk (..., yl−1 , xl , yl+1 , ...).
yl−1 ր∞ yl+1 ր∞
~ en la coordenada l.
A FXl se le llama función de distribución marginal de X
10.1 Vectores aleatorios absolutamente continuos

Definición 57. Diremos que la función de distribución FX~ es absolutamente
continua (a.c.) si existe fX~ : Rk → R que verifica
Z ∞ Z ∞
fX~ ≥ 0, .. fX~ (x1 , .., xk )dx1 ..dxk = 1, (38)
−∞ −∞
y Z Z
x1 xk
∀~x = (x1 , ..., xk ) ∈ Rk : FX~ (~x) = .. fX~ (~u)du1 ..duk . (39)
−∞ −∞
A esta función fX~ se le llama función de densidad de FX~ . En este caso también
se dice que el vc.a. X~ es a.c. con función de densidad (conjunta) f ~ .
X
70
Nota: A menudo a fX~ se la llama función de densidad conjunta para diferen-
ciarla de las densidades de las funciones de densidad de sus componentes.
Nota 8. Las propiedades dadas por 38 son las que caracterizan una función de
densidad multidimensional.
~ es a.c. con densidad f ~ se tiene que para C ∈ B(Rk ) se
En el caso en que X X
cumple Z
P(X~ ∈ C) = fX~ (~x)dx1 ...dxk
C
Además para ~x ∈ Rk se verifica
∂ k FX~
fX~ (~x) = (~x).
∂x1 ....∂xk
Se tiene que la función de densidad fX~ de FX~ no es única pues basta modifi-
carla en un punto cualquiera manteniendola no-negativa para que siga siendo
función de densidad asociada a FX~ . En general se puede R modificar en un con-
junto C ∈ B(Rk ) de medida nula, es decir que verifica C dx1 ...dxk = 0 y esta
sigue definiendo la misma función de distribución. En lo que sigue no haremos
particular enfasis sobte esto, solo haremos la identificación.
Al igual que en caso unidimensional, para el vc.a.a.c. X ~ definimos el soporte
SX~ = {~x ∈ Rk : fX~ (~x) > 0}. Se cumple P(X ~ ∈ S ~ ) = 1 pues P(X ~ ∈ Sc ) =
R X ~
X
k
S c f ~
X (~
x )dx 1 ...dx k = 0. Luego para cualquier D ∈ B(R ) con S ~
X ⊆ D se tiene
~
X
~ ∈ D) = 1.
P(X
Notemos que para l = 1, ..., k la función de distribución de Xl está dada por:
para xl ∈ R se tiene
Z ∞ Z xl Z ∞
FXl (xl ) = .. ... f(X1 ,..,Xk ) (u1 , .., ul , .., uk )du1 ..dul ..duk . (40)
−∞ −∞ −∞
Luego la v.a. Xl es a.c. y su función de densidad satisface

dFXl
fXl (xl ) = (xl ) (41)
dx
Z ∞l Z ∞
= ... f(X1 ,..,Xk ) (u1 , ..ul−1 , xl , ul+1 ., uk )du1 ..dul−1 dul+1 ..duk .
−∞ −∞
| {z }
k−1integrales
A FXl y fXl las llamaremos respectivamente la distribución marginal y la den-

sidad marginal en la coordenada l.
En el caso k = 2 se tiene densidad conjunta fX1 ,X2 , la distribución y la densidad
marginales de X1 en x1 son respectivamente
Z x1 Z ∞ Z ∞
FX1 (x1 ) = fX1 ,X2 (x1 , u2 )du2 du1 , fX1 (x1 ) = fX1 ,X2 (x1 , u2 )du2 .
−∞ −∞ −∞
En el caso independiente se tiene la caracterización siguiente,
71
Proposición 58. Sean X1 , .., Xk v.a.’s. Se tiene que ellas son independi-
entes si y solo si las funciones de distribución y la función de densidad conjunta
del vector aleatorio X ~ = (X1 , ..., Xk ) satisfacen:
k
Y
∀~x = (x1 , ..., xk ) ∈ Rk : FX~ (~x) = FXl (xl ). (42)
l=1
~ es vc.a. a.c. entonces las v.a.’s X1 , .., Xk son independientes si y solo si

Si X
k
Y
∀~x = (x1 , ..., xk ) ∈ Rk : fX~ (~x) = fXl (xl ). (43)
l=1
Prueba: Se tiene que X1 , .., Xk son independientes si P(Xl ∈ Cl : l = 1, .., k) =

Qk
l=1 P(Xl ∈ Cl ). Luego tomando Cl = {−∞, xl ] para l = 1, ..., k se deduce que
si X1 , .., Xk son independientes entonces se cumple (42).
Ahora derivando ∂ k /∂x1 ..∂xk se prueba que (42) implica (43). Para la recı́proca
Qk
basta integrar (43) en un conjunto l=1 Cl para probar que
k
Y Z Z k
Y
~ ∈
P(Xl ∈ Cl , l = 1, ..., k) = P(X Cl ) = ... fXl (xl )dx1 ...dxk
l=1 C1 Ck l=1
k Z
Y k
Y
= fXl (xl )dxl = . P(Xl ∈ Cl ).
l=1 Cl l=1
Lo que prueba la independencia.

Nota. De lo anterior se tiene que si X1 , .., Xk son v.a.’s independientes a.c. con
funciones de densidad fX1 , ..., fXk respectivamente, entonces el vector aleatorio
X~ = (X1 , ..., Xk ) tiene función de densidad conjunta
k
Y
fX~ (~x) = fXi (xi ), ~x = (x1 , ..., xk ) ∈ Rk .
i=1
~ = (X1 , .., Xk ) vc.a. a.c. con función de densidad

Ejercicio 18. Sea X
Pk 2
i=1 xi
fX~ (~x) = (2π)−k/2 e− 2 , ~x ∈ Rk ,
entonces X1 , .., Xk son v.a.’s i.i.d. con Xi ∼ N(0, 1). En efecto, se cumple
k
Y 1 x2i
fX~ (~x) = √ e− 2
i=1
2π
72
es decir
k
Y 1 x2i
fX~ (~x) = fXi (xi ) con fXi (xi ) = √ e− 2 .
i=1
2π
Observemos que P la densidad conjunta se escribe en términos de la norma eu-
k
clideana ||~x|| = ( i=1 x2i )1/2 , en efecto
x||2
||~
fX~ (~x) = (2π)−k/2 e− 2 .
10.2 Teorema de cambio de variables multidimensional

Sea D ⊆ Rk abierto y
h : D → Rk , con h = (h1 , .., hk ), hl : D → R, h(~x) = (h1 (~x), .., hk (~x)).
Supondremos que h es continuamente diferenciable en D, esto es

∂hj
∀i, j = 1, .., n ∃ (~x), y es continua en D.
∂xi
Notemos la matriz Jacobiana por
∂hj
∂ h(~x) = ( (~x) : i, j = 1, .., k).
∂xi
El determinante Jacobiano es:
J(~x) = | det ∂ h(~x)|.
Si h(D) ⊆ Rk es abierto y h : D → h(D) es biyectiva con ∂ h(~x) invertible para

todo ~x ∈ D, se tiene J(~x) 6= 0 si ~x ∈ D. En este caso la inversa h−1 : h(D) → D
es a derivadas continuas y se cumple el teorema de cambio de variables: para
todo f : D → R Boreliana se cumple,
Z Z
∀C ∈ B(h(D)) : f (~x)dx1 · · · dxk = f (h−1 (~y ))|J(h−1 (~y ))|−1 dy1 · · · dyk . (44)
h−1 (C) C
En caso J(~x) 6= 0 para ~x ∈ D, se tiene que h : D → h(D) es invertible local-

mente, esto es para todo ~x ∈ D existe ǫ(~x) > 0 tal que la bola abierta Bǫ (~x) cen-
trada en ~x de radio ǫ(~x) está contenida en D y verifica h : Bǫ(~x) (~x) → h(Bǫ(~x) (~x))
es biyectiva.
Recordemos que los vectores y vectores aleatorios los estamos notando como
vectores columnas.
73
~ = (X1 , .., Xk ) vc.a.a.c. con función de densidad f ~ .
Teorema 59. Sea X X
Sea D abierto con P(X ~ ∈ D) = 1. Sea h : D → Rk , ~x → (hl (~x) : l = 1, .., k).
~ ~ = h(X)
Considere el vc.a. Y = (Y1 , ..., Yk ) definido por Y ~ es decir tal que
~ i = 1, ..., k.
Yi = hi (X),
Asuma que h es una función a derivada continua tal que J(~x) 6= 0 para ~x ∈ D.
Asumamos que D se particionar en un conjunto numerable de abiertos (Vi : i ∈
I) tal que h : Vi → h(Vi ) es biyectiva. Entonces, el vc.a. Y ~ = h(X) ~ es a.c. y su
función de densidad fY~ verifica
X
∀~y ∈ h(D) : fY~ (~y ) = |J(~xy~ )|−1 fX (xy ) (45)
−1 (~
~
xy~ ∈h y)
∀~y 6∈ h(D) : fY~ (~y ) = 0. (46)
En particular si h es inyectiva se tiene
∀~y ∈ h(D) : fY~ (~y ) = |J(h−1 (~y ))|−1 fX~ (h−1 (~y )). (47)
Prueba: Si h(D) ⊆ Rk abierto y h : D → h(D) es biyectiva con ∂ h(~x)

invertible para todo ~x ∈ D, deducimos de (44) que para C ∈ B(h(D)) se cumple:
Z
P(Y~ ∈ C) = P(h(X) ~ ∈ C) = P(X ~ ∈ h−1 (C)) = fX~ (~x)dx1 · · · dxk
h−1 (C)
Z
= fX~ (h−1 (~y ))|J(h−1 (~y ))|−1 dy1 · · · dyk .
C
De donde obtenemos (47). La demostración del caso no inyectivo verlo en el

Apunte del Curso de Probabilidades.
Cambo de variables lineal afin. Sea h : Rk → Rk , ~x → h(~x) = A~x + ~b,

una transformación lineal afin con A invertible, entonces h es invertible con
6 0. Se cumple h−1 (~y ) = A−1 (~y −~b). Luego si X
|J(~x)| = | det(A)| = ~ es vc.a. a.c.
con función de densidad conjunta fX~ , entonces el Y~ = AX ~ +~b (con componentes
Pk
Yi = j=1 Ai,j Xj + bi , i = 1, ..., k) es a.c. con función de densidad conjunta
∀~y ∈ Rk : fY~ (~y ) = | det(A)|−1 fX~ (A−1 (~y − ~b)). (48)
Ejercicio 19. Sean X, Y v.a.’s i.i.d. con X, Y ∼ N(0, 1). Luego f( X, Y )(x, y) =
x2 +y 2
(2π)−1 e− 2 . Sean
√ √
V = (X + Y )/ 2, W = (X − Y )/ 2.
Probemos que V, W son v.a.’s i.i.d. con V, W ∼ N(0, 1). Para ello consideremos
√ √
h(x, y) = ((x + y)/ 2, (x − y)/ 2))
74
esto es h(x, y) = A(x, y) siendo (x, y) un vector columna, y A la matriz (de
rotación), √ √
1/√2 1/ √2
A= .
1/ 2 −1/ 2
se cumple (V, W ) = A (X, Y ) (los vectores son columna). Se cumple | det(A)| =
1. Luego la densidad conjunta de (V, W ) es
fV,W (v, w) = fX,Y (A−1 (v, w)).
Se tiene A−1 = A, luego

√ √
h−1 (u, v) = (x, y) con x = (u + v)/ 2, y = (u − v)/ 2.
Finalmente de la fórmula
1
x2 + y 2 = (x + y)2 + (x − y)2 = v 2 + w2 ,
2
v 2 +w2
se deduce fV,W (v, w) = f( X, Y )(v, w) = (2π)−1 e− 2 y se tiene el resultado.
Una generalización directa de este ejercicio es:

Ejercicio 20. Sean X ~ = (X1 , .., Xk ) siendo las v.a.’s X1 , ., Xk i.i.d. Xl ∼
N(0, 1). Sean A una matriz de dimensión k×k, que es ortogonal, es decir verifica
A At = Id = At A, siendo Id la matriz identidad y At la matriz transpuesta de
A, esto es A−1 = At .
~ .., Yk =
Notemos por Al,• la fila l−ésima de A. Entonces, las v.a.’s Y1 = A1,• X,
~
Ak,• X son i.i.d. con Yl ∼ N(0, 1) para l = 1, .., k.
Para probarlo notemos que | det(A) = det(At ) = | det(A−1 )| luego | det(A)| = 1.
Por otra parte si ~y = A~x entonces,
k
X k
X
yl2 = ~y t ~y = ~xt At A~x = ~xt ~x = x2l . (49)
l=1 l=1
Pk 2
Luego, dado que X~ tiene densidad f ~ (~x) = (2π)−k/2 e− l=1 xl /2 , por el teorema
X
~ = AX
de cambio de variables obtenemos que el vector aleatorio Y ~ tiene densidad
Pk k
Y
yl2 /2 2
fY~ (~y ) = (2π)−k/2 e− l=1 = (2π)−1/2 e−yl /2 .
l=1
Y se concluye el resultado.
75
Definición 60. Sean f, g dos funciones de densidad f, g. Su convolución es
Z ∞
f ∗ g(x) = f (x − y)g(y)dy, x ∈ R.
−∞
Se tiene que f ∗ g es una función de densidad pues tomando u = x − y,.

Z ∞ Z ∞ Z ∞
f ∗ g(x)dx = f (u)g(y)dy du = 1.
−∞ −∞ −∞
Es fácil verificar que la convolución ∗ es conmutativa, es decir se cumple

Z ∞
f ∗ g(x) = f (y)g(x − y)dy, x ∈ R.
−∞
La convolución tambien es asociativa.
Propiedad 61. Sean X1 , .., Xk v.a.’s a.c. independientes

P
con funciones
k
de densidad fX1 , .., fXk respectivamente. Entonces Z = i=1 Xi es a.c. con
función de densidad es la convolución de las densidades:
fZ = fX1 ∗ · · · ∗ fXk .
Prueba: Por asociatividad basta probar la propiedad para dos variables aleato-
rias X, Y independientes. Notemos sus funciones de densidad por fX , fY re-
spectivamente. Luego la función de densidad del vector aleatorio (X, Y ) es
fY,Y (x, y) = fX (x) · fY (y) para x, y ∈ R. Consideremos el vector aleatorio
(U, V ) = h(X, Y ) con h(x, y) = (x + y, y) es decir U = X + Y
, V = Y .Se tiene
1 1
que h es una transformación lineal (u, v) = A(x, y) con A = . Como
0 1
1 −1
A−1 = . se tiene
0 1
fU,V (u, v) = fX,Y (u − v, v) = fX (u − v)fY (v).
Como fX+Y = fU es la densidad buscada y ella es la densidad marginal de fU,V
en la primera componente, se tiene
Z ∞ Z ∞
fX+Y (u) = fU (u) = fU,V (u, v)dv = fX (u − v)fY (v)dv = fX ∗ fY (u).
−∞ −∞
Una variable de importancia en estadśtica es la siguiente.

Definición 62. Si X, Z sin variables independientes entre sı́ con X ∼ N(0, 1),
Z ∼ χm entonces
X
T =p
Z/m
es una v.a. que se dice distribuı́da según una t de Student con m grados de
libertad y lo notamos T ∼ tm Student
76
Probar que una v.a. T ∼ tm Student tiene una densidad
−(m+1)/2
Γ((m + 1)/2) t2
fT (t) = √ 1+ .
mπΓ(m/2) m
La v.a. T ∼ tm Student es simétrica (con respecto a 0).
10.3 Densidad Condicional

10.4 Densidad y Esperanza Condicional para v.a.’s disc-
retas
Asumamos k ≥ 2. Sean X1 , .., Xk v.a.’s discretas tomando valores en el conjunto
I ⊂ R. Su densidad discreta es
pX1 ,..,Xk (a1 , .., ak ) = P(X1 = a1 , .., Xk = ak ), a1 , .., ak ∈ I.
La densidad condicional de Xk | X1 = a1 , .., Xk−1 = ak−1 , que llamamos la

densidad condicional de Xk dado X1 = a1 , .., Xk−1 = ak−1 está dada por
pX1 ,..,Xk (a1 , .., ak−1 , b)
P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ) = b ∈ I.
pX1 ,..,Xk−1 (a1 , .., ak−1 )
Se tiene que P(Xk = · | X1 = a1 , .., Xk−1 = ak−1 ) es una densidad discreta en I

pues X
P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ) = 1.
b∈I
Notemos que
P(X1 = b1 , .., Xk−1 = bk−1 , Xk = b | X1 = a1 , .., Xk−1 = ak−1 )

= 1(b1 = a1 , .., bk−1 = ak−1 )P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ). (50)
10.5 Densidad condicional para v.a.’s absolutamente con-

tinuas
Caso bidimensional
Consideremos el vector aleatorio bidimensional (X, Y ) con función de densidad
fX,Y (x, y), x, y ∈ R.
Definición 63. Se define la densidad condicional de Y dado X = x, notada
por fY (· | X = x, que al evaluarla en y ∈ R es
fX,Y (x, y)
fY (y | X = x) =
fX (x)
donde fX (x) es la densidad de X en x.
77
Dado que la densidad marginal de X verifica
Z ∞
fX (x) = fX,Y (x, y)dy,
−∞
swe deduce que la densidad condicional fY (· | X = x es una densidad, es decir

verifica
Z ∞ Z ∞
1 fX (x)
fY (y | X = x)dy = fX,Y (x, y)dy = = 1.
−∞ fX (x) −∞ fX (x)
Caso k−dimensional. Asumamos k ≥ 2. Sean X1 , .., Xk v.a.’s a.c. en R con

densidad conjunta
fX1 ,..,Xk (x1 , .., xk ), (x1 , .., xk ) ∈ Rk .
La densidad condicional de Xk | X1 = x1 , .., Xk−1 = xk−1 , que llamamos la
densidad condicional de Xk dado X1 = x1 , .., Xk−1 = xk−1 y que notamos
fXk (· | X1 = x1 , .., Xk−1 = xk−1 está dada por
fX1 ,..,Xk (x1 , .., xk−1 , xk )
fXk (xk | X1 = x1 , .., Xk−1 = xk−1 ) = , xk ∈ R.
fX1 ,..,Xk−1 (x1 , .., xk−1 )
R∞
Ella es densidad pues fX1 ,..,Xk−1 (x1 , .., xk−1 ) = −∞ fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )dxk
implica Z ∞
fXk (xk | Xl = xl , l = 1, .., k − 1)dxk = 1.
−∞
Extensión en caso bidimensional. Extendamos y profundicemos lo anterior y si

bien lo haremos solo en el caso bidimensional, se extiende directamente al caso
multidiemnsional. Sea (X, Y ) vector aleatorio con función de densidad conjunta
f , cuyo valor en (x, y) ∈ R2 es f (x, y) (la densidad conjunta la notamos f para no
tener confusión en lo que sigue). Las densidades marginales en sus componentes
las notamos f1 y f2 respectivamente. Ası́ pues
Z ∞
f1 (x) = f (x, y)dy.
−∞
Queremos darle sentido a la densidad condicional de (X, Y ) dado X, esta la

notamos f (· | X) y está dada por
f (X, Y )
f (· | X) = .
f1 (X)
Es decir, en el cociente evaluamos la denidad conjunta en en el vector aleatorio
y la densidad marginal se efectua y evalua en la variable alatoria con respecto
a la cual condicionamos. Notemos que a partir de f (·|X) y f1 obtenemos la
densidad conjunta f por
f (x, y) = f (y | x)f1 (x)
78
y la función de densidad marginal f2 de Y está dada por
Z ∞ Z ∞
f2 (y) = f (x, y)dx = f (y | x)f1 (x)dx.
−∞ −∞
La notación introducida nos permite abordar problemas con enunciado como el

que sigue.
Ejercicio. Considere U ∼ Uniforme(1/2, 1), y Y ∼ Exponencial(U ). Calcule la

función de densidad de Y .
La densidad de U es f1 (u) = 21(1/2,1) (u) y la densidad condicional de Y dado
U está dada por
f (y | u) = ue−uy 1(0,∞) (y),
y la función de densidad conjunta de (U, Y ) notada por f es,
f (u, y) = f (y | u)f1 (u) = f (y | u)1(1/2,1) (u)1(0,∞) (y).
Luego f − s(y) = 0 swi y ≤ 0, para y > 0 se tiene,

Z ∞ Z 1
−uy −uy
f2 (y) = ue 1(0,1) (u) = ue du
−∞ 0
Z 1
u 1 1
= − e−uy +( e−uy du
y 1/2 y 0

e −y/2
e−y 1 1 1
= − − 2 e−uy = (y/2 + 1)e −y/2
− (y + 1)e −y
.
2y y y 1/2 y2

Lo anterior también se emplea para combinar variables discretas y absoluta-
mente continuas como ilustramos a continuación.
Ejercicio. Considere U ∼ Uniforme(0, 1), y Y ∼ Bernoulli(U ). Calcule la ley

de probabilidad de Y .
Del enunciado se tiene,
P(Y = 1 | U = u) = u, P(Y = 0 | U = u) = 1 − u.
Luego
Z ∞ Z 1
1
P(Y = 1) = P(Y = 1 | U = u)1(0,1) (u)du = udu =
−∞ 0 2
1
P(Y = 0) = 1 − P(Y = 1) = .
2
79
11 Esperanza de variables aleatorias
La esperanza ó valor esperado de una variable aleatoria la definiremos primero
para las variables aleatorias discretas, y ellas correponden a la linearización
de la probabilidad. Obtendremos ciertas propiedades, creciemte y lineal, que
permitirán extenderesta noción a variables aleatorias generales.
La esperanza o valor esperado de una v.a. X, que se nota E(X), es el valor
medio teórico de la v.a. Para definirla supongamos primero que X : Ω → I es
simple, esto significa que su conjunto de valores I es finito.
Definición 64. Definimos la esperanza o valor esperado de la v.a. X : Ω → I

simple, es decir con I finito, por
X X
E(X) = a P(X = a) = a pX (a). (51)
a∈I a∈I
Nota 65. La esperanza E(X) solo depende de la densidad pX . De hecho si

p = (p1 , .., pk ) es un vector de probabilidad, la media de los valores a1 , .., ak
Pk
reales ponderados por p es m = l=1 ak pk . Luego la esperanza es la media de
los valores tomados por una v.a. simple ponderados por su densidad discreta.
Si Xa ≡ aentonces podemos tomar I = {a} con lo que E(Xa ) = a P(X = a) = a.

Recordemos que para A ∈ B su función indicadora 1A : Ω → {0, 1} está dada
por (
1 si ω ∈ A,
1A (ω) =
0 si ω 6∈ A,
Si X = 1A se tiene E(X) = 1 · P(X = 1) + 0 · P(X = 0), luego E(1A ) = P(A). Es
por ello que se dice que la esperanza extiende la medida de probabilidad desxe
los conjuntos a las v.a.’s.
Si X : Ω → I es una v.a. discreta, usando indicadoras se puede escribir,
X
X= a · 1{X=a} .
a∈I
En efecto, tomemos ω ∈ Ω y supongamos que X(ω) = a0 . Luego ω ∈ {X = a0 }

y se tiene 1{X=a0 } (ω) = 1, y 1{X=a} (ω) = 0 si a 6=P
a0 . De donde al evaluar la
suma del lado derecho en ω nos entrega la igualdad a∈I a1{X=a} (ω) = a0 · 1 =
a0 = X(ω). Luego si X : Ω → I v.a. con I finito se tiene
X X
E( a · 1{X=a} ) = a · P(X = a).
a∈I a∈I
80
Definamos ahora la esperanza para X : Ω → I v.a. discreta donde I ⊂ R es un
conjunto numerable discreto infinito. Siempre que podamos definir la esperanza
esta tendrá la forma X
E(X) = aP(X = a),
a∈I
pero ella toma valores en R ∪ {∞, −∞}.

P
Si I ⊂ R+ , es decir X ≥ 0,la cantidad E(X) = a∈I aP(X = a) ∈ [0, ∞] está
bien definida pudiendo ser ∞ cuando la suma anterior no converge.
P
Si I ⊂ R− , es decir X ≤ 0,la cantidad E(X) = a∈I aP(X = a) ∈ [−∞, 0] está
bien definida pudiendo ser −∞.
Consideremos el caso general X : Ω → I con I ⊂ R numerable infinito.
Tomemos I+ = I ∩ R+ , I− = I ∩ R− . Si
X X
aP(X = a) < ∞ ó (−a)P(X = a) < ∞,
a∈I+ a∈I−
decimos que E(X) existe y se tiene

X X X
E(X) = aP(X = a) + aP(X = a) = aP(X = a),
a∈I+ a∈I− a∈I
la ∪ {−∞, ∞}. Se tiene que E(X) es finita si y solo si

P que toma valores en R P
a∈I+ aP(X = a) < ∞ y a∈I− (−a)P(X = a) < ∞. Como
X X
E(|X|) = aP(X = a) + (−a)P(X = a),
a∈I+ a∈I−
se deduce
E(X) es finita ⇔ E(|X|) < ∞.
De ahora en adelante cuando para una v.a. discreta X escribamos E(X) supon-
dremos que esta esperanza es finita, es decir E(X) ∈ R.
En lo que sigue identificamos la v.a. constante X ≡ a con la constante a.
Ahora definamos la esperanza en el caso general. Si X es v.a. tal que X ≥ 0

entonces se probó en el Apéndice 19 que existe una sucesión creciente de v.a.’s
simples no-negativas (Xn : n ∈ N) tal que X = lim ր Xn . Se define E(X)
n→∞
por,
E(X) = lim ր E(Xn ) ∈ [0, ∞].
n→∞
Se prueba que esta relación define bien la esperanza de X, es decir no depende

de la sucesión de v.a.’s simples no-negativas que converjan en forma creciente a
X.
81
Sea X v.a. Sus partes positivas y negativas son X + = max(X, 0), X − =
max(−X, 0). Se cumple X + ≥ 0 y X − ≥ 0 y X + (ω) > 0 implica X − (ω) = 0,
X − (ω) > 0 implica X + (ω) = 0. Se tiene
X = X + − X −.
Si E(X + ) < ∞ ó si E(X − ) < ∞ se define la esperanza
E(X) = E(X + ) − E(X − ).
Además se satisface
|X| = X + + X − , E(|X|) = E(X + ) + E(X − ).
Luego se tiene E(X) ∈ R finita si y solo si E(|X|) < ∞.
Teorema 66. Para las v.a’s de esperanza finita se verifica las propiedades
siguientes.
(a) E(a) = a, en particular E(E(X)) = E(X) (idempotencia).
(b) Para B ∈ B se tiene E(1B ) = P(B).
(c) Si X, Y tienen esperanza finita y X ≤ Y entonces E(X) ≤ E(Y ) (monótona).
En particular: X ≥ 0 implica E(X) ≥ 0.
(d) Si X, Y v.a.’s de esperanza finita, α, β ∈ R, entonces
E(αX + βY ) = αE(X) + βE(Y ) lineal.
(e) E(X − E(X)) = 0.
(f ) Si X es v.a. simple y h : R → R entonces se satisface
X
E(h(X)) = h(a)P(X = a). (52)
a∈I
Ahora cobnsideremosh : R → R es función convexa, entonces para X v.a. con

esperanza finita se cumple,
h(E((X)) ≤ E(h(X)) desigualdad de Jensen. (53)
Si h es estrictamente convexo la desigualdad es estricta salvo si X es una v.a.
constante.
(g) Se tiene
X ≥ 0, E(X) = 0 ⇒ P(X = 0) = 1 . (54)
En particular E(|X|) = 0 implica P(X = 0) = 1
(h) Si X1 , .., Xn son v.a.’s independientes, entonces
n
Y n
Y
E( Xi ) = E(Xl ). (55)
l=1 l=1
82
Prueba: Las partes (a) y (b) ya fueron hechas.
Sólo desmotraremos el caso de v.a.’s simples. El caso general se prueba en el
Apéndice 20. Se prueba para las v.a.’s no-negativas, luego se extiende al caso
general con la representación X = X + − X − .
Para mostrar las propiedades en el caso
P de v.a.’s simples X,
P Y es útil la escritura
de estas en la forma siguiente X = a∈I a1{X=a} , Y = b∈I b1{Y =b} . Como
[ [
{X = a} = {X = a, Y = b}, {Y = b} = {X = a, Y = b}
b∈I a∈I
se tiene: X X
X= a1{X=a,Y =b} , Y = b1{X=a,Y =b} . (56)
a,b∈I a,b∈I
Y obtenemos,
X X
E(X) = aP(X = a, Y = b), E(Y ) = bP(X = a, Y = b).
a,b∈I a,b∈I
(c) En el caso X ≤ Y se tiene que {X = a, Y = b} = 6 ∅ implica a ≤ b, y se

deduce E(X) ≤ E(Y ).
P
(d) Se tiene αX + βY = a,b∈I (α a + β b)1{X=a,Y =b} luego
X
E(αX + βY ) = (α a + β b)P(X = a, Y = b)
a,b∈I
X X
= α a P(X = a, Y = b) + β b P(X = a, Y = b)
a,b∈I a,b∈I
X X
= α a P(X = a) + β b P(Y = b) = αE(X) + βE(Y ).
a∈I b∈I
(f ) Para la primera S
parte se tiene que h(X) toma valores en h(I). Se tiene la
unión disjunta I = b∈h(I) h−1 {b} (recordemos que a ∈ h−1 {b} si h(a) = b.
Luego.
X X
E(h(X)) = bP(h(X) = b) = b P(X ∈ h−1 {b}))
b∈h(I) b∈h(I)
 
X X X
=  h(a)P(X = a) = h(a)P(X = a).
b∈I a∈h−1 ({b}) a∈I
Si h es convexa para x0 ∈ D existe una recta {(x, a+bx} pasando por (x0 , h(x0 ))
y tal que la curva {(x, h(x)) : x ∈ D} queda sobre la recta, es decir a+bx ≤ h(x)
(en caso h estrictamente convexo la curva está estrictamente sobre la recta
excepto en el punto de interseccón). Como (x0 , h(x0 )) está en la recta se tiene
a + bx0 = h(x0 ), por lo que la condición es
h(x0 ) + b(x − x0 ) ≤ h(x).
83
P
Ahora bien, como E(X) = a∈I aP(X = a), por ser D convexo se tiene E(X) ∈
D, luego podemos tomar x0 = E(X). Evaluemos la relación anterior en la v.a.
X, luego nos queda
h(E(X)) + b(X − E(X)) ≤ h(X).
Tomemos E a estas v.a.’s y usemos las propiedades (b), (c), (d), para obtener
h(E(X)) ≤ E(h(X)).
Si h es estrictamente convexa y P(X − E(X) = 0) < 1 se tendrá P(h(E(X)) +
b(X − E(X)) < h(X)) > 0 y la desigualdad de Jensen será estricta.
P
(g) Como X ≥ 0 se tiene X = a∈I a 1{X=a} para I ⊆ R+ . Como E(X) =
suma∈I a P(X = a) deducimos que si para a > 0 se tiene P(X = a) > 0 entonces
E(X) > 0.
(h). Sean X1 , ..., Xn v.a.’s discretas a valores en I independientes entre sı́.
Qn−1
Luego las v.a.’s X = l=1 Xl , Y = Xn son independientes. De donde, por
un argumento inductivo basta probar el resultado para n = 2. Sean pues X, Y
v.a.’s discretas independientes, esto es
∀a, b ∈ I : P(X = a, Y = b) = P(X = a)P(Y = b).
Usando la representación (56) se tiene

X
X ·Y = a · b 1{X=a,Y =b} .
a,b∈I
Luego,
X X
E(X · Y ) = a · b P(X = a, Y = b) = a · b P(X = a)P(Y = b)
a,b∈I a,b∈I
! !
X X
= a P(X = a) b P(Y = b) = E(X)E(Y ),
a∈I b∈I
donde en la segunda igualdad usamos la independencia. Esto prueba el resul-

tado.
Nota. A la v.a. X − E(X) se le llama v.a. centrada, su esperanza es nula,

E(X − E(X)) = 0 (ver propiedad (e)).
Ejercicio 15. Sea p = (p1 , .., pk ) un vector de probabilidad. La entropı́a de

Shannon de p está dada por
k
X
H(p) = − pi log pi .
i=1
Mostremos que H(p) ≤ log k y éste máximo se alcanza en el vector uniforme

pu = (1/k, .., 1/k) (y solo en él).
84
Tomemos X v.a. simple tal que P(X = pi ) = k −1 para i = 1, .., k. Luego
E(X) = k −1 . Por otra parte la función ϕ : [0, 1] → R+ , x → −x log x se
anula en los extremos, es continua y es estrictamente cóncava (basta mostrar
que su segunda derivada es estrictamente negativa en (0, 1)). Luego, usando la
desigualdad de Jensen, parte (f ) del Teorema 66, se tiene
E(ϕ(X)) ≤ ϕ(E(X)) = ϕ(k −1 ) = k −1 log k
Como E(ϕ(X)) = k −1 H(p) se tiene la desigualdad. Por otra parte H(pu ) = log k
para pu = (1/k, .., 1/k), y la unicidad del máximo se deduce de la estricta
concavidad.
Nota. La esperanza de una v.a. X solo depende de la ley de probabilidad PX

que X induce en R. Como PX está definida por FX , se obtiene que E(X) se
puede escribir en términos de FX . También E(h(X)) se escribe en términos de
FX . En efecto, para X v.a. y h función Boreliana, se tiene,
Z ∞
E(h(X)) = h(x)dFX (x).
−∞
Nota 67. Si h es continua y acotada y las integrales de Riemann-Stieltjes de

h y |h| con respecto a FX existen y son finitas, entonces la expresión anterior
coincide con la integral de Riemann-Stieltjes de h con respecto a FX .
Recordamos que la integrales de Riemann-Stieltjes de h existe y es finita, si los

lı́mites siguientes existen y son finitos,
Z ∞ Z b
h(x)dFX (x) = lim h(x)dFX (x) con
−∞ aց−∞,bր∞ a
Z b n
X
h(x)dFX (x) = lim + h(yi )(FX (xk+1 ) − FX (xk )),
a ∆n →0
k=0
donde a = x0 < x1 < ... < xn = b, yi ∈ [xi , xi+1 ], ∆n = max{xi − xi−1 : i =

1, .., n}.
P
Lo probaremos solo
P en el caso en que X es v.a. simple. Sea X = a∈I a 1{X=a} .
Entonces FX = a∈I:a P(X = a)H(·−a), siendo H(·−a) la función de Heaviside
trasladada en a, de donde
Z X Z X
h(x)dFX (x) = P(X = a) h(x)dH(· − a)(x) = P(X = a)h(a)
a∈I a∈I
= E(h(X)).
85
Propiedad 68. Si X es v.a. a.c. con densidad fX . Como dFX (x) =
fX (x)dx, se tiene Z ∞
E(X) = xfX (x)dx
−∞
y si h : R → R es función Boreliana y h(X) tiene esperanza finita entonces

Z ∞
E(h(X)) = h(x)fX (x)dx.
−∞
Nota: Si las v.a.’s X e Y tienen Rigual distribuci’on, FX = FY , entonces

∞
E(h(X)) = E(h(Y )) pues E(h(X)) = −∞ h(x)dFX (x).
86
12 Momentos, Varianza, Covarianza, Correlación
12.1 Momentos, Varianza
Sea r ∈ N. Cuando E(|X|r ) < ∞ la cantidad E(X r ) es finita y se llama el
momento de orden r de X.
La desigualdad de Jensen es h(E(X) ≤ E(h(X)) cuando h : R → R es convexa.
Se tiene que para α ≥ 1 la función h(x) = xα es convexa y es estrictamente
convexa si α > 1. Consideremos r ≥ s > 0 luego r/s ≥ 1 por lo que la función
h(x) = xr/s es convexa en R+ . Como |X|r = (|X|s )r/s obtenemos aplicando la
desigualdad de Jensen a h(x) = xr/s para x ≥ 0:

r/s
E(|X|r ) = E (|X|s )r/s ) ≥ (E(|X|s )) .
Y deducimos
E(|X|r ) < ∞ ⇒ E(|X|s ) < ∞ para s = 1, ..., r; (57)
es decir si el momento de orden r es finito todos los momentos de orden menor

o igual a r son finitos. Para las v.a.’s simples (que toman un número finito de
valores) los momentos siempre son finitos.
Si µ = E(X) es finita podemos analizar los momentos centrados E((X − µ)r ),
para r ∈ N, ellos son finitos cuando E(|X − µ|r ) < ∞.
Por la desigualdad de Jensen se tiene E(X)2 ≤ E(X 2 ) < ∞.
Definición 69. Si E(X 2 ) < ∞, la varianza de X es el segundo memento

centrado, esto es
Var(X) = E((X − E(X))2 ).
Como (X − E(X))2 ≥ 0 se tiene Var(X) ≥ 0.
Para v.a.’s simples la varianza está bien definida y es finita pues E(X 2 ) es finita.
Desarrollando el término (X − E(X))2 = X 2 − 2E(X)X + E(X)2 y usando la
linealidad de E se obtiene
Var(X) = E(X 2 ) − E(X)2 .
Además como la función h(x) = x2 es estrictamente convexa se tiene que

E(X 2 ) = E(X)2 solo si X es v.a. constante, luego
Var(X) = 0 ⇔ P(X = E(X)) = 1 ⇔ X = constante.
Esta última igualdad se satisface pues si una v.a. es constante entonces nece-
sariamente la constante es su esperanza.
87
Propiedad 70. Para α, β ∈ R se tiene
Var(α + βX) = β 2 Var(X) = Var(βX). (58)
Prueba: Se tiene E(α + βX) = α + βE(X), luego (α + βX) − E(α + βX) =

β(X − E(X)) de donde
2
((α + βX) − E(α + βX)) = β 2 (X − E(X))2
y deducimos
2
Var(α + βX) = E ((α + βX) − E(α + βX)) = β 2 Var(X) = Var(βX).
Ejercicio 16. Si Y ∼ Bernoulli(p), para r > 0 se tiene Y r = Y pues Y solo

toma valores 0 y 1. Luego, para r ≥ 1 se satisface E(Y ) = E(Y r ) = p y
Var(Y ) = E(Y 2 ) − E(Y )2 = p − p2 = p(1 − p).
Los parámetros de las v.a. Normales están dados por la media y la varianza.
Propiedad 71. Si X ∼ N(µ, σ 2 ) entonces µ = E(X), σ 2 = Var(X).
Prueba: Si Z ∼ N(0, 1) entonces por cambio de variables lineal afin se tenia

X = µ + σZ ∼ N(µ, σ 2 ). Luego, por linealidad y por la relación (58) se tiene
E(X) = µ + σE(Z), Var(X) = σ 2 Var(Z).
Luego basta probar que si Z ∼ N(0, 1) entonces E(Z) = 0 y Var(Z) = 1.

x2
Se tiene que E(Z) es finita. Por simetrı́a de la densidad fZ (x) = √12π e− 2 en
torno a x = 0 se prueba que E(Z) = 0. En efecto, usando integración por partes
se satisface
Z ∞ Z 0 Z ∞
E(Z) = xfZ (x)dx = xfZ (x)dx + xfZ (x)dx
−∞ −∞ 0
Z ∞ Z ∞
= − xfZ (x)dx + xfZ (x)dx = 0.
0 0
Notemos que la expresión anterior es suma (resta) de cantidades finitas pues

R ∞ − x2
√1 xe 2 dx < ∞.
2π 0
Por otra parte como E(Z) = 0 se tiene

Z ∞ Z ∞ Z ∞
1 x2 1 x2 1 x2
Var(Z) = √ x2 e− 2 dx = − √ d(xe− 2 ) + √ e− 2 dx
2π −∞ 2π −∞ 2π −∞
∞
Z ∞
1 x 2 1 x 2
= −√ xe− 2 +√ e− 2 dx = 1.
2π −∞ 2π −∞
88
Propiedad 72. Supongamos E(X 2 ) < ∞. Entonces c = E(X) es el real
para el cual se realiza el mı́nimo de la función deviación cuadrática:
ϕ(c) = E((X − c)2 ), c ∈ R;
y este mı́nimo es la varianza: Var(X) = ϕ(E(X)).
Prueba: Desarrollando se tiene
ϕ(c) = E(X 2 − 2cX + c2 ) = E(X 2 ) − 2cE(X) + c2 .
Luego ϕ′ (c) = −2cE(X) + 2c. Se tiene ϕ′′ (c) = 2, por lo que ϕ(c) es estricta-
mente convexa y la condición ϕ′ (c) = 0 caracteriza su mı́nimo. Luego el mı́nimo
se alcanza en c = E(X), y en este valor se tiene ϕ(E(X)) = Var(X).
Proposición 73. Sean X1 , .., Xn v.a.’s independientes con E(Xk2 ) < ∞ para
k = 1, ..., n. Entonces la varianza de la suma es la suma de las varianzas, esto
es
Xn Xn
Var( Xk ) = Var(Xk ). (59)
k=1 k=1
Además, para α, β1 , .., βn ∈ R, se obtiene

n
X n
X
Var(α + βk Xk ) = βk2 Var(Xk ). (60)
k=1 k=1
Prueba: Observemos que nos basta probar (59). En efecto al usar (58) se
puede considerar α = 0 en (60) y al tomar Yk = βk Xk en (59) se obtiene (60).
Además, por inducii’on basta probarlo para el caso k = 2.
Se tiene E(X1 + X2 ) = E(X1 ) + E(X2 ), de donde

2
Var(X1 + X2 ) = E ((X1 − E(X1 )) + (X2 − E(X2 ))) .
Desarrollando se obtiene
Var(X1 + X2 ) = E((X1 − E(X1 ))2 ) + 2E((X1 − E(X1 ))(X2 − E(X2 )))

+ E((X2 − E(X2 ))2 )
= Var(X1 ) + E((X1 − E(X1 ))(X2 − E(X2 )) + Var(X2 ).
Por independencia de X1 y X2 se tiene
E((X1 − E(X1 ))(X2 − E(X2 ))) = E(X1 − E(X1 )) − E(X2 − E(X2 )) = 0,
de donde se concluye el resultado.
89
12.2 Covarianza y Correlación
Comencemos definiendo la covarianza y la correlación entre dos v.a.’s.
Sea X, Y v.a.’s tal que X, Y, XY son de esperanza finita. Su covarianza es
Cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ).
Proposición 74. La covarianza satisface las propiedades siguientes:

(a) Cov(X, Y ) = Cov(Y, X);
(b) Para α, β, γ, δ ∈ R, se tiene: Cov(α + βX, γ + δY ) = βδCov(X, Y ).
(c) Se cumple Cov(X, X) = Var(X), Cov(X, −X) = −Var(X).
(d) Si X, Y son independientes entonces Cov(X, Y ) = 0.
(e) Para X1 , .., Xn v.a.’s, α, β1 , .., , βn , ∈ R, se tiene
n
X n
X n X
X i−1
Var(α + βi Xi ) = βi2 Var(Xi ) + 2 βi βj Cov(Xi , Xj )
i=1 i=1 i=1 j=1
(f ) |Cov(X, Y )|2 ≤ Var(X)Var(Y ) (esto es desigualdad de Cauchy-Schwarz)

con igualdad solo en caso en que X e Y son conlineales, es decir ∃α, β, γ ∈ R
tal que α + βX + γY = 0.
Prueba: Probemos (e). Basta probarlo para α = 0, β − i = 1, i = 1, ..., n, y

n = 2. En la demostración de (refvar210) habı́amos obtenido
Var(X1 +X2 ) = E((X1 −E(X1 ))2 )+2E((X1 −E(X1 ))(X2 −E(X2 )))+E((X2 −E(X2 ))2 )
que es exactamente
Var(X1 + X2 ) = E((X1 − E(X1 ))2 ) + 2Cov(X1 , X2 ).
Ahora probemos (f ). Se tiene Var(αXp+ βY ) ≥ 0. Desarrollemos

p esta cantidad
+
de acuerdo a (e) para las parejas α = Var(Y ) y β = − Var(X). Luego,

p +p
0 ≤ Var Var(Y )X Var(X)Y
−
+ p p
= 2Var(X)Var(Y ) 2 Var(X) Var(Y )Cov(XY ),
−
de donde se obtiene la desigualdad.
p p
Septendrá la igualdad
p solo si una de las dos expresiones Var(Y )X + Var(X)Y
ó Var(Y )X − Var(X)Y , es constante. Esto ocurre si y solo si X, Y son
colineales.
90
Cuando Var(X) > 0 y Var(Y ) > 0 (es decir cuando no son constantes) definimos
la correlación entre X, Y como
Cov(X, Y )
Corr(X, Y ) = p p .
Var(X) Var(Y )
Proposición 75. Sean X, Y v.a.’s con Var(X) > 0, Var(Y ) > 0. Entonces
(a) Corr(X, Y ) = Corr(Y, X);
(b) Para α, β, γ, δ ∈ R con βδ 6= 0, entonces: Corr(α+βX, γ+δY ) = sign(βδ)Corr(X, Y )
(donde sign : R → {−1, 0, 1} con sign(0) = 0, sign(x) = 1 si x > 0, sign(x) = −1
si x < 0). .
(c) Se cumple Corr(X, X) = 1, Corr(X, −X) = −1.
(d) Si X, Y son independientes entonces Corr(X, Y ) = 0.
(e) −1 ≤ Corr(X, Y ) ≤ 1.
La demostración de todas estas propiedades provienen directamente de las de

covarianza. En (b) imponemos que βδ 6= 0 para que α + βX y γ + δY no
sean constantes y ası́ exista la correlación de p
estas variables. p
Observemos que
Cov(α
p + βX, γ
p + δY ) = βδCov(X, Y ) y que Var(α + βX) Var(γ + δY ) =
|βγ| Var(X) Var(Y ) y por ello aparece sign(βδ) = βδ/|βδ|.
12.3 Matriz de Covarianzas

~ = (X1 , .., Xn ) definimos su matriz de (varianzas-
Definición 76. Para X
~ de X
)covarianzas Cov(X) ~ por:
~ i,j = Cov(Xi , Xj ) : i, j = 1, .., n.

(Cov(X))
Si se tiene Var(Xi ) > 0 para i = 1, ..., n definimos la matriz de correlaciones

~ de X
Corr(X) ~ por:
~ i,j = Corr(Xi , Xj ) = p Cov(Xi , Xj )

(Corr(X)) p , i, j = 1, .., n.
Var(Xi Var(Xj
~ y Corr(X)
Se tiene que Cov(X) ~ son matrices simétricas pues
∀i, j = 1, .., n : ~ j,i = Cov(Xj , Xi ) = Cov(Xi , Xj ) = (Cov(X))

(Cov(X)) ~ i,j ,
~ j,i = Corr(Xj , Xi ) = Corr(Xi , Xj ) = (Corr(X))
(Corr(X)) ~ i,j .
Además sus términos diagonales verifican:
∀i)1, .., n : ~ i,i = Var(Xi ),

Cov(X) ~ i,i = 1.
Corr(X)
91
~ y
Asumamos Var(Xi ) > 0, i = 1, .., n y relacionemos las matrices Cov(X)
~ Para ello condieremos ∆ la matriz diagonal de varianzas,
Corr(X).
∆i,i = Var(Xi ), i = 1, .., n.
Luego ∆ es invertible con
(∆−1 )i,i = (Di,i )−1 = Var(Xi )−1
Definimos ∆−1/2 la matriz diagonal cuyos términos son
(∆−1/2 )i,i = (∆i,i )−1/2 .
~
Se tiene ∆−1/2 ∆−1/2 = ∆−1 . Se tiene que la matriz de correlaciones de X
satsiface
~ = ∆−1/2 Cov(X)∆
Corr(X) ~ −1/2 . (61)
Es útil tener a la matriz de varianzas escrita de manera analoga a la varianza,

pero de manera vectorial. Para ello introduciremos la esperanza de vectores y
de matrices aleatorias además de fijar notaci’on.
Por ~x = (x1 , .., xn ) notamos un vector columna de Rn , y los distinguiremos de
los vectores filas que se escriben ~xt .
Sea X~ = (X1 , .., Xn ) vc.a. (n−dimensional), X ~ : Ω → Rn , ω → X(ω)
~ =
(X1 (ω), ..., Xn (ω)). Definimos su esperanza por
~ = (E(X1 ), .., E(Xn )).

E(X)
Escribiremos µ ~ siendo µ
~ = E(X) ~ = (µ1 , .., µn ) con µl = E(Xl ).
De las propiedades de E en v.a.’s deducimos las propiedades de E en vc.a.’s.
Algunas de estas son:
E(~a) = ~a siendo ~a ∈ Rn constante ;
~ Y
X, ~ vc.a..’s , α, β ∈ R ⇒ E(αX
~ + βY
~ ) = αE(X)
~ + βE(Y
~ ).
Ahora consideremos Z = (Zi,j : i = 1, .., m; j = 1, .., n) una matriz aleatoria (de

tamaño) m × n, es decir donde Zi,j es v.a. para todo i = 1, .., m; j = 1, .., n.
Analogamente a como lo hicimos antes para vectores aleatorios definimos
E(Z) = (E(Zi,j ) : i = 1, .., m; j = 1, .., n).
Ella tiene propiedades analogas a las de linealidad a las ya encontradas para

vc.a.’s. Una que resulta de la misma linealidad de v.a.’s es:
E(AZB + D) = AE(Z)B + D para matrices A, B, C

de tamaños r × m, n × s, r × s respectivamente.
92
En efecto se tiene
m X
X n
E(AZB + D)i,j = E( Ai,k Zk,l Bl.j + Di,j )
k=1 j=1
m X
X n
= Ai,k E(Zk,l )Bl.j + Di,j )(AE(Z)B + D)i,j .
k=1 j=1
Notemos que si X,~ Y~ son vc.a.’s en Rn entonces X

~Y~ t = (Xi Yj : i, j = 1, .., n)
es una matriz aleatoria n × n. En particular
~ µ)(X−~
(X−~ ~ µ)t matriz n×n, término (i,j) es ((X−~
~ µ)(X−~
~ µ)t )i,j = (Xi −µi )(Xj −µj ).
~ = (X1 , .., Xn ) se tiene que su matriz de covarian-

Proposición 77. Para X
~ verifica:
zas Cov(X)
~ = E((X
Cov(X) ~ −µ ~ −µ
~ )(X ~ )t ) siendo µ ~
~ = E(X).
Prueba: Se tiene para i, j = 1, .., n,

~ −µ
E((X ~ −µ
~ )(X ~ i,j .
~ )t )i,j = E((Xi − µi )(Xj − µj )) = Cov(Xi , Xj ) = (Cov(X))

De la igualdad (61) se tiene que la matriz de correlaciones se puede escribir en
términos similares.
~ vc.a. n−dimensional, ~a ∈ Rm , V matriz m × n.

Proposición 78. Sea X
~ ~ Pn
Entones para el vc.a. Y = ~a + V X (es decir con Yi = ai + j=1 Vi,j Xj ,
i = 1, ..., m), se tiene
Cov(Y~ ) = V Cov(X)V
~ t (62)
Prueba: Se tiene E(Y ~ ) = ~a + V µ

~ , siendo µ ~ luego Y
~ = E(X), ~ − E(Y
~) =
~ −µ
V (X ~ ) y se tiene,
~ ) = E(V (X
Cov(Y ~ −µ ~ −µ
~ )(X ~ t .
~ )t V t ) = V Cov(X)V
Recordemos que una matriz n × n simétrica A es semi-definida positiva si y solo

si
n X
X n
n t
∀ ~a = (a1 , ..., an ) ∈ R : ~a A~a ≥ 0 ( es decir ai aj Ai,j ≥ 0),
i=1 j=1
93
y ella es definida positiva si además ~at A~a > 0 para ~a 6= ~0. Se tiene que A si es
semi-definida positiva entonces todos los valores propios son no-negativos, y si
es definida positiva todos su valores propios son positivos.
Notemos que si C es una matriz n × n entonces CC t es simeétrica y es semi-
definida positiva pues ~at CC t~a = ||C t~a||2 . Además, ella es definida positiva si y
solo si C es invertible. En efecto esto ocurre si y solo si CC t es invertible, esto
es si y solo si no tiene valores propios que se anulan, lo que equivale a que sea
definida positiva (ya que sabemos que es semi-definida positiva).
~ vc.a.. Entonces su matriz de covarianzas Cov(X)

Proposición 79. Sea X
es simétrica semi-definida positiva, es decir
~ t = Cov(X),
Cov(X) ~ a ≥ 0, ∀ ~a ∈ Rn .
~at Cov(X)~
~ es definida-positiva si y solo si para todo ~a 6= ~0 la v.a at X
Además Cov(X) ~ =
P n
a X
i=1 i i no es constante.
Prueba: La simetrı́a es clara, probemos

Pn la semi-positividad. Fijemos ~a ∈ Rn
t~ ~ = ~at µ
y consideremos la v.a. Y = ~a X = i=1 ai Xi . Se tiene E(Y ) = ~at E(X) ~.
Luego
~ −µ
0 ≤ Var(Y ) = E(~at (X ~ −µ
~ )(X ~ a,
~ )t~a) = ~at Cov(X)~
y se tiene el primer resultado. La caracterización para definida positiva se
obtiene de la equivalencia
~ es constante P − c.s..
~at Cov(X)~a = 0 ⇔ Var(Y ) = 0 ⇔ Y es constante ⇔ ~at X

De la relación (61) se tiene que Corr(X) esa simétrica, semi-definida positiva y
es definida positiva si y solo si Cov(X) lo es.
Diagonalización de matrices definidas positivas. Tomemos una matriz

simétrica Σ. Entonces existe una matriz ortogonal H, es decir verificando
HH t = Id = H t H tal que
D = HΣH t es la matriz diagonal de valores propios de Σ.
Usando la ortogonalidad de H se tiene,
Σ = H t DH.
Asumamos Σ es semi-definida positiva. Entonces sus valores propios Di,i ,

i = 1, .., n son no-negativos y si ella es definida positiva ellos son positivos,
en particular no se anulan.
Sea D1/2 la raı́z cuadrad de la matriz diagonal D es decir (D1/2 )i,i = (Di,i )1/2 .
Luego la matriz
C = H t D1/2 H
94
es simétrica, semi-definida positiva y es definida positiva si Σ lo es. Se tiene que
C es raı́z cuadrada de Σ pues
C 2 = H t D1/2 HH t D1/2 H = Σ.
Notamos
C = Σ1/2 .
Ahora si Σ es definida positiva entonces es invertible y se tiene
Σ−1 = H t D−1 H pues H t D−1 HΣ = H t D−1 HHDH t = Id.
Se cumple que Σ1/2 es invertible, con inversa dada por
(Σ1/2 )−1 = H t D−1/2 H.
Además ella es raı́z cuadrada de Σ−1 pues (Σ1/2 )−1 (Σ1/2 )−1 = H t D−1 H = Σ−1 .
Luego notamos
Σ−1/2 = (Σ1/2 )−1 .
12.4 Normal Multivariada

~ ∈ Rn y Σ = (Σi,j : i, j = 1, .., n) una matrix n × n,
Definición 80. Sea µ
~ = (X1 , .., Xn ) se dice distribuı́do
simétrica y definida positiva.. El vc.a. X
según una Normal Multivariada de media µ ~ y matriz de varianzas Σ si es a.c.
y tiene densidad
1 t
Σ−1 (~
fX~ (~x) = (2π)−n/2 | det Σ|−1/2 e− 2 (~x−~µ) x−~
µ)
, ~x ∈ Rn . (63)
~ ∼ N(~
En este caso notaremos X µ, Σ).
Ahora mostremos que la consistencia de la definicón.

~ ∼ N(µ, Σ), entonces:
Proposición 81. Si X
Z Z
1 t
Σ−1 (~
fX~ (~x)dx1 ...dxn = (2π)−n/2 | det Σ|−1/2 e− 2 (~x−~µ) x−~
µ)
dx1 ...dxn = 1,
Rn Rn
y se cumple
µ ~ Cov(X)
~ = E(X), ~ = Σ.
Además el vc.a. Y ~ = Σ−1/2 (X ~ −µ ~ ∼ N(~0, Id), siendo sus compo-

~ ) verifica Y
nentes (Y1 , .., Yn ) i.i.d. con Yi ∼ N(0, 1).
Prueba: ~ = Σ−1/2 (X
Tomemos Y ~ −µ
~ ). Su función de densidad es:
fY~ (~y ) = fX~ (Σ1/2 ~y + µ

~ ) | det Σ1/2 |, ~y ∈ Rn ,
95
luego
Pn n
Y
~t y
−n/2 − 12 y ~ −n/2 − 12 yi2
fY~ (~y ) = (2π) e = (2π) e i=1 = fYi (yi ).
i=1
1 2 R
con fYi (yi ) = (2π)−1/2 e− 2 yi . En particular la primera parte Rn fX~ (~x)dx1 ...dxn =
1. Además esto prueba la última parte, Y ~ ∼ N(~0, Id), lo que equivale (Y1 , .., Yn )
i.i.d. con Yi ∼ N(0, 1). De esto último deducimos E(Y ~ ) = ~0, Cov(Y
~ ) = Id.
~ = Σ1/2 Y
Como X ~ +µ
~ obtenemos
~ = Σ1/2 E(Y
E(X) ~)+µ
~ =µ
~, ~ = Σ1/2 Cov(Y
Cov(X) ~ )Σ1/2 = Σ.
Nota 10. De manera similar y usando (refm-cov-t) de la Proposición 78, se

prueba que: si Y1 , ..., Yk son i.i.d. con Yi ∼ N(0, 1), si C es una matriz invertible
~ =µ
k × k, entonces X ~ + CY~ ∼ N(~ µ, Σ) con Σ = CC t .
Propiedad 82. Sea X ~ = (X, .., Xk ) ∼ N(~ µ, Σ) con Σ definida positiva.

Considere r < k, 1 ≤ i1 < .. < ir ≤ k, J = {i1 , .., ir }. Entonces, (Xl : l ∈ J) ∼
N(µJ , ΣJ×J ), donde µJ = (µi1 , .., µir ), ΣJ×J es la submatriz de Σ restringida
al conjunto de ı́ndices J × J.
En particular Xi ∼ N(µi , Σii ), siendo Σi,i = Var(Xi ).
Nota 11. Observemos que si X ~ = (X, .., Xk ) ∼ N(~

µ, Σ) con Σ definida positiva,
entonces X1 , .., Xk son independientes si y solo si Σ es una matriz diagonal, y
en este caso Σ = ∆ con ∆ii = Var(Xi ). En efecto si X1 , .., Xk son inde-
pendientes entonces Cov(Xi , Xj ) = 0 cuando i 6= j por lo que Σ es diagonal.
Recı́procamente, si Σ = ∆ es diagonal con ∆i,i = Σi,i = Var(Xi ), y se satisface
k
X
~ )t Σ−1 (~x − µ) =
(~x − µ Var−1 2
i,i (xi − µi ) .
i=1
Por lo que
k
Y
fX~ (~x) = fXi (xi ),
i=1
luego X1 , .., Xk son independientes.
96
13 Función generadora de momentos y Función
caracterı́stica
13.1 Función generadora de momentos
Introduzcamos la función generadora de momentos para v.a.’s no-negativas (o
acotadas inferiormente). Notemos que si X v.a. ≥ 0 entonces FX (0− ) = 0.
Definición 83. Sea X ≥ 0 v.a. Entonces su función generadora de momen-

tos está definida por por
Z ∞
−sX
ΘX : R+ → [0, 1] satisface ΘX (s) = E(e )= e−sx dFX (x)dx. para s ≥ 0.
0
Para una v.a. discreta X : Ω → I ⊂ R+ se tiene

X X
ΘX (s) = e−sa P(X = a) = e−sa pX (a).
a∈I a∈I
Para una v.a. a.c. X : Ω → R+ con densidad fX se tiene

Z ∞
ΘX (s) = e−sx fX (x)dx.
0
Por ejemplo para X v.a. Bernoulli(p) se tiene ΘX (s) = pe−s + 1 − p = 1 − p(1 −

e−s ).
Propiedad 84. Sea X v.a. ≥ 0. Se tiene:

(a) Para todo s ∈ R+ se cumple ΘX (s) ∈ (0, 1], y ΘX (0) = 1.
(b) Para v.a. X ≥ 0 v.a.’s, α, β ≥ 0, se cumple
Θα+βX (s) = e−sα ΘX (βs).
(c) Si E(X r ) < ∞ entonces

dl Θ X
∀l ≤ r : E(X l ) = (−1)l (s)
dsl s=0
(d) Si X1 , .., Xk ≥ 0 independientes, entonces

k
Y
ΘPk Xl (s) = ΘXl (s)
l=1
l=1
(e) Para X, Y ≥ 0 v.a.’s se cumple:

FX = FY ⇔ Θ X = Θ Y .
(En caso discreto esto es pX = pY si y solo si ΘX = ΘY y en caso aboslutamente
continuo fX = fY si y solo si ΘX = ΘY ).
97
Prueba: (a) Como 0 < e−sX ≤ 1 se cumple 0 < E(−sX ) ≤ 1. Por otra parte
E(e0X ) = E(1) = 1.
(b) sigue de e−s(α+βX) = e−sα e−(sβ)X) , en efecto al tomar esperanza a ambos
lados se obtiene el resultado.
(c) Si se puede intercambiar la derivada l−ésima con la esperanza en una vecin-
dad de s = 0 se obtiene el resultado
R∞
dl E(e−sX ) dl 0 e−sx dFX (x)dx
= .
dsl dsl
La existencia del momento r ≥ l garantiza que se puede intercambiar la derivada
l−ésima con la integral para s en una vecindad de s = 0 (esto no lo de-
mostraremos). Usanso esto y que (dl e−sx /dsl ) = (−x)l e−sx , se obtiene
Z ∞ l −sx Z ∞
dl E(e−sX ) de
= dF X (x)dx = (−x)l e−sx dFX (x)dx,
dsl 0 dsl 0
y esto muestra
dl E(e−sX )
(s) = E((−X)l ).
dsl s=0
En el caso en que X toma un número finito de valores resulta de la linealidad

de las derivadas pues
P l −sX
dl E(e−sX ) dl ( i∈I pX (a)e−sa ) X dl e−sa de
= = p X (a) = E .
dsl dsl dsl dsl
i∈I
(d) Si X1 , .., Xk ≥ 0 independientes, entonces Si e−sX1 , .., e−sXk independientes

y se obtiene el resultado.
(e) La implicación es directa pues la función generadora de momentos ΘX se
escribe en términos de FX . La recı́proca es un resultado profundo que no pro-
baremos.
Por ejemplo para X1 , ..., Xn v.a.’s i.i.d. Bernoulli(p), por (d) se tiene
ΘPni=1 Xi (s) = (1 − p(1 − e−s ))n , s ≥ 0,

Pn
y como i=1 Xi ∼ Binomial(n, p) se deduce que la anterior es la función gen-
eradora de una Binomial(n, p).
Propiedad 85. Si T ∼ Exponencial[λ] entonces su función generadora de

λ
momentos es ΘT (s) = λ+s para s ≥ 0 y sus momentos son E(T n ) = n! λ−n .
Prueba: La función generadora de momentos de T ∼ Exponencial[λ] es es

Z ∞ Z ∞
−(λ+s)t λ λ
ΘT (s) = λe dt = (λ + s)e−(λ+s)t dt = , s ≥ 0.
0 λ + s 0 λ + s
98
Como para todo r > 0 se tiene e−λt tr → 0 si t → ∞ se tiene que E(T n ) es finito
para todo n > 0 y
dn Θ T dn λ
E(T n ) = (−1)n (s) = (−1)n = n! λ−n .
dn s s=0 dn s λ + s s=0
Y se tiene el resultado.
Propiedad 86. (a) Si X ∼ Gamma[α] su función generadora de momentos

satisface ΘX (s) = (s + 1)−α para s ≥ 0.
(b) Si X1 , .., Xk v.a.’s independientes con Xl ∼ Gamma[αl ] entonces
k
X k
X
Xl ∼ Gamma[ αl ].
l=1 l=1
Prueba: (a) Para s ≥ 0 se tiene

Z ∞ Z ∞
1 α−1 −(s+1)x 1 1 1
ΘX (s) = x e dx = y α−1 e−y dy = ,
Γ(α) 0 (s + 1)α Γ(α) 0 (s + 1)α
donde hicimos el cambio de variables y = (s + 1)x.

(b) Por independencia se tiene
k
Y Pk
Θ Pk (s) = ΘXl (s) = (s + 1)− l=1 αl
,
l=1 Xl
l=1
Pk
que es la función generadora de momentos de una v.a. Gamma[ l=1 αl ]. Como
Θ determina únicamente la función de distribución, ver Propiedad 84 (e), obten-
emos el resultado.
Nota 7. De manera similar, si Y ∼ Gamma[α, β] (ver la Definicón 52),

es directo comprobar que su función generadora de momentos satisface Y ∼
−α
Gamma[α, β] satisface ΘY (s) = βs + 1 para s ≥ 0. Luego, si Y1 , ..., Yn son
variables aleatorias independientes con Yi ∼ Gamma[αi , β], usando
n
Y −αi − Pni=1 αi
s s
+1 = +1 ,
i=1
β β
Pn Pn
deducimos que i=1 Yi ∼ Gamma [ i=1 αi , β].
Chi-cuadrado con n grados de libertad. Se define:

Definición 87. La distribución Gamma[ n2 , 12 ] se la denota χ2n y se la llama
chi-cuadrado con n grados de libertad.
99
Estas variables describen la suma de cuadrados de variables aleatorias Normales(0, 1).
Para dar el resultado de manera rigurosa, recuerde que si Y ∼ N (0, 1) entonces
Y 2 ∼ Gamma[ 12 , 21 ], propiedad que proviene directamente del Ejercicio 14, esto
es según la definicón, Y 2 se distribuye como una χ21 , chi-cuadrado con 1 grado
de libertad.
Ahora bien, si Y1 , ..., Yn son variables aleatorias i.i.d. con Yi ∼ N (0, 1), entonces
P n 2 n 1 2
i=1 Yi ∼ Gamma[ 2 , 2 ], que siguiendo la definición es una χn , chi-cuadrado
con n grado de libertad. Esta clase de densidades son muy usadas en estadı́stica.
Nota. Para s ≥ 0 coloquemos u = e−s , se tiene u ∈ (0, 1] (s = − log u), y en

este caso la función generadora de momentos de una v.a. X ≥ 0 se escribe
Z ∞
b X (u) = E(uX ) =
Θ ux dFX (x) para u ∈ (0, 1].
0
En caso en que X es v.a. discreta tomando valores en I ⊂ R+ se tiene

X
b X (u) =
Θ P(X = a)ua ,
a∈I
y en caso en que X es aboslutamente continua

Z ∞
b X (u) =
Θ ux fX (x)dx.
0
Las propiedades obtenidas para ΘX (s), s ≥ 0, se pueden escribir de manera

b X (u), u ∈ (0, 1.
analoga para Θ
13.2 Función Caracterı́stica

La función caracterı́stica es útil para el estudio de las distribuciones de variables
alaetorias siendo la transformada de Fourier de la función de distribución. Ella
tambien es útil para el estudio de la convergencia en distribución de las variables
aleatorias, y nos servir’a para probar el terorema central del lı́mite. Una gran
parte de las demostraciones de las funciones caracterı́sticas serán dadas en el
Apéndice 22.
Trabajaremos con números complejos: z = a + bi ∈ C, siendo a, b ∈ R sus partes
real e imaginaria notadas a = Re(z), b = Im(z). El complejo conjugado de z se
escribe z = a − bi, y el módulo de z es |z|2 = zz = a2 + b2 .
Una función h : R → C, x → Reh(x) + iImh(x) es Boreliana si Re(h) e Im(h)
son funciones Borelianas (de R → R).
Diremos que Z : Ω → C es v.a. (compleja) si Re(Z) e Im(Z) son v.a.’s.. Decimos
que E(Z) existe y es finita si E(Re(Z)) y E(Im(Z)) son finitas y definimos
E(Z) = E(Re(Z)) + i E(Im(Z)).
100
Se tiene que E es lineal: para γj ∈ C, Zj v.a. compleja, j = 1, 2, se tiene,
E(γ1 Z1 + γ2 Z2 ) = γ1 E(Z1 ) + γ2 E(Z2 ).
Y sobre la independencia se satisface que si X1 , .., Xn son v.a.’s reales indepen-
dientes y g1 , ..gn : R → C son funciones Borelianas entonces g1 (X1 ), .., gn (Xn )
son independientes. Si además E(gj (Xj )) son finitas para j = 1, .., n entonces
se cumple
n
Y n
Y
E( gj (Xj ) = E(gj (Xj )). (64)
j=1 j=1
Recordemos que para x ∈ RR, eix = cos x+i sin x. Luego e−ix = cos x−i sin x =
eix , de donde |eix |2 = (cos x)2 + (sin x)2 = 1.
Definición 88. Sea X : Ω → R v.a. Su función caracterı́stica está definida

por
ϕX : R → C, t → ϕX (t) = E(eitX ) = E(cos tX) + i E(sin tX).
Observemos que la definición está bien hecha pues E(cos tX) y E(sin tX) son
finitas ya que | cos tX| ≤ 1, | sin tX| ≤ 1.
Como
Z +∞ Z +∞ Z +∞
itx
ϕX (t) = e dFX (x) = cos tx dFX (x) + i sin tx dFX (x),
−∞ −∞ −∞
se tiene que ϕX solo depende de FX .

En el caso X : Ω → I es v.a. discreta con I ⊂ R numerable se tiene
X X X X
ϕX (t) = eita P(X = a) = eita pX (a) cos(ta)pX (a) + i sin(ta)pX (a),
a∈I a∈I a∈I a∈I
y en el caso X : Ω → R es v.a.a.c. con función de densidad fX se tiene

Z +∞ Z +∞ Z +∞
ϕX (t) = eitx fX (x)dx = cos(tx) fX (x)dx + i sin(tx) fX (x)dx.
−∞ −∞ −∞
Propiedad 89. Sean X : Ω → R v.a., α, β ∈ R. Se tiene:

(a) ϕX (0) = 1.
(b) |ϕX (t)| ≤ 1 para t ∈ R.
(c) ϕα+βX (t) = ei αt ϕX (β t).
(d) ϕX (−t) = ϕX (t) = ϕ−X (t).
(e) Si FX = F−X (es decir FX es simétrica en torno a 0) entonces ϕX (t) ∈ R
para todo t ∈ R. Y se tiene la recı́proca, si ϕX (t) ∈ R para todo t ∈ R entonces
FX = F−X .
Qk
(f ) Si X1 , .., Xk son v.a.’s independientes entonces ϕPk Xl = l=1 ϕXl .
l=1
101
Prueba: (a) proviene de eitX = 1 para t = 0. La propiedad (c) se deduce de
itα itβX
E(eit(α+βX)=e E(e .
Probemos (b). Por Jensen y dado que (cos y)2 + (sin y)2 = 1 para y ∈ R, se
obtiene

|ϕX (t)|2 = (E(cos tX))2 + (E(sin tX))2 ≤ E (cos tX)2 + (sin tX)2 = 1.
Para (d) basta notar que ei(−t)X = eit(−X) = e−itX = eitX .

De (d) se obtiene la parte suficiente en (e). En efecto, como ϕX solo depende
de FX , si FX = F−X entonces ϕX (t) = ϕ−X (t) = ϕX (t), por lo que ϕX (t) ∈ R.
Para la recı́proca debemos utilizar el siguiente Teorema el que establece que ϕX
determina FX . Ası́, aplicando este resultado se obtiene que si ϕX (t) ∈ R para
todo t ∈ R entonces
ϕX (t) = ϕX (t) = ϕX (−t) = ϕ−X (t), t ∈ R,
y de allı́ se obtiene FX = F−X .

Finalmente (f ) se deduce directamente de la propiedad de (64) pues
Pk k
Y k
Y k
Y
itXl
ϕP k Xl (t) = E(e
l=1 ) = E( eitXl ) = E(itXl ) = ϕXl (t).
l=1
l=1 l=1 l=1
Teorema 90. ϕX determina únicamente FX , es decir se tiene

ϕ X = ϕY ⇔ F X = F Y . (65)
Más precisamente se tiene la siguiente fórmula de inversión para x < y:

Z u −itx
FX (y) + FX (y − ) FX (x) + FX (x− ) 1 e − e−ity
− = lim ϕX (t)dt
2 2 2π u→∞ −u it
(66)
La demostración de este importante resultado está hecha en la Subsección 22.2

de la Sección 22.
El resultado siguiente establece condiciones de diferenciabilidad de la función
caracterı́stica de una v.a. cuando ella tiene momentos finitos. Su demostración
se desarrolla en la Sección 22.3 del Apéndice 22.
k
Proposición 91. Si E(|X|
R
) < ∞ entonces existe la derivada k−ésima de
(k)
ϕX , esta verifica ϕX (t) = (ix)k eitx dFX (x) y es continua para t ∈ R. En
(k) (k)
particular obtenemos E(X k ) = i−k ϕX (0) = (−i)k ϕX (0).
102
Nota sobre convolución. Sabemos que si X, Y son v.a.’s independientes entonces
la densidad de la suma X + Y es la convolución de las denisdades de X e Y ,
esto es fX+Y = fX ∗ fY . Esta propiedad tambien se puede probar usando la
función caracterı́stica. En efecto, se tiene
Z ∞ Z ∞ Z ∞
itx itx
e fX ∗ fY (x)dx = e fX (x − y)fY (y)dy dx
−∞ −∞ −∞
Z ∞Z ∞ Z ∞ Z ∞
= eit(x−y) fX (x − y)eity fY (y)dydydx = eitu fX (u) eity fY (y)dy dx,
−∞ −∞ −∞ −∞
donde en la última igualdad hicimos el cambio de variables u = x − y. Luego se

cumple para todo t ∈ R,
Z ∞ Z ∞ Z ∞
itx itu ity
e fX ∗ fY (x)dx = e fX (u) e fY (y)dy dx = ϕX (t)ϕY (t)
−∞ −∞ −∞
= ϕX+Y (t), .
donde en la última igualdad usamos la Propiedad 89 (f ) para variables indepen-

dientes. El Teorema 90 nos dice que ϕX+Y determina FX+Y , y de la igualdad
anterior deducimos que X + Y es v.a. absolutamente continua con función de
densidad fX ∗ fY .
Para la v.a. constante a, se tiene ϕa (t) = eita .
it it
Para Y ∼ Bernoulli(p) se cumple ϕY (t) = (1 − p) + pe Pn = 1 + p(e − 1). Sean
X1 , .., Xn i.i.d. con Xl ∼ Bernoulli(p), se tiene X = l=1 Xi ∼ Binomial(n, p)
y de la Propiedad 89 (f ) se deduce ϕX (t) = (1 + p(eit − 1))n
P itn n it
Si X ∼ Poisson(λ) se tiene ϕX (t) = n≥0 e n!λ e−λ = eλ(e −1) .
t2 σ 2
Proposición 92. Si X ∼ N(µ, σ 2 ) entonces ϕX (t) = eiµt e− 2 .
Prueba: Observemos que basta probar el caso X ∼ N(0, 1), es decir que en
t2
caso se cumple ϕX (t) = e− 2 . En efecto, una vez probado esto aplicamos la
Propiedad 89 (c) a la traslación lineal Y = µ + σX ∼ N(µ, σ 2 ) la que verifica
t2 σ 2
ϕY (t) = eiµt ϕX (σt) = eiµt e− 2 .
t2
Sea pues X ∼ N(0, 1). La demostración de ϕX (t) = e− 2 la haremos usando el
teorema de Cauchy en integración en C.
Observemos que −(x − it)2 = −x2 + 2itx − t2 . Luego
Z ∞ Z ∞
1 1 2 1 1 2 2
ϕX (t) = √ eitx− 2 x dx = √ e− 2 (x−it) et /2 dx.
2π −∞ 2π −∞
103
Luego, se tiene la equivalencia
h Z ∞
2 i 1
− t2 − 21 (x2 −2itx)
ϕX (t) = e ⇔ √ e dx = 1 .
2π −∞
R∞ 1 2
Como √1 e− 2 x dx = 1 se tendrá el resultado si mostramos
2π −∞
Z ∞ Z ∞
1 2 1 2
e− 2 (x−it) dx = e− 2 x dx. (67)
−∞ −∞
Escribiendo esto en términos de integrales de caminos en C la igualdadanterior

es equivalente a,
Z Z ∞
− 12 z 2 1 2
e dz+ = e− 2 z dz con el camino γ∞
t
= (z(x) = x − it : x ∈ R).
t
γ∞ ∞
Para R > 0 definamos los caminos

t
γR = (z(x) = x − it : u ∈ [−R, R]), Γ(R, +) = (z(x) = R + ix : u ∈ [−R, R]),
0
−γR = (z(x) = −x : x ∈ [−R, R]), Γ(R, −) = (z(x) = −R + ix : x ∈ [−t, t]).
Se tiene que el camino
ΓR = γ R
t 0
∪ Γ(R, +) ∪ −γR ∪ Γ(R, −)
1 2
es un camino cerrado y que la función e− 2 z es holomorfa
R en una vecindad en C
1 2
conteniendo el camino y su región interior, por lo cual ΓR e− 2 z dz = 0. Luego
Z Z Z Z
1 2 1 2 1 2 1 2
lim e− 2 z dz+lim e− 2 z dz+lim e− 2 z dz+lim e− 2 z dz = 0.
t
γR 0
−γR Γ(R,+) Γ(R,−)
R 1 2 R 1 2
Se tiene lim t e− 2 z dz = t e− 2 z dz y
R→∞ γR γ∞
Z Z ∞
1 2 1 2
lim e− 2 z = − e− 2 x dx.
R→∞ 0
−γ∞ −∞
Luego para mostrar (67) nos basta probar que

Z Z
1 2 1 2
lim e− 2 z dz = lim e− 2 z dz = 0
R→∞ Γ(R,+) R→∞ Γ(R,+)
1 2 1 + 2
Y esto se obtiene de e− 2 z ≤ e− 2 (R−|t|) cuando z ∈ Γ(R, − ), por lo que
Z
1 2 1 2
lim e− 2 z dz ≤ lim |t|e− 2 (R−|t|) = 0.
R→∞ +
Γ(R, − ) R→∞
104
Propiedad 93. Se tiene que si X1 , ..., Xk son normales independientes con
Xl ∼ N(µl , σl2 ) para l = 1, ..., k entonces
k
X k
X k
X
Xl ∼ N( µl , σl2 ).
l=1 l=1 l=1
Pk
Prueba: Sea Y = l=1 Xl . Usando la independencia y la Proposición 92 se
obtiene,
k
Y k
Y Pk
t2 σl2 Pk t2 2
l=1 σl
ϕY (t) = ϕXl (t) = eiµl t e− 2 = ei l=1 µl t −
e 2 .
l=1 l=1
Como laPfunciónP
caracterı́stica determina la función de distribución deducimos
k k
Y ∼ N( l=1 µl , l=1 σl2 ).
105
14 Teorema de los Grandes Números y Teorema
Central del Lı́mite
Comencemos definiendo las convergencias de v.a.’s a las que hace referencia el
Teorema de los Grandes Números.
14.1 Convergencia de v.a.’s

Definición 94. Sea (Xn : n ∈ N) una secuencia de v.a.’s y X una v.a..
Diremos que:
(a) X = lim Xn P−c.s. (c.s. se lee casi seguramente) si
n→∞
P{ω ∈ Ω : X(ω) = lim Xn (ω)} = 1. (68)

n→∞
(b) X = lim Xn en probabilidad P si

n→∞
∀ǫ > 0 : lim P{ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ} = 0. (69)

n→∞
(c) Sea p ≥ 1. Se dice que X = lim Xn en media p, si (Xn ∈ N), X tienen

n→∞
momento p finito, y se tiene
lim E(|Xn − X|p ) = 0. (70)
n→∞
Notemos que en (b) basta considerar ǫ = 1/m para m ∈ N, con lo que ∀ǫ > 0 se
reemplaza por ∀m ∈ N.
Algunas relaciones entre estas convergencias son las siguientes que prueban que
la convergencia en probabilidad es la más débil entre ellas:
Proposición 95. Se tiene:

X = lim Xn P − c.s. ⇒ X = lim Xn en probabilidad P, (71)
n→∞ n→∞
X = lim Xn en media p ⇒ X = lim Xn en probabilidad P. (72)
n→∞ n→∞
La demostración que la convergencia en media p implica la convergencia en

probabilidad la veremos más adelante. .
14.2 Teorema de los Grandes Números

Enunciaremos el Teorema de los Grandes Números para v.a.’s i.i.d. en su gen-
eralidad, este establece la convergencia de la media empı́rica
n
1X
Xn = Xk
n
k=1
a la media teórica E(X). Este enunciado se hace en general, pese a que solo
probaremos la convergencia en media 2 y la convergencia en probabilidad.
106
Teorema 96. Sean (Xk : k ∈ N) una sucesión de v.a.’s i.i.d. con µ = E(Xk )
finita. Entonces
lim X n = µ P − c.s. (73)
n→∞
Si p ≥ 1 y (Xk : k ∈ N) tienen momento p finito, entonces
lim X n = µ en media p. (74)

n→∞
En particular lim X n = µ en probabilidad P.

n→∞
Pn
Prueba: Probaremos la convergencia en media p = 2. Siendo X n = n1 k=1 Xk ,
por linealidad se tiene
1
E(X n ) = nµ = µ.
n

Luego se tiene E (X n − µ)2 = Var(X n ), y usando que las v.a.’s son i.i.d. se
deduce
n
X n
1 1 X
E (X n − µ)2 = Var(X n ) = Var( X k ) = Var(Xk )
n2 n2
k=1 k=1
1
= Var(X1 ) → 0 con n → ∞ .
n
Esto prueba (121) para p = 2, y por la Proposición 124 se tiene la convergencia
en probabilidad P.
En el caso de lanzamientos de moneda, (Xk : k ∈ N) i.i.d.

con Xk ∼ Bernoulli(p)
se tiene E(X1 ) = p = E(X12 ) luego lim E (X n − p)2 = 0.
n→∞
14.3 Convergencia y Desigualdades de Markov-Chevyshev

Es importante fijar algunas herramientas para el estudio de convergencias de
v.a.’s, estas son las Desigualdades de Markov-Chevyshev.
Desigualdades básica. Para X ≥ 0 se tiene la desigualdad llamada de
Markov-Chevyshev,
E(X)
∀ǫ > 0 : P(X ≥ ǫ) ≤ . (75)
ǫ
La demostración proviene de la desigualdad entre funciones,
∀ω ∈ Ω : ǫ1{X≥ǫ} (ω) ≤ X(ω) es decir epsilon1{X≥ǫ} ≤ X, (76)
luego tomando esperanza queda
E(ǫ1{X≥ǫ} ) ≤ E(X)
107
y como
E(ǫ1{X≥ǫ} ) = ǫE(1{X≥ǫ} ) = ǫP(X ≥ ǫ),
obtenemos la desigualdad (75). Luego para cualquier v.a. X la podemos aplicar
a |X| y obtenemos,
E(|X|)
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ . (77)
ǫ
Sea h : R+ → R+ función monótona creciente con h(x) > 0 si x > 0 (necesaria-
mente h(0) ≥ 0). Analogamente a (76) se obtiene
∀ω ∈ Ω : h(ǫ)1{|X|≥ǫ} (ω) ≤ h(|X(ω)|),
y luego tomando E se obtiene
E(h(|X|))
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ .
h(ǫ)
En particular para h(x) = xp si p > 0 se verifica la desigualdad de Markov-

Chevyshev para momentos,
E(|X|p )
∀ǫ > 0 : P(|X| ≥ ǫ) ≤ . (78)
ǫp
Ahora supongamos X tiene segundo momento finito. Notemos µ = E(X). Luego
al tomar la v.a. X − µ y p = 2 en (78) se obtiene la desigualdad de Bienaymeé-
Chevyshev:
E(|X − µ|2 ) Var(X)

∀ǫ > 0 : P(|X − µ| ≥ ǫ) ≤ 2
= . (79)
ǫ ǫ2
Analogamente cuando p ≥ 1 y X tiene p−ésimo momento finito se obtiene
E(|X − µ|p )
∀ǫ > 0 : P(|X − µ| ≥ ǫ) ≤ . (80)
ǫp
Demostración que convergencia media p implica convergencia en probabilidad.

Probemos (119). Usaremos la desigualdad de Markov (80),
1
∀ǫ > 0 : P(|Xn − X| > ǫ) ≤ E(|Xn − X|p ).
ǫp
Tomando lim en esta desigualdad y como esto es para todo ǫ > 0 obtenemos
n→∞
que la convergencia en media p implica la convergencia en probabilidad P.
108
14.4 Teorema Central del Lı́mite
Como recuerdo si X es una v.a. con esperanza E(X) = µ y varianza Var(X) =
σ 2 entonces su v.a. normalizada Y = (X −µ)/σ satisface E(Y ) = 0, Var(Y ) = 1.
Teorema 97. Sean (Xk : k ∈ N) v.a.’s i.i.d. con µ = E(X1 ) finita y 0 <
σ 2 = Var(X1 ) < ∞. Entonces
n
! Z x
X (Xk − µ) 1 y2
lim P √ ≤x = √ e− 2 dy , x ∈ R. (81)
n→∞ nσ 2π −∞
k=1
Pn
La media empı́rica al tiempo n es X n = k=1 Xk /n. Usando la simetrá de
la N(0, 1) obtenemos el error de aproximar la media teórica µ por la media
empı́rica X n usando n observaciones independientes,
Corolario 98. Sea x > 0, se tiene:
√ Z −x
σx 2 y2
lim P |X n − µ| > √ =√ e− 2 dy.
n→∞ n π −∞
Prueba: Por el teorema del Lı́mite Central en x y −x obtenemos

n
! Z x
1 X 1 y2
lim P −x ≤ √ (Xk − µ) ≤ x = √ e− 2 dy.
n→∞ σ n 2π −x
k=1
Luego
n
! Z
σx 1X σx 1 x
y2
lim P − √ ≤ (Xk − µ) ≤ √ =√ e− 2 dy.
n→∞ n n n 2π −x
k=1
Usando la simetrı́a de la N(0, 1) se obtiene el resultado.
En el caso en que (Xk : k ∈ N) son i.i.d. Bernoulli(p) se tiene µ = p, σ 2 =

p(1 − p).
Ahora daremos el concepto de convergencia referido en el Teorema Central del
Lı́nite y daremos los pasos esenciales para su demostración.
14.5 Convergencia en distribución

Notaremos F = {F : R → [0, 1]} el conjunto de las funciones de distribución, es
decir crecientes, continuas por la derecha con F (∞) = 1, F (−∞) = 0. Recorde-
mosmos que x es un punto de continuidad de F ∈ F, si F (x+ ) = F (x) = F (x− ),
y el conjunto de estos puntos lo notamos por C(F ).
Antes ya probamos que el conjunto de puntos de discontinuidad D(F ) = R \
C(F ) es a lo más numerable.
109
Definición 99. Diremos que (Fn : n ∈ N) ⊂ F converge débilmente a F ∈ F,
notaremos Fn =⇒ F , si F (x) = limn→∞ Fn (x) para todo punto de continuidad
de F .
Si (Xn :∈ N) es una familia de v.a.’s y X es una v.a. diremos que Xn converge
en distribución a X si FXn =⇒ FX , esto es si FX (x) = limn→∞ FXn (x) para
n→∞
todo punto de continuidad de FX . Por abuso de notación, esto lo extendere-
mos al caso en que (Xn :∈ N) es una familia de v.a.’s y F es una función de
distribución, decimos que Xn converge en distribución a F si FXn =⇒ F ,
n→∞
Relacionemos la convergencia en distribución con las convergencias definidas

previamente.
Proposición 100. Sean (Xn : n ∈ N), X v.a.’s tal que Xn → X en proba-

bilidad P. Entonces FXn =⇒ FX .
n→∞
Prueba: Notemos F = FX , Fn = FXn . Sean x′ < x < x′′ . Primero

mostremos que
F (x′ ) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x′′ ). (82)

n→∞ n→∞
Se tiene
F (x′ ) = P(X ≤ x′ , Xn − X ≥ x − x′ ) + P(X ≤ x′ , Xn − X < x − x′ )

≤ P(Xn − X ≥ x − x′ ) + P(X ≤ x′ , Xn ≤ X + (x − x′ ))
≤ P(Xn − X ≥ x − x′ ) + P(Xn ≤ x).
Como x − x′ > 0 y Xn → X en probabilidad P se tiene lim P(Xn − X ≥

n→∞
x − x′ ) = 0, luego hemos probado la primera desigualdad en (82). De manera
similar se prueba la segunda desigualdad.
Ahora tomemos una sucesión creciente (x′k ) convergiendo a x, y (x′′k ) una sucesión
decreciente convergiendo a x. Se tiene x′k < x < x′′k . Aplicando (82) deducimos
F (x′k ) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x′′k ).

n→∞ n→∞
Por otra parte por hipotesis, F es continua en x, luego se tiene
lim F (x′k ) = F (x) = lim F (x′′k )

k→∞ n→∞
Se deduce
F (x) ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ F (x).
n→∞ n→∞
Esto prueba el resultado.
110
En lo que sigue para una función de distribución F notaremos (con evidente
abuso de notación), Z ∞
ϕF (t) = eitx dF (x).
−∞
Ası́ pues si X es v.a. se tiene ϕX = ϕFX . Se tiene el siguiente resultado debido
a Paul Lévy, que es crucial para el estudio de convergencia de distribuciones.
Lema 101. Sean (Fn : n ∈ N), F funciones de distribución. Entonces, se

tiene la equivalencia entre la convergencia débil de las distribuciones y la con-
vergencia puntual de las funciones caracterı́sticas, es decir
h i h i
Fn =⇒ F ⇔ ϕF (t) = lim ϕFn (t) ∀t ∈ R . (83)
n→∞ n→∞
Este Lema es crucial en la demostración del Teorema Central del Lı́mite que
sigue que es de Lindberg-Lévy. La demostración del Lema será efectuada en
en la Subsección 22.4 de la Apéndice 21 y en ella utilizaremos los resutados de
Helly, los que son dados y probados en la Subsección 22.1 del Apéndice 21.
14.6 Demostración del Teorema Central del Lı́mite

Observemos que el enunciado del Teorema Central del Lı́mite, Teorema 97,
equivale al siguiente, dado que (81) se escribe como (84).
Teorema 102. Sean (Xn : n ∈ N) v.a.’s i.i.d. con µ = E(X1 ) finita y

0 < σ 2 = Var(X1 ) < ∞. Denotemos
n
X (Xk − µ)
Zn = .
σ
k=1
Entonces
F√
Zn =⇒ Ψ, (84)
n k→∞
siendo Ψ la función de distribución de una v.a. N(0, 1) (ver (34)).
Prueba: Por la expresión de Zn basta probar elPresultado en el caso normal-

n
izado, es decir cuando µ = 0 y σ = 1. Luego Zn = k=1 Xk . Usaremos el Lema
101, por lo que debemos probar que
∀t ∈ R : lim ϕZn /√n (t) = ϕΨ (t).
n→∞
t2
Recordemos que ϕΨ (t) = e− 2 (ver Proposición 92).
Se tiene
!
√ n
Y √ n
Y √ t n
i√ X
ϕZn /√n (t) = E eitZn / n
=E eitXn / n
= E eitXn / n = E e n 1
k=1 k=1
111
en que en la tercera igualdad se uso la independencia y en la última que tienen
la misma distribución. Luego hemos probado
n
t
ϕZn /√n (t) = ϕX1 √ ,
n
o equivalentemente
t
log(ϕZn /√n (t)) = n log(ϕX1 ( √ )).
n
Como E(X12 ) < ∞, por la Proposición 91 se deduce que ϕX1 (t) tiene segundas
derivadas continuas en R. Como ϕ′X1 (0) = iE(X1 ) = 0, ϕ′′X1 (0) = i2 E(X12 ) =
−Var(X1 ) = −1 la expansión de ϕX1 (u) es de la forma
u2 ′′ u2 o(u2 )
ϕX1 (u) = ϕX1 (0)+uϕ′X1 (0)+ ϕX1 (0) = 1− +o(u2 ) donde → 0 si u → 0.
2 2 u2
√
Ahora tomemos u = t/ n. Luego, fijando t, se tiene

t t2 1
ϕX 1 √ =1− +o .
n 2n n
Luego
t t2
log ϕZn /√n (t) = n log ϕX1 √ =− + o(1).
n 2
Por desarrollo de Taylor se tiene.
ln(1 + z) = z + r(z), con |r(z)| ≤ 2z 2 si |z| < 1/2.
Como t está fijo, tomando n suficientemente grande para que |−t2 /2n+o(1/n)| <
1/2 podemos aplicar la fórmula anterior. Como |r(t2 /n)| = t4 /(2n2 ) + o(1/n2 )
se obtiene:

t t2 1 t2 1
ln ϕX1 √ = ln 1 − +o =− +o .
n 2n n 2n n
Luego
t t2
log ϕZn /√n (t) = n log ϕX1 √ =− + o(1).
n 2
Concluı́mos que
t2
lim ϕZn /√n (t) = e− 2 = ϕΨ (t).
n→∞
Como las funciones caracterı́sticas convergen a la de una N(0, 1), por el Lema
101 concluı́mos el resultado.
Nota 9. Una consecuencia del teorema de los grandes números Pn es que si (Xn )
es una sucesión de v.a.’s i.i.d. con Xn ∼ N(0, 1) entonces ( i=1 Xi2 )/n converge
c.s. a E(Xi2 ) = 1 y al combimarlo con el teorema del lı́mite central se obtiene
que una sucesión de v.a.’s con distribución tm Student converge en distribución
a una N(0, 1) cuando m → ∞.
112
15 Esperanza Condidional
15.1 Esperanza Condicional para v.a.’s simples
Veamos esperanza condicional para el caso de v.a.’s simples, es decir suponemos
que I es finito. Sea g : I → R. Considerando h : I k → R dado por g(b1 , .., bk−1 , b) =
g(b), se tiene que la esperanza condicional de g(Xk ) dado X1 = a1 , .., Xk−1 =
ak−1 es
X
E(g(Xk ) | X1 = a1 , .., Xk−1 = ak−1 ) = g(b) P(Xk = b | X1 = a1 , .., Xk−1 = ak−1 ),
b∈I
De esta definición se tiene que para g : I → R la esperanza condicional de Xk

dado X1 , .., Xk−1 es la v.a. definida por
E(g(Xk ) | X1 , .., Xk−1 )(ω)

X
= E(g(Xk ) | X1 = a1 , .., Xk−1 = ak−1 ) 1{X1 =a1 ,..,,Xk−1 =ak−1 } (ω).
(a1 ,..,ak−1 )∈I k−1
Propiedad 103. Si g, g ′ : I → R, α, β ∈ R, se tiene la linealidad,

E (αg(Xk ) + βg ′ (Xk ) | X1 , .., Xk−1 ) = αE(g(Xk ) | X1 , ..Xk−1 )
+βE(g ′ (Xk ) | X1 , .., Xk−1 ).
Propiedad 104. Para g : I → R se cumple

E(g(Xk )) = E (E(g(Xk ) | X1 , .., Xk−1 )) .
Prueba: Se tiene
E (E(g(Xk ) | X1 , .., Xk−1 ))

!
X X
= g(b) P(Xk = b |X1 = a1 , .., Xk−1 = ak−1 ) P(X1 = a1 , .., Xk−1 = ak−1 )
(a1 ,..,ak−1 )∈I k−1 b∈I
X X
= g(b) P(X1 = a1 , .., Xk−1 = ak−1 , Xk = b)
(a1 ,..,ak−1 )∈I k−1 b∈I
X X
= g(b)( P(X1 = a1 , .., Xk−1 = ak−1 , Xk = b))
b∈I (a1 ,..,ak−1 )∈I k−1
X
= g(b)P(Xk = b).
b∈I
113
Ejercicio 32. Sean (X1 , .., Xk ) v.a.’s reales simples independientes tomando
valores en el conjunto I. Ellos serán los resultados (aleatorios) de los juegos
1, .., k. El jugador tiene una fortuna inicial s0 (cantidad fija), consideremos la
Pl
fortuna (aleatoria) del jugador despues de jugar l veces, Sl = s0 + i=1 Xi ,
para l = 1, .., k. Entonces
X
E(g(Sk ) | S1 , ..., Sk−1 ) = g(a + Sk−1 )pXk (a),
a∈I
siendo, como es habitual pXk la densidad discreta de Xn . En efecto, por inde-

pendencia,
P(Sk = b | S1 = a1 , .., Sk−1 = ak−1 ) = P(Xk = b − ak−1 | X1 = a1 , .., Xk−1 = ak−1 −ak−2 )
= pXn (b − ak−1 ).
Luego
X
E(g(Sk ) | S1 = a1 , .., Sk−1 = ak−1 ) = g(b)P(Sk = b | S1 = a1 , .., Sk−1 = ak−1 −ak−2 )
b∈I
X X
= g(b)pXn (b − ak−1 ) = g(a + ak−1 )pXn (a).
b∈I a∈I
Y concluı́mos
X X
E(g(Sk ) | S1 , .., Sk−1 ) = g(a + ak−1 )pXn (a)1{Sk−1 =ak−1 }
ak−1 ∈I a∈I
X
= g(a + Sk−1 )pXn (a).
a∈I
Nota. La varianza condicional Xk dado X1 , .., Xk−1 es la v.a.

2
Var(Xk | X1 , .., Xk−1 ) = E (Xk − E(Xk | X1 , .., Xk−1 ) | X1 , .., Xk−1 .
Se satisface,
Var(Xk | X1 , .., Xk−1 ) = E(Xk2 | X1 , .., Xk−1 ) − E(Xk | X1 , .., Xk−1 )2 .
15.2 Esperanza condicional para v.a.’s absolutamente con-

tinuas
Caso bidimensional
Definición 105. Definimos esperanza condicional de g(Y ) dado X = x por
Z ∞
E(g(Y ) | X = x) = g(y)fY (y | X = x)dy.
−∞
114
De la definición se tiene
Z ∞
E(E(g(Y ) | X))) = E(g(Y ) | X = x)fX (x)dx
−∞
Z ∞ Z ∞
= g(y)fY (y | X = x)dy fX (x)dx
−∞ −∞
Z ∞Z ∞ Z ∞
= g(y)fX,Y (x, y)dxdy = g(y)fY (y)dy = E(g(Y )).
−∞ −∞ −∞
Caso k−dimensional. Asumamos k ≥ 2. Sean X1 , .., Xk v.a.’s a.c. en R con

densidad conjunta
fX1 ,..,Xk (x1 , .., xk ), (x1 , .., xk ) ∈ Rk .
Definición 106. Sea g : R → R Boreliana. Definimos la esperanza condi-

cional de g(Xk ) dado X1 = x1 , .., Xk−1 = xk−1 por,
E(g(Xk ) | X1 = x1 , .., Xk−1 = xk−1 )

Z
= g(xk ) fXk (xk | Xl = xl , l = 1, .., k − 1)dxk . (85)
Observemos que se puede definir la v.a. esperanza condicional de g(Xk ) dado

X1 , .., Xk−1 por
E(g(Xk ) | X1 , .., Xk−1 )(ω) = E(g(Xk ) | X1 = X1 (ω), .., Xk−1 = Xk−1 (ω)).
Esta v.a.’s será notada E(g(Xk ) | X1 , .., Xk−1 ).

La propiedad siguiente es directa de la definición.
Propiedad 107. Sean g, h : R → R Borelianas, se cumple la aditividad

E ((g(Xk ) + h(Xk )) | X1 , .., Xk−1 ) = E(g(Xk ) | X1 , .., Xk−1 )+E(h(Xk ) | X1 , .., Xk−1 ).
Proposición 108. Sea g : R → R Boreliana. Se cumple

E(E(g(Xk ) | X1 , .., Xk−1 )) = E(g(Xk )).
Prueba: Se tiene
E(E(g(Xk ) | X1 , .., Xk−1 ))

Z ∞ Z ∞
= ... E(g(Xk ) | X1 = x1 , ..., Xk−1 = xx−1 )fX1 ,...,Xk−1 (x1 , ..., xk−1 )dx1 ...dxk−1
−∞ −∞
Z ∞ Z ∞ Z ∞
= ... g(y)fXk (y | X1 = x1 , ..., Xk = xk )dy fX1 ,...,Xk−1 (x1 , ..., xk−1 )dx1 ...dxk−1 .
−∞ −∞ −∞
115
Luego, usando
fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )

fX1 ,..,Xk−1 (x1 , .., xk−1 ) = fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )
fX1 ,..,Xk−1 (x1 , .., xk−1 )
y la propiedad de densida marginal (41),

Z ∞ Z ∞
fXk (xk ) = ... fX1 ,..,Xk−1 ,Xk (x1 , .., xk−1 , xk )dx1 ...dxk−1
−∞ −∞
obtenemos,
Z
E(E(g(Xk ) | X1 , .., Xk−1 )) = g(xk )fXk (xk )dxk = E(g(Xk )).
La varianza condicional Xk dado X1 , .., Xk−1 es la v.a.

2
Var(Xk | X1 , .., Xk−1 ) = E (Xk − E(Xk | X1 , .., Xk−1 ) | X1 , .., Xk−1 .
Se satisface,
Var(Xk | X1 , .., Xk−1 ) = E(Xk2 | X1 , .., Xk−1 ) − E(Xk | X1 , .., Xk−1 )2 .
116
16 Estadı́stica básica
16.1 Discusión introductoria
En Estadı́stica se dispone ó se construye un conjunto de datos x1 , ..., xn y se
busca extraer información de ellos, obtener ciertos patrones de conducta o pre-
decir ciertas caracterı́sticas que se cumplirı́an en un contexto más amplio. Para
estudiar esto se pueden acudir a distintos enfoques, el principal es el proba-
bilı́stico que expondremos más abajo. Pero vale la pena mencionar que el estu-
dio de grandes bases de datos y el disponer de grandes capacidades de cálculo
ha llevado a considerar enfoques que mezclan técnicas descriptivas, de álgebra
lineal o combinatoriales, que permite extraer informaci’on a cierta base de datos,
hacer predicciones -que se han revelado útiles-, y en que la extensión a otras
poblaciones se hace via simulaciones. Pero en alguno de estos pasos se debe dar
algún grado de confiabilidad a los resultados obtenidos y para ello se acude a
resultados básicos del modelo probabilista dando por verificadas las hipotesis
que estos requieran.
En cualquier caso para que podamos obtener resultados estadı́sticos con cierto
grado de validez se requiere que los datos o los experimentos tengan la ho-
mogenidad acorde a lo que se busca estudiar. Cuando ello no sucede se pueden
producir paradojas, una de las más conocidas es la siguiente.
Paradoja der Simpson. Supongamos que estamos evaluando la efectividad de

dos tratamientos, T 1 y T 2 , en dos tipos de enfermedades E1 y E2 , siendo a
priori E1 más difı́cil de curar que E2 . Cada tratamiento se da a un número N
de individuos. El tratamiento T 1 se suministra a un grupo de n11 individuos
sufriendo E1 y a n12 sufriendo E2 . El tratamiento T 2 se suministra a n21 indi-
viduos sufriendo E1 y a n22 sufriendo E2 . Ası́ pues ni1 + ni2 = N para i = 1, 2.
Los resultados de estos tratamiento en estos grupos de individuos son: mij
individuos de los nij se curan para i, j = 1, 2, el resto no se cura. Luego la
efectividad del tratamiento T i en los individuos con enfermedad Ej es mij /nij ,
para i, j = 1, 2. Notemos que de los N individuos a los que se le aplica el
tratamiento T i se curan M i = mi1 + mi2 para i = 1, 2. Ası́ pues la matriz de
tratamiento, enfermedad y porcentaje de cura es:
· T1 T2
E1 m11 /n11 m21 /n21
E2 m12 /n12 m22 /n22
Total M 1 /N M 2 /N
Es fácil ver que hay casos en que m1j /n1j > m2j /n2j para j = 1, 2, es decir que en
ambas enfermedades el porcentaje de individuos que se curan con el tratamiento
T 1 es mayor que el porcentaje con se curan con el tratamiento T 2 . Y sin embargo
podrı́a tenerse M 1 /N < M 2 /N , es decir el porcentaje total de individuos que se
curan con el tratamiento T 1 es menor que el porcentaje del total de individuos
117
con que se cura con el tratamiento T 2 . Por ejemplo basta tomar N = 100 y la
matriz siguiente
T1 T2
E1 9/16 = 0.5625 2/4 = 0.5000
E2 76/84 = 0.9047 84/96 = 0.8750
Total 85/100 = 0.85 86/100 = 0.86
La paradoja se refiere a que el tratamiento T 1 tiene mejores resultados que el

tratamiento T 2 en ambas enfermedades, y al mezclar los grupos, en el total de
la población el orden se revierte y T 1 apareciera ser menos efectivo que T 2 .
La inhomogeneidad proviene de que T 1 en comparación a T 2 se aplicó en una
mayor proporción de individuos con la enferemedad E1 que es más difı́cil de
curar que E2 .
16.2 Estadı́stica: base probabilı́stica

Como ya enunciamos un problema básico en Estadı́stica es extraer información
de cierto conjunto de datos x1 , ..., xn . Uno de los problemas básicos es compren-
der la interacción entre las caracterı́sticas de estos datos y ciertos patrones de
cierta población o predecir la factibilidad que se cumplan ciertas caracterı́sticas
en la población a partir de relaciones que se verifiquen en los datos. Una hipote-
sis fundamental que asumiremos es que los datos se extraen de una población
bien determinada siguiendo ciertos procedimientos pobabilı́sticos, más precisa-
mente suponemos que se extraen de manera independiente y se distribuyen
siguiendo una misma ley de probabilidad, esto es ellos son la realización prob-
abilı́stica de un aspecto común de la población. En este caso se dice que el
conjunto de datos es una muestra aleatoria simple (m.a.s.).
La ley de probabilidad referida es sobre la población, conjugando consideraciones
abstractas ó de diseño, y existe cierta incerteza sobre esta ley, la que deberı́a irse
identificando a traves de lo que nos revela la muestra. Si se busca inferir ciertos
patrones en la población esto se hace a traves de como ciertas relaciones se dan
en la muestra siempre que las relaciones en la muestra sean consistentes con
las consecuencias probabilı́sticas implicadas por las patrones en la población.
Herramientas esenciales para ello son los teoremas de Grandes Números y del
Lı́mite Central.
La población o conjunto muestral es notado por X . En general este será R
o Rl o un subconjunto Boreliano de ellos (por ejemplo R+ ), ó un conjunto
numerable que lo notaremos I. El conjunto X está dotado de la σ−álgebra de
Borel o la inducida por ella en caso de R ó Rl , y si la población es numerable
la σ−álgebra es la discreta. La ley de probabilidad será notada P indiciada
por la incerteza de la ley, en una primera etapa la incerteza se concentra en un
parámetro (desconocido) θ, ası́ pues la ley será notada Pθ , y el parametro θ
varı́a en un conjunto convexo Θ ⊆ Rk para cierto k.
118
Los supuestos previos nos indican que el conjunto de datos x1 , ..., xn es el resul-
tado o realización de n variables aleatorias X1 , ..., Xn i.i.d. tomando valores en
el conjunto muestral X con ley de probabilidad Pθ . Ası́ pues xi = Xi (x) para
cierta realización x.
Por X designaremos una v.a, con ley de probabilidad Pθ . Notaremos por F (θ; ·)
la función de distribución asociada es decir F (θ; x) = Pθ (X ≤ x), en el caso
numerable la densidad discreta se escribe p(θ; a) = Pθ (X = a) para a ∈ I,
y en el caso en que F (θ; x) es absolutamente continua en x su densidad la
notamos por f (θ; x). Además notaremos Eθ y Varθ la esperanza y la varianza
con respecto a la distribución F (θ; ·).
Para las X1 , ..., Xn v.a.’s i.i.d. notaremos su densidad conjunta por: en caso en
discreto,
n
Y n
Y
p(θ; a1 , ..., an ) = Pθ (X1 = a1 , ..., Xn = an ) = Pθ (Xi = ai ) = p(θ; ai ),
i=1 i=1
y en caso absolutamente continuo la densidad conjunta de en (x1 , ..., xn ) es,

n
Y
f (θ; x1 , ..., xn ) = f (θ; xi ).
i=1
En el caso X ∼ Bernoulli(θ) se tiene Pθ (X = 1) = θ, y Eθ (X) = θ.
16.3 Estimación puntual de parámetros

En este caso se busca estimar el par’ametro θ ∈ Θ indiciando la ley de proba-
bilidad Pθ . El estimador será una función
θbn (·) : X n → Θ, (x1 , ..., xn ) → θbn (x1 , ..., xn ),
pero cuando se busque acentuar que es una v.a. lo notaremos θbn (X1 , ..., Xn ) y
para la realización x toma el valor θbn (X1 (x), ..., Xn (x)). En general no haremos
una distinción estricta entre ambas escrituras.
Si θ es multidimensional, θ = (θ1 , ..., θk ) entonces
θbn (X1 , ..., Xn ) = (θbn1 (X1 , ..., Xn ), ..., θbnk (X1 , ..., Xn )
donde θbnj (X1 , ..., Xk ) es un estimador de θj .
16.4 Estimadores media, varianza. Sesgo, Consistencia.

Supongamos que θ es la media teórica de X, esto es
Z ∞
θ = Eθ (X) = xdF (θ; x).
−∞
119
En este caso escribimos θ = µ. El estimador de la media teórica µ es la media
empı́rica
n
1X
µ
bn = X n = Xi .
n i=1
Observemos que
µ = Eµ (X) = Eµ (X n )
y por el Teorema de los Grandes Números
lim X n = µ Pµ − c.s.
n→∞
Les daremos nombre a estas propiedades.
Definición 109. El estimador θbn (X1 , ..., Xn ) de θ es:

(a) Insegado si Eθ (θbn (X1 , ..., Xn )) = θ. Si θ = (θ1 , ..., θk ) es multidimensional,
entonces es insegado si Eθ (θbnj (X1 , ..., Xn )) = θj para j = 1, ..., k.
(b) Consistente (respectivamente probabilidad o media p) si lim θbn (X1 , ..., Xn ) =
n→∞
θ Pθ −c.s. (respectialmente probabilidad o media p).
Por las relaciones anteriores X n es un estimador insesgado y consistente de la

media teórica µ.
Ejemplo I. En el lanzamiento de una moneda la probabilidad θ que salga cara
(valor 1) es deconocido, es el parametro tomando valores en Θ = [0, 1]. Tomemos
n lanzamientos X1 , ..., Xn i.i.d. con X ∼ Bernoulli(θ). Se cumple θ = Eθ (X).
Luego θbn (X1 , ..., Xn ) = X n es estimador insesgado y consistente de θ.
De ahora en delante notaremos al estimador simplemente por θbn y cuando sea

necesario volverenos a la notación θbn (X1 , ..., Xn ).
El sesgo del estimador es s(θbn ) = ||Eθ (θbn ) − θ|| y el error medio cuadrático es
e2 (θbn ) = Eθ (||θbn − θ||2 ). En caso unidimensional se tiene
e2 (θbn ) = Var(θbn ) + |s(θbn )|2 .
En efecto,
e2 (θbn ) = Eθ (|θbn − θ|2 ) = Eθ (|θbn − Eθ (θbn ) + Eθ (θbn ) − θ|2 )

= Var(θbn ) + |s(θbn )|2 + 2(Eθ (θbn ) − θ)Eθ (Eθ (θbn ) − θ),
y como Eθ (θbn − Eθ (θbn )) = 0 se tiene el resultado.

Supongamos que la media teórica es conocida, esto es µ = µ0 , y el parámetro
es la varianza σ 2 esto es
Z ∞
σ 2 = Eσ2 ((X − µ0 )2 ) = (x − µ0 )2 dFσ2 (x).
−∞
120
Luego σ 2 es un parámetro de media de las variables i.i.d. Yi = (Xi − µ0 )2 ,
i = 1, ..., n, ya que Eσ2 (Yi ) = σ 2 . Luego su estimador es la media empı́rica
n n
1X 1X
Yn = bn2 =
Yi esto es σ (Xi − µ0 )2 =,
n i=1 n i=1
que es insesgado y consistente.

Ahora supongamos que el parámetro es la pareja θ = (µ, σ 2 ) ∈ Θ = R × R+ . La
media empŕica X n es estimador insesgado y consistente de µ. Un estimador de
la varianza es
n
1X
bn2 =
σ (Xi − X n )2 .
n i=1
Como µ bn2 es un estimador

bn = X n es estimador consistente de µ, se deduce que σ
2 2
consistente de σ . Sin embargo σ
bn no es insesgado, calculemos su sesgo. Se tiene,
n
X n
X
(Xi − X n )2 = ((Xi − µ) + (µ − X n ))2
i=1 i=1
n
X n
X
= (Xi − µ)2 + n(µ − X n )2 + 2(µ − X n ) ((Xi − µ)
i=1 i=1
Xn
= (Xi − µ)2 + n(µ − X n )2 − 2n(µ − X n )2
i=1
Y concluimos
n n
1X 1X
bn2 =
σ (Xi − X n )2 = (Xi − µ)2 − (µ − X n )2 . (86)
n i=1 n i=1
Como Eθ (X n ) = µ, Varθ (X n ) = σ 2 /n obtenemos Eθ (X n − µ)2 = Varθ (X n ) =

σ 2 /n y concluı́mos
1 n−1 2
σn2 ) = σ 2 − σ 2 =
Eθ (b σ .
n n
Podemos corregir el sesgo con el estimador siguiente definido para n > 1,
n
1 X n
Sbn−1
2
= (Xi − X n )2 = b2 .
σ
n − 1 i=1 n−1 n
Luego Eθ (Sbn−1
2
) = σ 2 . Se tiene que Sbn−1
2
es un estimador insesgado y consis-
2
tente de σ .
Ejemplo II. Si X1 , ..., Xn son i.i.d. con ley de probabilidad N(µ, σ 2 ) siendo
θ = (µ, σ 2 ) parametro desconocido tomando valores en Θ = R × R+ . Por lo
bn2 ) es estimador consistente de (µ, σ 2 ) y (X n , Sbn−1
hecho (X n , σ 2
) es estimador
insesgado y consistente de (µ, σ 2 ).
121
16.5 Estimadores máximo verosı́miles
El estimador máximo verosı́mil es el valor del parametro que maximiza la prob-
abilidad de ocurrencia de la muestra. Para discutirlo coloquemonos en el caso
discreto. Sea pues X1 , ..., Xn i.i.d. a valores en el conjunto numerable I con
densidad discreta p(θ; ·) siendo θ el parametro tomado valores en el conjunto
convexo Θ. A la función
n
Y
Ln (a1 , ..., an ; θ) = Pθ (Xi = ai , i = 1, ..., n) = Pθ (Xi = ai )
i=1
n
Y
= p(θ; ai ), a1 , ..., an ∈ I,
i=1
se le llama la función de verosı́militud de la muestra. El estimador máximo

verosı́mil θbn de θ verifica
Ln (a1 , ..., an ; θbn (a1 , ..., an )) = max{Ln (a1 , ..., an ; θ) : θ ∈ Θ}.
Como log es creciente se tiene que θbn se caracteriza por
log Ln (a1 , ..., an ; θbn (a1 , ..., an )) = max{log Ln (a1 , ..., an ; θ) : θ ∈ Θ}.
Ahora bien
n
X
log Ln (a1 , ..., an ; θ) = log p(θ; ai ).
i=1
Si p(θ, a) es diferenciable en θ ∈ Θ y el máximo se encuentra en el interior

de Θ, el estimador máximo verosı́mil θbn verifica la condición de ser un punto
estacionario. En el caso en que θ = (θ1 , ..., θk ) es k−dimensional esta se escribe,
n
X 1 ∂p(θ; ai )
= 0, j = 1, ..., k.
b
p(θn ; ai ) ∂θj θ=θbn
i=1
Y la condición de ser máximo requiere como condición de segundo orden que la

matriz Hessiana evaluada en θbn sea definida negativa. En el caso unidimensional
esta condición de segundo orden es,
n
!
X 1 dp(θ, ai ) 1 d2 p(θ; ai )
− + < 0.
i=1 p2 (θbn ; ai ) dθ θ=θbn p(θbn ; ai ) dθ2 θ=θbn
Es enteramente analogo el caso en que X1 , ..., Xn i.i.d. son a valores en R con

densidad fθ siendo θ el parámetro a valores en el conjunto convexo Θ. La función
de verosı́militud de la muestra es la densidad conjunta, que por independencia
e igualmente distribuı́do es
n
Y
Ln (x1 , ..., xn ; θ) = f (θ; x1 , ...., xn ) = f (θ; xi ), x1 , ..., xn ∈ R.
i=1
122
El estimador máximo verosı́mil θbn de θ verifica
Ln (x1 , ..., xn ; θbn (x1 , ..., xn )) = max{Ln (x1 , ..., xn ; θ) : θ ∈ Θ}.
o equivalentemente
log Ln (x1 , ..., xn ; θbn (x1 , ..., xn )) = max{log Ln (x1 , ..., xn ; θ) : θ ∈ Θ},
con
n
X
log Ln (x1 , ..., xn ; θ) = log f (θ, xi ).
i=1
Todo el analisis sobre la condición de máximo en el caso diferenciable es analogo
al caso discreto. En particular, Si f (θ, x) es diferenciable en θ ∈ Θ y el máximo
se encuentra en el interior de Θ, el estimador máximo verosı́mil θbn verifica
la condición de ser un punto estacionario que en el caso θ = (θ1 , ..., θk ) es
k−dimensional se escribe,
n
X 1 ∂f (θ; xi )
= 0, j = 1, ..., k.
b
f (θ n ; x i ) ∂θj θ=θbn
i=1
En los dos ejercicios siguientes encontraremos los estimadores máximos verosı́miles

en el caso Bernoulli y Normal, solo verificaremos la condición de caso crı́tico.
Ejercicio 21.. Caso Bernoulli(θ). Analicemos el caso del lanzamiento de una
moneda, X1 , ..., Xn i.i.d. con X ∼ Bernoulli(θ). Luego el conjunto de valores
que toma cada variable I = {0, 1}, el parámetro toma valores en θ ∈ [0, 1]. Es
directo verificar que para para a ∈ {0, 1} se tiene pθ (a) = θa (1 − θ)1−a . En
efecto, esto da pθ (1) = θ, pθ (0) = 1 − θ. Luego, la función de verosimilitud es
n
Y Pn Pn
Ln (a1 , ..., 1n ; θ) = θai (1−θ)1−ai = θ i=1 ai
(1−θ)n− i=1 ai
, a1 , ..., an ∈ {0, 1}.
i=1
Luego
n
X n
X
log Ln (a1 , ..., 1n ; θ) = ( ai ) log θ + (n − ( ai )) log(1 − θ)
i=1 i=1
n
X
θ
= n log(1 − θ) + ( ai ) log .
i=1
(1 − θ)
Luego la condición de punto estacionario es

Pn Pn
i=1 ai n − i=1 ai
− = 0.
θbn 1 − θbn
lo que tiene como solución
n
1X
θbn (a1 , ..., an ) = ai .
n i=1
123
b 1 , ..., Xn ) = X n , la media empı́rica.
Luego el estimador máximo verosı́mil es θ(X
Ejercicio 22.. Caso N(µ, σ 2 ). Consideremos X1 , ..., Xn i.i.d. con X ∼ N(µ, σ 2 ).

El parametro es la pareja θ = (µ, σ 2 ) ∈ Θ = R× R+ . La función de verosmilitud
es
n
Y Pn 2
1 (xi −µ)2 i=1 (xi −µ)
Ln (x1 , ..., xn ; µ, σ 2 ) = √ e− 2σ 2 = (2πσ 2 )−n/2 e− 2σ 2 .
i=1 2πσ 2
Luego
n
n log(2πσ 2 ) 1 X
log Ln (x1 , ..., xn ; µ, σ 2 ) = − − 2 ( (xi − µ)2 ).
2 2σ i=1
La condición de punto estacionario ∂ log L/∂µ = 0 al evaluarla en (b bn2 ), nos

µn , σ
da
n
1 X
(xi − µ
bn ) = 0,
bn2 i=1
σ
por lo que el estimador máximo verosı́mil es µ bn (x1 , ..., xn ) = xn , es decir
µ
bn (X1 , ..., Xn ) = X n es la media empı́rica. Por otra parte la condición de
punto estacionario ∂ log L/∂σ 2 = 0 al evaluarla en (b bn2 ), nos da
µn , σ
n
n 1 X
− + ( bn )2 ) = 0.
(xi − µ
σn2
2b σn4 i=1
2b
Pn
Luego el estimador máximo verosı́mil es σ bn2 (x1 , ..., xn ) = n1 i=1 (xi − µ
bn ) 2
, esto
es
n
1X
bn2 (X1 , ..., Xn ) =
σ (Xi − X n )2 .
n i=1
Ejercicio 23. Un caso en que no se puede aplicar la diferenciabilidad pues el
máximo se encuentra en el borde, es el siguiente. Supongamos que X1 , ..., Xn
son i.i.d. distribuı́das según una Uniforme(0, θ] con θ ∈ (0, ∞). En este caso
fθ (x) = θ−1 1x∈(0,θ] ,
por lo que la función de verosı́militud es
Ln (x1 , ..., xn ; θ) = θ−n 1(x1 ,...,xn )∈(0,θ]n .
Luego θbn (x1 , ..., xn ) = max{x1 , ..., xn }, pues
Ln (x1 , ..., xn ; max{x1 , ..., xn }) = max{x1 , ..., xn }−n .
En efecto si θ < max{x1 , ..., xn } se tiene Ln (x1 , ..., xn ; θ) = 0 y si θ > max{x1 , ..., xn }
se tiene Ln (x1 , ..., xn ; θ) = θ−n < max{x1 , ..., xn }−n .
124
16.6 Estimadores suficientes
Los estimadores suficientes son tales que la probabilidad de la ocurrencia de las
variables sólo depende del estimador. Introduzcamolos en el caso discreto.
Definición 110. El estimador θbn es suficiente para el parametro θ en el caso

en que X es discreta si para a1 , ..., an ∈ I se verifica
b 1 , ..., an ) = θ) = hn (a1 , ..., an ), con θ(a
Pθ (X1 = a1 , ..., Xn = an | θ(a b 1 , ..., an ) = θ.
Esto implica que la función de verosimilitud se factoriza como sigue

b 1 , ..., an ), θ), a1 , ..., an ∈ I.
Ln (a1 , ..., an ; θ) = hn (a1 , ..., an )ϕ(θ(a
En efecto basta tomar
hn (a1 , ..., an ) = b 1 , ..., an ), ϕ(θ(a

Pθ (X1 = a1 , ..., Xn = an | θ(a b 1 , ..., an ), θ)
= b 1 , ..., an ) = θ).
Pθ (θ(a
En el caso aboslutamente continuo θn se dice suficiente si existen funciones

hn : Rn → R, ϕ : Θ2 → R tal que se satisfaga,
b 1 , ..., xn ), θ), x1 , ..., xn ∈ I.
Ln (x1 , ..., xn ; θ) = hn (x1 , ..., xn )ϕ(θ(x
Ejercicio 24. En el caso X1 , ..., Xn i.i.d. con ley de probabilidad Bernoulli(θ),

se tiene que X n es un estimador suficiente de θ pues del Ejericio I se tiene,
Pn Pn
ai
Ln (a1 , ..., 1n ; θ) = θ i=1 (1−θ)n− i=1 ai
= θn an (1−θ)n(1−an a1 , ..., an ∈ {0, 1}.
Ejercicio 25. Probemos que si X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 ),
bn2 es un estimador suficiente de (µ, σ 2 ). Del Ejericio II se tiene,
se tiene que (X n , σ
Pn 2
i=1 (xi −µ)
2 2 −n/2
Ln (x1 , ..., xn ; µ, σ ) = (2πσ ) e 2σ 2 .
Por otra parte, de (86) se tiene

n
X n
X
(Xi − µ)2 = (Xi − X n )2 + n(X n − µ)2 .
i=1 i=1
Luego
Pn 2 2
i=1 (Xi −X n ) +n(X n −µ)
Ln (x1 , ..., xn ; µ, σ 2 ) = (2πσ 2 )−n/2 e 2σ 2
nσ
bn2 +n(X −µ)2
n
= (2πσ 2 )−n/2 e 2σ 2 .
Luego basta tomar hn ≡ 1 y se cumple la factorización.
125
17 Intervalos de confianza y Tests de hipotesis
Ambos conceptos necesitan de evaluar la distribución de los estimadores que
fueron introducidos previamente. Algunos nuevos resultados de probabilidades
nos serán necesarios en esta tarea.
17.1 Intervalos de confianza

Por el momento coloquemenos en el caso en que el parametro θ ∈ Θ es uni-
dimensional, es decir Θ ⊆ R. Sea θbn = θbn (x1 , ..., xn ) un estimador de θ para
las observaciones xn , ..., xn . Un intervalo de confianza para el estimador es del
estilo |γL (θbn ), γR (θbn | que puede ser cerrado o abierto por la derecha o izquierda.
La idea es que este intervalo puede ser evaluado por las observaciones, y por
otra parte dado que θbn , (X1 , ..., Xn ) es una variable aleatoria entonces se puede
evaluar la probabilidad
Pθ (θ ∈ |γL (θbn ), γR (θbn )|).
Si α ∈ (0, 1) y se tiene
Pθ (θ ∈ |γL (θbn ), γR (θbn )|) ≥ 1 − α
entonces se dice que intervalo tiene confianza (al menos) 1 − α. La elección de

α es variada, por ejemplo α = 0.05, 0.01.0, 10 son valores usados- A medida que
se quiere mayor confianza 1 − α el intervalo de confianza crece, pues esa es la
forma en que el parametro pueda pertenecer al confianza con una probabilidad
mayor.
Se puede tener γL (θbn ) = inf Θ, en cuyo caso el intervalo de confianza se dice
derecho, ó tambien se puede dar γR (θbn ) = sup Θ, en cuyo caso se dice que el
intervalo de confianza es izquierdo. En ambos casos, el intervalo de confianza se
toma generalmente abierto por el extremo es el inf Θ ó sup Θ. Si esto no ocurre
en general el intervalo de confianza se toma cerrad por el extremo respesctivo.
Cuando Θ = R y θbn − γL (θbn ) = γR (θbn ) − θbn se le llama equilibrado.
Veamos algunos ejemplos.
Ejercicio 26. Supongamos X1 , ..., Xn i.i.d. con X ∼ N(µ, σ02 ) donde la media
µ ∈ R es el parámetro desconocido, aquı́ la varianza σ02 se supone conocida.
En este caso µ bn = µ bn (x1 , ..., xn ) = xn es la media
Pn empı́rica.
PnSabemosPn que si
Y1 , ..., Yn son i.i.d. con Yi ∼ N(µi P , σi2 ) entonces i=1 Yi ∼ N( i=1 µi , i=1 σi2 ).
n 2 2
Luego bajo la ley Pµ se tiene i=1 Xi ∼ N(nµ, nσ0 ), y obtenemos X n ∼
N(µ, σ02 /n). Ello equivale a
Xn − µ
√ ∼ N(0, 1).
σ0 / n
Para α tomemos xα > 0 tal que P(N(0, 1) < −xα ) = α/2, esto equivale a que
P(−xα < N(0, 1) < xα ) = 1 − α.
126
Luego, √
n(X n − µ)
Pµ ( −xα ≤ ≤ xα = 1 − α.
σ0
Se tiene
Xn − µ xα σ0 xα σ0
−xα ≤ √ ≤ xα ⇔ X n − √ ≤ µ ≤ Xn + √ .
σ0 / n n n
Luego
xα σ0 xα σ0
Pµ X n − √ ≤ µ ≤ X n + √ =1−α
n n
h i
Es decir X n − x√
α σ0
n
, X n + x√
α σ0
n
es un intervalo (centrado) de confianza 1 − α
√
de µ. Notemos que es de largo 2xα σ0 / n.
Ejercicio 27. Consideremos X1 , ..., Xn i.i.d. con X ∼ N(µ0 , σ 2 ), siendo µ0

conocida, y donde σ 2 ∈ (0, ∞) es el parámetro que se busca estimar. Se tiene
(Xi − µ0 )/σ ∼ N(0, 1), por lo que la independencia implica
n
X (Xi − µ0 )2
∼ χ2n .
i=1
σ2
Construyamos un intervalo de confianza izquierdo con confianza 1−α. Tomemos

wα,n tal que P(χ2n ≥ wα,n ) = α, es decir P(χ2n ≤ wα,n ) = 1 − α. De donde
deducimos,
Xn
−1
Pσ2 (wα,n (Xi − µ0 )2 ≤ σ 2 ) = 1 − α,
i=1
−1
Pn
y se tiene que [wα,n i=1 (Xi − µ0 )2 , ∞) es el intervalo de confianza buscado.
Teorema 111. Tomemos

P X1 , ..., Xn v.a.’s i.i.d. con X ∼ N(µ, σ 2 ). En-
n
tonces las v.a.’s Z = i=1 (Xi − X n )2 es independiente de X n y se cumple
Z/σ 2 ∼ χ2n−1 .
Prueba: Como (Xi −µ)/σ ∼ N(0, 1) basta demostrar el resultado para el caso
µ = 0, σ = 1.
Recordemos que del Ejericio 18, si X1 , ..., Xn v.a.’s i.i.d. con X ∼ N(0, 1), A es
una matriz ortogonal y Y ~ = AX~ entonces Y1 , ..., Yn son i.i.d. con Y ∼ N(0, 1).
Sabemos que las filas de una matriz ortogonal es una base ortonormal (esto
caracteriza las matrices ortogonales). Ello proviene de AAt = Id la matriz
identidad, luego Ati,• Aj,• = δ(i, j) para i, j = 1, ..., n por lo que cumple la
aseveración.
√ √
Por otra parte el vector (1/ n, ..., 1/ n) tienen norma (euclideana) 1, y hay
una base ortogonal que la contiene. Definamos una matriz A cuyas filas esten
127
√ √
constituı́da por tal base, siendo su última fila An,• = (1/ n, ..., 1/ n). Dado
que A es ortogonal el vector ~y = A~x satisface (ver (49),
n
X n
X
~tY
Yl2 = Y ~ =X
~ t At AX
~ =X
~ tX
~ = Xl2 .
i=1 i=1
Pn √ √ 2
Como Yn = ( i=1 Xi )/ n = nX n se tiene Yn2 = nX n . Luego
n−1
X n
X n
X 2
Yl2 = Xl2 − Yn2 = Xl2 − nX n .
i=1 i=1 i=1
De (86) se tiene
n
X n
X
(Xi − X n )2 = (Xi − µ)2 − n(µ − X n ))2 ,
i=1 i=1
Pn Pn−1 Pn−1
por lo que i=1 (Xi − X n )2 = i=1 Yl2 . Como i=1 Yl2 ∼ χ2n−1 obtenemos
Pn Pn−1
que i=1 (Xi − X n )2 ∼ χ2n−1 y por otra parte como i=1 Yl2 es independiente
Pn
de Yn concluı́mos que i=1 (Xi − X n )2 es independiente de X n .
Recordemos la definición de t de 62: si X, Z sin variables independientes entre
sı́ con X ∼ N(0, 1), Z ∼ χm entonces T = √ X se dice distribuı́da según
Z/m
tm Student con m grados de libertad, ella es simétrica con respecto al origen y
su densidad verifica
−(m+1)/2
Γ((m + 1)/2) t2
fT (t) = √ 1+ .
mπΓ(m/2) m
Ejercicio 28. Consideremos X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 )

con parámetros (µ, σ 2 ) ∈ R × R∗+ .
Construyamos un intervalo de confianza 1 − α para σ 2 . Del Teorema 111 se
tiene
Xn
(n − 1)Sbn−1
2
= (Xi − X n )2 ∼ χ2n−1 .
i=1
El intervalo de confianza será derecho. Tomemos wα,n−1 tal que P(χ2n−1 ≤

wα,n−1 ) = α. Luego
n
X
−1
Pµ,σ2 (wα,n−1 (Xi − X n )2 ≤ σ 2 ) = 1 − α,
i=1
−1 Pn 2
y se tiene que (wα.n−1 i=1 (Xi −X n ) , ∞) es el intervalo de confianza buscado.
Ahora construyamos un intervalo centrado de confianza 1 − α para µ. Del
Teorema 111 se tiene (n − 1)Sbn−1
2
∼ χ2n−1 y es independiete de X n . Como
√ (X n − µ)
Y = n =∼ N(0, 1),
σ
128
del Teorema 111 y de la definición 62 se tiene
√
n(X n − µ)
∼ tn−1 Student.
Sbn−1
Tomemos τα/2,n−1 > 0 tal que P(tn−1 Student ≤ −τα/2,n−1 ) = α/2. Luego, por
simetrı́a
√ !
n(X n − µ)
Pµ,σ2 −τα/2,n−1 ≤ ≤ τα/2,n−1 = 1 − α,
Sbn−1
de donde se obtiene el intervalo centrado de confianza(1 − α),

!
Sbn−1 Sbn−1
Pµ,σ2 X n − τα/2,n−1 √ ≤ µ ≤ X n + τα/2,n−1 √ = 1 − α. (87)
n n
17.2 Test de hipotesis

Un problema importante es verificar ciertas hipotesis sobre los parámetros. Por
ejemplo se quiere testear que una cierta moneda este equilibrada es decir que la
probabilidad de obtener cara sea 1/2.
El problema en toda su generalidad se coloca de la manera siguiente: hay una
partición de los valores del parámetro Θ = Θ0 ∪ Θ1 , y se quiere estudiar la
hipotesis nula H0 : θ ∈ Θ0 versus la hipotesis alternativa H1 : θ ∈ Θ1 . La
decisión será rechazar o no rechazar la hipotesis nula H0 . Esto lo haremos en
base al comportamiento de la muestra aleatoria simple X ~ = (X1 , ..., Xn ). Esta
conducta se analizará fijando una región R1 que es llamada región de rechazo:
y si la muestra X ~ cae en R1 se rechaza la hipotesis H0 , y si la muestra cae fuera
de R1 no se rechaza H0 .
~ es un estimador (o la función de un estimador) de θ, la región de rechazo
Si t(X)
puede ser del estilo
R1 = {~x : t(~x) ∈ R}
donde R es una región de R tal que si el estimador toma valores en éste ello
tenga una baja probabilidad para θ ∈ Θ0 . Con esta región, se rechaza H0 si
t(~x) ∈ R y no se rechaza H0 si t(~x) 6∈ R.
~ ∈ R1 ) se llama la potencia del
Si R1 es la región de rechazo la función Pθ (X
~ se tiene qie la
test. Ası́ si la región de rechazo es en base al estimador t(X)
potencia es Pθ (X~ ∈ R)
Analicemos el caso en que Θ0 = {θ0 } es un singleton. Se tiene H0 : θ = θ0 y
se dice que la hipotesis nula es simple. En este caso H1 : θ 6= θ0 . Fijemos un
α > 0. Una región R1 de rechazo se dice de confianza 1 − α si bajo la condición
θ = θ0 se tiene
~ ∈ R1 ) ≤ α,
Pθ0 (X
129
es decir si dado que se cumple θ = θ0 la probilidad de rechazar la hipotesis nula
θ = θ0 es menor o igual a α. Si Θ ⊆ R y si t(~x) es un estimador de θ, una región
de rechazo puede ser del estilo R = {~x : |t(~x) − θ0 | > ǫ(~x)} y ella es de confianza
1 − α si Pθ0 (|t(~x) − θ0 | > ǫ(~x)) ≤ α. Se rechazará la hipotesis nula H0 : θ = θ0
si |t(~x) − θ0 | > ǫ(~x) y en caso contrario no la rechazaremos.
Ejercicio 29. Consideremos X1 , ..., Xn i.i.d. con ley de probabilidad N(µ, σ 2 )
con parametros (µ, σ 2 ) ∈ R × R∗+ . Se quiere testear la hipotesis H0 : µ = µ0
versus H1 : µ 6= µ0 . Siendo X n un estimador de µ0 una región de rechazo de
confianza α es
Sbn−1
R = {~x : |xn − µ0 | > τα/2,n−1 √ }.
n
~
En efecto, por (87) se tiene Pµ (X ∈ R) = α.
0
Si se rechaza una hipotesis nula verdadera se dice que se comete un error de

tipo I y si se no se rechaza una falsa hiptesis nula se dice que se comete un error
de tipo II. Luego en el caso en que H0 : θ = θ0 y R1 es la región de rechazo, se
tiene que Pθ0 (X~ ∈ R1 ) es la probabilidad de cometer un error de tipo I, y que
~
1 − Pθ (X ∈ R1 ) es la probabilidad de cometer un error de tipo II cuando θ 6= θ0
es verdadera.
Ejercicio 30. Analicemos el caso Bernoulli cuando la hipotesis nula no es
simple. Sea pues X1 , ..., Xn i.i.d. con X ∼ Bernoulli(θ), siendo θ ∈ [0, 1] un
parametro desconocido. Fijemos un valor θ0 ∈ (0, 1) Pny analicemos el test sigu-
iente, H0 : θ ≤ θ0 , H1 : θ > θ0 . Consideremos Y = i=1 Xi = nX n cuya ley es
Binomial(n, θ). Más abajo probaremos que Pθ (Y ≥ k) es creciente con θ, esto
es X X
∀ θ1 < θ2 , l ∈ {0, .., n} : Pθ1 (Y = k) ≤ Pθ1 (Y = k). (88)
k≥l k≥l
En base a esta propiedad se propone una región de rechazo del estilo R = {Y ≥

c} para alguna constante c. Luego para tener un test de confianza 1 − α el valor
c deberı́a ser el menor valor que satisfaga Pθ0 (Y ≥ c) ≤ α.
Ahora probemos (88). Para ello nos bastará mostrar la siguiente monotonia
entre las densidades discretas:
Pθ2 (Y = k) Pθ (Y = k + 1)
∀ θ1 < θ2 , k ∈ {0, .., n − 1} : < 2 . (89)
Pθ1 (Y = k) Pθ1 (Y = k + 1)
P P
En, efecto si esto último ocurre y dado que k≥l Pθ1 (Y = k) = 1 = k≥l Pθ1 (Y =
k) deducimos que necesariamente se sumple que para algún k0 ,
Pθ2 (Y = k0 ) Pθ (X = k0 + 1)
... <1≤ 2 ≤ ...
Pθ1 (Y = k0 ) Pθ1 (X = k0 + 1)
Luego Pθ2 (Y = k) < Pθ2 (Y = k) para k < k0 y se ahı́ se deduce que se cumple
(88). Luego nos basta verificar (89) para la binomial, es decir que se cumple

n k n
k+1
k θ2 (1 − θ2 )
n−k
k+1 θ2 (1 − θ2 )n−k−1
∀ θ1 < θ2 , k ∈ {0, .., n − 1} : n k n−k
< n
k+1
.
k θ1 (1 − θ1 ) k+1 θ1 (1 − θ1 )n−k−1
130
Y efectivamente esto ocurre pues se reduce a (1 − θ2 )θ1 < (1 − θ1 )θ2 , lo que se
cumple si y solo si θ1 < θ2 . Ası́ pues para la binomial se cumple (88).
131
18 Regresión lineal y mı́nimos cuadrados
Coemzaremos por ver la recta de mı́nimos cuadrados o regrssión simple y de-
spues pasaremos a ver regersión en varias variables. En la literatura puede verse
modelos de regresión no-lineales.
18.1 Regresión simple

Nuestros datos son (xi , yi : i = 1, ..., n) y queremos establecer una recta que los
ajuste, yi = β0 + β1 xi , para i = 1, ..., n. Sin embargo esto no puede lograrse con
exactitud en datos empı́ricos, ası́ que se acepta un error en esta relación lineal
y se busca establecer la relación
yi = β0 + β1 xi + ǫi , i = 1, ..., n,
y como criterio
Pn usamos Pnel elegir la recta que minimice la suma de mı́nimos
cuadrados i=1 ǫ2i = i=1 (yi − (βb0 + βb1 xi ))2 . Esto es se estima (β0 , β1 ) por
los valores (βb0 , βb1 ) tal que
n
X n
X
(yi − (βb0 + βb1 xi ))2 = min{ (yi − (β0 + β1 xi ))2 : (β0 , β1 ) ∈ R2 }.
i=1 i=1
Se tiene
Pn 2 n
X
∂ i=1 ǫi
= −2 (yi − (β0 + β1 xi ))
∂β0 i=1
Pn 2 Xn
∂ i=1 ǫi
= −2 (yi − (β0 + β1 xi ))xi .
∂β1 i=1
Pn Pn
Definamos xy n = i=1 xi yi /n, x2 n = i=1 x2i /n. La condición estacionaria
equivale a
y n = βb0 + βb1 xn , xy n = βb0 xn + βb1 x2 n . (90)
Este punto estacionario es un mı́nimo pues la matrix Hessiana es

1 xn
H = 2n ,
xn x2 n
que es definida positiva. De donde los estimadores de mı́nimos cuadrados satis-

facen
Pn
xy n − y n xn (y − y n )(xi − xn )
b b b
β0 = y n − β1 xn . β1 = Pn i
= i=1 2
. (91)
i=1 (xi − xn )
2 2
x n − xn
Definamos las estimaciones ybi de yi , y los residuos b
ǫi :
ybi = βb0 + βb1 xi , b

ǫi = yi − ybi , i = 1, ..., n.
132
Tambien definamos los valores medios
Xn n
X
ybn = ybi /n, b
ǫn = ǫi /n.
b
i=1 i=1
ǫn = ybn − y n . De las definiciones y de la primera relación en (90)

Es directo que b
y en (91) se obtiene
ybn = βb0 + βb1 xn = y n .
Luego se cumplen las relaciones siguientes,
ybn = y n , b
ǫn = 0. (92)
Probemos que se verifica
n
X n
X
xi b
ǫi = 0, ybi b
ǫi = 0. (93)
i=1 i=1
NotemosPque basta probarPn la primera Pde ǫn = 0

estas relaciones pues unido a b
n n
ǫi = βb0 i=1 b
nos da i=1 ybi b ǫi + βb1 i=1 xib ǫi = 0. Ahora bien, usando (91)
obtenemos
Xn Xn
xi b
ǫi /n = xi (yi − βb0 − βb1 xi )/n
i=1 i=1
= xy n − βb0 xn − βb1 x2 n = xy n − (y n − βb1 xn )xn − βb1 x2 n

= xy − y xn + βb1 (x2 − x2 n ) = 0
n n n
Con ello se ha probado (93).

Se tiene yi = ybi + b
ǫi , luego
yi − y n = ybi − y n + b
ǫi
de donde
(yi − y n )2 = (b ǫ i )2
yi − y n + b
Desarrollando el término de la derecha y usando las relaciones (92) y (93) se
deduce
Xn Xn n
X n
X
(yi − y n )2 = yi − ybn )2 + 2
(b yi − y n )b
(b ǫi + ǫ2i
b
i=1 i=1 i=1 i=1
n
X n
X
= yi − ybn )2 +
(b ǫ2i .
b
i=1 i=1
Esto es, la suma de cuadrados totales es la suma de los cuadrados explicados

más la suma de residuos al cuadrado. La bondad del ajuste se mide por el
llamado coeficiente de determinación R2 que es dado por
Pn
2 yi − ybn )2
(b
R = Pi=1
n 2
∈ [0, 1].
i=1 (yi − y n )
Se tiene que 1 − R2 es la parte de la proporción de la suma de cuadrados que no

es explicada por la regersión. Luego si R2 es próximo a 0 el ajuste no es bueno.
133
18.2 Regresión en varias variables
El problema general se plantea como sigue. Se busca explicar o predecir
Pl una
variable Y por las funciones X1 , ..., Xl de manera lineal Y = β0 + j=1 βj Xj .
Notemos queP si se crea una variables constante X0 = 1, lo anterior se puede
l
escribir Y = j=0 βj Xj .
Luego, de manera general suponemos que se dispone k variables X1P , ..., Xk y se
k
quiere estudiar en que sentido se puede establecer una relación Y = j=1 βj Xj .
En general para esta formulación se admite que la relación se admite un error
ǫ, y se busca establecer la relación
k
X
Y = βj Xj + ǫ.
j=1
En las relaciones anteriores las funciones X1 , ..., Xn las llamaremos explicativas,

y a partir de ellas se busca conocer la variable Y llamada predictiva En este
esquema, se supone que hay un control de las variables Xj luego su variación se
debe a la manipulación que el experimentador ejerce sobre ellas. Esta variación
produce un cambio en la variable Y en cuya medición se admite cierto error
el que en una parte de nuestro esquema puede ser puramente numérico, puede
deberse a los instrumentos, falta de precisión, pero que en algún momento supon-
dremos que es de caracter aleatorio.
Luego si hacemos observaciones de estas variables, de las explicativas y la pre-
dictiva, observaciones indiciadas por i, entonces se satisface
k
X
Yi = βj Xi,j + ǫi . (94)
j=1
Lo que buscamos es estimar los coeficientes βj , j = 1, ..., k. Para ello se dispone

de n observaciones indiciadas por i = 1, ..., n, ası́ pues se dispone de las ob-
servaciones yi , i = 1, ..., n para la variable predictiva Y , y las observaciones
xi,j : i = 1, ..., n para las variables Xj , j = 1, ..., n. Supondremos que las obser-
vaciones son suficientes para determinar las incógnitas (βi : i = 1, ..., k), esto es
asumimos
k ≤ n.
De acuerdo a (94) en cada una de las medición de yi se comete un error que
continuaremos notando por ǫi , i = 1, ..., n. Luego se tiene
k
X
yi = βj xi,j + ǫi , i = 1, ..., n. (95)
j=1
Escribamos estas relaciones en términos vectoriales y matriciales. Notemos
~y = (yi : i = 1, ..., n), ~ǫ = (ǫi : i = 1, ..., n)), ~xj = (xi,j : i = 1, ..., n), j = 1, ..., k.
134
Introduzcamos la matriz de variables explicativas X cuyas columnas son los
vectores ~xj , j = 1, .., k, esto es
X = (xi,j : i = 1, ..., n; j = 1, ..., k).
Por último notemos β~ = (β1 , ..., βk ) el vector de coeficientes lineales. Luego las
relaciones (95) se escriben,
~y = X β~ + ~ǫ. (96)
Junto a introducir el modelo, Gauss introduce el criterio de elegir el estimador
de β~ que minimiza la suma de errores cuadráticos. Este estimador lo notamos
~b
β y se llama de mı́nimos cuadrados, luego el debe verificar min ~ǫt ~ǫ, esto es,
~b t ~b ~ t (~y − X β)
~ : β~ ∈ Rk }.
(~y − X β) (~y − X β) = min{(~y − X β)
Notemos que
 2
n
X k
X
~b t ~b y i −
(~y − X β) (~y − X β) = xi,j  .
i=1 j=1
En el próximo resultado, la parte (a) es un resultado de minimización en el

cual no juega ningún aspecto probabilı́stico, pues el error pudo deberse solo a
problemas numéricos.
Teorema 112. (a) Suponganos que los vectores columnas (x•,j : j = 1, ..., k)
~
son linealmente independientes. Entonces el estimador βb de mı́nimos cuadrados
satisface
~b
β = (X t X)−1 X t ~y . (97)
(b) Asumamos que el vector de errores ~ǫ es un vector aleatorio que verifica
E(~ǫ) = ~0. (98)

~
Entonces βb = (X t X)−1 X t ~y es un estimador insesgado de β.
(c) Adicionalmente a la condición E(~ǫ) = 0 asumamos que la matriz de covari-
anzas de ~ǫ verifica Cov(~ǫ) = σ 2 Id con σ 2 > 0, es decir
Var(ǫ2i ) = σ 2 , Cov(ǫi , ǫj ) = 0, i = 1, ..., n, j 6= i. (99)
(Es decir los errores de distintas observaciones no están correlacionados, y todos

los errores tienen la misma varianza σ 2 , propiedad que se llama homocedasti-
~
cidad). Entonces βb es de matriz de covarianza mı́nima dentro de la clase de
estimadores insesgados lineales en ~y , esto significa que si ~β = (β 1 , ..., β k ) es
lineal en ~y e insesgado entonces se verifica
~ − Cov(~β) ≤ 0 (es semi-definida negativa).
Cov(β) (100)
135
Otra manera de decirlo es que se cumple
k
X k
X
∀~a = (a1 , ..., ak ) ∈ Rk : Var( ai βbi ) ≤ Var( ai β i ). (101)
l=1 l=1
Prueba: ~ = {(~y − X β)
(a) Definamos ϕ(β) ~ t (~y − X β).
~ Se tiene,
~ = ~y t ~y − 2β t X t ~y + β~ t X t Xβ.
ϕ(β)
La condición de primer orden para la minimización de esta cantidad es ∂ϕ(β)/∂βi =
0, i = 1, ..., n, lo que entrega la relación,
~b
2X t ~y = 2X t X β,
~
aquı́ βb indica un estimador verificando la condición de mı́nimo. Como las k
columnas de X son independientes y k ≤ n, se tiene que el rango de la matriz
X t X es k, como ella es de dimensión k deducimos que es invertible, lo que nos
~
permite deducir que βb satisface la relación (97). Para verificar que es un mı́nimo
Por otra parte se tiene que la matriz Hessiana satisface
∂ 2 ϕ(β)
= 2(X t X)i,j , i, j = 1, ..., k,
∂βi ∂βj
luego la matriz Hessiana es X t X la que es definida positiva, en efecto ~at X t X~a =
||X~a||2 ≥ 0, y X t X tiene rango k por lo que ||X~a||2 = 0 solo sı́ ~a = ~0. Con-
~ alcanza su mı́nimo en ~β.
cluı́mos que ϕ(β) b
(b) De la condición (98) se obtiene que para toda matriz A con n columnas se
verifica E(A~ǫ) = AE(~ǫ) = ~0. De donde
~b
E(β) = E((X t X)−1 X t ~y ) = E((X t X)−1 X t (X β~ + ~ǫ)) = (X t X)−1 X t X β~ = β.
~
~
Hemos probado que βb es insesgado.
(c) Sea ~β = (β i : i = 1, ..., k) un estimador de lineal en ~y , es decir ~β = C~y .
Tomando A = C − (X t X)−1 X t se tiene
~β = ((X t X)−1 X t + A)~y = ((X t X)−1 X t + A)(X β~ + ~ǫ).
~
Asumamos que ~β es insesgado, como βb lo es y E(X β~ + ~ǫ) = X β,
~ obtenemos
β~ = E(~β) = β~ + AXβ
Luego AX β~ = 0 para todo β~ ∈ Rk , y se obtiene AX = 0. Ahora bien la matriz

de covarianza de ~β satisface
Cov(~β) = E(C~y ~y t C t ) = E(C(X β~ + ~ǫ)(X β~ + ~ǫ)t C t )

= E(C~ǫ~ǫt C) = σ 2 CC t ,
136
pues E(CX β~ ~ǫ)t C t ) = E(C~ǫ X β)
~ = 0. Luego
Cov(~β) = σ 2 ((X t X)−1 X t + A)(X X t X)−1 + At ))

~b
= σ 2 Cov(β) + σ 2 AAt ,
donde usamos que AX = 0, X t At = 0. Como AAt es simétrica semi-definida

positiva se obtiene el resultado. Por último para ~a ∈ Rk obtenemos
~b ~b ~b
Var(~at ~β) = ~at Cov(~β)~a = ~at Cov(β) ~a + σ 2~at AAt ~at ≥ ~at Cov(β) ~a = Var(~at β).
Lo que prueba el resultado.
137
19 Apéndice 1: Demostración de propiedades de
variables aleatorias y de funciones Borelianas
X : Ω → R es una variable aleatoria (v.a.) a valores en R si X −1 (C) ∈ B para
todo Boreliano C ∈ B(R).
Lema 113. Si la clase I ⊆ P(R) es tal que σ(I) = B(R) entonces X es v.a.
si y solo si X −1 (C) ∈ B para todo C ∈ I.
Prueba: Basta probar que
H := {C ∈ B(R) : X −1 (C) ∈ B} es una σ − álgebra.
En efecto, unido al hecho que I ⊂ H uno concluye que B(R) = H. La afirmación

que H es una σ−álgebra se deduce de las siguientes igualdades:
[ [
Ω = X −1 (R), ∅ = X −1 (∅), X −1 (R\C) = Ω\X −1 (C), X −1 ( An ) = X −1 (An ).
n∈N n∈N
Como B(R) = σ(L) con L = {(−∞, x] : x ∈ R} para mostrar que X : Ω →

R es v.a. basta probar que X −1 (−∞, x]) ∈ B para todo x ∈ R, y como
X −1 (−∞, x]) = {X ≤ x}, basta mostrar que {X ≤ x} ∈ B para todo x ∈ R.
Para la v.a. X su σ−álgebra generada es
σ(X) = {X −1 (B) : B ∈ B(R)} = X −1 (B(R)).
Si Y es v.a. diremos que Y es σ(X)−medible si σ(Y ) ⊆ σ(X).

De las referencias (12) y (13) se tiene que
X + , X − , |X| son σ(X) − medibles.
Nota 114. Si C ∈ B(R) y X : Ω → R es v.a. tal que X(Ω) ⊆ C diremos

que X es v.a. a valores en C. Se tiene que X : Ω → R es v.a. si y solo si
X : Ω → C es v.a. a valores en C donde C está dotado de la σ−álgebra inducida
B(C) = {A ∩ C : A ∈ B(R)}.
Introduzacamos llas v.a. simples.
Definición 115. Una v.a. X :→ R se dice simple si toma un número finito
de valores, es decir si el conjunto imagen X(Ω) es finito.
Sea X :→ R es una función que toma un número finito de valores. Se tiene que
X es v.a. (simple) si {X = a} ∈ B para todo a ∈ X(Ω). Probemoslo. Para ello
escribamos I = X(Ω), que por hipotesis es finito. Y se tiene
[
{X ∈ C} = {X = a}, (102)
a∈C∩I
138
y como este conjunto es una unión finita de conjuntos en B, deducimos el está
en B. Observemos que puede ser vacı́o cuando C ∩ I = ∅.
Observemos que 1Ω donde 1Ω (ω) = 1 para todo ω ∈ Ω por lo que la v.a constante
Xa se escribe Xa = a 1Ω .
Si X : Ω → R es v.a. simple con I = X(Ω) (finito pues X es simple). Al tomar
{X = a} = {ω ′ ∈ Ω : X(ω ′ ) = a} ∈ B, a ∈ I, la v.a. X simple podemos
escribirla en términos de indicadoras,
X
X= a 1{X=a} . (103)
a∈I
La propiedades que la suma y el producto de v.a.’s es v.a., se prueban primero

para v.a. simples Para ello tomemos X, Y v.a.’s simples (es decir tomado un
número finito de valores). Probemos X + Y es v.a. En efecto tomando
X X
X= a 1{X=a} , Y = b 1{Y =b} , ∀a ∈ I, b ∈ J, {X = a} ∈ B, {Y = b} ∈ B.
a∈I b∈J
Se tiene:
X X
X +Y = (a+b)1{X=a,Y =b} , X · Y = (a·b)1{X=a,Y =b} , (104)
(a,b)∈I×J (a,b)∈I×J
que son v.a.’s simples pues los conjuntos Aa,b = {X = a, Y = b} = {X =

a} ∩ {Y = b} son disjuntos y están en B. Lo anterior prueba las partes (i) y
(iii) de la Propiedad 25 (pues para la división es analogo).
Recordemos que (vi) de la Propiedad 25 ya fue probado, y en este Apéndice lo
usaremos en varias ocasiones, por lo que lo identificaremos por
Si ∃ lim Xn entonces lim Xn es v.a. (105)
n→∞ n→∞
Teorema 116. Si X : Ω → R se cumple,

X v.a. ⇔ X = lim Xn , con Xn v.a. simple, Xn ∈ σ(X), n ∈ N; (106)
n→∞
y si X ≥ 0 se tiene,
X v.a. ⇔ X = lim ր Xn con Xn v.a. simple, Xn ∈ σ(X), Xn ≤ Xn+1 , n ∈ N.
N →∞
(107)
Si X v.a. entonces se cumple las relaciones,
X v.a., B ∈ B ⇒ X 1B v.a., (108)
X = lim X1|X|≤n , (109)
n→∞
siendo X1|X|≤n v.a. acotada por n.
Se tiene,
lim Xk 1{∃ lim Xk } es v.a.. (110)
k→∞ k→∞
139
Prueba: Mostremos la relación (108). Si x < 0, {X 1B ≤ x} = {X ≤ x} ∩ B
y si x ≥ 0, {X 1B ≤ x} = ({X ≤ x} ∩ B) ∪ B c , y se tiene (108). Notemos que
(105) junto |X| v.a. y (108), implican (109).
Ahora mostremos (107). Sea X ≥ 0. Si X = lim ր Xn con Xn v.a. simple,

N →∞
de (105), deducimos X v.a.. Probemos la conversa, por lo que asumimos X v.a..
Por la relación (109), nos basta probarlo en el caso acotado: X ≤ N para algún
N . Para n ∈ N definamos los conjuntos
B0,n = X −1 ({0}), Bk,n = {X ∈ ((k − 1)2−n , k2−n ]} si k ∈ {1, .., N 2n }. (111)
Si X es v.a. se tiene que la familia de conjuntos (Bk,n : k = 0, .., n2n ) están en

B y son disjuntos. Luego
X
Xn = (k − 1) 2−n 1Bk,n (112)
k=1,..,N 2n
es una v.a. simple. Probemos que Xn ≤ Xn+1 . Se tiene
Bk,n = B2k,n+1 ∪ B2k+1,n+1 , Xn+1 1B2k,n+1 = Xn 1B2k,n+1 ,

Xn+1 1B2k+1,n+1 = (Xn + 2−(n+1) )1B2k+1,n+1 , k = 1, .., N 2n .
Luego se deduce que (Xn : n ∈ N) es una familia creciente de funciones. Por

otra parte por definición, se tiene que Bk,n ∈ σ(X), luego Xn ∈ σ(X). Y como
|Xn − X| ≤ 2−n se deduce la conversa en (107):
X = lim ր Xn .
n→∞
Podemos suponer |X| ≤ N para algún N . Consideremos las familias de conjun-

+ −
tos (Bk,n : k = 0, .., n2n ) y (Bk,n : k = 0, .., n2n ) asociadas respectivamente a
+ −
X y X , podemos construı́r los lı́mites,
X + = lim ր (X + )n , X − = lim ր (X − )n ,
n→∞ n→∞
de donde
X = X + − X − = lim ((X + )n − (X − )n ),
n→∞
+ −
siendo (X )n − (X )n v.a. simple. Usando (105) obtenemos el resultado.
Recordemos que usando (104) se prueba que la suma y multiplicación de v.a.’s

simples son v.a.’s simples. Ahora probemos que si X, Y v.a.’s entonces X+Y v.a.
Usaremos (105), por lo que por (109) podemos suponer el caso acotado |X| ≤ N
e |Y | ≤ N para algún N . Se tiene que X + Y = X + + Y + − (X − + Y − ). Luego
X + Y = lim ((X + )n + (Y + )n − (X − )n − (Y − )n ),
n→∞
140
Por (105) obtenemos X + Y es v.a.. Esto muestra que si X + , X − son v.a.’s
entonces X es v.a..
Por otra parte, también se tiene

X·Y = lim (X + )n · (Y + )n + (X − )n · (Y − )n − (X + )n · (Y − )n − (X − )n · (Y + )n ) ,
n→∞
y de nuevo por (105), se obtiene que X · Y es v.a. Por último, si Y v.a. entonces
Y −1 1Y 6=0 es v.a.. Por (108) nos basta mostar que si Y v.a. tal que {Y = 0} = ∅
entonces Y −1 v.a.. Esto lo podemos hacer tomado lı́mites, pero también resulta
de otras caracterizaciones, como se explica en la Ejercicio 13 de más abajo.
Definición 117. Una función g : R → R se dice Boreliana si g −1 (C) ∈ B(R)

para todo C ∈ B(R).
Para C0 ∈ B(R) definimos h : C0 → R es Boreliana si h−1 (C) ∈ B(R) ∩ C0 para
todo C ∈ B(R). (Como veremos en la parte (ii) de la siguiente Proposición esta
definición no agrega funciones que no conozcamos por las Borelianas).
Al conjunto de funciones Borelianas podemos aplicar el Teorema anterior. Y se

tiene.
Proposición 118. (a) El conjunto de funciones Borelianas contiene a las

funciones reales simples (i.e. tomando número finito de valores), es cerrada
para combinaciones lineales, multiplicación, máximo y mı́nimo de funciones,
lı́mite de funciones, y cuando extendemos R a R ∪ {−∞, ∞}, es cerrada para
lı́mite inferior y superior respectivamente.
(b) Sea C0 ∈ B(R). Si g es boreliana entonces la restricción g|C0 : C0 → R es
boreliana. Recı́procamente, si g0 : C0 → R es boreliana entonces la extensión g :
R → R es Boreliana, siendo esta función tal que g|C0 = g0 , g|R\C0 : R \ C0 → R
cualquier Boreliana en R \ C0 , en particular una constante.
Prueba: Toda la parte (a) se deduce del Teorema 116 pues una función es
Boreliana si cumple las condiciones de v.a. cuando (Ω, B) = (R, B(R)).
(b) Se deduce de g|−1
C0 (C) = g
−1
(C) ∩ C0 .

h i h i
X v.a. , g : R → R Boreliana ⇒ g ◦ X : X → R, ω → g(X(ω)), v.a. .
(113)
Y se cumple g ◦ X ∈ σ(X).
Más aún, para X, Y v.a.’s se tiene
h i h i
Y ∈ σ(X) ⇔ ∃g : R → R Boreliana tal que Y = g ◦ X . (114)
141
Prueba: Si C ∈ B(R) se tiene (g ◦ X)−1 (C) = X −1 (g −1 (C)) ∈ B(R) pues
g −1 (C) ∈ B(R) y X es v.a.. Luego, se tiene
(g ◦ X)−1 (B(R)) = X −1 (g −1 (B(R))) ⊆ X −1 (B(R)).
De donde g(X) ∈ σ(X). Solo nos falta mostrar la implicación directa en (114).
Sea pues Y v.a. tal que Y ∈ σ(X).
P
Supongamos primero que Y es v.a. simple, ası́ se tiene Y = a∈I a1{Y =a} con
P(Y = a) > 0. Luego σ(Y ) = σ({Y = a} : a ∈ I). Por hipotesis se cumple
σ({Y = a} : a ∈ I) ⊆ σ(X), en particular {YP= a} = X −1 (Ca ) para Ca ∈ B(R),
a ∈ I = 1. De donde Y = g(X) con g = a∈I a1Ca . Y se tiene g es simple,
luego es una función Boreliana por la Proposición 118. Notemos que g(x) = 0
si x 6∈ Y (Ω).
Sea ahora Y ≥ 0. Luego por la relación (107) del Teorema 116 se cumple
Y = lim ր Yn con Yn v.a. simple, Yn ∈ σ(Y ), Yn ≤ Yn+1 , n ∈ N.

N →∞
Como Yn v.a. simple, Yn ∈ σ(Y ) ⊆ σ(X), por la parte anterior deducimos

Yn = gn (X) con gn función Boreliana en su forma reducida. Además Yn ≤ Yn+1
implica gn ≤ gn+1 . De donde Y = g(X) con g := lim ր gN . Finalmente para
N →∞
Y v.a. colocamos Y = Y + − Y − y sabemos que Y + ∈ σ(Y ), Y − ∈ σ(Y ). Por
la última parte Y + = g+ (X), Y − = g− (X) para g+ , g− : R → R Borelianas
(no-negativas), luego Y = g(X) con g = g+ − g− función Boreliana.
Nota 120. Las funciones Borelianas contiene el conjunto de funciones con-

tinuas, las funciones continuas por partes con un conjunto discreto de discon-
tinuidades, las funciones monótonas y las funciones a variación acotada.
Basta probarlo para una función continua. Sea U (R) = {U : U ⊆ R, U abierto }.
Se tiene que g continua entonces g −1 (U ) ∈ U (R) para todo U ∈ U (R). Como
U ⊂ B(R) deducimos g −1 (U ) ∈ B(R) para todo U ∈ U (R). Finalmente como
B(R) = σ(U ), concluı́mos que g es Boreliana.
Ejercicio 13. Si Y : Ω → R v.a. tal que {Y = 0} = ∅ entonces 1/Y es v.a. En

efecto 1/Y = g(Y ) con g : R → R dada por g(x) = 1/x si x 6= 0, g(0) = 0. Se
tiene g Boreliana, luego por la Proposición 119 concluı́mos que 1/Y es v.a.
142
20 Apéndice 2: Demostración propiedades de
Esperanza
Sea X v.a., X ≥ 0. En el Teorema 116, relación (107), se estableció que
X = lim ր Xn donde ր es Xn v.a. simple, Xn ≤ Xn+1 , Xn ∈ σ(X) n ∈ N.
N →∞
Unido a este hecho usaremos el siguiente resultado, que no desostraremos:

Lema de Beppo Levi. Se tiene
lim ր Xn = lim ր Yn ⇒ lim ր E(Xn ) = lim ր E(Yn ).
n→∞ n→∞ n→∞ n→∞
Luego podemos definir E(X) como sigue.
Definición 121. Sea X v.a., X ≥ 0, entonces definimos

E(X) = lim ր E(Xn ) donde X = lim ր Xn , Xn v.a. simple , n ∈ N.
n→∞ n→∞
Notemos que E(X) ∈ [0, ∞].

Diremos que la v.a. X ≥ 0 es integrable o que tiene esperanza finita y notaremos
X ∈ L1 , si E(X) < ∞.
Sea X v.a., E(X) está definida si E(X + ) < ∞ o E(X − ) < ∞, y en éste caso
definimos
E(X) = E(X + ) − E(X − )
Se dirá que la v.a. X es integrable o tiene esperanza finita, y notamos X ∈ L1 ,
si E(X + ) < ∞ y E(X − ) < ∞, en cuyo caso E(X) ∈ R, es decir es finita.
Sean X + = lim ր Yn , X − = lim ր Zn con Yn , Zn v.a.’s simples , n ∈ N.
n→∞ n→∞
Entonces |X| = X + + X − = lim ր (Yn + Zn ), y deducimos que
n→∞
E(|X|) = E(X + ) + E(X − )

Es directo mostrar que:
Propiedad 122. Sea X v.a..

(a) Se tiene X ∈ L1 ⇔ |X| ∈ L1 , es decir E(X) finita si y solo si E(|X|) finita.
(b) Si |X| ≤ Y con E(Y ) < ∞ entonces X ∈ L1 .
♠ Notemos que del Lema de Beppo Levi se deduce el Teorema de Convergencia

Monótona:
E( lim ր Xn ) = lim ր E(Xn ).
n→∞ n→∞
Establezcamos la extensión del Teorema 66.
143
Teorema 123. Sean X, Y ∈ L1 , α, β ∈ R.
(a) E(E(X)) = E(X) (idempotencia).
(b) X ≤ Y implica E(X) ≤ E(Y ) (monótona). En particular: X ≥ 0 implica
E(X) ≥ 0.
(c) E(αX + βY ) = αE(X) + βE(Y ) (lineal).
(d) E(X − E(X)) = 0.
(e) Sea D convexo conteniendo X(Ω) y h : D → R función convexa y tal que
h(X) ∈ L1 , entonces
h(E((X)) ≤ E(h(X)) desiguladad de Jensen. (115)
(f ) Se tiene i

X ≥ 0, E(X) = 0 ⇒ P(X = 0) = 1. (116)
En particular E(|X|) = 0 implica P(X = 0) = 1

(g) Si X, Y son v.a.’s independientes, entonces
E(X · Y ) = E(X) · E(Y ). (117)
Prueba: No demostaremos todo el resultado, solo algunas partes de este.

(b) Probemoslo primero para 0 ≤ X ≤ Y . Por la definición de conjuntos en
(111), se tiene que las v.a.’s construı́das en (112) verifican
0 ≤ Xn ≤ Y n , X = lim ր Xn , Y = lim ր Xn ,
n→∞ n→∞
luego E(Xn ) ≤ E(Yn ) para todo n ∈ N, y se deduce E(X) ≤ E(Y ). En caso

general X ≤ Y se tiene X + ≤ Y + , X − ≥ Y − por lo que E(X) = E(X + ) −
E(X − ) ≤ E(Y + ) − E(Y + ) = E(Y ).
(g) Probemoslo primero para X, Y v.a.’s independientes, X, Y ≥ 0. Se tiene que

X, Y verifican que existen (Xn : n ∈ N), (Yn : n ∈ N), Xn ր, Yn ր, Xn , Yn ,
v.a.’s simples, Xn ∈ σ(X), Yn ∈ σ(Y ) para n ∈ N, con
X = lim ր Xn , Y = lim ր Yn .
n→∞ n→∞
Luego X · Y = lim ր Xn · Yn , por lo que

n→∞
E(X · Y ) = lim E(Xn · Yn ).

n→∞
Como Xn ∈ σ(X), Yn ∈ σ(Y ), y por hipotesis σ(X) es independiente de σ(Y ),

se deduce Xn e Yn independientes por lo que
E(Xn · Yn ) = E(Xn )E(Yn )
144
y concluı́mos
E(X · Y ) = lim E(Xn )E(Yn ) = lim E(Xn ) · lim E(Yn ) = E(X)E(Y ).

n→∞ n→∞ n→∞
Ahora si X, Y v.a.’s independientes se tiene que X = X + − X − , Y = Y + − Y − ,

con X + , X − ∈ σ(X), Y + , Y − ∈ σ(X). Luego X + y X − son independientes de
Y + , Y − . Luego, por la parte ya probada para v.a.’s no-negativas,
E(X · Y ) = E((X + − X − )(Y + − Y − ))

= E(X + · Y + − X + · Y − − X − · Y + + X − · Y − )
= E(X + )E(Y + ) − E(X + )E(Y − ) − E(X − )E(Y + ) + E(X − )E(Y − )
= E(X)E(Y ).
145
21 Apéndice 3: Lema de Borel Cantelli y de-
mostración c.s. en Teorema Grandes Números
Recordemos la Proposición 124 estableciendo las relaciones entre las convergen-
cias y probemosla.

X = lim Xn P − c.s. ⇒ X = lim Xn en probabilidad P, (118)
n→∞ n→∞
p
X = lim Xn en L ⇒ X = lim Xn en probabilidad P. (119)
n→∞ n→∞
Prueba: Probemos (118). Notemos

\ [
A = {ω ∈ Ω : X(ω) = lim Xn (ω)} = An,m siendo
n→∞
m∈N n∈N
\
An,m = {ω ∈ Ω : |Xk (ω) − X(ω)| ≤ 1/m}.
k≥n
P(A) = 1. Por otra parte para m ∈ N fijo se tiene

Por hipotesis se tiene S
An,m ⊆ An+1,m y A ⊆ n∈N An,m . Por continuidad monótona de P obtenemos:
1 = lim P(An,m ).
n→∞
Como esto es para todo m ∈ N, ello nos da el resultado.

Probemos (119). La desigualdad de Markov (78) aplicada a |Xn − X| nos da:
1
∀ǫ > 0 : P(|Xn − X| > ǫ) ≤ E(|Xn − X|p ).
ǫp
Tomando lim en la desigualdad nos da el resultado.
n→∞
Un resultado útil para estudiar la convergencia de v.a.’s es el Lema de Borel
Cantelli referido a la realización de un conjunto infinito de eventos. Intreoduz-
camos previamente algunas definiciones. Sea (An : n ∈ N) ⊆ P(Ω) una clase
numerable (infinita) de subconjuntos de Ω. Se define
\ [ [ \
lim sup An = An , lim inf An = Ak .
n→∞ n→∞
n∈N k≥n n∈N k≥n
Se tiene,
(lim sup An )c = lim inf Acn ;
n→∞ n→∞
ω ∈ lim sup An ⇔ |{n : ω ∈ An }| = ∞, ω ∈ lim inf An ⇔ |{n : ω ∈ Acn }| < ∞.

n→∞ n→∞
En el caso lim sup An = lim inf An se dice que existe lim An y se define por
n→∞ n→∞ n→∞
lim An = lim sup An = lim inf An .
n→∞ n→∞ n→∞
146
Lema 125. Sea (An : n ∈ N) ⊂ B. Entonces:
P
(a) Si P(An ) < ∞ entonces P(lim sup An ) = 0.
n∈N n→∞
P
(b) Si los eventos (An : n ∈ N) son P−independientes y P(An ) = ∞ entonces
n∈N
P(lim sup An ) = 1.
n→∞
P
Prueba: (a) La hipotesis implica lim k≥n P(Ak ) = 0. Luego, de la
n→∞
definicón del lı́mite superior de conjuntos, la Proposición 9 (continuidad mono-
tona de P) y la Proposición 10 (sub-σ-aditividad de P), se obtiene
 
[ X
P(lim sup An ) = lim P( Ak ) ≤ lim  P(Ak ) = 0.
n→∞ n→∞ n→∞
k≥n k≥n
S
(b) Por la Proposición 9, basta
T probar que para todo n se tiene P( k≥n Ak ) = 1
o equivalentemente que P( k≥n Ack ) = 0. Ahora bien, por independencia se
tiene
\ N
\ N
Y N
Y
P( Ack ) = lim P( Ack ) = lim P(Ack ) = lim (1 − P(Ak )).
N →∞ N →∞ N →∞
k≥n k=1 k=1 k=1
P
Usemos 1 − x ≤ e−x y la hipotesis P(An ) = ∞ para obtener:
n∈N
\ PN P
P( Ack ) ≤ lim e− k=1 P(Ak )
= e− k∈N P(Ak )
= 0.
N →∞
k≥n
Ahora mostremos:
Lema 126. Si para ǫ > 0 se tiene para una constante K < ∞,

X
P (|Xn − X| > ǫ) ≤ an con an < ∞ ,
n∈N
entonces X = lim Xn P-c.s..

n→∞
P
Prueba: Coloquemos ǫ = 1/m con m ∈ N. Como n∈N P (|Xn − X| > 1/m) <
∞, usando el Lema de Borel Cantelli (a) deducimos
P(lim inf {|Xn − X| ≤ 1/m}) = 1.

n→∞
Luego tormando la intersección se tiene,
P(∀m ∈ N : lim inf {|Xn − X| ≤ 1/m}) = 1,

n→∞
147
es decir
P(ω ∈ Ω : ∀m ∈ N ∃n(m), ∀k ≥ n(m) : |Xn (ω) − X| ≤ 1/m}) = 1.
El resultado está probado.
Enunciaremos el Teorema de los Grandes Números para v.a.’s i.i.d. enP
su gener-
N
alidad, este establece la convergencia de la media empı́rica X N = N1 n=1 Xn
a la media teórica E(X). Este enunciado se hace en general, pese a que solo lo
probaremos con hipotesis adicionales.
Teorema 127. Sean (Xn : n ∈ N) una sucesión de v.a.’s i.i.d. con E(Xn )
finita. Entonces
lim X n = E(X) P − c.s. (120)
n→∞
Si (Xn : n ∈ N) ⊂ Lp para p ≥ 1, entonces
lim X n = E(X) en Lp . (121)
n→∞
En particular lim X n = E(X) en probabilidad P.

n→∞
Prueba: Ya mostramos la convergencia para p = 2, y por la Proposición 124

se tiene la convergencia en probabilidad P.
Mostremos (120) bajo el siguiente supuesto adicional:
Xn ∈ L4 , esto es ρ = E(Xn4 ) < ∞.
Observemos que esto implica que |Xn | ∈ Lp para p ∈ [1, 4]. Ahora notemos
µ = E(Xn ) y σ 2 = ~a(Xn ).
Pn
Expandamos E( i=1 (Xi − µ)4 ). Como (Xi − µ) es independiente de (Xj − µ)
si i 6= j, todos los términos que involucren
(Xi − µ)3 (Xj − µ), (Xi − µ)(Xj − µ)(Xk − µ)2 con i, j, k 6=′ s
tienen E nula. Además, por independencia se tiene para j 6= i, E((Xi −µ)2 (Xj −
µ)2 )) = σ 2 . Y por ser igualmente distribuı́dos se obtiene:
n
X
E( (Xi − µ)4 ) = nρ + n(n − 1)σ 4 .
i=1
Luego por desigualdad de Markov-Tchevychev,

n
! n
X 1 X
P |X n − µ| > ǫ = P | (Xi − µ)| > nǫ ≤ E(( (Xi − µ)))4 )
i=1
n4 ǫ4 i=1
nρ + n(n − 1)σ 4 K
≤ 4 4
≤ 2,
n ǫ n
P
para una constante K < ∞. Como n∈N Kn−2 < ∞. Por el Lema 126 deduci-
mos el resultado.
148
21.1 Paseo Aleatorio
Sean (Yk : k ∈ N) v.a.’s i.i.d. con P(Yk = 1) = p = 1 − P(Yk = −1). Defina
n
X
Sn = Yk , n ∈ N,
k=1
el paseo aleatorio en Z. Observe que (Sn : n ∈ N) no son independientes. En

efecto se tiene Sn+1 − Sn = Yn+1P , luego |Sn+1 − Sn | = 1, y además Sn+1 − Sn =
n
Yn+1 es independiente de Sn = k=1 Yk pues esta última variable depende de
(Yk : k ≤ n) y todas ellas son independientes de Yn+1 . Luego,
P(Sn+1 = b | Sn = a) = P(Sn+1 − Sn = b − a | Sn = a)


p si b = a + 1
= P(Yn+1 = b − a | Sn = a) = 1 − p si b = a − 1


0 si |b − a| 6= 1.
Probemos que si p 6= 1/2 entonces
P(ω ∈ Ω : ∃N (ω) ∈ N, Sn (ω) 6= 0 ∀n ≥ N (ω)) = 1. (122)
Esto equivale a mostrar que
P(lim sup An ) = 0 siendo An = {Sn = 0}. (123)

n→∞
Ahora bien por el Ejercicio 8 se tiene

2n n
P(An ) = (p(1 − p)) .
n
P 2n

Luego, usando el desarrollo de Taylor (1 − x)−1/2 = n≥0 n xn se deduce,
X X 2n n −1/2
P(An ) = (p(1 − p)) = (1 − p(1 − p)) .
n
n≥0 n≥0
Es fácil mostrar que si p 6= 1/2, p ∈ [0, 1] entonces p(1 − p) < 1/4, luego
−1/2 P
(1 − p(1 − p)) < ∞, por lo que n≥0 P(An ) < ∞. Por el Lema de Borel
Cantelli (a) deducimos P(lim sup An ) = 0 y se deduce (123).
n→∞
149
22 Apéndice 4: Demostración de resultados de
función caracterı́stica y convergencia de fun-
ciones de distribución
22.1 Lemas de Helly
Demos los dos lemas de Helly en relación a la convergencia de funciones de
distribución.
Lema 128. Sea (Fn : n ∈ N) ⊂ Cb y asumamos que a ≤ Fn (x) ≤ b para todo

x ∈ R, n ∈ N. Luego existe F ∈ C, (nk : k ∈ N) tal que Fnk =⇒ F . Además
k→∞
a ≤ Fn (x) ≤ b para todo x ∈ R, y se puede tomar F continua por la derecha.
Prueba: Sea C un conjunto denso en R. Primero mostremos que

F (x) = lim Fn (x) ∀x ∈ C ⇒ Fn =⇒ F . (124)
n→∞
Sea x ∈ C entonces existen (x′k ) ⊂ C, x′k ց x y (x′′k ) ⊂ C, x′′k ր x. Como

Fn (x′k ) ≤ Fn (x) ≤ Fn (x′′k ) obtenemos,
F (x′k ) = lim inf Fn (x) ≤ lim sup Fn (x) = F (x′′k ),

n→∞ n→∞
Y dado que lim F (x′k ) = F (x) = lim F (x′′k ), deducimos (124).

k→∞ k→∞
Ahora enumeremos C = {xl : l ∈ N}. Como (Fn (x1 ) : n ∈ N) es acotada,

contiene una subsucesión (Fkn1 (x1 ) : k ∈ N) convergente, el lı́mite lo notamos
F (x1 ) = lim Fkn1 (x1 ). La sucesión (Fkn1 (x2 ) : n ∈ N) es acotada y contiene
n→∞
una subsucesión (Fkn2 (x2 ) : k ∈ N) convergente, el lı́mite lo notamos F (x2 ) =
lim Fkn2 (x2 ). Luego también F (x1 ) = lim Fkn2 (x1 ). Ası́ se construirá y tendrá:
n→∞ n→∞
F (xr ) = lim Fknl (xr ) para r ≤ n. Y tomado la subsucesión diagonal se tendrá:
n→∞
F (xr ) = lim Fknn (xr ) para todo xr ∈ C. Como C es denso em R por (124)
n→∞
podemos extender esta construcción a todo R.
Como (Fn : n ∈ N) ⊂ Cb deducimos F ∈ Cb , y a ≤ Fn ≤ b implica a ≤ F ≤ b.
Por último podemos tomar F = F +,C continua por la derecha.
Lema 129. Sean (Fn : n ∈ N) ⊂ Cb y tal que Fn n→∞

=⇒ F . Entonces
Z ∞ Z ∞
∀g : R → R continua y acotada: g(x)dF (x) = lim g(x)dFn (x). (125)
−∞ n→∞ −∞
Prueba: Si F es constante es trivial, supongamos pues que F (−∞) < F (∞).
150
Sea g continua y acotada. Sea ||g|| = sup{g(x) : x ∈ R} < ∞. Fijemos ǫ < 0.
Como F (−∞) y F (∞) finitos y F ∈ C existen a < b finitos, {a, b} ⊂ C(F ) y
F (a) < F (b), tal que
∀x ≥ b : F (∞) − F (x) < ǫ, ∀x ≤ a : F (a) − F (−∞) < ǫ. (126)
Notemos que como Fn =⇒ F existe n(ǫ) tal que
n→∞
∀n ≥ n(ǫ) : ∀x ≥ b : Fn (∞) − Fn (x) < 2ǫ, ∀x ≤ a : Fn (a) − Fn (−∞) < 2ǫ,

(Fn (b) − F (a)) ≤ 2(F (b) − F (a)). (127)
Por ser g continua en [a, b] podemos encontrar {x1 , .., xl−1 } ⊂ C(F ) con a =
x0 < x1 < ... < xl = b y tal que |g(x) − g(xk )| < δ para x ∈ (xk−1 , x − k].
Pl
Tomemos h = k=1 g(xk )1(xk−1 ,xk ] . Se tiene:
Z ∞ Z ∞
g(x)dF (x) − g(x)dFn (x) ≤ A1,n + A2,n + A3 ,
−∞ −∞
con
Z ∞ Z ∞ Z ∞
A1,n = |g(x) − h(x)|dFn (x), A2,n = h(x)dF (x) − h(x)dFn (x) ,
−∞ −∞ −∞
Z ∞
A3 = |g(x) − h(x)|dF (x)
−∞
Por (131) se tiene

Z Z b
A3 = |g(x)|dF (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ ||g|| ((F (a) − F (−∞)) + (F (∞) − F (b))) + ǫ(F (b) − F (a))
= ǫ(2||g|| + F (b) − F (a)).
De manera similar, por (132) se obtiene para n ≥ n(ǫ):
Z Z b
A1,n = |g(x)|dFn (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ 2ǫ(||g|| + F (b)−F (a)).
Finalmente, como Fn =⇒ F se obtiene,
n→∞
Z ∞ l
X
h(x)dF (x) = g(xk )(F (xk )−F (xk−1 ))
−∞ k=1
l
X Z ∞
= lim g(xk )(Fn (xk )−Fn g(xk−1 )) = h(x)dFn (x).
n→∞ −∞
k=1
Luego A2,n → 0 si n → ∞. Luego el resultado está mostrado.
151
22.2 Demostración Teorema 90
Observemos que basta probar la igualdad (66) pues ella implica (65). En efecto,
de (66) se deduce que para todo a ∈ R se tiene
Z u −itx
1 e − e−ity
FX (a) = lim lim lim lim ϕX (t)dt (128)
yցa x→−∞ u→∞ 2π u→∞ −u it
Mostremos (66). Notemos ϕ = ϕX y F = FX y definamos

Z u −itx Z u Z ∞ −itx
e − e−ity e − e−ity itv
I(u) = ϕX (t)dt = e dF (v) dt.
−u it −u −∞ it
Notemos que
e−itx − e−ity
lim = y − x,
t→0 it
luego la función
e−itx − e−ity itv
h(t, v) = e
it
es continua
R y acotada en Du = {v ∈ R, t ∈ [−u, u]}, digamos |h(t, v)| ≤ C en D,
luego Du h(t, v)dF (v)dt ≤ 2Cu. Por el Teorema de Fubini se puede cambiar el
orden de la integral y se obtiene
Z ∞ Z u it(v−x)
e − e−it(v−y)
I(u) = dt dF (v).
−∞ −u it
Como cos(at)/t es función impar y sin(at)/t es función par se obtiene

Z ∞ Z u
sin t(v−x) − sin t(v−y)
I(u) = θu (v)dF (v) = E(θu (X)) con θu (v) = 2 dt.
−∞ 0 t
Recordemos que se tiene

Z u
sin t π
lim dt = ,
u→∞ 0 t 2
por lo que 
Z u 
π/2 si a > 0,
sin at
lim dt = 0 si a = 0,
u→∞ 0 t 

−π/2 si a < 0.
Luego, como x < y, se deduce:


0 si v < x ó v > y,
lim θu (v) = π si v = x ó v = y,
u→∞ 

2π si x < v < y.
152
por lo que se tiene la convergencia de v.a.’s
lim θu (X) = V siendo V = π1{X∈{x,y} + 2π1{x<X<y} .

u→∞
Asumamos por el momento que se tenga
lim E(θu (X)) = E( lim θu (X)), (129)

u→∞ u→∞
De esto se deducirı́a
1 1 1
lim I(u) = lim E(θu (X)) = E( lim θu (X))
u→∞ 2π 2π u→∞ 2π u→∞
1 1 1
= E(V ) = P(X = x) + P(x < X < y) + P(X = y),
2π 2 2
lo que darı́a el resultado.
Ahora terminemos la prueba mostrando (129), y en ello usaremos el Teorema
de Convergencia Dominada que es el siguiente. Sea µ una medida en (Ω, B),
esto quiere decir que µ : B → [0, ∞] es una función que satisface µ(∅) = 0 y µ
es σ−aditiva. Ahora considere una familia de variables aleatorias (fn : n ∈ N)
con fn : Ω → R tal que el conjunto de puntos ω que no cumplen ∃ lim fn (ω)
n→∞
1
R de medida µ−nula. Luego, si existe una v.a. g ∈ L (µ) (es decir tal que
es
gdµ < ∞), y que domina a (fn : n ∈ N), es decir |fn | ≤ g para n ∈ N,
entonces el lı́mite siguiente existe y se cumple la igualdad,
Z Z
lim fn dµ = lim fn dµ.
n→∞ n→∞
Ru
Notemos que la función h(u) = 0 sintt dt es continua en u > 0, y converge a un
número finito cuando u → ∞, luego es acotada |h(u)| ≤ M para todo u ∈ R,
siendo M < ∞. Luego θu (X) ≤ 2M para todo u > 0. Como E(M ) = M < ∞,
se tienen las condiciones para aplicar el Teorema de Convergencia Dominada y
se cumple (129).
22.3 Demostración Proposición 91

Veamos primero que la función caracterı́stica es uniformemente continua y en
seguida veamos condiciones para su diferenciablidad cuando la v.a. tiene mo-
mentos finitos.
Lema 130. La función ϕX (t) es uniformemente continua en t.
Prueba: Como |eitX | = 1, se tiene

Z Z
|ϕX (t + h) − ϕX (t)| = eitX (eihX − 1)dFX (x) ≤ |eihX − 1|dFX (x).
153
Notemos que
Z x
|eihx − 1| ≤ 2 y |eihx − 1| = | eiy dy| ≤ |x|.
0
Ahora tomemos a > 0 tal que a, −a sean puntos de continuidad de FX , por las
desigualdades anetriores se tiene
Z Z
|ϕX (t+h)−ϕX (t)| ≤ 2dFX (x)+ |h| |X|dFX (x) = 2P(|X| > a)+|h| a.
|X|>a |X|≤a
Tomando a = a(ǫ) > 0 tal que P(|X| > a(ǫ)) < ǫ y posteriormente |h| < ǫ/a(ǫ)
se obtiene el resultado.
Ahora probemos la Proposición 91. Lo haremos solo para el caso k = 1, para

k > 1 se deduce por un argumento inductivo. Notemos ϕ = ϕX y F = FX .
Para h 6= 0 se tiene
ϕ(t + h) − ϕ(t) E(ei(t+h)X − eitX ) (eihX − 1)

= = E(eitX )
h h h
Observemos que
(eihX − 1)
lim eitX = iXeitX .
h→0 h
itX
Como |e | = 1, el resultado se probará si mostramos que la familia de v.a.’s
(eitX (eihX − 1)/h) : h 6= 0) estaán dominadas por una v.a. en L1 . Y esto se
Rh
deduce de eihx − 1 = 0 ixeihu du pues implica |eihx − 1| ≤ |xh| de donde
(eihX − 1)
eitX ≤ |X| ∈ L1 .
h
R
Concluı́mos que ϕ(1) (t) = (ix)k eitx dFX (x). El mismo argumento anterior-
mente utilizado también muestra que ϕ(1) (t) es continua en t. Esto finaliza el
resultado para k = 1. La demostración para k > 1 es analoga.
22.4 Demostración Lema 101

Primero probaremos el siguiente resultado.
Lema 131. Sean (Fn : n ∈ N) ⊂ Cb y tal que Fn n→∞

=⇒ F . Entonces
Z ∞ Z ∞
∀g : R → R continua y acotada: g(x)dF (x) = lim g(x)dFn (x).
−∞ n→∞ −∞
(130)
Prueba: Si F es constante es trivial, supongamos pues que F (−∞) < F (∞).
154
Sea g continua y acotada. Sea ||g|| = sup{g(x) : x ∈ R} < ∞. Fijemos ǫ < 0.
Como F (−∞) y F (∞) finitos y F ∈ C existen a < b finitos, {a, b} ⊂ C(F ) y
F (a) < F (b), tal que
∀x ≥ b : F (∞) − F (x) < ǫ, ∀x ≤ a : F (a) − F (−∞) < ǫ. (131)
Notemos que como Fn =⇒ F existe n(ǫ) tal que

n→∞
∀n ≥ n(ǫ) : ∀x ≥ b : Fn (∞) − Fn (x) < 2ǫ, ∀x ≤ a : Fn (a) − Fn (−∞) < 2ǫ,

(Fn (b) − F (a)) ≤ 2(F (b) − F (a)). (132)
Por ser g continua en [a, b] podemos encontrar {x1 , .., xl−1 } ⊂ C(F ) con a =
x0 < x1 < ... < xl = b y tal que |g(x) − g(xk )| < δ para x ∈ (xk−1 , x − k].
Pl
Tomemos h = k=1 g(xk )1(xk−1 ,xk ] . Se tiene:
Z ∞ Z ∞
g(x)dF (x) − g(x)dFn (x) ≤ A1,n + A2,n + A3 ,
−∞ −∞
con
Z ∞ Z ∞ Z ∞
A1,n = |g(x) − h(x)|dFn (x), A2,n = h(x)dF (x) − h(x)dFn (x) ,
−∞ −∞ −∞
Z ∞
A3 = |g(x) − h(x)|dF (x)
−∞
Por (131) se tiene

Z Z b
A3 = |g(x)|dF (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ ||g|| ((F (a) − F (−∞)) + (F (∞) − F (b))) + ǫ(F (b) − F (a))
= ǫ(2||g|| + F (b) − F (a)).
De manera similar, por (132) se obtiene para n ≥ n(ǫ):

Z Z b
A1,n = |g(x)|dFn (x) + |g(x) − h(x)|dF (x)
(−∞,a]∪(b,∞) a
≤ 2ǫ(||g|| + F (b)−F (a)).
Finalmente, como Fn =⇒ F se obtiene,

n→∞
Z ∞ l
X
h(x)dF (x) = g(xk )(F (xk )−F (xk−1 ))
−∞ k=1
l
X Z ∞
= lim g(xk )(Fn (xk )−Fn g(xk−1 )) = h(x)dFn (x).
n→∞ −∞
k=1
Luego A2,n → 0 si n → ∞. Luego el resultado está mostrado. .
155
Ahora probemos el Lema 101 Como sin x y cos x son funciones continuas y
acotadas, del Lema 131 concluı́mos que
Z ∞ Z ∞ Z ∞ Z ∞
cos(x)dF (x) = lim cos(x)dFn (x), sin(x)dF (x) = lim sin(x)dFn (x),
−∞ n→∞ −∞ −∞ n→∞ −∞
luego
Z ∞ Z ∞
itx
ϕF (t) = e dF (x) = lim eitx dFn (x) = lim ϕFn (t). (133)
−∞ n→∞ −∞ n→∞
Ahora probemos la recı́proca, supongamos que ϕF (t) = lim ϕFn (t) para t ∈ R.
n→∞
Por el Lema 128 existe F ∗ ∈ C continua por la derecha con 0 ≤ F ∗ (x) ≤ 1 para
x ∈ R, y una subsucesión (nk : k ∈ N) tal que Fnk =⇒ F ∗ . Luego, por el Lema
k→∞
131 ϕFnk (t) → ϕF (t) si n → ∞. Como por hipotesis lim ϕFnk (t) = ϕF (t)
k→∞
pata t ∈ R, concluı́mos ϕF (t) = ϕF ∗ (t) para t ∈ R. Por ser F una función de
distribución se tiene,
1 = ϕF (0) = V pF ∗ (0) = F ∗ (∞) − F ∗ (−∞),
por lo que F ∗ es una función de distribución. Como ϕF ∗ (t) = ϕF (t) para t ∈ R,

por el Teorema 90 deducimos F ∗ = F , luego Fnk =⇒ F .
k→∞
Probemos ahora que Fn =⇒ F . Sea Fn′k , k ∈ N, subucesión y F ′ tal que

n→∞
Fnk =⇒ F . Por lo hecho anteriormente F ′ es función de distribución con
k→∞
ϕF ′ (t) = ϕF (t) para todo t ∈ R, el Teorema 90 nos da F ′ = F , de donde
Fnk =⇒ F . Concluı́mos que Fn =⇒ F . .
k→∞ n→∞
156

Apunte 25

Cargado por

Copyright:

Formatos disponibles

Apunte 25

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte 25

Cargado por

Copyright:

Formatos disponibles

Versión preliminar Curso MA 3401:

Probabilidades y Estadı́stica, 2023-1

Departamento de Ingenierı́a Matemática and Centro de Modelamiento Matemático,

April 24, 2023

1 Introducción a las Probabilidades

1.1 Introducción al Modelo Probabilı́stico

• Ω 6= ∅ es el conjunto de todos los resultados de un experimento, y se le

• B es una familia de subconjuntos de Ω ó familia de eventos, que son los

• P : B → [0, 1] una medida de probabilidad, en que a cada evento A ∈ B se

Ω∞ = ({1, .., 6} × {1, .., 6})N (1)

de sucesiones infinitas ((ω1n , ω2n ) : n ∈ N) ∈ Ω∞ , el subı́ndice de ωin es i = 1 ó

donde Am y Bm son eventos que dependen de las primeras m partidas y que

En efecto, en Bm ∩ Cm ni el jugador 1 ha sacado una diferencia en su favor de

Hacemos notar que el conjunto Ω∞ tiene la cardinalidad de R. Y la σ−álgebra

1.2 Leyes escritas en términos probabilistas.

Observemos que F (M ) es creciente en [m0 , M0 ], F (m0 ) = 0, F (M0 ) = 1 y

Hay muchas formas de abordar esta paradoja, lo haremos de la siguiente manera.

la clase de todos los subconjuntos de Ω, y se le conoce como el conjunto potencia

{0, 1}N → P(IN ) dada por (il : l ∈ IN ) ∈ {0, 1}N → J = {l ∈ IN : il = 1}

I(k, N ) = {(i1 , ..., ik ) ∈ IN : ij 6= il si j 6= l}.

2.2 Probabilidad en caso finito

Con esta notación se tiene P({ω}) = p(ω) para ω ∈ Ω.

Dado que A y Ac son disjuntos, las propiedades (a) y (b) implican

P(X = ω) = p(ω) para ω ∈ Ω,

luego se tiene la siguiente equivalencia de escritura,

P(X ∈ A) = P(A) para A ⊆ Ω,

y la llamamos la ley de probabilidad de X.

Nota 1. Cuando estudiemos la medida de probabilidad en espacios generales

p(ω1 , ω2 ) = p1 (ω1 ) · p2 (ω2 ), (ω1 , ω2 ) ∈ Ω1 × Ω2 .

Consideremos P1 y P2 las medidads asociadas a p1 y p2 , entonces la medidad

P(A1 × A2 ) = P1 (A1 )P(A2 ), A1 ∈ P(Ω1 ), A1 ∈ P(Ω1 ),

y a P se le llama la medidad de probabilidad producto de P1 y P2 .

P(X1 = ω1 , X2 = ω2 ) = p(ω1 , ω2 ) = p1 (ω1 )p2 (ω2 ) = P(X1 = ω1 )P(X2 = ω2 ).

2.3 Probabilidad uniforme

que se llama densidad discreta uniforme, y la medidad de probabilidad asociada

y la fórmula P(A) = |A|/|Ω| se lee la probabilidad uniforme es el número de

Y la medidad producto satisface,

|A1 | |A2 | |A1 × A2 |

2.3.1 Ejemplo: Lanzamiento de dados independientes

Lanzamiento de un dado equilibrado. En este caso Ω = I6 (siendo I6 = {1, .., 6})

A1 = {(ω1 , ω2 ) : ω1 + ω2 = 7} = {(ω1 , 7 − ω1 ) : ω1 = 1, ..., 6}

A2 = {(ω1 , ω2 ) : ω1 = ω2 } = {(ω1 , ω1 ) : ω1 = 1, ..., 6}

Se tiene P(A2 ) = 6/36 = 1/6. Ahora, si tomamos A3 = {X1 6= X2 } se tiene

2.4.1 Extracción secuencial de bolas con reposición

Se tiene Ωr = N k . Las k−tuplas se distribuyen de manera uniforme en el

2.4.2 Extracción secuencial de bolas sin reposición

∀l = 2, .., k : il 6∈ {i1 , .., il−1 }.

Notemos Ps la medida de probabilidad en Ωs , ella está determinada por la

2.4.3 Extracción de conjuntos de bolas

Forma de escoger uniformenete un conjunto de tamaño k de IN . Esta es la

Ejercicio 1. Suponga que en la urna con N bolas numeradas hace el experi-

2.4.4 Extracción de bolas de dos colores

Supongamos que con probabilidad uniforme se saca un subconjunto ω ∈ P(N, k)

P(A) con A = {ω ∈ P(N, k) : |ω ∩ L| = k1 , |ω ∩ (IN \ L)| = k − k1 }.

Se tiene que A esta en biyección con P(M, k1 ) × P(N − M, k − k1 ), luego,

luego la probabilidad del evento A es

2.4.5 Extracción de bolas de s colores

Supongamos que se saca con probabilidad uniforme un conjunto ω ∈ P(N, k) de