Estadística

ESTADISTICA CAPITULO 2
Estimaciones
Universidad de Chile
Economía & Negocios
ESTIMACION
2.1. ESTIMACION EN DOS ETAPAS (ESTIMADOR DE BAYES).
Un problema de inferencia estadística o, más simplemente, un problema de estadística es un

problema en el cual se han de analizar datos que han sido generados de acuerdo con una
distribución de probabilidades desconocida y en el que se debe realizar algún tipo de inferencia
acerca de tal distribución. En otras palabras, en un problema de estadística existen dos o más
distribuciones de probabilidad que podrían haber generado algunos datos experimentales. En la
mayoría de los problemas reales, existe un número infinito de distribuciones posibles distintas
que podrían haber generado los datos. Analizando los datos, se intenta conocer la distribución
desconocida, para realizar inferencias acerca de ciertas propiedades de la distribución y
determinar la verosimilitud relativa que cada distribución posible tiene de ser la correcta.
2.1.1. Parámetros
En muchos problemas de estadística, la distribución de probabilidad que generó los datos

experimentales es completamente conocida excepto por los valores de uno o más parámetros.
Por ejemplo, se podría saber que la duración de cierto tipo de marcapasos tiene una
distribución exponencial con parámetro β , pero el valor exacto de β podría ser desconocido.
Si se puede observar la duración de varios marcapasos de este tipo, entonces, a partir de estos
valores observados y de cualquier otra información relevante de la que pudiera disponer, es
posible producir una inferencia acerca del valor desconocido del parámetro β . Por ejemplo,
podría interesar producir la mejor estimación del valor de β o especificar un intervalo en el
cual se piensa que probablemente se encuentra el valor de β o especificar un intervalo en el
cual se piensa que probablemente se encuentra el valor de β , o decidir si β es menor que un
valor específico. Comúnmente, no es posible determinar el valor de exacto de β .
En un problema de inferencia estadística, cualquier característica de la distribución que genera

los datos experimentales que tenga un valor desconocido, como la media µ o la varianza σ 2 ,
se llama parámetro de la distribución. El conjunto Ω de todos los valores posibles del
parámetro θ o de un vector de parámetros (θ 1 ,..., θ k ) se llama espacio paramétrico.
2.1.2. Problema de Decisión Estadística.
En muchos problemas de estadística, después de haber analizado los datos experimentales, se

debe tomar una decisión de entre una clase disponible de decisiones, con la propiedad de que
las consecuencias de cada decisión disponible dependen del valor desconocido de cierto
parámetro. Por ejemplo, se podría tener que estimar el valor desconocido de un parámetro θ
cuando las consecuencias dependen de lo cerca que se encuentra nuestra estimación del valor
Autor: Pablo Tapia Pagina 1

Estimaciones
correcto de θ . Otro ejemplo, podría consistir en qué decidir si el valor dependen de si la

decisión es correcta o incorrecta.
2.1.3. Distribución Inicial y Final.
2.1.3.1. Distribución Inicial.
Considere un problema de inferencia estadística en el que se van a seleccionar observaciones de

una distribución cuya f.d.p. (función de distribución de probabilidad) o f.d.a. (función de
distribución acumulada o simplemente función acumulada) es f ( x / θ ) , donde θ es un
parámetro de valor desconocido. Se supone que el valor desconocido del parámetro θ debe
pertenecer a un espacio paramétrico Ω , partiendo de las observación de la f.d.p o la f.d.a.
En muchos problemas, antes de disponer de observaciones de f ( x / θ ) , el experimentador o

estadístico podrá resumir su información y conocimiento previos acerca de dónde es probable
que se encuentre el valor de θ en el espacio paramétrico Ω construyendo una distribución de
probabilidad para θ en el conjunto Ω . En otras palabras, antes de haber obtenido u observado
datos experimentales, la experimentador le conducirán a la creencia de que es más probable
que θ se encuentre en una cierta región se pueden expresar en función de una distribución de
probabilidad sobre Ω . Esta distribución se denomina distribución inicial de θ porque
representa la verosimilitud relativa de que el verdadero valor de θ se encuentre en cada una de
las diversas regiones de Ω antes de obtener observaciones de f ( x / θ ) .
El concepto de distribución inicial es muy controvertido en estadística. Esta controversia está

estrechamente ligada a la relación con el significado de probabilidad. Algunos investigadores
creen que en todo problema estadístico se puede elegir una distribución inicial para el
parámetro θ . Creen que esta distribución es una distribución de probabilidad subjetiva en el
sentido de que representa la información y creencias subjetivas de un experimentador
individual acerca de dónde es probable que se encuentre el verdadero valor de θ . Creen
también, sin embargo, que una distribución inicial no es distinta de ninguna otra distribución de
probabilidad se aplican a una distribución inicial. Se dice que estos investigadores se adhieren a
la filosofía bayesiana de la estadística.
Otros investigadores piensan que en muchos problemas no es apropiado hablar de una

distribución de probabilidad de θ , porque el verdadero valor de θ no es una variable aleatoria,
sino más bien un cierto número fijo cuyo valor es desconocido para el experimentador. Estos
estadísticos piensan que se puede asignar una distribución inicial al parámetro θ únicamente
cuando existe una extensa información previa acerca de las frecuencias relativas con las que θ
ha tomado cada uno de sus valores posibles en el pasado. Sería así posible, entonces, para dos
científicos distintos estar de acuerdo en la distribución inicial correcta que se debe utilizar. Por
ejemplo, supóngase que la proporción θ de artículos defectuosos en un gran lote
manufacturado es desconocida. Supóngase, además, que el mismo fabricante ha producido
muchos lotes de artículos de este tipo en el pasado y que el mismo fabricante ha producido
muchos lotes de artículos de este tipo en el pasado y que se conservan registros detallados de las
proporciones de artículos de este tipo en el pasado y que se conservan registros detallados de

Estimaciones
las proporciones de artículos de este tipo en el pasado y que se conservan registros anteriores.
Las frecuencias relativas para lotes anteriores podrían entonces ser utilizadas para construir una
distribución inicial para θ .
En algunos problemas, el parámetro θ puede tomar únicamente un número finito de valores

distintos o, como máximo, una sucesión infinita de valores distintos. La distribución inicial de
θ será, por tanto, una distribución discreta. La f.d.p. ξ (θ ) de esta distribución se denomina
función de distribución inicial de θ . En otros problemas, el parámetro θ puede tomar
cualquier valor en la recta real o en un intervalo de la recta real y se asigna una distribución
inicial continua a θ .
Ejemplo 1. Suponga que la distribución inicial de un parámetro θ es una distribución gamma

cuya media es 10, y la varianza es 5. Determinar la función de distribución inicial de θ .
Respuesta
Se tiene que la función de distribución inicial gamma corresponde a:
β α α −1 − βθ
ξ (θ ) = θ e E (θ ) = αβ −1 ; var(θ ) = αβ − 2
Γ(α )
por lo tanto, para los valores descritos en el enunciado tenemos:
E (θ ) = αβ −1 = 10; var(θ ) = αβ −2 = 5 ⇒ α = 20; β = 2
así, la función de distribución inicial solicitada es:
2 20 19 −2θ
ξ (θ ) = θ e
Γ(20)
Observación: Es importante señalar que la función gamma evaluada en un número entero, es
siempre igual al factorial del número entero por el cual se está evaluando, por lo tanto, la
expresión anterior se puede escribir como:
2 20 19 − 2θ
ξ (θ ) = θ e
20 !
2.1.3.2. Distribución Final.
Supóngase ahora que las T variables aleatorias X 1 ,..., X T constituyen una muestra aleatoria de
una distribución cuya f.d.p. es f ( x / θ ) . Supóngase también que el valor del parámetro θ es
desconocido y que la función de distribución inicial de θ es ξ (θ ) . Por simplicidad, supóngase
que el espacio parámetrico Ω es un intervalo de la recta real, que ξ (θ ) es una f.d.p. inicial
sobre Ω , y que f ( x / θ ) es una f.d.p.
Puesto que las variables aleatorias X 1 ,..., X T constituyen una muestra aleatoria de una
distribución cuya f.d.p. de una distribución cuya f.d.p. es, por lo tanto, la función conjunta
f T ( x1 ,..., xT / θ ) está dada por la ecuación.
f T ( x1 ,..., xT / θ ) = f ( x1 / θ ) f ( x 2 / θ )  f ( xT / θ ) (1.1)

Estimaciones

Si se utiliza la notación vectorial x = ( x1 ,..., xT ) , entonces la f.d.p. conjunta de la ecuación (1.1)

se puede escribir simplemente como f T ( x / θ ) .
Puesto que se supone que el parámetro θ tiene una distribución cuya f.d.p. es ξ (θ ) , la f.d.p.

conjunta f T ( x / θ ) se debería considerar como la f.d.p. conjunta condicional de X 1 ,..., X T para
un valor dado θ . Si se multiplica esta f.d.p. condicional por la f.d.p. ξ (θ ) , se obtiene la f.d.p.

conjunta (T + 1) -dimensional de X 1 ,..., X T y θ de la forma f T ( x / θ )ξ (θ ) . La f.d.p. conjunta
marginal de X 1 ,..., X T se puede obtener ahora integrando esta f.d.p. conjunta sobre todos los

valores de θ . Por tanto, la f.d.p. conjunta marginal T -dimensional g T (x ) de X 1 ,..., X T se
puede se puede escribir de la forma
 
gT ( x) = ∫Ω
f T ( x / θ )ξ (θ )dθ (1.2)

Además, la f.d.p. condicional de θ dado X 1 = x1 ,...., X T = xT , que se denota por ξ (θ / x ) , debe
ser igual a la f.d.p. conjunta de X 1 ,..., X T y θ dividida por la f.d.p. conjunta marginal de
X 1 ,..., X T . Por tanto, resulta que:

 f T ( x / θ )ξ (θ )
ξ (θ / x ) =  ∀θ ∈ Ω (1.3)
gT (x)
La distribución de probabilidad sobre Ω representa por la f.d.p. condicional de la ecuación

(1.3) se llama distribución final de θ porque es la distribución de θ después de que se han
observado los valores de X 1 ,..., X T . Análogamente, la f.d.p. condicional de θ de la ecuación
(1.3) se denomina f.d.p. final de θ . Se puede decir que una f.d.p. inicial ξ (θ ) representa la
verosimilitud relativa, antes de haber observado los valores X 1 ,..., X T , de que el verdadero
valor de θ se encuentra en cada una de las diversas regiones de Ω y que la f.d.p. final
representa esta verosimilitud relativa después de haber observado los valores
2.1.4. Distribuciones Iniciales Conjugadas.
Ciertas distribuciones iniciales son particularmente convenientes para utilizar con muestras de
otras distribuciones. Para puntualizar esta idea, veremos los siguientes teoremas.
Teorema 1. Supóngase que X 1 ,..., X T constituye una muestra aleatoria de una distribución de
Bernoulli o Binomial con parámetro θ desconocido (0 < θ < 1) . Supóngase, además, que la
distribución inicial de θ es una distribución Beta con parámetros dados α y β (α > 0, β > 0) .
Entonces, la distribución final de θ , dado que X i = x i ∀i = 1,..., T , es una distribución Beta
con parámetros α + Σ Tt=1 x t y β + T − Σ Tt=1 x t .
Demostración

Sea y = Σ Tt=1 x t . Entonces la función de verosimilitud, esto es, la f.p. conjunta f T ( x / θ ) de
X 1 ,..., X T , está dada por la ecuación

Estimaciones
f ( x / θ ) = θ x (1 − θ )1− x ∀x = 0,1 (1.4)
Además, la f.d.p. inicial ξ (θ ) satisface la siguiente relación:
ξ (θ ) = κθ α −1 (1 − θ ) β −1 (1.5)
Donde κ , es igual a
Γ(α + β )
κ=
Γ(α )Γ( β )

Note que el término de la ecuación (6) no depende de θ . Puesto que la f.d.p. final ξ (θ / x ) es

proporcional al producto f T ( x / θ )ξ (θ ) , resulta que

ξ (θ / x ) = κ~θ α + y −1 (1 − θ ) β +T − y −1 (1.6)
Donde
Γ(α + β + T )
κ~ =
Γ(α + y )Γ( β − T − y )
Esto por un factor constante, la parte derecha de esta ecuación se puede reconocer como igual
a la f.d.p. de una distribución Beta con parámetros α + Σ Tt=1 x t y β + T − Σ Tt=1 x t . Por tanto, la
distribución final de θ es como se especifica en el teorema.
Ejemplo 2. Suponga que posee una muestra independiente de (ε − 2)T artículos que pueden
estar defectuosos o no (dicotómico), sin embargo, en la muestra sólo se encontraron 18 (ε − 8)T
piezas defectuosas (con ε ≥ 10 ). Encuentre la función de distribución final del parámetro de
esta población (fracción de piezas defectuosas), si se sabe que en el pasado la fracción de piezas
defectuosas de esta población siguió una distribución Beta con parámetros iguales a α = β = T .
Respuesta
Del enunciado se puede obtener la función de distribución inicial (pasado), tal que:
Γ(2T )
ξ i (θ ) = θ T −1 (1 − θ )T −1
Γ (T )
2
En este caso se tiene una población con distribución binomial, dado que se desconoce el orden
en que se encontraron las piezas defectuosas, por lo tanto, la función de verosimilitud en este
caso debe ser:
 (ε − 2)T  18 (ε −8)T (ε − 2 )T − 18 (ε −8)T
f ( x1 , x 2 ,...x(ε −2)T / θ ) =  1 θ
 (1 − θ )
 8 (ε − 8)T 
Por lo tanto, la función de distribución final deberá ser una Beta, tal como se ilustra a
continuación:
 
ξ (θ / x ) = [ g ( x )] −1 f ( x1 , x 2 ,...x nT / θ )ξ (θ )

Estimaciones
   (ε − 2)T  18 (ε −8)T (ε − 2 )T − 18 (ε −8)T Γ ( 2T ) T −1

ξ (θ / x ) = [ g ( x )] −1  1 θ
 (1 − θ ) θ (1 − θ ) T −1
8 (ε − 8 ) T  Γ 2
(T )
 1
(ε −8)T (ε − 2 )T − 18 (ε −8)T T −1
ξ (θ / x ) = κ θ 8
(1 − θ ) θ (1 − θ ) 2T −1
Ordenando un poco la función se tiene que:


ξ (θ / x ) = κθ (εT / 8) −1 (1 − θ ) (7εT / 8) −1
Entonces, los parámetros para esta función son:
α F = εT / 8 y β F = 7εT / 8
Por lo tanto, la función debe ser:
 Γ(εT )
ξ (θ / x ) = θ (εT / 8) −1 (1 − θ ) (7εT / 8) −1
Γ(εT / 8)Γ(7εT / 8)
Teorema 2. Supóngase que X 1 ,..., X T constituye una muestra aleatoria de una distribución de
Poisson con media θ desconocida ( θ > 0 ) (Este teorema también es aplicable a la función de
distribución exponencial). Supóngase también que la distribución inicial de θ es una
distribución gamma con parámetros α y β ( α > 0 y β > 0 ). Entonces, la distribución final θ ,
dado que X i = x i ∀i = 1,..., T , es una distribución gamma con parámetro α + Σ Tt=1 x t y β −1 + T .
Demostración
Sea y = Σ Tt=1 x t . Entonces la función de verosimilitud f T ( x / θ ) satisface la relación
e −θT θ Σ t =1 xt
T
f T ( x1 ,..., xT / θ ) = = κ e −θT θ y (1.7)

Π Tt=1 x t !
Donde κ = (Π Tt=1 x t ! ) −1 que corresponde a un término que no depende del parámetro θ , por lo
tanto, conservaremos dicho término.
Además, la función de distribución inicial de θ tiene la forma
−1
ξ (θ ) = κ 1θ α −1e − β θ
(1.8)
Donde κ 1 , es igual a
1
κ1 = α
(1.9)
β Γ(α )
Por lo tanto, utilizando las ecuaciones (7) y (8) podemos encontrar que la distribución final
para el parámetro θ corresponde a:
e −θT θ Σ t =1 xt
T
~ −1
f T ( x1 ,..., xT / θ ) = = κ e −θT θ y k1θ α −1 e − βθ = k θ α + y −1 e −θ (T + β ) (1.10)
Π Tt=1 x t !

Estimaciones
~
Donde k = κ ⋅ k1 es un término constante para efectos del parámetro desconocido θ . Excepto
por este factor constante, parte derecha de la ecuación (1.10) se puede reconocer como la
f.d.p. de una distribución gamma con parámetros α + y y β −1 + T . Por tanto, la distribución
final de θ es como se especificó en el teorema 2.
Teorema 3. Supóngase que X 1 ,..., X T constituye una muestra aleatoria de una distribución
normal con media θ desconocida ( θ ∈ IR ) y con varianza conocida ( σ 2 > 0 ). Supóngase,
además, que la distribución inicial de θ es una distribución normal con valores dados de la
media µ I y la varianza v I2 . Entonces, la distribución final de θ , dado que
X i = x i ∀i = 1,..., T , es una distribución normal cuya media µ F y varianza v F2 son las
siguientes:
σ 2 µ I + T v I2 xT
µF = (1.11)
σ 2 + T v I2
σ 2 v I2
v F2 = (1.12)
σ 2 + T v I2
Demostración.
La función de verosimilitud f T ( x / θ ) tiene la forma
 
∑
1 T
f T ( x / θ ) = κ ⋅ exp − ( xt − θ ) 2  (1.13)
 2σ 2 t =1

Donde κ = (2πσ 2 ) −1 2 es un término constante que no depende del parámetro desconocido.
Para transformar esta expresión, se utiliza la siguiente identidad
∑ ∑
T T
( x t − θ ) 2 = T (θ − xT ) 2 + ( x t − xT ) 2
t =1 t =1
Y se omite un factor que involucra x1 ,..., xT , pero que no depende de θ . Como resultado, se
puede reescribir f T ( x / θ ) de la siguiente forma:
 T 
f T ( x / θ ) = κ 1 ⋅ exp − (θ − xT ) 2  (1.14)
 2σ 2

Donde

Estimaciones
 
∑
1 T
κ 1 = κ ⋅ exp − ( x t − xT ) 2 
 2σ 2 t =1

Por otra parte la función de distribución inicial para el parámetro desconocido es:
 1 
ξ (θ ) = k 2 ⋅ exp − (θ − µ I ) 2  (1.15)
 2v 2 
 I 
Donde k 2 = (2πv I2 ) −1 2
Por lo tanto, el resultado para la función de distribución final corresponde a:
  1 T 
ξ (θ / x ) = κ 1 ⋅ k 2 ⋅ exp − (θ − µ ) 2
− (θ − x ) 2
(1.16)
 2v 2 I
2σ 2
T 
 I 
Sin embargo, esta ecuación (16) se puede reescribir como:
  1 
ξ (θ / x ) = κ~ ⋅ exp − (θ − µ F ) 2  (1.17)
 2v 2 
 F 
Donde
 T 
κ~ = κ 1 ⋅ k 2 exp − (x − µ I ) 2 
 2(σ 2 + Tv 2 ) T 
 I 
Además para que esto se cumpla se debe cumplir que
σ 2 µ I + T v I2 xT σ 2 v I2
µF = v F2 =
σ 2 + T v I2 σ 2 + T v I2
Lo cual el lector deberá terminar de verificar.
Ejemplo 3. Supóngase que se selecciona una muestra aleatoria de 20 observaciones de una

distribución normal con media θ desconocida y varianza igual a 1. Después de haber observado
los valores de la muestra se encuentra que xT = 10 y que la distribución final de θ es una
distribución normal cuya media es 8 y varianza 1 25 .¿Cuál fue la distribución inicial de θ ?
Respuesta
Para resolver este problema se debe saber que se ha obtenido una distribución final normal y la
distribución de la muestra es normal, entonces la distribución inicial debió haber sido una
distribución también normal (demostración vista en clases).
Del mismo modo tenemos que:
La media y varianza de la distribución de la muestra son θ y σ 2 respectivamente,

Estimaciones
La media y varianza de la distribución inicial son µ 0 y v02 respectivamente y

La media y varianza de la distribución final son µ1 y v12 respectivamente.
Además sabemos que se cumple la relación entre estos valores como:
Tv 02 xT + µ 0σ 2 σ 2 v 02
µ1 = v12 =
Tv 02 + σ 2 Tv 02 + σ 2
que al reemplazar se tiene:
20 ⋅ v 02 ⋅ 10 + µ 0 ⋅ 1 1 ⋅ v 02
8= ∧ 1
= ⇒ v 02 = (1 / 5) ∧ µ0 = 0
20 ⋅ v 02 + 1 20 ⋅ v 02 + 1
25
Ejemplo 4. Supóngase que se va a seleccionar una muestra aleatoria de una distribución

normal con media θ desconocida y desviación estándar igual a 2 y que la desviación estándar de
la distribución inicial de θ es igual a 1. ¿Cuál debería ser el tamaño de la muestra para reducir
la desviación estándar de la distribución final de θ en un 90% con respecto a la definida en la
distribución inicial?
Respuesta.
Para un manejo más simplificado del cálculo algebraico es recomendable tomar la distribución
inicial como una distribución normal y, como la distribución de la muestra es normal, entonces
la distribución final deberá ser normal.
Entonces, utilizando las mismas definiciones de la parte i, además de la expresión para la
varianza de la distribución final, se tiene que:
Téngase presente que se nos ha solicitado reducir en un 90% la desviación estándar de la

distribución final con respecto a la inicial, por lo tanto, la desviación estándar de la distribución
final deberá ser igual a:
v1 = 0,1 ⋅ v 0 ⇒ v1 = 101 ⇒ v12 = 100
1
Que al reemplazar se tiene:

σ 2 v 02
v12 = ⇒ 100
1
= 4(T + 4) −1
Tv 02 + σ 2
⇒ T + 4 = 400 ⇒ T = 396
Entonces, para poder hacer la reducción mencionada es necesario que el tamaño de la muestra
sea de por lo menos 396 observaciones.
2.1.5. Naturaleza del Problema de Estimación.
Supóngase que se va a seleccionar una muestra X 1 ,..., X T de una distribución cuya función de
distribución es igual a f ( x / θ ) , donde el valor del parámetro θ es desconocido. Supóngase,
además, que el valor de θ debe pertenecer a un intervalo concreto Ω ⊆ IR . El intervalo Ω
podría ser acotado o no acotado; en particular, podría ser IR . Por último, supóngase que el
valor de θ se debe estimar a partir de los valores observados de la muestra.
Un estimador del parámetro θ , basado en las variables aleatorias X 1 ,..., X T , es una función
a ( X 1 ,..., X T ) que especifica el valor estimado de θ para cada conjunto de valores posibles de
X 1 ,..., X T . En otras palabras, si los valores observados de X 1 ,..., X T son x1 ,..., xT , entonces el

Estimaciones
valor de θ es a( x1 ,..., xT ) . Puesto que el valor de θ debe pertenecer al intervalo Ω , es

razonable pedir que todo valor posible de un estimador a( X 1 ,..., X T ) deba pertenecer también
a Ω.
Es conveniente distinguir entre los términos estimador y estimación. Puesto que un

estimador a( X 1 ,..., X T ) es una función de la variables aleatorias X 1 ,..., X T y el estimador es
una variable aleatoria y su distribución de probabilidad se puede obtener a partir de las
distribuciones conjunta de X 1 ,..., X T . Por otro lado, una estimación es un valor específico
a ( x1 ,..., xT ) del estimador que se determina utilizando valores observados específicos x1 ,..., xT .
A menudo será conveniente utilizar notación vectorial y definir X = ( X 1 ,..., X T ) y
x = ( x1 ,..., xT ) . Con esta notación, un estimador es una función de a (X) del vector aleatoria X ,
y una estimación es un valor específico a(x) . A menudo será conveniente denotar un estimador
de a(X) simplemente por el símbolo θˆ .
2.1.6. Funciones de Perdida.
El requiso principal de un buen estimador es que proporcione una estimación de θ que se

aproxime al verdadero valor de θ . En otras palabras, un buen estimador es aquel que tiene una
probabilidad alta de que el error θˆ − θ esté cerca de 0. Supóngase que para cada valor posible de
θ ∈ Ω y cada estimación posible a ∈ Ω , existe un número L(θ , a) que mide la pérdida o el
costo para el estadístico cuando el verdadero valor del parámetro es θ y su estimación es a . En
general, a medida que aumenta la distancia entre a y θ , será mayor el valor de L(θ , a) .
Como antes, sea ξ (θ ) la f.d.p. inicial de θ sobre el intervalo Ω y considérese un problema en

el que el estadístico debe estimar el valor de θ sin observar los valores de una muestra
aleatoria. Si el investigador elige una estimación particular a , entonces su pérdida esperada
será.
E ( L(θ , a )) = ∫ Ω
L(θ , a )ξ (θ )dθ (1.18)
Supóngase que el investigador desea elegir una estimación a donde la pérdida esperada de la
ecuación (1.18) sea un mínimo. En cualquier problema de estimación, una función L cuya
esperanza E ( L(θ , a)) va a ser minimizada se denomina función de pérdida.
2.1.7. Definición de un Estimador de Bayes.
Supóngase ahora que el estadístico puede observar el valor de x del vector aleatorio X antes
de estimar θ , y sea ξ (θ / x) la función de distribución final de θ sobre el intervalo Ω . Para
cualquier estimación a que el estadístico pudiese utilizar, su pérdida esperada vendría dada por:
 
E ( L(θ , a) / x ) = ∫
Ω
L(θ , a)ξ (θ / x )dθ (1.19)

Estimaciones
Por tanto, el investigador elegirá una estimación a cuya pérdida esperada, dada por la ecuación
(1.19) sea un mínimo.
Para cada valor de x el vector aleatoria X , sea a * = θˆB (x) un valor de a cuya pérdida
esperada, dada por la ecuación (1.19) sea mínima. Entonces la función a * = θˆB (x) cuyos
valores están definidos de esta forma será un estimador de θ . Este estimador se denomina
estimador de Bayes de θ . En otras palabras, para cada valor posible x de X , el valor de
δ * = θˆB (x) del estimador de Bayes se elige de forma que:
θˆB (x) = arg min E ( L(θ , a) / x) (1.20)

a∈Ω
Sin lugar a dudas, la función de pérdida más comúnmente utilizada en problemas de estimación
es la función de pérdida del error cuadrático. Esta función se define como sigue:
L(θ , a ) = (θ − a ) 2 (1.21)
Es posible demostrar fácilmente que el valor que minimiza el valor esperado de la función de
pérdida cuadrática dado un set de datos observados, es igual al valor esperado condicional de la
función de distribución final. Quedará propuesto al lector que lo demuestre.
Ejemplo 5. Suponga que posee una muestra independiente de nT artículos que pueden estar
defectuosos o no (dicotómico), sin embargo, en la muestra sólo se encontraron T piezas
defectuosas. Encuentre la función de distribución final del parámetro de esta población
(fracción de piezas defectuosas), si se sabe que en el pasado la fracción de piezas defectuosas de
esta población siguió una distribución Beta con parámetros iguales a α = T y β = 2T .¿Cuál será
la mejor estimación para este parámetro y su volatilidad?
Respuesta
Del enunciado se puede obtener la función de distribución inicial (pasado), tal que:
Γ(3T )
ξ (θ ) = θ T −1 (1 − θ ) 2T −1
Γ(T )Γ(2T )
En este caso se tiene una población con distribución binomial, dado que se desconoce el orden
en que se encontraron las piezas defectuosas, por lo tanto, la función de verosimilitud en este
caso debe ser:
 nT  Σxi  nT 
f ( x1 , x 2 ,...x nT / θ ) =  θ (1 − θ ) nT −Σxi =  θ T (1 − θ ) T ( n −1)
 Σx i  T 
Por lo tanto, la función de distribución final deberá ser una Beta, tal como se ilustra a
continuación.
 ~
ξ (θ / x ) = k θ 2T −1 (1 − θ )T ( n +1) −1
Entonces, los parámetros para esta función son: α F = 2T y β F = T (n + 1) .
Por lo tanto, la función debe ser:  Γ(T (n + 3))
ξ (θ / x ) = θ 2T −1 (1 − θ )T ( n +1) −1
Γ(2T )Γ(T (n + 1))

Estimaciones
Dado que la función de distribución final es una Beta con parámetros α F = 2T y β F = T (n + 1) ,

entonces, la esperanza condicional y suponiendo función de pérdida cuadrática el estimador de
Bayes en este caso es:
αF 2T 2
E (θ / x) = = =
αF + βF 2T + T (n + 1) n + 3
Y la varianza condicional es:
αF βF 2(n + 1)
var(θ / x) = =
(α F + β F ) (α F + β F + 1)
2
(n + 3) 2 [T (n + 3) + 1]
2.2. MUESTRAS Y DISTRIBUCIONES.
La teoría clásica de la inferencia estadística se centra en un conjunto de reglas que nos

permitirán utilizar la información contenida en los datos muestrales de manera eficaz. Estas
reglas, a su vez, están basadas en propiedades de las muestras y de las distribuciones muestrales.
2.2.1. Muestreo Aleatorio.
Una muestra de T observaciones de una o más variables, designada por {x1 , x 2 ,..., xT } = {x i }Ti=1 ,
es una muestra aleatoria si las T observaciones son extraídas independientemente de la misma
población, o distribución de probabilidad, f ( x i / θ 1 , θ 2 ,..., θ k ) . La muestra puede ser
univariante, si x i es una única variable aleatoria, o multivariante, si cada observación contiene
varias variables. La muestra, designada como {x i }Ti=1 , se dice, entonces que está independiente

e idénticamente distribuida (IID). El vector θ = (θ 1 ,..., θ k ) contiene uno o varios parámetros
desconocidos. Los datos, en la mayoría de los casos, se generan de alguna de las dos maneras
que definimos a continuación, lo que es conocido como DGP (Data Generation Process –
Proceso Generador de Datos). Una muestra de sección cruzada está formada por un número de
observaciones de distintos elementos medibles, todas ellas referidas al mismo período de
tiempo. Una serie temporal es un conjunto de datos generados por un único elemento medible,
a lo largo de distintos períodos, normalmente distanciados uniformemente. Muchos estudios
recientes se han basado en muestras de sección cruzada, para las que se disponía de
observaciones para distintos períodos de tiempo. Dado que el conjunto de datos típicos de esta
clase, consiste en un gran número de elementos de sección cruzada observados en distintos
periodos, se usa generalmente el término datos de panel.
2.2.2. Estadística Descriptiva.
Antes de intentar estimar los parámetros de una población, o ajustar modelos a un conjunto de
datos, normalmente examinamos los datos. Usualmente se empieza con un diagrama de
dispersión que es bastante útil para una muestra bivariante si la muestra contiene un número
razonable de observaciones. En general si el número de observaciones de la muestra es grande 1,
1
Téngase presente que no hemos definido un criterio que permita cuantificar el término grande, estos
serán discutidos más adelante.

Estimaciones
debemos utilizar algún estadístico de resumen para describir la muestra. Los de mayor interés
son las medidas de localización, es decir, el valor central de los datos, y de escala, o de
dispersión de los datos. Si la muestra contiene datos de más de una variable, también estaremos
interesados en medidas que sean indicativas de la relación entre las variables.
Algunas medidas de tendencia central que podrán resultar de mucha utilidad, son las siguientes:
Media: M ( X ) = xT = T −1Σ Ti=1 x i (2.1)
La media en la ecuación 2.1 corresponde al primer momento no central de la variable aleatoria

X definida dentro de la muestra.
Mediana: Me = Valor de posición central (2.2)
Amplitud muestral: Am = 12 (máximo − mínimo) (2.3)
La dispersión de las observaciones muestrales normalmente se mide mediante la
Varianza muestral: S ( X ) = sˆ 2 = T −1Σ Ti=1 ( x i − xT ) 2 (2.4)
La ecuación 2.4 definida como varianza muestral es también conocida como el segundo
momento no central de la variable X definida dentro de la muestra.
~
Varianza muestral insesgada: S ( X ) = ~s 2 = (T − 1) −1 Σ Ti=1 ( x i − xT ) 2 (2.5)
~
Desviación estándar muestral insesgada: ~s = S ( X ) (2.6)
Otras medidas, como la media de las desviaciones en valor absoluto respecto de la media
muestral también se utilizan, aunque menos frecuentemente. Si la muestra es multivariante,
para medir la relación lineal entre cada par de variables aleatorias muestrales pueden utilizar las
siguientes medidas.
Covarianza muestrales: s xy = T1−1 Σ Ti=1 ( x i − xT )( y i − yT ) (2.7)
Σ Ti=1 ( x i − xT )( y i − y T )
Correlación muestrales: ρ xy = (2.8)
(S ( X ) ⋅ S (Y ) )1 2
Si la muestra contiene datos de más de una variable, es conveniente disponer las covarianzas o
las correlaciones en forma matricial.
2.2.3. Distribución muestral.
Las medidas descritas en la sección anterior resumen una muestra aleatoria. Cada medida tiene
su contrapartida poblacional, es decir, basada en la distribución a partir de la cual han sido

Estimaciones
generados los datos. Los valores muestrales, tales como la media y el coeficiente de
correlación, se corresponden con esperanzas poblacionales. Nuestra expectativa es que los
valores de estos estadísticos tiendan a parecerse a los valores precisa en la que esos valores
reflejan la proximidad a los valores de los parámetros poblacionales, aunque no tengan que
coincidir, necesariamente. La manera precisa en la que esos valores reflejan la proximidad a los
valores poblacionales, viene dada por la distribución muestral del estadístico.
Definición 1. Estadístico. Un estadístico es cualquier función que se calcula a partir de todos

los datos contenidos en una muestra, por ejemplo: xT , min{x i }Ti=1 , max{x i }Ti=1 , etc.
Si extraemos otra muestra bajo las mismas condiciones se obtendrían valores diferentes a partir
de las observaciones, puesto que cada muestra en sí es una variable aleatoria. En consecuencia,
el estadístico también es una variable aleatoria, y por tanto, tiene su propia función de
probabilidad, a la que llamaremos distribución muestral.
Teorema 4. Distribución muestral de la media. Si {x i }Ti=1 son observaciones de una muestra

aleatoria extraída de una población de media µ y de varianza σ 2 2, entonces xT , es una
variable aleatoria de media µ y de varianza T −1σ 2 .
Demostración.
Para calcular la media de la variable aleatoria media muestral, es necesario aplicar la esperanza a
este termino, de este modo se obtiene la siguiente expresión.
E ( xT ) = E  T −1 ∑ x  = T −1 E  ∑ 
T T
x  (2.9)
 i =1 i   i =1 i 
Dado que la esperanza es un operador lineal, por lo tanto, el lado derecho de la ecuación 2.9 se
puede escribir como:
∑
T
E ( xT ) = T −1 E ( xi ) (2.10)
i =1
Como las observaciones son idénticamente distribuidas (supuesto IID), entonces, todos los
valores observados tiene el mismo valor esperado, por ende la ecuación 2.10 se puede
reescribir como:
∑
T
E ( xT ) = T −1 µ=µ (2.11)
i =1
Sin embargo, se debe determinar la dispersión de esta variable aleatoria denominada media
muestral, la cual se calcula de la siguiente forma:
2
Esta condición nos indicaría que la muestra es IID, sin embargo, esto no siempre podrán ser interpretadas como
IID.

Estimaciones
var( xT ) = var T −1 ∑ x  = T − 2 var ∑ 

T T
i =1 i 
x  (2.12)
  i =1 i 
Ahora si desarrollamos un poco más la ecuación 2.9 se obtiene la siguiente expresión:
var( xT ) = T − 2  ∑ ∑ ∑ cov( x i , x j )
T T T
 i =1
var( x i ) + 2
j =1 i> j 
(2.13)
Pero debemos recordar que los datos pertenecientes a la muestra son independientes entre si,
por lo tanto, necesariamente las covarianzas deben ser iguales a cero. Por otro lado, la muestra
esta idénticamente distribuida, esto quiere decir que todos los valores de esta muestra deben
tener la misma varianza. Entonces, si introducimos estos conceptos en la ecuación 2.13 se
obtiene
∑
T
var( xT ) = T − 2 σ 2 = T −1σ 2 (2.14)
i =1
Con las ecuaciones 2.11 y 2.14 queda demostrado el teorema.
Obsérvese que para obtener el resultado fundamental del teorema 1 no se ha supuesto ninguna
distribución concreta para los datos muestrales, lo que nos indica que este proceso algebraico se
puede implementar en muestral IID con cualquier tipo de distribución.
Ejemplo 6. Supóngase que {x i }Ti=1 son valores de una muestra aleatoria procedentes de una
misma distribución exponencial de parámetro β . Determine la esperanza y varianza de la
media muestral.
Solución.
Si la función de distribución exponencial corresponde a:
f ( x i / β ) = β −1 e − βxi ∀ i = 1,..., T (2.15)
Entonces, la media y varianza de una población con estas características son:
E ( xi ) = β var( x i ) = β 2 (2.16)
Entonces, dado el teorema 1, se debe cumplir que:
E ( xT ) = β var( xT ) = T −1 β 2 (2.17)
La distribución muestral se utiliza para realizar inferencias sobre la población. Un ejemplo

obvio es el de la media muestral como candidato natural para estimador de la media poblacional
µ , puesto que la distribución muestral de la media de un conjunto de observaciones de
variables normales tiene media u. La idea de que la muestra reproduce el comportamiento de la
población. Es una afirmación acerca de la distribución acerca de la distribución muestral del
estadístico muesral. La media muestral de cuatro observaciones claramente tiene una
distribución muestral, que parece tener una media aproximadamente igual a la media
poblacional. Éste es el punto de partida de la teoría sobre la estimación de parámetros.

Estimaciones
2.3. ESTIMACIÓN PUNTUAL DE PARÁMETROS
Nuestro objetivo es usar los datos muestrales para inferir el valor de un parámetro o conjunto
de parámetros, que designamos por θ . Un estimador puntual es un estadístico calculado a
partir de la muestra, que pretende ser una aproximación al parámetro θ . El error estándar del
estimador es la desviación estándar de la distribución muestral del estadístico; si elevamos esta
cantidad al cuadrado, obtenemos la varianza muestral del estimador. Un intervalo de
estimación es un rango de valores que contienen el valor del verdadero parámetro con una
cierta probabilidad predeterminada. Debe existir una relación entre los dos tipos de
estimación; generalmente, si θˆ es el estimador puntual, el intervalo de estimación será θˆ más
menos una medida del error muestral.
Un estimador es una regla, o estrategia, para utilizar los datos con el fin de estimar un cierto
parámetro. Tal regla está definida antes de que los datos se generen. Obviamente, algunos
estimadores son mejores que otros. Por poner un ejemplo simple, intuitivamente cabe pensar
que la media muestral debería ser un estimador mejor de la media poblacional que el valor
mínimo de la muestra; con casi total seguridad, el mínimo será menor que la media
poblacional. No obstante, el mínimo tiene algunas ventajas: es fácil de calcular, y esto es a
veces un criterio relevante. La búsqueda de buenos estimadores es, en muchos casos, el objeto
del análisis econométrico. Los estimadores se comparan a partir de una variedad de atributos.
Las propiedades de muestras finitas de los estimadores son aquellos atributos que pueden ser
comparados independientemente del tamaño de la muestra. En algunos casos, determinadas
características de los estimadores no son las propiedades que presentan cuando el tamaño de la
muestra, a partir de la cual se calculan, es alto. Llamaremos a éstas, las propiedades asintóticas
de los estimadores. Volveremos sobre este punto más adelante.
2.3.1. Estimación con una Muestra Finita.
A continuación presentamos algunas propiedades de interés para los estimadores de un único

parámetro. La generalización al caso multivariante es inmediata, y sólo se considerará
someramente, cuando sea necesario.
Definición 2. Estimadores Insesgados. Decimos que un estimador del parámetro θ (parámetro

poblacional desconocido) es insesgado si la media de su distribución muestral es θ .
Formalmente,
E (θˆ) = θ (3.1)
E (θˆ − θ ) = Sesgo[θˆ θ ] = 0 (3.2)
Lo que implica que θˆ es insesgado. Nótese que esto implica que la esperanza del error muestral
en el que se incurre al considerar el estimador en lugar del parámetro es cero. Si (θ1 ,..., θ k ) es
un vector de parámetros, decimos que el estimador es insesgado si el valor esperado de cada

Estimaciones
elemento del vector (θˆ1 ,..., θˆk ) es igual al correspondiente vector de parámetros poblacionales
desconocidos (θ1 ,..., θ k ) .
Si se extraen muestras de tamaño T repetidamente, y θˆ se calcula en cada una de las muestras,

el valor medio de esos estimadores será cercano a θ .
{θˆ }n
i i =1 ⇒ θˆ = n −1 ∑
n
θˆ
i =1 i
→ θ (3.3)
El mínimo de los valores de estimación de cada muestra es claramente un estimador sesgado de

la media; casi siempre resultará estar por debajo de la media poblacional, y por lo tanto,
también lo estará la media de esos valores.
La insesgadez es una propiedad deseable de los estimadores, pero rara vez es utilizado como
único criterio de selección de posibles estimadores. Una de las razones es que hay muchos
estimadores que son insesgados, pero que son poco representativos de la muestra. Por ejemplo,
en una muestra de tamaño T la primera observación extraída es un estimador insesgado de la
media, pero utilizarlo supondría un gran desperdicio de información muestral. Un segundo
criterio empleado para elegir entre estimadores insesgados es el de la eficiencia.
Definición 3. Estimador insesgado eficiente (Eficiencia). Un estimador insesgado θˆ1 , se dice que
es más eficiente que otro estimador insesgado θˆ2 si la varianza muestral de θˆ1 es menor que la
de θˆ2 . Es decir,
V (θˆ1 ) < V (θˆ2 ) (3.4)
En el caso multivariante, el cálculo se basa en la matriz de varianza y covarianzas de ambos

estimadores; (θˆ11 ,..., θˆ1k ) es más eficiente que (θˆ21 ,..., θˆ2k ) si V (θˆ21 ,..., θˆ2k ) − V (θˆ11 ,..., θˆ1k ) es
una matriz semi-definida positiva (sdp)
A partir de este criterio, la media muestral será claramente preferida frente a la primera
observación, como estimador de la media poblacional. Si σ 2 es la varianza poblacional,
V ( x1 ) = σ 2 > V ( xT ) = T −1σ 2 (3.5)
Al plantear la eficiencia, hemos restringido la discusión al caso de estimadores insesgados. Pero,

hay estimadores sesgados que tienen menor varianza que los insesgados que hemos
mencionado: cualquier constante tiene varianza cero. Por supuesto, al emplear una constante
como estimador, no estaremos aprovechando eficazmente la información de la muestra. Si nos
centramos exclusivamente en la insesgadez, tenemos que ecluir, por ejemplo, estimadores en
los que se da un sesgo tolerable y una varianza muy pequeña. Un criterio que tiene en cuenta
esta posibilidad de aceptar un cierto grado de sesgo a cambio de una varianza más pequeña, es
el del error cuadrático medio.

Estimaciones
Definición 4. Error cuadrático medio. El error cuadrático medio de un estimador es
ECM (θˆ) = E[(θˆ − θ ) 2 ] (3.6)
(
ECM (θˆ) = V (θˆ) + sesgo[θˆ] )
2
(3.7)
Ejemplo 7. En una muestra extraída de una distribución normal, el estimador más usado para
la varianza poblacional es:
~
s2 = 1
ΣT (x
T −1 i =1 i
− xT ) 2 (3.8)
El criterio que utilicemos para seleccionar estimadores en una situación concreta dependerá de
las particularidades del caso, así como de nuestro objetivos en ese caso.
Desafortunadamente, el criterio del ECM pocas veces es operativo; los estimadores de error
cuadrático medio mínimo, cuando existen, normalmente dependen de parámetros
desconocidos. Por tanto, pocas veces los podremos utilizar. Un criterio usado generalmente es
el de insesgadez y mínima varianza.
2.3.2. Información de Fisher.
Hemos visto hasta ahora que podemos comparar dos o más estimadores y darnos un criterio de
elección en base a la varianza de dichos estimadores. La pregunta que surge ahora es si existe
algún otro estimador con una menor varianza. Para esto introduciremos el concepto de
Cantidad de Información de Fisher.
Definición 5. Sea una variable aleatoria X de función de densidad o de probabilidad f ( x / θ )

en donde θ es un parámetro desconocido del conjunto Ω . Se llama Cantidad de Información de
Fisher dada por X sobre el parámetro θ a la cantidad:
I (θ ) = E  ( ∂Ln ( f ( x / θ ) )
) 
2
∂θ
(3.9)

Además se puede expresar de las dos siguientes formas:
I (θ ) = Var 
 ( ∂Ln ( f ( x / θ ) )
∂θ ) (3.10)
I (θ ) = − E 
 ( ∂ 2 Ln ( f ( x / θ ) )
∂θ 2 ) (3.11)
Por lo tanto, podemos señalar el siguiente teorema.

Estimaciones
Teorema 5. La cantidad de información de Fisher (ecuación (3.9)) deber ser iguala a la

ecuación (3.10) y (3.11), con lo cual se podrá asegurar que el estimador obtenido llegue a ser
el que realmente tiene mínima varianza.
Demostración
Se demostrará primero que la ecuación (3.9) es igual a (3.10), sin embargo, la segunda igualdad
quedará propuesta para el lector.
Ahora para poder realizar la demostración debemos tener presente las siguientes propiedades
de una variable aleatoria:
a. Para una variable aleatoria X con función de densidad f ( x) y una función cualquiera
sobre X , g ( x) , entonces E ( g ( x)) = ∫x∈IR g ( x) f ( x)d x, además
b. La varianza de una variable aleatoria X , se pude representar y calcular como la
diferencia entre el segundo momento menos el primero al cuadro, es decir,
=
Var ( X ) E( X 2 ) − E 2 ( X ) .
Retomando la demostración, si X es una v.a. con dominio S , entonces ∫ f ( x / θ ) dx = 1 .

x∈IR
Derivando esta ecuación con respecto a θ tenemos que:
 ∫x∈IR (
∂  f x / θ ) dx  = ∂
[1]
∂θ  ∂θ
∫ ∂
 f ( x / θ )  dx = 0
x∈IR ∂θ
Por otro lado, debemos recordar que L(θ ) = f ( x / θ ) y que (θ ) = ln L[(θ )] , entonces se pude
definir que
∂(θ ) ∂ ln L[(θ )] 1 ∂L(θ ) 1 ∂f ( x / θ )

=
θ = = =
∂θ ∂θ L(θ ) ∂θ f ( x / θ ) ∂θ
Entonces, es posible concluir que
 ∂Ln ( f ( x / θ ) )  1 ∂f ( x / θ ) ∂(θ )
E =  ∫ = dx ∫= dx ∫ ∂
f ( x / θ )  dx 0
=
 ∂θ 
x∈IR f ( x / θ ) ∂θ ∂θ
x∈IR x∈IR ∂θ
Ahora, si utilizamos la forma de la varianza descrito en el inciso b. en los párrafos más arriba
tenemos que
(
var ∂∂(θθ )
= ) (
E  ∂∂(θθ ) 
2
)−E ( 2 ∂ (θ )
∂θ ) (3.12)

Estimaciones
Sin embargo, el término de valor esperado a la derecha de la ecuación (3.12), tal como se
mostró es igual a cero, por lo tanto, se demuestra que:
= (
var ∂∂(θθ ) ) (
 ∂∂(θθ ) 
E=
  I (θ )
2
)
Con lo cual queda demostrada la primera proposición.
En base a lo descrito, es posible afirmar que en el caso de tener una muestra { X t }Tt =1  IID cuya
función de densidad o de probabilidad es f ( x / θ ) en donde θ es un parámetro desconocido del
conjunto Ω . Si tenemos entonces fT ( x / θ ) la función de verosimilitud de la muestra aleatoria
entonces se llama la Cantidad de Información de Fisher de la muestra de tamaño T sobre el
parámetro θ a la cantidad:
IT (θ ) = E  ( ∂Ln ( fT ( x / θ ) )
) 
2
∂θ

Por lo tanto, de lo anterior es fácil deducir que:
Teorema 6. Si I (θ ) es la cantidad de Fisher dada por cada X t sobre el parámetro θ ,

entonces,
IT (θ ) = T I (θ )
Finalmente, para resolver nuestra interrogante inicial se define lo siguiente.
Teorema 7. Desigualdad de Cramer-Rao
Si el dominio de X no depende de θ , para todo estimador insesgado θˆ de θ se tiene que:
Var (θˆ) ≥ [ IT (θ )]−1
De esta forma Cramer-Rao logra determinar una cota mínima para la varianza de un estimador.
Si un estimador θˆ alcanza la cota de Cramer-Rao se dice que el estimador es de varianza
mínima.
Ejemplo 8. Demuestre que X T es un estimador insesgado de varianza mínima de la media µ

de una población normal.
Respuesta
La función de densidad de una población normal es:

(
/ µ , σ 2 ) (2πσ 2 ) −1/ 2 exp − 2σ1 2 ( x − µ ) 2
f ( x= )

Estimaciones
Entonces:
Ln( f ( x / µ , σ 2 )) =
− 12 Ln(2πσ 2 ) − 12 ( ) x−µ 2
σ
Por lo tanto, la primera derivada con respecto al parámetro de la media es

∂Ln( f ( x / µ , σ 2 )) x − µ
=
∂µ σ2
∂ 2 Ln( f ) 1
= − 2
∂µ 2 σ
De esta manera la información de Fisher corresponde a
I (µ ) = ( )
− E − σ12 = 1
σ2
Aplicando la desigualdad de Cramer-Rao

Var (θˆ) ≥ [ IT ( µ )]−1 =[T I ( µ )]−1 =[T σ −2 ]−1 =σ 2T −1
Y como θˆ = X T es insesgado y la varianza del estimador es Var (θˆ) = σ 2T −1 se deduce que es un
estimador insesgado de varianza mínima.
Sin embargo, el lector debe tener presente que esta metodología sólo es validad sobre la base
que la función de distribución poblacional y por ende muestral es conocida, lo cual ocurre
principalmente sobre estimadores de máxima verosimilitud.
2.4. ESTIMACION EFICIENTE. MAXIMO VEROSIMILITUD.
El principio de máxima verosimilitud aporta un instrumento de elección de un estimador

asintóticamente eficiente de un parámetro, o un conjunto de parámetros. La lógica de la técnica
se ilustra mejor en el contexto de una distribución discreta. Consideremos una muestra
aleatoria de 10 observaciones procedentes de una distribución muestral: 5, 0, 1, 1, 0, 3, 2, 3,
4, y 1. La función de densidad de cada observación es:
e −θ θ xi
f ( xi / θ ) = (4.1)
xi !
Puesto que las observaciones son independientes, la densidad conjunta de toda la muestra, que
hemos identificado como función de verosimilitud de la muestra, es:
e −θ θ xi
∏
 T
f ( x1, x 2 ,...., xT / θ ) = f T ( x / θ ) =
i =1
(4.2)
xi !
Si desarrollamos un poco la expresión derecha de la ecuación 2.66 aprovechando las

propiedades de la muestra que supondremos IID, se tiene que:
∑ Ti=1 xi
 e −Tθ θ
fT ( x / θ ) = (4.3)
∏
T
xi !
i =1

Estimaciones
Si reemplazamos los datos proporcionados en la ecuación (4.3) se obtiene una expresión

numérica de la forma
 e −10θ θ 20
fT ( x / θ ) = (4.4)
207.360
La última expresión es la probabilidad de observar esta muestra particular, suponiendo que una
distribución de Poisson con un parámetro θ aún desconocido generó los datos. ¿Cuál es el
valor de θ que hace que esa muestra en particular sea la más probable?. Si evaluamos distintos
valores de θ en la ecuación (4.1), se encuentra que esta es máxima cuando θ = 2 , lo que nos
daría el valor del estimador de máxima verosimilitud, o EMV, de θ .
Consideremos la maximización de la función directamente. Puesto que la función logarítmica

es monótonamente creciente y es más fácil trabajar con ella que con la función original,

normalmente maximizaremos en su lugar L(θ ) = f T ( x / θ ) . Por ejemplo, si implementamos
esta transformación en la ecuación 2.65, se tiene que:
ln( L(θ )) = (θ ) = −10θ + 20 ln(θ ) − 12.242 (4.5)
Entonces, para obtener el EMV en este caso se debe resolver sobre la ecuación (4.5) como:
θÊMV = arg min (θ ) (4.6)

θ
En el caso de que la función de verosimilitud sea una función continua es posible obtener el
EMV imponiendo las derivadas, es decir, condición de primer orden y de segundo orden, por
ejemplo en el caso de la ecuación (4.5), se obtiene la condición de primer orden tal.
d(θ )
= −10 + 20 θ −1 = 0 ⇒ θÊMV = 2 (4.7)
dθ
Sin embargo, es necesario determinar si el resultado obtenido es aquel que maximiza la

ecuación (4.6), por lo tanto, se debe evaluar la condición de segundo orden, es decir:
d 2 (θ )
= −20 θ − 2 < 0 (4.8)
dθ 2
Dado este resultado, es posible concluir que el valor encontrado efectivamente es el que
maximiza la función.
La solución es la misma que antes. En la figura 1 se representa, además, el logaritmo de L, para

ilustrar el resultado.

Estimaciones

L(θ ) = f T ( x / θ )
(θ ) = ln[ L(θ )]
θÊMV
Figura 1. Función de verosimilitud y de logaritmo de la
función de verosimilitud de una distribución cualquiera.
En una distribución continua, la analogía a la probabilidad de observar la muestra dada no es

exacta, puesto que una muestra concreta tiene probabilidad cero. Sin embargo, el principio es
el mismo. La función de densidad conjunta de las T observaciones, que pueden ser univariantes

( x i ) o multivariantes ( x i ) , es el producto de funciones de densidad individuales. La función de
densidad conjunta es la función de verosimilitud, definida como función del vector de

parámetro desconocidos, θ = (θ 1 ,..., θ k ) :
   
∏
T
f ( x1 , x 2 ,..., xT / θ 1 ,...., θ k ) = f ( x / θ ) =
i =1
f ( x i / θ ) = L(θ ) (4.9)

Donde x representa los datos muestrales. Generalmente resultará más fácil trabajar con el
logaritmo de la función de verosimilitud:
  
∑
T
(θ ) = ln( L(θ )) =
i =1
ln f ( x i / θ ) (4.10)
El valor de los parámetros que maximiza esta función es el estimador de máxima verosimilitud,
generalmente designado como (θˆ1 ,..., θˆk ) . Puesto que la función logarítmica es una función
 
monótona, los valores que maximizan L(θ ) son los mismos que aquellos que maximizan (θ ) .

La función de verosimilitud y su logaritmo, evaluados en θ = (θ 1 ,..., θ k ) , son generalmente
  
designados como L(θ ) y (θ ) , respectivamente. La condición necesaria para maximizar (θ )
es,
 
∂ ln L(θ ) ∂(θ )
= = 0 ∀ i = 1,..., k (4.11)
∂θ i ∂θ i
Esta ecuación es conocida como la ecuación verosimilitud.

Estimaciones
2.5. ESTIMACIÓN CONSISTENTE: EL MÉTODO DE LOS MOMENTOS.
En algunas situaciones, todo lo que se pretende encontrar es un estimador consistente de un

parámetro, relegándose a un segundo plano la propiedad de eficiencia.
Una técnica utilizada en muchos de los casos anteriores, es la del método de los momentos.
Este método se basa en la siguiente idea. En un muestreo aleatorio, un estadístico muestral
convergerá en probabilidad a una constante. Así, por ejemplo, T −1Σ Tt x t2 converge en media
cuadrática a la varianza más el cuadrado de la media de la distribución de x t . Esta constante, a
su vez, será una función de los parámetros desconocidos de la distribución en cuestión. Para
estimar k parámetros, θ 1 ,..., θ k , calcularíamos k estadísticos, m1 ,..., m k , cuyos límites en
probabilidad son funciones conocidas de los parámetros. Esos k momentos se igualan a las k
funciones. De ahí podrían obtenerse estimadores de los parámetros como función de los
momentos. Esos estimadores serían consistentes gracias al teorema de Slutsky.
2.5.1. Muestreo Aleatorio y Estimación de Parámetros de una Distribución.
Consideremos un muestreo aleatorio de una distribución f ( x / θ 1 ,..., θ k ) con momentos finitos

E ( x k ) . La muestra consiste en T observaciones, x1 ,..., xT . La k -ésima fila o momento no
centrado es
∑
T
m k′ = T −1 x2 (5.1)
t =1 t
Sustituyendo z t = x tk , obtenemos el siguiente resultado a partir de la ecuación de la varianza y

propiedades de la esperanza.
E (m k′ ) = µ k′ = E ( x tk )
var(m k′ ) = T −1 var( x tk ) = T −1 ( µ 2′ k − [ µ k′ ] 2 )
Por propiedades del plim se tiene que
plim(m k′ ) = µ k′ = E[ x tk ]
Y finalmente aplicando teoría asintótica se obtiene
T (m k′ − µ k′ ) →
D
N [0, µ 2′ k − µ k′ 2 ]
Definimos que es usual,

Estimaciones
µ1′ = E[ x t ] = µ
En general, µ k′ será una función de los parámetros de la distribución subyacente. Calculando

los K momentos e igualándolos a esas funciones de las que hemos dicho que dependen los µ k′ ,
obtenemos K ecuaciones cuyas soluciones nos proporcionan los estimadores de los K
parámetros desconocidos.
Ejemplo 9. Estimación por el método de los momentos de los parámetros de una distribución
normal con media µ y varianza σ 2 .
Respuesta.
En el muestreo aleatorio de una distribución normal,
∑
1 T
plim x = plim m1′ = E ( x t ) = µ
T t =1 t
∑
1 T
plim x2 = plim m 2′ = var[ x t ] + µ 2 = σ 2 + µ 2
T t =1 t
Igualando el lado derecho e izquierdo de la igualdad tenemos los estimadores del método de los
momentos,
µ̂ = m1′ = xT
∑ ∑
1 T 1 T
σˆ 2 = m 2′ − [m1′ ] 2 = x2 − xT2 = ( x t − xT ) 2
T t =1 t T t =1
Nótese que σˆ 2 es un estimador sesgado, aunque ambos estimadores son consistentes.

Función de Distribución
Universidad de Chile
FUNCIONES DE DISTRIBUCION.
1. INTRODUCCIÓN.
En este capítulo se define y exponen varias distribuciones especiales que son muy
utilizadas en aplicaciones de probabilidad estadística. Las distribuciones que se
presentarán aquí incluyen distribuciones discretas y continuas de tipo univariante,
bivariante y multivariante. Las distribuciones discretas univariantes son la binomial, de
Bernoulli y de Poisson. Las distribuciones continuas univariantes son la normal, gamma,
exponencial y beta. Otras distribuciones continuas univariantes son la lognormal, de
Weibull y de Pareto. También se exponen la distribución discreta multivariante
denominada distribución multinomial y la distribución continua bivariante denominada
distribución normal bivariante.
Es muy importante, a pesar de que no se a discutido con detalle, tener claro que las
estructuras de las funciones de distribuciones se encuentran definidas por una familia
especifica de funciones, como por ejemplo, exponenciales, cuadráticas (polinomios),
logarítmicas, cóncavas o convexas, pero la forma definitiva, la que representa el
comportamiento final de una población por medio de sus frecuencias depende de los
parámetros que la constituyen. Un ejemplo claro de este punto, es el hecho que una
línea recta, es una familia de posibles funciones que pueden ser oblicuas, verticales,
horizonales, etc., sin embargo, el grado de inclinación y contacto con el o los ejes
dependerá de los valores que tomen su pendiente o intercepto.
Un ejemplo de lo mencionado en el párrafo anterior, es: Supongamos que una función

de distribución de probabilidad des esta definida por la siguiente estructura.
 Ax + B a ≤ x ≤ b
f ( x) =  (1.1)
 0 
Además, por efecto de simplificación, supongamos que esta función es efectivamente una
función de distribución de probabilidades, por lo tanto, sabemos que el área bajo la curva
dentro del dominio de f ( x) debe ser igual a 1. Ahora, nuestro interés radica en el hecho
de que la función de la ecuación (1.1) es una recta, pero la constitución final de ella
dependerá de sus parámetros A (pendiente) y B (intercepto), por lo que para diferentes
combinaciones de estos valores, tendremos diferentes distribuciones de probabilidades
finales. Esto quiere decir, que al ser la función de distribución el reflejo del
comportamiento poblacional, entonces sus característica poblaciones (parámetros)
perimitiran diferencias una población de otra cuando estas pertenezcan a la misma
Autor: Pablo Tapia G. Pagina 1

familia, ya sea porque una tiene mayor pendiente que la otra o porque una se desfasa más
que la otra.
Es por esta razón que muchas de las funciones que veremos a continuación se describirán
bajo la premisa de valores paramétricos conocidos, por ejemplo en nuestro caso de la
línea recta, la función será denotada como:
f ( x / A, B) = Ax + B ∀ x ∈ [ a, b] (1.2)
La cual deberemos interpretar como la función de distribución que se encuentra

restringida a una estructura (familia de rectas) y valores paramétricos determinísticos
(valor conocidos), lo cual nos permitirá realizar operaciones numéricas para variadas
aplicaciones.
Se describirá brevemente como cada una de estas distribuciones aparecen en problemas

aplicados y se demostrará porque cada una podría ser un modelo de probabilidad
apropiado para algunos experimentos. Para cada distribución se presentará la función de
distribución y se expondrá algunas de las propiedades básicas de la distribución.
2. FUNCIONES DE DISTRIBUCIÓN DE VARIABLE DISCRETA
2.1. Distribución de Bernoulli.
Un experimento de un tipo particularmente sencillo es aquel en el que hay solamente

dos resultados posibles, tales como cara y cruz, éxito o fracaso, defectuoso o no
defectuoso. Es conveniente designar los dos resultados posibles de dicho experimento
como 0 y 1. La siguiente definición se puede aplicar entonces a cualquier experimento de
este tipo.
Se dice que una variable aleatoria X tiene una distribución de Bernoulli con parámetro
p tal que (0 ≤ p ≤ 1) si X puede tomar únicamente los valores 0 y 1 y las probabilidades
son
Pr( X = 1) = p Pr( X = 0) = 1 − p (1.3)
Definición 1. Entonces, la función de distribución de probabilidad de X se escribe

como sigue:
) p x (1 − p )1− x
f ( x / p= ∀=
x 0,1 (1.4)
Para verificar que esta función de distribución f ( x / p) realmente representa la

distribución de Bernoulli dada por las probabilidades (1.3), simplemente es necesario
observar que f ( x = 1 / p) = p y f ( x = 0 / p) = 1 − p .

Propiedad 1. Si X tiene una distribución de Bernoulli con parámetro p , entonces se

debe cumplir que:
1.i. E ( X ) = p
1.ii. E ( X 2 ) = p
1.iii. var( X ) = p(1 − p)
1.iv. ψ (t ) = E (exp(tX )) = pe t + q
2.2. Distribución Binomial.
Definición 2. Una variable aleatoria X tiene una distribución Binomial con parámetros
T y p si X tiene una distribución discreta cuya función corresponde a:
T 
x / p )   p x (1 − p )T − x =
f (= ∀x 0,1, 2,..., T (1.5)
 x
En esta distribución, T debe ser un entero positivo y p debe pertenecer al intervalo

cerrado 0 ≤ p ≤ 1 , además el termino que encabeza la función de la ecuación (1.5)
corresponde al número de combinaciones que son posible de realizar con los valores
enteros de T y x .
La distribución Binomial tiene una importancia fundamental en probabilidad y estadística

debido al siguiente resultado. Supóngase que el resultado de un experimento puede ser
éxito o fracaso, que el experimento se realiza independientemente T veces y que la
probabilidad de éxito en cualquier realización es p . Si X denota el número total de
éxitos en las T realizaciones, entonces X tiene una distribución Binomial con
parámetros T y p . Este resultado se puede enunciar como sigue:
Si las variables aleatorias X 1 ,..., X T constituyen T pruebas de Bernuolli con parámetro

p y si X = X 1 +  + X T , entonces X tiene una distribución Binomial con parámetro T
y p.
Cuando X se representa como la suma de T pruebas de Bernoulli de esta forma, se

pueden deducir fácilmente los valores de la media, la varianza y la función generatriz de
momentos de X .
Propiedad 2. Si X tiene una distribución de Binomial con parámetros T y p , tal que

X = X 1 +  + X T , donde X i por si solas siguen un experimento de Bernuilli con
parámetro p , entonces se debe cumplir que:
2.i. E ( X ) = Tp
2.ii. var( X ) = Tp (1 − p)

2.iii. ψ (t ) = E (exp(tX )) = ( pe t + q) T
Demostración
Para efecto de desarrollo se demostraran las propiedades 2.i y 2.ii, mientras que la 2.iii
quedará propuesta para el lector.
En este caso corresponde a que el valor esperado de Binomial se describe como:
ΣTx = 0 ( Tx ) xp x (1 − p )T − x
E( X ) =
Donde omitimos el término correspondiente a x = 0 , que es cero, y descomponemos la

combinatoria en su factorial, y posteriormente factorizamos algunos términos
=
T
x 1=
T!
x !(T − x )!
x T −x T
E( X ) =
Σ(T −1)!
x 1 ( x −1)!(T − x )! xp (1 − p ) =
TpΣ p x −1 (1 − p )T − x (1.6)
Ahora si reemplazamos y= x − 1 y N= T − 1 , entonces la ecuación (1.6) se puede reducir

a:
) TpΣ Ny −+11 1 ((=

E( X = (( N +1) −1)!
y +1) −1)!(( N +1) − ( y +1))!
p ( y +1) −1 (1 − p )( N +1) − ( y +1)= Tp ⋅ Σ Ny N!
0 y !( N − y )! p y (1 − p ) N − y (1.7)
Sin embargo, la sumatoria del lado derecho de la ecuación (1.7) es igual a 1, por
definición de función de distribución de probabilidad, así que la expresión anterior se
reduce a:
E ( X ) = Tp
Para encontrar la expresión para la varianza, usaremos el hecho de que

E ( X=
2
) E ( X ( X − 1)) + E ( X ) , de esta manera tenemos que determinar primero el
término E ( X ( X − 1)) , ya que el segundo se encuentra en el párrafo anterior. Repetimos
para todo propósito los pasos antes usados y obtenemos así.
ΣTx = 0 ( Tx ) x( x − 1) p x (1 − p )T − x
E ( X ( X − 1)) =
T (T −1)⋅(T − 2)! T −x (T − 2)!

=
T
x 2= E ( X ( X − 1)) =
x ( x −1)⋅( x − 2)!(T − x )!
x
Σ 2 T
x 1 ( x − 2)!(T − x )! xp (1 − p ) =
T (T − 1) p Σ p x − 2 (1 − p )T − x
E ( X ( X − 1)) = T (T − 1) p 2=
ΣTx 2 ( )p
T −2
x−2
x−2
(1 − p )T − x
Y, al hacer y= x − 2 y T= N − 2 , esto se vuelve
E ( X ( X − 1)) = T (T − 1) p 2 Σ Ny = 0 ( Ny ) p y (1 − p ) N − y = T (T − 1) p 2

Entonces, tenemos que
E ( X 2 ) = T (T − 1) p 2 + Tp
Por lo tanto, la varianza corresponde a:
var( X ) =
E( X 2 ) − E 2 ( X ) =
T (T − 1) p 2 + Tp − T 2 p 2 =
−Tp 2 + Tp =
Tp (1 − p )
Con lo cual se demuestra la varianza para una distribución Binomial.
2.3. Distribución de Poisson
Definición 3. Sea X una variable aleatoria con una distribución discreta y supóngase
que el valor de X debe ser un entero no negativo. Se dice que X tiene una distribución
de Poisson con media λ (λ > 0) si la función de distribución de probabilidad de X es la
siguiente:
λ x e −λ
f (x / λ) = ∀x = 0,1,2,..., (1.8)
x!
Está claro que f ( x / λ ) es positiva para todos los valores de x . Para verificar que la
función f ( x / λ ) definida por la ecuación (1.8) satisface los requisitos de toda función de
distribución, se debe demostrar que Σ ∞x =0 f ( x / λ ) = 1 . Se sabe de cálculo que para todo
número real λ ,
λx λx
∑ ∑
∞ τ
eλ = = lim (1.9)
x =0 x! τ →∞ x =0 x!
Por tanto,
λx
∑ ∑
∞ ∞
eλ = f ( x / λ ) = e −λ = e −λ e λ = 1 (1.10)
x =0 x =0 x!
Media y Varianza. Se ha afirmado que la distribución cuya función de distribución de

probabilidades está dada por la ecuación (1.8) se denomina distribución de Poisson con
media λ . Para justificar esta definición, se debe demostrar que λ es, de hecho, la media
de esta distribución. La media E ( X ) está dada por la siguiente serie infinita:
e −λ λ x e −λ λ x e − λ λ x −1
∑ ∑ ∑ ∑
∞ ∞ ∞ ∞
E( X ) =
x =0
xf ( x / λ ) =
x =0
x =
x =1
x =λ
x =1 ( x − 1)!
=λ (1.11)
x! x!
Por lo tanto, de la ecuación (1.11) se concluye que E ( X ) = λ .

La varianza de la distribución de Poisson se puede determinar mediante una técnica

análoga a la que se acaba de describir. Se empezará por considerar la siguiente esperanza:
=
∞ ∞ e− λ λ x 2 ∞
E[ X ( X − 1)] =
x 0 =x 0= x!
e− λ λ x −2
Σ x( x − 1) f ( x / λ ) =
x 0 ( x − 2)! Σ x( x − 1) λ Σ
= λ2
= (1.12)
Por otro lado sabemos que
E[ X ( X − 1)] = E ( X 2 ) − E ( X ) = E ( X 2 ) − λ = λ 2
Entonces, se puede concluir que:
E ( X 2 ) = λ2 + λ (1.13)
De esta forma de la ecuación (1.10) y (1.13) se puede determinar que la varianza de esta
variable corresponde a:
var( X ) = E ( X 2 ) − [ E ( X )] 2 = λ (1.14)
Función Generatriz de momentos. Para la función de distribución Poisson se tiene

que la función generatriz de momentos corresponde a:
(λ e t ) x
∑ ∑
∞ ∞
ψ (t ) = E ( e tX ) = e tx f ( x / λ ) = e −λ = exp[λ (e t − 1)] (1.15)
x =0 x =0 x!
A modo de mejorar la compresión del comportamiento poblacional por medio de una

función de distribución de probabilidad, se presentan los siguientes ejemplos.
Ejemplo 1. Encuentre la probabilidad de sacar 5 caras y 7 cruces en 12 lanzamientos de

una moneda equilibrada.
Respuesta
Al sustituir x = 5 , T = 12 y p = 12 en la fórmula de la distribución Binomial, obtenemos

que la función de distribución de probabilidades en este caso es:
f ( x / p, T ) = ( )pT
x
x
(1 − p )T − x ≡ f (5 / 12 ,12) = ( )(
12
5 ) (1 − 12 )7
1 5
2
Pero:
( )=
12
5
12!
5!7!
= 8⋅9⋅10⋅11⋅12
1⋅ 2⋅3⋅ 4⋅5
= 8⋅9⋅11⋅12
1⋅3⋅ 4
= 8⋅9⋅11
1
= 8 ⋅ 9 ⋅11 = 792

Que reemplazando en la expresión anterior tenemos que:
792 396 198 99

= 792( 12 )5 (=
f (5 / 12 ,12) ) 792( 12=
1 7
2
)12 = = = ≈ 0.1933
212 211 210 512
El lector debe tener presente que el resultado puede quedar expresado como 99 sobre
512, más que 0.1933, de hecho para una decisión practica y básicamente se pudo
aproximar a 1 de cada 5 casos, con lo cual habría sido posible sacar conclusiones sin
perdida de generalidad.
Ejemplo 2. Encuentre la probabilidad de que siete de 10 personas se recuperarán de una

enfermedad tropical si podemos suponer que la recuperación son eventos independientes
y la probabilidad de que cualquiera de ellos se recuperará de la enfermedad es 0.80.
Respuesta
Al sustituir x = 7 , n = 10 y p = 0.8 en la fórmula para la distribución Binomial,

obtenemos.
f (7 / 0.8,10) = ( )(
10
7 ) ( ) =
4 7 1 3
5 5
10!
7!3!
( 54 )7 ( 15 )3 = 8⋅9⋅10
1⋅ 2⋅3
= 4 ⋅ 3 ⋅10 5410 ≈ 0.20
7
Entonces, podemos concluir que si lo eventos son independientes, entonces, la

recuperación de 7 personas de 10 es sólo del 20%.
Ejemplo 3. La distribución de Poisson ha resultado ser muy útil en problemas de líneas

de espera o colas. Los clientes llegan a una maquina fotocopiadora a una tasa media de
dos cada cinco minutos. En la práctica, se pueden representar los procesos de llegada de
esta clase mediante una distribución de Poisson. Asumiendo que éste es el caso,
representaremos por X el número de llegadas de clientes en un período de cinco
minutos, con lo cual X tiene distribución de Poción con media λ = 2 , y la función de
probabilidad
2 x e −2
Pr( X = x / λ = 2) = f ( x / λ = 2) = ∀x = 0,1, 2,...,
x!
Entonces, la probabilidad para el número de llegadas en un período de cinco minutos

son:
20 e −2
Pr( X= 0 / λ= 2)
= = 0,1353
0!
21 e −2
Pr( X= 1/ λ= 2)
= = 0, 2707
1!

22 e −2
Pr( X= 2 / λ= 2)
= = 0, 2707
2!
Y así sucesivamente. Por lo tanto, la probabilidad de que se produzcan más de dos

llegadas en un período de cinco minutos es:
Pr( X > 2 / λ= 2)= 1 − Σi2= 0 Pr( X= i / λ= 2)= 0,3233
Como hemos visto, la distribución de Poisson aparece de manera natural para

representar el número de ocurrencias de un suceso en un período de tiempo.
3. FUNCIONES DE DISTRIBUCIÓN DE VARIABLE CONTINUA
3.1. Distribución Uniforme.
Cunado la densidad de probabilidad se distribuye en forma constante, es decir, que cada

uno de los elementos contenidos en esta población tiene exactamente la misma
probabilidad de ocurrencia, se dice que la distribución es uniforme, es decir:
Definición 4. Una variable aleatoria tiene un distribución uniforme y se conoce como

una variable aleatoria uniforme continua si y sólo si su densidad de probabilidad está dada
por
1
f ( x / a, b) = ∀a< x<b (1.16)
b−a
Los parámetros a y b de esta densidad de probabilidad son constantes reales, con a < b .
Propiedad 4. Si X es una variable aleatoria que tiene una distribución de Uniforme

con parámetros a y b , respectivamente, entonces se debe cumplir que:
4.i. E ( X ) = 12 (a + b)
4.ii. var( X ) = 121 (b − a) 2
3.2. Distribución Exponencial.
Esta distribución resulta de gran utilidad para atacar problemas de listas de espera y
colas. Cuando el tiempo de servicio a un cliente es aleatorio, esta incertidumbre puede
representarse a menudo mediante una distribución exponencial. La distribución
exponencial difiere de la normal en dos características básicas: Se restringe a variables
aleatorias que pueden tomar valores positivos únicamente, y su función de densidad no
es simétrica alrededor de la media.

Definición 5. Si la variable aleatoria X no puede tomar valores negativos y tiene

función de densidad igual a
e −x β
f (x / β ) = ∀x≥0 (1.17)
β
Donde β es cualquier número positivo, entonces se dice que X sigue una distribución
exponencial
Propiedad 5. Si X tiene una distribución de exponencial con parámetro β , entonces

se debe cumplir que:
5.i. E ( X ) = β
5.ii. var( X ) = β 2
5.iii. ψ (t ) = E (exp(tX )) = (1 − βt ) −1
Aunque el lector debe tener presente que la función de distribución de probabilidades

exponencial puede presentarse también de la siguiente forma:
f ( x / α ) α e −α x
= ∀ x ≥ 0, α > 0
Esta forma, como podrá darse cuenta el leedor es igual a la de la exponencial, para ello
sólo deberíamos imponer que α = β −1 y recuperaríamos la misma función definida en la
ecuación (1.17). Sin embargo, en una buena parte de la literatura se utiliza esta ultima
expresión de la función exponencial y que en este caso la esperanza y varianza serían α −1
y α −2 , respectivamente.
Ejemplo 4. En una cierta localidad de la autopista 78, el número de autos que exceden
el límite de velocidad en más de 10 Kilómetros por hora en media hora es una variable
aleatoria que tiene una distribución de Poisson con λ = 8.4 . ¿Cuál es la probabilidad de
que el tiempo de espera entre autos que exceden el límite de velocidad en más de 10
Km/Hr sea menor a 5 minutos?
Respuesta
Al usar media hora como la unidad de tiempo, tenemos que lamba puede ser equivalente
a el inverso de beta. Por consiguiente, el tiempo de espera es una variable aleatoria que
tiene una distribución exponencial con β = 8.41 y, puesto que 5 minutos es 16 de la unidad
de tiempo, encontraremos que la probabilidad deseada es:
x2 1/ 6 1/ 6
∫Domf
f ( x / β )dx =∫ β −1e − x / β dx =∫
x1 0
8.4e −8.4 x dx =−e −8.4 x
0
=−e −1.4 + 1 =0.75

Ejemplo 5. Suponga que posee una muestra {X t }Tt=1 independiente e idénticamente

distribuidas de una población que posee distribución exponencial con parámetro β .
Determine el valor esperado y la varianza del promedio de esta muestra.
Respuesta
En este caso debemos recordar que la muestra al ser independientes, entonces cada una
de sus componentes son independientes, esto quiere decir que no existe covarianza entre
las observaciones que en este caso son la muestra de variables aleatorias. Por otro lado el
que sean idénticamente distribuidas quiere decir que cada una da la variables aleatorias
que constituyen la muestra tienen los mismos parámetros, que en este caso
correspondería a la esperanza y varianza, que en mucha de la literatura disponible es
interpretado como pertenecientes a la misma población, lo cual puede ser cierto sólo si
la población sobre la cual se extrajo la muestra es constante en forma transversal (entre
los individuos) y longitudinalmente (a través del tiempo).
Para efecto de nuestro problema supondremos que nuestra población es constante para
todos los efectos, es decir, que nuestro cálculo queda como:
−1 T
xi ) = T −1 E (ΣTi 1 xi )
T ) = E (T Σ i 1 =
E ( x=
Claramente los términos que no tienen comportamiento aleatoria no sufren cambio con
la función esperanza, lo que hace poder sacarlo de esta, sin embargo, no debemos olvidar
que la esperanza es un operador lineal, por lo tanto, el valor esperado de la suma de
variables aleatorias es la suma de los valores esperados por separado, es decir,
) T −1ΣTi =1 E ( xi )
E ( xT=
Pero, todos los x´s tienen el mismo valor esperado, recuerde que son idénticamente
distribuidos, por lo tanto, tenemos que:
E ( xT ) =T −1ΣTi =1 β =T −1T β =β
Ahora con respecto a la varianza tenemos algo un poco más complicado, ya que esta no
es lineal, sin embargo, puede tener un comportamiento parecido al lineal si las variables
sean independientes, para entender mejor este concepto, vamos a realizar el siguiente
procedimiento, recordemos que la varianza de la suma de dos variables aleatorias
corresponde a:
var( X + =
Y ) var( X ) + var(Y ) + 2 cov( X , Y )
Pero si las variables son independientes entonces su covarianza (grado de dependencia

lineal) debe ser igual a cero, por lo que la varianza de la suma se convierte en:

var( X + =
Y ) var( X ) + var(Y )
De esta forma podemos ver que cuando se suman variables independientes, entonces es
posible afirmar que es igual a la suma de las varianzas por separado. Entonces, para
nuestro problema tenemos
xT )= var(T −1ΣTi 1 =
var(= xi )= T −2 var(ΣTi 1 xi )
var(
= var( xi ) =T −2 ΣTi 1 β 2 =T −1 β 2
xT ) =T −2 ΣTi 1 =
3.3. Distribución Normal.
La distribución normal, que estudiaremos en esta sección, es de muchas maneras, la

piedra angular de la teoría estadística moderna. Se investigó por primera vez en el siglo
XIX cuando los científicos observaron un grado asombroso de regularidad en los errores
de medición. Encontramos que los patrones (distribuciones) que observaban se podrían
aproximar cercanamente por curvas continuas, a los que se referían como “curvas
normales de errores” y las atribuían a las leyes del azar. Abraham de Moivre (1667-
1745), Pierre Laplace (1749-1827) y Kart Gauss (1777-1855) estudiaron por primera
vez las propiedades matemáticas de estas curvas normales.
Ahora introduciremos una distribución continua que posee características especiales. De

manera que el lector pueda apreciar en forma intuitiva esta distribución, veremos un
ejemplo en el cual supondremos que un grupo de estudiantes rinde una examen. Se
espera que una gran parte de las notas obtenidas se concentran alrededor de la media.
Además se espera que el número de notas obtenidas en rangos de longitud fija irá
descendiendo al alejarnos de la media. Si la nota promedio en el examen ha sido de 4.5,
esperamos encontrar, por ejemplo, más estudiantes en el rango 4.0-5.0 que en el rango
6.0-7.0. Estas condiciones sugieren una distribución con una cima en la media y que va
descendiendo gradualmente en los extremos. Una distribución con estas propiedades es
la distribución normal, cuyo comportamiento se puede apreciar en la figura 1. Como
puede verse, la función de densidad tiene forma de campana.
Figura 1. Función de densidad de una distribución normal.
Definición 6. Una variable aleatoria X tiene una distribución normal y se conoce

como una variable aleatoria normal si y sólo si su densidad de probabilidad está dada por

µ ,σ 2 )
f ( x /= 1
2πσ 2
(
exp − 2σ1 2 ( x − µ ) 2 ) ∀ x ∈ IR (1.18)
Propiedad 6. Si X tiene una distribución de normal con parámetros µ y σ 2 ,

respectivamente, entonces se debe cumplir que:
6.i. E ( X ) = µ
6.ii. var( X ) = σ 2
6.iii. ψ (t ) = E (exp(tX )) = ( µt + 12 σ 2 t 2 ) ∀t ∈ IR
Queda propuesto para el lector demostrar estas propiedades.
De estas propiedades puede concluirse que dadas la media y la varianza de una variable
aleatoria normal, queda determinada la distribución específica dentro de la familia de
distribuciones normales. Esto permite el uso de la siguiente notación.
Si la variable aleatoria X sigue una distribución normal con media µ y

varianza σ 2 , escribiremos
X  N (µ ,σ 2 )
Ahora, la media proporciona una medida de posición central, mientras que la varianza da
una medida de dispersión alrededor de la media. Luego los valores que toman los
parámetros µ y σ 2 tienen diferentes efectos en la función de densidad de una variable
aleatoria normal. La figura 2 muestra la función de densidad de dos distribuciones
normales con varianza común pero diferentes medias. Puede verse, que incrementar la
media, dejando constante la varianza, traslada la función de densidad pero no altera su
forma. En la figura 3 las funciones de densidad representadas corresponden a variables
aleatorias normales con media común pero diferentes varianzas. Ambas son simétricas
alrededor de la media común, pero la que tiene mayor varianza es más dispersa.
Figura 2. Funciones de densidad de dos distribuciones normales

con medias µ0 < µ1 .

Figura 3. Funciones de densidad de dos distribuciones normales

con varianzas σ 12 < σ 02 ; ambas distribuciones tienen media µ .
Un problema importante en la práctica es determinar probabilidades de una distribución

normal específica. Como primer paso, introduciremos la función de distribución
acumulada.
Supongamos que X es una variable aleatoria normal con media µ y varianza σ 2 , es

decir, X  N ( µ , σ 2 ) . Entonces, la función de distribución acumulada F ( x0 ) es:
( )
x0
=
F ( x0 ) ∫−∞
1
2πσ 2
exp − 2σ1 2 ( x − µ ) 2 dx
Esto corresponde al área bajo la curva de la función de distribución de probabilidad a la

izquierda de x0 , como se ilustra en la figura 4. Como ocurre para cualquier densidad de
probabilidad, el área total por debajo de la curva es 1, es decir, F (∞) =1 .
Figura 4. El área sombreada es la probabilidad de que X sea

menor o igual que x0 para una variable aleatoria X  N ( µ , σ 2 ) .
No hay una expresión algebraica simple para calcular la función de distribución

acumulada de una variable aleatoria distribuida normalmente. Cualquier probabilidad
puede obtenerse a partir de la función de distribución acumulada. Sin embargo, sigue
habiendo una dificultad, porque no existe una fórmula conveniente para determinar la
función de distribución acumulada. En principio, podrían obtenerse las probabilidades de
cualquier distribución normal mediante métodos numéricos utilizando un computador.
No obstante, sería demasiado tedioso tener que hacer esta operación para cada
distribución normal. Afortunadamente, las probabilidades de cualquier distribución

normal pueden expresarse en términos de la probabilidad de una normal determinada,

para la cual ya se han calculado y tabulado las probabilidades. Se introduce a continuación
esta distribución normal particular que se utiliza con este fin.
Distribución Normal Estándar. La distribución normal con media 0 y varianza igual

a 1 se llama distribución normal tipificada o también distribución normal estándar. La
función de distribución tipificada usualmente se denota por el símbolo φ y la función
acumulada por el símbolo Φ . Entonces,
1  1 
φ=
( z / 0,1) exp  − z 2  ∀ z ∈ IR (1.19)
2π  2 
exp ( − 12 z 2 ) dz
z0 z0 1
=
Φ ( z0 ) ∫ −∞
φ ( z=
/ 0,1)dz ∫ −∞
2π
(1.20)
Es habitual en la literatura referirse a una variable aleatoria con distribución de

probabilidades normal con la letra Z , esto con el simple objetivo de diferenciar más
fácilmente entre una variable aleatoria normal cualquiera de una estándar.
La función de distribución acumulada de una variable aleatoria normal estándar está

tabulada en el apéndice de este documento. En esta tabla se ven valores de
1
Φ ( z )= Pr( Z ≤ z )
Por ejemplo podemos notar que:
Φ (−0, =
74) Pr( Z ≤ −0.74)
= 0, 2296
Figura 5. Función de densidad de la variable aleatoria normal

estándar, donde las áreas achuradas son iguales.
Sin embargo, los valores positivos de esta misma probabilidad se podría obtener a partir
de la simetría del problema. Esto quiere decir que Pr( Z ≤ −0.74)
= Pr( Z ≥ 0.74) , que en
términos de la función acumulada normal estándar es:
1
Téngase presente que Pr( Z ≤ z )= Pr( Z < z ) , para efecto de variables continuas.

Φ (−0, 74) = 1 − Φ (0, 74)
Este último resultado se puede observar en forma intuitiva en la figura 5.
Ejemplo 6. Supongamos que Z es una variable aleatoria normal estándar, hallar

Pr(−0.5 < Z < 1.23) .
Respuesta
La probabilidad que se pide es:
Pr(−0.5 < Z < 1.23) = Pr( Z < 1.23) − Pr( Z < −0.5) = Φ (1.23) − Φ (−0.5)
Utilizando la tabla del apéndice, se obtiene que:
Pr(−0.5 < Z < 1.23)

= 0.8907 − 0.3085
= 0.5822
A continuación mostraremos cómo pueden expresarse probabilidades de cualquier

variable aleatoria normal en términos de probabilidades de la variable aleatoria normal
estándar.
Supongamos que la variable aleatoria discreta 2 X , tiene una probabilidad p de ser igual
a x0 , ( Pr(=
X x= 0) p ), por otro lado, tenemos dos escalares que son a y b (constantes
arbitrarias), entonces, analicemos lo siguiente:
Para una variable aleatoria Y= X + a , quisiéramos determinar la probabilidad definida

por Pr(Y= x0 + a) , la cual se puede ser representada como Pr( X + a = x0 + a) , pero esta
última probabilidad se puede interpretar equivalentemente como
Pr( X + a = x0 + a ) = Pr( X = x0 , a = a)
Esto es interpretado como la probabilidad de que X = x0 y de que a = a , pero las

constantes y la variables aleatoria son independientes entre si, por lo tanto, esta
probabilidad conjunta se puede reescribir de la siguiente forma
Pr( X + a = x0 + a ) = Pr( X = x0 ) Pr(a = a)
Pero Pr(a = a) es uno, ya que una constante nunca cambia de posición por lo que se
tiene certeza absoluta de su valor, por esta razón, al reemplazar los valores tenemos que:
2
Esto es simplemente para simplificar el cálculo, sin embargo, el lector podrá extender este ejercicio a
variables aleatorias continuas, cambiando solamente el signo de desigualdad.

Pr( X + a = x0 + a ) = p ⋅1 = p
Por lo tanto, podemos concluir que:
Pr( X = x0 ) = Pr( X + a = x0 + a ) (1.21)
Sin embargo, esta expresión puede ser fácilmente extensible a una variable aleatoria
continua, como:
Pr( X ⊕ x=
0) Pr( X + a ⊕ x0 + a ) (1.22)
Donde el símbolo ⊕ , representa cualquiera de las siguientes signos de desigualdad,

≤,≥, <, >.
Entonces, el lector podrá ahora fácilmente demostrar que
Pr( X ⊕ x0=
) Pr(bX ⊕ bx0 ) (1.23)
Siempre y cuando b sea un número constante y positivo estricto.
Ejemplo 7. Sea X una variable aleatoria normal con media µ y varianza σ 2 . Entonces,
si definimos la variable Z X , como:
X −µ
ZX =
σ
¿La probabilidad Pr( X ≤ x) , puede ser representada como la probabilidad de una variable
aleatoria normal estándar?
Respuesta
En este como ya nos podemos imaginar X y Z X , tiene un comportamiento de una

variable aleatoria normal, pero si utilizamos las ecuaciones (1.22) y (1.23), podemos
realizar las siguientes operaciones sin cambiar la probabilidad.
 X − µ x0 − µ   x0 − µ 
Pr( X ≤ x=
0) Pr  ≤ = Pr  Z X ≤ σ 
 σ σ   
Sabemos que Z X tiene comportamiento normal, pero todavía no podemos afirmar que
esta normalidad viene de una distribución estándar. Para determinar ello es necesario
determinar el valor esperado (media) y la varianza de esta variable aleatoria. Es decir,
E[σ −1 ( X −=
µ )] σ −1 E[ X −=
µ ] σ −1[ E ( X ) − E ( µ )]

Pero, si X es una variable aleatoria normal con media µ , entonces, E ( X ) = µ , y el

valor esperado de una constante es la misma constante, E ( µ ) = µ , por lo tanto, podemos
concluir que la media de Z X es cero.
Bueno, ahora veamos que pasa con la varianza de Z X .
var[σ −1 ( X =
− µ )] σ −2 var[ X=
− µ ] σ −2 [var( X ) − var( µ )]
Sin embargo, la varianza de X es σ 2 y la varianza de una constante es cero, ya que las

constantes no tienen volatilidad, esto nos lleva a que la varianza de Z X es uno.
De esta forma es fácil darse cuenta que la transformación al pasar de X a Z X , es

simplemente modificar el comportamiento normal cualquiera de X a una normal
estándar. Este proceso de conoce como estandarización o tipificación de variables
aleatorias normal, donde la base teórica se conoce con el nombre de Teorema Central
del Límite (este un caso particular de este teorema).
Ejemplo 8. El rendimiento promedio de la PSU 3 2005 fue de 395 ptos. y una desviación
estándar de 168 ptos. Se le solicita que determine el número aproximado de alumnos
que superaron los 670 ptos, si el número total de quienes la rindieron fue de 120.000,
además puede suponer que esta población sigue un comportamiento normal.
Respuesta
El lector debe tener presente que es muy frecuente encontrarse con problemas que
suponen normalidad, que como ejercicio matemático es una buena forma de simplificar
la resolución del problema, sin embargo, no es tan simple darse este supuesto en
problemas cotidianos, de hecho hacerlo sin la más mínima fundamentación teórica, es
una exageración que resta confiabilidad a los resultados y por ende a las conclusiones.
Bajo el supuesto de comportamiento normal y de que la probabilidad representa una

frecuencia relativa, tenemos que la fracciones de alumnos que supera los 670 ptos. se
representa con la siguiente probabilidad, Pr( X > 670) , donde X corresponden a los
puntos obtenidos por cualquier alumno dentro de los que rindieron la prueba.
Entonces, como calcular esta probabilidad con una integral es prácticamente imposible,
entonces, utilizaremos las ecuaciones (1.22) y (1.23), para determinar el valor de esta
probabilidad, es decir,
Pr( X > 670) = Pr( X168

− 395
> 670 − 395
168
) = Pr( Z X > 670 − 395
168
) = Pr( Z X > 1.64)
3
PSU, Prueba de Selección Universitaria, la cual se aplica en Chile desde el 2003 y rinden todos los
alumnos que hallan cursado su enseñanza media.

Pero, si deseamos utilizar la tabla normal estándar que se encuentra en el apéndice, es

necesario modificar el signo de desigualdad, es decir,
Pr( Z X > 1.64) =

1 − Pr( Z X ≤ 1.64)
Que de la tabla, obtenemos que:
Pr( Z X > 1.64) =

1 − 0.9495 =
0.0505
De esta forma podemos concluir que aproximadamente el 5% de los alumnos que
rindieron la PSU, superaron los 670 ptos., es decir, unos 6.000 alumnos.
Ahora si quisiéramos discutir este resultado, podríamos hacer énfasis en el hecho de que
no todos los alumnos rindieron la PSU, por lo tanto, existe un porcentaje de individuos
que no participaron en el proceso, quienes posiblemente podrían haber modificado este
resultado, no siendo un 5%, sin que una cifra posiblemente menor.
3.4. Distribución Normal Bivariada.
Supóngase que Z 1 y Z 2 son variables aleatorias independientes cada una de las cuales
tiene una distribución normal tipificada. Entonces la función de distribución de
probabilidad conjunta g ( z1 , z2 ) de Z 1 y Z 2 para cualquiera valores de z1 y z2 está dada
por la ecuación
g ( z1 , z 2 ) = 1
2π
(
exp − 12 ( z12 + z 22 ) ) (1.24)
Para cualesquiera constantes µ1 , µ 2 , σ 1 , σ 2 y ρ tales que −∞ < µ i < ∞ , σ i > 0

∀i = 1,2 y −1 < ρ < 1 , se define ahora dos nuevas variables aleatorias X 1 y X 2 como
sigue:
X 1 = σ 1 Z 1 + µ1
(1.25)
X 2 = σ 1 [ ρZ 1 + (1 − ρ 2 ) −1 2 Z 2 ] + µ 2
Se deducirá ahora la función de distribución de probabilidad conjunta f ( x1 , x 2 ) X 1 y

X2.
La transformación de Z 1 y Z 2 a X 1 y X 2 es una transformación lineal y se verificará

que el determinante ∆ de la matriz de coeficientes de Z 1 y Z 2 tiene el valor
∆ = (1 − ρ 2 )1 2 σ 1σ 2 . Por tanto, el jacobiano J de la transformación inversa de X 1 y X 2
a Z 1 y Z 2 es
J = ∆−1 = [(1 − ρ 2 )1 2 σ 1σ 2 ] −1 (1.26)

Puesto que J > 0 , el valor de J es igual al valor de J . Si se resuelven las relaciones

(1.25) para Z 1 y Z 2 , en función de X 1 y X 2 , entonces la función de distribución de
probabilidad conjunta f ( x1 , x 2 ) se puede obtener reemplazando z1 y z 2 en la ecuación
(1.24) por sus expresiones en función de x1 y x 2 y multiplicando luego por J . Se
puede demostrar que el resultado para x1 y x 2 es:
  x − µ  2
1  1
 1
f ( x1 , x 2 ) = exp  − 1

2  σ
2π (1 − ρ ) σ 1σ 2
2 12
 2(1 − ρ )  1 
 x − µ1  x 2 − µ 2 ) 
− 2 ρ  1   (1.27)
 σ 1  σ 2 
2 
 x − µ2 ) 
+  2   
 σ2  

Cuando la función de distribución conjunta de dos variables aleatorias X 1 y X 2 es de la

forma de la ecuación (1.27) se dice que X 1 y X 2 tienen una distribución normal
bivariante. Las medias y las varianzas de la distribución normal bivariante especificada
por la ecuación (1.27) se pueden deducir fácilmente de las definiciones de la ecuación
(1.25). Puesto que Z 1 y Z 2 son independientes y cada una tiene media 0 y varianza 1,
resulta que
E( X i ) = µ i var( X i ) = σ i2 ∀i = 1,2
cov( X 1 , X 2 )
cov( X 1 , X 2 ) = ρσ 1σ 2 ρ(X1, X 2 ) =
σ 1σ 2
Ha resultado conveniente introducir la distribución normal bivariante como la

distribución conjunta de ciertas combinaciones lineales de variables aleatorias
independientes que tienen distribución normal tipificada. Debe subrayarse, sin embargo,
que la distribución normal bivariante aparece directa y naturalmente en muchos
problemas prácticos. Por ejemplo, para muchas poblaciones, la distribución conjunta de
dos características físicas como las estaturas y pesos de los individuos de una población
será aproximadamente una distribución normal bivariante. Para otras poblaciones, la
distribución conjunta de las calificaciones de los individuos de la población en dos
pruebas relacionadas será aproximadamente una distribución normal bivariante.

1.3.5. Distribución Gamma.
Algunas de las variables aleatorias que veremos siguen una distribución de la forma:
f ( x / α , β ) = kx α −1 e − x β x ∈ IR + + (1.28)
Donde α > 0 , β > 0 y k debe ser tal que el área total bajo la curva sea igual a 1. Para
evaluar k , primero hacemos la substitución y = x β , lo cual nos da
∞ ∞
∫ 0
kx α −1 e − x β dx = kβ α ∫ 0
y α −1 e − y dy (1.29)
∞
Γ(α ) = ∫ 0
y α −1 e − y dy ∀α > 0 (1.30)
Que se trata en detalle en muchos de los textos de cálculo avanzado. Al integrar por
parte y asumiendo que α es un parámetro, encontramos que la función gamma satisface
la fórmula recursiva.
Γ(α=
) (α − 1) ⋅ Γ(α − 1) (1.31)
Para α > 1 , y puesto que
∞
Γ(1) = ∫ 0
e − y dy = 1
Se sigue por la aplicación repetida de la fórmula recursiva que Γ(α ) = (α − 1)! donde α
es un entero positivo. También, un valor especial importante es Γ( 12 ) = π .
Regresamos ahora al problema de evaluar k , igualamos la integral obtenida a 1, y

obtenemos
∞
∫ 0
kx α −1 e − x β dx = kβ α Γ(α ) = 1
Y por tanto
1
k= (1.32)
β α Γ(α )
Esto nos lleva a al siguiente definición de la distribución gamma.

Definición 7. Una variable aleatoria X tiene una distribución gamma y se conoce

como una variable aleatoria gamma si y sólo si su densidad de probabilidad está dada por
1
f (x / α , β ) = α
x α −1 e − x β x ∈ IR + + (1.33)
β Γ(α )
Propiedad 7. Si X tiene una distribución gamma con parámetros α y β ,

7.i. E ( X ) = αβ
7.ii. var( X ) = αβ 2
7.iii. ψ (t ) = E (exp(tX )) = (1 − β t ) −α ∀ t < β −1
3.6. Distribución Beta.
La densidad uniforme f ( x) = 1 para 0 < x < 1 y f ( x) = 0 en cualquier otra parte es un

caso especial de la distribución beta, la cual se define de la siguiente manera.
Definición 8. Una variable aleatoria X tiene una distribución beta y se conoce como
una variable aleatoria Beta si y sólo si su densidad de probabilidad está dada por
Γ(α + β ) α −1
f (x / α , β ) = x (1 − x) β −1 ∀α > 0, β > 0 (1.34)
Γ(α )Γ( β )
Donde α > 0 y β > 0 .
En años recientes, la distribución beta ha encontrado aplicaciones importantes en la

inferencia bayesiana, donde los parámetros se consideran como variables aleatorias, y hay
necesidad de una densidad de probabilidad bastante “flexible” para el parámetro θ de la
distribución binomial, el cual sólo toma valores distintos a cero en el intervalo desde 0
hasta 1. Con “flexible” queremos decir que la densidad de probabilidad puede tomar una
gran variedad de formas diferentes.
No demostraremos aquí que el área total bajo la curva de la distribución beta, como la de
cualquier densidad de probabilidad, es igual a 1, pero en la demostración del teorema
que sigue, nos valdremos del hecho que
1 Γ(α + β ) α −1
∫ 0 Γ (α )Γ ( β )
x (1 − x) β −1 dx = 1 (1.35)
Y por tanto que

1 Γ(α + β )
∫ 0
x α −1 (1 − x) β −1 dx =
Γ(α )Γ( β )
= B(α , β ) (1.36)
Esta integral define la función beta, cuyos valores se denotan por B(α , β ) . En cualquier
libro de texto avanzado se puede encontrar un análisis detallado de función beta.
Propiedad 8. Si X tiene una distribución Beta con parámetros α y β,

α
8.i. E ( X ) =
α +β
αβ
8.ii. var( X ) =
(α + β ) (α + β + 1)
2

4. DISTRIBUCIONES CONDICIONADAS (CASO BIVARIANTE)
Considerar y utilizar distribuiciones condicionales juega un papel fundamental en la

modelización para un proceso de toma de decisiones. Vamos a considerar algunos
resultados generales para una distribución bivariante.
En una distribución bivarainte, hay una distribución condicional sobre y para cada valor
de x. Las densidades condicionales son
f ( x, y ) f ( x, y ) f ( x, y ) f ( x, y )
f ( y | x) = = y f ( x | y) = = (1.37)
∫y f ( x, y )dy f x ( x)
∫x f ( x, y )dx f y ( y)
De la ecuación (1.37) se deduce que, si x e y son independientes, entonces se cumple

que f ( y | x) = f y ( y ) y f ( x | y ) = f x ( x) .
La interpretación es que si las variables son independientes, las probabilidades de los

sucesos relacionados con una variable no están relacionadas con la otra. La definición de
densidades condicionales tiene como implicancia el siguiente resultado importante:
f ( x, y ) = f ( y | x ) f x ( x ) = f ( x | y ) f y ( y ) (1.38)
4.1. Media Condicional.
Una media condicional es la media de la distribución condicional y se define por:
 yf ( y | x)dy si y es continua

E (Y | x) =  y ∫ (1.39)
 Σ y yf ( y | x) si y es discreta
A la función de media condicional E[Y | x] se le denomina regresión de Y sobre x . Por

ello una variable aleatoria Y siempre se puede escribir como:
Y = E[Y | x] + (Y − E[Y | x]) = E[Y | x] + ε
Donde ε contiene el efecto estocástico de la variable.
4.2. Varianza Condicional.
La varianza condicional es la varianza de la distribución condicional:
V [Y | x] = E[(Y − E[Y | x]) 2 | x] = E[Y 2 | x] − ( E[Y | x]) 2 (1.40)

A la varianza condicional se la denomina función cedástica y, como la regresión, es

generalmente, una función de x . Sin embargo, a diferencia de la función de la media
condicional, lo habitual es que la varianza condicional no varíe con x . Esto no implica,
sin embargo, que V [Y | x] sea igual a V (Y ) , que, en general, no será el caso. Implica,
solamente, que la varianza condicional es una constante. El caso en que la varianza
condicional no varía con x se denomina homocedasticidad (varianza igual, o
constante).
4.3. Relación entre Momentos Condicionales y Marginales.
En los siguientes teoremas se presentan algunos resultados útiles sobre los momentos de
una distribución condicional:
Teorema 1. Ley de las esperanzas iteradas.
Este concepto consiste en calcular el promedio general como el promedio de los

promedios parciales, es decir,
E[Y ] = Ex[ E[Y | x]] (1.41)
Donde la notación Ex [⋅] indica la esperanza sobre los valores de x .
Teorema 2. Los momentos de una combinación lineal de variables.
Si E[Y | X ] = a + bX , donde ahora X podría se una variable aleatoria, entonces
cov( X , Y )
a = E[Y ] − bE[ x] y b= (1.42)
V[X ]
Cuya demostración queda propuesta para al lector.
Teorema 3. Descomposición de la varianza.
En una distribución conjunta
V [Y ] = Vx ( E[Y | x]) + E x [V (Y | x)] (1.43)
La notación V x [⋅] indica la varianza sobre la distribución de x . Esto indica que en una
distribución bivariante, la varianza de Y se descompone en la varianza de la función
media condicional (intervarianza) más la varianza esperada alrededor de la media
condicional (intravarianza).

Teorema 4. Varianza residual de una regresión.
En cualquier distribución bivariante,
E x [V (Y | x)] = V [Y ] − Vx ( E[Y | x]) (1.44)
En promedio, condicionar reduce la varianza de la variable sujeta al condicionamiento.

Por ejemplo, si Y es homocedástica, se cumple siempre que la varianza de la(s)
distribución(es) condicional(es) es menor o igual a la varianza marginal de Y .
Teorema 5. Regresión lineal y homocedasticidad.
En una distribución bivariante, si E[Y | x] = a + bx y si V [Y | x] es una constante, entonces
V [Y | X ] = V [Y ](1 − Corr 2 [Y , X ]) = σ 2y (1 − ρ xy
2
)
La prueba se obtiene directamente utilizando los teoremas 2 y 4.
Ejemplo 9. En su estudio 1984, Hausman et al. (1984) sugiere que la distribución

POISSON es un modelo razonable para la distribución del número de patentes ( P )
concedidas a las empresas en un determinado año:
λ P e −λ
f (P | λ ) = , P = 0,1,2,...
P!
Sin embargo, se sabe que cuanto más se invierte ( R ) en investigación y desarrollo

(I&D), mayor es, en promedio, el número de patentes recibidas. Esta interacción
debería afectar a la distribución de P . Cómo se distribuye R entre las empresas es una
cuestión colateral, que puede ser o no de interés. Pero en lo que estamos interesados es
en cómo interactuan R y el número medio de patentes. Como el valor medio de las
patentes recibidas es lambda, supongamos que la distribución previa de P es condicional
en R y especificamos que:
λ = a + bR = E[ P | R]
Esperariamos que b fuese positiva. Por tanto,
(a + bR) P e −( a +bR )
f ( P | R) = , P = 0,1,2,...
P!
Que capta el efecto que buscábamos. Observar un gran número de patentes puede
reflejar un valor alto del proceso POISSON, o bien puede que se derive de un valor
inusualmente alto de R .

La distribución POISSON ilustra una trampa que a veces se da en la especificación de un

modelo econométrico. En una distribución POISSON, la media es igual a la varianza. No
hemos descartado la posibilidad de que a + bR pueda ser negativo para algunos valores de
a y b . No sólo es éste un parámetro en cualquier caso inválido para la distribución de
POISSON, sino que además, permite una varianza negativa. Esto es un error común de
especificación.
Ahora supongamos que R es una fracción constante del tamaño de la empresa, y que
esta variable sigue una distribución lognormal. Así, R también seguirá una distribución
lognormal 4. Supongamos que µ = 0 y σ = 1 . Entonces
E[ R] = e = 1,65 y V [ R] = 4,65
Supongamos también que a = 1 y b = 2 . Entonces.
E[ P | R ] = 1 + 2 R
E[ P] = ER [ E[ P | R]] = ER [1 + 2 R] = 1 + 2 ER [ R ] = 4,30
VR [ E[ P | R]] = VR [1 + 2 R] = 4VR [ R] = 18,6
V [ P | R] = λ = 1 + 2 R
ER [V [ P | R]] = ER [1 + 2 R] = 1 + 2 ER [ R] = 4,30
De esta manera se puede concluir que
V [ P] = VR [ E[ P | R ]] + ER [V [ P | R ]] = 18,6 + 4,30 = 22,9
Nótese que V [P] es apreciablemente mayor que E[V [ P | R]] .
4
Cuando se modelan distribuciones de tamaño, tales como la distribución del tamaño de las
empresas en una industria o la distribución de la renta en un país, la distribución lognormal
(LN), que representamos por LN [ µ , σ 2 ] es especialmente útil.
f (x | µ,σ 2 ) =
1
2π σx
(
exp − 12 [(ln x − µ ) / σ ] 2 )
µ + 12 σ 2
y V [ X ] = e2 µ +σ (eσ − 1) la relación en las
2 2
Una variable lognormal X tiene E[ X ] = e
distribuciones normal y lognormal es que si Y ~ LN [ µ , σ 2 ] , entonces ln(Y ) ~ N [ µ , σ 2 ] , por lo
tanto se puede concluir que Y r ~ LN [rµ , r 2σ 2 ] .

4.4. El Análisis de la Varianza.
El resultado de descomposición de la varianza implica que en una distribución bivariante,

la variación de Y surge por dos motivos:
1. Variación porque E[Y | x] varía con x :
Intervarianza = Varianza de regresión = V x ( E[Y | x])
2. Variación porque, en cada distribución condicional, Y varía alrededor de la

media condicional.
Intravarianza = Varianza residual = E x (V [Y | x])
Por tanto,
V [Y ] = Varianza de regresión + Varianza residual
Cuando analicemos una regresión, habitualmente estaremos interesados en cuál de las

dos partes de la varianza total, V [Y ] , es mayor. Por ejemplo, en la relación patentes-
I&D, ¿cuál explica más la varianza del número de patentes recibidas? ¿variaciones en la
cantidad de I&D (varianza de regresión) o la variación aleatoria en las patentes recibidas
dentro de la distribución POISSON (varianza residual)? Una medida natural es el
coeficiente
Varianza de Regrersión
Coeficiente de Determinación = CoD =
Varianza Total
Ejemplo 10. Análisis de la varianza en un modelo de POISSON. Utilizando el ejemplo

anterior tenemos que.
18,6
CoD = = 0,812
22,9
Esto nos indica que aproximadamente el 81% de la varianza es explicada por la varianza
de la regresión.
En el contexto de una regresión lineal, el coeficiente de determinación surge de otra

relación que subraya la interpretación del coeficiente de correlación.
Si E[Y | x] = a + bx , entonces el coeficiente de determinación CoD = ρ 2 , donde ρ 2 es la

correlación al cuadrado entre x e Y . Podemos concluir que el coeficiente de

correlación (al cuadrado), es una medida de la proporción de la varianza de Y que se

explica por la variación de la media de Y , dado x . En este sentido la correlación puede
ser interpretada como una medida de asociación lineal entre dos variables.
5. TEORÍA DE CONVERGENCIA EN PROBABILIDADES.
5.1. La Ley Débil de los Grandes Números.
Al discutir convergencia en probabilidad fue demostrado que cuando el tamaño de la

muestra llega a ser grande, la media muestral se acerca a la media poblacional. Esto se
conoce como la ley débil de los grandes números (WLLN, del ingles Weak Law of Large
Numbers) , lo cual se sostiene bajo una variedad de supuestos.
Teorema 6. Kinchin
Sea { X T , T ≥ 1} una sucesión de variables aleatoria independiente e idénticamente distribuidas

(IID) con media finita µ , y sea X= T T −1ΣTi =1 X i , entonces
lim Pr[ X T − µ > ε ] =

T →∞
0 (1.45)
O equivalentemente
lim Pr[ X T − µ ≤ ε ] =
T →∞
1 (1.46)
En otras palabras, plim X T =µ .
Teorema 7. Chebyshev
Sea { X T } una sucesión de variables aleatoria independientes con media finita µT , y

varianza σ T2 , y sea µ=
T T −1ΣTi =1 µi . Si las varianzas son igualmente acotadas, esto es,
p
σ T2 < c < ∞ , entonces ( X T − µT ) → 0 .
Demostración
Se sabe que var( X T ) =T −2 ΣTi =1σ i2 ≤ T −1c . Por la desigualdad de Chebyshev 5,
5
La desigualdad de Chebyshev. Si xT es una variable aleatoria y cT y ε son constantes, entonces
Pr( xT − cT ≥ ε ) ≤ ε −2 E[( xT − cT ) 2 ]

var( X T ) c
Pr[ X T − µT ≥ ε ] ≤ ≤ (1.47)
ε2 Tε 2
En este caso tenemos que cuando T tiende a infinito el lado derecho de la ecuación
(1.47) converge a cero y como la probabilidad no puede ser negativa, entonces se
demuestra que el término descrito converge el cero.
Teorema 8. Markov´s
Sea { X T } una sucesión de variables aleatoria con media finita µT , y sea X=

T T −1ΣTi =1 X i y
p
6
µ=
T T −1ΣTi =1 µi . Si las var( X T ) → 0 cuando T → ∞ , entonces ( X T − µT ) → 0 .
Teorema 9. Kolmogorov´s
Sea X=
T T −1ΣTi =1 X i y µ=
T T −1ΣTi =1 µi , y además se define Z=
T X T − µT . Una condición
p
necesaria y suficiente para que se cumpla WLLN, debe ocurrir que ZT → 0 y que
0.
lim E[ ZT2 /(1 + ZT2 )] =
T →∞
5.2. La Ley Fuerte de los Grandes Números
La WLLN indicó que bajo ciertas condiciones la media muestral converge en

probabilidad a la media poblacional. Sin embargo, podemos en efecto hacer una
derivación más fuerte, la cual se puede indica como que la media muestral converge
almost surely a la media poblacional. Esto se conoce como la ley fuerte de los grandes
números (SLLN que en ingles quiere decir Strong Law of Large Numbers), las bases de
estos resultados que se presentan a continuación los cuales se apoyan en la dependencia
de las observaciones, su heterocedasticidad y momentos.
Teorema 10.
a.s.
Si las X t ´s son IID y E ( X t ) = µ , entonces ( X T − µ ) → 0 .
6
Para la demostración se puede utilizar la desigualdad de Markov. Sea y T una variable
aleatoria que toma valores no negativos y κ una constante positiva, entonces,
Pr( y T ≥ κ ) ≤ κ −1 E ( y T )

Teorema 11.
Si las X t ´s son independientes ( E ( X t ) = µt ) con varianza finita ( var( X t ) = σ t2 ), y si

a.s.
ΣT∞=1[ T12 var( X T )] < ∞ , entonces ( X T − µT ) → 0 .
Teorema 12.
a.s.
Si las X t ´s son IID, entonces una condición necesaria y suficiente para ( X T − µT ) → 0 es
que E X i − µi < ∞ para todo i .
5.3. Teorema Central del Límite.
Quizás el teorema más importante de la teoría de las grandes muestras es el teorema

central del límite, el cual indica que, bajo condiciones absolutamente generales (e
intuitivamente razonable), la media de sucesiones de variables aleatorias (tales como la
media muestral), converge a una distribución normal aunque la distribución original no
lo sea. Así aunque no supiéramos cual es la distribución estadística de la población a la
cual pertenece la muestra, si se cuenta con una muestra lo suficientemente grande
podremos aproximar bastante bien la distribución muestral por una distribución normal.
En los casos que se cumple este teorema se simplifica enormemente la inferencia
estadística.
Teorema 13. Convergencia en Distribución
Suponga que X T ( n ≥ 1 ) es una sucesión de variables aleatorias con f.d.a FT ( x) , y

d
XT → X con una f.d.a. FX ( x) , entonces para cualquier función continua g (⋅) ,
∞ ∞
lim ∫ g ( x)dFT ( x) = ∫ g ( x)dF ( x) (1.48)
T →∞ −∞ −∞
En el caso de una variable aleatoria continua, se tiene que:
∞ ∞
lim ∫ g ( x) fT ( x)dx = ∫ g ( x) f ( x)dx (1.49)
T →∞ −∞ −∞
Teorema 14. (TLC)
Sea X 1 , X 2 ,..., X T una sucesión de variables aleatorias, ST corresponde a la suma de la

serie ( ΣTi=1 X i ) y X T es la media de la serie ST / T . La media estandarizada se define como
X T − E ( X T ) ST − E ( ST )
=ZT = (1.50)
var( X T ) var( ST )

d
Donde se ha definido que ZT → N (0,1) .
Algunos de los TLC más conocidos corresponden a:
Teorema de Moivre´s: La sucesión de observaciones son independientes de variables de

Bernoulli (Este es el primer caso históricamente establecido).
Este caso es utilizado frecuentemente en la literatura aplicada, claro, no siempre

bajo las condiciones que comprenden este tipo de procedimientos. Para que
podamos ver con más detalle este comentario, supongamos que contamos con una
muestra de variables aleatoria de Bernoulli independientes e idénticamente
distribuidas, es decir, que cada una de las observaciones posee el mismo valor
esperado p y varianza p(1 − p) , donde p representa la probabilidad de que la
variable aleatoria sea igual a 1. Por lo tanto, el promedio de esta muestra tiene
distribución Binomial 7, con valor esperado y varianza igual a:
E( XT ) = p =
var( X T ) T −1 p (1 − p )
Ahora utilizando el teorema de Chebyshev tenemos que:
var( X T ) p (1 − p )
Pr( X T − p > ε ) ≤ = 2
ε 2
ε T
Por lo tanto, si aplicamos el límite de T tendiendo a infinito, nos queda que:
p (1 − p )
lim Pr( X T − p > ε ) ≤ lim =
0
T →∞ T →∞ ε 2T
Pero, como la probabilidad no puede ser negativa, entonces se puede concluir

que:
lim Pr( X T − p > ε ) =

0
T →∞
Entonces, el promedio de la muestra converge en probabilidad a p , así que por la

ley débil de los grades números converge en distribución a una normal, es decir,
XT − p T ( X T − p) d
= → N (0,1)
var( X T ) p (1 − p )
7
Se debe notar que en el promedio de variables aleatoria Bernoulli se pierde el orden en que salieron los
ceros y unos, por lo tanto, la distribución de este promedio es la distribución conjunta de variables
aleatorias Bernoulli sin orden, que corresponde a la descripción de la distribución de una Binomial.

Sin embargo, el lector debe notar que esto se cumplirá siempre y cuando el
número de observaciones sea sustancialmente grande, es decir que con 30 ó 50
observaciones posiblemente no pudríamos concluir lo mismo.
Teorema de Lindberg-Levy: La sucesión utilizada son IID con varianza finita.
Teorema Liapounov: Las X ´s son independientes con E ( X i ) = µi , var( X i ) = σ i2 ,

2 +δ
E[ X i − µi = ] ρi < ∞ ( δ > 0 ), y
(ΣTi=1 ρi ) 2
lim =0
T →∞ (ΣT σ 2 ) 2 + δ
i =1 i
Teorema Lindberg-Feller: Las X ´s son independientes con E ( X i ) = µi , var( X i ) = σ i2 ,

sT2 = ΣTi =1σ i2 , ST = ΣTi =1 X i , y para ε > 0
∑  ∫ ( x − µi ) 2 dFi ( x)  =
1 T
lim 0
T →∞ sT2 i =1 x − µi > ε ST 
Teorema 15.
Distribución límite normal de una función. Si T ( z T − µ ) →

D
N [0, σ 2 ] y si g ( z T ) es
una función continua que no dependen de T , entonces
T [ g ( z T ) − g ( µ )] →
D
N [0, ( g ′( µ )) 2 σ 2 ] (1.43)
Nótese que la media y la varianza de la distribución límite, son la media y la varianza de

la aproximación lineal:
g ( z T ) ≅ g ( µ ) + g ′( µ )( z T − µ ) (1.44)
Estos resultados sugieren que los momentos de la distribución límite son los límites
ordinarios de los momentos de la distribución de la muestra finita. Esto es casi siempre
cierto, pero no necesariamente tiene por que ser así. Es posible construir ejemplos en los
que los momentos para muestras finitas ni siquiera existen, mientras que los momentos
de la distribución límite están bien definidos. Incluso en esos casos, generalmente es
posible encontrar la media y la varianza de la distribución límite.
Las distribuciones límite, así como los límites en probabilidades, pueden simplificar de
manera importante el análisis de algún problema concreto. Algunos resultados en los que
se combinan ambos tipos de convergencia se presentan a continuación.

APÉNDICE: TABLA
I. DISTRIBUCIÓN NORMAL ESTANDAR.
z0 1 1 
Forma funcional: Pr( Z ≤ z0 ) = ∫
Φ ( z0 ) =
−∞
2π
exp  s 2  ds
2 
Forma gráfica:
Gráfico I. Representación de la probabilidad en una distribución normal estándar
Tabla 1. Función de Distribución Acumulada de la Distribución Normal Estándar.
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998

APÉNDICE: USO
II. USO DE TABLA NORMAL PARA CÁLCULO DE PROBABILIDAD Y

TEOREMA CENTRAL DEL LÍMITE
2.1. Simetría de la Normal
Suponga una distribución normal estándar, la cual representaremos por medio de la

siguiente figura.
Figura a. Representación del rango que el 90% más probable.
Además intentaremos determinar el valor de zo o el rango de valores que tiene un 90%

de probabilidades sobre el total de valores, para ello recordaremos lo siguiente.
z
Pr( Z ≤ z ) =
Φ( z ) =∫ φ (s)ds −∞
Y que
z2 z2 z2
Pr( z1 ≤ Z ≤ z2=
) ∫ z1
φ ( s )ds= ∫−∞
φ ( s )ds − ∫ φ ( s )ds= Pr( Z ≤ z2 ) − Pr( Z ≤ z1 )
−∞
Por lo tanto, ceñidos a nuestro problema debe ocurrir que
Pr( z1 ≤ Z ≤ z2 ) =
0.9
Pero como la distribución normal estándar es simétrica con respecto a cero, tenemos
z2 = − z1 , de esta forma las probabilidades antes mencionadas se pueden descomponer de
la siguiente forma:
Pr( z1 ≤ Z ≤ z2=
) Pr( Z ≤ z2 ) − Pr( Z ≤ z1=
) 0.9
=
Pr( Z ≤ z2 ) 0,95 =
Pr( Z ≤ z1 ) 0.5

Claramente se puede apreciar que la resta genera el valor 0.9, que interpretaremos como
el conjunto de valores que posee un 90% de representatividad.
Ahora podemos calcular cada probabilidad por separado, y encontrar que son iguales en
modulo, por lo tanto, primero determinaremos el valor de z2 .
Cálculo de z2 , en base a Pr( Z ≤ z2 ) =

0,95 . Primero debemos tener presente que en la
tabla aparecen una primera columna y una primera fila que se encuentra oscurecidas en
el cuadro a.
Cuadro a. Representación de la tabla normal estándar, para valores de z positivos.
Esta primera columna representa el valor de z con un decimal (el primero), mientras
que el segundo decimal corresponde al de la primera fila. Por lo tanto, nosotros
buscamos la probabilidad de 0.95, la cual se encuentra marcada por un circulo en el
cuadro a. Pero, al extender una flecha en forma horizontal encontramos el número 1,6
que corresponderían al valor de z2 hasta el primer decimal, sin embargo, al extender
una flecha en forma vertical, nos encontramos con el valor 0,05 que representa el
segundo decimal de z2 , esto nos dice que el valor completo de z2 es 1,65.
Cuadro b. Representación de la tabla normal estándar para valores de z negativo.
En forma análoga a la anterior pero utilizando el cuadro b, es posible determinar el valor

de z1 . Si consideramos la misma aproximación que antes, z1 es igual -1,65.
Este último resultado concuerda con el hecho de que la distribución normal estándar es
simétrica.

Entonces, podemos concluir que el rango que tiene un 90% de representatividad en una
distribución normal se encuentra dentro [−1, 65;1, 65] .
2.2. Otro tipo de cálculo por medio de la tabla estándar.
Suponga que cuenta con una muestra aleatoria de tamaño N obtenida de una población
que posee una distribución normal con media µ y varianza σ 2 , la cual informa que el
40% de las observaciones son menores a 20 y el 45% son menores a 35. Estime en forma
aproximada el valor de la media y de la varianza.
Para poder realizar este cálculo debemos suponer que la muestra es lo suficientemente
grande como para ser representativa de la población, por lo tanto, el enunciado anterior
se puede expresar en términos estadísticos como:
Pr( X < 20) =

0, 40 y que Pr( X < 35) =
0, 45
También sabemos que las probabilidades de variables normales pueden ser llevada a una
normal estándar, es decir,
Pr[ σ1 ( X − µ ) < σ1 (20 − µ )] =

0, 40
Sin embargo, al hacer este cambio hemos igualado la probabilidad de una normal
cualquiera a la probabilidad de una normal estándar. De esta manera para la probabilidad
de 0.4 el valor de eje ( z ) se encuentra aproximadamente en el valor de -0.25, según se
muestra en el círculo del cuadro c.
Cuadro c. Tabla de distribución normal estándar.
Esto quiere decir que Pr( Z < −0, 25)  0, 4 , por lo tanto, al igualar estas dos
probabilidades tenemos que:
1
σ (20 − µ ) =
−0, 25

De la cual se desprende nuestra primera ecuación µ − 0, 25σ =20 , pero se hace necesaria
una segunda ecuación, ya que tenemos dos incógnitas. Esta segunda ecuación la podemos
generar de la segunda probabilidad, de manera que:
Pr[ σ1 ( X − µ ) < σ1 (35 − µ )] =

0, 45
Pero, tal como podrá percibir el lector, la probabilidad de 0.45, se encuentra

aproximadamente a la misma distancia entre dos valores, por lo tanto, se puede tomar el
punto medio como referencia, lo cual en algunos casos no sería muy preciso, sin
embargo, también se podría recurrir a una extrapolación considerando una recta entre
dos puntos, es decir,
Recuerde que la recta que pasa por dos puntos, ( x1 , y1 ) y ( x2 , y2 ) , es:
y2 − y1
=y ( x − x1 ) + y1
x2 − x1
Por lo tanto, de la tabla sabemos que para un valor de eje igual a -0,12 la probabilidad
acumulada es 0.4522, mientras que para un valor de eje igual -0,13 la probabilidad
acumulada respectiva es igual 0.4483 (ver cifras encerradas en un cuadrado, en el
cuadro c), que al ser utilizado como puntos, hace que la recta quede expresada como
−0,13 + 0,12
=y ( x − 0, 4522) + 0,12
0, 4483 − 0, 4522
Entonces, podemos concluir que para una probabilidad acumulada de 0.45, el valor de
eje corresponde a -0,126.
De esta forma al igual las probabilidades tenemos nuestra segunda ecuación, es decir,
σ
1
(35 − µ ) =
−0,126
µ − 0,126σ =
35
Con lo cual podemos construir el siguiente sistema de ecuaciones
µ − 0, 25σ =
20
µ − 0,126σ =35
Que una vez resuelto nos entrega que un valor aproximado de la media es 50.24 y para
la desviación estándar es 120.97, con lo cual podemos señalar que la varianza
corresponde a 14633.74.

Universidad de Chile Otoño 2020
Estadística II (Análisis de Datos)

Semestre Otoño 2020, Ayudantía N°1
Profesores: Jorge Sepúlveda y Pablo Tapia
Ayudante Coordinador: Francisca Altamirano
Cómo responder y no responder un comente

Los comentes, lo que buscan es replicar una situación para la cual se necesita una respuesta
rápida, precisa y congruente, con respecto a alguna pregunta o duda que se pudiese tener.
Para esto, no necesariamente será de utilidad de toda la información que uno podría dar, sino
que solo de ese tema en específico, ya que de otra forma no podría discriminar bien qué es lo
que le sirve de lo que no, dificultando el proceso de toma de decisiones.
Para responder un comente de manera correcta; Primero debe leer el enunciado completo, y
no intentar dar una respuesta rápida a medida que se lee el comente. En segundo lugar, debe
discernir sobre qué se está preguntado, probablemente habrá frases verdaderas y otras falsas
dentro de un mismo comente, pero siempre existe un punto que es el relevante, y sobre el
cual debe responder. No quedarse entrampado en detalles, o en información que está de más.
En tercer lugar, se debe optar por una de las tres respuestas: “Falso”, “Incierto” o
“Verdadero”, y presentar argumentos acordes a la respuesta seleccionada. Esta
argumentación puede ser a través de un ejemplo, contraejemplo o una regla que se cumpla
de forma general, dependiendo de la naturaleza del comente.
Por último, se debe responder única y exclusivamente sobre lo relevante del comente. Nunca
dar definiciones de más, extenderse demasiado o escribir materia que no viene al caso.
Recuerde que se evalúa el análisis de la situación. A continuación, revisaremos un ejemplo.
Ejemplo. Debido a la contingencia, usted se encuentra preocupado acerca de la manera en la

que llevarán a cabo las evaluaciones en el curso. Principalmente en el cumplimiento de los
plazos de envío de sus respuestas, para así no ser sancionado y que sus respuestas sean
recibidas oportunamente. Es por esto que decide realizar un experimento para poder
determinar el tiempo promedio que se demora en escribir para responder los comentes,
utilizando como variable relevante el tiempo que demora en escribir cada línea de su
respuesta, y llegando a la conclusión que en promedio demora 20 segundos en escribir 1 línea
de respuesta, por lo que decide, de manera concluyente, que el tratamiento que se le debe dar
a este experimento está dado por una distribución Poisson y no una Exponencial como se
había planteado inicialmente. Comente y recuerde ser breve.
Respuesta Correcta:
Falso. Dada la variable planteada en el problema, la cual es el tiempo que demora en escribir
cada línea de respuesta en sus comentes, la distribución adecuada para llevar a cabo su
experimento es la distribución Exponencial, la cual trabaja con variables del tipo continúas
que se mueven dentro de una dimensión discreta, como se observa en el caso, en el cual el
tiempo de escritura sería la variable continúa, y la cantidad de líneas sería el espacio discreto.
Por otro lado, la distribución Poisson sería adecuada en el caso en el que la variable estuviera
planteada de tal manera de lograr analizar cuántas líneas es capaz de escribir por unidad de
tiempo, por ejemplo, por minuto.
~1~
Respuesta Incorrecta:
Falso. La distribución Poisson se diferencia de la distribución Exponencial en que la primera
se utiliza para modelar variables del tipo discretas en espacios continúos, y la segunda es para
variables del tipo continúas en espacios discretos, por lo tanto, dependiendo de la variable
que se intente analizar, se debe seleccionar la distribución correcta para trabajar en el
experimento.
Lo importante de destacar en este ejemplo es que mientras en la primera responden
efectivamente lo que pide el comente, argumentando cuál es la respuesta correcta de acuerdo
con el enunciado. En la segunda respuesta solo se dedican a mencionar la materia, la cual,
si bien es correcta, no se observa un razonamiento al problema que se plantea en el
enunciado, por lo cual esa respuesta estaría mala y no se asignaría puntaje.
COMENTES.
Parte i. En el proceso de Agrega Administrativo se observaron graves problemas en la
atención de alumnos, las autoridades quieren evitar esto para las próximas instancias de este
mismo proceso, y saben que su mayor deficiencia es en el tiempo de atención que se demoran
por cada estudiante, por lo que se proponen como objetivo atender a través de
videoconferencias de webex, y a lo menos a 15 personas por hora, si se exceden de ese
tiempo, los encargados de atención no recibirán un bono que se les entregará a los que
realmente cumplan con esa cantidad de alumnos mínima. Adicionalmente, saben que la mejor
distribución que representa su problema es la Exponencial. Comente y recuerde ser breve.
Comente y recuerde ser breve.
Respuesta:
Falso. Dado que tal como el enunciado dice, la probabilidad buscada que se plantea como
objetivo está definida según la variable cantidad de alumnos atendidos por unidad de tiempo,
que es una variable discreta en un espacio continuo, por lo que la distribución que mejor
representa el problema es Poisson.
Parte ii. Un grupo de amigos decidió tomar el ramo de Contabilidad con un nuevo profesor
que se incorporó al área este semestre y que nunca había hecho clases de ese ramo en la
facultad. Este grupo de amigos está interesado en saber si el profesor realiza controles
sorpresa en sus clases o no, o sino para no conectarse a las clases, ya que su bloque de cátedra
es a las 8:00 am. Para resolver su problema tomaron de base los otros ramos en los que el
profesor ha hecho clases en los últimos semestres, y decidieron modelar su problema con la
distribución Uniforme. Comente y recuerde ser breve.
Respuesta:
Falso. El grupo de amigos está modelando mal el problema al escoger la distribución
Uniforme para su variable, ya que esta es una variable dicotómica que toma el valor 1 si el
profesor realiza controles sorpresa en el ramo i_ésimo, y el valor 0 en el caso contrario. Por
lo tanto, la distribución que corresponde según el problema presentado es la distribución
Bernoulli.
~2~
Parte iii. Suponga se ve enfrentado a un conjunto de variables aleatorias Bernoulli, que son
independientes entre sí, y además cada una de ellas posee el mismo parámetro p (probabilidad
de ser igual a uno). Sin embargo, si no se conoce el orden en que salieron estas variables
aleatorias, la distribución conjunta de ellas debería ser una Binomial y no otra Bernoulli.
Respuesta:
Verdadero. La distribución Binomial es una función de distribución conjunta de variables
Bernouilli, todas independientes e idénticamente distribuidas, sin embargo, el elemento
adicional es que el orden en que ocurren los eventos no hace diferencia entre los eventos, por
ejemplo, dos caras y un sello tienen la misma probabilidad que un sello y dos caras, si cada
uno de estos tres eventos tiene la misma probabilidad de ser cara. Por lo tanto, es correcto
indicar que la distribución adecuada es una Binomial y no Bernoulli.
Repaso breve.
Recordemos las propiedades de la esperanza y varianza, donde k es una constante:
𝐸[𝑥+𝑘]=𝐸(𝑥)+𝑘
𝐸[𝑘𝑥]=𝑘𝐸(𝑥)
𝐸[𝑥+𝑦]=𝐸(𝑥)+𝐸(𝑦)
𝑉[𝑥+𝑘]=𝑉(𝑥)
𝑉[𝑘𝑥]=𝑘2𝑉(𝑥)
𝑉[𝑥±𝑦]=𝑉(𝑥)+𝑉(𝑦) ±2𝐶𝑜𝑣(𝑥,𝑦)
PROBLEMA 1.
Juan es un alumno de la FEN que está muy preocupado acerca de la nueva modalidad de
clases que se está implementando este semestre en la facultad. A él le preocupa mucho
mantener buenas notas en sus ramos, dado que a futuro le gustaría postular a ciertas becas
para poder estudiar un postgrado en el extranjero. Es por ello, que está analizando
profundamente si tomar este semestre uno de los ramos más exigentes de su carrera, en los
que además sabe que por lo general los promedios del ramo son bastante malos.
Sabe que en este ramo el promedio de notas es de 3,4, con una varianza de 1,5 puntos. Y solo
tomará el curso de manera online este semestre, si puede estar seguro, con una probabilidad
de al menos 75% de que podrá aprobar el ramo con una nota mayor a 5,0.
Parte i. Resuelva la problemática planteada y determine cuál debe ser la decisión a tomar.
Respuesta:
Variable:
𝑥: 𝑁𝑜𝑡𝑎 𝑓𝑖𝑛𝑎𝑙 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑐𝑢𝑟𝑠𝑜
Donde 𝑋 ~𝑁(3,4 ; 1,5). Esto se lee como: La variable x sigue una distribución normal con
media 3,4 y varianza 0,5.
~3~
Criterio de decisión:
Si 𝑃𝑟(𝑥 > 5,0) ≥ 0,75 → 𝑇𝑜𝑚𝑎𝑟á 𝑒𝑙 𝑟𝑎𝑚𝑜 𝑒𝑠𝑡𝑒 𝑠𝑒𝑚𝑒𝑠𝑡𝑟𝑒
Si 𝑃𝑟(𝑥 > 5,0) < 0,75 → 𝑁𝑜 𝑡𝑜𝑚𝑎𝑟á 𝑒𝑙 𝑟𝑎𝑚𝑜 𝑒𝑠𝑡𝑒 𝑠𝑒𝑚𝑒𝑠𝑡𝑟𝑒
Desarrollo:
Tenemos,
𝑃𝑟(𝑥 > 5,0)
Estandarizamos la expresión para poder buscar la probabilidad en la tabla de distribución
normal estándar:
𝑃𝑟(𝑥 > 5,0)
Restamos la media de 𝑥 = 𝑀(𝑥),
𝑃𝑟(𝑥 − 𝑀(𝑥) > 5,0 − 3,4)
Dividimos por la desviación estándar (√𝑉(𝑥)),
𝑥 − 𝑀(𝑥) 5,0 − 3,4

𝑃𝑟 ( > )
√𝑉(𝑥) √1,5
𝑃𝑟(𝑥−𝑀(𝑥))
Sabemos que = 𝑍, es decir, un valor estandarizado, el cual podemos buscar en la
√𝑉(𝑥)
tabla de distribución normal estándar, por lo cual nos queda,
5,0 − 3,4
𝑃𝑟 (𝑍 > ) = 𝑃𝑟(𝑍 > 1,31)
√1,5
Para encontrar dicha probabilidad, utilizamos la fórmula de Excel para una distribución
normal estándar igual a DISTR.NORM.ESTAND.N(1,31;VERDADERO), donde el
verdadero indica que se entregará el valor de la probabilidad acumulado hasta el estadístico
2,26, es decir, el valor de la cola izquierda: 𝑃𝑟(𝑍 ≤ 1,31). Y para obtener el valor buscado
en el ejercicio, es decir, la cola derecha, se debe trabajar la expresión de la siguiente manera,
considerando que la distribución es simétrica y suma 1:
𝑃(𝑍 > 1,31) = 1 − 𝑃(𝑍 ≤ 1,31) = 1 − 0,905 = 0,095 = 9,5%
Conclusión:
Dado que la probabilidad de aprobar el ramo con una nota superior a 5,0 no supera el 75%,
Juan decide no tomar el ramo este semestre de manera online.
~4~
PROBLEMA 2.
En este nuevo inicio de semestre la Facultad de Negocios de la Universidad de Santiago ha
decidido lanzar una modalidad online para que sus alumnos puedan continuar “normalmente”
con sus clases. Pero dada esta nueva forma de llevar a cabo sus clases han decidido adaptar
igualmente la escala de notas de las evaluaciones, respaldando su decisión en datos de otros
países donde esta modalidad 100% online se aplica hace varios años, y las evaluaciones
utilizan esta escala de notas que la facultad pretende instaurar.
Esta nueva escala de notas va de 0 a 100 puntos, con un puntaje mínimo de aprobación de 60
puntos. A diferencia de la escala anterior, en la que las notas van de 1,0 a 7,0, con una nota
mínima de aprobación de 4,0.
Dado el gran paso que está dando la facultad, y no queriendo realizar un cambio tan brusco,
decidieron aplicar esta nueva escala de notas solo en el ramo Métodos Matemáticos I durante
este primer semestre del año 2020. Encontrando al final de este que, al analizar las
calificaciones obtenidas por los alumnos, las cuales siguen una distribución normal, se
observaron los siguientes parámetros de media y varianza: 𝜇 = 59, 𝜎 2 = 27.
Estos datos obtenidos decidieron compararlos con las calificaciones de mismo ramo, pero
del primer semestre del año 2019, donde dichas calificaciones seguían la misma distribución
normal, con parámetros de media y varianza de: 𝜇 = 3.2, 𝜎 2 = 1.1.
La facultad ha decidido que, si con esta nueva escala de notas, se observó un aumento con
relación a la probabilidad de que los alumnos aprueben el curso en una magnitud de al menos
20% con respecto al año anterior, entonces mantendrá y aplicará la nueva escala de notas en
todos sus otros ramos en los semestres siguientes.
Parte i. Resuelva la problemática planteada y determine cuál será la decisión que deberá
tomar la Facultad en cuanto a la escala de nota a aplicar.
Respuesta:
Variables:
𝑥: 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑎ñ𝑜 2020 → 𝑋~𝑁(59; 27)
𝑦: 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑎ñ𝑜 2019 → 𝑌~𝑁(3.2; 1.1)
Criterio de Decisión:
Si 𝑃𝑟(𝑥 ≥ 60) − 𝑃𝑟(𝑦 ≥ 4,0) ≥ 0,2 → 𝑆𝑒 𝑎𝑝𝑙𝑖𝑐𝑎𝑟á 𝑙𝑎 𝑛𝑢𝑒𝑣𝑎 𝑒𝑠𝑐𝑎𝑙𝑎 𝑑𝑒 𝑛𝑜𝑡𝑎𝑠
Si 𝑃𝑟(𝑥 ≥ 60) − 𝑃𝑟(𝑦 ≥ 4,0) < 0,2 → 𝑆𝑒 𝑚𝑎𝑛𝑡𝑒𝑛𝑑𝑟á 𝑙𝑎 𝑎𝑛𝑡𝑖𝑔𝑢𝑎 𝑒𝑠𝑐𝑎𝑙𝑎 𝑑𝑒 𝑛𝑜𝑡𝑎𝑠
Desarrollo:
En primer lugar, para la variable 𝑥 tenemos,
𝑃𝑟(𝑥 ≥ 60)
Estandarizamos la expresión para poder buscar la probabilidad en la tabla de distribución
normal estándar, por lo que le restamos la media (𝜇) y dividimos por la desviación estándar
(𝜎), quedando de la siguiente manera:
~5~
𝑥 − 𝜇 60 − 59
𝑃𝑟 ( ≥ ) = 𝑃𝑟(𝑍 ≥ 0,19) = 𝑃𝑟(𝑍 ≤ −0,19) = 42,5%
𝜎 √27
𝑃𝑟(𝑥−𝜇)
Donde se hicieron los reemplazos, sabiendo que 𝜎 = 𝑍, y además, encontrando el valor
de la probabilidad buscada con la fórmula de Excel anteriormente descrita
DISTR.NORM.ESTAND.N(-0,19;VERDADERO), donde se sabe que dicha fórmula por sí
sola arroja la probabilidad de la cola izquierda 𝑃𝑟(𝑍 < 𝑧0 ), por lo que si hubiéramos puesto
el estadístico 1,18, tendríamos que haber trasformado el resultado restándolo del 100%, para
encontrar la cola derecha, es decir, 𝑃𝑟(𝑍 > 𝑧0 ) = 1 − 𝑃𝑟(𝑍 < 𝑧0 ).
Pero dado que la distribución normal estándar es simétrica, sabemos que la probabilidad
acumulada en la cola izquierda hasta -0,19 es lo mismo que la probabilidad acumulada en la
cola derecha desde 0,19, por lo tanto, al indicar en la fórmula el estadístico en negativo, se
encontró inmediatamente el resultado buscado, sin necesidad de hacer nuevamente la
trasformación realizada en el ejercicio anterior.
Ahora realizamos el mismo desarrollo realizado anteriormente, pero para la variable 𝑦, donde
tenemos que,
𝑃𝑟(𝑦 ≥ 4,0)
Y al estandarizar nos queda,
𝑦 − 𝜇 4,0 − 3,2
𝑃𝑟 ( ≥ ) = 𝑃𝑟(𝑍 ≥ 0,76) = 𝑃𝑟(𝑍 ≤ −0,76) = 22,4%
𝜎 √1,1
Finalmente, debemos obtener la diferencia entre ambas probabilidades, donde encontramos
lo siguiente,
𝑃𝑟(𝑥 ≥ 60) − 𝑃𝑟(𝑦 ≥ 4,0) = 𝑃𝑟(𝑍 ≥ 0,19) − 𝑃𝑟(𝑍 ≥ 0,76)
42,5% − 22,4% = 20,1%
Conclusión:
Por lo tanto, dado que la probabilidad de aprobar el ramo analizado para el primer semestre
año 2019 era de 22,4%, y para el año 2020 era de 42,5%, observándose un aumento de 20,1%.
La facultad decide que la nueva escala de notas favorece en cuanto a la aprobación de los
alumnos, y decide aplicar esta nueva modalidad en los próximos semestres y para todos sus
ramos.
Nota adicional: Tener presentes que las funciones de distribución de probabilidades
analizadas durante esta ayudantía fueron solo funciones conocidos, pero pueden existir otras
no conocidas adicionales a las vistas.
~6~

COMENTES.
Parte i. En la comuna de Providencia, las remuneraciones de sus habitantes se distribuyen
uniformemente entre $230.000 y $460.000. Para los residentes de Cerro Navia, sus salarios
se distribuyen como una normal, con media $370.000 y desviación estándar $45.000. Si se
quisiera saber cuál es la probabilidad de que más de la mitad de la comuna reciba una
remuneración superior a $300.000, sólo se podría utilizar el TCL en la segunda comuna ya
que la primera no sigue una distribución normal. Comente y recuerde ser breve.
Respuesta:
Falso. Mediante el Teorema Central del Límite se puede aproximar el promedio de cualquier
distribución a una normal estándar, siempre que la población tratada sea grande, sus
observaciones sean independientes y todas sigan la misma distribución de probabilidad. En
este caso, podemos asumir que en la comuna de Providencia hay una cantidad
suficientemente grande de habitantes que reciben remuneración, además los salarios debiesen
ser independientes entre sí y distribuirse idénticamente según la distribución uniforme. Por
lo tanto, sí podemos utilizar el Teorema Central del Límite en ambas comunas y obtener la
probabilidad buscada.
Parte ii. Para utilizar el Teorema Central del Límite, se deben cumplir dos supuestos bases
antes de comenzar con el procedimiento, estos son que se cumple que la muestra es
Independiente e Idénticamente Distribuida (IID) y, además, contamos con un número
suficientemente grande de observaciones en la muestra. Teniendo conocimiento de esos dos
supuestos, podemos comenzar la estimación. Comente y recuerde ser breve.
Respuesta:
Falso. Si bien esos dos supuestos mencionados son importantes y primordiales para la
estimación, también debemos conocer el comportamiento de los datos, es decir, la función
de distribución que siguen los datos, ya que si no conocemos la distribución que sigue el
problema, entonces no podríamos estandarizar.
Parte iii. Un estudiante de Estadística II está estudiando para su primer control del curso, y
en uno de los controles de semestres anteriores que está revisando se encontró con una
distribución del tipo Bernoulli, pero él no sabe cómo resolver el problema, ya que la materia
que les han pasado habla sobre un teorema para estandarizar, pero según lo que él entendió,
este no aplica para variables dicotómicas. Comente y recuerde ser breve.
Respuesta:
Falso. El estudiante está equivocado, ya que el Teorema Central de Límite se puede utilizar
para estandarizar el promedio de cualquier de distribución, incluso aquellas que poseen
variables dicotómicas como la Bernoulli, mientras que cumplan con sus supuestos bases (IID,
y muestra lo suficientemente grande.
~1~
PROBLEMA 1.
La reconocida empresa FENIANOS S.A. está viéndose tremendamente afectada por la
disminución en sus ventas debido a esta crisis sanitaria mundial que se está viviendo. Es por
ello que, se está planteando sumarse a las ofertas que realizan las demás empresas en el
famoso evento Red Friday que se realizará a mitad de año. Pero ante el llamativo número de
reclamos que reciben las empresas que participan en este evento, están dudando de su
participación. Su decisión estará sujeta a que, si 20 o más empresas reciben reclamos con una
probabilidad de al menos 70%, entonces no participará en la próxima instancia del evento.
Esto considerando que en la versión anterior de este evento el 10% de las 190 empresas que
participaron recibieron reclamos.
Parte i. Evalué cual debería ser la decisión que tome esta empresa.
Respuesta:
Variable:
La variable relevante en este ejercicio corresponde a X que es una variable dicotómica que
tomará el valor 0 cuando la empresa i-esima no tenga reclamos y valor 1 cuando ocurra lo
contrario. Esta variable sigue una distribución Bernoulli. Además, debemos asumir que las
empresas se comportan según el supuesto de IID.
El criterio de decisión es el siguiente:
Si Pr(∑190
𝑖=1 𝑥𝑖 ≥ 20) ≥ 0,7 → 𝐿𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 𝑛𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎 𝑑𝑒𝑙 𝑅𝑒𝑑 𝐹𝑟𝑖𝑑𝑎𝑦
Si Pr(∑190
𝑖=1 𝑥𝑖 ≥ 20) < 0,7 → 𝐿𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 𝑠í 𝑝𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎 𝑑𝑒𝑙 𝑅𝑒𝑑 𝐹𝑟𝑖𝑑𝑎𝑦
Desarrollo:
Calculamos el promedio y varianza de 𝑀(𝑥𝑖 ):
190
∑190
𝑖=1 𝑥𝑖 1 𝑝
𝐸(𝑀(𝑥𝑖 )) = 𝐸 ( )= ∑ 𝐸(𝑥) = 190 ⋅ = 𝑝 = 0,1
190 190 190
𝑖=1
190
∑190
𝑖=1 𝑥𝑖 1 𝑝(1 − 𝑝) 0,1(1 − 0,1)
𝑉(𝑀(𝑥𝑖 )) = 𝑉 ( )= 2
∑ 𝑉(𝑥) = 190 ⋅ = = 0,0005
190 190 1902 190
𝑖=1
Y estandarizamos:
190
∑190
𝑖=1 𝑥𝑖 20
Pr (∑ 𝑥𝑖 ≥ 20) = Pr ( ≥ ) = Pr(𝑀(𝑥) ≥ 0,11)
190 190
𝑖=1
𝑀(𝑥) − 𝐸(𝑀(𝑥𝑖 )) 0,11 − 0,1

Pr(𝑀(𝑥) ≥ 0,11) = Pr ≥ = Pr(𝑍 ≥ 0,45)
√𝑉(𝑀(𝑥𝑖 )) √0,0005
( )
~2~
El resultado de esta probabilidad lo obtendremos mediante la fórmula

DISTR.N.ESTAND.N(0,25;VERDADERO), el cual nos arroja 0,67, pero esta nos entrega la
probabilidad acumulada en la cola izquierda, por lo que debemos realizar una transformación.
Pr(𝑍 < 0,45) = 0,67 ⇒ Pr(𝑍 ≥ 0,45) = 1 − 0,67 = 0,33 = 33%
Conclusión:
Por lo tanto, dado que la probabilidad obtenida es menor al 70%, la empresa sí participará en
el Red Friday.
PROBLEMA 2.
Tras múltiples ataques informáticos que ha sufrido un conocido banco de Chile en los últimos
años, la Gerente de Ciberseguridad le ha encomendado a usted realizar un modelamiento
estadístico para cuantificar la información que el banco está perdiendo día a día, y así de esta
forma poder determinar si resulta necesaria la compra de una supercomputadora (mainframe)
de encriptación de datos para aumentar la seguridad, y así poder evitar la masiva fuga de
clientes que se está produciendo por minuto debido a estos sucesos.
De antemano, usted posee unas planillas de datos que muestran 40 registros de los clientes
antes del ciberataque y, además, sabe que el promedio histórico de fuga es de 8 clientes por
minuto. Dado lo anterior, y considerando por un lado que la decisión de fuga de cada cliente
no está relacionada entre sí, y por otro lado, que el margen de tolerancia de fuga que presenta
el modelo de negocios del Banco, usted sugerirá comprar el mainframe de encriptación
siempre y cuando la probabilidad de que se fuguen en promedio al menos 16 clientes por
minuto sea mayor a 80%.
IND: Asuma que 40 es un número suficientemente grande y que Pr(𝑍 < 0,9) = 82%.
Respuesta:
Variable:
La variable para este ejercicio es:
𝑥: 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝑓𝑢𝑔𝑎𝑑𝑜𝑠 𝑝𝑜𝑟 𝑚𝑖𝑛𝑢𝑡𝑜.
Esta variable sigue una distribución Poisson, ya que la cantidad de clientes se expresa en el
rango de los números naturales (variable discreta) y, asimismo, se mueve dentro de un
intervalo de tiempo (continuo).
El criterio de decisión es:
∑40
𝑖=1 𝑥𝑖
Si Pr ( 40
≥ 16) > 0,8 → 𝐿𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑖𝑏𝑒𝑟𝑠𝑒𝑔𝑢𝑟𝑖𝑑𝑎𝑑 𝑐𝑜𝑚𝑝𝑟𝑎𝑟á 𝑒𝑙 𝑚𝑎𝑖𝑛𝑓𝑟𝑎𝑚𝑒.
∑40
𝑖=1 𝑥𝑖
Si Pr ( 40
≥ 16) ≤ 0,8 → 𝐿𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑖𝑏𝑒𝑟𝑠𝑒𝑔𝑢𝑟𝑖𝑑𝑎𝑑 𝑁𝑂 𝑐𝑜𝑚𝑝𝑟𝑎𝑟á 𝑒𝑙 𝑚𝑎𝑖𝑛𝑓𝑟𝑎𝑚𝑒.
~3~
Para utilizar el TCL, debemos asegurar el criterio IID. En este caso, la decisión de fuga de
cada cliente resulta independiente entre sí, ya que la decisión de abandonar o no el banco es
independiente entre cada uno de los clientes, y además son idénticamente distribuidas por
cuanto no se evidencia una distorsión ni en la escala de medición ni antes ni después del
ciberataque. Por lo tanto, es posible aplicar TCL y estandarizar la media muestral a una
normal estándar.
Desarrollo:
40
∑40
𝑖=1 𝑥𝑖 1 𝜆
𝐸(𝑀(𝑥𝑖 )) = 𝐸 ( )= ∑ 𝐸(𝑥) = 40 ⋅ =𝜆=8
40 40 40
𝑖=1
20
∑40
𝑖=1 𝑥𝑖 1 𝜆 8
𝑉(𝑀(𝑥𝑖 )) = 𝑉 ( )= ∑ 𝑉(𝑥) = 40 ⋅ = = 0,2
40 402 402 40
𝑖=1
Aplicando TCL:
∑40
𝑖=1 𝑥𝑖 𝑀(𝑥𝑖 ) − 𝐸(𝑀(𝑥𝑖 )) 16 − 8
Pr ( ≥ 16) = Pr(𝑀(𝑥) ≥ 16) = Pr ≥
40 √0,2
√𝑉(𝑀(𝑥𝑖 ))
( )
40
∑𝑖=1 𝑥𝑖
Pr ( ≥ 16) = Pr(𝑍 ≥ 17,89)
40
Para encontrar la probabilidad asociada a ese estadístico se puede tomar 3 caminos: pueden
utilizar Excel para su cálculo, utilizando la función
DISTR.N.ESTAND.N(17,89;VERDADERO), el cual nos arroja un valor cercano a 1, pero
esta nos entrega la probabilidad acumulada desde la izquierda, por lo que debemos realizar
una transformación.
Pr(𝑍 < 17,89) = 0, 9̅ ⇒ Pr(𝑍 ≥ 17,89) = 1 − 0, 9̅ ≈ 0%
Otra opción es buscar la probabilidad en una Tabla de probabilidad Normal Estándar, pero
es difícil encontrar una para un estadístico tan alto. Y el último camino, y el que se debería
utilizar, dado que se cuenta con esa información en el enunciado, es el de utilizar el hint.
Debemos hacer una transformación para poder obtener la probabilidad utilizando el hint,
Pr(𝑧 < 0,9) = 82% ⇒ Pr(𝑧 ≥ 0,9) = 1 − 0,82 = 0,18 = 18%
Ahora, teniendo la probabilidad expresada de la misma manera que nuestro estadístico,
podemos compararlos para concluir.
Pr(𝑧 ≥ 17,89) < [Pr(𝑧 ≥ 0,9) = 18%]
Conclusión:
Por lo tanto, dado que la probabilidad de que se fuguen al menos 16 clientes por minuto es
menor que 80%, el conocido banco de Chile no comprará el mainframe.
~4~

COMENTES.
Parte i. Unos investigadores desean realizar un estudio sobre las consecuencias que genera
en la salud de los chilenos el consumo de tabaco. Debido a que no pueden acceder a toda la
población de consumidores de tabaco en Chile, es que deciden extraer una muestra. Ellos
saben que la muestra fue tomada completamente aleatoriamente, por lo que no se debería
generar ningún problema con ella, ya que igualmente, cuentan con un número adecuado de
observaciones, y aumentar este número no les generaría ningún beneficio adicional.
Respuesta:
Falso. Dado el carácter aleatorio de la muestra, es que podemos observar diferentes
problemas con ella, como lo son el sesgo de selección, error de muestreo, y sesgo matemático
o de procedimiento. Además, el aumentar el número de observaciones, si fuera posible dado
los costos asociados, siempre será recomendado, dado que más siempre es preferido a menos,
debido a que así mejoraría el estimador de la muestra, acercándose mayormente a su valor
real.
Parte iii. Alfredo, un prestigioso alumno de la FAN (Facultad de Administración y Negocios)
le dice a un amigo suyo que siempre debería intentar realizar estudios con muestran que
tengan un comportamiento normal, ya que esa es la única distribución que puede
normalizarse y así es más fácil. Su amigo, que no es tan inteligente como él, pero que asiste
a clases continuamente, le menciona que eso no es cierto, ya que el profesor de Estadísticas
II les comentó en clases que todas las funciones de distribución conocidas se pueden
estandarizar mientras cumplan con unos supuestos bases. Comente y recuerde ser breve.
Respuesta:
Verdadero. El amigo de Alfredo está en lo correcto, ya que siempre que se cumplan con los
supuestos bases del Teorema Central de Limite (TCL), que son el tener una muestra IID y
que sea lo suficientemente grande, todas las distribuciones se pueden estandarizar utilizando
este método.
~1~
PROBLEMA 1.
Muchos comerciantes del país ya se están preparando para Semana Santa para el próximo
año 2021, dado que el año actual no pudieron realizar todas las ventas que estimaban dada la
contingencia, y se quedaron con inventario guardado.
De acuerdo con la información de los últimos años, ellos saben que, en promedio, cada local
vende 5 ramos y 10 crucifijos por hora.
La señora Marta es una gran artesana y está pensando en juntar sus ahorros y arrendar uno
de estos cotizados locales para el próximo año. Para aconsejarla, usted le sugiere que arriende
el local siempre y cuando la probabilidad de vender al menos 120 ramos en 20 horas sea
mayor a 80%. Suponiendo que ella lo escucha, ¿arrendará el local?
IND: Asuma que 20 es un número suficientemente grande, y Pr(𝑍 < 2) = 0,977.
Respuesta:
Variable:
La variable relevante en este ejercicio corresponde a:
𝑥: 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑟𝑎𝑚𝑜𝑠 𝑣𝑒𝑛𝑑𝑖𝑑𝑜𝑠 𝑝𝑜𝑟 ℎ𝑜𝑟𝑎
Esta variable sigue una distribución Poisson.
Si Pr(∑20
𝑖=1 𝑥𝑖 ≥ 120) > 0,8 → 𝐿𝑎 𝑠𝑒ñ𝑜𝑟𝑎 𝑀𝑎𝑟𝑡𝑎 𝑎𝑟𝑟𝑖𝑒𝑛𝑑𝑎 𝑒𝑙 𝑙𝑜𝑐𝑎𝑙
Si Pr(∑20
𝑖=1 𝑥𝑖 ≥ 120) ≤ 0,8 → 𝐿𝑎 𝑠𝑒ñ𝑜𝑟𝑎 𝑀𝑎𝑟𝑡𝑎 𝑛𝑜 𝑎𝑟𝑟𝑖𝑒𝑛𝑑𝑎 𝑒𝑙 𝑙𝑜𝑐𝑎𝑙
Desarrollo:
Para utilizar el Teorema Central del Límite, debemos asegurarnos de que la muestra contenga
una cantidad suficientemente grande de observaciones y que éstas sean IID. En el enunciado
se menciona que las 20 observaciones son suficientes. Por otro lado, es esperable que las
ventas entre locales sean independientes, debido a la gran cantidad de personas que asisten,
y se distribuyan con la misma distribución de probabilidades. Por lo tanto, es posible
aproximar el promedio de la variable a una normal estándar.
20
∑20
𝑖=1 𝑥𝑖 1 𝜆
𝐸(𝑀(𝑥𝑖 )) = 𝐸 ( )= ∑ 𝐸(𝑥) = 20 ⋅ =𝜆=𝟓
20 20 20
𝑖=1
20
∑20
𝑖=1 𝑥𝑖 1 𝜆 𝟓
𝑉(𝑀(𝑥𝑖 )) = 𝑉 ( ) = 2 ∑ 𝑉(𝑥) = 20 ⋅ 2 =
20 20 20 𝟐𝟎
𝑖=1
~2~
Y estandarizamos:
20
∑20
𝑖=20 𝑥𝑖 120
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr ( ≥ )
20 20
𝑖=20
20
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr(𝑀(𝑥) ≥ 6)
𝑖=20
20
𝑀(𝑥) − 𝐸(𝑀(𝑥𝑖 )) 6−5
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr ≥
𝑖=20 √𝑉(𝑀(𝑥𝑖 )) √5
( 20 )
20
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr(𝑍 ≥ 2)
𝑖=20
Debemos hacer una transformación, para poder obtener la probabilidad utilizando el hint
Pr(𝑍 ≥ 2) = 1 − Pr(𝑍 < 2) = 1 − 0,977 = 0,023

Conclusión:
Por lo tanto, existe un 2,3% de probabilidad de que se vendan más de 120 ramos en 20 horas,
lo cual es menor a 80%, por lo que la señora Marta no arrienda el local.
PROBLEMA 2.
Dada la contingencia actual, un amigo suyo quedó sin empleo y le ofrecieron trabajo en un
evento de una reconocida farmacia, el trabajo consiste en disfrazarse de Dr. Simi y bailar. Su
amigo no sabe si aceptar o no, porque si bien la paga es bastante buena, sabe que usando esos
trajes puede sufrir insolación si hace mucho calor, o cualquier otro problema debido a las
temperaturas a las que se podría exponer ahora que se está acercando el invierno.
En los últimos 20 años la temperatura para estas fechas, específicamente para el día Domingo
19 de abril que es el día del evento, ha fluctuado entre los 23 y 29 grados Celsius,
considerando esto, su amigo solo aceptará el trabajo si la temperatura promedio es menor a
los 27 grados, con al menos un 90% de probabilidad. En el caso contrario, no aceptará el
trabajo porque sabe que no podrá soportar las temperaturas utilizando el traje.
Parte i. Plantee el problema y justifique adecuadamente cual será la decisión a tomar.
Respuesta:
Variable:
La variable relevante en este ejercicio corresponde a
𝑥: 𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑í𝑎 19 𝑑𝑒 𝑎𝑏𝑟𝑖𝑙
Esta variable sigue una distribución Uniforme. Además, debemos asumir que las
temperaturas se comportan IID.
~3~
Si Pr(𝑀(x) < 27) ≥ 0,9 → 𝐴𝑐𝑒𝑝𝑡𝑎𝑟á 𝑒𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑜

Si Pr(𝑀(x) < 27) < 0,9 → 𝑁𝑜 𝑎𝑐𝑒𝑝𝑡𝑎𝑟á 𝑒𝑙 𝑡𝑟𝑎𝑏𝑎𝑗𝑜
Desarrollo:
(a + b) 23 + 29
𝐸(𝑀(𝑥)) = 𝐸(𝑥) = = = 𝟐𝟔
2 2
(b − a)2 (29 − 23)2

𝑉(𝑥) ( ) ( )
𝑉(𝑀(𝑥𝑖 )) = =
12 ⁄
=
12 ⁄ = 3 = 𝟎, 𝟏𝟓
𝑛 𝑛 20 20
Y estandarizamos:
𝑀(𝑥) − 𝐸(𝑀(𝑥)) 27 − 26
Pr(𝑀(x) < 27) = Pr < = Pr (𝑍 < 2,58)
√𝑉(𝑀(𝑥𝑖 )) √0,15
( )
El resultado de esta probabilidad lo obtendremos mediante la fórmula

DISTR.N.ESTAND.N(2,58;VERDADERO), el cual nos arroja 0,995, la cual es la
probabilidad acumulada que necesitamos.
Pr(𝑍 < 2,58) = 0,995 = 99,5% > 90%

Conclusión:
Por lo tanto, dado que la probabilidad obtenida es mayor al 90% requerido, su amigo decide
aceptar el trabajo, ya que es altamente probable que ese día las temperaturas serán menores
a los 27 grados Celsius.
~4~
Universidad de Chile sábado 9 de mayo de 2015
Economía & Negocios PAUTA CONTROL 3
MES 205: Introducción a la Estadística

Profesores: Samuel Ávila, Leonardo Besoaín, Rudy Canales, Juan Pablo Cid, Felipe
Delgado, Robert Fuentes, Claudia Gamboa y Jorge Sepúlveda.
Ayudantes: A. Gutiérrez y Andrea Pizarro,
PROBLEMA 1. (50 puntos)
Responda si las siguientes afirmaciones son verdaderas, falsas o inciertas, proporcionando en
forma breve los argumentos de su respuesta.
Parte i. (20 puntos)
A comienzos del año 2015 el gobierno presentó la base de datos de la encuesta Casen del año
2013. Con esta información, el centro de estudios Vertical estimó empíricamente el valor
esperado de los ingresos provenientes del trabajo para dos regiones del país. La evidencia
muestra que ambos valores esperados son iguales entre sí, y su valor es $380.000. Con lo
anterior, el centro de estudios determinó que para ambas regiones, sus funciones de
distribución de probabilidad son las mismas. Comente y recuerde ser breve.
Respuesta.
Incierto. Si bien se indica que el valor esperado es el mismo en ambas regiones, con esto no
necesariamente es posible suponer que las funciones de distribución de probabilidad (fdp) de
ambas regiones son exactamente iguales. Lo anterior se explica debido a que no se menciona
cuál es el dominio de cada una de ellas, ni cómo se distribuyen los datos.
__________________________________________________20 puntos___________
Parte ii. (20 puntos)
El gerente de ventas de la empresa SUKZITA solicitó a su equipo de analistas que le ayuden a
generar un modelo matemático que permita estimar la probabilidad de ocurrencia de cuántos
pesos ($) venderá la empresa en la próxima temporada. Luego de mucho trabajo, determinaron
una estructura que parece ser convincente. Para probar la calidad del modelo, el gerente pidió
que le reportaran cuál sería la probabilidad de que las ventas sean exactamente iguales a 200
millones de pesos. El analista encargado del reporte estimó la probabilidad y el resultado fue
1,78. Comente y recuerde ser breve.
Respuesta.
Falso. En primer lugar, lo que se describe es una variable aleatoria continua, por lo cual, la
interpretación que se da al valor estimado no corresponde a una probabilidad, puesto que, la
probabilidad asociada a un punto específico es igual a cero. La interpretación cambia cuando se
trata de variables discretas, donde sí se cumple lo señalado en el enunciado. Sin embargo, que
el número estimado sea mayor que 1, tampoco es posible entenderlo como una probabilidad.
__________________________________________________20 puntos___________
Parte iii. (10 puntos)
En muchos casos, cuando se requiere establecer la probabilidad de ocurrencia de un fenómeno,
no basta con conocer la probabilidad asociada a un punto específico, sino más bien se quiere
establecer cuál es la probabilidad que un parámetro se encuentre en una zona o rango de
valores. Para ello, resulta conveniente trabajar con las funciones de distribución acumuladas,
puesto que, permiten estimar probabilidades dentro de rangos de valores. Sin embargo, la
utilización de distribuciones acumuladas sólo es aplicable cuando la distribución de densidad es
simétrica. Comente y recuerde ser breve.
Respuesta.
Falso. Si bien es cierto que para estimar la probabilidad asociada a un intervalo se puede
utilizar una distribución acumulada, no se impone ninguna restricción respecto de cómo se
Página 1
debe distribuir la función de densidad, ni menos que ésta deba cumplir con el supuesto de
simetría.
__________________________________________________10 puntos___________
PROBLEMA 2. (50 ptos.)

Un amigo suyo está tratando de entrar al negocio de las máquinas tragamonedas de barrio, las
cuales entregan una ganancia diaria de forma aleatoria según el peso de las monedas (en kg) que
van insertando los clientes, pero le comenta que hay un pequeño problema. Si la máquina
alcanza su peso máximo y se llena de monedas, queda fuera de servicio y repararla es costoso.
Además, esto provoca perder la ganancia del día y, lamentablemente, él no sabe cuál es el peso
máximo que puede soportar. También le cuenta que la persona que vende las máquinas
tragamonedas entrega la función de distribución de probabilidades de cuánto es el peso que
puede tener al cerrar el día, la cual es la siguiente.
3
f ( x)  x2
8.000
Parte i (10 puntos)

¿Cuál es el peso máximo que puede aguantar la máquina?
Respuesta:
Lo que debe averiguar su amigo es el límite superior que puede alcanzar la variable.
Si f (x) es una función de distribución de probabilidades, se debe cumplir lo siguiente:

 f ( x)dx  1
xE
__________________________________________________5 puntos____________
Si definimos como q el peso máximo y cero el peso mínimo que puede tomar la variable, nos
queda:
q
3
 8.000 x dx  1
2
0
q
3
8.000 0
x 2 dx  1
3  x 3  q
1
8.000  3  0
3  q 3 
 1
8.000  3 

q 3  8.000
q  20
Página 2
Entonces, el peso máximo que puede tomar la máquina es 20 kg.

__________________________________________________5 puntos____________
Parte ii (20 puntos)

Su amigo está indeciso sobre si comprar o no las máquinas, pero usted dice poder saber cuánto
dinero espera que cada máquina posea en promedio, para lo cual él le indica que las máquinas
utilizan monedas de $100, y estas pesan 7,6 gramos. Él comprará las máquinas si se espera que
cada una de ellas cuente al menos con $200.000 al cerrar el día.
IND: Plantee el problema y tome la decisión en base al resultado.
Respuesta:
Dado que lo que se busca es que el valor esperado en pesos, se debe convertir la variable X de
peso en kg a peso en valor de dinero.
 Si  E ( X )  1.000   100  200.000 , comprara las máquinas de juegos.
 7,6 
 E ( X )  1.000 
 Si    100  200.000 , NO comprara las máquinas de juegos.
 7,6 
__________________________________________________10 puntos___________
E ( x)   x  f ( x)dx
xE
20
3
E ( x)   x  8.000 x
2
dx
0
20
3 1 4
E ( x)   x 
8.000  4  0
3  20 4 

E ( x) 
8.000  4 

E ( x)  15
__________________________________________________5 puntos____________
Las máquinas terminan el día con un peso estimado en monedas de 15 kg, esto llevado a pesos
nos da aproximadamente $197.368, por lo cual, no compraría las máquinas de juegos.
__________________________________________________5 puntos____________
Parte iii (20 puntos)
El vendedor le indica a su amigo que hay un modelo de tragamonedas diferente, que utiliza
monedas de $500 (6,5 gramos cada una). Ésta no se encuentra a la venta, sólo se puede
arrendar y su valor diario es de $400.000. Su amigo dice que si un 95% de las veces se supera
con la ganancia el precio del arriendo, él procederá a arrendar esta máquina ¿Cuál es la decisión
de su amigo?
IND: Plantee el problema y tome la decisión en base al resultado.
Página 3
Respuesta:
Para poder calcular el límite de la probabilidad que se necesita, debemos convertir el valor del
arriendo diario en peso en kg. de las monedas de $500, lo cual queda de la siguiente forma:
400.000
peso   6,5  5,2kg
500
Entonces la condición queda de la siguiente manera:
 Si Pr( X  5,2)  0,95 , arrienda la máquina tragamonedas.

 Si Pr( X  5,2)  0,95 , NO arrienda la máquina tragamonedas.
__________________________________________________10 puntos___________
Para calcular la probabilidad utilizamos la función de distribución entregada anteriormente.
5, 2
3
Pr( X  5,2)  1  Pr( X  5,2)  1   8.000
x 2 dx
0
5, 2 5, 2
3 3
 x 2 dx  x
2
dx
0
8.000 8.000 0
5, 2 5, 2
3 3 x3
 8.000
x 2 dx  
8.000 3
0 0
5, 2
3 140,608
 8.000
x 2 dx 
8.000
 0,017576
0
Pr( X  5,2)  1  Pr( X  5,2)  1  0,017576  0,982424

__________________________________________________5 puntos____________
Como la probabilidad de que se termine con más de $400.000 diario es de un 98,24%, su
amigo arrienda la máquina tragamonedas.
__________________________________________________5 puntos____________
Página 4
Universidad de Chile miércoles 10 de junio de 2015

La consultora SCDP realizó un estudio sobre la industria de los cigarrillos en Chile, con el cual
concluyó que la correlación entre las ventas de este sector y la presencia de advertencias
gráficas en las cajetillas – como la foto de un feto muerto, una rata muerta o un hombre con
cáncer de garganta – es negativa, como la intuición lo señala, y presenta un coeficiente igual a -
1,6. Esto significa que, a medida que aumenta la aparición de este tipo de publicidad, menores
son las ventas de cigarrillos. Comente y recuerde ser breve.
Respuesta.
Falso. Es imposible que la correlación entre las ventas de cigarrillos y las advertencias tenga un
coeficiente igual a -1,6 porque la correlación sólo toma valores entre -1 y 1. Por lo tanto,
cualquier conclusión posterior a este cálculo no es válida. De todas maneras, el hecho de que al
aumentar las advertencias disminuyan las ventas, debiese haber arrojado una correlación
negativa (entre 0 y -1).
__________________________________________________20 puntos___________
Durante su estudio para este control, Juanito Nieve se topó con un ejercicio donde le pedían
calcular la función conjunta de X e Y pero el enunciado sólo contaba con las funciones
marginales de dichas variables. Finalmente, no pudo resolverlo porque le faltaba información
para hacerlo. Comente y recuerde ser breve.
Respuesta.
Incierto. En el caso que en el enunciado se señalara que X e Y son variables independientes,
podría haber calculado la conjunta como la multiplicación de las funciones marginales pero para
cualquier otra situación, efectivamente, no habría podido calcular la función conjunta.
__________________________________________________20 puntos___________
Uno de sus amigos le cuenta que luego de consultar a sus contactos en redes sociales
(Facebook, twitter, Tumblr, etc.), llegó al resultado de que el número de películas que las
personas ven al año y el promedio de notas en instituciones de educación superior tienen
covarianza cero. Además, señala que esto significa que dichas variables no tienen relación
alguna. Comente y recuerde ser breve.
Respuesta.
Falso. Si bien puede ser que llegue a una covarianza cero como resultado entre las películas
vistas y el promedio de notas (en el caso de que no tenga amigos que estudien cine o
comunicación audiovisual), esto no significa que las variables sean independientes porque
podría existir una relación no lineal entre ellas que no logra ser capturada por la covarianza.
Por otro lado, que dos variables sean independientes sí implica que su covarianza será igual a 0.
__________________________________________________10 puntos___________
Página 1
PROBLEMA 2. (50 ptos.)

Usted es contratado por la Corporación del Trasplante de Órgano y Tejidos (CTOT) para velar
por el cumplimiento de los protocolos señalados para ciertas operaciones quirúrgicas. Para su
primer trabajo, debe hacer seguimiento a un paciente que está en la lista de receptores a la
espera de ambos pulmones, debido a que padece una enfermedad llamada Carcinoma Pulmonar
Ampliado. Averiguando respecto a la condición del paciente, el Cirujano a cargo del trasplante
le indica que históricamente, 2 de cada 5 pacientes presenta compatibilidad con el órgano a
recibir, por lo que, busca siempre tratar de disponer de la máxima cantidad de órganos que
pudiesen llegar. No obstante, la idiosincrasia nacional aún es reacia cuando se trata de la
donación de órganos, por tanto, el Cirujano le indica que siempre espera recibir 6 pulmones en
la sala de operaciones para ver inmediatamente cómo reacciona el cuerpo del paciente una vez
que ya fue trasplantado el órgano, de manera que si existe una mala reacción, puede intentar
con el siguiente órgano hasta, idealmente, observar plena compatibilidad. Dada la naturaleza
del caso, cada pulmón proviene de un donante distinto, por ende, será necesario evaluar la
compatibilidad una vez que hayan sido trasplantados ambos órganos. El Cirujano le indica que
con los 6 pulmones en el quirófano es posible obtener una probabilidad de éxito de 80% de que
al menos 2 de los 6 órganos sean compatibles con el paciente, cumpliendo con el nivel mínimo
del protocolo de trasplantes establecido por la CTOT. Asimismo, la CTOT entrega un cuadro
con información a los centros médicos que no cumplan con sus protocolos, estableciendo
multas en millones de pesos de acuerdo al rango de lejanía (RL) de sus procedimientos en
relación a la probabilidad de éxito requerida.
RL Multas ($)
0%-1% $0
1%-8% $ 10
8%-15% $ 20
15% o 30% $ 40
30% o más $ 100
Parte i (15 puntos).

Determine la variable a evaluar, su naturaleza y el tipo de distribución.
Parte ii (25 puntos).

Indique si debe multar al establecimiento médico, y en caso positivo, el monto de la multa.
Parte iii (10 puntos).

Dado que la familia del paciente está más preocupado por la salud de su familiar que la multa al
centro médico, todos accedieron a realizarse pruebas de sangre para buscar compatibilidad.
Dichas pruebas indicaron que el padre cuenta con plena compatibilidad para donar 1 de sus
pulmones. No obstante, el cirujano a cargo de la operación indica que solo estará dispuesto a
exponer la vida del padre si la probabilidad de éxito de que al menos 1 pulmón sea compatible
supere el 90%. Planteé la condición e indique si el cirujano lleva a cabo la operación. (10
puntos).
Página 2
Respuesta:
a) La naturaleza de la variable es discreta. La distribución es Binomial, ya que es un

evento dicotómico (compatibilidad), cuyo experimento es realizado de forma
independiente e idénticamente distribuida y este es repetido 6 veces.
 1 si es compatible
x
0 si no es Compatible
________________________________________________15 puntos ______

b) El planteamiento corresponde a:
P(x  2)  80%  Cirujano cumple con el protocolo CTOT.

P(x  2)  80%  Cirujano NO cumple con el protocolo CTOT.
________________________________________________6 puntos ______
Para calcular lo anterior, podemos realizar uno de los siguientes cálculos.
1  6
i) P( x  2)  1     p i 1  p 6i
i 0  i 
6  6
ii) P( x  2)     p i 1  p 6i
i2  i 
Los cálculos con (i) corresponden a:
1  6  6  6
P( x  2)  1     p i 1  p 6 i  1   0,40 0,66   0,41 0,65
i 0  i   0  1
P( x  2)  1  0,047  0,187  0,767  76,7%
Los cálculos con (ii) corresponden a:
6  6
P( x  2)     p i 1  p 6i
i2  i 
 6  6  6  6  6
P( x  2)   0,42 0,64   0,43 0,63   0,44 0,62   0,45 0,61   0,46 0,60
 2  3  4  5  6
P( x  2)  31,3%  27,6%  13,8%  3,7%  0,4%  76,7%

________________________________________________14puntos ______
Página 3
Con ambas expresiones debemos llegar al mismo resultado, el cual es 76,7%, incumpliendo
con el protocolo establecido por la CTOT. Dada la escala de multas (80%-76,7% =3,3%), el
establecimiento médico debería pagar $10.000.000.
_________________________________________________5 puntos ______
c) Para que considerar la propuesta del padre del paciente:
P(x  1)  90%  Cirujano lleva a cabo la operación.

P(x  1)  90%  Cirujano NO lleva a cabo la operación.
_______________________________________________4 puntos ______
 6
P( x  0)   0,4 0,6  4,7%
0 6
 0
La probabilidad de que ningún pulmón sea compatible es 4,7%, por tanto, la probabilidad de
que al menos 1 órgano sea compatible corresponde a 100%-4,7% = 95,3%, superando el 90%
exigido por el cirujano, por lo que, se llevaría a cabo la operación
________________________________________________6 puntos ______
Página 4
Universidad de Chile sábado 27 de junio de 2015
Economía & Negocios PAUTA EXAMEN

Un psicólogo logró distinguir un efecto particular para la presión de los pares que se ejerce
sobre los estudiantes universitarios de primer año que cuentan con un promedio de notas entre
4,5 y 4,9. Para el intervalo definido, los hombres se aumentan en 5 décimas su promedio, a
modo de ejemplo, un alumno que tiene un promedio de 4,5, responderá que tiene un 5,0. Para
el caso de las mujeres, éstas se agregan 3 décimas. Dado que los alumnos reportan de forma
incorrecta sus notas no es posible hacer una estimación confiable que determine la nota
promedio de ambos grupos en el tramo definido. Comente y recuerde ser breve.
Respuesta
Falso. En el rango definido por el psicólogo tanto hombres como mujeres hacen un aumento
de sus notas en un factor constante, por lo que la estimación de la nota promedio sí se puede
realizar. Para ello basta con considerar que el resultado tendrá presente el error sistemático
descrito (5 décimas más en hombres y 3 décimas para las mujeres). Luego de la estimación se
debe hacer la corrección pertinente para obtener el valor sin dicho error.
__________________________________________________20 puntos___________
Dentro de un proceso de obtención de estimadores es probable cometer distintos tipos de
errores, ya que éstos se basan en criterios subjetivos. Sin embargo, es muy importante que los
estimadores en valor esperado sean iguales al valor verdadero del parámetro, ya que de lo
contrario no nos sirve como estimador. Comente y recuerde ser breve.
Respuesta.
Falso. La propiedad que se exige a todo estimador es la consistencia, puesto que diferencia un
buen estimador de uno malo. Si bien es cierto que ser insesgado es una buena propiedad, no es
una condición que impida que se trabaje con el estimador. Lo que se exige es que el sesgo
desaparezca cuando se cuanta con más información.
__________________________________________________20 puntos___________
Un estimador obtenido a través del método de máxima verosimilitud no es siempre confiable,
dado que para cada muestra de la población, la expresión que conforma el estimador será
distinta, lo que eventualmente generará tantos estimadores como muestras obtenidas.
Respuesta
Falso. La expresión para el estimador obtenido mediante máxima verosimilitud será única para
cada función de distribución. Sin embargo, el valor asociado al estimador dependerá
directamente de la muestra recogida.
__________________________________________________10 puntos___________
Página 1
PROBLEMA 2. (50 ptos.).

Parte i (15 puntos)
Las autoridades gubernamentales se encuentran preocupadas por la alta frecuencia con que
ocurren accidentes en un sector específico de la autopista central. Se definió un criterio para
tomar medidas al respecto, esto es: Si más del 5% de la veces, el tiempo promedio entre
accidente es menor a 12 horas se procederá a instalar un semáforo. Usted fue contratado con
consultor externo por su experiencia en el tema. En base a una consultoría previa, usted sabe
que el número de accidentes en una semana es una variable aleatoria que tiene una distribución
de Poisson con parámetro   10 . Suponga que cuenta con información para 50 semanas, lo
que cual se puede considerar como un número grande de observaciones. ¿Qué decisión
recomendaría a la autoridad? Plantee el problema y justifíquelo adecuadamente.
IND: Considere que la muestra cumple con los supuestos típicos para resolver su problema.
Respuesta:
En este caso, para que la autoridad instalé un semáforo, más del 5% de la veces, el tiempo
promedio entre accidente es menor a 12 horas. Si suponemos que X es el tiempo entre
accidentes, nuestra variable X será una Exponencial. Al usar la semana como la unidad de
tiempo, tenemos que lamba puede ser equivalente al inverso de beta. Esto significa que:
1
E ( M ( X ))   
10
V (X )  2 1 1 1
V ( M ( X ))    2 
n n 10 50 5000
Teniendo en cuenta que 12 horas son 1/14 semanas, nuestro problema queda definido por:
Pr(M ( X )  1 / 14)  0,05 La autoridad instalará un semáforo.
Pr(M ( X )  1 / 14)  0,05 La autoridad NO instalará un semáforo.
________________________________________________________5 puntos ____
Dado que sabemos que 50 es un número lo suficientemente grande y que la muestra es IID, el
cálculo de la probabilidad buscada será:
 1 / 14  1 / 10 
Pr(M ( X )  1 / 14)  Pr Z    Pr(Z  2,02)  0,0217

 1 / 5000 
________________________________________________________5 puntos ____
Por lo tanto, como la probabilidad es menor al riesgo admisible, la autoridad no debe tomar
medidas.
_________________________________________________________5 puntos ____

El dueño de una importante compañía de seguros desea estimar el número de seguros de vida
que se venden diariamente durante un mes. Por lo anterior usted fue contratado para realizar
una estimación. Luego de analizar la información entregó un informe indicando que el
estimador que mejor se ajusta al problema es el que se presenta a continuación:
ˆ    in1 X i

n 
Página 2
En donde  corresponde a una cantidad histórica de seguros de vida que se han vendido (que
fue calculada por John Bayes) y donde  corresponde a un ponderador que corrige las
eventuales sobreestimaciones que se pueda producir y que es estrictamente positivo.
El dueño de la compañía de seguros no está convencido de su explicación ni del estimador que

usted le presentó, por lo cual le exige que le demuestre la calidad de su estimación. Además
necesita que en caso de que el estimador presente sesgo, le indique cuánto costaría reducirlo a
la mitad, puesto que si dicho costo implica duplicar el presupuesto no será factible de
implementar el estimador en práctica. .
En base a lo anterior justifique la calidad del estimador e indique cuánto costaría reducir un
eventual sesgo a la mitad. Suponga que ampliar tiene un costo proporcional.
IND: Considere   0,5
Respuesta
Para demostrar la calidad del estimador, en primer lugar se debe analizar la consistencia del
estimador, esto es:
a) Si se cumple que el estimador converge a un número: limn V ˆ  0 
b) Si el número al que converge el estimador es el verdadero valor poblacional:
lim n Sesgo  0
________________________________________________________5 puntos ____
Debido a que la variable X i se comporta como una POISSON, entonces se cumple que
E( X )  V ( X )   .
Ahora, para probar la primera condición se tiene:

 n X     
limn  V  i 1 i   limn   n   0
 n      n 2 
   
Para la segunda condición debes calcular el sesgo y en caso que exista, debemos probar que es
asintótico.
 n X  

Sesgo(ˆ)  E ˆ     E i 1 i           n    n      
 n   n  n  n 
 
  
limn 0
n 
Por lo tanto el estimador es consistente.
________________________________________________________10 puntos ____
Para reducir el sesgo cuando éste es asintótico debemos ampliar la muestra. Por lo tanto, si
consideramos que debemos comparar dos tamaños muestrales la decisión de utilizar el
estimador está dada por:
 Se utiliza el estimador si el costo de reducir el sesgo a la mitad es menos del doble.
Página 3
 No se utiliza el estimador si el costo de reducir el sesgo a la mitad es más del doble.

_________________________________________________________10 puntos ___
Ahora, para estimar el costo de la reducción del sesgo se debe estimar el tamaño de la muestra
que se debe utilizar, esto es:
  
Sesgo _ Final n  1 n 1 n 1
 1   2n2  2  n1    2   2   n1  4n2
Sesgo _ Inicial    2 n1 2 n1 4
n2  
Por lo tanto, se requiere multiplicar por 4 la inversión para aumentar el tamaño muestral que
reduce a la mitad el sesgo del estimador.
_________________________________________________________10 puntos ___
Página 4

Estadística

Cargado por

Copyright:

Formatos disponibles

Estadística

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA CAPITULO 2

2.1. ESTIMACION EN DOS ETAPAS (ESTIMADOR DE BAYES).

Un problema de inferencia estadística o, más simplemente, un problema de estadística es un

En muchos problemas de estadística, la distribución de probabilidad que generó los datos

En un problema de inferencia estadística, cualquier característica de la distribución que genera

2.1.2. Problema de Decisión Estadística.

En muchos problemas de estadística, después de haber analizado los datos experimentales, se

Autor: Pablo Tapia Pagina 1

correcto de θ . Otro ejemplo, podría consistir en qué decidir si el valor dependen de si la

2.1.3. Distribución Inicial y Final.

2.1.3.1. Distribución Inicial.

Considere un problema de inferencia estadística en el que se van a seleccionar observaciones de

En muchos problemas, antes de disponer de observaciones de f ( x / θ ) , el experimentador o

El concepto de distribución inicial es muy controvertido en estadística. Esta controversia está

Otros investigadores piensan que en muchos problemas no es apropiado hablar de una

Autor: Pablo Tapia Pagina 2

En algunos problemas, el parámetro θ puede tomar únicamente un número finito de valores

Ejemplo 1. Suponga que la distribución inicial de un parámetro θ es una distribución gamma

2.1.3.2. Distribución Final.

Autor: Pablo Tapia Pagina 3

La distribución de probabilidad sobre Ω representa por la f.d.p. condicional de la ecuación

2.1.4. Distribuciones Iniciales Conjugadas.

Autor: Pablo Tapia Pagina 4

f ( x / θ ) = θ x (1 − θ )1− x ∀x = 0,1 (1.4)

Además, la f.d.p. inicial ξ (θ ) satisface la siguiente relación:

Autor: Pablo Tapia Pagina 5

   (ε − 2)T  18 (ε −8)T (ε − 2 )T − 18 (ε −8)T Γ ( 2T ) T −1

Ordenando un poco la función se tiene que:

Sea y = Σ Tt=1 x t . Entonces la función de verosimilitud f T ( x / θ ) satisface la relación

f T ( x1 ,..., xT / θ ) = = κ e −θT θ y (1.7)

Autor: Pablo Tapia Pagina 6

La función de verosimilitud f T ( x / θ ) tiene la forma

Donde κ = (2πσ 2 ) −1 2 es un término constante que no depende del parámetro desconocido.

Para transformar esta expresión, se utiliza la siguiente identidad

Autor: Pablo Tapia Pagina 7

Por lo tanto, el resultado para la función de distribución final corresponde a:

Sin embargo, esta ecuación (16) se puede reescribir como:

Además para que esto se cumpla se debe cumplir que

Lo cual el lector deberá terminar de verificar.

Ejemplo 3. Supóngase que se selecciona una muestra aleatoria de 20 observaciones de una

Autor: Pablo Tapia Pagina 8

La media y varianza de la distribución inicial son µ 0 y v02 respectivamente y

Ejemplo 4. Supóngase que se va a seleccionar una muestra aleatoria de una distribución

Téngase presente que se nos ha solicitado reducir en un 90% la desviación estándar de la

Que al reemplazar se tiene:

2.1.5. Naturaleza del Problema de Estimación.

Autor: Pablo Tapia Pagina 9

valor de θ es a( x1 ,..., xT ) . Puesto que el valor de θ debe pertenecer al intervalo Ω , es

Es conveniente distinguir entre los términos estimador y estimación. Puesto que un

2.1.6. Funciones de Perdida.

El requiso principal de un buen estimador es que proporcione una estimación de θ que se

Como antes, sea ξ (θ ) la f.d.p. inicial de θ sobre el intervalo Ω y considérese un problema en

2.1.7. Definición de un Estimador de Bayes.

Autor: Pablo Tapia Pagina 10

θˆB (x) = arg min E ( L(θ , a) / x) (1.20)

Autor: Pablo Tapia Pagina 11

Dado que la función de distribución final es una Beta con parámetros α F = 2T y β F = T (n + 1) ,

2.2. MUESTRAS Y DISTRIBUCIONES.

La teoría clásica de la inferencia estadística se centra en un conjunto de reglas que nos