Estadística
Estadística
Estadística
Estimaciones
Universidad de Chile
Economía & Negocios
ESTIMACION
2.1.1. Parámetros
las proporciones de artículos de este tipo en el pasado y que se conservan registros anteriores.
Las frecuencias relativas para lotes anteriores podrían entonces ser utilizadas para construir una
distribución inicial para θ .
Supóngase ahora que las T variables aleatorias X 1 ,..., X T constituyen una muestra aleatoria de
una distribución cuya f.d.p. es f ( x / θ ) . Supóngase también que el valor del parámetro θ es
desconocido y que la función de distribución inicial de θ es ξ (θ ) . Por simplicidad, supóngase
que el espacio parámetrico Ω es un intervalo de la recta real, que ξ (θ ) es una f.d.p. inicial
sobre Ω , y que f ( x / θ ) es una f.d.p.
Puesto que las variables aleatorias X 1 ,..., X T constituyen una muestra aleatoria de una
distribución cuya f.d.p. de una distribución cuya f.d.p. es, por lo tanto, la función conjunta
f T ( x1 ,..., xT / θ ) está dada por la ecuación.
f T ( x1 ,..., xT / θ ) = f ( x1 / θ ) f ( x 2 / θ ) f ( xT / θ ) (1.1)
Si se utiliza la notación vectorial x = ( x1 ,..., xT ) , entonces la f.d.p. conjunta de la ecuación (1.1)
se puede escribir simplemente como f T ( x / θ ) .
Puesto que se supone que el parámetro θ tiene una distribución cuya f.d.p. es ξ (θ ) , la f.d.p.
conjunta f T ( x / θ ) se debería considerar como la f.d.p. conjunta condicional de X 1 ,..., X T para
un valor dado θ . Si se multiplica esta f.d.p. condicional por la f.d.p. ξ (θ ) , se obtiene la f.d.p.
conjunta (T + 1) -dimensional de X 1 ,..., X T y θ de la forma f T ( x / θ )ξ (θ ) . La f.d.p. conjunta
marginal de X 1 ,..., X T se puede obtener ahora integrando esta f.d.p. conjunta sobre todos los
valores de θ . Por tanto, la f.d.p. conjunta marginal T -dimensional g T (x ) de X 1 ,..., X T se
puede se puede escribir de la forma
gT ( x) = ∫Ω
f T ( x / θ )ξ (θ )dθ (1.2)
Además, la f.d.p. condicional de θ dado X 1 = x1 ,...., X T = xT , que se denota por ξ (θ / x ) , debe
ser igual a la f.d.p. conjunta de X 1 ,..., X T y θ dividida por la f.d.p. conjunta marginal de
X 1 ,..., X T . Por tanto, resulta que:
f T ( x / θ )ξ (θ )
ξ (θ / x ) = ∀θ ∈ Ω (1.3)
gT (x)
Ciertas distribuciones iniciales son particularmente convenientes para utilizar con muestras de
otras distribuciones. Para puntualizar esta idea, veremos los siguientes teoremas.
Teorema 1. Supóngase que X 1 ,..., X T constituye una muestra aleatoria de una distribución de
Bernoulli o Binomial con parámetro θ desconocido (0 < θ < 1) . Supóngase, además, que la
distribución inicial de θ es una distribución Beta con parámetros dados α y β (α > 0, β > 0) .
Entonces, la distribución final de θ , dado que X i = x i ∀i = 1,..., T , es una distribución Beta
con parámetros α + Σ Tt=1 x t y β + T − Σ Tt=1 x t .
Demostración
Sea y = Σ Tt=1 x t . Entonces la función de verosimilitud, esto es, la f.p. conjunta f T ( x / θ ) de
X 1 ,..., X T , está dada por la ecuación
ξ (θ ) = κθ α −1 (1 − θ ) β −1 (1.5)
Donde κ , es igual a
Γ(α + β )
κ=
Γ(α )Γ( β )
Note que el término de la ecuación (6) no depende de θ . Puesto que la f.d.p. final ξ (θ / x ) es
proporcional al producto f T ( x / θ )ξ (θ ) , resulta que
ξ (θ / x ) = κ~θ α + y −1 (1 − θ ) β +T − y −1 (1.6)
Donde
Γ(α + β + T )
κ~ =
Γ(α + y )Γ( β − T − y )
Esto por un factor constante, la parte derecha de esta ecuación se puede reconocer como igual
a la f.d.p. de una distribución Beta con parámetros α + Σ Tt=1 x t y β + T − Σ Tt=1 x t . Por tanto, la
distribución final de θ es como se especifica en el teorema.
Ejemplo 2. Suponga que posee una muestra independiente de (ε − 2)T artículos que pueden
estar defectuosos o no (dicotómico), sin embargo, en la muestra sólo se encontraron 18 (ε − 8)T
piezas defectuosas (con ε ≥ 10 ). Encuentre la función de distribución final del parámetro de
esta población (fracción de piezas defectuosas), si se sabe que en el pasado la fracción de piezas
defectuosas de esta población siguió una distribución Beta con parámetros iguales a α = β = T .
Respuesta
Del enunciado se puede obtener la función de distribución inicial (pasado), tal que:
Γ(2T )
ξ i (θ ) = θ T −1 (1 − θ )T −1
Γ (T )
2
En este caso se tiene una población con distribución binomial, dado que se desconoce el orden
en que se encontraron las piezas defectuosas, por lo tanto, la función de verosimilitud en este
caso debe ser:
(ε − 2)T 18 (ε −8)T (ε − 2 )T − 18 (ε −8)T
f ( x1 , x 2 ,...x(ε −2)T / θ ) = 1 θ
(1 − θ )
8 (ε − 8)T
Por lo tanto, la función de distribución final deberá ser una Beta, tal como se ilustra a
continuación:
ξ (θ / x ) = [ g ( x )] −1 f ( x1 , x 2 ,...x nT / θ )ξ (θ )
Teorema 2. Supóngase que X 1 ,..., X T constituye una muestra aleatoria de una distribución de
Poisson con media θ desconocida ( θ > 0 ) (Este teorema también es aplicable a la función de
distribución exponencial). Supóngase también que la distribución inicial de θ es una
distribución gamma con parámetros α y β ( α > 0 y β > 0 ). Entonces, la distribución final θ ,
dado que X i = x i ∀i = 1,..., T , es una distribución gamma con parámetro α + Σ Tt=1 x t y β −1 + T .
Demostración
e −θT θ Σ t =1 xt
T
Donde κ = (Π Tt=1 x t ! ) −1 que corresponde a un término que no depende del parámetro θ , por lo
tanto, conservaremos dicho término.
Además, la función de distribución inicial de θ tiene la forma
−1
ξ (θ ) = κ 1θ α −1e − β θ
(1.8)
Donde κ 1 , es igual a
1
κ1 = α
(1.9)
β Γ(α )
Por lo tanto, utilizando las ecuaciones (7) y (8) podemos encontrar que la distribución final
para el parámetro θ corresponde a:
e −θT θ Σ t =1 xt
T
~ −1
f T ( x1 ,..., xT / θ ) = = κ e −θT θ y k1θ α −1 e − βθ = k θ α + y −1 e −θ (T + β ) (1.10)
Π Tt=1 x t !
~
Donde k = κ ⋅ k1 es un término constante para efectos del parámetro desconocido θ . Excepto
por este factor constante, parte derecha de la ecuación (1.10) se puede reconocer como la
f.d.p. de una distribución gamma con parámetros α + y y β −1 + T . Por tanto, la distribución
final de θ es como se especificó en el teorema 2.
Teorema 3. Supóngase que X 1 ,..., X T constituye una muestra aleatoria de una distribución
normal con media θ desconocida ( θ ∈ IR ) y con varianza conocida ( σ 2 > 0 ). Supóngase,
además, que la distribución inicial de θ es una distribución normal con valores dados de la
media µ I y la varianza v I2 . Entonces, la distribución final de θ , dado que
X i = x i ∀i = 1,..., T , es una distribución normal cuya media µ F y varianza v F2 son las
siguientes:
σ 2 µ I + T v I2 xT
µF = (1.11)
σ 2 + T v I2
σ 2 v I2
v F2 = (1.12)
σ 2 + T v I2
Demostración.
∑
1 T
f T ( x / θ ) = κ ⋅ exp − ( xt − θ ) 2 (1.13)
2σ 2 t =1
∑ ∑
T T
( x t − θ ) 2 = T (θ − xT ) 2 + ( x t − xT ) 2
t =1 t =1
Y se omite un factor que involucra x1 ,..., xT , pero que no depende de θ . Como resultado, se
puede reescribir f T ( x / θ ) de la siguiente forma:
T
f T ( x / θ ) = κ 1 ⋅ exp − (θ − xT ) 2 (1.14)
2σ 2
Donde
∑
1 T
κ 1 = κ ⋅ exp − ( x t − xT ) 2
2σ 2 t =1
Por otra parte la función de distribución inicial para el parámetro desconocido es:
1
ξ (θ ) = k 2 ⋅ exp − (θ − µ I ) 2 (1.15)
2v 2
I
Donde k 2 = (2πv I2 ) −1 2
1 T
ξ (θ / x ) = κ 1 ⋅ k 2 ⋅ exp − (θ − µ ) 2
− (θ − x ) 2
(1.16)
2v 2 I
2σ 2
T
I
1
ξ (θ / x ) = κ~ ⋅ exp − (θ − µ F ) 2 (1.17)
2v 2
F
Donde
T
κ~ = κ 1 ⋅ k 2 exp − (x − µ I ) 2
2(σ 2 + Tv 2 ) T
I
σ 2 µ I + T v I2 xT σ 2 v I2
µF = v F2 =
σ 2 + T v I2 σ 2 + T v I2
Supóngase que se va a seleccionar una muestra X 1 ,..., X T de una distribución cuya función de
distribución es igual a f ( x / θ ) , donde el valor del parámetro θ es desconocido. Supóngase,
además, que el valor de θ debe pertenecer a un intervalo concreto Ω ⊆ IR . El intervalo Ω
podría ser acotado o no acotado; en particular, podría ser IR . Por último, supóngase que el
valor de θ se debe estimar a partir de los valores observados de la muestra.
Un estimador del parámetro θ , basado en las variables aleatorias X 1 ,..., X T , es una función
a ( X 1 ,..., X T ) que especifica el valor estimado de θ para cada conjunto de valores posibles de
X 1 ,..., X T . En otras palabras, si los valores observados de X 1 ,..., X T son x1 ,..., xT , entonces el
E ( L(θ , a )) = ∫ Ω
L(θ , a )ξ (θ )dθ (1.18)
Supóngase que el investigador desea elegir una estimación a donde la pérdida esperada de la
ecuación (1.18) sea un mínimo. En cualquier problema de estimación, una función L cuya
esperanza E ( L(θ , a)) va a ser minimizada se denomina función de pérdida.
Supóngase ahora que el estadístico puede observar el valor de x del vector aleatorio X antes
de estimar θ , y sea ξ (θ / x) la función de distribución final de θ sobre el intervalo Ω . Para
cualquier estimación a que el estadístico pudiese utilizar, su pérdida esperada vendría dada por:
E ( L(θ , a) / x ) = ∫
Ω
L(θ , a)ξ (θ / x )dθ (1.19)
Por tanto, el investigador elegirá una estimación a cuya pérdida esperada, dada por la ecuación
(1.19) sea un mínimo.
Para cada valor de x el vector aleatoria X , sea a * = θˆB (x) un valor de a cuya pérdida
esperada, dada por la ecuación (1.19) sea mínima. Entonces la función a * = θˆB (x) cuyos
valores están definidos de esta forma será un estimador de θ . Este estimador se denomina
estimador de Bayes de θ . En otras palabras, para cada valor posible x de X , el valor de
δ * = θˆB (x) del estimador de Bayes se elige de forma que:
Sin lugar a dudas, la función de pérdida más comúnmente utilizada en problemas de estimación
es la función de pérdida del error cuadrático. Esta función se define como sigue:
L(θ , a ) = (θ − a ) 2 (1.21)
Es posible demostrar fácilmente que el valor que minimiza el valor esperado de la función de
pérdida cuadrática dado un set de datos observados, es igual al valor esperado condicional de la
función de distribución final. Quedará propuesto al lector que lo demuestre.
Ejemplo 5. Suponga que posee una muestra independiente de nT artículos que pueden estar
defectuosos o no (dicotómico), sin embargo, en la muestra sólo se encontraron T piezas
defectuosas. Encuentre la función de distribución final del parámetro de esta población
(fracción de piezas defectuosas), si se sabe que en el pasado la fracción de piezas defectuosas de
esta población siguió una distribución Beta con parámetros iguales a α = T y β = 2T .¿Cuál será
la mejor estimación para este parámetro y su volatilidad?
Respuesta
Del enunciado se puede obtener la función de distribución inicial (pasado), tal que:
Γ(3T )
ξ (θ ) = θ T −1 (1 − θ ) 2T −1
Γ(T )Γ(2T )
En este caso se tiene una población con distribución binomial, dado que se desconoce el orden
en que se encontraron las piezas defectuosas, por lo tanto, la función de verosimilitud en este
caso debe ser:
nT Σxi nT
f ( x1 , x 2 ,...x nT / θ ) = θ (1 − θ ) nT −Σxi = θ T (1 − θ ) T ( n −1)
Σx i T
Por lo tanto, la función de distribución final deberá ser una Beta, tal como se ilustra a
continuación.
~
ξ (θ / x ) = k θ 2T −1 (1 − θ )T ( n +1) −1
Entonces, los parámetros para esta función son: α F = 2T y β F = T (n + 1) .
Por lo tanto, la función debe ser: Γ(T (n + 3))
ξ (θ / x ) = θ 2T −1 (1 − θ )T ( n +1) −1
Γ(2T )Γ(T (n + 1))
Una muestra de T observaciones de una o más variables, designada por {x1 , x 2 ,..., xT } = {x i }Ti=1 ,
es una muestra aleatoria si las T observaciones son extraídas independientemente de la misma
población, o distribución de probabilidad, f ( x i / θ 1 , θ 2 ,..., θ k ) . La muestra puede ser
univariante, si x i es una única variable aleatoria, o multivariante, si cada observación contiene
varias variables. La muestra, designada como {x i }Ti=1 , se dice, entonces que está independiente
e idénticamente distribuida (IID). El vector θ = (θ 1 ,..., θ k ) contiene uno o varios parámetros
desconocidos. Los datos, en la mayoría de los casos, se generan de alguna de las dos maneras
que definimos a continuación, lo que es conocido como DGP (Data Generation Process –
Proceso Generador de Datos). Una muestra de sección cruzada está formada por un número de
observaciones de distintos elementos medibles, todas ellas referidas al mismo período de
tiempo. Una serie temporal es un conjunto de datos generados por un único elemento medible,
a lo largo de distintos períodos, normalmente distanciados uniformemente. Muchos estudios
recientes se han basado en muestras de sección cruzada, para las que se disponía de
observaciones para distintos períodos de tiempo. Dado que el conjunto de datos típicos de esta
clase, consiste en un gran número de elementos de sección cruzada observados en distintos
periodos, se usa generalmente el término datos de panel.
Antes de intentar estimar los parámetros de una población, o ajustar modelos a un conjunto de
datos, normalmente examinamos los datos. Usualmente se empieza con un diagrama de
dispersión que es bastante útil para una muestra bivariante si la muestra contiene un número
razonable de observaciones. En general si el número de observaciones de la muestra es grande 1,
1
Téngase presente que no hemos definido un criterio que permita cuantificar el término grande, estos
serán discutidos más adelante.
debemos utilizar algún estadístico de resumen para describir la muestra. Los de mayor interés
son las medidas de localización, es decir, el valor central de los datos, y de escala, o de
dispersión de los datos. Si la muestra contiene datos de más de una variable, también estaremos
interesados en medidas que sean indicativas de la relación entre las variables.
Algunas medidas de tendencia central que podrán resultar de mucha utilidad, son las siguientes:
La ecuación 2.4 definida como varianza muestral es también conocida como el segundo
momento no central de la variable X definida dentro de la muestra.
~
Varianza muestral insesgada: S ( X ) = ~s 2 = (T − 1) −1 Σ Ti=1 ( x i − xT ) 2 (2.5)
~
Desviación estándar muestral insesgada: ~s = S ( X ) (2.6)
Otras medidas, como la media de las desviaciones en valor absoluto respecto de la media
muestral también se utilizan, aunque menos frecuentemente. Si la muestra es multivariante,
para medir la relación lineal entre cada par de variables aleatorias muestrales pueden utilizar las
siguientes medidas.
Σ Ti=1 ( x i − xT )( y i − y T )
Correlación muestrales: ρ xy = (2.8)
(S ( X ) ⋅ S (Y ) )1 2
Si la muestra contiene datos de más de una variable, es conveniente disponer las covarianzas o
las correlaciones en forma matricial.
Las medidas descritas en la sección anterior resumen una muestra aleatoria. Cada medida tiene
su contrapartida poblacional, es decir, basada en la distribución a partir de la cual han sido
generados los datos. Los valores muestrales, tales como la media y el coeficiente de
correlación, se corresponden con esperanzas poblacionales. Nuestra expectativa es que los
valores de estos estadísticos tiendan a parecerse a los valores precisa en la que esos valores
reflejan la proximidad a los valores de los parámetros poblacionales, aunque no tengan que
coincidir, necesariamente. La manera precisa en la que esos valores reflejan la proximidad a los
valores poblacionales, viene dada por la distribución muestral del estadístico.
Si extraemos otra muestra bajo las mismas condiciones se obtendrían valores diferentes a partir
de las observaciones, puesto que cada muestra en sí es una variable aleatoria. En consecuencia,
el estadístico también es una variable aleatoria, y por tanto, tiene su propia función de
probabilidad, a la que llamaremos distribución muestral.
Demostración.
Para calcular la media de la variable aleatoria media muestral, es necesario aplicar la esperanza a
este termino, de este modo se obtiene la siguiente expresión.
E ( xT ) = E T −1 ∑ x = T −1 E ∑
T T
x (2.9)
i =1 i i =1 i
Dado que la esperanza es un operador lineal, por lo tanto, el lado derecho de la ecuación 2.9 se
puede escribir como:
∑
T
E ( xT ) = T −1 E ( xi ) (2.10)
i =1
Como las observaciones son idénticamente distribuidas (supuesto IID), entonces, todos los
valores observados tiene el mismo valor esperado, por ende la ecuación 2.10 se puede
reescribir como:
∑
T
E ( xT ) = T −1 µ=µ (2.11)
i =1
Sin embargo, se debe determinar la dispersión de esta variable aleatoria denominada media
muestral, la cual se calcula de la siguiente forma:
2
Esta condición nos indicaría que la muestra es IID, sin embargo, esto no siempre podrán ser interpretadas como
IID.
var( xT ) = T − 2 ∑ ∑ ∑ cov( x i , x j )
T T T
i =1
var( x i ) + 2
j =1 i> j
(2.13)
Pero debemos recordar que los datos pertenecientes a la muestra son independientes entre si,
por lo tanto, necesariamente las covarianzas deben ser iguales a cero. Por otro lado, la muestra
esta idénticamente distribuida, esto quiere decir que todos los valores de esta muestra deben
tener la misma varianza. Entonces, si introducimos estos conceptos en la ecuación 2.13 se
obtiene
∑
T
var( xT ) = T − 2 σ 2 = T −1σ 2 (2.14)
i =1
Obsérvese que para obtener el resultado fundamental del teorema 1 no se ha supuesto ninguna
distribución concreta para los datos muestrales, lo que nos indica que este proceso algebraico se
puede implementar en muestral IID con cualquier tipo de distribución.
Ejemplo 6. Supóngase que {x i }Ti=1 son valores de una muestra aleatoria procedentes de una
misma distribución exponencial de parámetro β . Determine la esperanza y varianza de la
media muestral.
Solución.
Si la función de distribución exponencial corresponde a:
f ( x i / β ) = β −1 e − βxi ∀ i = 1,..., T (2.15)
Entonces, la media y varianza de una población con estas características son:
E ( xi ) = β var( x i ) = β 2 (2.16)
Entonces, dado el teorema 1, se debe cumplir que:
E ( xT ) = β var( xT ) = T −1 β 2 (2.17)
Nuestro objetivo es usar los datos muestrales para inferir el valor de un parámetro o conjunto
de parámetros, que designamos por θ . Un estimador puntual es un estadístico calculado a
partir de la muestra, que pretende ser una aproximación al parámetro θ . El error estándar del
estimador es la desviación estándar de la distribución muestral del estadístico; si elevamos esta
cantidad al cuadrado, obtenemos la varianza muestral del estimador. Un intervalo de
estimación es un rango de valores que contienen el valor del verdadero parámetro con una
cierta probabilidad predeterminada. Debe existir una relación entre los dos tipos de
estimación; generalmente, si θˆ es el estimador puntual, el intervalo de estimación será θˆ más
menos una medida del error muestral.
Un estimador es una regla, o estrategia, para utilizar los datos con el fin de estimar un cierto
parámetro. Tal regla está definida antes de que los datos se generen. Obviamente, algunos
estimadores son mejores que otros. Por poner un ejemplo simple, intuitivamente cabe pensar
que la media muestral debería ser un estimador mejor de la media poblacional que el valor
mínimo de la muestra; con casi total seguridad, el mínimo será menor que la media
poblacional. No obstante, el mínimo tiene algunas ventajas: es fácil de calcular, y esto es a
veces un criterio relevante. La búsqueda de buenos estimadores es, en muchos casos, el objeto
del análisis econométrico. Los estimadores se comparan a partir de una variedad de atributos.
Las propiedades de muestras finitas de los estimadores son aquellos atributos que pueden ser
comparados independientemente del tamaño de la muestra. En algunos casos, determinadas
características de los estimadores no son las propiedades que presentan cuando el tamaño de la
muestra, a partir de la cual se calculan, es alto. Llamaremos a éstas, las propiedades asintóticas
de los estimadores. Volveremos sobre este punto más adelante.
E (θˆ) = θ (3.1)
Lo que implica que θˆ es insesgado. Nótese que esto implica que la esperanza del error muestral
en el que se incurre al considerar el estimador en lugar del parámetro es cero. Si (θ1 ,..., θ k ) es
un vector de parámetros, decimos que el estimador es insesgado si el valor esperado de cada
elemento del vector (θˆ1 ,..., θˆk ) es igual al correspondiente vector de parámetros poblacionales
desconocidos (θ1 ,..., θ k ) .
{θˆ }n
i i =1 ⇒ θˆ = n −1 ∑
n
θˆ
i =1 i
→ θ (3.3)
La insesgadez es una propiedad deseable de los estimadores, pero rara vez es utilizado como
único criterio de selección de posibles estimadores. Una de las razones es que hay muchos
estimadores que son insesgados, pero que son poco representativos de la muestra. Por ejemplo,
en una muestra de tamaño T la primera observación extraída es un estimador insesgado de la
media, pero utilizarlo supondría un gran desperdicio de información muestral. Un segundo
criterio empleado para elegir entre estimadores insesgados es el de la eficiencia.
Definición 3. Estimador insesgado eficiente (Eficiencia). Un estimador insesgado θˆ1 , se dice que
es más eficiente que otro estimador insesgado θˆ2 si la varianza muestral de θˆ1 es menor que la
de θˆ2 . Es decir,
V (θˆ1 ) < V (θˆ2 ) (3.4)
A partir de este criterio, la media muestral será claramente preferida frente a la primera
observación, como estimador de la media poblacional. Si σ 2 es la varianza poblacional,
(
ECM (θˆ) = V (θˆ) + sesgo[θˆ] )
2
(3.7)
Ejemplo 7. En una muestra extraída de una distribución normal, el estimador más usado para
la varianza poblacional es:
~
s2 = 1
ΣT (x
T −1 i =1 i
− xT ) 2 (3.8)
El criterio que utilicemos para seleccionar estimadores en una situación concreta dependerá de
las particularidades del caso, así como de nuestro objetivos en ese caso.
Desafortunadamente, el criterio del ECM pocas veces es operativo; los estimadores de error
cuadrático medio mínimo, cuando existen, normalmente dependen de parámetros
desconocidos. Por tanto, pocas veces los podremos utilizar. Un criterio usado generalmente es
el de insesgadez y mínima varianza.
Hemos visto hasta ahora que podemos comparar dos o más estimadores y darnos un criterio de
elección en base a la varianza de dichos estimadores. La pregunta que surge ahora es si existe
algún otro estimador con una menor varianza. Para esto introduciremos el concepto de
Cantidad de Información de Fisher.
I (θ ) = E ( ∂Ln ( f ( x / θ ) )
)
2
∂θ
(3.9)
I (θ ) = Var
( ∂Ln ( f ( x / θ ) )
∂θ ) (3.10)
I (θ ) = − E
( ∂ 2 Ln ( f ( x / θ ) )
∂θ 2 ) (3.11)
Demostración
Se demostrará primero que la ecuación (3.9) es igual a (3.10), sin embargo, la segunda igualdad
quedará propuesta para el lector.
Ahora para poder realizar la demostración debemos tener presente las siguientes propiedades
de una variable aleatoria:
a. Para una variable aleatoria X con función de densidad f ( x) y una función cualquiera
sobre X , g ( x) , entonces E ( g ( x)) = ∫x∈IR g ( x) f ( x)d x, además
b. La varianza de una variable aleatoria X , se pude representar y calcular como la
diferencia entre el segundo momento menos el primero al cuadro, es decir,
=
Var ( X ) E( X 2 ) − E 2 ( X ) .
∫x∈IR (
∂ f x / θ ) dx = ∂
[1]
∂θ ∂θ
∫ ∂
f ( x / θ ) dx = 0
x∈IR ∂θ
Por otro lado, debemos recordar que L(θ ) = f ( x / θ ) y que (θ ) = ln L[(θ )] , entonces se pude
definir que
∂Ln ( f ( x / θ ) ) 1 ∂f ( x / θ ) ∂(θ )
E = ∫ = dx ∫= dx ∫ ∂
f ( x / θ ) dx 0
=
∂θ
x∈IR f ( x / θ ) ∂θ ∂θ
x∈IR x∈IR ∂θ
Ahora, si utilizamos la forma de la varianza descrito en el inciso b. en los párrafos más arriba
tenemos que
(
var ∂∂(θθ )
= ) (
E ∂∂(θθ )
2
)−E ( 2 ∂ (θ )
∂θ ) (3.12)
Sin embargo, el término de valor esperado a la derecha de la ecuación (3.12), tal como se
mostró es igual a cero, por lo tanto, se demuestra que:
= (
var ∂∂(θθ ) ) (
∂∂(θθ )
E=
I (θ )
2
)
Con lo cual queda demostrada la primera proposición.
En base a lo descrito, es posible afirmar que en el caso de tener una muestra { X t }Tt =1 IID cuya
función de densidad o de probabilidad es f ( x / θ ) en donde θ es un parámetro desconocido del
conjunto Ω . Si tenemos entonces fT ( x / θ ) la función de verosimilitud de la muestra aleatoria
entonces se llama la Cantidad de Información de Fisher de la muestra de tamaño T sobre el
parámetro θ a la cantidad:
IT (θ ) = E ( ∂Ln ( fT ( x / θ ) )
)
2
∂θ
IT (θ ) = T I (θ )
De esta forma Cramer-Rao logra determinar una cota mínima para la varianza de un estimador.
Si un estimador θˆ alcanza la cota de Cramer-Rao se dice que el estimador es de varianza
mínima.
Respuesta
Entonces:
Ln( f ( x / µ , σ 2 )) =
− 12 Ln(2πσ 2 ) − 12 ( ) x−µ 2
σ
Sin embargo, el lector debe tener presente que esta metodología sólo es validad sobre la base
que la función de distribución poblacional y por ende muestral es conocida, lo cual ocurre
principalmente sobre estimadores de máxima verosimilitud.
e −θ θ xi
f ( xi / θ ) = (4.1)
xi !
Puesto que las observaciones son independientes, la densidad conjunta de toda la muestra, que
hemos identificado como función de verosimilitud de la muestra, es:
e −θ θ xi
∏
T
f ( x1, x 2 ,...., xT / θ ) = f T ( x / θ ) =
i =1
(4.2)
xi !
∑ Ti=1 xi
e −Tθ θ
fT ( x / θ ) = (4.3)
∏
T
xi !
i =1
e −10θ θ 20
fT ( x / θ ) = (4.4)
207.360
La última expresión es la probabilidad de observar esta muestra particular, suponiendo que una
distribución de Poisson con un parámetro θ aún desconocido generó los datos. ¿Cuál es el
valor de θ que hace que esa muestra en particular sea la más probable?. Si evaluamos distintos
valores de θ en la ecuación (4.1), se encuentra que esta es máxima cuando θ = 2 , lo que nos
daría el valor del estimador de máxima verosimilitud, o EMV, de θ .
Entonces, para obtener el EMV en este caso se debe resolver sobre la ecuación (4.5) como:
En el caso de que la función de verosimilitud sea una función continua es posible obtener el
EMV imponiendo las derivadas, es decir, condición de primer orden y de segundo orden, por
ejemplo en el caso de la ecuación (4.5), se obtiene la condición de primer orden tal.
d(θ )
= −10 + 20 θ −1 = 0 ⇒ θˆEMV = 2 (4.7)
dθ
d 2 (θ )
= −20 θ − 2 < 0 (4.8)
dθ 2
Dado este resultado, es posible concluir que el valor encontrado efectivamente es el que
maximiza la función.
L(θ ) = f T ( x / θ )
θˆEMV
Figura 1. Función de verosimilitud y de logaritmo de la
función de verosimilitud de una distribución cualquiera.
∏
T
f ( x1 , x 2 ,..., xT / θ 1 ,...., θ k ) = f ( x / θ ) =
i =1
f ( x i / θ ) = L(θ ) (4.9)
Donde x representa los datos muestrales. Generalmente resultará más fácil trabajar con el
logaritmo de la función de verosimilitud:
∑
T
(θ ) = ln( L(θ )) =
i =1
ln f ( x i / θ ) (4.10)
El valor de los parámetros que maximiza esta función es el estimador de máxima verosimilitud,
generalmente designado como (θˆ1 ,..., θˆk ) . Puesto que la función logarítmica es una función
monótona, los valores que maximizan L(θ ) son los mismos que aquellos que maximizan (θ ) .
La función de verosimilitud y su logaritmo, evaluados en θ = (θ 1 ,..., θ k ) , son generalmente
designados como L(θ ) y (θ ) , respectivamente. La condición necesaria para maximizar (θ )
es,
∂ ln L(θ ) ∂(θ )
= = 0 ∀ i = 1,..., k (4.11)
∂θ i ∂θ i
Una técnica utilizada en muchos de los casos anteriores, es la del método de los momentos.
Este método se basa en la siguiente idea. En un muestreo aleatorio, un estadístico muestral
convergerá en probabilidad a una constante. Así, por ejemplo, T −1Σ Tt x t2 converge en media
cuadrática a la varianza más el cuadrado de la media de la distribución de x t . Esta constante, a
su vez, será una función de los parámetros desconocidos de la distribución en cuestión. Para
estimar k parámetros, θ 1 ,..., θ k , calcularíamos k estadísticos, m1 ,..., m k , cuyos límites en
probabilidad son funciones conocidas de los parámetros. Esos k momentos se igualan a las k
funciones. De ahí podrían obtenerse estimadores de los parámetros como función de los
momentos. Esos estimadores serían consistentes gracias al teorema de Slutsky.
∑
T
m k′ = T −1 x2 (5.1)
t =1 t
E (m k′ ) = µ k′ = E ( x tk )
var(m k′ ) = T −1 var( x tk ) = T −1 ( µ 2′ k − [ µ k′ ] 2 )
plim(m k′ ) = µ k′ = E[ x tk ]
T (m k′ − µ k′ ) →
D
N [0, µ 2′ k − µ k′ 2 ]
µ1′ = E[ x t ] = µ
Ejemplo 9. Estimación por el método de los momentos de los parámetros de una distribución
normal con media µ y varianza σ 2 .
Respuesta.
En el muestreo aleatorio de una distribución normal,
∑
1 T
plim x = plim m1′ = E ( x t ) = µ
T t =1 t
∑
1 T
plim x2 = plim m 2′ = var[ x t ] + µ 2 = σ 2 + µ 2
T t =1 t
Igualando el lado derecho e izquierdo de la igualdad tenemos los estimadores del método de los
momentos,
µ̂ = m1′ = xT
∑ ∑
1 T 1 T
σˆ 2 = m 2′ − [m1′ ] 2 = x2 − xT2 = ( x t − xT ) 2
T t =1 t T t =1
Universidad de Chile
Economía & Negocios
FUNCIONES DE DISTRIBUCION.
1. INTRODUCCIÓN.
En este capítulo se define y exponen varias distribuciones especiales que son muy
utilizadas en aplicaciones de probabilidad estadística. Las distribuciones que se
presentarán aquí incluyen distribuciones discretas y continuas de tipo univariante,
bivariante y multivariante. Las distribuciones discretas univariantes son la binomial, de
Bernoulli y de Poisson. Las distribuciones continuas univariantes son la normal, gamma,
exponencial y beta. Otras distribuciones continuas univariantes son la lognormal, de
Weibull y de Pareto. También se exponen la distribución discreta multivariante
denominada distribución multinomial y la distribución continua bivariante denominada
distribución normal bivariante.
Es muy importante, a pesar de que no se a discutido con detalle, tener claro que las
estructuras de las funciones de distribuciones se encuentran definidas por una familia
especifica de funciones, como por ejemplo, exponenciales, cuadráticas (polinomios),
logarítmicas, cóncavas o convexas, pero la forma definitiva, la que representa el
comportamiento final de una población por medio de sus frecuencias depende de los
parámetros que la constituyen. Un ejemplo claro de este punto, es el hecho que una
línea recta, es una familia de posibles funciones que pueden ser oblicuas, verticales,
horizonales, etc., sin embargo, el grado de inclinación y contacto con el o los ejes
dependerá de los valores que tomen su pendiente o intercepto.
Ax + B a ≤ x ≤ b
f ( x) = (1.1)
0
Además, por efecto de simplificación, supongamos que esta función es efectivamente una
función de distribución de probabilidades, por lo tanto, sabemos que el área bajo la curva
dentro del dominio de f ( x) debe ser igual a 1. Ahora, nuestro interés radica en el hecho
de que la función de la ecuación (1.1) es una recta, pero la constitución final de ella
dependerá de sus parámetros A (pendiente) y B (intercepto), por lo que para diferentes
combinaciones de estos valores, tendremos diferentes distribuciones de probabilidades
finales. Esto quiere decir, que al ser la función de distribución el reflejo del
comportamiento poblacional, entonces sus característica poblaciones (parámetros)
perimitiran diferencias una población de otra cuando estas pertenezcan a la misma
familia, ya sea porque una tiene mayor pendiente que la otra o porque una se desfasa más
que la otra.
Es por esta razón que muchas de las funciones que veremos a continuación se describirán
bajo la premisa de valores paramétricos conocidos, por ejemplo en nuestro caso de la
línea recta, la función será denotada como:
f ( x / A, B) = Ax + B ∀ x ∈ [ a, b] (1.2)
Se dice que una variable aleatoria X tiene una distribución de Bernoulli con parámetro
p tal que (0 ≤ p ≤ 1) si X puede tomar únicamente los valores 0 y 1 y las probabilidades
son
) p x (1 − p )1− x
f ( x / p= ∀=
x 0,1 (1.4)
1.i. E ( X ) = p
1.ii. E ( X 2 ) = p
1.iii. var( X ) = p(1 − p)
1.iv. ψ (t ) = E (exp(tX )) = pe t + q
Definición 2. Una variable aleatoria X tiene una distribución Binomial con parámetros
T y p si X tiene una distribución discreta cuya función corresponde a:
T
x / p ) p x (1 − p )T − x =
f (= ∀x 0,1, 2,..., T (1.5)
x
2.i. E ( X ) = Tp
2.ii. var( X ) = Tp (1 − p)
2.iii. ψ (t ) = E (exp(tX )) = ( pe t + q) T
Demostración
Para efecto de desarrollo se demostraran las propiedades 2.i y 2.ii, mientras que la 2.iii
quedará propuesta para el lector.
ΣTx = 0 ( Tx ) xp x (1 − p )T − x
E( X ) =
=
T
x 1=
T!
x !(T − x )!
x T −x T
E( X ) =
Σ(T −1)!
x 1 ( x −1)!(T − x )! xp (1 − p ) =
TpΣ p x −1 (1 − p )T − x (1.6)
Sin embargo, la sumatoria del lado derecho de la ecuación (1.7) es igual a 1, por
definición de función de distribución de probabilidad, así que la expresión anterior se
reduce a:
E ( X ) = Tp
ΣTx = 0 ( Tx ) x( x − 1) p x (1 − p )T − x
E ( X ( X − 1)) =
E ( X ( X − 1)) = T (T − 1) p 2=
ΣTx 2 ( )p
T −2
x−2
x−2
(1 − p )T − x
E ( X ( X − 1)) = T (T − 1) p 2 Σ Ny = 0 ( Ny ) p y (1 − p ) N − y = T (T − 1) p 2
E ( X 2 ) = T (T − 1) p 2 + Tp
var( X ) =
E( X 2 ) − E 2 ( X ) =
T (T − 1) p 2 + Tp − T 2 p 2 =
−Tp 2 + Tp =
Tp (1 − p )
Definición 3. Sea X una variable aleatoria con una distribución discreta y supóngase
que el valor de X debe ser un entero no negativo. Se dice que X tiene una distribución
de Poisson con media λ (λ > 0) si la función de distribución de probabilidad de X es la
siguiente:
λ x e −λ
f (x / λ) = ∀x = 0,1,2,..., (1.8)
x!
Está claro que f ( x / λ ) es positiva para todos los valores de x . Para verificar que la
función f ( x / λ ) definida por la ecuación (1.8) satisface los requisitos de toda función de
distribución, se debe demostrar que Σ ∞x =0 f ( x / λ ) = 1 . Se sabe de cálculo que para todo
número real λ ,
λx λx
∑ ∑
∞ τ
eλ = = lim (1.9)
x =0 x! τ →∞ x =0 x!
Por tanto,
λx
∑ ∑
∞ ∞
eλ = f ( x / λ ) = e −λ = e −λ e λ = 1 (1.10)
x =0 x =0 x!
e −λ λ x e −λ λ x e − λ λ x −1
∑ ∑ ∑ ∑
∞ ∞ ∞ ∞
E( X ) =
x =0
xf ( x / λ ) =
x =0
x =
x =1
x =λ
x =1 ( x − 1)!
=λ (1.11)
x! x!
=
∞ ∞ e− λ λ x 2 ∞
E[ X ( X − 1)] =
x 0 =x 0= x!
e− λ λ x −2
Σ x( x − 1) f ( x / λ ) =
x 0 ( x − 2)! Σ x( x − 1) λ Σ
= λ2
= (1.12)
E[ X ( X − 1)] = E ( X 2 ) − E ( X ) = E ( X 2 ) − λ = λ 2
E ( X 2 ) = λ2 + λ (1.13)
De esta forma de la ecuación (1.10) y (1.13) se puede determinar que la varianza de esta
variable corresponde a:
var( X ) = E ( X 2 ) − [ E ( X )] 2 = λ (1.14)
(λ e t ) x
∑ ∑
∞ ∞
ψ (t ) = E ( e tX ) = e tx f ( x / λ ) = e −λ = exp[λ (e t − 1)] (1.15)
x =0 x =0 x!
Respuesta
f ( x / p, T ) = ( )pT
x
x
(1 − p )T − x ≡ f (5 / 12 ,12) = ( )(
12
5 ) (1 − 12 )7
1 5
2
Pero:
( )=
12
5
12!
5!7!
= 8⋅9⋅10⋅11⋅12
1⋅ 2⋅3⋅ 4⋅5
= 8⋅9⋅11⋅12
1⋅3⋅ 4
= 8⋅9⋅11
1
= 8 ⋅ 9 ⋅11 = 792
El lector debe tener presente que el resultado puede quedar expresado como 99 sobre
512, más que 0.1933, de hecho para una decisión practica y básicamente se pudo
aproximar a 1 de cada 5 casos, con lo cual habría sido posible sacar conclusiones sin
perdida de generalidad.
Respuesta
f (7 / 0.8,10) = ( )(
10
7 ) ( ) =
4 7 1 3
5 5
10!
7!3!
( 54 )7 ( 15 )3 = 8⋅9⋅10
1⋅ 2⋅3
= 4 ⋅ 3 ⋅10 5410 ≈ 0.20
7
2 x e −2
Pr( X = x / λ = 2) = f ( x / λ = 2) = ∀x = 0,1, 2,...,
x!
20 e −2
Pr( X= 0 / λ= 2)
= = 0,1353
0!
21 e −2
Pr( X= 1/ λ= 2)
= = 0, 2707
1!
22 e −2
Pr( X= 2 / λ= 2)
= = 0, 2707
2!
1
f ( x / a, b) = ∀a< x<b (1.16)
b−a
Los parámetros a y b de esta densidad de probabilidad son constantes reales, con a < b .
4.i. E ( X ) = 12 (a + b)
4.ii. var( X ) = 121 (b − a) 2
Esta distribución resulta de gran utilidad para atacar problemas de listas de espera y
colas. Cuando el tiempo de servicio a un cliente es aleatorio, esta incertidumbre puede
representarse a menudo mediante una distribución exponencial. La distribución
exponencial difiere de la normal en dos características básicas: Se restringe a variables
aleatorias que pueden tomar valores positivos únicamente, y su función de densidad no
es simétrica alrededor de la media.
e −x β
f (x / β ) = ∀x≥0 (1.17)
β
Donde β es cualquier número positivo, entonces se dice que X sigue una distribución
exponencial
5.i. E ( X ) = β
5.ii. var( X ) = β 2
5.iii. ψ (t ) = E (exp(tX )) = (1 − βt ) −1
f ( x / α ) α e −α x
= ∀ x ≥ 0, α > 0
Esta forma, como podrá darse cuenta el leedor es igual a la de la exponencial, para ello
sólo deberíamos imponer que α = β −1 y recuperaríamos la misma función definida en la
ecuación (1.17). Sin embargo, en una buena parte de la literatura se utiliza esta ultima
expresión de la función exponencial y que en este caso la esperanza y varianza serían α −1
y α −2 , respectivamente.
Ejemplo 4. En una cierta localidad de la autopista 78, el número de autos que exceden
el límite de velocidad en más de 10 Kilómetros por hora en media hora es una variable
aleatoria que tiene una distribución de Poisson con λ = 8.4 . ¿Cuál es la probabilidad de
que el tiempo de espera entre autos que exceden el límite de velocidad en más de 10
Km/Hr sea menor a 5 minutos?
Respuesta
Al usar media hora como la unidad de tiempo, tenemos que lamba puede ser equivalente
a el inverso de beta. Por consiguiente, el tiempo de espera es una variable aleatoria que
tiene una distribución exponencial con β = 8.41 y, puesto que 5 minutos es 16 de la unidad
de tiempo, encontraremos que la probabilidad deseada es:
x2 1/ 6 1/ 6
∫Domf
f ( x / β )dx =∫ β −1e − x / β dx =∫
x1 0
8.4e −8.4 x dx =−e −8.4 x
0
=−e −1.4 + 1 =0.75
Respuesta
En este caso debemos recordar que la muestra al ser independientes, entonces cada una
de sus componentes son independientes, esto quiere decir que no existe covarianza entre
las observaciones que en este caso son la muestra de variables aleatorias. Por otro lado el
que sean idénticamente distribuidas quiere decir que cada una da la variables aleatorias
que constituyen la muestra tienen los mismos parámetros, que en este caso
correspondería a la esperanza y varianza, que en mucha de la literatura disponible es
interpretado como pertenecientes a la misma población, lo cual puede ser cierto sólo si
la población sobre la cual se extrajo la muestra es constante en forma transversal (entre
los individuos) y longitudinalmente (a través del tiempo).
Para efecto de nuestro problema supondremos que nuestra población es constante para
todos los efectos, es decir, que nuestro cálculo queda como:
−1 T
xi ) = T −1 E (ΣTi 1 xi )
T ) = E (T Σ i 1 =
E ( x=
Claramente los términos que no tienen comportamiento aleatoria no sufren cambio con
la función esperanza, lo que hace poder sacarlo de esta, sin embargo, no debemos olvidar
que la esperanza es un operador lineal, por lo tanto, el valor esperado de la suma de
variables aleatorias es la suma de los valores esperados por separado, es decir,
) T −1ΣTi =1 E ( xi )
E ( xT=
Pero, todos los x´s tienen el mismo valor esperado, recuerde que son idénticamente
distribuidos, por lo tanto, tenemos que:
E ( xT ) =T −1ΣTi =1 β =T −1T β =β
Ahora con respecto a la varianza tenemos algo un poco más complicado, ya que esta no
es lineal, sin embargo, puede tener un comportamiento parecido al lineal si las variables
sean independientes, para entender mejor este concepto, vamos a realizar el siguiente
procedimiento, recordemos que la varianza de la suma de dos variables aleatorias
corresponde a:
var( X + =
Y ) var( X ) + var(Y ) + 2 cov( X , Y )
var( X + =
Y ) var( X ) + var(Y )
De esta forma podemos ver que cuando se suman variables independientes, entonces es
posible afirmar que es igual a la suma de las varianzas por separado. Entonces, para
nuestro problema tenemos
xT )= var(T −1ΣTi 1 =
var(= xi )= T −2 var(ΣTi 1 xi )
var(
= var( xi ) =T −2 ΣTi 1 β 2 =T −1 β 2
xT ) =T −2 ΣTi 1 =
µ ,σ 2 )
f ( x /= 1
2πσ 2
(
exp − 2σ1 2 ( x − µ ) 2 ) ∀ x ∈ IR (1.18)
6.i. E ( X ) = µ
6.ii. var( X ) = σ 2
6.iii. ψ (t ) = E (exp(tX )) = ( µt + 12 σ 2 t 2 ) ∀t ∈ IR
De estas propiedades puede concluirse que dadas la media y la varianza de una variable
aleatoria normal, queda determinada la distribución específica dentro de la familia de
distribuciones normales. Esto permite el uso de la siguiente notación.
X N (µ ,σ 2 )
Ahora, la media proporciona una medida de posición central, mientras que la varianza da
una medida de dispersión alrededor de la media. Luego los valores que toman los
parámetros µ y σ 2 tienen diferentes efectos en la función de densidad de una variable
aleatoria normal. La figura 2 muestra la función de densidad de dos distribuciones
normales con varianza común pero diferentes medias. Puede verse, que incrementar la
media, dejando constante la varianza, traslada la función de densidad pero no altera su
forma. En la figura 3 las funciones de densidad representadas corresponden a variables
aleatorias normales con media común pero diferentes varianzas. Ambas son simétricas
alrededor de la media común, pero la que tiene mayor varianza es más dispersa.
( )
x0
=
F ( x0 ) ∫−∞
1
2πσ 2
exp − 2σ1 2 ( x − µ ) 2 dx
1 1
φ=
( z / 0,1) exp − z 2 ∀ z ∈ IR (1.19)
2π 2
exp ( − 12 z 2 ) dz
z0 z0 1
=
Φ ( z0 ) ∫ −∞
φ ( z=
/ 0,1)dz ∫ −∞
2π
(1.20)
Φ (−0, =
74) Pr( Z ≤ −0.74)
= 0, 2296
Sin embargo, los valores positivos de esta misma probabilidad se podría obtener a partir
de la simetría del problema. Esto quiere decir que Pr( Z ≤ −0.74)
= Pr( Z ≥ 0.74) , que en
términos de la función acumulada normal estándar es:
1
Téngase presente que Pr( Z ≤ z )= Pr( Z < z ) , para efecto de variables continuas.
Respuesta
Pr(−0.5 < Z < 1.23) = Pr( Z < 1.23) − Pr( Z < −0.5) = Φ (1.23) − Φ (−0.5)
Supongamos que la variable aleatoria discreta 2 X , tiene una probabilidad p de ser igual
a x0 , ( Pr(=
X x= 0) p ), por otro lado, tenemos dos escalares que son a y b (constantes
arbitrarias), entonces, analicemos lo siguiente:
Pr( X + a = x0 + a ) = Pr( X = x0 , a = a)
Pero Pr(a = a) es uno, ya que una constante nunca cambia de posición por lo que se
tiene certeza absoluta de su valor, por esta razón, al reemplazar los valores tenemos que:
2
Esto es simplemente para simplificar el cálculo, sin embargo, el lector podrá extender este ejercicio a
variables aleatorias continuas, cambiando solamente el signo de desigualdad.
Pr( X + a = x0 + a ) = p ⋅1 = p
Sin embargo, esta expresión puede ser fácilmente extensible a una variable aleatoria
continua, como:
Pr( X ⊕ x=
0) Pr( X + a ⊕ x0 + a ) (1.22)
Pr( X ⊕ x0=
) Pr(bX ⊕ bx0 ) (1.23)
Ejemplo 7. Sea X una variable aleatoria normal con media µ y varianza σ 2 . Entonces,
si definimos la variable Z X , como:
X −µ
ZX =
σ
¿La probabilidad Pr( X ≤ x) , puede ser representada como la probabilidad de una variable
aleatoria normal estándar?
Respuesta
X − µ x0 − µ x0 − µ
Pr( X ≤ x=
0) Pr ≤ = Pr Z X ≤ σ
σ σ
Sabemos que Z X tiene comportamiento normal, pero todavía no podemos afirmar que
esta normalidad viene de una distribución estándar. Para determinar ello es necesario
determinar el valor esperado (media) y la varianza de esta variable aleatoria. Es decir,
E[σ −1 ( X −=
µ )] σ −1 E[ X −=
µ ] σ −1[ E ( X ) − E ( µ )]
var[σ −1 ( X =
− µ )] σ −2 var[ X=
− µ ] σ −2 [var( X ) − var( µ )]
Ejemplo 8. El rendimiento promedio de la PSU 3 2005 fue de 395 ptos. y una desviación
estándar de 168 ptos. Se le solicita que determine el número aproximado de alumnos
que superaron los 670 ptos, si el número total de quienes la rindieron fue de 120.000,
además puede suponer que esta población sigue un comportamiento normal.
Respuesta
El lector debe tener presente que es muy frecuente encontrarse con problemas que
suponen normalidad, que como ejercicio matemático es una buena forma de simplificar
la resolución del problema, sin embargo, no es tan simple darse este supuesto en
problemas cotidianos, de hecho hacerlo sin la más mínima fundamentación teórica, es
una exageración que resta confiabilidad a los resultados y por ende a las conclusiones.
Entonces, como calcular esta probabilidad con una integral es prácticamente imposible,
entonces, utilizaremos las ecuaciones (1.22) y (1.23), para determinar el valor de esta
probabilidad, es decir,
3
PSU, Prueba de Selección Universitaria, la cual se aplica en Chile desde el 2003 y rinden todos los
alumnos que hallan cursado su enseñanza media.
Ahora si quisiéramos discutir este resultado, podríamos hacer énfasis en el hecho de que
no todos los alumnos rindieron la PSU, por lo tanto, existe un porcentaje de individuos
que no participaron en el proceso, quienes posiblemente podrían haber modificado este
resultado, no siendo un 5%, sin que una cifra posiblemente menor.
Supóngase que Z 1 y Z 2 son variables aleatorias independientes cada una de las cuales
tiene una distribución normal tipificada. Entonces la función de distribución de
probabilidad conjunta g ( z1 , z2 ) de Z 1 y Z 2 para cualquiera valores de z1 y z2 está dada
por la ecuación
g ( z1 , z 2 ) = 1
2π
(
exp − 12 ( z12 + z 22 ) ) (1.24)
X 1 = σ 1 Z 1 + µ1
(1.25)
X 2 = σ 1 [ ρZ 1 + (1 − ρ 2 ) −1 2 Z 2 ] + µ 2
x − µ 2
1 1
1
f ( x1 , x 2 ) = exp − 1
2 σ
2π (1 − ρ ) σ 1σ 2
2 12
2(1 − ρ ) 1
x − µ1 x 2 − µ 2 )
− 2 ρ 1 (1.27)
σ 1 σ 2
2
x − µ2 )
+ 2
σ2
E( X i ) = µ i var( X i ) = σ i2 ∀i = 1,2
cov( X 1 , X 2 )
cov( X 1 , X 2 ) = ρσ 1σ 2 ρ(X1, X 2 ) =
σ 1σ 2
Algunas de las variables aleatorias que veremos siguen una distribución de la forma:
f ( x / α , β ) = kx α −1 e − x β x ∈ IR + + (1.28)
Donde α > 0 , β > 0 y k debe ser tal que el área total bajo la curva sea igual a 1. Para
evaluar k , primero hacemos la substitución y = x β , lo cual nos da
∞ ∞
∫ 0
kx α −1 e − x β dx = kβ α ∫ 0
y α −1 e − y dy (1.29)
∞
Γ(α ) = ∫ 0
y α −1 e − y dy ∀α > 0 (1.30)
Que se trata en detalle en muchos de los textos de cálculo avanzado. Al integrar por
parte y asumiendo que α es un parámetro, encontramos que la función gamma satisface
la fórmula recursiva.
Γ(α=
) (α − 1) ⋅ Γ(α − 1) (1.31)
∞
Γ(1) = ∫ 0
e − y dy = 1
Se sigue por la aplicación repetida de la fórmula recursiva que Γ(α ) = (α − 1)! donde α
es un entero positivo. También, un valor especial importante es Γ( 12 ) = π .
∞
∫ 0
kx α −1 e − x β dx = kβ α Γ(α ) = 1
Y por tanto
1
k= (1.32)
β α Γ(α )
1
f (x / α , β ) = α
x α −1 e − x β x ∈ IR + + (1.33)
β Γ(α )
7.i. E ( X ) = αβ
7.ii. var( X ) = αβ 2
7.iii. ψ (t ) = E (exp(tX )) = (1 − β t ) −α ∀ t < β −1
Definición 8. Una variable aleatoria X tiene una distribución beta y se conoce como
una variable aleatoria Beta si y sólo si su densidad de probabilidad está dada por
Γ(α + β ) α −1
f (x / α , β ) = x (1 − x) β −1 ∀α > 0, β > 0 (1.34)
Γ(α )Γ( β )
No demostraremos aquí que el área total bajo la curva de la distribución beta, como la de
cualquier densidad de probabilidad, es igual a 1, pero en la demostración del teorema
que sigue, nos valdremos del hecho que
1 Γ(α + β ) α −1
∫ 0 Γ (α )Γ ( β )
x (1 − x) β −1 dx = 1 (1.35)
1 Γ(α + β )
∫ 0
x α −1 (1 − x) β −1 dx =
Γ(α )Γ( β )
= B(α , β ) (1.36)
Esta integral define la función beta, cuyos valores se denotan por B(α , β ) . En cualquier
libro de texto avanzado se puede encontrar un análisis detallado de función beta.
α
8.i. E ( X ) =
α +β
αβ
8.ii. var( X ) =
(α + β ) (α + β + 1)
2
En una distribución bivarainte, hay una distribución condicional sobre y para cada valor
de x. Las densidades condicionales son
f ( x, y ) f ( x, y ) f ( x, y ) f ( x, y )
f ( y | x) = = y f ( x | y) = = (1.37)
∫y f ( x, y )dy f x ( x)
∫x f ( x, y )dx f y ( y)
f ( x, y ) = f ( y | x ) f x ( x ) = f ( x | y ) f y ( y ) (1.38)
yf ( y | x)dy si y es continua
E (Y | x) = y ∫ (1.39)
Σ y yf ( y | x) si y es discreta
En los siguientes teoremas se presentan algunos resultados útiles sobre los momentos de
una distribución condicional:
cov( X , Y )
a = E[Y ] − bE[ x] y b= (1.42)
V[X ]
La notación V x [⋅] indica la varianza sobre la distribución de x . Esto indica que en una
distribución bivariante, la varianza de Y se descompone en la varianza de la función
media condicional (intervarianza) más la varianza esperada alrededor de la media
condicional (intravarianza).
V [Y | X ] = V [Y ](1 − Corr 2 [Y , X ]) = σ 2y (1 − ρ xy
2
)
λ P e −λ
f (P | λ ) = , P = 0,1,2,...
P!
λ = a + bR = E[ P | R]
(a + bR) P e −( a +bR )
f ( P | R) = , P = 0,1,2,...
P!
Que capta el efecto que buscábamos. Observar un gran número de patentes puede
reflejar un valor alto del proceso POISSON, o bien puede que se derive de un valor
inusualmente alto de R .
Ahora supongamos que R es una fracción constante del tamaño de la empresa, y que
esta variable sigue una distribución lognormal. Así, R también seguirá una distribución
lognormal 4. Supongamos que µ = 0 y σ = 1 . Entonces
E[ R] = e = 1,65 y V [ R] = 4,65
E[ P | R ] = 1 + 2 R
E[ P] = ER [ E[ P | R]] = ER [1 + 2 R] = 1 + 2 ER [ R ] = 4,30
V [ P | R] = λ = 1 + 2 R
ER [V [ P | R]] = ER [1 + 2 R] = 1 + 2 ER [ R] = 4,30
4
Cuando se modelan distribuciones de tamaño, tales como la distribución del tamaño de las
empresas en una industria o la distribución de la renta en un país, la distribución lognormal
(LN), que representamos por LN [ µ , σ 2 ] es especialmente útil.
f (x | µ,σ 2 ) =
1
2π σx
(
exp − 12 [(ln x − µ ) / σ ] 2 )
µ + 12 σ 2
y V [ X ] = e2 µ +σ (eσ − 1) la relación en las
2 2
Una variable lognormal X tiene E[ X ] = e
distribuciones normal y lognormal es que si Y ~ LN [ µ , σ 2 ] , entonces ln(Y ) ~ N [ µ , σ 2 ] , por lo
tanto se puede concluir que Y r ~ LN [rµ , r 2σ 2 ] .
Por tanto,
Varianza de Regrersión
Coeficiente de Determinación = CoD =
Varianza Total
18,6
CoD = = 0,812
22,9
Esto nos indica que aproximadamente el 81% de la varianza es explicada por la varianza
de la regresión.
Teorema 6. Kinchin
O equivalentemente
lim Pr[ X T − µ ≤ ε ] =
T →∞
1 (1.46)
Teorema 7. Chebyshev
Demostración
5
La desigualdad de Chebyshev. Si xT es una variable aleatoria y cT y ε son constantes, entonces
Pr( xT − cT ≥ ε ) ≤ ε −2 E[( xT − cT ) 2 ]
var( X T ) c
Pr[ X T − µT ≥ ε ] ≤ ≤ (1.47)
ε2 Tε 2
En este caso tenemos que cuando T tiende a infinito el lado derecho de la ecuación
(1.47) converge a cero y como la probabilidad no puede ser negativa, entonces se
demuestra que el término descrito converge el cero.
Teorema 8. Markov´s
Teorema 9. Kolmogorov´s
Sea X=
T T −1ΣTi =1 X i y µ=
T T −1ΣTi =1 µi , y además se define Z=
T X T − µT . Una condición
p
necesaria y suficiente para que se cumpla WLLN, debe ocurrir que ZT → 0 y que
0.
lim E[ ZT2 /(1 + ZT2 )] =
T →∞
Teorema 10.
a.s.
Si las X t ´s son IID y E ( X t ) = µ , entonces ( X T − µ ) → 0 .
6
Para la demostración se puede utilizar la desigualdad de Markov. Sea y T una variable
aleatoria que toma valores no negativos y κ una constante positiva, entonces,
Pr( y T ≥ κ ) ≤ κ −1 E ( y T )
Teorema 11.
Teorema 12.
a.s.
Si las X t ´s son IID, entonces una condición necesaria y suficiente para ( X T − µT ) → 0 es
que E X i − µi < ∞ para todo i .
∞ ∞
lim ∫ g ( x)dFT ( x) = ∫ g ( x)dF ( x) (1.48)
T →∞ −∞ −∞
∞ ∞
lim ∫ g ( x) fT ( x)dx = ∫ g ( x) f ( x)dx (1.49)
T →∞ −∞ −∞
X T − E ( X T ) ST − E ( ST )
=ZT = (1.50)
var( X T ) var( ST )
d
Donde se ha definido que ZT → N (0,1) .
E( XT ) = p =
var( X T ) T −1 p (1 − p )
var( X T ) p (1 − p )
Pr( X T − p > ε ) ≤ = 2
ε 2
ε T
p (1 − p )
lim Pr( X T − p > ε ) ≤ lim =
0
T →∞ T →∞ ε 2T
XT − p T ( X T − p) d
= → N (0,1)
var( X T ) p (1 − p )
7
Se debe notar que en el promedio de variables aleatoria Bernoulli se pierde el orden en que salieron los
ceros y unos, por lo tanto, la distribución de este promedio es la distribución conjunta de variables
aleatorias Bernoulli sin orden, que corresponde a la descripción de la distribución de una Binomial.
Sin embargo, el lector debe notar que esto se cumplirá siempre y cuando el
número de observaciones sea sustancialmente grande, es decir que con 30 ó 50
observaciones posiblemente no pudríamos concluir lo mismo.
(ΣTi=1 ρi ) 2
lim =0
T →∞ (ΣT σ 2 ) 2 + δ
i =1 i
∑ ∫ ( x − µi ) 2 dFi ( x) =
1 T
lim 0
T →∞ sT2 i =1 x − µi > ε ST
Teorema 15.
T [ g ( z T ) − g ( µ )] →
D
N [0, ( g ′( µ )) 2 σ 2 ] (1.43)
g ( z T ) ≅ g ( µ ) + g ′( µ )( z T − µ ) (1.44)
Estos resultados sugieren que los momentos de la distribución límite son los límites
ordinarios de los momentos de la distribución de la muestra finita. Esto es casi siempre
cierto, pero no necesariamente tiene por que ser así. Es posible construir ejemplos en los
que los momentos para muestras finitas ni siquiera existen, mientras que los momentos
de la distribución límite están bien definidos. Incluso en esos casos, generalmente es
posible encontrar la media y la varianza de la distribución límite.
Las distribuciones límite, así como los límites en probabilidades, pueden simplificar de
manera importante el análisis de algún problema concreto. Algunos resultados en los que
se combinan ambos tipos de convergencia se presentan a continuación.
APÉNDICE: TABLA
z0 1 1
Forma funcional: Pr( Z ≤ z0 ) = ∫
Φ ( z0 ) =
−∞
2π
exp s 2 ds
2
Forma gráfica:
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
APÉNDICE: USO
z
Pr( Z ≤ z ) =
Φ( z ) =∫ φ (s)ds −∞
Y que
z2 z2 z2
Pr( z1 ≤ Z ≤ z2=
) ∫ z1
φ ( s )ds= ∫−∞
φ ( s )ds − ∫ φ ( s )ds= Pr( Z ≤ z2 ) − Pr( Z ≤ z1 )
−∞
Pr( z1 ≤ Z ≤ z2 ) =
0.9
Pero como la distribución normal estándar es simétrica con respecto a cero, tenemos
z2 = − z1 , de esta forma las probabilidades antes mencionadas se pueden descomponer de
la siguiente forma:
Pr( z1 ≤ Z ≤ z2=
) Pr( Z ≤ z2 ) − Pr( Z ≤ z1=
) 0.9
=
Pr( Z ≤ z2 ) 0,95 =
Pr( Z ≤ z1 ) 0.5
Claramente se puede apreciar que la resta genera el valor 0.9, que interpretaremos como
el conjunto de valores que posee un 90% de representatividad.
Ahora podemos calcular cada probabilidad por separado, y encontrar que son iguales en
modulo, por lo tanto, primero determinaremos el valor de z2 .
Esta primera columna representa el valor de z con un decimal (el primero), mientras
que el segundo decimal corresponde al de la primera fila. Por lo tanto, nosotros
buscamos la probabilidad de 0.95, la cual se encuentra marcada por un circulo en el
cuadro a. Pero, al extender una flecha en forma horizontal encontramos el número 1,6
que corresponderían al valor de z2 hasta el primer decimal, sin embargo, al extender
una flecha en forma vertical, nos encontramos con el valor 0,05 que representa el
segundo decimal de z2 , esto nos dice que el valor completo de z2 es 1,65.
Este último resultado concuerda con el hecho de que la distribución normal estándar es
simétrica.
Entonces, podemos concluir que el rango que tiene un 90% de representatividad en una
distribución normal se encuentra dentro [−1, 65;1, 65] .
Suponga que cuenta con una muestra aleatoria de tamaño N obtenida de una población
que posee una distribución normal con media µ y varianza σ 2 , la cual informa que el
40% de las observaciones son menores a 20 y el 45% son menores a 35. Estime en forma
aproximada el valor de la media y de la varianza.
Para poder realizar este cálculo debemos suponer que la muestra es lo suficientemente
grande como para ser representativa de la población, por lo tanto, el enunciado anterior
se puede expresar en términos estadísticos como:
También sabemos que las probabilidades de variables normales pueden ser llevada a una
normal estándar, es decir,
Sin embargo, al hacer este cambio hemos igualado la probabilidad de una normal
cualquiera a la probabilidad de una normal estándar. De esta manera para la probabilidad
de 0.4 el valor de eje ( z ) se encuentra aproximadamente en el valor de -0.25, según se
muestra en el círculo del cuadro c.
Esto quiere decir que Pr( Z < −0, 25) 0, 4 , por lo tanto, al igualar estas dos
probabilidades tenemos que:
1
σ (20 − µ ) =
−0, 25
De la cual se desprende nuestra primera ecuación µ − 0, 25σ =20 , pero se hace necesaria
una segunda ecuación, ya que tenemos dos incógnitas. Esta segunda ecuación la podemos
generar de la segunda probabilidad, de manera que:
y2 − y1
=y ( x − x1 ) + y1
x2 − x1
Por lo tanto, de la tabla sabemos que para un valor de eje igual a -0,12 la probabilidad
acumulada es 0.4522, mientras que para un valor de eje igual -0,13 la probabilidad
acumulada respectiva es igual 0.4483 (ver cifras encerradas en un cuadrado, en el
cuadro c), que al ser utilizado como puntos, hace que la recta quede expresada como
−0,13 + 0,12
=y ( x − 0, 4522) + 0,12
0, 4483 − 0, 4522
Entonces, podemos concluir que para una probabilidad acumulada de 0.45, el valor de
eje corresponde a -0,126.
De esta forma al igual las probabilidades tenemos nuestra segunda ecuación, es decir,
σ
1
(35 − µ ) =
−0,126
µ − 0,126σ =
35
µ − 0, 25σ =
20
µ − 0,126σ =35
Que una vez resuelto nos entrega que un valor aproximado de la media es 50.24 y para
la desviación estándar es 120.97, con lo cual podemos señalar que la varianza
corresponde a 14633.74.
~1~
Universidad de Chile Otoño 2020
Economía & Negocios
Respuesta Incorrecta:
Falso. La distribución Poisson se diferencia de la distribución Exponencial en que la primera
se utiliza para modelar variables del tipo discretas en espacios continúos, y la segunda es para
variables del tipo continúas en espacios discretos, por lo tanto, dependiendo de la variable
que se intente analizar, se debe seleccionar la distribución correcta para trabajar en el
experimento.
Lo importante de destacar en este ejemplo es que mientras en la primera responden
efectivamente lo que pide el comente, argumentando cuál es la respuesta correcta de acuerdo
con el enunciado. En la segunda respuesta solo se dedican a mencionar la materia, la cual,
si bien es correcta, no se observa un razonamiento al problema que se plantea en el
enunciado, por lo cual esa respuesta estaría mala y no se asignaría puntaje.
COMENTES.
Parte i. En el proceso de Agrega Administrativo se observaron graves problemas en la
atención de alumnos, las autoridades quieren evitar esto para las próximas instancias de este
mismo proceso, y saben que su mayor deficiencia es en el tiempo de atención que se demoran
por cada estudiante, por lo que se proponen como objetivo atender a través de
videoconferencias de webex, y a lo menos a 15 personas por hora, si se exceden de ese
tiempo, los encargados de atención no recibirán un bono que se les entregará a los que
realmente cumplan con esa cantidad de alumnos mínima. Adicionalmente, saben que la mejor
distribución que representa su problema es la Exponencial. Comente y recuerde ser breve.
Comente y recuerde ser breve.
Respuesta:
Falso. Dado que tal como el enunciado dice, la probabilidad buscada que se plantea como
objetivo está definida según la variable cantidad de alumnos atendidos por unidad de tiempo,
que es una variable discreta en un espacio continuo, por lo que la distribución que mejor
representa el problema es Poisson.
Parte ii. Un grupo de amigos decidió tomar el ramo de Contabilidad con un nuevo profesor
que se incorporó al área este semestre y que nunca había hecho clases de ese ramo en la
facultad. Este grupo de amigos está interesado en saber si el profesor realiza controles
sorpresa en sus clases o no, o sino para no conectarse a las clases, ya que su bloque de cátedra
es a las 8:00 am. Para resolver su problema tomaron de base los otros ramos en los que el
profesor ha hecho clases en los últimos semestres, y decidieron modelar su problema con la
distribución Uniforme. Comente y recuerde ser breve.
Respuesta:
Falso. El grupo de amigos está modelando mal el problema al escoger la distribución
Uniforme para su variable, ya que esta es una variable dicotómica que toma el valor 1 si el
profesor realiza controles sorpresa en el ramo i_ésimo, y el valor 0 en el caso contrario. Por
lo tanto, la distribución que corresponde según el problema presentado es la distribución
Bernoulli.
~2~
Universidad de Chile Otoño 2020
Economía & Negocios
Parte iii. Suponga se ve enfrentado a un conjunto de variables aleatorias Bernoulli, que son
independientes entre sí, y además cada una de ellas posee el mismo parámetro p (probabilidad
de ser igual a uno). Sin embargo, si no se conoce el orden en que salieron estas variables
aleatorias, la distribución conjunta de ellas debería ser una Binomial y no otra Bernoulli.
Comente y recuerde ser breve.
Respuesta:
Verdadero. La distribución Binomial es una función de distribución conjunta de variables
Bernouilli, todas independientes e idénticamente distribuidas, sin embargo, el elemento
adicional es que el orden en que ocurren los eventos no hace diferencia entre los eventos, por
ejemplo, dos caras y un sello tienen la misma probabilidad que un sello y dos caras, si cada
uno de estos tres eventos tiene la misma probabilidad de ser cara. Por lo tanto, es correcto
indicar que la distribución adecuada es una Binomial y no Bernoulli.
Repaso breve.
Recordemos las propiedades de la esperanza y varianza, donde k es una constante:
𝐸[𝑥+𝑘]=𝐸(𝑥)+𝑘
𝐸[𝑘𝑥]=𝑘𝐸(𝑥)
𝐸[𝑥+𝑦]=𝐸(𝑥)+𝐸(𝑦)
𝑉[𝑥+𝑘]=𝑉(𝑥)
𝑉[𝑘𝑥]=𝑘2𝑉(𝑥)
𝑉[𝑥±𝑦]=𝑉(𝑥)+𝑉(𝑦) ±2𝐶𝑜𝑣(𝑥,𝑦)
PROBLEMA 1.
Juan es un alumno de la FEN que está muy preocupado acerca de la nueva modalidad de
clases que se está implementando este semestre en la facultad. A él le preocupa mucho
mantener buenas notas en sus ramos, dado que a futuro le gustaría postular a ciertas becas
para poder estudiar un postgrado en el extranjero. Es por ello, que está analizando
profundamente si tomar este semestre uno de los ramos más exigentes de su carrera, en los
que además sabe que por lo general los promedios del ramo son bastante malos.
Sabe que en este ramo el promedio de notas es de 3,4, con una varianza de 1,5 puntos. Y solo
tomará el curso de manera online este semestre, si puede estar seguro, con una probabilidad
de al menos 75% de que podrá aprobar el ramo con una nota mayor a 5,0.
Parte i. Resuelva la problemática planteada y determine cuál debe ser la decisión a tomar.
Respuesta:
Variable:
𝑥: 𝑁𝑜𝑡𝑎 𝑓𝑖𝑛𝑎𝑙 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑐𝑢𝑟𝑠𝑜
Donde 𝑋 ~𝑁(3,4 ; 1,5). Esto se lee como: La variable x sigue una distribución normal con
media 3,4 y varianza 0,5.
~3~
Universidad de Chile Otoño 2020
Economía & Negocios
Criterio de decisión:
Si 𝑃𝑟(𝑥 > 5,0) ≥ 0,75 → 𝑇𝑜𝑚𝑎𝑟á 𝑒𝑙 𝑟𝑎𝑚𝑜 𝑒𝑠𝑡𝑒 𝑠𝑒𝑚𝑒𝑠𝑡𝑟𝑒
Si 𝑃𝑟(𝑥 > 5,0) < 0,75 → 𝑁𝑜 𝑡𝑜𝑚𝑎𝑟á 𝑒𝑙 𝑟𝑎𝑚𝑜 𝑒𝑠𝑡𝑒 𝑠𝑒𝑚𝑒𝑠𝑡𝑟𝑒
Desarrollo:
Tenemos,
𝑃𝑟(𝑥 > 5,0)
Estandarizamos la expresión para poder buscar la probabilidad en la tabla de distribución
normal estándar:
𝑃𝑟(𝑥 > 5,0)
Restamos la media de 𝑥 = 𝑀(𝑥),
𝑃𝑟(𝑥 − 𝑀(𝑥) > 5,0 − 3,4)
~4~
Universidad de Chile Otoño 2020
Economía & Negocios
PROBLEMA 2.
En este nuevo inicio de semestre la Facultad de Negocios de la Universidad de Santiago ha
decidido lanzar una modalidad online para que sus alumnos puedan continuar “normalmente”
con sus clases. Pero dada esta nueva forma de llevar a cabo sus clases han decidido adaptar
igualmente la escala de notas de las evaluaciones, respaldando su decisión en datos de otros
países donde esta modalidad 100% online se aplica hace varios años, y las evaluaciones
utilizan esta escala de notas que la facultad pretende instaurar.
Esta nueva escala de notas va de 0 a 100 puntos, con un puntaje mínimo de aprobación de 60
puntos. A diferencia de la escala anterior, en la que las notas van de 1,0 a 7,0, con una nota
mínima de aprobación de 4,0.
Dado el gran paso que está dando la facultad, y no queriendo realizar un cambio tan brusco,
decidieron aplicar esta nueva escala de notas solo en el ramo Métodos Matemáticos I durante
este primer semestre del año 2020. Encontrando al final de este que, al analizar las
calificaciones obtenidas por los alumnos, las cuales siguen una distribución normal, se
observaron los siguientes parámetros de media y varianza: 𝜇 = 59, 𝜎 2 = 27.
Estos datos obtenidos decidieron compararlos con las calificaciones de mismo ramo, pero
del primer semestre del año 2019, donde dichas calificaciones seguían la misma distribución
normal, con parámetros de media y varianza de: 𝜇 = 3.2, 𝜎 2 = 1.1.
La facultad ha decidido que, si con esta nueva escala de notas, se observó un aumento con
relación a la probabilidad de que los alumnos aprueben el curso en una magnitud de al menos
20% con respecto al año anterior, entonces mantendrá y aplicará la nueva escala de notas en
todos sus otros ramos en los semestres siguientes.
Parte i. Resuelva la problemática planteada y determine cuál será la decisión que deberá
tomar la Facultad en cuanto a la escala de nota a aplicar.
Respuesta:
Variables:
𝑥: 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑎ñ𝑜 2020 → 𝑋~𝑁(59; 27)
𝑦: 𝐶𝑎𝑙𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑜𝑏𝑡𝑒𝑛𝑖𝑑𝑎 𝑒𝑛 𝑒𝑙 𝑎ñ𝑜 2019 → 𝑌~𝑁(3.2; 1.1)
Criterio de Decisión:
Si 𝑃𝑟(𝑥 ≥ 60) − 𝑃𝑟(𝑦 ≥ 4,0) ≥ 0,2 → 𝑆𝑒 𝑎𝑝𝑙𝑖𝑐𝑎𝑟á 𝑙𝑎 𝑛𝑢𝑒𝑣𝑎 𝑒𝑠𝑐𝑎𝑙𝑎 𝑑𝑒 𝑛𝑜𝑡𝑎𝑠
Si 𝑃𝑟(𝑥 ≥ 60) − 𝑃𝑟(𝑦 ≥ 4,0) < 0,2 → 𝑆𝑒 𝑚𝑎𝑛𝑡𝑒𝑛𝑑𝑟á 𝑙𝑎 𝑎𝑛𝑡𝑖𝑔𝑢𝑎 𝑒𝑠𝑐𝑎𝑙𝑎 𝑑𝑒 𝑛𝑜𝑡𝑎𝑠
Desarrollo:
En primer lugar, para la variable 𝑥 tenemos,
𝑃𝑟(𝑥 ≥ 60)
Estandarizamos la expresión para poder buscar la probabilidad en la tabla de distribución
normal estándar, por lo que le restamos la media (𝜇) y dividimos por la desviación estándar
(𝜎), quedando de la siguiente manera:
~5~
Universidad de Chile Otoño 2020
Economía & Negocios
𝑥 − 𝜇 60 − 59
𝑃𝑟 ( ≥ ) = 𝑃𝑟(𝑍 ≥ 0,19) = 𝑃𝑟(𝑍 ≤ −0,19) = 42,5%
𝜎 √27
𝑃𝑟(𝑥−𝜇)
Donde se hicieron los reemplazos, sabiendo que 𝜎 = 𝑍, y además, encontrando el valor
de la probabilidad buscada con la fórmula de Excel anteriormente descrita
DISTR.NORM.ESTAND.N(-0,19;VERDADERO), donde se sabe que dicha fórmula por sí
sola arroja la probabilidad de la cola izquierda 𝑃𝑟(𝑍 < 𝑧0 ), por lo que si hubiéramos puesto
el estadístico 1,18, tendríamos que haber trasformado el resultado restándolo del 100%, para
encontrar la cola derecha, es decir, 𝑃𝑟(𝑍 > 𝑧0 ) = 1 − 𝑃𝑟(𝑍 < 𝑧0 ).
Pero dado que la distribución normal estándar es simétrica, sabemos que la probabilidad
acumulada en la cola izquierda hasta -0,19 es lo mismo que la probabilidad acumulada en la
cola derecha desde 0,19, por lo tanto, al indicar en la fórmula el estadístico en negativo, se
encontró inmediatamente el resultado buscado, sin necesidad de hacer nuevamente la
trasformación realizada en el ejercicio anterior.
Ahora realizamos el mismo desarrollo realizado anteriormente, pero para la variable 𝑦, donde
tenemos que,
𝑃𝑟(𝑦 ≥ 4,0)
Y al estandarizar nos queda,
𝑦 − 𝜇 4,0 − 3,2
𝑃𝑟 ( ≥ ) = 𝑃𝑟(𝑍 ≥ 0,76) = 𝑃𝑟(𝑍 ≤ −0,76) = 22,4%
𝜎 √1,1
Finalmente, debemos obtener la diferencia entre ambas probabilidades, donde encontramos
lo siguiente,
𝑃𝑟(𝑥 ≥ 60) − 𝑃𝑟(𝑦 ≥ 4,0) = 𝑃𝑟(𝑍 ≥ 0,19) − 𝑃𝑟(𝑍 ≥ 0,76)
42,5% − 22,4% = 20,1%
Conclusión:
Por lo tanto, dado que la probabilidad de aprobar el ramo analizado para el primer semestre
año 2019 era de 22,4%, y para el año 2020 era de 42,5%, observándose un aumento de 20,1%.
La facultad decide que la nueva escala de notas favorece en cuanto a la aprobación de los
alumnos, y decide aplicar esta nueva modalidad en los próximos semestres y para todos sus
ramos.
Nota adicional: Tener presentes que las funciones de distribución de probabilidades
analizadas durante esta ayudantía fueron solo funciones conocidos, pero pueden existir otras
no conocidas adicionales a las vistas.
~6~
Universidad de Chile Otoño 2020
Economía & Negocios
Parte ii. Para utilizar el Teorema Central del Límite, se deben cumplir dos supuestos bases
antes de comenzar con el procedimiento, estos son que se cumple que la muestra es
Independiente e Idénticamente Distribuida (IID) y, además, contamos con un número
suficientemente grande de observaciones en la muestra. Teniendo conocimiento de esos dos
supuestos, podemos comenzar la estimación. Comente y recuerde ser breve.
Respuesta:
Falso. Si bien esos dos supuestos mencionados son importantes y primordiales para la
estimación, también debemos conocer el comportamiento de los datos, es decir, la función
de distribución que siguen los datos, ya que si no conocemos la distribución que sigue el
problema, entonces no podríamos estandarizar.
Parte iii. Un estudiante de Estadística II está estudiando para su primer control del curso, y
en uno de los controles de semestres anteriores que está revisando se encontró con una
distribución del tipo Bernoulli, pero él no sabe cómo resolver el problema, ya que la materia
que les han pasado habla sobre un teorema para estandarizar, pero según lo que él entendió,
este no aplica para variables dicotómicas. Comente y recuerde ser breve.
Respuesta:
Falso. El estudiante está equivocado, ya que el Teorema Central de Límite se puede utilizar
para estandarizar el promedio de cualquier de distribución, incluso aquellas que poseen
variables dicotómicas como la Bernoulli, mientras que cumplan con sus supuestos bases (IID,
y muestra lo suficientemente grande.
~1~
Universidad de Chile Otoño 2020
Economía & Negocios
PROBLEMA 1.
La reconocida empresa FENIANOS S.A. está viéndose tremendamente afectada por la
disminución en sus ventas debido a esta crisis sanitaria mundial que se está viviendo. Es por
ello que, se está planteando sumarse a las ofertas que realizan las demás empresas en el
famoso evento Red Friday que se realizará a mitad de año. Pero ante el llamativo número de
reclamos que reciben las empresas que participan en este evento, están dudando de su
participación. Su decisión estará sujeta a que, si 20 o más empresas reciben reclamos con una
probabilidad de al menos 70%, entonces no participará en la próxima instancia del evento.
Esto considerando que en la versión anterior de este evento el 10% de las 190 empresas que
participaron recibieron reclamos.
Parte i. Evalué cual debería ser la decisión que tome esta empresa.
Respuesta:
Variable:
La variable relevante en este ejercicio corresponde a X que es una variable dicotómica que
tomará el valor 0 cuando la empresa i-esima no tenga reclamos y valor 1 cuando ocurra lo
contrario. Esta variable sigue una distribución Bernoulli. Además, debemos asumir que las
empresas se comportan según el supuesto de IID.
Criterio de Decisión:
El criterio de decisión es el siguiente:
Si Pr(∑190
𝑖=1 𝑥𝑖 ≥ 20) ≥ 0,7 → 𝐿𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 𝑛𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎 𝑑𝑒𝑙 𝑅𝑒𝑑 𝐹𝑟𝑖𝑑𝑎𝑦
Si Pr(∑190
𝑖=1 𝑥𝑖 ≥ 20) < 0,7 → 𝐿𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 𝑠í 𝑝𝑎𝑟𝑡𝑖𝑐𝑖𝑝𝑎 𝑑𝑒𝑙 𝑅𝑒𝑑 𝐹𝑟𝑖𝑑𝑎𝑦
Desarrollo:
Calculamos el promedio y varianza de 𝑀(𝑥𝑖 ):
190
∑190
𝑖=1 𝑥𝑖 1 𝑝
𝐸(𝑀(𝑥𝑖 )) = 𝐸 ( )= ∑ 𝐸(𝑥) = 190 ⋅ = 𝑝 = 0,1
190 190 190
𝑖=1
190
∑190
𝑖=1 𝑥𝑖 1 𝑝(1 − 𝑝) 0,1(1 − 0,1)
𝑉(𝑀(𝑥𝑖 )) = 𝑉 ( )= 2
∑ 𝑉(𝑥) = 190 ⋅ = = 0,0005
190 190 1902 190
𝑖=1
Y estandarizamos:
190
∑190
𝑖=1 𝑥𝑖 20
Pr (∑ 𝑥𝑖 ≥ 20) = Pr ( ≥ ) = Pr(𝑀(𝑥) ≥ 0,11)
190 190
𝑖=1
~2~
Universidad de Chile Otoño 2020
Economía & Negocios
Conclusión:
Por lo tanto, dado que la probabilidad obtenida es menor al 70%, la empresa sí participará en
el Red Friday.
PROBLEMA 2.
Tras múltiples ataques informáticos que ha sufrido un conocido banco de Chile en los últimos
años, la Gerente de Ciberseguridad le ha encomendado a usted realizar un modelamiento
estadístico para cuantificar la información que el banco está perdiendo día a día, y así de esta
forma poder determinar si resulta necesaria la compra de una supercomputadora (mainframe)
de encriptación de datos para aumentar la seguridad, y así poder evitar la masiva fuga de
clientes que se está produciendo por minuto debido a estos sucesos.
De antemano, usted posee unas planillas de datos que muestran 40 registros de los clientes
antes del ciberataque y, además, sabe que el promedio histórico de fuga es de 8 clientes por
minuto. Dado lo anterior, y considerando por un lado que la decisión de fuga de cada cliente
no está relacionada entre sí, y por otro lado, que el margen de tolerancia de fuga que presenta
el modelo de negocios del Banco, usted sugerirá comprar el mainframe de encriptación
siempre y cuando la probabilidad de que se fuguen en promedio al menos 16 clientes por
minuto sea mayor a 80%.
IND: Asuma que 40 es un número suficientemente grande y que Pr(𝑍 < 0,9) = 82%.
Respuesta:
Variable:
La variable para este ejercicio es:
𝑥: 𝐶𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 𝑓𝑢𝑔𝑎𝑑𝑜𝑠 𝑝𝑜𝑟 𝑚𝑖𝑛𝑢𝑡𝑜.
Esta variable sigue una distribución Poisson, ya que la cantidad de clientes se expresa en el
rango de los números naturales (variable discreta) y, asimismo, se mueve dentro de un
intervalo de tiempo (continuo).
Criterio de Decisión:
El criterio de decisión es:
∑40
𝑖=1 𝑥𝑖
Si Pr ( 40
≥ 16) > 0,8 → 𝐿𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑖𝑏𝑒𝑟𝑠𝑒𝑔𝑢𝑟𝑖𝑑𝑎𝑑 𝑐𝑜𝑚𝑝𝑟𝑎𝑟á 𝑒𝑙 𝑚𝑎𝑖𝑛𝑓𝑟𝑎𝑚𝑒.
∑40
𝑖=1 𝑥𝑖
Si Pr ( 40
≥ 16) ≤ 0,8 → 𝐿𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑖𝑏𝑒𝑟𝑠𝑒𝑔𝑢𝑟𝑖𝑑𝑎𝑑 𝑁𝑂 𝑐𝑜𝑚𝑝𝑟𝑎𝑟á 𝑒𝑙 𝑚𝑎𝑖𝑛𝑓𝑟𝑎𝑚𝑒.
~3~
Universidad de Chile Otoño 2020
Economía & Negocios
Para utilizar el TCL, debemos asegurar el criterio IID. En este caso, la decisión de fuga de
cada cliente resulta independiente entre sí, ya que la decisión de abandonar o no el banco es
independiente entre cada uno de los clientes, y además son idénticamente distribuidas por
cuanto no se evidencia una distorsión ni en la escala de medición ni antes ni después del
ciberataque. Por lo tanto, es posible aplicar TCL y estandarizar la media muestral a una
normal estándar.
Desarrollo:
Calculamos el promedio y varianza de 𝑀(𝑥𝑖 ):
40
∑40
𝑖=1 𝑥𝑖 1 𝜆
𝐸(𝑀(𝑥𝑖 )) = 𝐸 ( )= ∑ 𝐸(𝑥) = 40 ⋅ =𝜆=8
40 40 40
𝑖=1
20
∑40
𝑖=1 𝑥𝑖 1 𝜆 8
𝑉(𝑀(𝑥𝑖 )) = 𝑉 ( )= ∑ 𝑉(𝑥) = 40 ⋅ = = 0,2
40 402 402 40
𝑖=1
Aplicando TCL:
∑40
𝑖=1 𝑥𝑖 𝑀(𝑥𝑖 ) − 𝐸(𝑀(𝑥𝑖 )) 16 − 8
Pr ( ≥ 16) = Pr(𝑀(𝑥) ≥ 16) = Pr ≥
40 √0,2
√𝑉(𝑀(𝑥𝑖 ))
( )
40
∑𝑖=1 𝑥𝑖
Pr ( ≥ 16) = Pr(𝑍 ≥ 17,89)
40
Para encontrar la probabilidad asociada a ese estadístico se puede tomar 3 caminos: pueden
utilizar Excel para su cálculo, utilizando la función
DISTR.N.ESTAND.N(17,89;VERDADERO), el cual nos arroja un valor cercano a 1, pero
esta nos entrega la probabilidad acumulada desde la izquierda, por lo que debemos realizar
una transformación.
Pr(𝑍 < 17,89) = 0, 9̅ ⇒ Pr(𝑍 ≥ 17,89) = 1 − 0, 9̅ ≈ 0%
Otra opción es buscar la probabilidad en una Tabla de probabilidad Normal Estándar, pero
es difícil encontrar una para un estadístico tan alto. Y el último camino, y el que se debería
utilizar, dado que se cuenta con esa información en el enunciado, es el de utilizar el hint.
Debemos hacer una transformación para poder obtener la probabilidad utilizando el hint,
Pr(𝑧 < 0,9) = 82% ⇒ Pr(𝑧 ≥ 0,9) = 1 − 0,82 = 0,18 = 18%
Ahora, teniendo la probabilidad expresada de la misma manera que nuestro estadístico,
podemos compararlos para concluir.
Pr(𝑧 ≥ 17,89) < [Pr(𝑧 ≥ 0,9) = 18%]
Conclusión:
Por lo tanto, dado que la probabilidad de que se fuguen al menos 16 clientes por minuto es
menor que 80%, el conocido banco de Chile no comprará el mainframe.
~4~
Universidad de Chile Otoño 2020
Economía & Negocios
~1~
Universidad de Chile Otoño 2020
Economía & Negocios
PROBLEMA 1.
Muchos comerciantes del país ya se están preparando para Semana Santa para el próximo
año 2021, dado que el año actual no pudieron realizar todas las ventas que estimaban dada la
contingencia, y se quedaron con inventario guardado.
De acuerdo con la información de los últimos años, ellos saben que, en promedio, cada local
vende 5 ramos y 10 crucifijos por hora.
La señora Marta es una gran artesana y está pensando en juntar sus ahorros y arrendar uno
de estos cotizados locales para el próximo año. Para aconsejarla, usted le sugiere que arriende
el local siempre y cuando la probabilidad de vender al menos 120 ramos en 20 horas sea
mayor a 80%. Suponiendo que ella lo escucha, ¿arrendará el local?
IND: Asuma que 20 es un número suficientemente grande, y Pr(𝑍 < 2) = 0,977.
Respuesta:
Variable:
La variable relevante en este ejercicio corresponde a:
Criterio de Decisión:
El criterio de decisión es el siguiente:
Si Pr(∑20
𝑖=1 𝑥𝑖 ≥ 120) > 0,8 → 𝐿𝑎 𝑠𝑒ñ𝑜𝑟𝑎 𝑀𝑎𝑟𝑡𝑎 𝑎𝑟𝑟𝑖𝑒𝑛𝑑𝑎 𝑒𝑙 𝑙𝑜𝑐𝑎𝑙
Si Pr(∑20
𝑖=1 𝑥𝑖 ≥ 120) ≤ 0,8 → 𝐿𝑎 𝑠𝑒ñ𝑜𝑟𝑎 𝑀𝑎𝑟𝑡𝑎 𝑛𝑜 𝑎𝑟𝑟𝑖𝑒𝑛𝑑𝑎 𝑒𝑙 𝑙𝑜𝑐𝑎𝑙
Desarrollo:
Para utilizar el Teorema Central del Límite, debemos asegurarnos de que la muestra contenga
una cantidad suficientemente grande de observaciones y que éstas sean IID. En el enunciado
se menciona que las 20 observaciones son suficientes. Por otro lado, es esperable que las
ventas entre locales sean independientes, debido a la gran cantidad de personas que asisten,
y se distribuyan con la misma distribución de probabilidades. Por lo tanto, es posible
aproximar el promedio de la variable a una normal estándar.
Calculamos el promedio y varianza de 𝑀(𝑥𝑖 ):
20
∑20
𝑖=1 𝑥𝑖 1 𝜆
𝐸(𝑀(𝑥𝑖 )) = 𝐸 ( )= ∑ 𝐸(𝑥) = 20 ⋅ =𝜆=𝟓
20 20 20
𝑖=1
20
∑20
𝑖=1 𝑥𝑖 1 𝜆 𝟓
𝑉(𝑀(𝑥𝑖 )) = 𝑉 ( ) = 2 ∑ 𝑉(𝑥) = 20 ⋅ 2 =
20 20 20 𝟐𝟎
𝑖=1
~2~
Universidad de Chile Otoño 2020
Economía & Negocios
Y estandarizamos:
20
∑20
𝑖=20 𝑥𝑖 120
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr ( ≥ )
20 20
𝑖=20
20
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr(𝑀(𝑥) ≥ 6)
𝑖=20
20
𝑀(𝑥) − 𝐸(𝑀(𝑥𝑖 )) 6−5
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr ≥
𝑖=20 √𝑉(𝑀(𝑥𝑖 )) √5
( 20 )
20
Pr ( ∑ 𝑥𝑖 ≥ 120) = Pr(𝑍 ≥ 2)
𝑖=20
Debemos hacer una transformación, para poder obtener la probabilidad utilizando el hint
PROBLEMA 2.
Dada la contingencia actual, un amigo suyo quedó sin empleo y le ofrecieron trabajo en un
evento de una reconocida farmacia, el trabajo consiste en disfrazarse de Dr. Simi y bailar. Su
amigo no sabe si aceptar o no, porque si bien la paga es bastante buena, sabe que usando esos
trajes puede sufrir insolación si hace mucho calor, o cualquier otro problema debido a las
temperaturas a las que se podría exponer ahora que se está acercando el invierno.
En los últimos 20 años la temperatura para estas fechas, específicamente para el día Domingo
19 de abril que es el día del evento, ha fluctuado entre los 23 y 29 grados Celsius,
considerando esto, su amigo solo aceptará el trabajo si la temperatura promedio es menor a
los 27 grados, con al menos un 90% de probabilidad. En el caso contrario, no aceptará el
trabajo porque sabe que no podrá soportar las temperaturas utilizando el traje.
Parte i. Plantee el problema y justifique adecuadamente cual será la decisión a tomar.
Respuesta:
Variable:
La variable relevante en este ejercicio corresponde a
𝑥: 𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑í𝑎 19 𝑑𝑒 𝑎𝑏𝑟𝑖𝑙
Esta variable sigue una distribución Uniforme. Además, debemos asumir que las
temperaturas se comportan IID.
~3~
Universidad de Chile Otoño 2020
Economía & Negocios
Criterio de Decisión:
El criterio de decisión es el siguiente:
Desarrollo:
Calculamos el promedio y varianza de 𝑀(𝑥𝑖 ):
(a + b) 23 + 29
𝐸(𝑀(𝑥)) = 𝐸(𝑥) = = = 𝟐𝟔
2 2
Y estandarizamos:
𝑀(𝑥) − 𝐸(𝑀(𝑥)) 27 − 26
Pr(𝑀(x) < 27) = Pr < = Pr (𝑍 < 2,58)
√𝑉(𝑀(𝑥𝑖 )) √0,15
( )
~4~
Universidad de Chile sábado 9 de mayo de 2015
Economía & Negocios PAUTA CONTROL 3
Página 1
Universidad de Chile sábado 9 de mayo de 2015
Economía & Negocios PAUTA CONTROL 3
debe distribuir la función de densidad, ni menos que ésta deba cumplir con el supuesto de
simetría.
__________________________________________________10 puntos___________
3
f ( x) x2
8.000
Respuesta:
Lo que debe averiguar su amigo es el límite superior que puede alcanzar la variable.
Si definimos como q el peso máximo y cero el peso mínimo que puede tomar la variable, nos
queda:
q
3
8.000 x dx 1
2
0
q
3
8.000 0
x 2 dx 1
3 x 3 q
1
8.000 3 0
3 q 3
1
8.000 3
q 3 8.000
q 20
Página 2
Universidad de Chile sábado 9 de mayo de 2015
Economía & Negocios PAUTA CONTROL 3
Respuesta:
Dado que lo que se busca es que el valor esperado en pesos, se debe convertir la variable X de
peso en kg a peso en valor de dinero.
Si E ( X ) 1.000 100 200.000 , comprara las máquinas de juegos.
7,6
E ( X ) 1.000
Si 100 200.000 , NO comprara las máquinas de juegos.
7,6
__________________________________________________10 puntos___________
E ( x) x f ( x)dx
xE
20
3
E ( x) x 8.000 x
2
dx
0
20
3 1 4
E ( x) x
8.000 4 0
3 20 4
E ( x)
8.000 4
E ( x) 15
__________________________________________________5 puntos____________
Las máquinas terminan el día con un peso estimado en monedas de 15 kg, esto llevado a pesos
nos da aproximadamente $197.368, por lo cual, no compraría las máquinas de juegos.
__________________________________________________5 puntos____________
Parte iii (20 puntos)
El vendedor le indica a su amigo que hay un modelo de tragamonedas diferente, que utiliza
monedas de $500 (6,5 gramos cada una). Ésta no se encuentra a la venta, sólo se puede
arrendar y su valor diario es de $400.000. Su amigo dice que si un 95% de las veces se supera
con la ganancia el precio del arriendo, él procederá a arrendar esta máquina ¿Cuál es la decisión
de su amigo?
Página 3
Universidad de Chile sábado 9 de mayo de 2015
Economía & Negocios PAUTA CONTROL 3
Respuesta:
Para poder calcular el límite de la probabilidad que se necesita, debemos convertir el valor del
arriendo diario en peso en kg. de las monedas de $500, lo cual queda de la siguiente forma:
400.000
peso 6,5 5,2kg
500
5, 2
3
Pr( X 5,2) 1 Pr( X 5,2) 1 8.000
x 2 dx
0
5, 2 5, 2
3 3
x 2 dx x
2
dx
0
8.000 8.000 0
5, 2 5, 2
3 3 x3
8.000
x 2 dx
8.000 3
0 0
5, 2
3 140,608
8.000
x 2 dx
8.000
0,017576
0
Página 4
Universidad de Chile miércoles 10 de junio de 2015
Economía & Negocios PAUTA CONTROL 4
Página 1
Universidad de Chile miércoles 10 de junio de 2015
Economía & Negocios PAUTA CONTROL 4
RL Multas ($)
0%-1% $0
1%-8% $ 10
8%-15% $ 20
15% o 30% $ 40
30% o más $ 100
Página 2
Universidad de Chile miércoles 10 de junio de 2015
Economía & Negocios PAUTA CONTROL 4
Respuesta:
1 si es compatible
x
0 si no es Compatible
1 6
i) P( x 2) 1 p i 1 p 6i
i 0 i
6 6
ii) P( x 2) p i 1 p 6i
i2 i
1 6 6 6
P( x 2) 1 p i 1 p 6 i 1 0,40 0,66 0,41 0,65
i 0 i 0 1
6 6
P( x 2) p i 1 p 6i
i2 i
6 6 6 6 6
P( x 2) 0,42 0,64 0,43 0,63 0,44 0,62 0,45 0,61 0,46 0,60
2 3 4 5 6
Página 3
Universidad de Chile miércoles 10 de junio de 2015
Economía & Negocios PAUTA CONTROL 4
Con ambas expresiones debemos llegar al mismo resultado, el cual es 76,7%, incumpliendo
con el protocolo establecido por la CTOT. Dada la escala de multas (80%-76,7% =3,3%), el
establecimiento médico debería pagar $10.000.000.
_________________________________________________5 puntos ______
6
P( x 0) 0,4 0,6 4,7%
0 6
0
La probabilidad de que ningún pulmón sea compatible es 4,7%, por tanto, la probabilidad de
que al menos 1 órgano sea compatible corresponde a 100%-4,7% = 95,3%, superando el 90%
exigido por el cirujano, por lo que, se llevaría a cabo la operación
________________________________________________6 puntos ______
Página 4
Universidad de Chile sábado 27 de junio de 2015
Economía & Negocios PAUTA EXAMEN
Página 1
Universidad de Chile sábado 27 de junio de 2015
Economía & Negocios PAUTA EXAMEN
IND: Considere que la muestra cumple con los supuestos típicos para resolver su problema.
Respuesta:
En este caso, para que la autoridad instalé un semáforo, más del 5% de la veces, el tiempo
promedio entre accidente es menor a 12 horas. Si suponemos que X es el tiempo entre
accidentes, nuestra variable X será una Exponencial. Al usar la semana como la unidad de
tiempo, tenemos que lamba puede ser equivalente al inverso de beta. Esto significa que:
1
E ( M ( X ))
10
V (X ) 2 1 1 1
V ( M ( X )) 2
n n 10 50 5000
Teniendo en cuenta que 12 horas son 1/14 semanas, nuestro problema queda definido por:
Pr(M ( X ) 1 / 14) 0,05 La autoridad instalará un semáforo.
Pr(M ( X ) 1 / 14) 0,05 La autoridad NO instalará un semáforo.
________________________________________________________5 puntos ____
Dado que sabemos que 50 es un número lo suficientemente grande y que la muestra es IID, el
cálculo de la probabilidad buscada será:
1 / 14 1 / 10
Pr(M ( X ) 1 / 14) Pr Z Pr(Z 2,02) 0,0217
1 / 5000
________________________________________________________5 puntos ____
Por lo tanto, como la probabilidad es menor al riesgo admisible, la autoridad no debe tomar
medidas.
_________________________________________________________5 puntos ____
Página 2
Universidad de Chile sábado 27 de junio de 2015
Economía & Negocios PAUTA EXAMEN
En donde corresponde a una cantidad histórica de seguros de vida que se han vendido (que
fue calculada por John Bayes) y donde corresponde a un ponderador que corrige las
eventuales sobreestimaciones que se pueda producir y que es estrictamente positivo.
En base a lo anterior justifique la calidad del estimador e indique cuánto costaría reducir un
eventual sesgo a la mitad. Suponga que ampliar tiene un costo proporcional.
Respuesta
Para demostrar la calidad del estimador, en primer lugar se debe analizar la consistencia del
estimador, esto es:
a) Si se cumple que el estimador converge a un número: limn V ˆ 0
b) Si el número al que converge el estimador es el verdadero valor poblacional:
lim n Sesgo 0
________________________________________________________5 puntos ____
Debido a que la variable X i se comporta como una POISSON, entonces se cumple que
E( X ) V ( X ) .
Para reducir el sesgo cuando éste es asintótico debemos ampliar la muestra. Por lo tanto, si
consideramos que debemos comparar dos tamaños muestrales la decisión de utilizar el
estimador está dada por:
Página 3
Universidad de Chile sábado 27 de junio de 2015
Economía & Negocios PAUTA EXAMEN
Ahora, para estimar el costo de la reducción del sesgo se debe estimar el tamaño de la muestra
que se debe utilizar, esto es:
Sesgo _ Final n 1 n 1 n 1
1 2n2 2 n1 2 2 n1 4n2
Sesgo _ Inicial 2 n1 2 n1 4
n2
Por lo tanto, se requiere multiplicar por 4 la inversión para aumentar el tamaño muestral que
reduce a la mitad el sesgo del estimador.
_________________________________________________________10 puntos ___
Página 4