03 VAEIE Inferencia Estadística PDF

Apuntes de Vectores Aleatorios e Inferencia Estadística. Ingeniería Industrial. UCAB.
Marzo 2016 1
Rafael A. Díaz Chacón

VECTORES ALEATORIOS E INFERENCIA ESTADÍSTICA

Capítulo 3: Inferencia Estadística.

3.1 Introducción a la Inferencia Estadística. Distribuciones t y F. Distribución de algunos
Estadísticos Muestrales de interés.

3.1.1) Introducción a la Inferencia Estadística.

Conoceremos como Inferencia Estadística al proceso mediante el cual, a partir del conocimiento
de una parte del todo, trataremos de conocer el comportamiento del todo.

Como un ejemplo, suponga que un agricultor que cultiva naranjas ha recolectado unas cien mil
naranjas en su última cosecha. El precio de venta en el mercado es una función de la cantidad
promedio de jugo que produce la naranja. Para conocer ese precio el agricultor tendría que
exprimir todas las naranjas, totalizar la cantidad de jugo y obtener, finalmente, el valor promedio
del jugo que produce cada naranja. Evidentemente, este procedimiento es absurdo ya que
conlleva a la destrucción misma de las naranjas y, en consecuencia, no habría nada que vender.
Una forma alterna, aunque aproximada, es seleccionar una pequeña muestra, digamos unas 50
naranjas, determinar su cantidad promedio de jugo y usar técnicas de análisis estadístico para
aventurarse a dar un valor de la cantidad promedio de jugo del lote de cien mil naranjas.

Este tipo de situaciones ameritan del conocimiento de la Inferencia Estadística para dar soluciones
prácticas. Otros ejemplos de situaciones similares podrían ser los siguientes:

i) A partir del análisis de una muestra de sangre en un tubo de ensayo se pretende
extrapolar el resultado obtenido allí a todo nuestro torrente sanguíneo.
ii) Al saborear una pequeña cucharada de sopa pretendemos establecer si ésta está
salada o no.
iii) El tiempo en ir de la casa a la universidad lo establecemos como función de los
tiempos que nos tardamos la semana pasada.
iv) L a proporción de votantes por un candidato en particular la establecemos
consultando a un pequeño grupo de electores.

En estos ejemplos se pueden observar una serie de características comunes que vale la pena
definir claramente, a saber,

Definición 3.1.1: Universo. Denominamos Universo al conjunto de personas o cosas sobre las
cuales se desea obtener algún tipo de información. El Universo se representa comúnmente con la
letra griega Ω.

Definición 3.1.2: Población. Se denomina Población al conjunto de valores que toma una variable o
característica definida sobre el Universo. Una Población está definida por una variable aleatoria X.

Definición 3.1.3: Parámetro. Un parámetro poblacional, o simplemente parámetro, es un número
asociado con la distribución de probabilidades correspondiente a la variable X que define la
Revisado por: Adelmo Fernández

Apuntes de Vectores Aleatorios e Inferencia Estadística. Ingeniería Industrial. UCAB. Marzo 2016 2

población. Una población puede tener uno o varios parámetros de los cuales algunos pueden ser
conocidos y otros no.

Definición 3.1.4: Muestra Aleatoria Simple (MAS). Una Muestra Aleatoria Simple de tamaño n es
un vector aleatorio n‐dimensional (X1, X2, …., Xn), donde las variables Xi son independientes e
idénticamente distribuidas (iid).

Definición 3.1.5: Realización Muestral. Una Realización Muestral es un vector de dimensión n de
números reales (x1, x2, …., xn), donde cada componente xi se corresponde con un valor muestral de
cada variable aleatoria Xi, respectivamente.

Definición 3.1.6: Estadístico. Un Estadístico Muestral, o simplemente un Estadístico, es una variable
aleatoria que es función de la muestra aleatoria simple y no depende de parámetros poblacionales
desconocidos.

Algunos de los estadísticos más conocidos son los siguientes:

i) Todos los Estadísticos de Orden, , ,….,
ii) La Media Muestral, ∑
iii) La Varianza Muestral, ∑
iv) La Cuasivarianza Muestral, ∑
v) El Momento Muestral Ordinario de orden r, , ∑
vi) El Momento Muestral Central de orden r, ∑

En ocasiones el investigador dispone de alguna información cierta acerca de la variable aleatoria
que estudia pero desconoce otras informaciones relevantes para conocer el comportamiento de
esa variable Por ejemplo, conoce la estructura funcional de la función de densidad pero desconoce
algunos de los parámetros que la definen.

El objetivo de la Inferencia Estadística se puede sintetizar en lo siguiente:

“Dada la función de densidad de la variable poblacional X con parámetro
desconocido θ, fX(x; θ), analizar el comportamiento del parámetro θ, o de una
función de él, τ(θ), mediante la información suministrada por una muestra
aleatoria simple (X1, X2, …, Xn) de tamaño n de la población X.”

Este comportamiento se reduce básicamente en dos eventuales acciones:

i) Obtener un valor numérico o estimación.
ii) Aceptar o no la aseveración acerca del verdadero valor del parámetro.

En el primer caso se trata de un problema de Estimación de Parámetros mientras que en el
segundo caso se habla de un problema de Contrastación de Hipótesis. Ambos problemas serán
tratados en este curso.


Pero antes de iniciar el estudio de estos problemas vamos a completar la batería de modelos
probabilísticos continuos con dos distribuciones que se usan frecuentemente en la contrastación
de hipótesis.

3.1.2) Variable Aleatoria t de Student.

X es una variable aleatoria t de Student con parámetro n, entero positivo, si su función de
densidad de probabilidades tiene la forma

1
Γ 1
~ , 2 ;
√nπΓ 2
1
El lector debe verificar los datos en la tabla siguiente

E(X) V(X) E(X2k‐1) E(X2k)

0 0 1
; 2 Γ Γ
2 2 2 ; 2
1
n > 1 Γ Γ
2 2

Gráficas de la función de densidad para distintos valores de n (n = 1, 2, 4, 6) se muestran a
continuación.

Nótese que en la medida que n aumenta la curva es más alta; en el límite (n → ∞) la curva de la
función t de Student tiende a la curva norma estándar. Demuéstrelo.



Ejemplo 3.1.1) Sea Z una normal estándar y sea U una Chi‐Cuadrado con n grados de libertad. Z y
U son independientes. Sea una nueva variable X, función de Z y U dada por la expresión siguiente.
Calcular la función de densidad de X. ¿Qué tipo de distribución tiene X?

Dado que Z y U son independientes la función de densidad conjunta de ambas será

, ; , 0
√2 2 2
Γ

Para usar el método de dos transformaciones de dos variables se define una variable auxiliar Y = U,
tal que,

2√
0 1

, , | | ; , 0
√2 2 Γ
2

Para hallar la marginal de X se integra con respecto de Y, nótese que el intervalo de integración es
de cero a infinito.

1
Γ 1
2
√2 2 Γ 2 √nπΓ 2
1

El resultado obtenido es la función de densidad de la variable t de Student.
Ю Ю

El resultado de este ejemplo nos lleva a expresar una aseveración de una aplicación muy
interesante en la Estadística:

“El cociente de una normal estándar y la raíz cuadrada de una Chi‐Cuadrado
dividida entre sus grados de libertad e independientes, es una t de Student
con n grados de libertad”



Por otro lado, vamos a enunciar un Teorema de interés práctico pero que requiere de
herramientas matemáticas que están fuera del alcance de este curso para su demostración. El
lector interesado puede consultar el tema de análisis de formas cuadráticas asociadas a la normal
multivariable para conocer la correspondiente demostración del Teorema.

Teorema: Sea (X1, X2, …., Xn) una Muestra Aleatoria Simple (MAS) de tamaño n de una variable
normal con parámetros μ y σ2. Entonces, los siguientes estadísticos siguen las distribuciones que
se indican

1
~ , ~ 0,1
√

1
~

1 1
~
1

~ 1
√
Y finalmente,

Ejemplo 3.1.2) Sea (X1, X2, …., X5) una Muestra Aleatoria Simple (MAS) de tamaño 5 de una
población normal estándar. Determine el valor de la constante C para que la variable Y tenga una
distribución t de Student. Determine los grados de libertad de Y.

Analizando el numerador se tiene

~ 0,1 ; 1, . . , 5 ~ 0,2 ~ 0,1
√2

Analizando el denominador se tiene

~ 0,1 ~ ; 1, . . , 5 ~


Si definimos una t de Student con las variables analizadas, se tiene

√2 ~ 3
3

Comparando con la definición de Y tenemos que y, en consecuencia, Y sigue una
distribución t de Student con 3 grados de libertad.
Ю Ю

Ejemplo 3.1.3) Sea (X1, X2, …., X10) una Muestra Aleatoria Simple (MAS) de tamaño 10 de una
población X normal con parámetros μX y σ 2 . Sea (Y1, Y2, …., Y12) una Muestra Aleatoria Simple
(MAS) de tamaño 12 de una población Y normal con parámetros μY y σ 2 . Considere que las
poblaciones X e Y son independientes. Determine,

∑
1,627
∑

Desarrollando la sumatoria del numerador se tiene

∑
~ 0, 6 ~ 0,1
√6

Analizando el factor dentro de la raíz del denominador se tiene

1
~ 0,1 ~ ~

En consecuencia, si definimos una variable W

∑
√6 ∑
√2 ~ 12
∑ ∑
12

La probabilidad solicitada será


∑
1,627 1,627 2,3011 0,0214
√2
∑
Ю Ю

Ejemplo 3.1.4) Sean X e Y variables aleatorias independientes donde X es normal con media μ1 y
varianza σ2 e Y también es normal pero con media μ2 e igual varianza σ2. Considere una muestra
aleatoria simple de tamaño m de X y una muestra aleatoria simple de tamaño n de Y. Se define la
variable aleatoria W, tal que

1 1 1 1
2

Donde 1: son los promedios muestrales de X e Y, respectivamente.
2: , son las cuasivarianzas muestrales de X e Y, respectivamente.

Determine la distribución de W y calcule P{W < 2} para el caso específico en que m = 10 y n = 12.

Ya que X e Y son normales, las variables aleatorias promedio muestral y cuasivarianza muestral se
comportan como se indica a continuación:

~ , ~ 0,1
~ , √
1 ~

~ , ~ 0,1
~ , √
1 ~

Entonces,

~ 0, ~ 0,1
1 1

1 1 1 1
1 1 ~



Finalmente,

1 1
~
1 1 1 1
2 2

En el caso específico m = 10 y n = 12,

2 0,97037
Ю Ю

3.1.2) Variable Aleatoria F de Snedecor.

X es una variable aleatoria F de Snedecor con parámetros m y n, ambos enteros positivos, si su
función de densidad de probabilidades tiene la forma

~ , , , ó

Γ
2 ; 0
Γ Γ
2 2 1
0;

El lector debe verificar los datos en la tabla siguiente

E(X) V(X)
; 2 2 2
2 ; 4
2 4

Gráficas de la función de densidad para distintos valores de m y n se muestran a continuación.



Ejemplo 3.1.5) Sean U y V variables aleatorias Chi‐Cuadrado con m y n grados de libertad,
respectivamente. U y V son independientes. Sea una nueva variable X, función de U y V dada por la
expresión siguiente. Calcular la función de densidad de X. ¿Qué tipo de distribución tiene X?

Dado que U y V son independientes la función de densidad conjunta de ambas será

, ; 0, 0
2 Γ 2 Γ
2 2

Para usar el método de dos transformaciones de dos variables se define una variable auxiliar Y = V,
tal que,

0 1

, , | | ; , 0
2 Γ Γ
2 2

Para hallar la marginal de X se integra con respecto de Y, nótese que el intervalo de integración es
de cero a infinito.

Γ
2 ; 0
2 Γ Γ Γ Γ
2 2 2 2 1

El resultado obtenido es la función de densidad de la variable F de Snedecor.
Ю Ю


El resultado de este ejemplo nos lleva a expresar una aseveración de una aplicación muy
interesante en la Estadística:

“El cociente de una Chi‐Cuadrado dividida entre sus grados de libertad (m) y
otra Chi‐Cuadrado dividida entre sus grados de libertad (n) e independientes
es una F de Snedecor con m y n grados de libertad, respectivamente”

Asociado a la Variable F se puede enunciar un Teorema el cual, nuevamente, dejamos en manos
del lector para su demostración.

Teorema:

a) Sea X una variable t de Student con n grados de libertad, entonces la variable Y = X2 sigue
una distribución F con 1 y n grados de libertad.
b) Sea X una variable F con m y n grados de libertad y sea 0 < α < 1. Entonces el percentil α
de X, digamos Fm,n;α, y el percentil (1 ‐ α) pero de la variable F con n y m grados de libertad,
digamos Fn,m;(1 ‐ α), son tales que se cumple Fm,n;α Fn,m;(1 ‐ α) = 1.

Ejemplo 3.1.6) Sean X e Y dos poblaciones normales e independientes con igual media μ y
varianzas σ2 y kσ2, respectivamente. Se dispone de una muestra aleatoria simple de tamaño 4 de
la población X y de tamaño 6 de la población Y. Obtenga el valor de k si se sabe que

0,19 0,10

Del comportamiento de la varianza y Cuasivarianza muestrales podemos escribir

4 5
~ ~

Entonces definimos una variable W, tal que,

4
3 4
~ 3,5
3

En consecuencia,

4 4 19
0,19 0,10 0,19 0,10 0,10
3 3 75

Entonces, el percentil 10 de W será



19 1 1
, ; , 0,18835 0,74349
75 , ; , 5,31
Ю Ю

Ejemplo 3.1.7) Sean X1, X2, .., Xn variables aleatorias independientes, exponenciales con igual
parámetro 1/2, i = 1, 2, …, n. Sean Y3, Y4, .., Yn variables aleatorias independientes, normales con
parámetro μ = μi e igual parámetro σ2, i = 3, 4, …, (n+1). Además toda variable Xi es independiente
de toda variable Yi. Obtenga el valor del entero n si se sabe que

0,35628 0,90
∑ 2

Ya que las Xi son exponenciales con igual parámetro 1/2, i = 1, 2, …, n. se puede escribir

1
~ , ~
2

Desarrollando la sumatoria del denominador,

En consecuencia,

2

Por tanto,

1
~

Definiendo una variable W tal que

2 ~ 2 ,2
∑ 2
2

1
0,35628 0,90 0,35628 , ; , 2,8068
, ; ,

Entonces, el valor de n que satisface esta ecuación será n = 6.
Ю Ю


Ejemplo 3.1.8) Sean Y1, Y2, .., Ym variables aleatorias independientes, normales con parámetros θ
y θ2, respectivamente. Sean X1, X2, .., Xn variables aleatorias independientes, exponenciales con
parámetro común θ. Además, toda variable Xi es independiente de toda variable Yi. Definamos
una variable U tal que

∑

∑ 3
Obtenga los valores de las constantes θ y n, si se sabe que y P{U < 0,86448} = 0,90.

Desarrollando la sumatoria del numerador

~ 0,2 ~ 0,1 ~
√2 √2

Desarrollando la sumatoria del denominador,

3 2 2 ~

En consecuencia,

2
√2 √2 √2 ~ 1,2 2
4 1 ∑ 1 2 ∑ 2 ∑
2 1 2 1 2 1

Por tanto,

1 2 2 1
1
1 2 1 1 2 2 2 2

Por otro lado,

0,86448 0,90 1 0,86448 0,90

Entonces, el valor de n que satisface esta ecuación será n = 5.
Ю Ю



Ejemplo 3.1.9) Sean X e Y variables aleatorias independientes donde X es normal con media μ1 y
varianza σ2 e Y también es normal pero con media μ2 e igual varianza σ2. Considere una muestra
aleatoria simple de tamaño m de X y una muestra aleatoria simple de tamaño n de Y. Se define la
variable aleatoria R, tal que

∑

∑

Calcule P{R < 2} para el caso específico m = 11 y n = 12.

Ya que X e Y son normales, se tiene

~ 0,2 ~ 0,1 ~
√2 √2

2 ~
√2 √2

~ 0, ~ 0,1 ~

~

Finalmente,

∑ 2 2 1 1 1~
;
∑ 2
2 2

Entonces,

2 1 2 12 2
2 2 1 0,5
2 1 11 1
Ю Ю



3.2 Estimación de Parámetros. Estimación Puntual. Propiedades de un Estimador: Sesgo, Error
Cuadrático Medio y Consistencia.

3.2.1) Estimación Puntual.

La Estimación Puntual consiste en tomar una muestra aleatoria simple (X1, X2, …, Xn) de una
población con función de densidad f(x; θ), dependiente de un parámetro desconocido θ, definir
sobre ella un estadístico T = T(X1, X2, …, Xn), llamado estimador del parámetro θ, que al ser
evaluado sobre una realización muestral (x1, x2, …, xn) genera un número t = T(x1, x2, …, xn) llamado
estimación de θ.

Es decir, el estimador es la regla o función que se debe aplicar a una muestra dada para obtener la
estimación. Ya que el estimador es un estadístico muestral entonces el estimador es una variable
aleatoria y como tal estará sujeto a tener una función de densidad de probabilidades, un valor
esperado, una varianza, etc.

La estimación es un problema muy común en la práctica de la ingeniería. Todos los días deseamos
conocer cuál es el valor actual de alguna variable de interés y, si esta variable depende de un
parámetro desconocido θ, allí está la importancia de la estimación puntual. Algunas estimaciones
clásicas de interés pueden ser las siguientes:

i) El valor promedio de alguna variable poblacional.
ii) La desviación estándar de alguna variable poblacional.
iii) El porcentaje de artículos en una población que tiene una característica determinada.
iv) La diferencia entre los valores esperados de dos poblaciones bajo estudio.
v) La diferencia entre dos proporciones poblacionales.

Pero no todo estadístico muestral sirve como estimador del parámetro θ. Para ello se deben
cumplir estas dos condiciones:

Condición 1: Θ 1, siendo Θ el conjunto de todos los posibles valores que puede
tomar el parámetro θ. Al conjunto Θ suele llamársele Espacio paramétrico.

Condición 2: Si el rango poblacional RX es una función del parámetro θ, es decir, RX = RX(θ),
entonces para todo xi, i= 1, …, n, se tiene que xi RX(T(x1, x2, …, xn)).

Ejemplo 3.2.1) Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una población X
con función de densidad Exponencial con parámetro desconocido θ. Establecer cuáles de los
siguientes estadísticos pueden ser considerados como estimadores del parámetro θ.

1



2

Ya que los posibles valores de X no dependen del valor del parámetro entonces la segunda
condición se cumple en los tres casos. Revisemos la primera condición en cada caso. El espacio
paramétrico es Θ = {0, ∞}.

a)
1
Θ 0 0 1

En consecuencia, T1 es un estimador de θ.

b)
Θ 0 1

Evidentemente, si todos los valores muestrales son mayores que uno el evento deja de ser seguro
y por tanto, T2 no es un estimador de θ.

c)
Θ 0 1
2

Evidentemente, si todos los valores muestrales son iguales el evento dejaría de ser seguro, por
tanto, T3 es un estimador de θ.
Ю Ю

Ejemplo 3.2.2) Sea (X1, X2, …, Xn) una muestra aleatoria de tamaño n de una población X con
función de densidad Uniforme en el intervalo (0, θ) con parámetro desconocido θ. Establecer
cuáles de los siguientes estadísticos pueden ser considerados como estimadores del parámetro θ.

2

En todos los casos los posibles valores de X dependen del valor del parámetro ya que el espacio
paramétrico es Θ = {0, θ}. Por otro lado, la primera condición se cumple para los tres estadísticos.
Verifiquemos la segunda condición.



a) Para una realización dada, el valor de T1 = es tal que los posibles valores de xi están
alrededor de su promedio por lo que no se puede garantizar que los xi 0, ). En
consecuencia, T1 no es un estimador de θ.

b) Para una realización dada, el valor de T2 = X(n) es tal que los posibles valores de xi están por
debajo de su valor máximo por lo que se puede garantizar que los xi 0, ). En
consecuencia, T2 es un estimador de θ.

c) Para una realización dada, el valor de es tal que no se puede garantizar que los xi
0, ). En consecuencia, T3 no es un estimador de θ.
Ю Ю

3.2.2) Propiedades Deseables en un Estimador.

Dado que un estimador nos proporciona un valor puntual del parámetro desconocido cabe la
pregunta ¿Cuán buena es la estimación que tengo?

Evidentemente, mientras más cerca esté la estimación del valor real del parámetro desconocido,
mejor será el resultado. Las propiedades siguientes buscan medir de alguna manera esa cercanía.

Propiedad 1: Sesgo

Definición 3.2.1: Se dice que un estimador T = T(X1, X2, …, Xn) es un estimador insesgado de la
función τ(θ) del parámetro desconocido θ, si se cumple que

, Θ

Definición 3.2.2: Si el estimador no es insesgado para τ(θ) se dice que tiene un sesgo y el valor de
ese sesgo viene dado por

Ejemplo 3.2.3) Sea (X1, X2, …, Xn) una muestra aleatoria de tamaño n de una población X con valor
esperado μ y varianza σ2. Sean T1 = y T2 = S2 estimadores de μ y σ2, respectivamente. Demostrar
si son insesgados o no.

Parte a)
1 1 1

es un estimador insesgado del valor esperado de X.



Parte b)

1 1

1

S2 no es un estimador insesgado de la varianza de X. En consecuencia, el sesgo será

1

Ю Ю

Ejemplo 3.2.4) Sean X e Y dos poblaciones independientes con media común μ y diferentes
varianzas , . Sean (X1, X2, …, Xn) y (Y1, Y2, …, Yn) muestras aleatorias de tamaño n de X e Y ,
respectivamente. Pruebe si el estadístico 1 , 0 , es un estimador
insesgado de μ.

1 1 1

Entonces, el estadístico T es un estimador insesgado de μ.
Ю Ю

Ejemplo 3.2.5) Sea (X1, X2, …, Xn) una muestra aleatoria de tamaño n de una población X con valor
esperado μ y varianza σ2. En vista de que T2 = S2 no resultó ser un estimador insesgado de la
varianza, probar si la cuasivarianza muestral es un estimador insesgado de σ2.

Del ejemplo 3.2.3 se obtuvo que
1

Por otro lado,

1 1 1

En consecuencia, sí es un estimador insesgado de la varianza de X.
Ю Ю



Propiedad 2: Error Cuadrático Medio

Definición 3.2.3: El error cuadrático medio (ECM) del estimador T = T(X1, X2, …, Xn) de la función
τ(θ) del parámetro desconocido θ es un valor no negativo que busca medir la cercanía entre la
estimación obtenida con dicho estimador y el valor real del parámetro desconocido. Se calcula de
la siguiente manera

Nótese que para estimadores insesgados (b = 0) el error cuadrático medio coincide con la varianza
del estimador T.

Mientras menor es el error cuadrático medio mejor es el estimador utilizado. Al comparar dos
estimadores T1 y T2 se debe escoger aquel cuyo error cuadrático medio sea menor.

Ejemplo 3.2.6) Sea (X1, X2, …, Xn) una muestra aleatoria de tamaño n de una población X con
distribución Exponencial con parámetro θ. Considere los estimadores a) T1 = X(1) y b) T2 = de la
media poblacional μX. ¿Cuál de los dos es mejor en el sentido del error cuadrático medio?

Para conocer el error cuadrático medio se debe conocer primero la distribución del estimador para
conocer su valor esperado y su varianza.

a) En el caso de T1 = X(1), la función de densidad de T1 será

1 1 1 ~

En consecuencia,

1 1

Por tanto el error cuadrático medio será,

1 1 1 1 1 1 1

b) En el caso de T2 = , el valor esperado y la varianza de T2 serán

1 1

Por tanto el error cuadrático medio será,

1 1 1 1 1 1



Comparación:

Para hacer la comparación de los errores cuadráticos medios se puede hacer una comparación por
diferencia o por cociente. Optaremos por analizar el cociente de los errores.

1 1
1 1

1

Si n = 1 ó n = 2, Com = 1; en consecuencia, es indiferente cual estimador escoger.

Si n > 2, Com > 1; en consecuencia, es preferible usar T2 frente a T1.

Nótese además, que T2 es un estimador insesgado de μX.
Ю Ю

Ejemplo 3.2.7) Sean X e Y dos poblaciones independientes con media común μ y diferentes
varianzas , . Sean (X1, X2, …, Xn) y (Y1, Y2, …, Yn) muestras aleatorias de tamaño n de X e Y ,
respectivamente. En el ejemplo 3.2.4 se demostró que el estadístico 1 , 0
, es un estimador insesgado de μ. Calcule el error cuadrático medio y consiga el valor de k que lo
minimiza.

Ya que T es un estimador insesgado de μ, el error cuadrático medio será

1 1

1
1 1

Para conseguir el valor de k que minimiza el error cuadrático medio se deriva respecto a k y se
iguala a cero, resultando

2 2 1
0 0
Ю Ю

Propiedad 3: Consistencia

La consistencia está asociada al tamaño de la muestra. Mientras que el tamaño de la muestra
aumenta el error cuadrático medio del estimador debe ir disminuyendo y, en consecuencia, la
estimación buscada estará más cercana del valor desconocido.

Definición 3.2.4: Un estimador T es consistente en error cuadrático medio de τ(θ) si y solo si

lim 0


Lo cual es equivalente a decir

lim 0 ó lim

Ejemplo 3.2.8) Sea (X1, X2,…, Xn) una muestra aleatoria de tamaño n de una población X con
distribución Exponencial con parámetro θ. Considere el estimador T = de la media poblacional
μX. ¿Es este estimador consistente?

El valor esperado, la varianza y el error cuadrático medio de T serán

1 1 1
, ,

Tomando los respectivos límites para verificar la consistencia

1 1
lim lim

1
lim lim 0

1
lim lim 0

Como conclusión, se puede decir que el promedio muestral es un estimador consistente del valor
esperado de una variable exponencial.
Ю Ю

Ejemplo 3.2.9) Sea (X1, X2,…, Xn) una muestra aleatoria de tamaño n de una población X con
función de densidad fX(x; θ) dada a continuación. Considere el estimador T =3 de θ. Verifique el
sesgo, el error cuadrático medio y la consistencia de este estimador.

1
; ; 1 1 ; 1 1
2
0;

El valor esperado, el segundo momento y la varianza de X serán

1

2 3

1 1

2 3


1 3

3 9 9

Entonces, el valor esperado, la varianza y el error cuadrático medio de T =3 serán,
respectivamente

3 3
3 , 3 9 9 ,

Tomando los respectivos límites para verificar la consistencia

lim lim

3
lim lim 0

3
lim lim 0

Como conclusión, se puede decir que el estadístico T = 3 es un estimador insesgado y
consistente del parámetro θ con error cuadrático medio igual a .
Ю Ю



3.3 Métodos para deducir un Estimador. Método de los Momentos. Método de Máxima
Verosimilitud.

De entre varias maneras de obtener estimadores se van a desarrollar aquí los dos métodos más
populares en la literatura: el Método de los Momentos y el Método de Máxima Verosimilitud.

3.3.1) Método de los Momentos.

Este Método tiene base en la relación existente entre los momentos r‐ésimos ordinarios
poblacionales y los momentos r‐ésimos ordinarios muestrales

1
,

Es fácil demostrar que

El método de los Momentos es el siguiente:

• Seleccione un valor de k, entero positivo, tal que . Por lo general
existen muchos valores k que cumplen con esta condición, sin embargo, se
aconseja escoger el menor valor k.
• Plantee la ecuación .
• Resuelva la ecuación anterior para conseguir un valor de θ que será el
estimador del parámetro al cual denotaremos como .

Ejemplo 3.3.1) Determine un estimador, por el método de los Momentos, para el parámetro θ de
una población con función de densidad dada por , ; 0 1; 0.

Comenzamos el método escogiendo el valor k = 1, entonces

1 1

Entonces,
1

1

Despejando θ de esta ecuación, se tiene que el estimador buscado será

1 1
Ю Ю


Ejemplo 3.3.2) Determine estimadores, por el método de los Momentos, para los parámetros θ1 y
θ2 de una población X ~ N(θ1 , θ2).

En este caso debemos estimar dos parámetros; por tanto, debemos plantear dos ecuaciones por lo
que se considerarán los valores k = 1 y 2.

Comenzamos escogiendo el valor k = 1, entonces

1
1

Considerando ahora k = 2,

1 1
2

Resolviendo el sistema de las dos ecuaciones planteado anteriormente, se tiene que

1

Ю Ю

Ejemplo 3.3.3) Determine un estimador, por el método de los Momentos, para el parámetro θ de
una población con función de densidad dada por , ; 0 ; 0.

Comenzamos el método escogiendo el valor k = 1, entonces

1

2

Despejando θ de esta ecuación, se tiene que el estimador buscado será

2
2

Este resultado permite incorporar aquí una observación interesante con respecto al método de los
momentos.

Supongamos que se dispone de una muestra de tamaño cuatro para esta variable tal que
M = {2, 8, 10, 60}. Entonces, el promedio es 20 y el valor del estimador será 40; pero del
conocimiento de esta variable no tiene mucho sentido que el estimador del máximo valor de X sea
40 y se disponga de un valor de 60 para esa variable. ???
Ю Ю



3.3.2) Método de Máxima Verosimilitud.

Dadas las eventuales inconsistencias del método de los Momentos se presenta a continuación uno
de los mejores métodos para hacer la estimación puntual de parámetros desconocidos: el Método
de Máxima Verosimilitud.

Este método tiene base en la construcción de una función que se denomina función de
verosimilitud la cual se denotará con la letra L. Para definir la función de verosimilitud es necesario
disponer de una muestra de tamaño n (X1, X2, …, Xn) de la población bajo análisis que debe tener
una de estas dos posibles características:

• Muestra de Información Completa: Cuando se conoce cada valor muestral xi
para cada componente del vector muestral X.

• Muestra de Información Incompleta o Censurada: Cuando al menos una de las
variables en el vector muestral NO toma un valor puntual dentro de su dominio.

Ejemplo 3.3.4) Considere una muestra de tamaño 4, X = (X1, X2, X3, X4), de una cierta variable.
Analizar los casos siguientes de información de la muestra:

a) X1 = 1, X2 = 4, X3 = 0, X4 = 1. b) X1 = 1, X2 ≤ 2, 1 ≤ X3 < 4, X4 ≥ 2.

Caso a: Dado que cada variable toma un valor específico se dice que la muestra es de información
completa.

Caso b: Dado que al menos una variable no toma un valor específico sino que puede tomar
cualquier valor en un intervalo se dice que la muestra es de información incompleta.
Ю Ю

Construcción de la función de verosimilitud: Dada una muestra de tamaño n de la población X con
función de densidad de probabilidades fX(x, θ) la función de verosimilitud L será

Donde cada Factori tiene una forma específica dependiendo si la variable Xi toma un valor
específico o no, es decir,

• Si Xi = xi, entonces, Factori = fX(xi, θ)

• Si Xi A, entonces, Factori = P{Xi A}



Ejemplo 3.3.5) Considere una muestra de tamaño 4, X = (X1, X2, X3, X4), de una variable exponencial
con parámetro θ. Construya la función de verosimilitud en cada caso:

a) X1 = 1, X2 = 4, X3 = 2, X4 = 5. b) X1 = 1, X2 ≤ 2, 1 ≤ X3 < 4, X4 ≥ 2.

Caso a: Dado que cada variable toma un valor específico la función de verosimilitud será

1, 4, 2, 5,

Caso b: Dado que la muestra es de información incompleta la función de verosimilitud será

1, 2 1 4 2

1 1 1
Ю Ю

Ejemplo 3.3.6) Considere una muestra de tamaño n, X = (X1, X2, …, Xn), de una variable Bernoulli
con parámetro desconocido p. Construya la función de verosimilitud si la información es completa.

Si X es una población Bernoulli su función de masa de probabilidades será

1 ; 0 1
,
0;

La función de verosimilitud será

∑ ∑
, 1 1
Ю Ю

Ejemplo 3.3.7) Considere una muestra de tamaño n, X = (X1, X2, …, Xn), de una población normal
con valor esperado desconocido μ y varianza conocida σ2. Construya la función de verosimilitud si
la información es completa.

Si X es una población normal su función de densidad de probabilidades será

1
,
√2


1 1 ∑
,
√2 2
Ю Ю



Definición 3.3.1: Estimador de máxima verosimilitud: El estimador de máxima verosimilitud del
parámetro desconocido θ es aquel valor que maximiza la función de verosimilitud. Denotaremos
al estimador de máxima verosimilitud del parámetro θ como .

Ejemplo 3.3.8) Para la función de verosimilitud del caso a del Ejemplo 3.3.5 deduzca el estimador
de máxima verosimilitud.

Caso a: En este caso la función de verosimilitud será

4 12 4 12 0

1

3
Ю Ю

Ejemplo 3.3.9) Para la función de verosimilitud del ejemplo 3.3.6 deduzca el estimador de máxima
verosimilitud.

La función de verosimilitud resultante fue

∑ ∑
1

Para este caso, y otros, el máximo de L(p) es igual al máximo de la función compuesta ln (L(p)) por
tanto,

∑ ∑
1 ln ln 1

∑ ∑ 1
0 ̌ ̌
1
Ю Ю

Ejemplo 3.3.10) Para la función de verosimilitud del ejemplo 3.3.7 deduzca el estimador de
máxima verosimilitud.

Al igual que en el ejemplo anterior, se derivará a la función logaritmo neperiano de L(μ). La
función de verosimilitud resultante fue

1 ∑ 1
2
2 2 2

1 1
0 ̌ ̌
Ю Ю



Ejemplo 3.3.11) Sea una muestra aleatoria simple de tamaño n de una población X que sigue una
distribución de Poisson con parámetro desconocido θ. Deduzca el estimador de máxima
verosimilitud de θ.

La función de masa de probabilidad de X será

, ; 0,1,2 …
!


∑
!
∏ !

∑ 1
0
Ю Ю

distribución normal con parámetros desconocidos θ1 y θ2. Deduzca los estimadores de máxima
verosimilitud de θ1 y θ2.

La función de densidad de probabilidades de X será

1
; ,
2


1 ∑ 1
, , 2
2 2 2

Nótese que esta función de verosimilitud es una función de dos variables (θ1 y θ2). Para conseguir
los valores de θ1 y θ2 que maximizan esta función se debe construir y resolver un sistema de
ecuaciones al tomar las derivadas parciales respecto a θ1 y a θ2 e igualar dichas derivadas a cero.

1 1
, 0 , 0
2 2

Resolviendo el sistema de ecuaciones



1 1
0

1 1
0
2 2

En este punto se debería verificar si para la solución conseguida se tiene un máximo para la
función de verosimilitud. Asumiendo esto como cierto, los estimadores de máxima verosimilitud
del valor esperado y la varianza de una población normal son y .
Ю Ю

distribución uniforme en el intervalo (0, θ), con parámetro desconocido θ. Deduzca el estimador
de máxima verosimilitud de θ.

La función de densidad de probabilidades de X será

1
, ; 0
0;


1
0

Nótese que esta ecuación no proporciona un valor máximo ya que esa derivada no se anula. En
estas condiciones solo queda por observar que la derivada es siempre negativa por lo que su
mayor valor se obtiene cuando θ toma su valor mínimo.

Dado que los valores muestrales son tales que xi ≤ θ, i = 1, …, n, entonces el menor valor de θ que
cumple esta condición será θmin = x(n), por tanto, .
Ю Ю

Ejemplo 3.3.14) Considere el ejemplo 3.3.11 de una población Poisson. Deduzca el estimador de
máxima verosimilitud del segundo momento ordinario poblacional .

En el ejemplo 3.3.11 se obtuvo que el estimador de máxima verosimilitud de θ fue .

Ya que el segundo momento poblacional es función de θ su estimador de máxima verosimilitud
será también la misma función de . Esto es lo que se conoce como propiedad de invarianza
de la estimación máximo verosímil.

Entonces,
̌ 1
Ю Ю


Ejemplo 3.3.15) Considere el ejemplo 3.3.12 de una población normal. Deduzca el estimador de
máxima verosimilitud del tercer cuartil poblacional.

En el ejemplo 3.3.12 se obtuvo que los estimadores de máxima verosimilitud de θ1 y θ2 son
y .

Ya que el tercer cuartil poblacional es función de θ1 y θ2 su estimador de máxima verosimilitud
será también la misma función de y . Esto es lo que se conoce como propiedad
de invarianza de la estimación máximo verosímil.

, , ,

Entonces,

, , , ,
Ю Ю

Ejemplo 3.3.16) Considere el ejemplo 3.3.13 de una población uniforme. Deduzca el estimador de
máxima verosimilitud de la mediana poblacional y de la varianza poblacional.

En el ejemplo 3.3.13 se obtuvo que el estimador de máxima verosimilitud de θ es .

Ya que tanto la media poblacional como la varianza poblacional son funciones de θ sus
estimadores de máxima verosimilitud serán también las mismas funciones de . Esto es lo
que se conoce como propiedad de invarianza de la estimación máximo verosímil.

, 0,75

12

Entonces,

, 0,75 0,75

12 12
Ю Ю



3.4 Estimación por Intervalos. Intervalos de Confianza. Método de la Cantidad Pivotal para
deducir un Intervalo de Confianza. Intervalos de Confianza para Muestras Grandes.

Cuando se realiza una estimación puntual mediante distintos estadísticos podemos entender que
alguno de ellos es mejor estimador que los demás con base en algún criterio de comparación pero
esos criterios no toman en cuenta cuan cerca está el estimador del parámetro desconocido a
estimar. Esa sensación de cercanía la ofrece el conocer un intervalo en el cual, se dice, está el valor
desconocido. Esta manera de estimar es la que se conoce como Estimación por Intervalos.

La estimación por intervalos no es otra cosa que conseguir un intervalo cuyos límites son tales que
resultan de evaluar dos estadísticos de la muestra. Este resultado le permite al analista manejar
los conceptos de precisión, medida como la amplitud del intervalo y de confianza, al conocer la
probabilidad de que ese intervalo contenga al valor real que se desconoce.

3.4.1) Intervalos de Confianza.

Definición 3.4.1: Intervalo de Confianza: Sea (X1, X2, …, Xn) una muestra aleatoria simple de
tamaño n de una población X con función de densidad fX(x; θ) y espacio paramétrico Θ. Sean T1 y
T2 dos estadísticos, funciones de la muestra aleatoria simple, tales que:

i. P{T1 < T2} = 1
ii. P{T1 < τ(θ) ∩ T2 > τ(θ)} = γ, donde γ no depende de θ.

Entonces, el intervalo aleatorio (T1, T2) se denomina Intervalo de Confianza al 100γ% para τ(θ).

Además, las variables aleatorias T1 y T2 se llaman Límites de Confianza Inferior y Superior,
respectivamente y la probabilidad γ se conoce como el Coeficiente de Confianza.

Es posible que alguno de los dos límites sea constante, incluso infinito, con lo que el intervalo se
redefine de esta manera:

Definición 3.4.2: Intervalos de Confianza Unilaterales: Sea (X1, X2, …, Xn) una muestra aleatoria
simple de tamaño n de una población X con función de densidad fX(x; θ) y espacio paramétrico Θ.
Sea T1 un estadístico, función de la muestra aleatoria simple, tal que P{T1 < τ(θ)} = γ, donde γ no
depende de θ. Entonces, el intervalo aleatorio (T1, ∞) se denomina Intervalo de Confianza
Unilateral Inferior al 100γ% para τ(θ). En forma análoga, sea T2 un estadístico, función de la
muestra aleatoria simple, tal que P{T2 > τ(θ)} = γ, donde γ no depende de θ. Entonces, el intervalo
aleatorio ( ∞, T2) se denomina Intervalo de Confianza Unilateral Superior al 100γ% para τ(θ).

Ejemplo 3.4.1) Sea X1 una muestra de tamaño 1 de una población Exponencial con parámetro θ.
Pruebe si el intervalo ( ∞, 1,61/X1) es un intervalo de confianza para θ y, en caso afirmativo,
calcule el coeficiente de confianza.

Como se trata de un intervalo unilateral, bastará con probar que P{1,61/X1 > θ} no depende de θ.



1,61 1,61 1,61 ,
1 0,80

Por lo tanto, el intervalo ( ∞, 1,61/X1) es un intervalo de confianza unilateral superior al 80% del
parámetro θ. El coeficiente de confianza es 0,8.
Ю Ю

Ejemplo 3.4.2) Sea una muestra de tamaño 16 de una población Normal con valor esperado
desconocido θ y varianza 16. Pruebe si el intervalo 1,96 , ∞ es un intervalo de confianza
para θ y, en caso afirmativo, calcule el coeficiente de confianza.

Como se trata de un intervalo unilateral, bastará con probar que P{ 1,96 < θ} no depende de
θ.
1,96
1,96 1,96 1,96 0,975
16 16
16 16

Por lo tanto, el intervalo 1,96 , ∞ es un intervalo de confianza unilateral inferior al 97,5% del
parámetro θ. El coeficiente de confianza es 0,975.
Ю Ю

Ejemplo 3.4.3) Sea una muestra de tamaño 15 de una población Uniforme en el intervalo (0, θ).
Pruebe si el intervalo , 1,17 es un intervalo de confianza para θ y, en caso afirmativo,
calcule el coeficiente de confianza.

Como se trata de un intervalo bilateral, es necesario probar que las dos condiciones que definen
un Intervalo de Confianza se cumplen, es decir, primero que P{1,17 } = 1 y luego que
P{ 1,17 } no depende de θ.

Condición 1:

1,17 1,17 0 0,17 0 0 1

La condición 1 se cumple.

Condición 2:

1,17
1,17 1,17

En este caso, la función de distribución del máximo de la muestra es

; 0

Entonces, al sustituir en la ecuación anterior,


1,17 1 1,17 0,91

1,17

La condición 2 se cumple.

Por lo tanto, el intervalo , 1,17 es un intervalo de confianza al 91% del parámetro θ.
El coeficiente de confianza es 0,91.
Ю Ю

Ejemplo 3.4.4) Sea una muestra de tamaño 2 de una población Exponencial con parámetro θ.
Pruebe si el intervalo , 2 es un intervalo de confianza para θ y, en caso afirmativo, calcule el
coeficiente de confianza.

Nuevamente, hablamos de un intervalo bilateral.

La primera condición, P{2 } = 1, es obvio que se cumple.

Veamos la segunda condición

2 2 2 4
2

Sea 2 ∑ , entonces ~ y 2 4 depende de θ.

Por lo tanto, el intervalo , 2 NO es un intervalo de confianza del parámetro θ.
Ю Ю

3.4.2) Método de la Cantidad Pivotal para deducir un Intervalo de Confianza.

Al igual que en la estimación puntual se necesitan métodos para obtener intervalos de confianza y
algún criterio para decidir la efectividad o bondad del intervalo obtenido. Un método para obtener
intervalos de confianza es el Método de la Cantidad Pivotal.

Definición 3.4.3: Cantidad Pivotal: Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de
una población X con función de densidad fX(x; θ) y espacio paramétrico Θ.
Sea Q = q(X1, X2, …, Xn, θ) una función de la muestra aleatoria simple y del parámetro desconocido
θ. Si la distribución de Q no depende de θ, entonces diremos que Q es una Cantidad Pivotal para θ.

Esta definición lleva implícitas dos condiciones sobre la función Q que se deben verificar,

i. Q debe ser una función de la muestra aleatoria simple y del parámetro desconocido θ.
ii. La distribución de Q (fQ(q)) no debe ser función del parámetro desconocido θ.



Ejemplo 3.4.5) Sea una muestra de tamaño n de una población Normal con valor esperado
desconocido θ y varianza igual a 9. Analice las variables a) y b) para decidir si
son cantidades pivotales o no.

a) Evidentemente, , es función tanto de la muestra aleatoria simple como de θ.
Veamos la segunda condición

9 9
~ , ~ 0,

La función de densidad de Q no depende de θ. Por tanto, Q es una cantidad pivotal.

b) Evidentemente, , es función tanto de la muestra aleatoria simple como de θ. Veamos la
segunda condición

9 9
~ , ~ 1,

La función de densidad de W depende de θ. Por tanto, W NO es una cantidad pivotal.
Ю Ю

Método de la Cantidad Pivotal:

i. Sea (X1, X2, …, Xn) una muestra aleatoria simple de tamaño n de una población X con
función de densidad fX(x; θ) y espacio paramétrico Θ.
ii. Sea Q = q(X1, X2, …, Xn, θ) una cantidad pivotal para θ.
iii. Sean T1 y T2 dos estadísticos, funciones de la muestra aleatoria simple únicamente.

Entonces,

I. Para cualquier γ en el intervalo (0, 1) existen dos números q1 y q2, dependientes de γ,
tales que P{q1 < Q < q2} = γ. Entonces q1 y q2 son percentiles de Q.
II. Para cada valor muestral (x1, x2, …, xn) se verifica que { q1 < Q < q2}↔{ T1 < τ(θ) < T2}
III. El intervalo (T1, T2) es un intervalo de confianza al 100γ% para τ(θ).

Nota Importante: Para cada γ es posible conseguir muchos pares de valores q1 y q2 que permiten
conseguir los valores adecuados de T1 y T2. Un ejemplo podría ser que la amplitud L del intervalo a
considerar, L = (T2 ‐ T1), sea mínima. Sin embargo, para este curso se considerarán como valores
de q1 y q2 a los percentiles siguientes:

La gráfica siguiente muestra, en forma genérica, la función de densidad de probabilidades de Q y
la ubicación de los percentiles q1 y q2.


fQ(q)
(1 ‐ γ)/2
(1 ‐ γ)/2
q1 q2 Q

En la tabla siguiente se sugieren algunas cantidades pivotales de interés asociadas a algunas
poblaciones y a ciertos parámetros desconocidos.

Parámetro
Población Cantidad Pivotal Q Distribución de Q
de Interés
~ , , conocida √ ~ 0,1
~ , , desconocida √ ~
∑
~ , , conocida ~
∑
~ , , desconocida ~
~ , , conocida y 2nr entero α 2 ~
~ 0, θ ;0 1

Tabla 3.4.1: Cantidades Pivotales Sugeridas para distintos tipos de Poblaciones.

En el ejemplo siguiente se deducen los Intervalos de Confianza asociados a poblaciones de tipo
Normal de la tabla anterior y con base en las Cantidades Pivotales allí sugeridas.



Ejemplo 3.4.6) Sea una muestra de tamaño n de una población Normal con valor esperado μ y
varianza σ2. Obtenga un intervalo de confianza del 100γ% para

a. El parámetro μ suponiendo que σ2 es conocido.
b. El parámetro μ suponiendo que σ2 es desconocido.
c. El parámetro σ2 suponiendo que μ es conocido.
d. El parámetro σ2 suponiendo que μ es desconocido.

En cada caso se considerará la cantidad pivotal sugerida en la tabla de la página anterior.

Caso a: Ya que √ , de la tabla anterior se observa que Q sigue una distribución normal
estándar, por tanto se tiene que los percentiles q1 y q2 serán

El intervalo de confianza será

√

Buscando despejar el parámetro desconocido μ de estas inecuaciones (se pivotea alrededor de μ)

√ √

√ √

√ √

En este despeje hemos aprovechado la propiedad de simetría que tienen áreas bajo la normal
estándar al decir que .

En definitiva, un intervalo de confianza del 100γ% para la media μ de una población normal con
varianza σ2 conocida viene dado por

,
√ √

Caso b: Ya que √ , de la tabla anterior se observa que Q sigue una distribución t de
Student con (n – 1) grados de libertad, por tanto se tiene que los percentiles q1 y q2 serán

; ;



;
√ ;

Buscando despejar el parámetro desconocido μ de estas inecuaciones (se pivotea alrededor de μ)

; √ ; √

; √ ; √

; √ ; √

En este despeje también hemos aprovechado la propiedad de simetría que tienen áreas bajo la
curva de densidad t de Student al decir que ; ;
.

En definitiva, un intervalo de confianza del 100γ% para la media μ de una población normal con
varianza σ2 desconocida viene dado por

,
; √ ; √

∑
Caso c: Ya que , de la tabla anterior se observa que Q sigue una distribución
Chi‐Cuadrado con n grados de libertad, por tanto se tiene que los percentiles q1 y q2 serán

; ;


∑

; ;

Buscando despejar el parámetro desconocido σ2 de estas inecuaciones

1 1

∑
; ;

∑ ∑

; ;


En definitiva, un intervalo de confianza del 100γ% para la varianza σ2 de una población normal
con media μ conocida viene dado por

∑ ∑
,
; ;

∑
Caso d: Ya que , de la tabla anterior se observa que Q sigue una distribución
Chi‐Cuadrado con (n – 1) grados de libertad, por tanto se tiene que los percentiles q1 y q2 serán

; ;


∑

; ;

Buscando despejar el parámetro desconocido σ2 de estas inecuaciones

1 1

∑
; ;

∑ ∑

; ;

Pero recuerde que

Al sustituir

En definitiva, un intervalo de confianza del 100γ% para la varianza σ2 de una población normal
con media μ desconocida viene dado por

,
; ;
Ю Ю



Como resumen, la tabla siguiente muestra los intervalos de Confianza resultantes del ejemplo
anterior para poblaciones Normales y Coeficiente de Confianza γ.

Parámetro Límite Inferior del Límite Superior del
Población
de Interés Intervalo de Confianza Intervalo de Confianza
~ , , conocida
√ √
~ , , desconocida
; √ ; √
∑ ∑
~ , , conocida
; ;
~ , , desconocida
; ;

Tabla 3.4.2: Intervalo de Confianza para diversos parámetros en una Población Normal.

Ejemplo 3.4.7) Sea una muestra de tamaño 10 de una población normal con valor esperado
desconocido μ y desviación estándar 0,10. De los datos se tiene que 41,95 . Consiga un
intervalo de confianza al 95% para μ.

Dado que se desconoce la media y se conoce la varianza, del ejemplo anterior se tiene que el
intervalo de confianza tiene la forma

,
√ √

Donde γ = 0,95, 41,95 , σ = 0,10, n = 10 y solo queda por determinar . Esto se consigue
en una tabla de áreas bajo la normal estándar.

, 1,96

Entonces, el intervalo de confianza al 95% será



0,10 0,10
41,95 1,96 , 41,95 1,96 41,888, 42,012
√10 √10
Ю Ю

Ejemplo 3.4.8) Sea la población normal con valor esperado desconocido μ y desviación estándar
0,10 del ejemplo anterior. Consiga el menor número de datos muestrales si se desea tener un
intervalo de confianza al 95% para μ de ancho menor a 0,1.

El ancho del intervalo de confianza será
2
2
√

Donde γ = 0,95, σ = 0,10, Ancho = 0,1 y 1,96. Entonces, el número de datos muestrales
será
2
2 0,1 1,96
15,37 16
0,1
Ю Ю

Ejemplo 3.4.9) Sea X una población normal con valor esperado desconocido μ y varianza igual a
24. Consiga el número de datos muestrales si se desea tener un intervalo de confianza al 99% para
μ de ancho igual a 2.

El ancho del intervalo de confianza será
2
2
√

Donde γ = 0,99, √24 4,90, Ancho = 2 y , 2,575. Entonces, el número de
datos muestrales será
2
2 4,9 2,575
159,2 160
2
Ю Ю

Ejemplo 3.4.10) Sea una muestra de tamaño n de una X una población uniformemente distribuida
en el intervalo (0, θ). Pruebe que , sugerido en la tabla 3.4.1, es una cantidad pivotal y use
este resultado para estimar un intervalo de confianza para los eventuales parámetros
desconocidos θ, μ y σ.



Prueba de que Q es una cantidad pivotal:

Evidentemente, , es función tanto de la muestra aleatoria simple como de θ. Veamos la
segunda condición

Ahora bien, la función de distribución del máximo de una muestra aleatoria simple será

; 0
Entonces,
; 0 1

La función de densidad de Q no depende de θ. Por tanto, Q es una cantidad pivotal.

Intervalo de confianza para θ:

Determinamos primero los valores de q1 y q2:

1 1 1

2 2 2

1 1 1

2 2 2


1 1

2 2

Buscando despejar el parámetro desconocido θ de estas inecuaciones (se pivotea alrededor de θ)

1 1

1 1
2 2

1 1
2 2


El intervalo de confianza al 100γ% para el parámetro θ de una población uniforme en (0, θ) será

,
1 1
2 2

Intervalo de confianza para μ:

En una variable uniforme se tiene que

2

El intervalo de confianza al 100γ% para el parámetro μ de una población uniforme en (0, θ) será

,
1 1
2 2
2 2

Intervalo de confianza para σ:

En una variable uniforme se tiene que

12 2√3

El intervalo de confianza al 100γ% para el parámetro σ de una población uniforme en (0, θ) será

,
1 1
2√3 2√3
2 2
Ю Ю

Ejemplo 3.4.11) Se toma una muestra aleatoria de una variable normal y se obtienen los
siguientes resultados:

Intervalo 10‐12 12‐14 14‐16 16‐18
Frecuencia 2 4 7 3

a) Obtenga un intervalo de confianza del 95% para la media de la distribución.
b) Obtenga un intervalo de confianza del 90% para la varianza y la desviación de la distribución.



a) De la tabla 3.4.2 para una población Normal con varianza desconocida, el intervalo de
Confianza para la media μ desconocida la varianza, viene dado por

,
; √ ; √

Para conocer este Intervalo de Confianza debemos conocer n, γ, y .

Del enunciado n = 16, γ = 0,95; de la tabla de la distribución de frecuencias se tiene que

1 1 230
11 2 13 4 15 7 17 3 14,375
16 16

3360 230 215
3,3594
16 16 64

16 215 43
1,893
1 15 64 12

Finalmente, el percentil de la distribución t será

; , 2,48988
;

Por tanto, el Intervalo de Confianza al 95% para μ, desconocida la varianza, viene dado por

13,197; 15,553

b) De la tabla 3.4.2, para una población Normal con media desconocida, el intervalo de Confianza
para la varianza será

,
; ;

Para conocer este Intervalo de Confianza debemos conocer n, γ, y .

Del enunciado n = 16, γ = 0,90; de la tabla de la distribución de frecuencias se tiene que

14,375 3,3594

Finalmente, el percentil de la distribución Chi‐Cuadrado será

; , 25 ; , 7,26
; ;

Por tanto, el Intervalo de Confianza al 90% para la varianza, desconocida la media, viene dado por


2,15; 7,4036

En consecuencia, el Intervalo de Confianza al 90% para la desviación estándar, desconocida la
media, viene dado por

2,15; 7,4036 1,4663; 2,721
Ю Ю

Método Generalizado de Obtención de la Cantidad Pivotal

Dado que no existen reglas exactas para obtener una cantidad pivotal que permita conseguir un
intervalo de confianza para los parámetros que se desea estimar y que, conocida una expresión
candidata a ser una cantidad pivotal, puede no ser sencillo conocer la forma de su distribución
probabilística, se presenta a continuación un teorema que ayuda al analista a conseguir una
cantidad pivotal con miras a poder iniciar el procedimiento de conocer un intervalo de confianza.

Teorema 3.4.1: Sea X una variable aleatoria continua con función de distribución FX(x; θ) y sea una
muestra aleatoria simple de tamaño n de esa variable. Entonces, las siguientes funciones son
cantidades pivotales para un intervalo de confianza para θ:

; ;

Para la demostración de este teorema el lector debe hacer uso del Teorema que relaciona una
variable uniforme (0, 1) con cualquier tipo de variable de tipo continuo que se conoce como
Teorema de la Función Inversa y el caso particular de este teorema al establecer la relación con
una variable de tipo exponencial, que dice:

Teorema 3.4.2: Sea X una variable continua con función de distribución FX(x), entonces una nueva
variable U = F(x), tiene distribución Uniforme en (0, 1). De igual manera, se podría haber
enunciado de esta forma: Sea U una variable aleatoria uniformemente distribuida en (0, 1),
entonces una nueva variable X = F X ‐1 (x), sigue una función de distribución FX(x).

Caso particular: Si U es uniforme en el intervalo (0, 1), entonces X = ‐ln(U) tiene una distribución
Exponencial con parámetro λ = 1.

Observación interesante: Si U ~ U(0, 1) → X = ‐ln(U) ~ Exp(1) → Q2 ~ G(1,n) → 2Q2 ~ →

¡ 2Q2 también es una cantidad pivotal !!!



Ejemplo 3.4.12) Sea una muestra aleatoria simple de una población X cuya función de densidad de
probabilidades es ; ; 0 1; 0. Obtener un intervalo de confianza al
100γ% para el parámetro θ.

La función de distribución de la población X tiene la forma,

0; 0
; ; 0 1 ; 0
1; 1

En consecuencia, si se escoge como cantidad pivotal a 2Q2, se tiene

; 2 ~

Ya que conocemos como está distribuida la cantidad pivotal (2Q2) se escogen los valores de q1 y q2
como los siguientes percentiles de una Chi‐Cuadrado:

; ;

En consecuencia,

2 2
; ; ; ;

; ;
2
; ; 2 ∏ 2 ∏

Finalmente, el intervalo de confianza al 100γ% para θ será

; ;
,
2 ∏ 2 ∏
Ю Ю



3.4.3) Intervalos de Confianza para Muestras Grandes.

Para muchos tipos de poblaciones que se deben estudiar resulta imposible determinar en forma
precisa el tipo de distribución probabilística que sigue dicha población. Este hecho lleva a buscar
un método de análisis que permita conocer intervalos de confianza para algún parámetro
desconocido sin conocer la forma de distribución de la población bajo estudio.

Este método tiene base en el Teorema Central del Límite, el cual tiene como pilar principal para su
aplicación efectiva la disponibilidad de un número de muestras grande.

El método se resume de esta manera:

Consideremos una población X de la cual solo conocemos su valor esperado μX y su varianza σX2,
entonces para n lo suficientemente grande, la variable sigue una distribución de tipo normal,
tal que

√
~ , ~ 0,1

Entonces, Q es una cantidad pivotal.

Nota importante 1: El lector debe reconocer que a pesar de desconocer la distribución de la
población X, la variable tiene ese comportamiento normal como consecuencia de la aplicación
del Teorema Central del Límite.

Nota importante 2: Al estudiar el comportamiento de esta aproximación para diversos valores de
n y diversas distribuciones de una población X se ha llegado a una conclusión, en la literatura de
probabilidades, de considerar como “n lo suficientemente grande” a algún n mayor de 100.

Nota importante 3: Como consecuencia de este método para analizar muestras grandes, se
escogen los valores de q1 y q2 como los siguientes percentiles de una Normal Estándar

Ejemplo 3.4.13) Sea una muestra aleatoria simple de una población X cuya función de densidad de
probabilidades es ; ; 0 ; 0. Obtener un intervalo de confianza al 100γ%
para el parámetro θ si se considera que n es “lo suficientemente grande”.

Para este ejemplo se cuenta con la función de densidad lo que permite conocer el valor esperado y
la varianza de la población X, que es la información necesaria para aplicar la aproximación para
muestras grandes. Estos valores esperados serán,



2 2 2

3 2

2

2 3 18 √18 3√2

En consecuencia, si se escoge como cantidad pivotal a Q, se tiene

2
√ 3 √ ~ 0,1
3√2

Ya que conocemos como está distribuida la cantidad pivotal se escogen los valores de q1 y q2 como
los siguientes percentiles de una normal estándar:

En consecuencia,

2 2
3 √ 3
√ √
3√2 3√2

3√2 3√2
2√2 2√2 2√2
√ √ √ √

3√2 3√2

2√2 2√2
√ √


3√2 3√2
,
2√2 2√2
√ √
Ю Ю



Ejemplo 3.4.14) Sea una muestra aleatoria simple de una población X con distribución Poisson con
parámetro λ. Obtener un intervalo de confianza al 100γ% para el parámetro λ si se considera que
n es “lo suficientemente grande”.

Para este ejemplo también se cuenta con la función de densidad lo que permite conocer el valor
esperado y la varianza de la población X, que es la información necesaria para aplicar la
aproximación para muestras grandes. Estos valores esperados serán,

, √


√ √
~ 0,1
√


En consecuencia,

√

√ √ √ √

Para determinar el intervalo respecto a λ, se procede de esta manera

1
0 2 0
√ √

Reagrupando términos en λ,

2 0

Los valores de λ que cumplen con la desigualdad anterior son tales que λ1 < λ < λ2, donde λ1 y λ2
se corresponden con las raíces de la ecuación de segundo grado en λ, es decir,

2 2 4
,
2



,
2 4

Finalmente, el intervalo de confianza al 100γ% para λ será

,
2 4 2 4

Recordando que el resultado obtenido es válido para n lo suficientemente grande, se puede
simplificar un poco esta expresión si se piensa que ∞. En estas condiciones, se cumple que

0 0

2 4

Entonces, el intervalo ya simplificado será

,
Ю Ю

Ejemplo 3.4.15) El número de personas que llegan a una entidad bancaria es una población X con
distribución Poisson con parámetro λ. Del análisis de 120 muestras de X se obtuvo que 47,5.
Obtener un intervalo de confianza al 95% para el parámetro λ.

Del ejemplo anterior se obtuvo que el intervalo de confianza al 100γ% para λ, dado que el número
de muestras es grande, es igual a

,

Entonces, para los datos disponibles,

120; 47,5; 0,95; , 1,96




, 46,267; 48,733
Ю Ю

Ejemplo 3.4.16) Sea una muestra aleatoria simple de una población X con distribución Bernoulli
con parámetro θ. Obtener un intervalo de confianza al 100γ% para el parámetro θ si se considera
que n es “lo suficientemente grande”.

Para este ejemplo también se cuenta con la función de densidad lo que permite conocer el valor
esperado y la varianza de la población X, que es la información necesaria para aplicar la
aproximación para muestras grandes. Estos valores esperados serán,

, 1 1


√ √
~ 0,1
1


En consecuencia,

√

1 √ 1 √

Para determinar el intervalo respecto a θ, se procede de esta manera

1
0
1 1

Reagrupando términos en θ se puede observar que el lado izquierdo de la desigualdad es un
polinomio de segundo grado en θ, es decir,

2 0

Los valores de θ que cumplen con la desigualdad anterior son tales que θ1 < θ < θ2, donde θ1 y θ2
se corresponden con las raíces de la ecuación de segundo grado en θ, es decir,


2 2 4
,
2

2 4
,
1
2


2 4 2 4
,
1 1
2 2

Recordando que el resultado obtenido es válido para n lo suficientemente grande, se puede
simplificar un poco esta expresión si se piensa que ∞. En estas condiciones, se cumple que

0 0

2 4

Entonces, el intervalo ya simplificado será

1 1
,
Ю Ю

Ejemplo 3.4.17) El número de artículos defectuosos en una muestra de tamaño 200 de la
producción del día es igual a 175. Obtener un intervalo de confianza al 95% para el parámetro
proporción poblacional.

Nótese que al analizar cada artículo producido y verificar si está bueno o defectuoso, lo que se
está realizando es una prueba de Bernoulli con parámetro p desconocido. El parámetro p es la
probabilidad de obtener un artículo defectuoso en la población. Por otro lado, recuerde que si X es
una variable Bernoulli con parámetro p se tiene que


, 1 1

Del ejemplo anterior se obtuvo que el intervalo de confianza al 100γ% para p, dado que el número
de muestras es grande, es igual a

1 1
,

Entonces, para los datos disponibles,

175
200; 0,875; 0,95; , 1,96
200


1 1
, 0,8292536; 0,9207464
Ю Ю



3.5 Pruebas de Hipótesis. Definiciones Básicas. Región Crítica. Función de Potencia de la Prueba
y Nivel de Significación.

A menudo el analista debe tomar decisiones acerca de la investigación que se está desarrollando.
En ese proceso de toma de decisiones existen varias metodologías que le permiten formarse un
criterio sólido para sustentar la escogencia entre las distintas alternativa de decisión. La Estadística
nos proporciona una de esas metodologías cuando se están analizando situaciones en las cuales se
tiene incertidumbre acerca de las alternativas de decisión. Esta metodología se conoce como
Pruebas de Hipótesis. Evidentemente, las pruebas de hipótesis tienen base en la teoría de las
probabilidades pero poseen una terminología propia para denotar los procesos de decisión, que se
presentará a continuación.

3.5.1) Definiciones Básicas.

La primera definición de interés se refiere a qué es una Hipótesis en Estadística.

Definición 3.5.1: Hipótesis Estadística: Sea una población X con función de densidad fX(x; θ),
donde θ pertenece a un cierto espacio paramétrico Θ. Se define como Hipótesis Estadística, y la
denotaremos H, sobre el parámetro θ a alguna afirmación de carácter cuantitativo sobre el valor
de dicho parámetro.

Por ejemplo, si estamos hablando de una población de la cual desconocemos el valor esperado μ,
una afirmación será “el valor de μ es igual a 4”. Otra afirmación puede ser “el valor de μ es mayor
que 10”. Ambas afirmaciones son hipótesis estadísticas.

Nota importante: Una hipótesis estadística siempre será alguna proposición acerca
de la población y sus parámetros, nunca será una proposición acerca de la muestra
aleatoria de esa población.

Definición 3.5.2: Espacio Paramétrico Asociado a la Hipótesis: Sea una población X con función de
densidad fX(x; θ), donde θ pertenece a un cierto espacio paramétrico Θ. Se define como espacio
paramétrico asociado a la Hipótesis H al subconjunto ΘH del espacio paramétrico Θ que incluye a
todos los posibles valores del parámetro θ que están incluidos en la Hipótesis planteada.

De las dos afirmaciones planteadas anteriormente, se podría decir que el espacio paramétrico
asociado con cada hipótesis es {μ = 4} y {μ > 10}, respectivamente.

En este momento el lector podría presentar una confusión acerca del significado de Hipótesis
Estadística y Espacio paramétrico asociado a la hipótesis, el primer concepto es una afirmación
mientras que el segundo es un conjunto de los posibles valores en los cuales se cumple la
afirmación.

Definición 3.5.3: Prueba de Hipótesis: Proceso de decisión a través del cual se desea probar si una
hipótesis estadística se acepta como verdadera o no. Este proceso de decisión tiene base en las
evidencias proporcionadas por una muestra aleatoria.



En una prueba estadística se pretende contrastar dos posibles hipótesis. Esto da pie a definir dos
tipos de hipótesis.

Definición 3.5.4: Hipótesis Nula: Aquella afirmación que queremos contrastar con miras a probar
si la aceptamos como verdadera o no. Se le denota como H0 y tiene asociado un espacio
paramétrico Θ0.

Definición 3.5.5: Hipótesis Alterna: Aquella afirmación que aceptaríamos como verdadera si
rechazamos la hipótesis nula. Se le denota como H1 y tiene asociado un espacio paramétrico Θ1.

En relación a estas definiciones de Hipótesis nula y alterna vale la pena observar las siguientes tres
notas importantes.

Nota importante: Los espacios paramétricos asociadas a las hipótesis nula y alterna
son excluyentes entre sí pero, no necesariamente, son complementarios.

Nota importante: De las diversas formas como se pueden presentar los espacios
paramétricos de las hipótesis, la hipótesis nula SIEMPRE se corresponderá con la
opción que contiene la relación de igualdad.

Nota importante: Si el espacio paramétrico asociado con la hipótesis alterna es del
tipo , entonces la prueba de hipótesis se llama prueba de dos
colas. En el caso de que incluya solo uno de los conjuntos anteriores, se hablará de
una prueba de una sola cola.

Ejemplo 3.5.1) Existe una analogía entre la prueba de hipótesis y el desarrollo de un juicio de
carácter legal. Explíquela.

Cuando una persona va a un juicio se presume su inocencia, este hecho es comparable con el
planteamiento de la Hipótesis Nula. El propósito del abogado acusador es el de mostrar evidencias
que demuestren que la hipótesis nula debe ser rechazada y, en consecuencia, que la hipótesis
alterna, la persona es culpable, sea la que se decida como verdadera. Si las evidencias de
culpabilidad presentadas no se consideran como suficientes, entonces la decisión será, se acepta
la hipótesis nula ya que no se han presentado evidencias que hagan pensar lo contrario.

En la explicación dada en el párrafo anterior el lector podrá comparar el procedimiento que se
sigue en un juicio legal y el procedimiento que se sigue para realizar una prueba de hipótesis
estadística. Son procesos similares.
Ю Ю

Del ejemplo anterior se desprende que el proceso a seguir en una prueba de hipótesis debe ser
intentar rechazar la hipótesis nula. En este proceso sucederá una de dos posibles opciones:

i. No encontramos evidencias para rechazar la Hipótesis Nula.
ii. Sí encontramos evidencias para rechazar la Hipótesis Nula.



Evidentemente, la primera opción es una conclusión débil que lleva a seguir buscando evidencias
para ver si se rechaza la hipótesis nula o aceptarla con reservas. Por lo contrario, la segunda
opción es una decisión fuerte ya que la evidencia tiene que ser contundente. Si la decisión es la
segunda opción se dice que la Prueba es Significativa.

Nota importante: Es bueno recordar que la evidencia de la que se habla en los párrafos anteriores
no es otra cosa que las mediciones estadísticas que podamos realizar y que, previamente, hemos
conocido como la muestra aleatoria simple de la población bajo estudio. Una muestra aleatoria
simple es un vector de variables aleatorias y, como tal, no incluye todos los posibles valores
poblacionales por lo que las eventuales conclusiones que se desprendan de esa muestra podrían
estar equivocadas.

La nota anterior nos indica que, eventualmente, podríamos tomar la decisión incorrecta al realizar
una prueba de hipótesis pero, esa eventualidad es poca, es mucha?. La respuesta a esta pregunta
la podemos analizar a través de disponer de la probabilidad de equivocarnos en la decisión
tomada.

¿Qué posibles errores podemos cometer al realizar una prueba de hipótesis?

Errores al realizar una prueba de hipótesis: En el proceso de toma de decisiones al pretender
rechazar una hipótesis nula en una prueba de hipótesis es posible cometer dos tipos de error:

1. Error Tipo I: Cuando las evidencias muestrales indican que rechacemos
la hipótesis nula siendo verdadera.

2. Error Tipo II: Cuando las evidencias muestrales nos indican que no
podemos rechazar la hipótesis nula siendo falsa.

Todas las decisiones posibles al realizar una prueba de hipótesis se resumen en la tabla siguiente

Decisión ↓ Realidad → H0 es verdadera H0 es falsa
No se rechaza H0 CORRECTO ERROR TIPO II
Se rechaza H0 ERROR TIPO I CORRECTO

Ejemplo 3.5.2) Para la analogía entre la prueba de hipótesis y el desarrollo de un juicio de carácter
legal explicada en el ejemplo 3.5.1, indicar que se corresponde con los errores tipo I y tipo II. ¿Cuál
de los dos errores considera Usted peor?

Lo correcto sería que si el acusado es inocente sea declarado como inocente y que si es culpable
sea declarado como tal.

El error tipo I se correspondería con declarar como culpable a un inocente. El error tipo II se
correspondería con dejar libre al culpable. ¿Cuál error considera Usted que es peor?
Ю Ю



La respuesta a la comparación entre los posibles errores en el juicio del ejemplo anterior va a
depender del punto de vista del que emite la opinión pero, más allá de esto y volviendo con el
problema de la Estadística, debemos darnos cuenta que cualquiera sea la decisión tomada la
hacemos con base en la muestra aleatoria simple de la variable poblacional bajo estudio.

Ya que una muestra aleatoria simple es un vector de variables aleatorias la pregunta se puede
plantear como ¿Cuál es la probabilidad de equivocarnos? ¿Con qué probabilidad cometeremos un
error del tipo I, del tipo II?

El análisis que sigue relaciona la teoría de probabilidades con el estudio estadístico de una prueba
de hipótesis.

3.5.2) Región Crítica. Función de Potencia de la Prueba y Nivel de Significación.

Definición 3.5.6: Región Crítica o Región de Rechazo: Sea una muestra aleatoria simple (X1, X2, …,
Xn) de una población X con función de densidad fX(x; θ) y espacio paramétrico Θ. Sea ΩX el espacio
muestral asociado con esa muestra aleatoria simple. Se define como Región Crítica de la prueba, y
se representa con RC, al subconjunto de ΩX tal que si (X1, X2, …, Xn)Є RC, la decisión es rechazar
la hipótesis nula.

Ejemplo 3.5.3) Sea una muestra aleatoria simple de tamaño n = 10 de una población normal con
valor esperado desconocido y varianza igual a 9. Considere las siguientes hipótesis nula y alterna,
respectivamente, {H0: μ ≤ 1,5} y {H1: μ > 1,5}. Si la región crítica es RC = { 1,6}, ¿Qué
decisión se debe tomar para los dos grupos de datos muestrales dados a continuación?

n 1 2 3 4 5 6 7 8 9 10
Caso 1 1,1 2,2 1,0 0,9 0,8 1,5 1,3 0,7 1,0 2,0
Caso 2 1,8 2,1 1,3 1,9 2,0 1,7 0,8 2,3 1,8 1,2

Dado que la región crítica está asociada al valor que toma la media muestral habrá que conocer
ese valor, en cada caso.

Caso 1: 1,25. Dado que este valor no pertenece a la región definida como crítica o de
rechazo, la decisión debe ser no rechazar la hipótesis nula.

Caso 2: 1,69. Dado que este valor pertenece a la región definida como crítica o de rechazo,
la decisión debe ser rechazar la hipótesis nula.
Ю Ю


Apunttes de Vectorres Aleatorioss e Inferencia Estadística. Ingeniería Ind
dustrial. UCAB
B. Marzo 20166 56
Rafael AA. Díaz Chacón
n

Asociada a la regiónn crítica se tieene la probab
bilidad de quee la muestra p
pertenezca a lla región
crítica, esto define lla función de potencia de la prueba.

Definicción 3.5.7: Fu
unción de Pottencia de la P Prueba: Sea una muestra aaleatoria simp ple (X1, X2, …,
Xn) de una población X con función de densidad fX(x; θ) y eespacio param métrico Θ. Seaa ΩX el espaccio
muestrral asociado ccon esa muesstra aleatoria simple. Sea RC R la región crítica asociada a la prueb ba
de hipóótesis {H0: θ Є Θ0} vs {H1: θ Є Θ1}. La ffunción de pootencia P asoociada a esa rregión crítica se
define como
i. P: Θ Θ 1
0,1
ii. P(θ) = P{{Rechazar H0} = P{(X1, X2, …, Xn) Є RC}
}

A la rep
presentación gráfica de la función de p potencia se le denomina Cu urva de Poten ncia.

Ejempllo 3.5.4) Sea una muestra aleatoria sim mple de tamañ ño n = 2 de un
na población exponencial
con parámetro descconocido θ. Se desea contrastar las sigu uientes hipótesis nula y altterna,
respectivamente, {H0: θ ≤ 1} y {H1: θ > 1}. Obtenga la fu unción de pottencia para laa región crítica
RC = e la gráfica dee la Curva de Potencia.
. Halle

Nótesee que la función P es una ffunción de R+ en el intervvalo [0, 1].

Entoncces,
P(θ)
Pero,
4 4
~ ,2 1 1
3 3

En defiinitiva,
P(θ) 1 1 , 0

Graficaando la funció
ón resultante,

Ю Ю
dez
Reevisado por: Adelmo Fernánd


Ejemplo 3.5.5) Sea una muestra aleatoria simple de tamaño n = 8 de una población
uniformemente distribuida en el intervalo (0, θ). Se desea contrastar las siguientes hipótesis nula y
alterna, respectivamente, {H0: θ ≥ 2} y {H1: θ < 2}. Obtenga la función de potencia para la región
crítica RC = 2 0,05 . Halle la gráfica de la Curva de Potencia.

Nótese que la función P es una función de R+ en el intervalo [0, 1].

Entonces,
P(θ) 2 0,05 2 0,05
Pero,
0, 0
, 0
1,

En definitiva, y evaluando en n = 8,

0, 2 0,05 0 0, 0
1, 0 1,375
P(θ) 0,05 , 0 2 0,05
0,05 , 1,375
1, 2 0,05

Graficando la función resultante,

Ю Ю



Conocida la función de potencia de una prueba para una región crítica dada y de acuerdo a la
definición de los errores tipo I y tipo II, se pueden establecer las probabilidades de cometer cada
tipo de error. Estas serán probabilidades condicionales donde el evento condicionante es la
correspondiente hipótesis verdadera.

Definición 3.5.8: Probabilidad de cometer un error tipo I: Se define esta probabilidad como una
función del parámetro desconocido θ que llamaremos α(θ) tal que

⁄ Θ , Θ

Definición 3.5.9: Probabilidad de cometer un error tipo II: Se define esta probabilidad como una
función del parámetro desconocido θ que llamaremos β(θ) tal que

⁄ Θ 1 , Θ

Conocidas estas probabilidades se define el nivel de significación de la prueba:

Definición 3.5.10: Nivel de Significación o Tamaño de una Prueba de Hipótesis: El nivel de
significación de una prueba, se denota como α, es el máximo valor que toma la probabilidad de
cometer un error tipo I (α(θ)). Es decir,

max

Ejemplo 3.5.6) En el ejemplo 3.5.4 se obtuvo la función de potencia para la región crítica y prueba
indicadas allí. Obtenga las probabilidades de cometer errores tipo I y tipo II. Halle el nivel de
significación de la prueba.

La función de potencia resultó ser

P(θ) 1 1 , 0

Entonces, las probabilidades solicitadas serán, respectivamente,

4
⁄ Θ ⁄ Θ 1 1 , 0 1
3

4
⁄ Θ 1 ⁄ Θ 1 , 1
3

El nivel de significación de la prueba será

4
max 1 1 0,38494
3


Este valor ocurre cuando θ = 1 y se destaca en la curva de potencia del ejemplo 3.5.4.
Ю Ю

Ejemplo 3.5.7) En el ejemplo 3.5.5 se obtuvo la función de potencia para la región crítica y prueba
indicadas allí. Obtenga las probabilidades de cometer errores tipo I y tipo II. Halle el nivel de
significación de la prueba.

La función de potencia resultó ser

0, 2 0,05 0 0, 0
1, 0 1,375
P(θ) 0,05 , 0 2 0,05
0,05 , 1,375
1, 2 0,05

Entonces, las probabilidades solicitadas serán, respectivamente,

2
⁄ Θ ⁄ Θ 0,05 , 2

0, 0 1,375
⁄ Θ 1 ⁄ Θ 2
1 0,05 , 1,375 2

El nivel de significación de la prueba será

2
max 0,05 0,05

Este valor ocurre cuando θ = 2 y se destaca en la curva de potencia del ejemplo 3.5.5.
Ю Ю

Ejemplo 3.5.8) Sea X una variable aleatoria discreta que representa el resultado de una cierta
experiencia aleatoria. Suponga que su función de masa de probabilidades cambia a consecuencia
de un parámetro θ, como se indica en la tabla siguiente

X → 0 1 2 3 4 5
pX(xi; θ = 1) 0,02 0,03 0,05 0,05 0,35 0,50
pX(xi; θ = 2) 0,04 0,05 0,08 0,12 0,41 0,30

Se desea contrastar las siguientes hipótesis, {H0: θ = 1} y {H1: θ = 2}.Para ello se dispone de una
muestra de tamaño 1, X1. Obtenga todas las regiones críticas posibles con un nivel de significación
del 5% y, para cada región crítica, halle la función de potencia y la probabilidad de cometer error
tipo II. Seleccione la mejor región crítica.



Cuando una hipótesis está formada por un solo elemento se le denomina Hipótesis Simple. En
este caso, ambas hipótesis son simples. Entonces, el nivel de significación será el valor de la
función de potencia en dicho punto, en este caso se desea que α = 0,05.

En consecuencia, debemos ver cuáles valores de X1 son tales que su probabilidad de ocurrencia
sea igual a 0,05 cuando el valor del parámetro θ es igual a uno. Eso define las posibles regiones
críticas a considerar. Es decir,

RC1 = {x1 = 2} RC2 = {x1 = 3} RC3 = {x1 ≤ 1}

La función de potencia, en cada caso, resultó ser

0,05; 1
P1(θ) 2
0,08; 2

0,05; 1
P2(θ) 3
0,12; 2

0,05; 1
P3(θ) 1
0,09; 2

Entonces, las probabilidades de cometer el error tipo II solicitadas serán, respectivamente,

⁄ 2 1 ⁄ 2 1 0,08 0,92

⁄ 2 1 ⁄ 2 1 0,12 0,88

⁄ 2 1 ⁄ 2 1 0,09 0,91

Dado que el nivel de significación de la prueba es igual en los tres casos (5%) la mejor región crítica
será aquella con menor error tipo II o, equivalentemente, aquella que tenga mayor potencia. La
región crítica que cumple esta condición es la segunda, entonces, la mejor región crítica es

RC2 = {x1 = 3}
Ю Ю



3.6 Métodos para escoger la Región Crítica. Región Crítica asociada a un Intervalo de Confianza.

3.6.1) Métodos para escoger la Región Crítica.

La motivación de esta sección se planteará a través del análisis de ejemplo siguiente, tomado del
libro “Probabilidad y Estadística Aplicadas a la Ingeniería”, Montgomery, D.C. y Runger, G.C.,
Editorial Limusa Wiley, segunda edición, 2002.

Ejemplo 3.6.1) Para estudiar la rapidez de combustión del propulsor sólido utilizado para impulsar
los sistemas de expulsión de la tripulación de un avión, se ha enfocado el interés en el valor
promedio de la rapidez de combustión. La rapidez de combustión se considera una variable
aleatoria normal de la cual desconocemos su valor esperado μ pero conocemos su desviación
estándar σ (σ = 2,5 cm/s). Se desea contrastar dos hipótesis que han surgido en la discusión:
{H0: μ = 50 cm/s} y {H1: μ ≠ 50 cm/s}. Con la intención de tomar una decisión respecto a estas
Hipótesis se ha considerado como Región Crítica a la siguiente RC1 = { < 48,5 U > 51,5}, por
tanto la región {48,5 ≤ ≤ 51,5} sería la Región de Aceptación; siendo la media muestral de la
rapidez de combustión. Por supuesto, se desea estimar el parámetro desconocido μ a través de la
media muestral .

La figura siguiente resume el proceso de decisiones que se desea realizar,
No puede
rechazarse la
Hipótesis H0
Se rechaza la Se rechaza la
Hipótesis H0 Hipótesis H0
48,5 51,5

Dado que se utiliza la media muestral como estimador su distribución es una normal, por tanto,

√
~ , ~ 0,1

Para calcular la probabilidad del error tipo I (α) hay que especificar el tamaño de la muestra. El
ejemplo del texto de Montgomery sugiere considerar n1 = 10. Así las cosas,

48,5⁄ 50 51,5⁄ 50

48,5 51,5
50 50
2,5 2,5
10 10


1,90 1,90 0,0288 0,0288 0,0576

A continuación, Montgomery sugiere cambiar la región de Aceptación y ver su efecto con respecto
al resultado que acabamos de conseguir. La nueva región de Aceptación sería {48 ≤ ≤ 52}; esta
región es mayor que la anterior. Entonces, (para n1 = 10)

48⁄ 50 52⁄ 50

2,53 2,53 0,0057 0,0057 0,0114

¡Para un n constante, si aumenta la región crítica, α disminuye!

Examinando el efecto de conservar la región crítica y aumentar el tamaño de la muestra se tiene
que el valor de α será (Considerando RC1 y n2 = 16)

48,5⁄ 50 51,5⁄ 50

48,5 51,5
50 50
2,5 2,5
16 16

2,40 2,40 0,0082 0,0082 0,0164

¡Para una región crítica constante, si aumenta n, α disminuye!

Evidentemente, si acumulamos ambos efectos, α disminuye aún más.

Este mismo análisis se puede realizar con el error tipo II (β). Para ello, debemos considerar como
Hipótesis alterna un valor específico de μ. Para los fines del análisis, sea {H1: μ = μ1 = 52 cm/s}
(para RC1 y n1 = 10).

48,5 51,5
48,5 51,5⁄ 52 52
2,5 2,5
10 10

4,43 0,63 0,2643 0,0000 0,2643

Veamos el efecto en el valor de β de que la alternativa se acerque al valor frontera, es decir, que el
valor de μ en la hipótesis alterna esté más cerca del valor de frontera. Para ello, consideremos
{H1: μ = μ1 = 50,5 cm/s}, (para RC1 y n1 = 10).

48,5 51,5
48,5 51,5⁄ 50,5 50,5
2,5 2,5
10 10

2,53 1,27 0,8980 0,0057 0,8923


¡Para una región crítica y valor de n constante, si el valor alterno se acerca al valor frontera, la
probabilidad de cometer el error tipo II aumenta drásticamente!

Finalmente, si combinamos todos los efectos de cambio en regiones críticas, tamaño de la muestra
y valor de la alternativa se puede completar la tabla siguiente como resumen.

Región de Tamaño de Error tipo I (α) Error tipo II (β) Error tipo II (β)
Aceptación la Muestra cuando μa = 52 cuando μa = 50,5
{48,5 ≤ ≤ 51,5} 10 0,0576 0,2643 0,8923
{48 ≤ ≤ 52} 10 0,0114 0,5 0,9705
{48,5 ≤ ≤ 51,5} 16 0,0164 0,2119 0,9445
{48 ≤ ≤ 52} 16 0,0014 0,5 0,9918
Ю Ю

Como conclusiones del análisis del ejemplo anterior, podemos indicar lo siguiente:

• El tamaño de la región crítica, y por consiguiente, la máxima probabilidad de cometer el
error tipo I, α, siempre pueden reducirse mediante la selección apropiada de la región
crítica.

• Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de un
tipo de error siempre resulta en un incremento en la probabilidad del otro tipo de error;
esto es válido para un tamaño de muestra constante.

• Cuando la región crítica permanece constante, un incremento en el tamaño de la muestra
generalmente dará como resultado una reducción de la probabilidad de cometer ambos
tipos de error.

• Si la hipótesis nula es falsa, β se incrementa en la medida de que el valor verdadero del
parámetro se aproxima al valor frontera. El valor de β disminuye conforme se incrementa
la diferencia entre la verdadera media y el valor frontera.

En vista de que no podemos controlar cuan cerca o lejos está el verdadero valor del parámetro
desconocido de su estimación, enfocaremos nuestra atención en escoger una buena región crítica
para el análisis.



3.6.2) Región Crítica asociada a un Intervalo de Confianza.

En general, existen diversos métodos para escoger la región crítica. Entre ellos figuran los
contrastes de razón de verosimilitud, los contrastes uniformemente más potentes, los bayesianos,
etc. En este curso comenzaremos explicando un método que permite relacionar la prueba de
hipótesis con los intervalos de confianza.

En este método solo se analizaran contrastes de las 3 formas siguientes:

{H0: θ = θ0} vs {H1: θ ≠ θ0}

{H0: θ ≥ θ0} vs {H1: θ < θ0}

{H0: θ ≤ θ0} vs {H1: θ > θ0}

El primero de estos contrastes es bilateral o de dos colas mientras que los dos siguientes son
contrastes unilaterales o de una cola.

Recordemos que el intervalo aleatorio (T1, T2) es un Intervalo de Confianza al 100γ% para τ(θ), si se
cumple que

i. P{T1 < T2} = 1
ii. P{T1 < τ(θ) ∩ T2 > τ(θ)} = γ, donde γ no depende de θ.

y que la probabilidad γ se conoce como el Coeficiente de Confianza.

Se logra la relación entre el intervalo de confianza {T1, T2} y la prueba de hipótesis al establecer
una relación entre el coeficiente de confianza γ y el nivel de significación de la prueba, α.

La tabla siguiente muestra esa relación para los tres tipos de pruebas analizadas.

Hipótesis Alterna Relación entre γ y α Región Crítica a usar
θ ≠ θ0 γ = 1 ‐ α {(x1, x2, …, xn): T2 < θ0 U T1 > θ0}
θ < θ0 γ = 1 ‐ 2α {(x1, x2, …, xn): T2 < θ0}
θ > θ0 γ = 1 ‐ 2α {(x1, x2, …, xn): T1 > θ0}

Tabla 3.6.1: Relación entre γ y α.



Ejemplo 3.6.2) Sea una muestra de tamaño n de una población Normal con valor esperado μ
desconocido y varianza σ2 conocida. Obtenga la región crítica de tamaño α asociada con el
contraste {H0: μ ≥ μ0} vs {H1: μ < μ0}. Particularice esta región para los valores siguientes: μ0 = 3,
n = 16, α = 0,05 y σ = 5. Para estos valores hallar

i. La función de potencia y la gráfica de la curva de potencia.
ii. Las probabilidades de cometer los errores tipo I y tipo II.
iii. La probabilidad de detectar un desvío de 1,1.
iv. La decisión a recomendar si la media muestral es igual a 1.
v. La decisión a recomendar si la media muestral es igual a 0,8.
vi. El tamaño de la muestra requerido para que la prueba tenga una
probabilidad de 0,10 de no detectar un desvío de 1,3.

En el caso a de la tabla 3.4.2 se obtuvo que un intervalo de confianza del 100γ% para la media μ de
una población normal con varianza σ2 conocida viene dado por

,
√ √

Para la hipótesis alterna bajo estudio y la tabla 3.6.1 anterior de la relación entre γ y α se tiene que

√

y la región crítica debe ser,

RC = {(x1, x2, …, xn): < μ0} = {(x1, x2, …, xn): }
√ √

Para los valores particulares dados, , 1,645 , la región crítica es

RC = {(x1, x2, …, xn): 3 , } = {(x1, x2, …, xn): 0,94375 }
√

i. La función de potencia será

,
P{μ} 0,94375

La gráfica de la curva de potencia será (allí se destaca que P(3) = 0,05)



ii. Las probabilidades de cometer los errores tipo I y tipo II serán

0,94375
3
5
4

0,94375
3
5
4

Nótese que el mayor valor de la probabilidad de cometer el error tipo I es 0,05.

iii. La probabilidad de detectar un desvío de 1,1 es igual al valor que toma la función de potencia en
μ = μ0 – desvío = 3 – 1,1 = 1,9

, ,
P{1,9} 0,765 0,2221

iv. Si la media muestral es igual a 1 NO se cumple la condición establecida en la región crítica y por
tanto NO hay evidencias para rechazar la hipótesis nula.

Entonces la decisión a recomendar será: “No existen evidencias muestrales con un nivel de
significación del 5% que permitan concluir que el valor esperado de la variable bajo estudio es
menor que 3”

v. Si la media muestral es igual a 0,8 sí se cumple la condición establecida en la región crítica y por
tanto SÍ hay evidencias para rechazar la hipótesis nula.

Entonces la decisión a recomendar será: “Existen evidencias muestrales con un nivel de
significación del 5% que permiten concluir que el valor esperado de la variable bajo estudio es
menor que 3”



vi. Para determinar el tamaño de la muestra requerido para que la prueba tenga una probabilidad
de no detectar un desvío de 1,3 hay que resolver la ecuación siguiente

í 3 1,3 1,7 0,10

La región crítica a considerar (para los valores dados y n genérica) será

,
RC = {(x1, x2, …, xn): 3 }
√

Por tanto β(1,7) será

8,225
3 1,7
8,225 √
1,7 3 1,7 0,26√ 1.645
√ 5
√

Entonces,

1,7 0,26√ 1.645 0,10 0,26√ 1.645 , 127
Ю Ю

Ejemplo 3.6.3) Sea una muestra de tamaño n de una población Normal con valor esperado μ
desconocido y varianza σ2 también desconocida. Obtenga la región crítica de tamaño α asociada
con el contraste {H0: μ = μ0} vs {H1: μ ≠ μ0}. Particularice esta región para los valores siguientes:
μ0 = 5, n = 20, α = 0,01, 6 y s2 = 4,8. ¿Qué decisión se debe recomendar? Determine la
potencia de la prueba para μ = 7.

En el caso b de la tabla 3.4.2 se obtuvo que un intervalo de confianza del 100γ% para la media μ de
una población normal con varianza σ2 desconocida, viene dado por

,
; √ ; √


,
; √ ; √


RC = , ,…, : ; ;

√ √



RC = , ,…, : ;

√

Para los valores particulares de α, n y μ0 dados, ; , 2,8609 , la región crítica es

RC = , ,…, : 2,8609
√

Evaluando para la información muestral medida se tiene que 2,2478

5 6 5
1,9896
2,2478
√20 √20

Evidentemente, este valor cae fuera de la región de rechazo y, en consecuencia, se debe
recomendar no rechazar la hipótesis nula, llegando a la conclusión de que “no existen evidencias
muestrales al 1% de significación que permitan concluir que el valor esperado difiere de 5”.

Para determinar la función de potencia para μ = 7 hay que calcular la siguiente probabilidad

P{7} 2,8609 7
√

Para ello hay que recordar que (OJO: para μ = 5)

5
5, 20 ~ 0,1
√20

19
~

Y además, y son independientes, con lo que

5
√20 5
~
19
19 √20

Pero para μ = 7 todo cambia !!!

5 2√20 5
7, 20 ~ ,1 á
√20 √20


5
19
√20

5
7
√20
2√20

El estudio de esta distribución escapa a los alcances del curso. En consecuencia, no podremos
obtener la función de potencia para μ = 7.
Ю Ю

Ejemplo 3.6.4) Sea una muestra de tamaño n de una población Uniforme en (0, θ). Obtenga la
región crítica de tamaño α asociada con el contraste {H0: θ ≤ θ0} vs {H1: θ > θ0}. Particularice
esta región para los valores siguientes: θ0 = 4, n = 5 y α = 0,1. Para estos valores hallar

i. La función de potencia y la gráfica de la curva de potencia.
ii. Las probabilidades de cometer los errores tipo I y tipo II.
iii. La probabilidad de detectar un desvío de 2.
iv. La decisión a recomendar si los valores muestrales son iguales a
(1,1; 2,4; 1,1; 4,5; 0,8).
v. La decisión a recomendar si los valores muestrales son iguales a
(1,2; 3,5; 2,2; 1,1; 3,0).
vi. El tamaño de la muestra requerido para que la prueba tenga una
probabilidad de 0,98 de detectar un desvío de 0,5.

Como conclusión del ejemplo 3.4.10 se obtuvo que un intervalo de confianza del 100γ% para el
parámetro θ de una población uniforme en (0, θ) viene dado por

,
1 1
2 2


1
2




RC = , ,…, : , ,…, : √1
√

Para los valores particulares de α, n y μ0 dados, la región crítica es

RC = , ,…, : 4 √1 0,1 , ,…, : 3,9166

i. La función de potencia será

P{θ} 3,9166 1 3,9166

Pero,

0, 0
, 0
1,

Entonces,

0, 3,9166
P{θ} 3,9166 ,
1 , 3,9166

La gráfica de la curva de potencia será (allí se destaca que P(4) = 0,1)

ii. Las probabilidades de cometer los errores tipo I y tipo II serán, respectivamente,

0, 3,9166
3,9166
3,9166 , 4
1 , 3,9166 4



iii. La probabilidad de detectar un desvío de 2 es el valor que toma la función de potencia en θ = 6.

,
P{6} 1 0,8815

iv. Si los valores muestrales son iguales a (1,1; 2,4; 1,1; 4,5; 0,8) se tiene que X(5) = 4,5 el cual cae en
la región de rechazo por lo que la decisión debe ser “rechazar la hipótesis nula”.

Entonces la decisión a recomendar será: “Existen evidencias muestrales con un nivel de
significación del 10% que permiten concluir que el parámetro θ de la variable bajo estudio es
mayor que 4”

v. Si los valores muestrales son iguales a (1,2; 3,5; 2,2; 1,1; 3,0) se tiene que X(5) = 3,5 el cual cae
fuera de la región de rechazo por lo que la decisión debe ser “NO rechazar la hipótesis nula”.

En este caso la decisión a recomendar será: “NO existen evidencias muestrales con un nivel de
significación del 10% que permitan concluir que el parámetro θ de la variable bajo estudio es
mayor que 4”

vi. Para determinar el tamaño de la muestra requerido para que la prueba tenga una probabilidad
de 0,98 de detectar un desvío de 0,5 hay que resolver la ecuación siguiente

P(θ0 + desvío) = P(4 + 0,5) = P(4,5) = 0,98

Es decir, para θ0 = 4 y α = 0,1, resolver para n

√1 ⁄ 4,5 0,98

Es decir,

4 √0,9
4 0,9 4 0,9 0,02 32
4,5
Ю Ю


03 VAEIE Inferencia Estadística PDF

Cargado por

Copyright:

Formatos disponibles

03 VAEIE Inferencia Estadística PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

03 VAEIE Inferencia Estadística PDF

Cargado por

Copyright:

Formatos disponibles

Apuntes de Vectores Aleatorios e Inferencia Estadística. Ingeniería Industrial. UCAB.

, 0,75

, 0,75 0,75

1,17 1 1,17 0,91

0 0

, 46,267; 48,733

0 0

También podría gustarte