Estadistica ANAHUAC
Estadistica ANAHUAC
Estadistica ANAHUAC
Profesor:
Dr. Mauricio Ortigosa
Enero - Marzo 2018
CURRICULUM VITAE
Dr. Mauricio Ortigosa Hernández
Estudios realizados:
Estudió la Licenciatura en Actuaría en la Universidad Nacional Autónoma de México, posteriormente
obtuvo un Diploma de Posgrado en Métodos Cuantitativos e Informáticos Aplicados a la Gestión, en la
Universidad de Barcelona. Tiene el Master en Marketing en la Universidad Autónoma de Madrid y la
Maestría en Administración de Empresas en el Instituto Tecnológico y de Estudios Superiores de
Monterrey en la ciudad de México. Tiene el “Diplomado de Formación de Consultores”. Por último, obtuvo
el grado de Doctor por la Universidad de Barcelona en Estudios Empresariales dentro de la especialidad
de Investigación y Técnicas de Mercado con la Tesis: Una propuesta metodológica para medir el valor del
cliente en la incertidumbre.
Experiencia Profesional:
Como experiencia Profesional estuvo como jefe de la oficina de Estadística a cargo del sistema de
información a nivel nacional del Instituto Nacional para la Educación de los Adultos; desempeñó el puesto
de jefe de Departamento de Programación y Presupuesto en la XLIX Legislatura Local de la Cámara de
Diputados del Estado de México; Asesor de operaciones en la casa de Bolsa Probursa; Ejecutivo Adjunto
de Estadística en A.C. Nielsen Company en el área de investigación de mercados; Ha estado como
colaborador externo en la empresa Gallup México y en el Instituto DYM en Barcelona en el área
cuantitativa de investigación de mercados.
Experiencia Académica:
Ha trabajado como profesor en España en la Universidad Autónoma de Barcelona y Universidad de
Barcelona. En México en la Universidad Intercontinental, UNAM, Lasalle, UVM, ITAM e ITESM (Campus
Ciudad de México y Santa Fe). Ha sido profesor de diplomados en el área de capacitación de empresas del
ITESM impartiendo cursos en el D.F., el interior de la República Mexicana y en Ecuador. En los últimos
años en Barcelona, ha colaborado en diferentes Escuelas de Negocios e instituciones educativas tales
como la Universidad de Barcelona Virtual, Instituto Superior de Marketing y Escuela de Administración de
Empresas (EAE). En la actualidad es profesor-investigador en el Centro de Alta Dirección en Economía y
Negocios (CADEN) de la Universidad Anáhuac México Norte
correo electrónico: mauricio.ortigosa@anahuac.mx
Correo electrónico: mauriciortigosa@hotmail.com
Estadística
Objetivos Generales del curso
La asignatura tiene como objetivo proporcionar los conceptos básicos y
las herramientas en los campos de la estadística descriptiva y de
inferencia, para su aplicación práctica en las áreas financieras de
producción.
El alumno:
1. Analizará variables financieras a partir de la aplicación e
interpretación de las medidas de estadística descriptiva.
Se realizarán varias sesiones con el apoyo del Excel para que el alumno se
familiarice con estas herramientas en futuros análisis de datos.
Durante el curso, además de dar un marco teórico básico, se apoyarán las sesiones
con el desarrollo de ejemplos del mundo empresarial.
Programa de la asignatura
Temas y subtemas
1. Introducción a la Estadística
1.1 Definición de Estadística y conceptos básicos
1.2 Ramas de la Estadística: Descriptiva e Inferencial
1.3 Tipos de Variables y escalas de medición
Prácticas en Excel
Programa de la asignatura
4. Probabilidad
4.1 Enfoques de probabilidad: Axiomas
4.2 Distribuciones de probabilidad
4.3 Valor esperado (Esperanza matemática)
4.4 Distribución de probabilidad Binomial
4.5 Distribución de probabilidad Poisson
4.6 Distribución de probabilidad Normal
5. Estimación de parámetros
5.1 Proceso de estimación: puntual y por intervalo
5.2 Distribuciones muestrales o de muestreo de la media y la proporción
5.3 El nivel de confianza y su interpretación
5.4 Estimación de la media
5.5 Estimación de la proporción
5.6 Estimación de la varianza
Programa de la asignatura
6. Pruebas de hipótesis
6.1 Proceso de las pruebas de hipótesis
6.2 Nivel de significancia y su interpretación: Tipos de pruebas
6.3 Pruebas de hipótesis de la media (Regla de oro)
6.4 Prueba de hipótesis de la proporción
6.5 Prueba de hipótesis de la varianza
7. Análisis de regresión
7.1 Modelo lineal simple
Estimación de los coeficientes
Coeficiente de determinación
Prueba de significancia
Uso de la ecuación
Ejemplos
7.2 Modelo lineal múltiple
Diferencias entre ambos modelos
Ejemplos
Nota:
La participación es tomada en cuenta con la asistencia de la siguiente
forma:
11 asistencias calificación 10 (ninguna falta)
10 asistencias calificación 9 (una falta)
9 asistencias calificación 8 (dos faltas)
8 asistencias calificación 7 (tres faltas casos excepcionales)
Introducción a la estadística
En otras palabras…
Muestra
Es simplemente una parte (o subconjunto) de esas observaciones
(individuos u objetos)
Ejemplos:
• 500 de las cuentas de crédito hipotecario que tienen Santander
• 10 de los Bancos que operan en el territorio mexicano
• Las amas de casa de 30 a 60 años de la calle “Paseos de la Herradura”
Nota: La población y la muestra están determinadas por el problema, ya
que una muestra puede jugar el papel de población y viceversa
Población y muestra
Conceptos básicos
Parámetro (parámetro poblacional)
Es cualquier valor característico de la población. Sin embargo estos valores
son desconocidos porque no siempre podemos tener todos los datos de la
población para calcularlos.
Ejemplos:
• La edad media de la población de México: ?
• La proporción de fumadores en México: P?
La varianza de las edades de la población en México: ?
2
•
P p
Conceptos básicos
Estadístico (estadístico muestral)
Es el valor calculado en base a los datos que se obtienen sobre una
muestra. Es decir, el estadístico es la característica de una muestra y por lo
tanto es una estimación de los parámetros.
n n n 1
Ejemplos de estadísticos: _
• La edad media de una muestra de 10,000 personas de México es: x 45.3
• La proporción de fumadores de la muestra anterior: p p p 3000 0.30
10000
• La varianza de las edades de la misma muestra: S2 81
Parámetros y estadísticos
Ramas de la Estadística
Estadística descriptiva.
Se dedica a resumir datos provenientes de una muestra o de
toda la población con la finalidad de poder tener una mejor
comprensión del fenómeno en Estudio.
Los datos pueden ser resumidos numérica o gráficamente.
Las dos
clasificaciones
más comunes
población
muestra
Ejemplos de ambas estadísticas
Estadística descriptiva: Estadística inferencial:
La calificación promedio del La calificación promedio de ese
grupo no. 3 de estadística es grupo de estadística 7.5 , sirve
de 7.5 para generalizar (o inferir) el
promedio a 10 grupos de la
misma materia (estimación)
Por tanto, una variable es: un elemento de interés que puede tomar
muchos valores numéricos diferentes.
0 1 2 3 4 5 6 7 8 9 10
Escalas de medición
MEDIR
- Es la asignación de números a las observaciones, de modo que los
números sean susceptibles de análisis por medio de manipulaciones y
operaciones de acuerdo con ciertas reglas.
Para preparar datos para el análisis se debe estar familiarizado con una
jerarquía de cuatro escalas (numéricas) de medición o medida:
Nominal, Ordinal, Intervalo (Intervalar) y de Razón. Cuanto más alta
sea la posición que ocupa el tipo de dato en esta jerarquía, más
información contendrá la variable medida.
+
Variables Razón
cualitativas
Intervalo
Ordinal Variables
- Nominal
cuantitativas
Escala nominal
Las variables medidas en escalas nominales, se utilizan cuando se
pueden establecer categorías sin ningún orden. Las categorías sólo se
nombran o se enumeran pero no se pueden comparar.
Características de las categorías:
Son mutuamente excluyentes, puesto que cada individuo, objeto o
medida se clasifica en sólo una de ellas.
Los códigos (o números) utilizados en estas variables, no poseen ni
orden, ni distancia, ni origen.
Los números sirven sólo como etiquetas para identificar y clasificar
objetos. Los números carecen de valor matemático incluso podrían
ser letras.
Ejemplos: Estado civil, ocupación, sexo, religión, etc.
Ocupación:
1. Médico
2. Enfermera
Códigos: 1 2 3 4 5 3. Odontólogo
¿Eres mayor de edad? 4. Ingenieros
1 Si ( )
Código: Código: 2 No ( ) 5. Periodistas
Mujer F - 0 Hombre M - 1 6. Otras
ocupaciones
Escala ordinal
Las variables en escala ordinal, se componen de distintas categorías en las
que hay implícito un orden (más no la distancia métrica en ese orden).
Ordinal
¿Cuántos años tiene? ___
Propiedades y comparación entre las escalas
Niveles de medición
Propiedades Nominal Ordinal Intervalo Razón
Frecuencia
Conteo
Mínimo
Máximo
Moda
Mediana
Media
Rango
Desviación estándar
Varianza
Cuantiles (Percentiles)
Sesgo
Curtosis
TEMA 2
Una vez reunidos los datos, deben procesarse de tal manera que pueda
observarse cualquier patrón significativo. Lo anterior permite obtener
información significativa y con ella tomar decisiones.
Tablas de distribución de frecuencia
Color Frecuencia 31 a 40 2
41 a 50 6
Rojo 12
51 a 60 6
Verde 8 61 a 70 26
Azul 8 71 a 80 18
81 a 90 8
Amarillo 4
Total 66
Tablas de distribución de frecuencia
El Banco X establece, sobre la base de sus registros, que el número de
clientes que hicieron uso del “modelo de banca preferente”, durante
los últimos dos meses en una sucursal de muestra son los que se
presentan a continuación:
87 65 78 87 60 87 34 31 43 87
78 90 65 68 62 70 80 61 62 72
95 64 80 90 68 80 30 35 40 75
59 68 65 92 70 78 95 33 72 65
70 95 50 75 31 60 43 78 70 60
65 60 30 90 40 80 59 27 92 65
k 2k
0 1
1 2
2 4
3 8
4 16
5 32
6 64
7 128
etc. etc.
Por ejemplo si n = 60
La tabla nos sugiere utilizar 6 intervalos para poderlos agrupar
adecuadamente.
3) Escoger el número de renglones o intervalos a juicio del investigador
Tablas de distribución de frecuencia
El paso siguiente para elaborar la tabla de distribución de frecuencias
es calcular el tamaño de intervalo, en nuestro caso resultará de:
Tamaño de
intervalo
rango 68
i 8.5 9
K 8
número de
renglones
El siguiente paso es calcular los límites de los intervalos, iniciando
con los límites inferiores (LI) sumándole al número más pequeño el
tamaño del intervalo (i) “K” veces, en nuestro ejemplo: LI LS
27 35
27 + 9 = 36 36 44
36 + 9 = 45 45 53
45 + 9 = 54 etc. 54 62
63 71
72 80
81 89
90 98
Por lo anterior los límites superiores (LS) que nos quedan en nuestro
ejemplo son tomados de los inferiores pero con una unidad menos
36 -1 = 35
45 -1 = 44, etc.
Tablas de distribución de frecuencia
Número de
clientes Días
LI LS f
27 35 8
36 44 4
45 53 1
54 62 9
63 71 14
72 80 11
81 89 5
90 98 8
Tablas de distribución de frecuencia
Una de las columnas que podemos generar puede ser la que representa a
la frecuencia acumulada (fai) i
fa i f j
j 1
Es decir, la que nos responderá a la pregunta de ¿cuántos datos se fueron
presentando desde el primer intervalo (j=1) hasta el intervalo i?
De esta forma tendremos:
0.50 a 0.90 6
0.90 a 1.30 6
1.30 a 1.70 26
1.70 a 2.10 18
2.10 a 2.50 8
Total 66
Tablas de distribución de frecuencia
Respuesta:
Total 66 100
Tablas de distribución de frecuencia
Ejercicio: El Gerente de una tienda reunió la siguiente información sobre
la cantidad de veces que un cliente visita la tienda durante un mes.
Las respuestas de 51 clientes fueron las siguientes:
5 3 3 1 4 4 5 6 4 2
6 6 6 7 1 1 14 1 2 4
4 4 5 6 3 5 3 4 5 6
8 4 7 6 5 9 11 3 12 4
7 6 5 15 1 1 10 8 9 2
12
Gráfica de barras:
Es un método habitual de presentar en forma gráfica datos con escala
nominal u ordinal es decir, cualitativos . Cada barra representa la
frecuencia de una categoría y la altura es proporcional al número de
elementos de esa categoría. Se suelen separar las barras ya que el
eje horizontal no es la recta numérica
Ejemplos de gráfica de barras
Ejemplos de gráfica de barras
Gráficas: barras y pastel
Gráfica de pastel: (Pie, Circular o de Sectores)
Sobre todo se utiliza para datos cualitativos , este tipo de diagrama es útil
si se quiere hacer hincapié en los tamaños relativos de las
componentes de los datos. El circulo completo de 360 grados
representa el número total de observaciones.
Se suelen ordenar los sectores para hacer más evidente sus diferencias.
A partir de la frecuencia relativa se obtienen los grados y hay dos
alternativas:
gradosi fri 360 grados i %i 3.6
Histogramas, Polígonos y Ojivas
Histograma:
Se utiliza esta gráfica cuando los datos corresponde a escalas de
intervalos o de razón, es decir, se utilizan con datos cuantitativos.
La interpretación es similar a la grafica de barras
Ejemplos de histograma
Ejemplos de histograma
Ejemplos de histograma
Histogramas, Polígonos y Ojivas
Polígono de frecuencia:
Es otra alternativa similar al histograma y consiste en segmentos de recta
que conectan los puntos que forman las intersecciones de las
marcas de clase y las frecuencias de clase.
Ejemplo de histograma y polígono de frecuencia
Histogramas, Polígonos y Ojivas
Ojiva:
Concepto:
• La ojiva es un polígono de frecuencias acumuladas, es decir, en las
abscisas (horizontal) se colocan los límites superiores de cada
intervalo de clase y en las ordenadas (vertical) se coloca la frecuencia
acumulada (absoluta o relativa) de la clase.
Ejemplos de Ojivas:
Gráficas de líneas
Datos no agrupados
xi = cada uno de
n
x
los datos
i
i 1
x= Número total
n de datos = n
10 12 36 25 58 141
x 28.2
5 5
Media aritmética: Simple y ponderada
Media aritmética simple
Media aritmética simple para datos agrupados: la media de un conjunto de
valores agrupados (tabla de frecuencia) numéricos es la suma del
producto de la frecuencia de cada renglón por la marca de clase de
dicho renglón dividida entre el número de valores
Datos Agrupados
frecuencia por la marca de clase
k de cada renglón
f x
i 1
i i
x= Número total de
n datos = n
f x i i
(166 22.5) (437 32.5) .... (1 82.5) 91407.5
X= i 1
44.57
n 2051 2051
Media aritmética: Simple y ponderada
Media aritmética simple
Ejemplo: calcular el salario promedio de los 82 empleados de las
sucursales en la Cd. de México del Banco Santander:
f
f
12,500 17,500 $15,000 18
n 82
17,500 22,500 $20,000 35
22,500 27,500 $25,000 29
x
15000 *18 20000 * 35 25000 * 29 1695000 $20,670.70
82 82
Media aritmética: Simple y ponderada
Media aritmética ponderada
Media aritmética ponderada: Es el promedio de los datos en donde se le
da un peso o importancia específica a cada observación. Se calcula:
w x
Producto de cada uno
de los datos por su
i i ponderación
i 1
x w= n
w
i 1
i
Suma de las
ponderaciones
Media aritmética: Simple y ponderada
Ejemplo de media aritmética ponderada:
Suponga que los datos siguientes corresponden a tres compras de
materia prima en los últimos tres meses. Suponga que se desea
saber el precio promedio por kilo de la materia prima adquirida en
esos meses.
Observe que el precio varía desde $17.80 hasta $79.45 y que la cantidad
comprada varía desde los 19 Kg hasta los 75 Kg
Precio del Cantidad
Producto/kg comprada
Xi en Kg (Wi)
17.80 35.90 79.45 133.15
$17.80 75 x $44.38
$35.90 56 3 3
$79.45 19
w x i i
(33,333.33 * 0.7) (33,333.33 * 0.7) (33,333.33 * 0.7)
cartera= i 1
n
w
100,000
i
i 1
Ejemplo: Encontrar la moda de; 47, 48, 49, 49, 49, 51, 51, 52. Podemos
observar que el número que más se repite es el 49. Si ningún valor
se repite, no existe moda
Datos Agrupados:
Se localiza la clase modal buscando la frecuencia más alta y después se
aplica la siguiente fórmula:
1
X̂ = FI + * i Donde FI = Límite inferior de la clase modal
1 2 f = frecuencia más alta
i = amplitud del intervalo de la clase modal
donde : 1 f fanterior
2 f fposterior
1 17
X̂ = FI + * i 17500 * 5000 $21,195.65
1 2 17 6
donde : 1 f fanterior 35 18 17
2 f fposterior 35 29 6 Tamaño de intervalo
(22500-17500)
Mediana
Mediana : Es el valor central, el que delimita al 50% de los datos, es decir,
es el valor que se encuentra exactamente en la mitad de los datos.
Datos No agrupados:
En los datos ordenados se aplica la siguiente relación, para encontrar la
posición de los datos.
n 1
posición
2 Donde n = número total de datos
Entonces podemos tener sólo dos alternativas
1. El valor de la posición puede ser entero y lo único que debemos hacer
es contar el número de lugares que nos indica esta formula.
2. El valor de la posición nos da un valor decimal (.5) y entonces
debemos: sumar los valores involucrados y dividirlos entre 2.
Ejemplo: Obtener la mediana de los datos: 8, 7, 5, 13
Si tenemos los valores ordenados 5, 7, 8, 13 entonces la posición nos da
2.5 por tanto, tendremos que seleccionar a los números 7 y 8 para
luego sumarlos (15) y dividirlos entre 2 (7.5) . De esta manera
podemos afirmar que la mediana es 7.5
Mediana
Datos Agrupados:
Se localiza la clase o renglón que contiene a la mediana, con la siguiente
condición
n +1
fa posición
2
Es decir debemos encontrar la primera frecuencia acumulada que sea
mayor o igual a la posición, para posteriormente aplicar la siguiente
fórmula:
~ posición fa anterior
X = FI + *i
f
Donde:
FI = Frontera o límite verdadero inferior del renglón de la mediana
fa = Frecuencia acumulada anterior al renglón de la mediana
f = Frecuencia del renglón de la mediana
i = Tamaño del intervalo en el renglón de la mediana
Mediana
Datos Agrupados:
Ejemplo: Calcular el sueldo mediano de:
Lím. Inf. Lím. Sup. Salario No. de Frecuencia
x empleados acumulada
f fa
12,500 17,500 $15,000 18 18
17,500 22,500 $20,000 35 53
22,500 27,500 $25,000 29 82
Relación Simetría
Simétrica
~=X
X̂ X
~ X Sesgo positivo
X̂ X
~>X
X̂ X
Sesgo negativo
Ejemplo:
Si una persona ganó $30,000 en el año 2000 y $50,000 en el año 2010
¿Cuál es la tasa anual de incremento durante este período?
Note que los valores de 1.10, 1.20 y 1.30 son resultado de realizar lo
siguiente:
crecimient o porcentual 10
Y1 1 1 ( ) 1.10
100 100
Para el primer caso y se deberá hacer lo mismo para los otros dos datos.
Percentiles (P):
Los percentiles dividen a un grupo de datos en 100 partes iguales. Para
ello se requieren utilizar 99 percentiles.
3, 5, 6, 11, 14, 18, 19, 20, 24, 25, 26, 27, 28, 30, 31, 33, 34, 36, 44, 45, 47, 48,
49, 51 y 52
p 40
i n 25 10
100 100
p 30
i n 8 2.4
100 100
Como i no es un entero, usamos 3 (b) redondeando al siguiente entero es
3
Observar que el percentil puede o no ser uno de los valores de los datos
Percentiles, cuartiles y deciles
Si los percentiles representan el 1%, 2%, ... , 99% de los datos acumulados
respectivamente.
Como caso particular al calcular los percentiles tenemos a los
cuartiles y deciles:
• Cuartiles (Q): Representan el valor de los datos que acumulan el
25%, 50% y 75% respectivamente.
• Deciles (D): Representan el 10%, 20%, ... , 90% de los datos
acumulados respectivamente.
Cuartiles:
Primer cuartil p = 25
Segundo cuartil p = 50 coincide con la mediana de los datos
Tercer cuartil p = 75
Deciles:
Primer decil p = 10
Segundo dedil p = 20
Tercer decil p = 30
Etc.
Percentiles, cuartiles y deciles 2.6
2.7
Ejemplo: Un panel de economistas y financieros proporcionó 0.4
3.1
pronósticos de la economía estadounidense para los 2.7
próximos seis meses del 2007. Los cambios porcentuales 2.5
2.3
(%) en el PIB pronosticado por los 30 profesionales son los 2.7
siguientes 2.2
2.7
2.9
1.9
3.4
3.1
1.8
a) ¿Cuál es el pronóstico mínimo para el cambio porcentual en 0.9
el PIB? ¿Cuál es el pronóstico máximo? 2.8
1.1
b) Calcule la media mediana y moda 2.6
c) Calcule el primero, segundo y tercer cuartil 1.7
2
d) ¿Los economistas y financieros proporcionaron una 2.8
perspectiva optimista o pesimista de la economía 2.3
2.1
estadounidense? 2
2.8
2.5
2.4
3.5
0.5
Percentiles, cuartiles y deciles 0.4
0.5
a) ¿Cuál es el pronóstico mínimo para el cambio porcentual 0.9
1.1
en el PIB? ¿Cuál es el pronóstico máximo? 1.7
Paso 1 ordenamos los datos: 1.8
1.9
2.0
2.0
2.1
Pronóstico mínimo para el cambio porcentual en el PIB: 0.4% 2.2
2.3
Pronóstico máximo para el cambio porcentual en el PIB: 3.5% 2.3
2.4
2.5
b) Calcule la media mediana y moda: 2.5
2.6
2.6
0.4 0.5 ... 3.4 3.5 69 2.7
x 2.3% 2.7
30 30 2.7
2.7
2.8
~ = 2.5 2.5 2.5%
X
2.8
2.8
2 2.9
3.1
3.1
X̂ = 2.7% 3.4
3.5
Percentiles, cuartiles y deciles 0.4
c) Calcule el primero, segundo y tercer cuartil 0.5
0.9
Paso 1. Ordenar datos ok 1.1
Primer cuartil Q1: 1.7
p 25 1.8
Paso 2 calcular la ubicación i: i n 30 7.5 1.9
100 100 2.0
Paso 3 (b). Cómo i no es un número entero, se debe redondear al Q1
2.0
siguiente entero: 2.1
Entonces el primer cuartil es el dato en la ubicación 8 o sea: Q1 = 2.0% 2.2
2.3
2.3
Segundo cuartil Q2: p 50 2.4
i n 30 15 Q2 2.5
Paso 2 calcular la ubicación i: 100 100 2.5
Paso 3 (a) Como i es un número entero, el segundo cuartil 2.6
2.6
es el promedio de los valores entre las ubicaciones 15 y 16: 2.7
2.7
(2.5 2.5) 2.7
el segundo cuartil es el dato promedio 2.5 Q2 = 2.5% 2.7
2 Q3 2.8
2.8
Tercer cuartil Q3: 2.8
p 75
Paso 2 calcular la ubicación i: i n 30 22.5 2.9
100 100 3.1
3.1
Paso 3 (b). El tercer cuartil es el dato de la ubicación 23 o sea: Q3= 2.8% 3.4
3.5
Percentiles, cuartiles y deciles
d) ¿Los economistas y financieros proporcionaron una perspectiva
optimista o pesimista de la economía estadounidense?
~ 2.5% X̂ = 2.7%
x 2.3% X
Aplicamos la fórmula:
Posición del tercer cuartil = 825 => Tercer intervalo
pn 75(1099)
fa anterior 647
C = FI +
100 * i 300 100 *100 339.2146
f 452
Por lo que 339.2146 ubicado en el tercer intervalo, representa el valor que
divide a los datos en un 75% menores a ese número y un 25%
mayores a ese número
Medidas de dispersión (variabilidad)
Medidas de dispersión:
En general describen la variabilidad de un conjunto de datos y sirven de
complemento junto con las anteriores medidas de tendencia central
para obtener una descripción numérica más completa de los datos.
Rango
Desviación estándar y varianza
Coeficiente de variación
Datos agrupados:
rango LSk LI1
2 = i 1
N
o en forma simplificada
N
xi
2
2 i 1 2
N
Varianza y desviación estándar
EJEMPLO:
Supongamos que tenemos registrados el ingreso de una población de 12
familias
Núm. de Ingreso Núm. de Ingresos
familia familiar $ familia familiar $
1 19,000 7 45,000
2 17,000 8 39,000
3 22,000 9 38,000
4 18,000 10 44,000
5 28,000 11 34,000
6 34,000 12 10,000
( xi ) 2
(19,000 29,000) 2 (17,000 29,000) 2 ... (34,000 29,000) 2 (10,000 29,000) 2
=
2 i 1
N 12
n
( xi ) 2
1488,000,000
2 = i 1
124,000,000
N 12
$29,000
Varianza y desviación estándar
Otro ejemplo:
Si dos poblaciones tienen la misma media y tienen dos desviaciones
estándar poblacionales, podemos tener una fotografía de la
dispersión de ambas poblaciones:
Promedio de ingresos: $29,000 ambas poblaciones
$2,000
1
$5,000
2
Varianza y desviación estándar
n
i
x x 2
i 1
S2 =
n -1
o en forma simplificada
n 2
xi
2
S2 i 1 n x
n -1 n 1
Varianza y desviación estándar
x x
4.52 4.64 -0.12 0.02 2
4.43 4.64 -0.21 0.05 i
i 1
4.03 4.64 -0.61 0.38 S2 =
3.97 4.64 -0.67 0.45 n -1
4.30 4.64 -0.34 0.12
4.14 4.64 -0.50 0.25
4.04 4.64 -0.60 0.36
Promedio 4.64 Suma 10.09 S = S2
Varianza 0.44
Desviación estándar 0.66
Varianza y desviación estándar
Varianza poblacional:
k
f i x i
2
2 = i 1
N
o en forma simplificada
k 2
fi x i
2 i 1 2
N
Varianza muestral
k
f i x i x
2
i 1
S2 =
n -1
o en forma simplificada
k 2
fi x i
n x
2
S
2 i 1
n - 1 n - 1
fi x i
2
=2 i 1 2
N
Coeficiente de variación
Coeficiente de variación (CV): (Dispersión Relativa)
En ocasiones es necesario un estadístico descriptivo que indique cuán
grande es la desviación estándar en relación con la media. Esa
medida es el coeficiente de variación y se expresa como porcentaje
S
CV = 100, CV 100
x
Nota: Observe que para una población, la S = S se sustituye por 2
2
y la X por la
Conclusión:
SA 5.4 SB 3.4
CVA
(100) (100) 8.38% CVB
(100) (100) 26.15%
64.40 xB 13
xA
Respuesta: La acción B tienen un CV más grande que la acción A, por
tanto la acción B es más riesgosa
Coeficiente de variación
Otro ejemplo.
El consejo de administración de una corporación está estudiando la
posibilidad de adquirir una de las dos siguientes empresas (A o B) y
con mucho detenimiento analiza la administración de cada una de
ellas.
En los últimos cinco años, la empresa A alcanzó un promedio de
rendimiento sobre la inversión del 28%, con una desviación estándar
de 5.3%
La empresa B, en el mismo período, tuvo un promedio de rendimiento
sobre la inversión de 37.8% con una desviación estándar de 4.8%.
Considere en este caso, datos poblacionales
Suponemos que el riesgo se acompaña de una mayor dispersión relativa.
Empresa A A 28% A 5.3% CV 18.93%
A
Para cada valor xi, existe otro valor llamado punto zi (o valor
estandarizado) que se obtiene mediante la siguiente fórmula de
transformación:
x x
i
z
i
s
Importante:
Al punto zi puede ser interpretado como el número de desviaciones
estándar a las que xi se encuentra de la media x
Observación: z0
Valor (punto) z
(valores estandarizados)
Explicación con ejemplos:
Supongamos un reporte de ventas (en miles) en 5 sucursales cuya
cantidad en cada una es: 46, 54, 42, 46 y 32.
La media de ventas y la desviación estándar son: x 44 s 8
Calcular los puntos z que son equivalentes a los valores de ventas
originales anteriores:
x 2S
- Si z = 3 , al menos el 89% de los valores caen dentro de 3
desviaciones estándar alrededor de la media:
x 3S
- Si z = 4 , al menos el 94% de los valores caen dentro de 4
desviaciones estándar alrededor de la media:
x 4S
Teorema de Chebyshev
Problema 3 Teorema de Chebyshev:
Intercam, está elaborando un estudio relacionado con el tamaño de las
carteras de inversión de clientes considerados como pequeños y
medianos.
Para ello, se tomo un muestra de clientes donde se calculó el importe de la
cartera promedio que fue de $2,800,000 con una desviación estándar
de $500,000. Si un histograma revela que la distribución de la cartera
no se acerca a la normal, aplica el teorema de Chebyshev para
determinar dentro de qué rango de valores caería al menos el 85% de
las inversiones.
1
Solución:
1 2
0.85 z 2.58
z
El teorema dice que al menos el 85% de los valores están dentro de
z a partir de la media.
Para una media de $2,800,000 y una desviación estándar de $500,000, el
tamaño de las carteras se encuentran dentro de:
2,800,000 2.58(500,000) 2,800,000 1,290,000
($1,510,000;$4,090,000)
Teorema de Chebyshev
Problema 4 Teorema de Chebyshev:
Merrill Lynch concluyó un estudio relacionado con el tamaño de las
carteras de inversión en línea (acciones, bonos, fondos mutuos, y
certificados de depósito) en una muestra de clientes del grupo de 40 a 50
años de edad. A continuación se muestra el valor de las inversiones en
miles de dólares de los 70 participantes
Inversiones en miles de dólares
669.9 7.5 77.2 7.5 125.7 516.9 219.9 645.2
301.9 235.4 716.4 145.3 26.6 187.2 315.5 89.2
136.4 616.9 440.6 408.2 34.4 296.1 185.4 526.3
380.7 3.3 363.2 51.9 52.2 107.5 82.9 63
228.6 308.7 126.7 430.3 82 227 321.1 403.4
39.5 124.3 118.1 23.9 352.8 156.7 276.3 23.5
31.3 301.2 35.7 154.9 174.3 100.6 236.7 171.9
221.1 43.4 212.3 243.3 315.4 5.9 1002.2 171.7
295.7 437 87.8 302.1 268.1 899.5
x zs
242.73 1.41( 211.52) 242.73 298.24 ( 55.51,540.97)
x 3S
desviaciones estándar alrededor de la media:
Regla empírica
Ejercicio 1 Regla empírica:
Supongamos que Domino´s Pizza tienen durante un registro de 30 días
que la entrega promedio es de 20 minutos con una desviación
estándar de 5 minutos. Si asumimos que el tiempo de entrega a
domicilio se distribuye en forma de campana.
¿Podrías decirle rápidamente a la empresa cuantas pizzas tendrá que
regalar si llegan pasando los 30 minutos?. Utiliza la regla empírica
para dar una respuesta aproximada.
Respuestas:
El 68% de las pizzas son entregadas a domicilio entre los 15 y 25 minutos
Coeficiente de Sesgo
sesgo de Pearson
a3 =0 No hay sesgo. La
distribución es insesgada
a 3 próximos a 3 La distribución tiene sesgo
positivo o sesgo derecho.
a 3 próximos a -3< 0 La distribución tiene sesgo
negativo o sesgo izquierdo.
Medidas de forma: Momentos
Momento respecto de la Media:
Son resultados para calcular la simetría y curtosis
x x
n
r
Datos No Agrupados: i
mr i 1
n
fi x i x
n
r
Datos Agrupados mr i 1
n
En particular:
El primer momento respecto a la media (r=1) siempre es igual a cero.
El segundo momento respecto a la media (r=2) es la varianza
poblacional.
Medidas de forma: sesgo y curtosis
n n x i x 3
Datos no agrupados
a3 *
(n - 1)(n - 2) i 1 s
En términos de momentos es
n
i
3
x x
Datos no agrupados m3
a3 3
i1
S ns 3
Xi es la marca de clase
k fi la frecuencia de clase
f i x i x
3
S desviación estándar
Datos agrupados
a3 i 1
ns 3
Medidas de forma: sesgo y curtosis
Coeficiente Sesgo
momento de sesgo
(Coeficiente de
asimetría)
a3 = 0 No hay sesgo. La distribución es
insesgada
a3 > 0 La distribución tiene sesgo
positivo o sesgo derecho.
a3 < 0 La distribución tiene sesgo
negativo o sesgo izquierdo.
Medidas de forma: sesgo y curtosis
Curtosis:
Mide qué tan puntiaguda es una distribución, con respecto a la Normal, es
decir, analiza el comportamiento de los datos con respecto al eje de
las “Y”.
La distribución puede ser:
• Leptocúrtica: La distribución es más puntiaguda que la Normal, ya
que su desviación estándar es muy pequeña.
• Mesocúrtica: solo la distribución Normal (es el término medio).
• Platicúrtica: La distribución es menos puntiaguda que la Normal,
debido a que presenta una desviación estándar muy grande con
respecto a la distribución normal.
Medidas de forma: sesgo y curtosis
En términos de momentos, a 4 se calcula dividiendo el cuarto momento
respecto a la media entre la varianza al cuadrado (o la desviación
estándar a la cuarta) menos 3
n = Número total de datos
Datos No Agrupados: n
i
x x 4 y
S = desviación estándar
m4
a4 4 3 i 1
4
3
S nS
n
Datos agrupados
f i x i x
4 Xi = es la marca de clase
m4 fi = la frecuencia de clase
a4 4 3 i 1
4
3 y
S nS S = desviación estándar
n(n 1) n
xi x
4
3(n - 1) 2
a4
(n - 1)(n - 2)(n - 3) i 1 s (n - 2)(n - 3)
Medidas de forma: sesgo y curtosis
n 1
En donde:
xi = Valores de la variable x
yi = Valores de la variable y
x = media aritmética de la variable x
y = media aritmética de la variable y
(x i x )( yi y )
Covarianza poblacional: xy i 1
N
Medidas de asociación entre dos variables (cuantitativas)
Interpretación de la Covarianza:
S xy 0 S xy 0 S xy 0
Medidas de asociación entre dos variables (cuantitativas)
Ejemplo de covarianza:
Suponga que un administrador desea comprobar la relación lineal entre el
número de comerciales en un fin de semana y las ventas de
televisores a la semana siguiente y recaba una muestra de
observaciones durante 10 semanas
Nuestro administrador piensa que los comerciales (x) y el volumen de
venta (y) están relacionados Número de Volumen de
comerciales ventas
Semana (x) ($100s) (y)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
Medidas de asociación entre dos variables (cuantitativas)
Diagrama de dispersión entre el número de comerciales (x) y el volumen
de ventas $ (y)
Medidas de asociación entre dos variables (cuantitativas)
Calculo de la covarianza muestral
Número de Ventas
semana Comerciales (miles) xi x yi y ( xi x)( yi y )
xi yi
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Total 30 510 0 0 99
x 3 y 51
(x i x)( yi y )
99 Como es mayor que cero, tienen
S xy i 1
11 una relación lineal positiva las
n 1 10 1
variables
Medidas de asociación entre dos variables (cuantitativas)
En ocasiones se suele utilizar la siguiente fórmula alterna para calcular la
covarianza:
Nota: Observe que en este caso Sxy esta dividido entre n y no entre n-1 lo
que puede ocasionar una ligera diferencia, según la fórmula elegida.
n n
( x x)( y y) x y
i i i i
S xy i 1
i 1
xy
n n
Medidas de asociación entre dos variables (cuantitativas)
Ejemplo de covarianza: (con la fórmula alterna)
Suponga que un funcionario de cierto banco desea saber si existe
relación lineal entre el salario de sus clientes y la cantidad mensual
que ahorran, y para ello obtiene una muestra con los siguientes
datos:
año salario promedio en $ (x) Ahorro promedio (y)
1999 8590 171.8
2000 8323 158.1
2001 8055 185.3
2002 7788 155.8
2003 7520 142.9
2004 7253 166.8
2005 6985 139.7
2006 6651 126.4
2007 6584 151.4
2008 6116 122.3
La covarianza: x y i i
11343293.9
S xy i 1
xy (7386.5 x 152.05) 11212.065
n 10
Medidas de asociación entre dos variables (cuantitativas)
Si S xy 11212.065 0
Interpretación:
Es positivo, lo que implica que el salario y el ahorro se comportan de
manera similar y en el mismo sentido. A mayor cantidad de salario,
mayor cantidad de ahorro.
S xy Cov xy
rxy
SxS y SxS y
Medidas de asociación entre dos variables (cuantitativas)
Coeficiente de Correlación (de producto-momento de Pearson):
Es una medida del grado de relación (correlación) lineal entre dos
variables con datos cuantitativos
Nota importante: puede existir alta correlación , pero no necesariamente
una relación de causalidad. Ejemplo la calidad de los restaurantes y
el precio de los mismos; el número de personas en la política y la
delincuencia
Se utiliza habitualmente una Gráfica de Dispersión para ver si existe una
relación lineal entre las dos variables de interés X e Y.
Medidas de asociación entre dos variables (cuantitativas)
Si rxy es el coeficiente de correlación entre dos variables: 1 rxy 1
Diagrama que resume la fuerza y la dirección del coeficiente de
correlación:
Correlación Correlación
negativa No hay positiva
perfecta correlación perfecta
-1 -0.5 0 0.5 1
Correlación negativa Correlación positiva
Medidas de asociación entre dos variables (cuantitativas)
Ejemplos con diferentes niveles de correlación: 1 rxy 1
Medidas de asociación entre dos variables (cuantitativas)
En estadística podremos calcular el coeficiente de correlación (muestral)
de Pearson con la siguiente formula.
S xy Cov xy
rxy
SxSy SxSy
Ejemplo: Calcular el coeficiente de correlación del problema de los
comerciales y las ventas de televisores:
Semana
Comerciales
xi
Ventas
yi
xi x y i y ( x i x ) 2 ( yi y) 2
1 2 50 -1 -1 1 1
2 5 57 2 6 4 36
3 1 41 -2 -10 4 100 S xy
4 3 54 0 3 0 9
rxy
SxS y
5 4 54 1 3 1 9
6 1 38 -2 -13 4 169 11
7 5 63 2 12 4 144 0.93
(1.49)(7.93)
8 3 48 0 -3 0 9
9 4 59 1 8 1 64
10 2 46 -1 -5 1 25
Total 30 510 0 0 20 566
x 3 y 51
Sx
(x i x) 2
20
1.49 Sy
( y i y) 2
566
7.93
n 1 9 n 1 9
Medidas de asociación entre dos variables (cuantitativas)
xy
xy
x y
xy = covarianza poblacional
x = desviación estándar poblacional de x
y = desviación estándar poblacional de y
Medidas de asociación entre dos variables (cuantitativas)
Diagrama de dispersión
1.00
DJIA S&P500
0.80
0.20 0.24
0.60
0.82 0.19
0.40
-0.99 -0.91 S&P500
0.20
0.04 0.08 0.00
Series1
-0.24 -0.33 -1.50 -1.00 -0.50
-0.20
0.00 0.50 1.00 1.50
Probabilidad
Probabilidad 0 0.5 1
Un accidente de tráfico
Un factura impagada
Conjunto Intersección: A B {x A _ y _ x B}
U
Conjunto Complemento: A
c
{x A} A B
0 P( A) 1
2. Si S es el evento seguro, P( S ) 1
3. Si A y B son eventos mutuamente excluyentes, es decir: A B
P( A B) P( A) P( B)
4. Si A1, A2,… son mutuamente excluyentes
P( A1 A2 ...) P( A1) P( A2) ...
A continuación veremos unos teoremas que se desprenden directamente de los axiomas
anteriores…
Probabilidad
(Se llaman en ocasiones “reglas de probabilidad”)
Teorema 1 Si es el conjunto vacío, entonces
P ( ) 0
Teorema 2. Si Ac es el complemento del evento A , entonces
P( Ac ) 1 P( A)
Teorema 3. Si A B entonces
P ( A) P ( B )
P( A B) P( A) P( A B)
Teorema 5. Si A y B son dos eventos, entonces
P( A B) P( A) P( B) P( A B)
Distribuciones de probabilidad
Para comprender mejor el concepto de distribuciones de probabilidad
conviene entender primero el significado de una variable aleatoria
S
_ 0 +
xi 1 2 3 4 5 6
P(X = xi)= f(xi) 1/36 3/36 5/36 7/36 9/36 11/36
Observa que
P( X xi) f ( xi) 1
P( X xi) f ( xi) 0
Distribuciones de probabilidad
Representación gráfica de la distribución de probabilidad anterior
11/36
f(xi)
9/36
7/36
6/36
5/36
4/36
3/36
2/36
1/36
xi
1 2 3 4 5 6
xi 1 2 3 4 5 6
P(X = xi)= f(xi) 1/36 3/36 5/36 7/36 9/36 11/36
Distribuciones de probabilidad
Otro ejemplo de variable aleatoria y distribución de probabilidades
Con el mismo experimento de lanzar un par de dados, suponga ahora la
variable aleatoria (o la función) como la suma de los números
superiores en los dados. Es decir el experimento es:
X(S) = {2,3,4,5,6,7,8,9,10,11,12}
La imagen inversa de 2 es: (1,1)
La imagen inversa de 3 es: (2,1) (1,2)
La imagen inversa de 4 es: (2,2), (3,1),(1,3)
La imagen inversa de 5 es: (2,3),(3,2),(4,1),(1,4)
La imagen inversa de 6 es: (3,3),(5,1),(1,5),(4,2),(2,4)
La imagen inversa de 7 es: (4,3)(3,4),(2,5),(5,2)(1,6),(6,1)
La imagen inversa de 8 es: (4,4)(5,3),(3,5),(6,2),(2,6)
La imagen inversa de 9 es: (3,6),(6,3),(5,4),(4,5)
La imagen inversa de 10 es: (5,5),(6,4).(4,6)
La imagen inversa de 11 es: (5,6),(6,5)
La imagen inversa de 12 es: (6,6) y la función de distribución de probabilidades:
xi 2 3 4 5 6 7 8 9 10 11 12
f(xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Distribuciones de probabilidad
Representación gráfica de la distribución de probabilidad anterior
f(xi)
6/36
5/36
4/36
3/36
2/36
1/36
xi
2 3 4 5 6 7 8 9 10 11 12
xi 2 3 4 5 6 7 8 9 10 11 12
f(xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Valor esperado
(Esperanza matemática)
Valor esperado para variables aleatorias discretas : La media o esperanza
matemática denotada por E(X) normalmente, se define como:
n
E ( X ) x1 f ( x1 ) x2 f ( x2 )... xn f ( xn ) i 1 xi f ( xi ) xi P( X xi )
n
i 1
E ( X ) 1(1 / 36) 2(3 / 36) 3(5 / 36) 4(7 / 36) 5(9 / 36) 6(11 / 36) 4.47
Interpretación…
E ( X ) 2(1 / 36) 3(2 / 36) 4(3 / 36) ... 11(2 / 36) 12(1 / 36) 7
Interpretación…
Valor esperado
(Esperanza matemática)
Ejemplo 1
Se sabe que en determinado Banco la cancelación de cuentas de
derechohabientes durante una semana sigue la siguiente
distribución:
xi P(X=xi) = f(xi)
No de Probabilidad de
cuentas que suceda en
canceladas cualquier
semana
0 0.021
1 0.325
2 0.258
3 0.205
4 0.191
Sumas 1
Obtener el número promedio de cuentas canceladas que se espera para la
próxima semana.
Para determinar el valor esperado debemos multiplicar las cuentas por su
probabilidad y obtenemos:
No de cuentas Probabilidad
canceladas de que suceda
en cualquier
semana
xi f(xi) xi * f(xi)
0 0.021 0
1 0.325 0.325
2 0.258 0.516
3 0.205 0.615
4 0.191 0.764
Sumas 1 2.22
Ejemplos
El lanzamiento de una moneda 5 veces (verificar los puntos anteriores)
a (na,a,a) 2
na a (na,a,na) 1
na
na a (na,na,a) 1
na (na,na,na) 0
Distribución de probabilidad Binomial
¿Cuál es la probabilidad de que el Banco les autorice un crédito de auto a
los 3 próximos clientes que lleguen (3 éxitos)?
3 3!
Sólo hay una posibilidad y se comprueba con: 1
El único escenario es: 3 3!(3 3)!
(a,a,a) con probabilidad de este resultado = ppp = 0.30 x 0.30 x 0.30 = 0.027
→ f(3) = 0.027
x f (x)
3
0.30 0 (0.70) 3 0.343
0 0
3
0.301 (0.70) 2 0.441
1 1 1
3
0.30 2 (0.70)1 0.189
2 2
3
0.30 3 (0.70) 0 0.027
3 3
Distribución de probabilidad Binomial
Gráfica de la distribución de probabilidad binomial del ejercicio anterior:
f(xi)
0.60
0.50
0.40
0.30
0.20
0.10
xi
0 1 2 3
Número de clientes que se les autorice el crédito
Distribución de probabilidad Binomial
Problema 2
Un estudio de la Sociedad Americana de Inversores, descubrió que el 30%
de los inversionistas particulares había utilizado un agente o consultor
de inversiones (considere este resultado como éxito). En una muestra
aleatoria de 9 personas (inversionistas). ¿Cuál es la probabilidad de
que:
a) Exactamente dos personas hayan utilizado un consultor de
inversiones
b) Exactamente cuatro personas hayan utilizado un consultor
c) Ninguna persona haya utilizado un consultor de inversiones
d) Por lo menos tres personas hayan utilizado un consultor
Por Excel: Binomial con parámetros (n, p) = Binomial (9, 0.30)
a) Probabilidad = 0.2668 P ( X 2) 0.2668
xe
P( X x) f ( x) , x 0,1,2,3,...
x!
Donde:
f(x) = probabilidad de x ocurrencias en un intervalo
e 2.71828
Distribución de probabilidad Poisson
Ejemplo con intervalo de tiempo
Problema 1
En un centro telefónico de atención a clientes de una institución
financiera, se reciben en promedio 5 llamadas por hora. ¿Cuál es la
probabilidad de que en una hora seleccionada aleatoriamente se
reciban exactamente 3 llamadas?
5 e 2.71828 x e 53 e 5
f ( x) f (3) 0.1404
x! 3!
¿Cuál es la probabilidad de obtener en un hora seleccionada en forma
aleatoria, hasta un máximo de 3 llamadas? x
e
5 e 2.71828 f ( x)
x!
P( X 3) P( X 0) P( X 1) P( X 2) P( X 3)
[0.0067 0.0337 0.0842 0.1404]
0.2650
Distribución de probabilidad Poisson
Ejemplo con intervalo de tiempo
Problema 2
En una institución bancaria, un estudio reveló que bajo el formato de “fila
única” para acceder a las cajas, entre las 10:00 y las 13:00 de la
mañana hay un promedio de cuatro clientes en la fila de espera.
¿Cuál es la probabilidad de que al visitar una sucursal de esa institución
bancaria en ese horario se encuentre los siguiente?
a) No exista ningún cliente en la fila de espera:
b) Que exista cuatro clientes en la fila de espera
c) Que existe a lo más cuatro clientes en la fila de espera
d) Que exista al menos cuatro clientes en la fila de espera
Por Excel: Poisson con parámetro 4
a) Probabilidad = 0.0183 P( X 0) 0.0183
x e e 2.71828
f ( x)
x!
0.40 e 0.4
f (0) 0.67
0!
Distribución de probabilidad Poisson
Nota importante: en muchos casos cuando en una distribución binomial la
probabilidad de éxito es muy pequeña y el número de ensayos es
muy grande, se aproxima dicha función por la Poisson haciendo:
Ejemplo:
np
Se calcula que el 0.5% de quienes se comunican al departamento de
servicio al cliente en el Banco Santander escuchará un tono de línea
ocupada
¿Cuál es la probabilidad de que de las 1,200 personas que se comunicaron
hoy, por lo menos 5 hayan escuchado un tono de línea ocupada?
1200(0.005) 6
P( X 5) 1 P( X 5) 1 (0.2851) 0.7149
P( X 5) 1 P( X 4) 1 [ P( X 0) P( X 1)
P( X 2) P( X 3) P( X 4)]
1 (0.0025 0.0149 0.0446 0.0892 0.1339)
1 (0.2851) 0.7149
Distribución de probabilidad Normal
¿Qué diferencia hay al calcular la probabilidad entre una variable aleatoria
discreta como la Distribución Binomial y la Poisson y una variable
aleatoria continua como la normal?
( x )2
1
f ( x) e 2 2
2
Donde : N ( , )
= media (parámetro)
= desviación estándar (parámetro)
3.14159
e 2.71828
Distribución de probabilidad Normal
Características importantes sobre la distribución normal.
1. Toda la familia de distribuciones normales se diferencia por medio de
dos parámetros: la media y la desviación estándar
N ( , )
2. El punto más alto de la curva normal se encuentra sobre la media, la
cual coincide con la mediana y la moda
X N ( , )
Hay tres tipos de cálculos de probabilidades en términos generales:
P( x1 X x2 ) P( X x2 ) P( X x1 )
3. Probabilidad de que X sea mayor o igual que un valor dado x0
P( X x0 ) 1 P( X x0 )
En la actualidad las operaciones se simplifican mucho con el uso de Excel
u otras herramientas estadísticas
Distribución de probabilidad Normal
Problema 1
1. El precio promedio de las acciones que pertenecen al grupo de
empresas S&P500 es de $30 y las desviación estándar (poblacional)
es de $8.20. Suponga que los precios de las acciones están
distribuidos conforme a una distribución de probabilidades normal.
c) ¿De cuánto deben ser los precios de las acciones de una empresa para
que esté entre el 10% de las mejores
Distribución de probabilidad Normal
Respuestas:
datos: 30 8.2
a) ¿Cuál es la probabilidad de que el precio de las acciones de una
empresa de ese grupo sea por lo menos de $40.00?
P( X 40) 0.8888
P( X 20) ?
En Excel DISTR.NORM.N
P( X 20) 0.1112
Distribución de probabilidad Normal
Respuestas:
datos: 30 8.2
c) ¿De cuánto deben ser los precios de las acciones de una empresa para
que esté entre el 10% de las mejores
30
x 40.51
Distribución de probabilidad Normal
Problema 2
De acuerdo a la información de un operador de Bolsa, el rendimiento de
una acción determinada tiene una distribución normal con media del
10% y una desviación estándar del 2.5%.
P( X 12%) ?
P( X 12%) 1 P( X 12%) 1 0.7881 0.2119
P(7.5% X 12.5%) ?
10%
2 . 5%
8%
10%
( x )2 z2
1 1
f ( x) e 2 2
f ( z) e 2
2 z
x 2
Donde :
0
1 Ejemplo : z N (0,1)
3.14159 P (0 z Z )
e 2.71828
Distribución de probabilidad Normal Estándar
Calculo de probabilidades con la normal estandarizada ( Normal (0,1), o
normal tipificada)
En Excel es similar a cualquier normal pero se busca como:
Para calcular probabilidades: DISTR.NORM.ESTAND.N
Y para calcular los valores z de la base se usa la inversa:
INV.NORM.ESTAND
Como cualquier normal, se pueden calcular las probabilidades que es el
área bajo la curva entre dos puntos z o en forma acumulada a un
punto z. Ejemplos:
Distribución de probabilidad Normal Estándar
¿Cómo podemos calcular probabilidades con una normal estandarizada?
z N (0,1)
De igual forma, hay tres tipos de cálculos de probabilidades en términos
generales:
P( z1 z z 2 ) P( z z 2 ) P( z z1 )
3. Probabilidad de que z sea mayor o igual que un valor dado z0
P( z z 0 ) 1 P( z z 0 )
Como se mencionó, las operaciones se simplifican mucho con el uso de
Excel u otras herramientas estadísticas
Distribución de probabilidad Normal Estándar
¿Qué relación hay entre una normal con parámetros μ y σ, y la normal
estándar con valores z ?
Hay una relación haciendo una sencilla transformación de los valores
originales de la normal original a la normal estándar con:
x
z
Suponga N ( 2,4) (media 2 y desviación estándar 4)
62 22
Si x = 6 => z= 1 z 1 Si x = 2 => z= 0 z 0
4 4
10 2 32
Si x= 10 => z= 2 z 2 Si x = 3 => z = 0.25 z 0.25
4 4
22 02
Si x = - 2 => Z = -1 z 1 Si x = 0 => z = -0.50 z 0.50
4 4
Recordar que:
zi se interpreta como la distancia de xi a la media μ en términos del
número de desviaciones estándar σ
Distribución de probabilidad Normal Estándar
Interpretación gráfica del problema de las acciones del 10% de las
mejores empresas con valores Z
30
8.2 10% 10%
30
x 40.51 z 1.28
x 40.51 30
z 1.28
8.2
Distribución de probabilidad Normal Estándar
Si el camino es a la inversa: de valores z a los valores originales del
problema tenemos:
30
10% 8.2 10%
30
z 1.28 x 40.51
x 30
1.28
8.2
8.2(1.28) x 30 x 8.2(1.28) 30
x 40.51
TEMA 5
Estimación de parámetros
5.1 Proceso de estimación: puntual y por intervalo
5.2 Distribuciones muestrales o de muestreo de la
media y la proporción
5.3 El nivel de confianza y su interpretación
5.4 Estimación de la media
5.5 Estimación de la proporción
5.6 Estimación de la varianza
Proceso de estimación
El objetivo central del proceso de estimación es estimar el valor de un
parámetro poblacional a través de los llamados estadísticos
(estadísticos muestrales).
Las estimaciones más _ comunes son:
x
p p p P
S
S2 2
Los estimadores serán fórmulas que permitirán la estimación de los
parámetros respectivos. Con las fórmulas ya conocidas:
_
_
x
x i
x # individuos _ con _ x
p p p S
i
( x x ) 2
n n n n 1
Proceso de estimación
_
x 65k ilos
Tipos de
estimación
Estimación por intervalo: ejemplo
_ _
x 65 3 62kilos x 65 3 68kilos
_
x 65k ilos
Proceso de estimación
Interpretación del proceso de estimación:
Parámetro = centro
Estimación puntual
Distribución muestral (o de muestreo) de la media
Para cada muestra diferente se pueden obtener estimaciones puntuales
diferentes.
Si lo anterior se interpreta como una variable aleatoria,
_ entonces podemos
definir una distribución de muestral tanto para xcomo para p
_ _ _ _ _ _
x 1 1 .5 x2 2 x 3 2.5 x 4 2.5 x5 3 x 6 3.5
Distribución muestral (o de muestreo) de la media
_
Construyamos la distribución de probabilidades de x
2/6
1/6 _
x
1.5 2 2.5 3 3.5
Distribución muestral (o de muestreo) de la media
_
Calculamos la esperanza matemática de x
E ( x) 1.5(1 / 6) 2(1 / 6) 2.5(2 / 6) 3(1 / 6) 3.5(1 / 6) 2.5
1 2 3 4
Como es un ejemplo corto podemos calcular 2.5
4
Primera conclusión: E ( x) 2.5
_
Del mismo modo la desviación estándar de la distribución de muestreo de x
es con la siguiente notación:
_
x n
_
_ Desviación estándar de x Tamaño de la muestra n
x
Población infinita _ , _ se llama error estándar de la media
x n x
_
Usar la expresión _ para calcular la desviación estándar de x
x n
Siempre que:
1. La población sea infinita
2. La población es finita y el tamaño de la muestra sea menor o igual a un
5% ( Es decir, si n/N< 0.05 )
Distribución muestral (o de muestreo)
_ de la media
Forma de la distribución de muestreo de x
Hay dos casos:
Caso 1: Si la población _ original ya se distribuye como normal, la
distribución muestral de x es una normal para cualquier n
X N ( , ) x N ( , )
x
En resumen:
x N ( , )
_
E( x ) _
x x n
Distribución muestral de la proporción
Definición de distribución de muestreo de la proporción
La distribución de muestreo de p es la distribución de
probabilidad de
todos los posibles valores de la proporción muestral p
E ( p) 1(1 / 6) 0.5(4 / 6) 0(1 / 6) (1 / 6) (2 / 6) 3 / 6 0.5
La _ proporción _ poblaciona l _ P 2 / 4 0.5 _ coinciden!!!!!!
_
Pr imera _ conclusión :_ E ( p ) P
Distribución muestral de la proporción
p N ( P, )
_
P(1 P)
E( p ) P _ _ población _ inf inita
p p n
N n P(1 P)
_ población _ finita
N 1
_
p n
P(1 P)
p N ( P, ) _
_
p
E( p ) P p n
_
p N ( P, )
p
p
El nivel de confianza y su interpretación
El nivel de confianza es la probabilidad de que el verdadero valor del
parámetro se encuentre en el intervalo de estimación propuesto
El verdadero valor
del parámetro
La estimación por
intervalo es cada
intervalo para cada
muestra diferente.
De hecho, se tiene sólo
un intervalo en una
aplicación
específica
Estimación de la media
Estimación por intervalo:
No es suficiente con que un estimador puntual suministre el valor exacto
del parámetro poblacional, por eso la necesidad de realizar una
estimación por intervalo al sumar y restar al estimador puntual una
cantidad llamada margen de error.
p Margen de error
Las distribuciones de xy p son clave para calcular estas estimaciones
por intervalo
Estimación de la media
Fórmula 1 Estimación de la media suponiendo normalidad en los datos
Se utiliza para cuando σ es conocida (o se conoce) o bien se desconoce el
valor de sigma, pero la muestra es grande: n mayor o igual a 30 de
preferencia
z
Por tanto, sólo falta encontrar / 2 al 95% de confianza y es z / 2 1.96
Se desconoce
x $82
Estimación de la media
Fórmula 2. Estimación de la media suponiendo normalidad en los datos
Se utiliza para cuando σ es desconocida y se sustituye por su estimador S
y el tamaño de muestra es menor a 30
Nota: En estos casos utilizamos una nueva distribución llamada t-de
Student o distribución t
s Recordando que:
x t / 2 n
n ( x x)
i 1
i
2
S=
x Margen de error n -1
Estimación de la media
Distribución de probabilidad t
• La distribución t es una familia de distribuciones de probabilidad
similares; cada distribución t depende de un parámetro conocido como
grados de libertad.
• Cada distribución t es única para cada grado de libertad. Es decir, la
distribución t para un grado es única así como lo es una distribución t
para dos grados, etc.
• A medida que cada grado de libertad aumenta, la diferencia entre la
distribución t y la normal estándar se va reduciendo.
• La razón de que el número de grados de libertad para el valor de t sea
n–1 se debe al uso de s como estimación de la desviación estándar
poblacional σ.
• En el Excel al igual que la distribución de probabilidad normal, se
pueden obtener con facilidad las probabilidades y los valores t
Si vamos a calcular la probabilidad se usa: DISTR.T (VARIAS
OPCIONES)
Si lo que vamos a buscar son los valores t de la base de la función
usamos como siempre INV.T o bien INV.2C según convenga
Estimación de la media
Estimación de la media
Ejemplo 2
El director de finanzas desea estimar el número de días promedio de
cobranza que tiene para las cuentas por cobrar en su empresa. Para esto
analiza una muestra de 25 cuentas cobradas en el último mes de las
cuales, calcula que cada una se cobró en promedio en 20 días, con una
desviación estándar de la misma muestra de 5 días.
a) Con esta información, estime el número promedio (poblacional) de días
de cobranza con un nivel de confianza del 0.99 de probabilidad (99%)
Sabemos por los datos del problema que:
n
i
( x x ) 2
x 20días S= i 1
5días
n -1
Al no conocer σ usamos la fórmula 2 (además el tamaño de muestra es
menor a 30)
s
x t / 2
n
Buscamos el valor en las tablas t con n-1 = 69 grado de libertad (o en
excel con INV.T)
t / 2 2.797 _ con _ 24 _ grados _ de _ libertad
Estimación de la media
Continuación…
s 5
x t / 2 20 2.797 20 2.797
n 25
P (20 2.797 20 2.797) 0.99
P (17.203 22.797) 0.99
b) Si en lugar de una probabilidad del 0.99 (99%) (nivel de confianza)
relajamos a una probabilidad de 0.90 (90%) ¿Cuál sería el nuevo
intervalo?, menciona si creció o se redujo el nuevo intervalo.
Tamaño de la muestra
Distribución normal Z
(Fórmula 1)
30 o mayor
σ conocida Distribución normal Z
(Fórmula 1)
Población σ no conocida y
normal es estimada por S
Menor que 30 Distribución t
(Fórmula 2)
Población
no normal
y la fórmula es:
p(1 p)
p z / 2
n
p Margen de error
Donde:
1 es el nivel de confianza, z / 2 es el valor en tablas de la normal
100
p 0.25
400
Estimación de la proporción
b) Realice una estimación por intervalo con el 95% de confianza, para la
proporción (poblacional) de clientes “select” que les gustaría el nuevo
producto financiero.
p (1 p )
Sabemos que… p z / 2
n
Sustituimos:
(0.25)(0.75)
0.25 1.96 0.25 1.96(0.0217) 0.25 0.0424
400
O bien : (0.21,0.29)
O bien: (0.02;0.08)
i
( x x ) 2
S2 2 S2 = i 1
n -1
Cuando se hacen estimaciones acerca de la varianza poblacional mediante
la varianza muestral, es útil la distribución de muestreo de la cantidad:
(n 1) S 2 / 2
Siempre que de una población normal se toma una muestra aleatoria
simple de tamaño n, la distribución de muestreo de (n 1) S /
2 2
Nota: Este resultado servirá tanto para estimaciones por intervalo como
para realizar pruebas de hipótesis acerca de la varianza poblacional
Estimación de la varianza
Distribución ji-cuadrada
• La distribución ji-cuadrada es una familia de distribuciones de
probabilidad donde depende del parámetro: grados de libertad.
• Cada distribución ji-cuadrada es única para cada grado de libertad.
• La ji-cuadrada no es simétrica. Cambian de forma según los grados de
libertad. En general tienen un sesgo a la derecha
• El número de grados de libertad para el valor de ji-cuadra sea n–1 se
debe al uso de s como estimación de la desviación estándar poblacional
σ.
• Todos los valores ji-cuadrados son positivos
• En el Excel se pueden obtener las probabilidades y los valores ji-
cuadrada
Si vamos a calcular la probabilidad se usa: DISTR.CHICUAD o bien
DISTR. CHICUAD.CD
Si lo que vamos a buscar son los valores ji-cuadrada de la base de la
función usamos como siempre INV.CHICUAD o bien
INV.CHICUAD.CD según convenga
Estimación de la varianza
Forma de la distribución ji-cuadrada (caso particular 95% al centro con 19
grados de libertad)
Distibución ji-cuadrada
0.025
0.025
(1 / 2 ) 2 2 / 2 2
( ) ( )
(n 1) S 2
(1 / 2 ) 2
( / 2 )
2
( )
2
Despejando 2
haciendo algunas manipulaciones algebraicas tenemos:
(n 1) S 2 ( n 1 ) S 2
… Fórmula 4
2
( / 2 ) (1( / 2))
2 2
i
( x x ) 2
S2 = i 1
0.4748
n -1
i
( x x ) 2
S= i 1
0.6891
n -1
Estimación de la varianza
3. Realice una estimación por intervalo al 95% de nivel de confianza para
la varianza poblacional y la desviación estándar poblacional
(n 1) S 2 (n 1) S 2
Partimos de:
2
0.025 2
0.9752
En el excel se pueden obtener los valores en tablas con: INV.CHICUAD.CD
21.920 3.816
5.2228 5.2228
2 0.2383 2 1.3687
21.920 3.816
La estimación de la varianza en términos del nivel de confianza es:
Pruebas de hipótesis
H 0 : p 0.06
H 1 : p 0.06
Proceso de las pruebas de hipótesis
El cliente quien desea hacer una fuerte inversión decide poner a prueba la
hipótesis del operador. Para ello, selecciona una muestra de 15 días
donde registra la cotización diaria de las acciones y el cálculo de la
varianza en la muestra resultó de S 2 = 0.4
Paso 1 (hipótesis)
x 0 x 0 z
p p0 ( n 1 ) S 2
z t p0 (1 p0 ) 2 ,etc.
/ n s/ n 0 2
n
Proceso de las pruebas de hipótesis
5 Pasos recomendables para realizar una prueba de hipótesis:
Estos valores se obtienen con tablas estadísticas o bien con el uso del
Excel.
z , t , * , etc.
* * 2
Proceso de las pruebas de hipótesis
5 Pasos recomendables para realizar una prueba de hipótesis:
5. Comparar el estadístico de prueba con el valor crítico y según la posición
de ambos valores tomar la decisión.
Región de
Región de
rechazo
aceptación
de Ho
de Ho
(No se rechaza Ho)
0.05
Valor crítico
z * 1.645
z Estadístico de prueba
Nota: En caso de programas estadísticos apropiados, esta actividad se
simplifica al utilizar el Método del valor-p (Regla de oro), como
veremos más adelante.
De hecho el valor p en una prueba de hipótesis se define como el menor
nivel de significancia al cual se rechaza la hipótesis nula
Nivel de significancia y su interpretación: Tipos de pruebas
Nivel de significancia α o nivel de riesgo: es la probabilidad de rechazar
H0 cuando es verdadera
Situación Real
H0 es verdadera H0 es falsa
H 0 : 0 Región
Región de
aceptación Región de
rechazo de Ho rechazo
H 1 : 0 de Ho (No se rechaza Ho)
de Ho
/2 /2
z* z*
2. Una cola (ejemplo)
H 0 : 0 Región de
aceptación Región de
de Ho rechazo
H 1 : 0 (No se rechaza Ho)
de Ho
z*
Nivel de significancia y su interpretación: Tipos de pruebas
H 0 : 0
de Ho Región de
aceptación
de Ho
H 1 : 0
(No se rechaza Ho)
z*
Prueba de hipótesis de la media
Problema 1 Prueba de hipótesis para la media con σ conocida
El director de Finanzas de una empresa empacadora de alimento de cereal
está preocupado por el exceso de producto empaquetado. Lo anterior
se basa en una muestra aleatoria de n=25 productos cuyos datos
fueron:
x 372.5 gramos
s 15 gramos _ se _ toma _ como _ valor _ aceptable _ de _
Si en realidad hay más de 368 gramos que es lo indicado en la etiqueta, la
empresa está perdiendo dinero.
Por tanto, el director de Finanzas está interesado en conocer si el nivel
promedio de llenado es superior a 368 gramos.
Paso 1 (hipótesis)
H 0 : 368 gramos
Región de
aceptación Región de
de Ho rechazo
de Ho
0.05
z * 1.645
z 1.5
Prueba de hipótesis de la media
Método del valor-p
Otra forma de ver esto es con el valor-p del estadístico de prueba:
Valor-p es una probabilidad que aporta una medida de la evidencia
suministrada por la muestra contra la hipótesis H0. Valores-p
pequeños indican una evidencia mayor contra H0.
NOTA: Este método es el más utilizado en los paquetes informáticos
0.05
z
z * 1.645
Prueba de hipótesis de la media
Método del intervalo de confianza para probar una hipótesis de dos colas:
Se utiliza para pruebas de dos colas, ejemplo para la media poblacional:
H 0 : 0
H 1 : 0
1. Seleccionar de la población una muestra aleatoria simple y emplear el
valor de la media muestral x para obtener un intervalo de confianza de la
media poblacional µ.
Fórmula 1 tema estimación de parámetros… x z / 2
n
2. Si el intervalo de confianza contiene el valor hipotético µ0, H0 no es
rechazada. En caso contario H0 es rechazada
Región de
aceptación 0.05
de Ho
(No se rechaza Ho) valor p 0.021
Z * 1.64
Z 2.04
Si el valor-p (o nivel de significancia) es < 0.05 => Se rechaza H0
Paso 1 (hipótesis)
H 0 : 40
H 1 : 40
Prueba de hipótesis de la media
Paso 2 Supongamos un nivel de significancia α=0.05
H 1 : 230
Región de
las _ compras _ tuvieron
aceptación Región de un _ cambio _ significativo
de Ho rechazo
(No se rechaza Ho)
de Ho con _ la _ promoción
0.05
t * 1.67
t 4.29
Prueba de hipótesis de la media
Problema 5 Prueba de hipótesis para proporciones
En una muestra de 105 comercios seleccionados al azar de una zona,
se observa que 27 de ellos han tenido perdidas en este mes.
Un analista en economía de la zona establece que la proporción de
comercios en la zona con pérdidas es igual o superior a 0.35 (35%)
de Excel)
y realizamos la comparación entre los valores z:
Prueba de hipótesis de la media
Paso 5 Decisión:
H 1 : p 0.35
la _ proporción _ de _
comercios _ con _ pérdidas
Región de
aceptación
se _ sospecha _ que es _ menor
Región de
de Ho
rechazo
(No se rechaza Ho) al _ 0.35 _(35%)
de Ho
0.05
z * 1.65
z 1.93
Prueba de hipótesis de la proporción
H 0 : p 0.12
Paso 1 (hipótesis)
H 1 : p 0.12
Prueba de hipótesis de la proporción
Paso 2 Supongamos un nivel de significancia α=0.05
Paso 3 La hipótesis se basa en una muestra de 150 clientes y de ellos 23
han incumplido
_
el pago del crédito automotriz
otorgado
p 23 / 150 0.15 p p0
El estadístico de prueba apropiado es: z
p0 (1 p0 )
n
p p0 0.15 0.12 0.03 0.03 0.03
z 1.15
p0 (1 p0 ) 0.12(0.88) 0.1056 0.000704 0.026
n 150 150
Paso 4 Para una .05 z 1.645 es el valor de tablas (valor crítico)
*
El cliente quien desea hacer una fuerte inversión decide poner a prueba la
hipótesis del operador. Para ello, selecciona una muestra de 15 días
donde registra la cotización diaria de las acciones y el cálculo de la
varianza en la muestra resultó de S 2 = 0.4
Paso 1 (hipótesis)
S2 1
0.4
14
(n 1) S 2 14(0.4) 5.6
2
28
02 0.2 0.2
Prueba de hipótesis de la varianza
Paso 4 Para una .05 *0.05 23.7 es el valor critico con 14 grados
2
de libertad
y realizamos la comparación entre los valores de
2
Región de
Región de rechazo
aceptación de Ho de Ho
0.05
*0.05 2 23.7
2 28
Prueba de hipótesis de la varianza
Región de
Región de rechazo
aceptación de Ho de Ho 0.05
*0.05 2 23.7
2 28
Prueba de hipótesis de la varianza
Problema 10 Prueba de hipótesis para la varianza
El Banco BBVA Bancomer, que utiliza filas individuales en las distintas
ventanillas, encontró que la desviación estándar de los tiempos de
espera los viernes en las tarde, distribuidos normalmente, era de 6.2
minutos. El Banco experimentó con una fila única y observó que con
una muestra aleatoria de 25 clientes, los tiempos de espera tenían
una desviación estándar de 3.8 minutos.
Utilice un nivel de significancia de 0.05 para probar la aseveración de que
la fila única causa una menor variación en los tiempos de espera.
H 0 : 2 38.44
H 1 : 2 38.44
Prueba de hipótesis de la varianza
Paso 2 Supongamos un nivel de significancia α=0.05
(n 1) S 2 24(14.44) 346.56
2
9.02
02 38.44 38.44
Prueba de hipótesis de la varianza
Paso 4 Para una .05 *0.95 2 13.848 es el valor critico con 24 grados
de libertad
y realizamos la comparación entre los valores de 2
Región de
rechazo
de Ho
Región de
0.05 aceptación de Ho Aceptamos _ H 1 : 2 38.44
o _ bien _ H 1 : 6.2 min utos
en _ ter min os _ de
*0.95 13.848
2
9.02
2 desviación _ estándar
Resumen de algunos estadísticos de prueba
Prueba de hipótesis para la media con varianza conocida
x 0
Normal
z
/ n
Prueba de hipótesis para la media con varianza desconocida
x 0
Distribución t con
n-1 grados de libertad
t
s/ n
Prueba de hipótesis para la proporción p p0
z
Normal
p0 (1 p0 )
n
Resumen de algunos estadísticos de prueba
Si de una población normal se toma una muestra aleatoria simple de
tamaño n, el estadístico de prueba para la varianza poblacional es:
H 0 : 1 2 H 0 : 1 2 0 H 0 : p1 p2 H 0 : p1 p2 0
H 1 : 1 2 H 1 : 1 2 0 H 1 : p1 p2 H 1 : p1 p2 0
En los libros de estadística se encuentran resúmenes de éstos
estadísticos de prueba
TEMA 7
Análisis de regresión
7.1 Modelo lineal simple
Estimación de los coeficientes
Coeficiente de determinación
Prueba de significancia
Uso de la ecuación
Ejemplos
7.2 Modelo lineal múltiple
Diferencias entre ambos modelos
Ejemplos
Análisis de Regresión
Y 0 1 X 1 2 X 2 3 X 3 ... k X k
Donde:
Y Es la variable dependiente
Xi Es la variable independiente
βi Es el coeficiente del modelo para cada variable Xi
ε Es el término del error que corresponde a la variabilidad de y que no se
puede explicar con las k variables independientes (valor teórico)
Análisis de Regresión
El análisis de regresión es aplicable (útil) cuando se tiene que responder a
preguntas del tipo:
¿Cuál es la beta del mercado de la empresa IBM comparada con el
mercado?
IBM 0 1 BMV1
X Y (Relación causa-efecto)
1 rxy 1
Modelo lineal simple
Una interpretación geométrica al construir una ecuación de regresión
simple es encontrar una línea recta que minimiza las distancias de cada
punto original de Y a la recta (Método de Mínimos Cuadrados)
A esas diferencias se les conoce como residuales/errores: ei yi yi
Se llama Error si la diferencia hace referencia a los datos de la población
(teórico)
Se llama Residual si la diferencia son los datos de la muestra (observados)
ei yi yi
Y 0 1 X 1
b0 _ es _ un _ estimador _ de _ 0
b1 _ es _ un _ estimador _ de _ 1
Coeficiente de determinación
El coeficiente se puede explicar en términos porcentuales (%) e indica la
variabilidad que tiene la variable dependiente (Y) que fue captada o
explicada en forma lineal por la variable independiente (X1)
0 R2 1
Criterio: entre más cerca del 100% es mejor el modelo o bien entre más
cerca del 1 es mejor
Prueba de significancia
Y 0 1 X 1
Esta prueba de hipótesis sirve para saber si el modelo es estadísticamente
significativo. En otras palabras, se trata de probar que β1≠0, ya que de lo
contrario, significa que las dos variables no están relacionadas
H 0 : 1 0
H1 : 1 0
H 0 : 1 0
H1 : 1 0
Esta prueba se resuelve con el estadístico t y con el nivel de significancia
(valor p) correspondiente a ese estadístico
Si la ecuación es:
Y 20 2.5 x1
s Error _ típico
xi valor _ del _ pronóstico
Uso de la ecuación
Pronósticos
Interpretación del coeficiente b1:
1. El signo del coeficiente b1 (+/-) repercute en el comportamiento de la
variable dependiente en la misma magnitud que b1 por cada unidad
adicional
Suponga la ecuación de regresión anterior: Y 20 2.5 x
1
Suponga que la beta del mercado de Xerox era de 1.22 (30 de Enero de 2009)
y queremos estimar la beta del mercado de la empresa IBM y hacer
finalmente una comparación entre las dos empresas.
Para ello, las cifras siguientes son diferencias entre rentabilidad porcentual
y rentabilidad libre de riesgo a lo largo de 10 trimestres para S&P 500 y
la empresa IBM
S&P 500 1.2 -2.5 -3.0 2.0 5.0 1.2 3.0 -1.0 0.5 2.5
IBM -0.7 -2.0 -5.5 4.7 1.8 4.1 2.6 2.0 -1.3 5.5
Análisis de regresión
a) Obtenga la ecuación de regresión estimada que sirva para determinar
la beta del mercado de IBM (Y) ¿Cuál es la beta del mercado de esta
empresa? (con su gráfica de dispersión)
d) Utilice las betas del mercado de Xerox y de IMB para comparar los
riesgos asociados con estas dos acciones.
Análisis de regresión
Se utilizó el excel para la regresión lineal, donde X = S&P 500 y Y= IBM
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.685
Coeficiente de determinación R^2 0.470
R^2 ajustado 0.403
Error típico 2.664
Observaciones 10
ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 1 50.26 50.26 7.08 0.029 P-value
Residuos 8 56.78 7.10
Total 9 107.036
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%
Intercepción 0.27 0.90 0.31 0.77 -1.80 2.35 -1.80 2.35
Variable X 1 0.95 0.36 2.66 0.03 0.13 1.77 0.13 1.77
Análisis de regresión
La ecuación de regresión con su gráfica de dispersión es:
Ecuación de regresión de la beta de IBM= 0.95
8
0 S&P 500
-4 -3 -2 -1 0 1 2 3 4 5 6
-2
y = 0.9498x + 0.2747
-4 R² = 0.4695
-6
-8
IBM
Análisis de regresión
a) Obtenga la ecuación de regresión estimada que sirva para determinar la
beta del mercado de IBM (Y) ¿Cuál es la beta del mercado de esta empresa?
Y 0.27 0.95 x1 beta 0.95 _ de _ IBM
b) Empleando el 0.05 como nivel de significancia, pruebe la significancia de
la relación (prueba global e individual coinciden ya que es sólo una variable)
H 0 : 1 0
H1 : 1 0
ANOVA
Si _ 0.029 0.05 es _ significativa aceptamos _ H1
Pr ueba _ t
Si _ 0.03 0.05 es _ significativa aceptamos _ H1
Análisis de regresión
c) ¿La ecuación de regresión estimada proporciona un buen ajuste?.
Explique
R 0.470
2
d) Utilice las betas del mercado de Xerox y de IMB para comparar los
riesgos asociados con estas dos acciones.
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.89
Coeficiente de determinación
R^2 0.79
R^2 ajustado 0.78
Error típico 24.21
Observaciones 22.00
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 44994.21 44994.21 76.76 0.00
Residuos 20 11723.02 586.15
Total 21 56717.23
Inferior Superior
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% 99.0% 99.0%
Intercepción 196.41 38.09 5.16 0.00 116.95 275.88 88.03 304.80
Dividendos 81.34 9.28 8.76 0.00 61.97 100.70 54.92 107.75
Regresión lineal simple
Ejemplos
Análisis de residuales para su explicación:
Análisis de los
residuales Y ei yi yi
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 0.60 0.60 15.35 0.00
Residuos 8 0.31 0.04
Total 9 0.916
( xi x) 2 (18 13.2) 2 10.24
Sustituyendo tenemos:
1 (18 13.2) 2
1.44 (2.306)(0.20)
10 45.6
Regresión lineal simple
Ejemplos
Desarrollando tenemos…
1 (18 13.2) 2
1.44 (2.306)(0.20)
10 45.6
1 23.04
1.44 0.4612
10 45.6
27.6 X Y
1.44 0.4612 Ingresos Ahorros
45.6 11 0.5
1.44 0.3588 14 1.1
12 0.9
(1.0812,1.7988) 9 0.6
Conclusión: 13 1.2
Se estima, con una confianza del 95% de estar en lo 13 0.9
correcto, que para un inversionista con un 15 1.5
17 1.3
ingreso de 18, su nivel de ahorro estará entre 15 1.1
1.0812 y 1.7988 o bien (1.1 y 1.8) 13 0.7
Variable Estimación Estimación por intervalo
independiente puntual Lim inf. Lim. sup
x y 95% 95%
18 1.44 1.1 1.8
Modelo lineal múltiple
En el caso de dos variables o más independientes y una dependiente la
ecuación que se propone es:
Y 0 1 X 1 2 X 2 3 X 3 ... k X k
0 Rajustado 1
2
Criterio: entre más cerca del 100% es mejor el modelo o bien entre más
cerca del 1 es mejor
Prueba de significancia
Análisis de varianza (prueba de significancia con la F de Fisher)
Y 0 1 X 1 2 X 2 3 X 3 ... k X k
Esta prueba de hipótesis sirve para saber si el modelo es estadísticamente
significativo. En otras palabras, se trata de probar que al menos una βi≠0,
ya que si todas las βi=0, eso significa que ninguna variable Xi está
relacionada con Y, por tanto ninguna variable es útil.
H 0 : 1 2 3 ... k 0
H1 : al _ menos _ una _ i _ es _ 0
La prueba anterior se resuelve con el estadístico F de la tabla ANOVA y
con el nivel de significancia (valor p) correspondiente a ese estadístico
Si el nivel de sig. > .05 => Aceptamos H0
Si el nivel de sig.< .05 => Aceptamos H1 (Rechazamos H0)
Prueba de significancia
Prueba de significancia de la pendiente (Prueba de significancia con t de
Student)
Y 0 1 X 1 2 X 2 3 X 3 ... k X k
En el caso de regresión múltiple, sirve para corroborar si cada βi≠0 para la
variable Xi, menos la constante.
Si alguna βi=0, esto significa que la variable Xi correspondiente no tiene
relación con Y
Se realizan k pruebas, una para cada coeficiente:
H 0 : i 0
H1 : i 0
La prueba anterior se resuelve con el estadístico t y con el nivel de
significancia (valor p) correspondiente a ese estadístico para cada una de
las variables Xi
Si el nivel de sig. > .05 => Aceptamos H0
Si el nivel de sig.< .05 => Aceptamos H1 (Rechazamos H0)
Multicolinealidad
Multicolinealidad. Es un problema que se debe evitar y se presenta cuando
las variables independientes están altamente correlacionadas.
Rij
Donde Rij muestra la correlación bivariada entre la variable Xi y la variable
Xj y mide la dependencia lineal entre las variables. En los modelos de
regresión múltiple se desea que no existan fuertes relaciones lineales
entre las variables
Activo 0.661695352 1
y b0 b1 x1 b2 x2 b3 x3
Análisis de residuales (errores)
Los métodos para analizar los residuales se dividen en dos:
a) Métodos gráficos (estos son los que veremos)
b) Métodos analíticos
2
e N ( 0, e cte.)
1. Verificar que los errores deben sumar cero ( o casi cero) es sumando la
columna:
ei resid
2. Verificamos normalidad: Dibujamos un histograma de los residuos
Frecuencia
ei resid
Excel
Análisis de residuales (errores)
Otra forma de verificar normalidad es a través del gráfico de probabilidad
normal (Gráfica p-p). Excel muestra la gráfica como sigue:
yi o
ooo
yi o
oo
Gráfica del ideal: o
Sobre o junto a la línea o oo o
p
o
Muestra percentil o o o o p
Muestra percentil
yi
Ejemplo de no normalidad: o o o oo
Gráfica con sesgo positivo
o
Gráfica con sesgo negativo o
p
Lo que implica que los errores no son normales o
Muestra percentil
Análisis de residuales (errores)
Por último una forma de verificar la varianza constante y la independencia
de los errores es con la gráfica de los residuales (Excel no la da de forma
automática con regresión) se tiene que elaborar
zresid
o o o Los residuales deben estar
o distribuidos más o menos de
o
o o o forma aleatoria (+ y -)
o
o o o o (independencia), y si existe una
o o o línea paralela => hay varianza
constante (homocedasticidad)
zy i
Análisis de residuales (errores)
Veamos ejemplos donde no se cumple la varianza constante
(homocedasticidad) zresid o
Hay o
Abanico: oo o
heterocedasticidad o zy i
o
o o
No lineal:
zresid
o oo
Hay
o o o
heterocedasticidad o o o
zy i
o o
Varianza no constante: o oo
o
zresid o o oo
Hay
o o
o oo
heterocedasticidad
o o o oo
oo zy i
Análisis de residuales (errores)
Forma de verificarlo:
Si la ecuación es:
Y 20 2.5 x1 4.6 x2 4.27 x3
La estimación puntual para X1=1, X2=3 y X3=1.5 es:
Y 20 2.5(1) 4.6(3) 4.27(1.5) 20 2.5 13.8 6.405
Y 42.705
Uso de la ecuación
Pronósticos
ANÁLISIS DE VARIANZA
Promedio de Valor
Grados de Suma de los crítico
libertad cuadrados cuadrados F de F
115701.02
Regresión 2 1 57850.510 49.863 0.000
Residuos 6 6961.201 1160.200
122662.22
Total 8 2
Pronóstico Residuos
Observación Ventas Residuos estándares Percentil Ventas
1 191.02 -41.02 -1.39 5.56 146
2 137.26 8.74 0.30 16.67 150
3 284.17 -4.17 -0.14 27.78 280
4 337.74 51.26 1.74 38.89 360
5 363.35 14.65 0.50 50.00 378
6 418.15 31.85 1.08 61.11 389
7 475.55 -25.55 -0.87 72.22 450
8 373.63 -13.63 -0.46 83.33 450
9 492.13 -22.13 -0.75 94.44 470
Regresión lineal múltiple
Ejemplos
Resultados con Excel Gráfico de probabilidad normal
600
500
Ventas
400
Esta es la importante: 300
200
100
0
0.00 20.00 40.00 60.00 80.00 100.00
Muestra percentil
Gasto curva de regresión ajustada Vendedores curva de regresión
600 ajustada
500 600
400
Ventas
400
Ventas
300 Ventas
200 200 Ventas
100 Pronóstico
Pronóstico Ventas
0 Ventas 0
0 200 400 0 20 40
gasto vendedores
Residuos 200
100 100
0 0
0 100 200 300 400 0 10 20 30 40
-100 -100
gasto vendedores
Regresión lineal múltiple
Ejemplos
Respuestas:
1. Calcule la ecuación de regresión para describir las ventas con las dos
variables
Y 69.78 0.83 x1 3.84 x2
H 0 : 1 2 0
Estadístico _ F 49.863
H1 : al _ menos _ una _ es _ 0
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.95
Coeficiente de determinación
R^2 0.90
R^2 ajustado 0.89
Error típico 41.54
Observaciones 9
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.92
Coeficiente de determinación
R^2 0.84
R^2 ajustado 0.68
Error típico 215111.96
Observaciones 9
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico de
libertad cuadrados cuadrados F F
Regresión 4 9.54724E+11 2.38681E+11 5.16 0.07
Residuos 4 1.85093E+11 46273153947
Total 8 1.13982E+12
Estadísticas de la regresión
Coeficiente de
correlación múltiple 0.87
Coeficiente de
determinación R^2 0.75
R^2 ajustado 0.67
Error típico 217093.03
Observaciones 9
ANÁLISIS DE
VARIANZA
Grados de Promedio de los Valor crítico
libertad Suma de cuadrados cuadrados F de F
Regresión 2 8.5704E+11 4.2852E+11 9.092 0.015
Residuos 6 2.82776E+11 47129383044
Total 8 1.13982E+12
FIN