Nothing Special   »   [go: up one dir, main page]

Estadistica ANAHUAC

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 385

Estadística

Profesor:
Dr. Mauricio Ortigosa
Enero - Marzo 2018
CURRICULUM VITAE
Dr. Mauricio Ortigosa Hernández

Estudios realizados:
Estudió la Licenciatura en Actuaría en la Universidad Nacional Autónoma de México, posteriormente
obtuvo un Diploma de Posgrado en Métodos Cuantitativos e Informáticos Aplicados a la Gestión, en la
Universidad de Barcelona. Tiene el Master en Marketing en la Universidad Autónoma de Madrid y la
Maestría en Administración de Empresas en el Instituto Tecnológico y de Estudios Superiores de
Monterrey en la ciudad de México. Tiene el “Diplomado de Formación de Consultores”. Por último, obtuvo
el grado de Doctor por la Universidad de Barcelona en Estudios Empresariales dentro de la especialidad
de Investigación y Técnicas de Mercado con la Tesis: Una propuesta metodológica para medir el valor del
cliente en la incertidumbre.
Experiencia Profesional:
Como experiencia Profesional estuvo como jefe de la oficina de Estadística a cargo del sistema de
información a nivel nacional del Instituto Nacional para la Educación de los Adultos; desempeñó el puesto
de jefe de Departamento de Programación y Presupuesto en la XLIX Legislatura Local de la Cámara de
Diputados del Estado de México; Asesor de operaciones en la casa de Bolsa Probursa; Ejecutivo Adjunto
de Estadística en A.C. Nielsen Company en el área de investigación de mercados; Ha estado como
colaborador externo en la empresa Gallup México y en el Instituto DYM en Barcelona en el área
cuantitativa de investigación de mercados.
Experiencia Académica:
Ha trabajado como profesor en España en la Universidad Autónoma de Barcelona y Universidad de
Barcelona. En México en la Universidad Intercontinental, UNAM, Lasalle, UVM, ITAM e ITESM (Campus
Ciudad de México y Santa Fe). Ha sido profesor de diplomados en el área de capacitación de empresas del
ITESM impartiendo cursos en el D.F., el interior de la República Mexicana y en Ecuador. En los últimos
años en Barcelona, ha colaborado en diferentes Escuelas de Negocios e instituciones educativas tales
como la Universidad de Barcelona Virtual, Instituto Superior de Marketing y Escuela de Administración de
Empresas (EAE). En la actualidad es profesor-investigador en el Centro de Alta Dirección en Economía y
Negocios (CADEN) de la Universidad Anáhuac México Norte
correo electrónico: mauricio.ortigosa@anahuac.mx
Correo electrónico: mauriciortigosa@hotmail.com
Estadística
Objetivos Generales del curso
La asignatura tiene como objetivo proporcionar los conceptos básicos y
las herramientas en los campos de la estadística descriptiva y de
inferencia, para su aplicación práctica en las áreas financieras de
producción.
El alumno:
1. Analizará variables financieras a partir de la aplicación e
interpretación de las medidas de estadística descriptiva.

2. Interpretará la relación entre variables económicas y administrativas


para la toma de decisiones financieras.

3. Pronosticará las variables económicas y administrativas a partir del


análisis de datos.

4. Aplicará los conceptos de estimación, prueba de hipótesis y análisis


de regresión para la toma de decisiones financieras.
Metodología de la enseñanza aprendizaje
No se deja de lado la teoría, aunque se presenta la necesaria para poder hacer
énfasis en su aplicación. De este modo, en cada una de las sesiones, se presentarán
diversos temas de estadística con el apoyo de PowerPoint por un lado, y el uso del
Excel entre otros paquetes estadísticos, que permitan reforzar los contenidos del
curso mediante problemas de aplicación.

El curso en general, se puede ver como la incorporación de diferentes escenarios


de aprendizaje. Por un lado se encuentra la clase, donde se revisan algunas
herramientas de estadística descriptiva, probabilidad, estadística inferencial y
regresión, pero por otro lado, se busca que el alumno maneje dichos instrumentos
para ser utilizados en el transcurso de su plan de estudios.

La clase se llevará utilizando el método tradicional de exposición por parte del


profesor, de este modo, se muestran los conceptos teóricos de las técnicas ya que
el auto aprendizaje resultaría algo más difícil y lento sobretodo en los temas de
estadística avanzada

Se realizarán varias sesiones con el apoyo del Excel para que el alumno se
familiarice con estas herramientas en futuros análisis de datos.

Durante el curso, además de dar un marco teórico básico, se apoyarán las sesiones
con el desarrollo de ejemplos del mundo empresarial.
Programa de la asignatura
Temas y subtemas
1. Introducción a la Estadística
1.1 Definición de Estadística y conceptos básicos
1.2 Ramas de la Estadística: Descriptiva e Inferencial
1.3 Tipos de Variables y escalas de medición

2. Estadística Descriptiva: Presentaciones tabulares y gráficas


2.1 Tablas de distribución de frecuencia
2.2 Gráficas: barras y pastel (sectores)
2.3 Histogramas, polígonos y ojivas
Programa de la asignatura
3. Estadística Descriptiva: Medidas numéricas
3.1 Medidas de centralización:
Media aritmética: simple y ponderada
Moda
Mediana
Media geométrica
3.2 Medidas de posición: percentiles, cuartiles y deciles
3.3 Medidas de dispersión (variabilidad)
Rango
Varianza y desviación estándar
Coeficiente de variación
Valor (punto) Z
Teorema de Chebyshev y regla empírica.
3.4 Medidas de forma:
Sesgo y curtosis
3.5 Medidas de asociación entre dos variables (cuantitativas)
Covarianza
Coeficiente de correlación

Prácticas en Excel
Programa de la asignatura
4. Probabilidad
4.1 Enfoques de probabilidad: Axiomas
4.2 Distribuciones de probabilidad
4.3 Valor esperado (Esperanza matemática)
4.4 Distribución de probabilidad Binomial
4.5 Distribución de probabilidad Poisson
4.6 Distribución de probabilidad Normal

5. Estimación de parámetros
5.1 Proceso de estimación: puntual y por intervalo
5.2 Distribuciones muestrales o de muestreo de la media y la proporción
5.3 El nivel de confianza y su interpretación
5.4 Estimación de la media
5.5 Estimación de la proporción
5.6 Estimación de la varianza
Programa de la asignatura

6. Pruebas de hipótesis
6.1 Proceso de las pruebas de hipótesis
6.2 Nivel de significancia y su interpretación: Tipos de pruebas
6.3 Pruebas de hipótesis de la media (Regla de oro)
6.4 Prueba de hipótesis de la proporción
6.5 Prueba de hipótesis de la varianza

7. Análisis de regresión
7.1 Modelo lineal simple
Estimación de los coeficientes
Coeficiente de determinación
Prueba de significancia
Uso de la ecuación
Ejemplos
7.2 Modelo lineal múltiple
Diferencias entre ambos modelos
Ejemplos

Examen final y entrega de trabajo final


Evaluación propuesta

La calificación final se integra de la siguiente forma:

Examen Final ………….………………………….……………… 40%


Participación ……………………………………………………… 20%
Trabajo Final ……………………………………..……………..… 35%
Entrega de problemas …………………………………………… 5%

Total …………………………………………………………………… 100%

Nota:
La participación es tomada en cuenta con la asistencia de la siguiente
forma:
11 asistencias calificación 10 (ninguna falta)
10 asistencias calificación 9 (una falta)
9 asistencias calificación 8 (dos faltas)
8 asistencias calificación 7 (tres faltas casos excepcionales)

Por políticas del programa no se acepta que un alumno tenga 4 faltas o


más, de las 11 totales de la asignatura
Bibliografía
El primer libro se usará como libro de texto y el segundo se recomienda
por sus aplicaciones con Excel
Anderson, D; Sweeney,D. Williams, T. (2016). Estadística para Negocios y
Economía. México: Cengage Learning (12ª edición)
Díaz Mata, Alfredo (2013). Estadística aplicada a la administración y la
economía. México: McGraw-Hill (1ra edición)

• Lind, Marchal y Wathen, S (2012). Estadística aplicada a los negocios y


la economía. México: McGraw-Hill (15ª edición)
• Black, Ken (2007). Estadística en los Negocios. México: Grupo Editorial
Patria
• Berenson, M., Levin,D. y Krehbiel, T. (2006). Estadística para
administración. México: Pearson Educación de México
• Kazmier, L. (2006). Estadística aplicada a la administración y a la
economía. México: Mcgraw-Hill
• Levin, R. y Rubin, C. (2004). Estadística para administración y
economía. México:Pearson Educación
Bibliografía
• Berenson, Levin. “Estadística Básica en la Administración”. Prentice
Hall, México, 1996.
• Flores, Lozano. “Estadística Aplicada para Administración”. Grupo
Editorial Iberoamérica, México, 1998
• Hanke, Reitsch. “Estadística para Negocios”. Mc Graw Hill, Madrid,
España, 1997.
• Levin, Rubin. “Estadística para Administradores”. Prentice Hall,
México, 1996.
• Newbold. “Estadística para los Negocios y la Economía”. Prentice Hall,
Madrid, España, 1997.
• Spiegel. “Estadística”, Serie Shaums. Mc Graw Hill, México, 1994.
TEMA 1

Introducción a la estadística

1.1 Definición de Estadística y conceptos básicos


1.2 Ramas de la estadística: Descriptiva e Inferencial
1.3 Tipos de variables y escalas de medición
Definición de Estadística

La estadística es una colección de métodos que se aplican en la


recolección, procesamiento, análisis e interpretación de cualquier tipo
de datos

En otras palabras…

El análisis estadístico se usa para manipular, resumir e investigar datos


con el fin de obtener información útil para la toma de decisiones
Algunas definiciones de Estadística
• Anderson, Sweeney y Williams
“La estadística es el arte y la ciencia de recolectar, analizar e interpretar
datos”
(Anderson, 2011)

• Lind, Marchal y Wathen


“ Ciencia que recoge, organiza, presenta, analiza e interpreta datos con el
fin de propiciar una toma de decisiones más eficaz”
(Lind, 2012)

 Diaz, Mata Alfredo


“Disciplina matemática considerada como un conjunto de técnicas para el
análisis de datos”
(Mata, 2013)
Conceptos básicos
Población
Es el conjunto de todas las observaciones (individuos u objetos) que
tenemos como objeto de estudio.
Ejemplos:
• Todos las cuentas de crédito hipotecario que tiene Santander
• Todas las empresas o instituciones que forman el sector financiero en
México
• Todos las amas de casa de 30 a 60 años de la colonia La Herradura

Muestra
Es simplemente una parte (o subconjunto) de esas observaciones
(individuos u objetos)
Ejemplos:
• 500 de las cuentas de crédito hipotecario que tienen Santander
• 10 de los Bancos que operan en el territorio mexicano
• Las amas de casa de 30 a 60 años de la calle “Paseos de la Herradura”
Nota: La población y la muestra están determinadas por el problema, ya
que una muestra puede jugar el papel de población y viceversa
Población y muestra
Conceptos básicos
Parámetro (parámetro poblacional)
Es cualquier valor característico de la población. Sin embargo estos valores
son desconocidos porque no siempre podemos tener todos los datos de la
población para calcularlos.

Ejemplos:
• La edad media de la población de México:  ?
• La proporción de fumadores en México: P?
La varianza de las edades de la población en México:  ?
2

P p
Conceptos básicos
Estadístico (estadístico muestral)
Es el valor calculado en base a los datos que se obtienen sobre una
muestra. Es decir, el estadístico es la característica de una muestra y por lo
tanto es una estimación de los parámetros.

Nota: A las fórmulas que permiten obtener estadísticos se les llama


estimadores Ejemplos de estimadores para la media, proporción , varianza
y desviación estándar (respectivamente): _
_
x
 xi S2 
 (x i  x) 2
n n 1 _
 
x # individuos _ con _ x
p p p  S  ( x  x)
i
2

n n n 1
Ejemplos de estadísticos: _
• La edad media de una muestra de 10,000 personas de México es: x  45.3
 
• La proporción de fumadores de la muestra anterior: p  p  p  3000  0.30
10000
• La varianza de las edades de la misma muestra: S2  81
Parámetros y estadísticos
Ramas de la Estadística
Estadística descriptiva.
Se dedica a resumir datos provenientes de una muestra o de
toda la población con la finalidad de poder tener una mejor
comprensión del fenómeno en Estudio.
Los datos pueden ser resumidos numérica o gráficamente.

Las dos
clasificaciones
más comunes

Estadística inferencial. (inferencia estadística)


Estudia el proceso de usar datos obtenidos de una muestra
(principalmente) para efectuar estimaciones o probar
hipótesis acerca de las características de una población

población
muestra
Ejemplos de ambas estadísticas
Estadística descriptiva: Estadística inferencial:
La calificación promedio del La calificación promedio de ese
grupo no. 3 de estadística es grupo de estadística 7.5 , sirve
de 7.5 para generalizar (o inferir) el
promedio a 10 grupos de la
misma materia (estimación)

La proporción de votantes para La proporción de votantes para


presidente del PRI , PRD y PAN presidente del PRI , PAN y PRD
al final de todo el conteo de en el conteo rápido (muestra de
votos en el País fue: 38%, 31% urnas) (estimación)
y 25% respectivamente (datos
reales)

El rendimiento financiero El rendimiento financiero promedio


promedio de una muestra de de todas las empresas del sector
empresas del sector turístico turístico del país en el año 2012
es del 12% en el año 2012 es del 12% (estimación y prueba
de hipótesis)
Tipos de variables
Por lo general, los datos estadísticos se obtienen contando o midiendo
objetos. Ejemplos de ellos son la tasa de desempleo, las ventas
mensuales de Liverpool, el número de mujeres ejecutivas en las
sucursales del Banco Santander, entre otros ejemplos más. A las
medidas anteriores se les llaman variables.

Por tanto, una variable es: un elemento de interés que puede tomar
muchos valores numéricos diferentes.

Las variables se pueden clasificar en variables cualitativas (o categóricas)


y variables cuantitativas
Tipos de variables
Variables cualitativas (o categóricas)
Son aquellas variables que sólo denotan propiedades de los individuos o
de los objetos en estudio.
Características de esas propiedades:
 No pueden ser medidas en términos de la cantidad de la propiedad
presente.
 Solo se determina la presencia o ausencia de ella.
 No se les puede asignar mayor o menor peso dentro de cada
categoría (atributo), solo clasificarlas entre ellas, o a lo más
ordenarlas.
Ejemplos: Ocupación: Abogado, Ingeniero, Medico.
Estado civil: Casado, soltero, viudo, unión libre,..
Clase social: Baja, Media y Alta.
Tipos de variables
Variables cuantitativas
Son aquellas variables cuya magnitud pueden ser medidas en términos
numéricos. Son cantidades de un atributo del sujeto. Ejemplo: peso,
talla, …
Características:
 Se les puede asignar mayor o menor peso.
 Los valores de los fenómenos en estudio se encuentran distribuidos a
lo largo de una escala. Ejemplo de escala:
Ejemplos: peso, estatura, temperatura, calificación en una escala del 0 al 10

0 1 2 3 4 5 6 7 8 9 10
Escalas de medición

¿Qué significa Medir?

MEDIR
- Es la asignación de números a las observaciones, de modo que los
números sean susceptibles de análisis por medio de manipulaciones y
operaciones de acuerdo con ciertas reglas.

- Asignación de números a objetos o eventos según ciertas reglas.


Escalas de medición

Para preparar datos para el análisis se debe estar familiarizado con una
jerarquía de cuatro escalas (numéricas) de medición o medida:
Nominal, Ordinal, Intervalo (Intervalar) y de Razón. Cuanto más alta
sea la posición que ocupa el tipo de dato en esta jerarquía, más
información contendrá la variable medida.

+
Variables Razón
cualitativas
Intervalo

Ordinal Variables
- Nominal
cuantitativas
Escala nominal
Las variables medidas en escalas nominales, se utilizan cuando se
pueden establecer categorías sin ningún orden. Las categorías sólo se
nombran o se enumeran pero no se pueden comparar.
Características de las categorías:
 Son mutuamente excluyentes, puesto que cada individuo, objeto o
medida se clasifica en sólo una de ellas.
 Los códigos (o números) utilizados en estas variables, no poseen ni
orden, ni distancia, ni origen.
 Los números sirven sólo como etiquetas para identificar y clasificar
objetos. Los números carecen de valor matemático incluso podrían
ser letras.
Ejemplos: Estado civil, ocupación, sexo, religión, etc.
Ocupación:
1. Médico
2. Enfermera
Códigos: 1 2 3 4 5 3. Odontólogo
¿Eres mayor de edad? 4. Ingenieros
1 Si ( )
Código: Código: 2 No ( ) 5. Periodistas
Mujer F - 0 Hombre M - 1 6. Otras
ocupaciones
Escala ordinal
Las variables en escala ordinal, se componen de distintas categorías en las
que hay implícito un orden (más no la distancia métrica en ese orden).

Características de las categorías:


 Las categorías están ordenadas, lo que ocasiona que proporcionen
más información que las categorías en escala nominal.
 Los intervalos entre los datos (códigos o números) clasificados no
son necesariamente iguales
 Los datos ordinales pueden ser numéricos o no numéricos
Ejemplos: Nivel de escolaridad (utilizado en muchos cuestionarios), niveles
socioeconómicos, preguntas de ranking forzado, etc.
Intervalos con longitudes desiguales Niveles Ejemplo de Ranking Forzado
¿Qué edad tiene usted? De las siguientes marcas de refresco,
Socioeconómicos
1 - 4 AÑOS 1 ( ) indica con el número 1 la que más
5 -12 AÑOS 2 ( ) AMAI
prefieras,
13-25 AÑOS 3 ( ) A/B con el número 2 la que sigue en
26-35 AÑOS 4 ( )
preferencia,
36-50 AÑOS 5 ( ) C+
y así sucesivamente en función de su
Nivel de Escolaridad: C sabor
1. Primaria Coca cola ___
2. Secundaria D+ Pepsi ___
3. Bachillerato o preparatoria 7-up ___
4. Profesional D
Fanta ___
5. Maestría o posgrado
6. Doctorado E Sprite ___
Escala intervalo (intervalar)
Se da cuando la propiedad por medir, refleja no solo el orden sino la
distancia constante entre número y numero y el punto de origen es un
cero convencional.
Características de la escala:
 La distancia entre números sucesivos (de la escala utilizada) es de
tamaño constante y medible
 El número cero puede formar parte de la escala de medición
Ejemplos: Escala del 0 al 10 para medir el dolor, la temperatura medida en
grados Fahrenheit o Celsius, las calificaciones en una escala de 0 a 10, la
variable edad a través de intervalos uniformes de edad, etc.

Evalúa en una escala de 0-10 las Intervalos con longitudes iguales


características ¿Qué edad tiene usted?
siguientes del yogurt : (donde 0 es muy malo y 1 - 10 AÑOS 1 ( )
10 es muy bueno) 11- 20 AÑOS 2 ( )
sabor ___ 21- 30 AÑOS 3 ( )
color ___ 31- 40 AÑOS 4 ( )
empaque ___ 41- 50 AÑOS 5 ( )
Escala de razón
Es el nivel mas alto de medición. Contiene las características de una escala
de intervalo con la ventaja de poseer el cero absoluto lo que permite
determinar la proporción conocida de dos valores de la escala.
Características:
 La distancia entre números sucesivos (de la escala utilizada) es de
tamaño constante y medible
 Los números tienen un significado real lo que hace sentido poder
establecer proporciones entre los valores. Ej. Juan tiene el doble de
años que María
 El cero es real no es arbitrario. Representa la nulidad o ausencia de lo
que se está midiendo
Ejemplos: La vida útil de un televisor en años, el número de empleados en
las empresas PYMES, cantidad de refrescos consumidos a la semana,
edad en años, estatura en cm, peso en kg, etc.
Preguntas directas
¿Cuántas tarjetas de crédito tiene a su nombre? ___
¿Cuántos hijos tiene ? ___

¿Cuántos años tiene? ___


Escalas de medición
Resumen de las características más importantes de las escalas de medición

VARIABLE ESCALA UTILIDAD

Nominal Identifican y clasifican

Cualitativa Ordinal Establecen orden. Los escalones de los


códigos son de diferente altura

Intervalo Orden por rangos. Sin cero absoluto.


Los escalones de los números en la
Cuantitativa escala son del mismo tamaño
Razón Determinan la proporción. Con cero
absoluto.
Escalas de medición
Una conclusión interesantes es que depende de la forma en que se realice la
pregunta en los cuestionarios, es la escala en la que se mide la variable.

Pongamos como ejemplo medir la variable: edad ¿A qué grupo pertenece?


Niños 1( )
¿Eres mayor de edad? Adolecentes 2 ( )
1 Si ( ) Razón Adultos 3( )
2 No ( ) 3ra edad 4( )

Intervalos con longitudes desiguales


¿Qué edad tiene usted?
1 - 4 AÑOS 1 ( )
Intervalo
5 -12 AÑOS 2 ( )
13-25 AÑOS 3 ( )
26-35 AÑOS 4 ( )
36-50 AÑOS 5 ( )

Intervalos con longitudes iguales Nominal


¿Qué edad tiene usted?
1 - 10 AÑOS 1 ( )
11- 20 AÑOS 2 ( )
21- 30 AÑOS 3 ( )
31- 40 AÑOS 4 ( )
41- 50 AÑOS 5 ( )

Ordinal
¿Cuántos años tiene? ___
Propiedades y comparación entre las escalas

Niveles de medición
Propiedades Nominal Ordinal Intervalo Razón

Asigna y clasifica los datos    


Ordena los datos   
Marca distancia entre los datos  
Tienen significado las diferencias entre los datos  
Tiene significado el cociente de los datos 
Los datos tienen origen(el cero tienen 
significado)
Propiedades y comparación entre las escalas
Niveles de medición
Estadísticas descriptivas Nominal Ordinal Intervalo Razón

Frecuencia    
Conteo    
Mínimo    
Máximo    
Moda   
Mediana  
Media  
Rango  
Desviación estándar  
Varianza  
Cuantiles (Percentiles)   
Sesgo  
Curtosis  
TEMA 2

Estadística descriptiva: Presentaciones


tabulares y gráficas

2.1 Tablas de distribución de frecuencia


2.2 Gráficas: barras y pastel (sectores)
2.3 Histogramas, polígonos y ojivas
¿Por qué la presentación de datos es importante para los
administradores y cualquier profesional en su área?

Una vez reunidos los datos, deben procesarse de tal manera que pueda
observarse cualquier patrón significativo. Lo anterior permite obtener
información significativa y con ella tomar decisiones.
Tablas de distribución de frecuencia

• Distribución de frecuencias es una lista de clases o categorías de


datos junto con el número de valores que caen dentro de cada una.

En otras palabras, es un resumen tabular de datos que muestran la


frecuencia de los valores de datos en cada una de las clases o categorías
que no se superponen

Colores favoritos Edad Frecuencias

Color Frecuencia 31 a 40 2

41 a 50 6
Rojo 12
51 a 60 6
Verde 8 61 a 70 26

Azul 8 71 a 80 18

81 a 90 8
Amarillo 4
Total 66
Tablas de distribución de frecuencia
El Banco X establece, sobre la base de sus registros, que el número de
clientes que hicieron uso del “modelo de banca preferente”, durante
los últimos dos meses en una sucursal de muestra son los que se
presentan a continuación:
87 65 78 87 60 87 34 31 43 87
78 90 65 68 62 70 80 61 62 72
95 64 80 90 68 80 30 35 40 75
59 68 65 92 70 78 95 33 72 65
70 95 50 75 31 60 43 78 70 60
65 60 30 90 40 80 59 27 92 65

Nota: “modelo de banca preferente”: reducción del uso de los canales


físicos (sucursales) para convertirlos en canales automáticos y
virtuales como la primera opción de uso de los clientes. De esa forma
reducir costos e incrementar operaciones (Modelo preferente)

Vamos a construir una tabla de frecuencias


Tablas de distribución de frecuencia
Pasos a seguir para la construcción de la tabla:
 Establecer el número total de datos N. Ejemplo N = 60

 El siguiente paso es obtener el Rango mediante la siguiente


relación, en la que nos debemos cuestionar su significado, ya que,
no representa una diferencia simplemente sino que, más bien es
nuestra primer medida estadística que representa la máxima
dispersión que vamos a encontrar en nuestro conjunto de datos
Rango = Máximo dato – Mínimo dato
Rango = 95 – 27 = 68

 Posteriormente debemos determinar la cantidad de intervalos o


clases que deseamos utilizar para clasificar o agrupar nuestra
información y para ello contamos con tres procedimientos al menos:

1) Obtenemos la raíz de N y el resultado redondeado siempre a valor


entero mayor nos dará en número de renglones
Si N = 60 entonces
60  7.7459666  8
Tablas de distribución de frecuencia
k
2) Generar una tabla dando valores a 2 y la idea es ubicar el número de
grupos cuando se cumpla la siguiente condición: 2  n
k

k 2k
0 1
1 2
2 4
3 8
4 16
5 32
6 64
7 128
etc. etc.
Por ejemplo si n = 60
La tabla nos sugiere utilizar 6 intervalos para poderlos agrupar
adecuadamente.
3) Escoger el número de renglones o intervalos a juicio del investigador
Tablas de distribución de frecuencia
 El paso siguiente para elaborar la tabla de distribución de frecuencias
es calcular el tamaño de intervalo, en nuestro caso resultará de:
Tamaño de
intervalo
rango 68
i   8.5  9
K 8
número de
renglones
 El siguiente paso es calcular los límites de los intervalos, iniciando
con los límites inferiores (LI) sumándole al número más pequeño el
tamaño del intervalo (i) “K” veces, en nuestro ejemplo: LI LS
27 35
27 + 9 = 36 36 44
36 + 9 = 45 45 53
45 + 9 = 54 etc. 54 62
63 71
72 80
81 89
90 98
Por lo anterior los límites superiores (LS) que nos quedan en nuestro
ejemplo son tomados de los inferiores pero con una unidad menos
36 -1 = 35
45 -1 = 44, etc.
Tablas de distribución de frecuencia

 El siguiente paso será determinar la frecuencia (f) o número de


datos que caen dentro de los intervalos que hemos generado por lo
que debemos contestar a la pregunta de ¿cuántos datos se
encuentran entre tal valor y tal otro?.
Terminando este conteo podemos mostrar la tabla de frecuencias
resultante siguiente:

Número de
clientes Días
LI LS f
27 35 8
36 44 4
45 53 1
54 62 9
63 71 14
72 80 11
81 89 5
90 98 8
Tablas de distribución de frecuencia

Una de las columnas que podemos generar puede ser la que representa a
la frecuencia acumulada (fai) i
fa i   f j
j 1
Es decir, la que nos responderá a la pregunta de ¿cuántos datos se fueron
presentando desde el primer intervalo (j=1) hasta el intervalo i?
De esta forma tendremos:

Número de Días Frec.


clientes Frec. Acum.
LI LS f fai
Interpretación 27 35 8 8
36 44 4 12
45 53 1 13
54 62 9 22
63 71 14 36
72 80 11 47
81 89 5 52
90 98 8 60
Tablas de distribución de frecuencia

En muchas ocasiones, debemos encontrar un número que representa a


todo el intervalo, ya que, es más sencillo hablar de un solo dato a un
intervalo.
Este número se llama marca de clase o punto medio el cual quedará
representado por una “x” y se calcula utilizando los límites de cada
intervalo mediante la siguiente relación:
LI  LS
x
2
En donde “LI representa al límite inferior, “LS” al límite superior
Número de Días Frec. Marca de
clientes Frec. Acum. clase
LI LS f fai x
27 35 8 8 31
36 44 4 12 40
45 53 1 13 49
54 62 9 22 58
63 71 14 36 67
72 80 11 47 76
81 89 5 52 85
90 98 8 60 94
Tablas de distribución de frecuencia
Frecuencias relativas (fr) son porcentajes que se calculan dividiendo la
frecuencia real de cada clase entre el número total de observaciones
que se clasifican
Es el número total de Es la frecuencia
datos o la suma de cada renglón
de “f” f
fr = x 100
N
Al tener la frecuencia relativa entonces también nos podemosi preguntar cuál
es la frecuencia relativa acumulada (frai)
fra i   fr j
j1
Con todo esto podemos agregar a la tabla anterior, dos columnas más y tener una
tabla de frecuencias completa para su interpretación:
Días Frec. Frec. Relativas Frec. Rel
Número de clientes Frec. Acum. % acumul. %
LI LS f fai fr frai
27 35 8 8 13 13
36 44 4 12 7 20
45 53 1 13 2 22
54 62 9 22 15 37
63 71 14 36 23 60
72 80 11 47 18 78
81 89 5 52 8 87
90 98 8 60 13 100
Tablas de distribución de frecuencia
Preguntas típicas que podemos responder con una tabla de frecuencias:
1. ¿Cuántos días hubo entre 27 y 35 clientes usando el modelo de banca preferente de los 60
días observados?
R= 8 días
2. ¿Cuántos días hubo entre 63 y 71 clientes usando el modelo de banca preferente de los 60
días observados?
R= 14 días
3. ¿Qué porcentaje de los 60 días observados, el banco atendió por el modelo de banca
preferente hasta un máximo de 80 clientes?
R= 78%
4. ¿Qué porcentaje de los 60 días observados se atendieron a más de 80 clientes usando el
modelo preferente?
R = 21% => 8+13 o 22% => 100 – 78
Días Frec. Frec. Relativas Frec. Rel
Número de clientes Frec. Acum. % acumul. %
LI LS f fai fr frai
27 35 8 8 13 13
36 44 4 12 7 20
45 53 1 13 2 22
54 62 9 22 15 37
63 71 14 36 23 60
72 80 11 47 18 78
81 89 5 52 8 87
90 98 8 60 13 100
Tablas de distribución de frecuencia
Otro ejemplo de tabla de frecuencia para su interpretación:
A continuación se muestra la distribución de frecuencia por edades de las
personas físicas con Actividad Empresarial de una sucursal del Banco X
Edad Frecuencias
Marca de
Frecuencia Frecuencias Relativas
Límite Límite Frecuencia Clase
Acumulada Relativas Acumulada
Inferior Superior (LI+LS)/2
s
18 27 166 166 22.5 8.1% 8.1%
28 37 437 603 32.5 21.3% 29.4%
38 47 629 1,232 42.5 30.7% 60.1%
48 57 495 1,727 52.5 24.1% 84.2%
58 67 275 2,002 62.5 13.4% 97.6%
68 77 48 2,050 72.5 2.3% 100.0%
78 87 1 2,051 82.5 0.0% 100%
2,051
1. ¿Qué porcentaje de personas entraron al grupo de edades de 18 a 37 años?
R = 29.4%
2. ¿Cuántas de personas hay en la base de datos de 38 a 47 años?
R= 629
3. ¿ Qué porcentaje de personas tienen al menos 48 años?
R = 100% - 60.1= 39.9% (39.8%)
4. ¿ Cuál es el intervalo de edades de mayor frecuencia en la tabla?
R = de 38 a 47 años
Tablas de distribución de frecuencia
Ejercicio. Complete la siguiente distribución de frecuencia con los datos
obtenidos durante 66 días sobre el rendimiento porcentual de una
inversión financiera a corto plazo
Rendimientos Frecuencias Frecuencias Frecuencias Frecuencias
tasas acumuladas Relativas Relativas
porcentual % acumuladas
(%) %
0.10 a 0.50 2

0.50 a 0.90 6

0.90 a 1.30 6

1.30 a 1.70 26

1.70 a 2.10 18

2.10 a 2.50 8

Total 66
Tablas de distribución de frecuencia
Respuesta:

Rendimientos Frecuencias Frecuencias Frecuencias Frecuencias


tasas acumuladas Relativas Relativas
porcentual % acumuladas
(%) %
0.10 a 0.50 2 2 3 3

0.50 a 0.90 6 8 9.1 12.1

0.90 a 1.30 6 14 9.1 21.2

1.30 a 1.70 26 40 39.4 60.6

1.70 a 2.10 18 58 27.2 87.8

2.10 a 2.50 8 66 12.1 100

Total 66 100
Tablas de distribución de frecuencia
Ejercicio: El Gerente de una tienda reunió la siguiente información sobre
la cantidad de veces que un cliente visita la tienda durante un mes.
Las respuestas de 51 clientes fueron las siguientes:

5 3 3 1 4 4 5 6 4 2
6 6 6 7 1 1 14 1 2 4
4 4 5 6 3 5 3 4 5 6
8 4 7 6 5 9 11 3 12 4
7 6 5 15 1 1 10 8 9 2
12

Comience a partir de 1 como límite inferior y con un tamaño de intervalo


de 3, organice los datos en una distribución de frecuencias
(Ejemplo: 1-3, 4-6, 7-9, 10-12, 13-15)
¿Donde tienden a acumularse los datos?
Construya las columnas de frecuencia relativa y la acumulada

Se deja como ejercicio para el lector.


Gráficas: barras y pastel

Gráfica de barras:
Es un método habitual de presentar en forma gráfica datos con escala
nominal u ordinal es decir, cualitativos . Cada barra representa la
frecuencia de una categoría y la altura es proporcional al número de
elementos de esa categoría. Se suelen separar las barras ya que el
eje horizontal no es la recta numérica
Ejemplos de gráfica de barras
Ejemplos de gráfica de barras
Gráficas: barras y pastel
Gráfica de pastel: (Pie, Circular o de Sectores)
Sobre todo se utiliza para datos cualitativos , este tipo de diagrama es útil
si se quiere hacer hincapié en los tamaños relativos de las
componentes de los datos. El circulo completo de 360 grados
representa el número total de observaciones.
Se suelen ordenar los sectores para hacer más evidente sus diferencias.
A partir de la frecuencia relativa se obtienen los grados y hay dos
alternativas:
gradosi  fri  360 grados i  %i  3.6
Histogramas, Polígonos y Ojivas

Histograma:
Se utiliza esta gráfica cuando los datos corresponde a escalas de
intervalos o de razón, es decir, se utilizan con datos cuantitativos.
La interpretación es similar a la grafica de barras
Ejemplos de histograma
Ejemplos de histograma
Ejemplos de histograma
Histogramas, Polígonos y Ojivas
Polígono de frecuencia:
Es otra alternativa similar al histograma y consiste en segmentos de recta
que conectan los puntos que forman las intersecciones de las
marcas de clase y las frecuencias de clase.
Ejemplo de histograma y polígono de frecuencia
Histogramas, Polígonos y Ojivas
Ojiva:
Concepto:
• La ojiva es un polígono de frecuencias acumuladas, es decir, en las
abscisas (horizontal) se colocan los límites superiores de cada
intervalo de clase y en las ordenadas (vertical) se coloca la frecuencia
acumulada (absoluta o relativa) de la clase.

La ojiva es útil para:


• Calcular el número o el porcentaje de observaciones que
corresponden a un intervalo determinado de la variable. Es decir, se
usa para determinar cuántas observaciones hay menores que un valor
determinado en una distribución

Características de las ojivas:


• Muestran frecuencias acumuladas.
• Se prefiere para el tratamiento de datos cuantitativos.
• El punto de inicio equivale a una frecuencia de 0.
• El punto final equivale al 100% de los datos.
Histogramas, Polígonos y Ojivas

Ejemplos de Ojivas:
Gráficas de líneas

Se menciona este particular tipo de gráfica por su gran utilidad en el área


de economía, finanzas y áreas afines. Para mayores detalles se debe
estudiar el tema de series de tiempo.
Una gráfica de línea es una representación de datos registrados en el
tiempo trazados en el eje horizontal, y los valores de las
observaciones se miden sobre el eje vertical.
Gráficas de líneas
Ejemplo
Gráficas de líneas
Ejemplo donde se opta por cambiar las líneas por barras
Histogramas, Gráficas de barras y de pastel
Instrucciones básicas en Excel:
Frecuencias e Histogramas (variables cuantitativas)
 Función de FRECUENCIA: Datos y Grupos (limites superiores)
 Sombrear sobre la columna de frecuencia
 F2 (editamos la fórmula)
 Simultaneo teclear: shift y Ctr y con esas teclas, dar intro (enter) con la
otra mano)
Frecuencias y Gráficas de Barras: (variables cualitativas)
 Función CONTAR SI: rango (datos) criterio (primera etiqueta)
 Fijar celdas de datos solamente con F4 o a mano anotar $ antes de cada
letra y número
Frecuencias e Histogramas por la vía corta:
 Datos/ Análisis de datos/Histograma/aceptar
 Rango de entrada: todos los datos
 Rango de clases: límites superiores
 Posición de salida (elegir)
 Porcentaje acumulado y crear gráfico (últimos dos cuadros activados)
TEMA 3
Estadística descriptiva: Medidas numéricas
4.1 Medidas de centralización:
Media aritmética: simple y ponderada
Moda
Mediana
Media geométrica
4.2 Medidas de posición: percentiles, cuartiles y deciles
4.3 Medidas de dispersión (variabilidad):
Rango
Varianza y desviación estándar
Coeficiente de variación
Valor (punto) z
Teorema de Chebyshev y regla empírica
4.4 Medidas de forma:
Sesgo y curtosis
4.5 Medidas de asociación entre dos variables (cuantitativas)
Covarianza
Coeficiente de correlación
Prácticas en Excel
Medidas de centralización

¿Cuál es el objetivo de las medidas de centralización (medidas de


tendencia central)?
El objetivo principal de las medidas de tendencia central es poder
representar por medio de un solo número al conjunto de datos, es
decir, dan valores representativos de la distribución de frecuencias,
situados en algún lugar intermedio, alrededor del cual, se
encuentran los otros valores. Nos indican dónde tienden a
concentrarse los valores.
Existen tres medidas de tendencia central generales:
• Media aritmética (simple)
• Mediana
• Moda
Además, existen otras que se utilizan en casos particulares como:
• Media aritmética (ponderada)
• Media Armónica (no la vamos a ver)
• Media Geométrica
• Media Cuadrática (no la vamos a ver)
Media aritmética: Simple y ponderada
Media aritmética simple
Media aritmética simple: la media de un conjunto de valores numéricos es
la suma de estos valores dividida entre el número de valores

Datos no agrupados
xi = cada uno de
n

x
los datos
i
i 1
x= Número total
n de datos = n

Ejemplo: Calcular la media aritmética de los números 10,12,36,25 y 58

10  12  36  25  58 141
x   28.2
5 5
Media aritmética: Simple y ponderada
Media aritmética simple
Media aritmética simple para datos agrupados: la media de un conjunto de
valores agrupados (tabla de frecuencia) numéricos es la suma del
producto de la frecuencia de cada renglón por la marca de clase de
dicho renglón dividida entre el número de valores

Datos Agrupados
frecuencia por la marca de clase
k de cada renglón
f x
i 1
i i
x= Número total de
n datos = n

Donde : k = última clase

Nota: La media muestral se denota por X


La media poblacional se conoce como 
Media aritmética: Simple y ponderada
Media aritmética simple
Ejemplo: Encuentre la edad promedio de los clientes del Banco X de una
sucursal donde son personas físicas con actividad empresarial
Edad Frecuencias
Marca de
Frecuencia Frecuencias Relativas
Límite Límite Frecuencia Clase
Acumulada Relativas Acumulada
Inferior Superior (LI+LS)/2
s
18 27 166 166 22.5 8.1% 8.1%
28 37 437 603 32.5 21.3% 29.4%
38 47 629 1,232 42.5 30.7% 60.1%
48 57 495 1,727 52.5 24.1% 84.2%
58 67 275 2,002 62.5 13.4% 97.6%
68 77 48 2,050 72.5 2.3% 100.0%
78 87 1 2,051 82.5 0.0% 100%
2,051

f x i i
(166  22.5)  (437  32.5)  ....  (1 82.5) 91407.5
X= i 1
   44.57
n 2051 2051
Media aritmética: Simple y ponderada
Media aritmética simple
Ejemplo: calcular el salario promedio de los 82 empleados de las
sucursales en la Cd. de México del Banco Santander:

Lím. Inf. Lím. Sup. Salario No. de


x empleados Como

f
f
12,500 17,500 $15,000 18
 n  82
17,500 22,500 $20,000 35
22,500 27,500 $25,000 29

sustituimos en la fórmula y se obtiene:

x
15000 *18  20000 * 35  25000 * 29  1695000  $20,670.70
82 82
Media aritmética: Simple y ponderada
Media aritmética ponderada
Media aritmética ponderada: Es el promedio de los datos en donde se le
da un peso o importancia específica a cada observación. Se calcula:

w x
Producto de cada uno
de los datos por su
i i ponderación
i 1
x w= n

w
i 1
i
Suma de las
ponderaciones
Media aritmética: Simple y ponderada
Ejemplo de media aritmética ponderada:
Suponga que los datos siguientes corresponden a tres compras de
materia prima en los últimos tres meses. Suponga que se desea
saber el precio promedio por kilo de la materia prima adquirida en
esos meses.
Observe que el precio varía desde $17.80 hasta $79.45 y que la cantidad
comprada varía desde los 19 Kg hasta los 75 Kg
Precio del Cantidad
Producto/kg comprada
Xi en Kg (Wi)
17.80  35.90  79.45 133.15
$17.80 75 x   $44.38
$35.90 56 3 3
$79.45 19

Como las cantidades compradas varían, es necesario aplicar una media


n
ponderada.
Fórmula:

wi x i
(17.8 * 75)  (35.9 * 56)  (79.45 *19) 4854.95
i 1
x w=    $32.37
n
75  56  19
 wi
150
i 1
Media aritmética: Simple y ponderada
Ejemplo de media aritmética aplicada a finanzas:
Una cartera es un conjunto de valores de inversión. Si un inversionista
mantiene una cartera de $100,000 en cada una de las 3 empresas
siguientes Empresa Cantidad Nota: El Coeficiente β es
invertida (Wi) una medida de la
General Motors $33,333.33 volatilidad de una
(0.33) acción, respecto a una
acción promedio del
Exxon $33,333.33 mercado y por tanto a un
(0.33) índice de mercado
IBM $33,333.33 Criterio general:
(0.33) β=1 riesgo medio
Si cada una de las acciones tiene una beta (β) de 0.7, entonces la beta de
la cartera será de:
n

w x i i
(33,333.33 * 0.7)  (33,333.33 * 0.7)  (33,333.33 * 0.7)
 cartera= i 1
n
 
w
100,000
i
i 1

(0.33)0.7  (0.33)0.7  (0.33)0.7  0.7


Tal cartera será menos riesgosa que la cartera promedio del mercado
Media aritmética: Simple y ponderada
Ejemplo de media aritmética ponderada:
Si una de las acciones existentes se vende y es reemplazada por un
acción de la empresa Bimbo con β = 2, ¿Qué le pasaría a la cartera?
Empresa Cantidad
invertida (Wi)
Bimbo $33,333.33
(0.33)
Exxon $33,333.33
(0.33)
IBM $33,333.33
n (0.33)
w x i i
(33,333.33 * 2)  (33,333.33 * 0.7)  (33,333.33 * 0.7)
 cartera= i 1
n
 
w
100,000
i
i 1

(0.33)2  (0.33)0.7  (0.33)0.7  0.66  0.231  0.231  1.122


Esta decisión de cambiar por acciones de otra empresa, provoca que el
riesgo de la cartera sea por arriba del promedio del mercado
Moda
Moda : Es el valor más frecuente, el que se observa mayor número de
veces.
Datos No Agrupados:
Después de ordenar los datos buscamos el valor que más se repite.

Ejemplo: Encontrar la moda de; 47, 48, 49, 49, 49, 51, 51, 52. Podemos
observar que el número que más se repite es el 49. Si ningún valor
se repite, no existe moda

Datos Agrupados:
Se localiza la clase modal buscando la frecuencia más alta y después se
aplica la siguiente fórmula:
 1 
X̂ = FI +   * i Donde FI = Límite inferior de la clase modal
 1   2  f = frecuencia más alta
i = amplitud del intervalo de la clase modal
donde : 1  f  fanterior
 2  f  fposterior

Nota: La distribución puede ser: amodal, unimodal, bimodal, trimodal,....,


polimodal.
Moda
Ejemplo: Calcular el salario que más se repite en:
Lím. Inf. Lím. Sup. Salario No. de
x empleados
f
12,500 17,500 $15,000 18
17,500 22,500 $20,000 35
22,500 27,500 $25,000 29

Observamos las frecuencias (No. de empleados) y decimos que la clase


modal es la segunda, porque 35 es la frecuencia más grande y
aplicamos: Esta es la FI de la clase modal

 1   17 
X̂ = FI +   * i  17500    * 5000  $21,195.65
 1   2   17  6 
donde : 1  f  fanterior  35  18  17
 2  f  fposterior  35  29  6 Tamaño de intervalo
(22500-17500)
Mediana
Mediana : Es el valor central, el que delimita al 50% de los datos, es decir,
es el valor que se encuentra exactamente en la mitad de los datos.

Datos No agrupados:
En los datos ordenados se aplica la siguiente relación, para encontrar la
posición de los datos.
n 1
posición 
2 Donde n = número total de datos
Entonces podemos tener sólo dos alternativas
1. El valor de la posición puede ser entero y lo único que debemos hacer
es contar el número de lugares que nos indica esta formula.
2. El valor de la posición nos da un valor decimal (.5) y entonces
debemos: sumar los valores involucrados y dividirlos entre 2.
Ejemplo: Obtener la mediana de los datos: 8, 7, 5, 13
Si tenemos los valores ordenados 5, 7, 8, 13 entonces la posición nos da
2.5 por tanto, tendremos que seleccionar a los números 7 y 8 para
luego sumarlos (15) y dividirlos entre 2 (7.5) . De esta manera
podemos afirmar que la mediana es 7.5
Mediana
Datos Agrupados:
Se localiza la clase o renglón que contiene a la mediana, con la siguiente
condición
n +1
fa   posición
2
Es decir debemos encontrar la primera frecuencia acumulada que sea
mayor o igual a la posición, para posteriormente aplicar la siguiente
fórmula:

~  posición  fa anterior 
X = FI +  *i
 f 
Donde:
FI = Frontera o límite verdadero inferior del renglón de la mediana
fa = Frecuencia acumulada anterior al renglón de la mediana
f = Frecuencia del renglón de la mediana
i = Tamaño del intervalo en el renglón de la mediana
Mediana
Datos Agrupados:
Ejemplo: Calcular el sueldo mediano de:
Lím. Inf. Lím. Sup. Salario No. de Frecuencia
x empleados acumulada
f fa
12,500 17,500 $15,000 18 18
17,500 22,500 $20,000 35 53
22,500 27,500 $25,000 29 82

Primero se obtiene la posición: posición 


82  1
 41.5
2
Entonces buscamos el renglón de la mediana buscando la fa igual o más
grande de 41.5, como 18+35 = 53 véase la frecuencia de los dos
primeros renglones de los datos, entonces decimos que es el
segundo renglón o clase donde se encuentra la mediana y
aplicamos la fórmula:
~  posición  fa anterior   41.5 - 18 
X = FI +   * i  17500    * 5000  $20,857.14
 f   35 
Relación entre la media aritmética, mediana y moda
Sus posiciones relativas, según la simetría de la distribución de
frecuencias son:

Relación Simetría

Simétrica
~=X
X̂  X
~ X Sesgo positivo
X̂  X
~>X
X̂  X
Sesgo negativo

Nota importante: Si la distribución no es simétrica o sesgada, la relación


entre las tres medidas cambia.
Media Geométrica
Media Geométrica (G):
Si las cantidades van cambiando en un período de tiempo, entonces
necesitamos conocer una tasa promedio de cambio. Si utilizamos la
media simple no sería apropiada para representar los datos. Por
tanto esta media se utiliza para determinar el cambio promedio de
porcentajes, razones, índices o tasas de crecimiento.
G  n Y1Y2  Yn
Suponemos que Yi representa el factor de crecimiento geométrico de la
variable X entre un período y el siguiente, es decir: Xi
Yi 
X i 1
Ejemplo: el precio de una acción de enero es de $15 pesos
el precio de la acción en febrero es de $19 pesos
=>
El factor de crecimiento es de 19/15 = 1.26667 =Y1 lo que significa que ha
crecido la acción en más de un 26% : (1.26667-1) *100 (G - 1)100

Si tenemos más períodos (datos), lo interesante sería obtener el factor de


crecimiento promedio (media geométrica)
Media Geométrica
Otro ejemplo: Suponga un incremento en el salario del 5% el año 1 y un
15% en el año 2
Xi X X
Los factores de crecimiento son: Yi  Y1  1  1.05 Y2  2  1.15
X i 1 X1-1 X 21
G  2 Y1Y2  2 (1.05)(1.15)  1.09886
Se puede observar que el promedio de incremento fue del 9.886% y no del
10%
(G - 1)100  (1.09886 - 1)100  9.886
Si el ingreso inicial es de $3,000 verificamos:
Incremento 1: $3,000 (0.05) = $150
Incremento 2: $3,150 (0.15) = $472.50
Total = $622.50 Este cálculo equivale a:

Incremento 1:$3,000.00 (0.09886) = $296.58


Incremento 2:$3,296.58 (0.09886) = $325.90
Total = $622.48 que es muy cercano a $622.50
Media Geométrica

Resumiendo, para datos no agrupados tenemos:

Factor de crecimiento promedio (media geométrica) G  n Y1Y2  Yn


por tanto el crecimiento promedio se obtiene mediante la siguiente
fórmula:

Crecimiento promedio =(G - 1)100


(en ocasiones se le llama tasa promedio de crecimiento)
Media Geométrica
Ejemplo:
Suponga que el precio de la acción de la empresa “Pronokal” en los
últimos cuatro días fueron; 4.75, 5.23, 4.78 y 6.32 . Por otro lado, si el
Director de la empresa desea calcular el factor de crecimiento
promedio y el crecimiento promedio. ¿Cómo se resuelve este
problema?...
De la forma más tradicional es:
5.23 4.78 6.32 3
G  n Y1Y2  Yn  3 * *  1.330526316  1.099869493
4.75 5.23 4.78
Lo que acabamos de obtener es factor de crecimiento promedio
(1.099869493) y para obtener el crecimiento promedio se aplica la
formula:
crecimient o  (G  1)100  (1.099869493  1)100  9.9869%
Lo anterior significa que el crecimiento promedio de las acciones de la
empresa en esos períodos fue de 9.98%
Nota: Del ejercicio anterior observar que la fórmula se puede simplificar a:
Valor _ al _ final _ del _ período
Gn
Valor _ al _ inicio _ del _ período
Media Geométrica

Valor _ al _ final _ del _ período


Gn
Valor _ al _ inicio _ del _ período

Ejemplo:
Si una persona ganó $30,000 en el año 2000 y $50,000 en el año 2010
¿Cuál es la tasa anual de incremento durante este período?

Calculamos la media geométrica: 50000 10


G  10  1.67  1.053
30000

Por tanto la tasa anual de incremento es

crecimiento  (G  1)100  (1.053  1)100  5.3%aprox.


Media Geométrica
Datos agrupados
G  Y Y Y
n
1
f1 f2
2
fk
k
donde: k = última clase
fi = son las frecuencias de cada grupo

Nota: Se puede demostrar que: XG


Ejemplo:
Supóngase que se cuenta con la información diaria de los incrementos
porcentuales de una acción durante 77 días y que se representan en
la siguiente tabla:
Crecimiento Frecuencias en
Porcentual (%) días
10 14
20 15
30 48

1. Calcular los factores de crecimiento


 crecimient o porcentual 
en este ejemplo mediante: Y  1  
 100 
1.10, 1.20 y 1.30
Media Geométrica

2. Calcular el factor de crecimiento promedio

G  n Y1f1 Y2f 2  Ykf k  77 1.1014 *1.2015 *1.30 48  1.2415965

Note que los valores de 1.10, 1.20 y 1.30 son resultado de realizar lo
siguiente:
 crecimient o porcentual  10
Y1  1     1  ( )  1.10
 100  100

Para el primer caso y se deberá hacer lo mismo para los otros dos datos.

¿Cuál es por tanto, el crecimiento promedio de dicha acción?


Respuesta: (G-1)100 = 24.16%

Recordemos que: XG


Media Geométrica
Ejemplo de aplicación: El Instituto Nacional de Estadística y Geografía
(INEGI) encontraron los siguientes datos al investigar el crecimiento
del consumo privado en México:
%
Trimestre crecimiento
a) Obtenga el crecimiento promedio para el consumo Ene-09 -5.2
privado Abr-09 -0.6
Jul-09 3
Oct-09 1.5
Ene-10 1.1
b) Construya un gráfico que represente el Abri-10 1.4
comportamiento del consumo privado en este período. Jul-10 1.2
Oct-10 1.3
Ener-11 0.3
Abr-11 1.9
Jul-11 2.5
Oct-11 -0.6
Ene-12 1.2
Abr-12 1.4
Jul-12 0.6
Oct-12 1.7
Ene-13 0.9
Abr-13 -0.8
Media Geométrica
Respuesta al apartado a)
Calculamos los Yi para cada renglón y aplicamos la fórmula de la media
geométrica: %
Trimestre crecimiento Yi
 crecimiento porcentual  1 -5.2 0.948
Yi  1    2 -0.6 0.994
 100  3 3 1.03
4 1.5 1.015
5 1.1 1.011
6 1.4 1.014
G  n Y1Y2  Yn 7
8
1.2
1.3
1.012
1.013
9 0.3 1.003
Por tanto el crecimiento promedio es: 10 1.9 1.019
11 2.5 1.025
12 -0.6 0.994
crecimiento  (G  1)100  (1.01  1)100  1% 13 1.2 1.012
14 1.4 1.014
15 0.6 1.006
16 1.7 1.017
17 0.9 1.009
18 -0.8 0.992
1.13
G 1.01
Media Geométrica
Respuesta al apartado b)
Construya un gráfico
Medidas de posición: percentiles, cuartiles y deciles
Medidas de posición:
Ayudan a localizar el valor de la variable que acumula cierto porcentaje
específico de datos.

Percentiles (P):
Los percentiles dividen a un grupo de datos en 100 partes iguales. Para
ello se requieren utilizar 99 percentiles.

Cada percentil delimita dos regiones de la siguiente manera:


Cuando un valor ocupa el percentil “x” significa que (a lo más) un “x %” de
los datos son menores o iguales que ese valor y que un “(100 - x) %” de
los datos se encuentran por arriba de dicho valor.
Ej: 47.3 es el valor que
divide a los datos con
el 15% por abajo y 85%
el 85% por arriba. 15%
Es decir, el 47.3 es el
percentil 15
47.3
P15 = 47.3
Percentiles
Percentiles Datos No Agrupados:
(en caso de datos agrupados, se utiliza una fórmula que veremos más
adelante)

Se debe calcular la posición del percentil mediante el siguiente


procedimiento:

1. Ordenar los datos de menor a mayor


p
2. Calcular la ubicación del percentil (i): i n
100
Donde p es el percentil deseado y n el número de datos

3. Determinar la ubicación de (a) o (b)


(a) Si “i” es un número entero, el percentil p es el promedio de los valores
en las posiciones “i” e “i+1”
(b) Si “i” no es un número entero, se debe redondear al primer entero
mayor que i y ese número denota la ubicación del percentil p
Percentiles

Ejemplo: Determine el percentil 40 de los siguientes 25 valores ordenados:

3, 5, 6, 11, 14, 18, 19, 20, 24, 25, 26, 27, 28, 30, 31, 33, 34, 36, 44, 45, 47, 48,
49, 51 y 52

p 40
i n 25  10
100 100

Como i es un entero, usamos 3 (a),obtenemos el promedio entre los


valores de las posiciones 10 y 11
(25  26)
 25.5
2
25.5 es el valor que corresponde con el percentil 40
Percentiles

Ejemplo: Determine el percentil 30 de los siguientes ocho números:


5, 12, 13, 14, 17, 19, 23, 28

p 30
i n 8  2.4
100 100
Como i no es un entero, usamos 3 (b) redondeando al siguiente entero es
3

=> El percentil 30 está ubicado en el tercer valor, es decir 13 es el número


que corresponde al percentil 30

Observar que el percentil puede o no ser uno de los valores de los datos
Percentiles, cuartiles y deciles
Si los percentiles representan el 1%, 2%, ... , 99% de los datos acumulados
respectivamente.
 Como caso particular al calcular los percentiles tenemos a los
cuartiles y deciles:
• Cuartiles (Q): Representan el valor de los datos que acumulan el
25%, 50% y 75% respectivamente.
• Deciles (D): Representan el 10%, 20%, ... , 90% de los datos
acumulados respectivamente.

Cuartiles:
Primer cuartil p = 25
Segundo cuartil p = 50 coincide con la mediana de los datos
Tercer cuartil p = 75

Deciles:
Primer decil p = 10
Segundo dedil p = 20
Tercer decil p = 30
Etc.
Percentiles, cuartiles y deciles 2.6
2.7
Ejemplo: Un panel de economistas y financieros proporcionó 0.4
3.1
pronósticos de la economía estadounidense para los 2.7
próximos seis meses del 2007. Los cambios porcentuales 2.5
2.3
(%) en el PIB pronosticado por los 30 profesionales son los 2.7
siguientes 2.2
2.7
2.9
1.9
3.4
3.1
1.8
a) ¿Cuál es el pronóstico mínimo para el cambio porcentual en 0.9
el PIB? ¿Cuál es el pronóstico máximo? 2.8
1.1
b) Calcule la media mediana y moda 2.6
c) Calcule el primero, segundo y tercer cuartil 1.7
2
d) ¿Los economistas y financieros proporcionaron una 2.8
perspectiva optimista o pesimista de la economía 2.3
2.1
estadounidense? 2
2.8
2.5
2.4
3.5
0.5
Percentiles, cuartiles y deciles 0.4
0.5
a) ¿Cuál es el pronóstico mínimo para el cambio porcentual 0.9
1.1
en el PIB? ¿Cuál es el pronóstico máximo? 1.7
Paso 1 ordenamos los datos: 1.8
1.9
2.0
2.0
2.1
Pronóstico mínimo para el cambio porcentual en el PIB: 0.4% 2.2
2.3
Pronóstico máximo para el cambio porcentual en el PIB: 3.5% 2.3
2.4
2.5
b) Calcule la media mediana y moda: 2.5
2.6
2.6
0.4  0.5  ...  3.4  3.5 69 2.7
x   2.3% 2.7
30 30 2.7
2.7
2.8
~ = 2.5  2.5  2.5%
X
2.8
2.8
2 2.9
3.1
3.1
X̂ = 2.7% 3.4
3.5
Percentiles, cuartiles y deciles 0.4
c) Calcule el primero, segundo y tercer cuartil 0.5
0.9
Paso 1. Ordenar datos ok 1.1
Primer cuartil Q1: 1.7
p 25 1.8
Paso 2 calcular la ubicación i: i  n  30  7.5 1.9
100 100 2.0
Paso 3 (b). Cómo i no es un número entero, se debe redondear al Q1
2.0
siguiente entero: 2.1
Entonces el primer cuartil es el dato en la ubicación 8 o sea: Q1 = 2.0% 2.2
2.3
2.3
Segundo cuartil Q2: p 50 2.4
i n 30  15 Q2 2.5
Paso 2 calcular la ubicación i: 100 100 2.5
Paso 3 (a) Como i es un número entero, el segundo cuartil 2.6
2.6
es el promedio de los valores entre las ubicaciones 15 y 16: 2.7
2.7
(2.5  2.5) 2.7
el segundo cuartil es el dato promedio  2.5 Q2 = 2.5% 2.7
2 Q3 2.8
2.8
Tercer cuartil Q3: 2.8
p 75
Paso 2 calcular la ubicación i: i  n 30  22.5 2.9
100 100 3.1
3.1
Paso 3 (b). El tercer cuartil es el dato de la ubicación 23 o sea: Q3= 2.8% 3.4
3.5
Percentiles, cuartiles y deciles
d) ¿Los economistas y financieros proporcionaron una perspectiva
optimista o pesimista de la economía estadounidense?

Respuesta: Optimista ya que del apartado a) podemos observar la


siguiente relación:

~  2.5%  X̂ = 2.7%
x  2.3%  X

Esto implica un ligero sesgo a la izquierda (sesgo negativo),


predominando las opiniones con cambios porcentuales algo más
altos
Percentiles, cuartiles y deciles
El Excel utiliza otro método y es posible que el resultado no sea exacto, no
obstante para una gran cantidad de observaciones es despreciable
las diferencias que se pueden tener.
Ejemplo: Suponga que a continuación se encuentran las comisiones que
ganó el último mes una muestra de 15 corredores de bolas de la
oficina Salomon Smith Barney´s Okland, California. Esta compañía
de inversionistas tiene oficinas a lo largo de Estados Unidos.
Observe que ya están ordenados los datos.
El valor de la mediana es: $2038 1460
Obtenga el cuartil 1: 1471
“exclusive” Q1 = $1721eliminan a la mediana: 1637
1721 Cuartil 1 Exclusive 1721
“inclusive” incorporan a la mediana: 1758 Cuartil 1 Inclusive 1739.5
1787
(1721  1758)
Q1=  1739.5 1940
2 2038 Mediana
2047
Obtenga el cuartil 3: 2054

“exclusive” Q3= $2205 2097 Cuartil 3 Inclusive


2205 Cuartil 3 Exclusive
2151
2205
2287
(2205  2097)
“inclusive” Q3=  2151 2311
2 2406
Percentiles, cuartiles y deciles
Otro ejemplo:
A continuación se presentan los datos de la utilidad anual (en miles de
euros) obtenida de 30 empresas farmacéuticas:
Calcular la utilidad generada por el 60% de las empresas de menores
utilidades
230 400 290 300 300 310 310 320 350 350
350 350 350 350 360 360 370 370 390 400
240 400 400 450 460 470 350 350 400 400
Primero ordenamos los datos para mayor comprensión del problema
230 240 290 300 300 310 310 320 350 350 Percentil 60 = 360
en Excel
350 350 350 350 350 350 360 360 370 370
390 400 400 400 400 400 400 450 460 470

60(30) 360  370


i  18 valores _ de _ posición _ 18 y19   365
100 2
percentil 60  365 Utilidad generada por el 60% de las
empresas más chicas = $5820
Suma de las 18 empresas primeras
Percentiles, cuartiles y deciles
Datos Agrupados:

Primero calculamos la posición como en los datos no agrupados,


después buscamos la primer fa  posición , y aplicamos la siguiente
formula:

Posición del cuantíl (percentil, cuartil o decil)

Frecuencia acumulada anterior


al renglón seleccionado
 p  
 n   fa anterior 
C = FI +  
100  *i
 f  Tamaño de intervalo del renglón
  seleccionado
 
Frecuencia del renglón seleccionado
Frontera inferior
Percentiles, cuartiles y deciles
Ejemplo
Encontrar el valor del tercer cuartil (o el percentil 75) de la siguiente tabla
de valores
Calculamos la posición del tercer cuartil:
Lím. Lím. Frecuencia fa
75(1099)
Inf. Sup. i  824.25
100 200 389 389 100
200 300 258 647 La fa  posición está en la clase 3
300 400 452 1099

Aplicamos la fórmula:
Posición del tercer cuartil = 825 => Tercer intervalo

  pn      75(1099)  
   fa anterior     647 
C = FI +  
100   * i  300    100   *100  339.2146
 f   452 
   
   
Por lo que 339.2146 ubicado en el tercer intervalo, representa el valor que
divide a los datos en un 75% menores a ese número y un 25%
mayores a ese número
Medidas de dispersión (variabilidad)

Medidas de dispersión:
En general describen la variabilidad de un conjunto de datos y sirven de
complemento junto con las anteriores medidas de tendencia central
para obtener una descripción numérica más completa de los datos.

Las medidas más comunes son:

Rango
Desviación estándar y varianza
Coeficiente de variación

En particular veremos dos resultados muy útiles:


Teorema de Chebyshev y la regla empírica
Rango

Rango: Es la distancia que existe entre el menor y mayor valor de los


datos (Se obtiene con la diferencia entre el dato mayor menos el
dato menor)

Datos no agrupados rango  max  min

Datos agrupados:
rango  LSk  LI1

Donde k = última clase


LS = Límite superior
LI = Límite inferior

Rango Intercuartílico: Es el rango en que se encuentra el 50% central de


los datos y no es afectada por los valores extremos
Q  Q 3  Q1
Rango 0.4
0.5
0.9
Ejercicio: Utilizando los datos de los pronósticos para el cambio 1.1
1.7
porcentual en el PIB estadounidense ya ordenados, calcular 1.8
las dos medidas de dispersión 1.9
2.0
2.0
2.1
2.2
Rango: 2.3
rango  max  min  3.5 - 0.4  3.1% 2.3
2.4
2.5
2.5
2.6
2.6
Rango intercuartílico: 2.7
Q  Q 3  Q1  2.8%  2.0%  0.8% 2.7
2.7
2.7
2.8
2.8
2.8
2.9
3.1
3.1
3.4
3.5
Varianza y desviación estándar

Varianza: Mide la dispersión de los datos alrededor de la media aritmética.


Representa el área que se forma entre la media aritmética y la
desviación estándar.
Varianza poblacional. Es cuando estamos trabajando con todos los datos
de la población, en la práctica es más común trabajar con datos de
muestras.
Varianza poblacional Desviación estándar poblacional
2   2
N

 i
x   2

2 = i 1
N
o en forma simplificada
 N 
  xi 
2

2   i 1   2
 N 
 
 
Varianza y desviación estándar
EJEMPLO:
Supongamos que tenemos registrados el ingreso de una población de 12
familias
Núm. de Ingreso Núm. de Ingresos
familia familiar $ familia familiar $
1 19,000 7 45,000
2 17,000 8 39,000
3 22,000 9 38,000
4 18,000 10 44,000
5 28,000 11 34,000
6 34,000 12 10,000

Dado que estamos suponiendo datos poblacionales donde N=12,


determinemos la varianza poblacional. Pero antes, iniciamos por
calcular la media poblacional

19,000  17,000  ...  34,000  10,000 348,000


   $29,000
12 12
Varianza y desviación estándar

Paso siguiente es calcular la diferencia entre la media y cada observación:

 ( xi   ) 2
(19,000  29,000) 2  (17,000  29,000) 2  ...  (34,000  29,000) 2  (10,000  29,000) 2
 =
2 i 1
 
N 12
n

 ( xi   ) 2
1488,000,000
2 = i 1
  124,000,000
N 12

Normalmente la cifra en sí misma de la varianza no es significativa, por


tanto, se regresa a la medición original obteniendo la raíz cuadrada
de la varianza y al resultado se le llama desviación estándar de la
población.

   2  124,000,000  $11,136...redondeado _ a _ pesos


Varianza y desviación estándar
Desviación estándar poblacional: (Dispersión Absoluta)
Es una de las medidas de variabilidad preferida. Es la raíz cuadrada
(positiva) de la varianza poblacional y se usa como entidad separada
y como parte de otros análisis, con la ventaja de que se expresa en
las mismas unidades de las variables originales (pesos, litros,
unidades producidas, etc.)
  2
Interpretación: Mide la dispersión de los valores de los datos, con la
ventaja que esta en las mismas unidades que la variable en cuestión
y si la distribución tiene forma de campana, es de mucha utilidad.
Varianza y desviación estándar
Del ejemplo anterior, como la varianza son ingresos al cuadrado, la
interpretación no es muy sencilla, por tanto, calculamos la raíz
cuadrada para obtener la desviación estándar, con la ventaja de que
ya regresamos a las unidades de la variable en cuestión .
Supongamos que los ingresos tienen forma de campana en una población
mucho mayor a las 12 familias anteriores. La gráfica siguiente es
una aproximación a un histograma con barras muy pequeñas
   2  124,000,000  $11,136

29,000  11,136  $17,864 29,000  11,136  $40,136

29,000  22,272  $6,728 29,000  22,272  $51,272

  $29,000
Varianza y desviación estándar
Otro ejemplo:
Si dos poblaciones tienen la misma media y tienen dos desviaciones
estándar poblacionales, podemos tener una fotografía de la
dispersión de ambas poblaciones:
Promedio de ingresos: $29,000 ambas poblaciones

  $2,000
1

  $5,000
2
Varianza y desviación estándar

Varianza muestral: Cuando estamos trabajando con datos provenientes de


una muestra, podemos hacer referencia a la varianza muestral y la
fórmula sufre una ligera modificación:

Se acostumbra dividir entre n-1 para obtener un estimador insesgado

n

 i
x  x 2

i 1
S2 =
n -1
o en forma simplificada
 n 2 
  xi 
 2

S2   i 1  n x 
 n -1   n  1 
 
 
Varianza y desviación estándar

Desviación estándar muestral: (Dispersión Absoluta)


De forma similar, podemos hablar de la desviación estándar muestral y la
notación es:
S = S2
La interpretación es idéntica a la desviación estándar poblacional
Varianza y desviación estándar
Ejercicio: Considere una muestra de meses (desde marzo del 2009 hasta
febrero del 2011) cuya información son las tasas de interés
promedio mensual para los Certificados de Tesorería de la
Federación (Cetes) a 28 días
fecha interés de Cetes fecha interés de cetes
mar-09 7.03 mar-10 4.45
abr-09 6.05 abr-10 4.44
may-09 5.29 may-10 4.52
jun-09 4.98 jun-10 4.59
jul-09 4.59 jul-10 4.60
ago-09 4.49 ago-10 4.52
sep-09 4.48 sep-10 4.43
oct-09 4.51 oct-10 4.03
nov-09 4.51 nov-10 3.97
dic-09 4.50 dic-10 4.30
ene-10 4.49 ene-11 4.14
feb-10 4.49 feb-11 4.04

Calcular la varianza y la desviación estándar muestral de la tasas de


interés de Cetes en ese período
Varianza y desviación estándar
Se obtiene la media muestral y con Excel se construye la fórmula
Tasa de interés media (xi-media) (xi-media)2
7.03 4.64 2.39 5.70
6.05 4.64 1.41 1.98
5.29 4.64 0.65 0.42
4.98 4.64 0.34 0.11
4.59 4.64 -0.05 0.00
4.49 4.64 -0.15 0.02
4.48 4.64 -0.16 0.03
4.51 4.64 -0.13 0.02
4.51 4.64 -0.13 0.02
4.50 4.64 -0.14 0.02
4.49 4.64 -0.15 0.02
4.49 4.64 -0.15 0.02
4.45 4.64 -0.19 0.04
4.44 4.64 -0.20 0.04
4.52 4.64 -0.12 0.02
4.59 4.64 -0.05 0.00
4.60 4.64 -0.04 0.00 n

 x x 
4.52 4.64 -0.12 0.02 2
4.43 4.64 -0.21 0.05 i
i 1
4.03 4.64 -0.61 0.38 S2 =
3.97 4.64 -0.67 0.45 n -1
4.30 4.64 -0.34 0.12
4.14 4.64 -0.50 0.25
4.04 4.64 -0.60 0.36
Promedio 4.64 Suma 10.09 S = S2
Varianza 0.44
Desviación estándar 0.66
Varianza y desviación estándar

En el caso de datos agrupados se realizan los ajustes necesarios


quedando las fórmulas siguientes:

Varianza poblacional:
k

 f i x i   
2

2 = i 1
N
o en forma simplificada
 k 2 
  fi x i 
 2   i 1   2
 N 
 
 

Donde Xi es la marca de clase y fi es la frecuencia de cada grupo o clase


Varianza y desviación estándar

Varianza muestral
k

 f i x i  x 
2

i 1
S2 =
n -1
o en forma simplificada
 k 2 
  fi x i 
   n x
2

S 
2 i 1
  
 n - 1   n - 1 
 
 

Donde Xi es la marca de clase y fi la frecuencia de cada grupo o clase


Varianza y desviación estándar
Ejemplo:
La Secretaría del medio ambiente de la Ciudad de México le ha solicitado
que haga un análisis estadístico de los últimos 120 días en los que
se ha pasado la norma de contaminación atmosférica, ya que, lo
preocupante son los días de exposición en un año a estas altas
concentraciones de contaminantes y para ello le proporciona la
siguiente información:
Mes Valores IMCM Número de días
Enero 268 10
Febrero 275 12
Marzo 236 7
Abril 220 20
Mayo 195 18
Junio 189 12
Julio 180 1
Agosto 152 9
Septiembre 187 9
Octubre 200 8
Noviembre 315 7
Diciembre 224 7
1. Elabore una tabla de distribución de frecuencias de 4 clases y responda
con esta información los siguientes incisos.
Varianza y desviación estándar
Los datos anteriores están resumidos, pero no es una tabla de frecuencia,
si queremos ver los datos no resumidos tendremos algo así:
Mes Valores IMEC
Enero 268
Enero 268
10 días . .
Enero 268
Febrero 275
Febrero 275
12 días
.
120 días / datos
Febrero 275
::: :::
::: :::
::: :::
Diciembre 224
Diciembre 224
7 días
Diciembre 224
Varianza y desviación estándar
El Rango = 163 y considera una amplitud de cada intervalo de i = 40.75
IMC Lím. IMC Lím.
Frecuencia (fi)
inferior superior
152 192.75 31
192.75 233.5 53
233.5 274.25 17
274.25 315 19
Total 120

a) Obtenga la media aritmética poblacional.


Se debe obtener la marca de clase y el producto de la marca de clase por
la frecuencia y tenemos:
IMC Lím. IMC Lím. Frecuencia Marca de
inferior superior (fi) clase Xi fi*Xi k
152 192.75 31 172.38 5343.63 f x i i
=
192.75 233.5 53 213.13 11295.63 i 1
233.5 274.75 17 254.13 4320.13 N
274.75 315 19 294.88 5602.63
Total 120 26562.00
Media 221.35
Varianza y desviación estándar
b) Obtenga la desviación estándar poblacional:

IMC Lím. IMC Lím. Frecuenci Marca de


inferior superior a (fi) clase Xi fi*Xi (Xi-media)(Xi-media)2 fi*(Xi-media)2
152 192.75 31 172.38 5343.63 -48.975 2398.55 74355.07
192.75 233.5 53 213.13 11295.63 -8.225 67.65 3585.48
233.5 274.75 17 254.13 4320.13 32.775 1074.20 18261.41
274.75 315 19 294.88 5602.63 73.525 5405.93 102712.59
Total 120 26562.00 198914.55
Media 221.35 Varianza 1657.62
Des.
Estándar 40.71

 fi x i   
2

 =2 i 1   2
N
Coeficiente de variación
Coeficiente de variación (CV): (Dispersión Relativa)
En ocasiones es necesario un estadístico descriptivo que indique cuán
grande es la desviación estándar en relación con la media. Esa
medida es el coeficiente de variación y se expresa como porcentaje
S 
CV =  100, CV   100
x 
Nota: Observe que para una población, la S = S se sustituye por   2
2



y la X por la

Ejemplo: Supongamos que se quiere comparar los saldos promedio de las


cuentas de clientes de dos sucursales bancarias una de ellas en el
D.F. y otra en la provincia: los datos son los que se muestran a
continuación:
Saldo promedio de la sucursal del D.F. es: $1,248.50 y desv. estándar:
$537.93
Saldo promedio de la sucursal en provincia es: $743.84 y desv. estándar:
$325.10
Coeficiente de variación
Una manera de comparar esas magnitudes es utilizar el CV:

Sucursal del D. F.: CV : [537.93 /1248.50] (100) = 43.1%

Sucursal provincia : CV : [325.10 /743.84] (100) = 43.7%

Conclusión:

Es claro que la media y la desviación estándar son más pequeñas en la


sucursal de provincia. No obstante, como porcentaje de sus medias,
las desviaciones estándar son iguales en los dos bancos. En este
sentido, la variabilidad de los saldos de las cuentas en las dos
sucursales es en esencia la misma
Coeficiente de variación
Una aplicación en finanzas:
Supongamos dos acciones A y B. Pensemos que el precio promedio
semanal para dichas acciones durante una muestra de cinco
semanas fueron:
Acción A $57 $68 $64 $71 $62
Acción B $12 $17 $8 $15 $13

Se le solicita al experto en finanzas que determine cuál de las dos


acciones es más riesgosa entre A y B.
Importante: Tanto el coeficiente de variación y la desviación estándar se
suelen utilizar como medidas de riesgo. Cuanto mayor sea la
variabilidad es mayor el potencial de pérdida

Acción A x A  $64.40 S A  $5.4 CVA  8.38%

Acción B x B  $13 S B  $3.4 CVB  26.15%

SA 5.4 SB 3.4
CVA  
(100)  (100)  8.38% CVB  
(100)  (100)  26.15%
64.40 xB 13
xA
Respuesta: La acción B tienen un CV más grande que la acción A, por
tanto la acción B es más riesgosa
Coeficiente de variación
Otro ejemplo.
El consejo de administración de una corporación está estudiando la
posibilidad de adquirir una de las dos siguientes empresas (A o B) y
con mucho detenimiento analiza la administración de cada una de
ellas.
En los últimos cinco años, la empresa A alcanzó un promedio de
rendimiento sobre la inversión del 28%, con una desviación estándar
de 5.3%
La empresa B, en el mismo período, tuvo un promedio de rendimiento
sobre la inversión de 37.8% con una desviación estándar de 4.8%.
Considere en este caso, datos poblacionales
Suponemos que el riesgo se acompaña de una mayor dispersión relativa.
Empresa A  A  28%  A  5.3% CV  18.93%
A

Empresa B  B  37.8%  B  4.8% CVB  12.70%

¿Cuál de estas dos empresas ha aplicado una estrategia más riesgosa?


 5.3  4.8
CVA  A (100)  (100)  18.93% CVB  B (100)  (100)  12.70%
A 28  B 37 .8
Respuesta: la empresa A tiene una estrategia más riesgosa
Valor (punto) z
(valores estandarizados)
A partir de la media y la desviación estándar, se pueden determinar la
localización relativa a cualquier observación.
Supongamos una muestra de n observaciones: x1, x2, x3,…,xn
Sea x y s la media y la desviación estándar de dichos datos
respectivamente.

Para cada valor xi, existe otro valor llamado punto zi (o valor
estandarizado) que se obtiene mediante la siguiente fórmula de
transformación:
x x
i
z 
i
s
Importante:
Al punto zi puede ser interpretado como el número de desviaciones
estándar a las que xi se encuentra de la media x

Observación: z0
Valor (punto) z
(valores estandarizados)
Explicación con ejemplos:
Supongamos un reporte de ventas (en miles) en 5 sucursales cuya
cantidad en cada una es: 46, 54, 42, 46 y 32.
La media de ventas y la desviación estándar son: x  44 s 8
Calcular los puntos z que son equivalentes a los valores de ventas
originales anteriores:

Valor de la Desviación respecto a la Puntos z


venta media
xi  x
xi xi  x zi 
s
46 2 z1 = 2/8 = 0.25
54 10 z2=10/8 = 1.25
42 -2 z3= -2/8= -0.25
46 2 z4= 2/8 = 0.25
32 -12 z5= -12/8 =-1.50

Ahora si entramos a ver el teorema de Chebychev y la regla empírica


Teorema de Chebyshev y regla empírica
¿Qué tipo de problemas se pueden resolver con estas herramientas?
Permiten decir qué proporción de los valores que se tienen en los datos
debe estar dentro de un determinado número de desviaciones
estándar de la media.

El teorema de Chebyshev no importa la forma de distribución de los datos.


Si se tiene la sospecha o si se ilustra que los datos tienen una distribución
simétrica en forma de campana (normal) se puede aplicar la regla
empírica
Teorema de Chebyshev
Teorema de Chebyshev:
En general el teorema dice que dentro de z desviaciones estándar (σ) de la
media,   z , existe por lo menos 1
1  2  % proporción de valores,
para todo z > 1 z

Ilustración del Teorema:


Teorema de Chebyshev
Problema 1 Teorema de Chebyshev:
Supongamos que las calificaciones obtenidas de 100 estudiantes en un
examen de estadística descriptiva (con escala de 1 a 100), la media
es 70 y la desviación estándar es de 5.
¿Cuántos estudiantes obtuvieron calificaciones entre 60 y 80?

Respuesta: ¿Cuánto vale z de estos valores?


 
( xi  x) (60  70) ( xi  x) (80  70)
z   2 z  2
s 5 s 5
Si los valores están a dos desviaciones estándar, usamos el Teorema para
z=2
1 1
=> 1  2
 1   0.75
z 4
=> Al menos el 75% de los estudiantes obtuvieron calificaciones entre 60 y
80
Teorema de Chebyshev
Continuación… (Teorema de Chebyshev):
¿Cuántos estudiantes obtuvieron puntuaciones entre 58 y 82?
Buscamos el valor z correspondiente:
 
( xi  x) (58  70) ( xi  x) (82  70)
z   2.4 z   2.4
s 5 s 5

Los valores están a 2.4 desviaciones de la media, aplicamos el Teorema


para z = 2.4
1 1
1 2
 1  2
 0.826
z 2.4

Resultado: por lo menos el 82.6% de los estudiantes deben tener


puntuaciones entre el 58 y el 82 en sus calificaciones
Teorema de Chebyshev
Problema 2 Teorema de Chebyshev:
En una empresa, la media aritmética de la suma quincenal que aportan los
empleados al plan de ahorro de la empresa es de $51.54 y la
desviación estándar es de $7.51.
¿Por lo menos que porcentaje de las aportaciones se encuentran en +/- 3.5
desviaciones estándar de la media?
Respuesta: Aplicamos el Teorema con z= 3.5
1 1 1
=> 1 2
 1  2
 1   0.92
z (3.5) 12.25
=> Al menos el 92% de las aportaciones de los empleados se encuentran
en +/- 3.5 desviaciones de la media.

¿Cuál es el intervalo monetario de


al menos el 92% de las aportaciones
con centro en la media? 92%

x  $51.54
51.54  3.5(7.51)  51.54  26.28  ($25.26;$77.82)
Teorema de Chebyshev
Teorema de Chebyshev:
Si la distribución es desconocida o incluso anormal tenemos algunos
casos particulares para valores enteros de z

- Si z = 2 , al menos el 75% de los valores caen dentro de 2


desviaciones estándar alrededor de la media:

x  2S
- Si z = 3 , al menos el 89% de los valores caen dentro de 3
desviaciones estándar alrededor de la media:

x  3S
- Si z = 4 , al menos el 94% de los valores caen dentro de 4
desviaciones estándar alrededor de la media:
x  4S
Teorema de Chebyshev
Problema 3 Teorema de Chebyshev:
Intercam, está elaborando un estudio relacionado con el tamaño de las
carteras de inversión de clientes considerados como pequeños y
medianos.
Para ello, se tomo un muestra de clientes donde se calculó el importe de la
cartera promedio que fue de $2,800,000 con una desviación estándar
de $500,000. Si un histograma revela que la distribución de la cartera
no se acerca a la normal, aplica el teorema de Chebyshev para
determinar dentro de qué rango de valores caería al menos el 85% de
las inversiones.
1
Solución:
1 2
 0.85  z  2.58
z
El teorema dice que al menos el 85% de los valores están dentro de
  z a partir de la media.
Para una media de $2,800,000 y una desviación estándar de $500,000, el
tamaño de las carteras se encuentran dentro de:
2,800,000  2.58(500,000)  2,800,000  1,290,000
 ($1,510,000;$4,090,000)
Teorema de Chebyshev
Problema 4 Teorema de Chebyshev:
Merrill Lynch concluyó un estudio relacionado con el tamaño de las
carteras de inversión en línea (acciones, bonos, fondos mutuos, y
certificados de depósito) en una muestra de clientes del grupo de 40 a 50
años de edad. A continuación se muestra el valor de las inversiones en
miles de dólares de los 70 participantes
Inversiones en miles de dólares
669.9 7.5 77.2 7.5 125.7 516.9 219.9 645.2
301.9 235.4 716.4 145.3 26.6 187.2 315.5 89.2
136.4 616.9 440.6 408.2 34.4 296.1 185.4 526.3
380.7 3.3 363.2 51.9 52.2 107.5 82.9 63
228.6 308.7 126.7 430.3 82 227 321.1 403.4
39.5 124.3 118.1 23.9 352.8 156.7 276.3 23.5
31.3 301.2 35.7 154.9 174.3 100.6 236.7 171.9
221.1 43.4 212.3 243.3 315.4 5.9 1002.2 171.7
295.7 437 87.8 302.1 268.1 899.5

Determinar un intervalo de valores para las inversiones en el que se


encuentren contenidos al menos el 50% de los datos alrededor de la
media.
Teorema de Chebyshev
Continuación… (Teorema de Chebyshev)
Calculamos la media y la desviación estándar de la muestra para datos no
agrupados:
x  242.73 s  211.52
1
1  2  0.50
z
 z  1.41

x  zs
242.73  1.41( 211.52)  242.73  298.24  ( 55.51,540.97)

En este intervalo de valores se encuentran al menos el 50% de las


inversiones.
Regla empírica
Regla empírica:
Si la distribución es de forma de campana, simétrica y unimodal
- Aproximadamente el 68% de los datos (población) se encuentran a
x  S
una desviación estándar alrededor de la media:

- Aproximadamente el 95% de los datos (población) se encuentran a 2


desviaciones estándar alrededor de la media: 
x  2S 
- Aproximadamente el 99% de los datos (población) se encuentran a 3

x  3S
desviaciones estándar alrededor de la media:
Regla empírica
Ejercicio 1 Regla empírica:
Supongamos que Domino´s Pizza tienen durante un registro de 30 días
que la entrega promedio es de 20 minutos con una desviación
estándar de 5 minutos. Si asumimos que el tiempo de entrega a
domicilio se distribuye en forma de campana.
¿Podrías decirle rápidamente a la empresa cuantas pizzas tendrá que
regalar si llegan pasando los 30 minutos?. Utiliza la regla empírica
para dar una respuesta aproximada.
Respuestas:
El 68% de las pizzas son entregadas a domicilio entre los 15 y 25 minutos

El 95% de las pizzas son entregadas a domicilio entre los 10 y 30 minutos

El 5% de las entregas son repartidas en menos de 10 minutos o pasando


los 30 minutos, si suponemos que la distribución tienen forma de
campana, entonces podríamos pensar que aproximadamente el 2.5%
de las pizzas son regaladas por llegar después de 30 minutos

En definitiva de cada 100 pizzas entregadas, la empresa regala 2 pizzas


Medidas de forma
Medidas de forma:
Proporcionan un valor numérico para saber hacia qué lado de la
distribución hay mayor acumulación de frecuencia sin tener que
graficar los datos.
Medidas de forma: sesgo y curtosis
Sesgo:
Es el grado de asimetría que tiene la distribución o en otras palabras es el
análisis del comportamiento de los datos con respecto al eje de las
“X”. La distribución puede ser:

Insesgada: (sin sesgo). Tiene forma de campana y el área acumulada del


centro de la distribución a la derecha es igual a la que se acumula a
la izquierda.
Medidas de forma: sesgo y curtosis

Sesgo derecho ( sesgo positivo):


Si tiene la mayor acumulación de frecuencias a la izquierda y una cola
larga a la derecha.
Medidas de forma: sesgo y curtosis

Sesgo izquierdo (sesgo negativo):


Si la mayor acumulación está a la derecha y tiene una cola larga a la
izquierda.
Medidas de forma: sesgo y curtosis
Coeficiente Momento de Sesgo ( a 3 ): también conocido como coeficiente
de asimetría Hay varias fórmulas en la literatura estadística, una muy
sencilla por el profesor Karl Pearson es: Se conoce como
coeficiente de sesgo de
Datos no agrupados a  3( x  Mediana) Pearson
3
s s = desviación estándar

Regla: los valores pueden ir de -3 a 3

Coeficiente de Sesgo
sesgo de Pearson
a3 =0 No hay sesgo. La
distribución es insesgada
a 3 próximos a 3 La distribución tiene sesgo
positivo o sesgo derecho.
a 3 próximos a -3< 0 La distribución tiene sesgo
negativo o sesgo izquierdo.
Medidas de forma: Momentos
Momento respecto de la Media:
Son resultados para calcular la simetría y curtosis

El r-ésimo momento respecto a la media aritmética es:

 x  x 
n
r
Datos No Agrupados: i
mr  i 1
n

 fi x i  x 
n
r

Datos Agrupados mr  i 1
n

En particular:
 El primer momento respecto a la media (r=1) siempre es igual a cero.
 El segundo momento respecto a la media (r=2) es la varianza
poblacional.
Medidas de forma: sesgo y curtosis

En el caso de calcularlo con Excel la formula es distinta:

n  n  x i  x 3 
Datos no agrupados
a3  *    
(n - 1)(n - 2)  i 1  s  

En términos de momentos es

 
n

 i 
3
x x
Datos no agrupados m3
a3  3
 i1
S ns 3

Xi es la marca de clase
k fi la frecuencia de clase
 f i x i  x 
3
S desviación estándar
Datos agrupados
a3  i 1
ns 3
Medidas de forma: sesgo y curtosis

Cuadro resumen de Sesgo (coeficiente de asimetría)

Coeficiente Sesgo
momento de sesgo
(Coeficiente de
asimetría)
a3 = 0 No hay sesgo. La distribución es
insesgada
a3 > 0 La distribución tiene sesgo
positivo o sesgo derecho.
a3 < 0 La distribución tiene sesgo
negativo o sesgo izquierdo.
Medidas de forma: sesgo y curtosis
Curtosis:
Mide qué tan puntiaguda es una distribución, con respecto a la Normal, es
decir, analiza el comportamiento de los datos con respecto al eje de
las “Y”.
La distribución puede ser:
• Leptocúrtica: La distribución es más puntiaguda que la Normal, ya
que su desviación estándar es muy pequeña.
• Mesocúrtica: solo la distribución Normal (es el término medio).
• Platicúrtica: La distribución es menos puntiaguda que la Normal,
debido a que presenta una desviación estándar muy grande con
respecto a la distribución normal.
Medidas de forma: sesgo y curtosis
En términos de momentos, a 4 se calcula dividiendo el cuarto momento
respecto a la media entre la varianza al cuadrado (o la desviación
estándar a la cuarta) menos 3
n = Número total de datos
Datos No Agrupados: n

 i
x  x 4 y
S = desviación estándar
m4
a4  4  3  i 1
4
3
S nS
n
Datos agrupados
 f i x i  x 
4 Xi = es la marca de clase
m4 fi = la frecuencia de clase
a4  4  3  i 1
4
3 y
S nS S = desviación estándar

En el caso de calcularlo con Excel la formula es distinta:

n(n  1)  n
 xi  x  
4
3(n - 1) 2
a4     
(n - 1)(n - 2)(n - 3)  i 1  s   (n - 2)(n - 3)
Medidas de forma: sesgo y curtosis

Cuadro resumen de curtosis

Coeficiente momento Curtosis


de curtosis
a4 =0 La distribución es
Mesocúrtica.
a4 >0 La distribución es
Leptocúrtica.
a4 <0 La distribución es
Platicúrtica.
Medidas de asociación entre dos variables (cuantitativas)

Covarianza: es una medida descriptiva de la relación (o asociación) entre


dos variables.
n
Covarianza muestral:  (x i  x)( yi  y )
Para datos no agrupados S xy  i 1

n 1

En donde:
xi = Valores de la variable x
yi = Valores de la variable y
x = media aritmética de la variable x
y = media aritmética de la variable y

 (x   i x )( yi   y )
Covarianza poblacional:  xy  i 1
N
Medidas de asociación entre dos variables (cuantitativas)
Interpretación de la Covarianza:

 Si S xy  0 hay una relación directa (positiva), es decir, a grandes


valores de x corresponden grandes valores de y.

 Si S xy  0 se interpreta como la no existencia de una relación lineal


entre las dos variables estudiadas.

 Si S xy  0 hay una relación inversa (negativa), es decir, a grandes


valores de x corresponden pequeños valores de y.
Iguales interpretaciones se aplican al parámetro (covarianza poblacional)

S xy  0 S xy  0 S xy  0
Medidas de asociación entre dos variables (cuantitativas)
Ejemplo de covarianza:
Suponga que un administrador desea comprobar la relación lineal entre el
número de comerciales en un fin de semana y las ventas de
televisores a la semana siguiente y recaba una muestra de
observaciones durante 10 semanas
Nuestro administrador piensa que los comerciales (x) y el volumen de
venta (y) están relacionados Número de Volumen de
comerciales ventas
Semana (x) ($100s) (y)
1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
Medidas de asociación entre dos variables (cuantitativas)
Diagrama de dispersión entre el número de comerciales (x) y el volumen
de ventas $ (y)
Medidas de asociación entre dos variables (cuantitativas)
Calculo de la covarianza muestral
Número de Ventas
semana Comerciales (miles) xi  x yi  y ( xi  x)( yi  y )
xi yi
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
Total 30 510 0 0 99
x 3 y 51

 (x i  x)( yi  y )
99 Como es mayor que cero, tienen
S xy  i 1
  11 una relación lineal positiva las
n 1 10  1
variables
Medidas de asociación entre dos variables (cuantitativas)
En ocasiones se suele utilizar la siguiente fórmula alterna para calcular la
covarianza:

Nota: Observe que en este caso Sxy esta dividido entre n y no entre n-1 lo
que puede ocasionar una ligera diferencia, según la fórmula elegida.

Nota: De hecho utilizando Excel es equivalente a solicitar la covarianza


poblacional

n n

 ( x  x)( y  y)  x y
i i i i
S xy  i 1
 i 1
 xy
n n
Medidas de asociación entre dos variables (cuantitativas)
Ejemplo de covarianza: (con la fórmula alterna)
Suponga que un funcionario de cierto banco desea saber si existe
relación lineal entre el salario de sus clientes y la cantidad mensual
que ahorran, y para ello obtiene una muestra con los siguientes
datos:
año salario promedio en $ (x) Ahorro promedio (y)
1999 8590 171.8
2000 8323 158.1
2001 8055 185.3
2002 7788 155.8
2003 7520 142.9
2004 7253 166.8
2005 6985 139.7
2006 6651 126.4
2007 6584 151.4
2008 6116 122.3

Nuestro investigador piensa que el salario (x) y el monto ahorrado (y)


tienen relación.
Medidas de asociación entre dos variables (cuantitativas)
Primero obtenemos nlos promedios de “x” y “y”
n
X i
73865 1520.50 y i
x= i 1
  7386.5 y =
 152.05
i 1

n 10 n 10
También se multiplica los valores de “x” y “y” en cada nivel
año salario promedio ($) (x) ahorro promedio ($) (y) (x)(y)
1999 8590 171.8 1475762
2000 8323 158.1 1315866.3
2001 8055 185.3 1492591.5
2002 7788 155.8 1213370.4
2003 7520 142.9 1074608
2004 7253 166.8 1209800.4
2005 6985 139.7 975804.5
2006 6651 126.4 840686.4
2007 6584 151.4 996817.6
2008 6116 122.3 747986.8
sumas 73865 1520.5 11343293.9
promedios 7386.5 152.05
n

La covarianza: x y i i
11343293.9
S xy  i 1
 xy   (7386.5 x 152.05)  11212.065
n 10
Medidas de asociación entre dos variables (cuantitativas)

Si S xy  11212.065  0

Interpretación:
Es positivo, lo que implica que el salario y el ahorro se comportan de
manera similar y en el mismo sentido. A mayor cantidad de salario,
mayor cantidad de ahorro.

Para entender mejor el resultado de la covarianza, es de gran utilidad


obtener el coeficiente de correlación que mostramos a continuación.
En este caso ya no es afectada por la unidades de las variables

S xy Cov xy
rxy  
SxS y SxS y
Medidas de asociación entre dos variables (cuantitativas)
Coeficiente de Correlación (de producto-momento de Pearson):
Es una medida del grado de relación (correlación) lineal entre dos
variables con datos cuantitativos
Nota importante: puede existir alta correlación , pero no necesariamente
una relación de causalidad. Ejemplo la calidad de los restaurantes y
el precio de los mismos; el número de personas en la política y la
delincuencia
Se utiliza habitualmente una Gráfica de Dispersión para ver si existe una
relación lineal entre las dos variables de interés X e Y.
Medidas de asociación entre dos variables (cuantitativas)
Si rxy es el coeficiente de correlación entre dos variables:  1  rxy  1
Diagrama que resume la fuerza y la dirección del coeficiente de
correlación:

Correlación Correlación
negativa No hay positiva
perfecta correlación perfecta

Correlación Correlación Correlación Correlación Correlación Correlación


negativa negativa negativa positiva positiva positiva
fuerte moderada débil débil moderada fuerte

-1 -0.5 0 0.5 1
Correlación negativa Correlación positiva
Medidas de asociación entre dos variables (cuantitativas)
Ejemplos con diferentes niveles de correlación:  1  rxy  1
Medidas de asociación entre dos variables (cuantitativas)
En estadística podremos calcular el coeficiente de correlación (muestral)
de Pearson con la siguiente formula.
S xy Cov xy
rxy  
SxSy SxSy
Ejemplo: Calcular el coeficiente de correlación del problema de los
comerciales y las ventas de televisores:

Semana
Comerciales
xi
Ventas
yi
xi  x y i  y ( x i  x ) 2 ( yi  y) 2
1 2 50 -1 -1 1 1
2 5 57 2 6 4 36
3 1 41 -2 -10 4 100 S xy
4 3 54 0 3 0 9
rxy  
SxS y
5 4 54 1 3 1 9
6 1 38 -2 -13 4 169 11
7 5 63 2 12 4 144  0.93
(1.49)(7.93)
8 3 48 0 -3 0 9
9 4 59 1 8 1 64
10 2 46 -1 -5 1 25
Total 30 510 0 0 20 566
x 3 y  51

Sx 
 (x i  x) 2

20
 1.49 Sy 
( y i  y) 2

566
 7.93
n 1 9 n 1 9
Medidas de asociación entre dos variables (cuantitativas)

Como siempre, en caso de tener todos los datos de la población, el


coeficiente de correlación poblacional es:

 xy
 xy 
 x y

Tener presente que rxy es un buen estimador de  xy

Donde  xy = coeficiente de correlación poblacional

 xy = covarianza poblacional
 x = desviación estándar poblacional de x
 y = desviación estándar poblacional de y
Medidas de asociación entre dos variables (cuantitativas)

Ejercicio: El promedio industrial Dow Jones (DJIA) y el


índice 500 de Standard & Poor´s (S&P500) miden el
desempeño del mercado de valores. El Daw Jons
se basa en el precio de las acciones de 30
empresas grandes y S&P500 en el precio de las
DJIA S&P500
acciones de 500 empresas.
0.20 0.24
Si ambas miden el desempeño del mercado de valores,
0.82 0.19
¿cómo se relacionan los dos índices?, ¿Es
necesario revisar ambos antes de tener una idea -0.99 -0.91
general sobre el desempeño diario del mercado de 0.04 0.08
valores? -0.24 -0.33
Para analizar lo anterior se obtuvo una muestra de nueve 1.01 0.87
mediciones durante un período de tres meses: 0.30 0.36
0.55 0.83
a) Elabore un diagrama de dispersión -0.25 -0.16
b) Calcule el coeficiente de correlación muestral de
los datos
c) ¿Es necesario revisar ambos indicadores?
Medidas de asociación entre dos variables (cuantitativas)

a) Elabore un diagrama de dispersión

Diagrama de dispersión
1.00
DJIA S&P500
0.80
0.20 0.24
0.60
0.82 0.19
0.40
-0.99 -0.91 S&P500
0.20
0.04 0.08 0.00
Series1
-0.24 -0.33 -1.50 -1.00 -0.50
-0.20
0.00 0.50 1.00 1.50

1.01 0.87 -0.40


0.30 0.36 -0.60

0.55 0.83 -0.80

-0.25 -0.16 -1.00


DJA
Medidas de asociación entre dos variables (cuantitativas)

b) Calcule el coeficiente de correlación muestral de los


DJIA S&P500
datos
0.20 0.24
0.82 0.19
-0.99 -0.91
0.04 0.08
-0.24 -0.33
1.01 0.87
0.30 0.36
Calculo hecho en Excel: 0.55 0.83
-0.25 -0.16

S xy Cov xy 0.3104 0.3104


rxy      0.91
SxS y SxS y (0.6120)(0.5574) 0.3411

c) ¿Es necesario revisar ambos indicadores?

No , ya que tienen una alta correlación lineal entre ellos


TEMA 4

Probabilidad

4.1 Enfoques de probabilidad: Axiomas


4.2 Distribuciones de probabilidad
4.3 Valor esperado (Esperanza matemática)
4.4 Distribución de probabilidad Binomial
4.5 Distribución de probabilidad Poisson
4.6 Distribución de probabilidad Normal
Enfoques de Probabilidad
¿Qué es la probabilidad?
Se define a la probabilidad como el estudio y medición cuantitativa de que
un determinado hecho suceda o se produzca

Otra forma de ver a la probabilidad es: una medida numérica de la


“posibilidad” de que un evento ocurra

Incremento de la probabilidad de ocurrencia

Probabilidad 0 0.5 1

Que el evento ocurra es tan probable


como improbable

Nota: Un experimento aleatorio es aquel que al realizarlo no sabemos qué


va a resultar, sin embargo, sí sabemos cuántas cosas diferentes
pueden suceder
Enfoques de Probabilidad

Probabilidad Clásica o a priori:


(Regla de Laplace). Requiere resultados
igualmente probables.

Aproximación a la probabilidad por frecuencias


Enfoques de relativas (probabilidad frecuencial o a posteriori o
incluso la llaman probabilidad empírica)
probabilidad:
Probabilidad subjetiva. Estimación en base al
conocimiento de las circunstancias relevantes
(No bien aceptada por algunos autores)

Probabilidad axiomática (axiomas de probabilidad)


(En muchos libros lo manejan simplemente como
“reglas de probabilidad”)
Enfoques de Probabilidad
Probabilidad Clásica o a priori. (Regla de Laplace): Si el experimento que
se estudia da lugar a un espacio muestral S que es finito y cuyos
resultados son conocidos de antemano e igual de probables,
entonces la probabilidad del evento A perteneciente a S se define
como:
número _ de _ casos _ favorables _ del _ evento _ A
P ( A) 
número _ de _ casos _ totales _ de _ S

Esta expresión se le conoce como: regla de Laplace


Este enfoque esta muy ligado a juegos de azar.
Ejemplos:
¿Cuál es la probabilidad de obtener un número par en el lanzamiento de un
dado?
P(obtener un par) = 3/6 = ½
¿Cuál es la probabilidad de que al extraer una ficha de domino de una caja,
obtenga una mula?
P(obtener una mula) = 7/28 = 1/4
¿Cuál es la probabilidad de obtener un 5 en el lanzamiento de un dado?
P(obtener el no. 5) = 1/6
Enfoques de Probabilidad
Probabilidad por frecuencias relativas (frecuencial o a posteriori): La
probabilidad de que un evento ocurra representa una fracción de los
eventos similares que sucedieron en el pasado Es decir, se usa la
frecuencia relativa de un evento como medida de la probabilidad.

En términos de una fórmula:


número _ de _ veces _ que _ el _ evento _ ocurre
Pr obabilidad _ frecuencial 
número _ total _ de _ observaciones

Es necesario la realización del experimento para calcular la probabilidad

Con esta definición se puede determinar la probabilidad de…

Una pieza defectuosa en una máquina en una fábrica

Un accidente de tráfico

Un factura impagada

Un cliente moroso, etc.


Enfoques de Probabilidad
Ejemplo de probabilidad por frecuencias relativas (probabilidad
frecuencial)
Los 1000 empleados de una empresa, según la edad y el sexo de los
mismos, vienen dados en la siguiente tabla de doble entrada

Edad\Sexo Mujeres Hombres Total


Menos de 30 años 100 250 350

De 30 y más años 200 450 650

Total 300 700 1000

Obtenga la probabilidad de que elegido un empleado al azar el mismo sea:


a) Hombre
b) Mujer
c) Menos de 30 años
d) De 30 o más años
e) Mujer menor de 30 años
f) Hombre de 30 y más años
Enfoques de Probabilidad
Los 1000 empleados de una empresa, según la edad y el sexo de los
mismos, vienen dados en la siguiente tabla de doble entrada
Edad\Sexo Mujeres Hombres Total
Menos de 30 100 (0.10) 250 (0.25) 350 (0.35)
años
De 30 y más 200 (0.20) 450 (0.45) 650 (0.65)
años
Total 300 (0.3) 700 (0.7) 1000
Primero definimos simbólicamente cada uno de los sucesos:
A= el empleado seleccionado sea hombre
B= el empleado seleccionado es mujer
C= el empleado seleccionado es menor de 30 años
D= el empleado seleccionado tiene 30 o más años
Las probabilidades solicitadas son:
a) P(A) = 700/1000 = 0.7 b) P(B) = 300/1000 = 0.3
c) P(C) = 350/1000 = 0.35 d) P(D) = 650/1000 = 0.65
Mujer menor de 30 años Hombre de 30 y más años
e) P(B ∩ C) = 100/1000 = 0.10 f) P(A ∩ D) = 450/1000 = 0.45
Enfoques de Probabilidad
Probabilidad subjetiva: Hay experimentos aleatorios que no son
susceptibles de realizarse y sus resultados no son todos igual de
probables. En estos casos el individuo asigna una cierta
probabilidad a partir de cualquier información que encuentre
disponible

Ejemplos: Calcular la probabilidad de que ..

usted contraiga matrimonio antes de los 30 años

el PIB económico de México para el año 2015 sea del 6%

una empresa presente suspensión de pagos, etc.


Probabilidad
Probabilidad axiomática:
Es necesario tener presente los principios básicos de la teoría de conjuntos
y sus operaciones:  _ pertenece
Simbología básica:  _ no _ pertenece
 _ contiene
 _ no _ contiene
 _ conjunto _ vacío _( Sin _ elementos)

Conjunto Unión A  B  {x  A _ o _ bien _ x  B}

Conjunto Intersección: A  B  {x  A _ y _ x  B}
U

Conjunto Complemento: A
c
 {x  A} A B

Conjunto Diferencia A  B  {x  A _ pero _ x  B}


Probabilidad
Axiomas de probabilidad
Sea S un espacio muestral formado por todos los posibles resultados de
un experimento y sea A un evento cualquiera, donde A  S, y sea P
una función de valores reales definida en el conjunto de eventos
(familia de eventos)
Entonces P se llama función de probabilidad y P(A) es llamada la
probabilidad del evento A y cumplen los siguientes axiomas

1. Para todo evento A , donde A pertenece a la familia de eventos

0  P( A)  1
2. Si S es el evento seguro, P( S )  1
3. Si A y B son eventos mutuamente excluyentes, es decir: A B 
P( A  B)  P( A)  P( B)
4. Si A1, A2,… son mutuamente excluyentes
P( A1  A2  ...)  P( A1)  P( A2)  ... 
A continuación veremos unos teoremas que se desprenden directamente de los axiomas
anteriores…
Probabilidad
(Se llaman en ocasiones “reglas de probabilidad”)
Teorema 1 Si  es el conjunto vacío, entonces
P ( )  0
Teorema 2. Si Ac es el complemento del evento A , entonces
P( Ac )  1  P( A)

Teorema 3. Si A B entonces
P ( A)  P ( B )

Teorema 4. Si A y B son dos eventos, y A B es el conjunto diferencia,

P( A  B)  P( A)  P( A  B)
Teorema 5. Si A y B son dos eventos, entonces
P( A  B)  P( A)  P( B)  P( A  B)
Distribuciones de probabilidad
Para comprender mejor el concepto de distribuciones de probabilidad
conviene entender primero el significado de una variable aleatoria

Variable aleatoria: Es una descripción numérica de los resultados de un


experimento (o bien es la cantidad que resulta de un experimento
que, por azar, puede adoptar diferentes valores)
O bien…
Variable aleatoria: Una variable aleatoria X de un espacio muestral S es
una función de S en el conjunto R de los números reales tal que la
imagen inversa de cada intervalo de R es un evento de S. (imagen
inversa es “de que parte de S viene para tomar valores en los
números reales”)
X

S
_ 0 +

Imagen Números reales = R


inversa
Distribuciones de probabilidad
Tipos de variables aleatorias: discretas y continuas
1. Variables aleatorias Discretas:
Es cuando la variable aleatoria adopta sólo valores claramente separados.
Puede ser un número finito (n) de valores o a lo más numerable ( Se
pueden contar cada resultado aún siendo infinitos: 1,2,3,4,…)
Ejemplos:
Experimento: Llamar a cinco clientes
Variable aleatoria X: Número de clientes que hacen un pedido
Valores posibles de la variable aleatoria: 0,1,2,3,4 y 5

Experimento: Atender a clientes en un restaurante durante un día


Variable aleatoria X: Número de clientes en ese día
Valores posibles de la variable aleatoria: 0,1,2,3,4,5,6,7,…

Experimento: Vender un auto


Variable aleatoria X: Sexo del cliente
Valores posibles de la variable aleatoria: 0 si es hombre y 1 si es mujer,
Más ejemplos: las calificaciones de los estudiantes con un decimal, etc.
Distribuciones de probabilidad
2. Variables aleatorias Continuas:
Es cuando la variable toma cualquier valor numérico dentro de un
intervalo o colección de intervalos
Ejemplos:
Experimento: Operar un banco
Variable aleatoria X: Tiempo en minutos entre la llegada de los clientes
Valores posibles de la variable aleatoria: x > = 0 (mayor o igual a cero)

Experimento: Llenar una lata de refresco de máximo 550ml


Variable aleatoria X: Cantidad en ml
Valores posibles de la variable aleatoria: 0 < x < 550

Experimento: Construir una casa


Variable aleatoria X: Porcentaje del proyecto terminado en seis meses
Valores posibles de la variable aleatoria: 0 < x < 100

Más ejemplos: los tiempos en los vuelos comerciales, el peso en Kg de


cada estudiante, etc.
Distribuciones de probabilidad
Ejemplo de variable aleatoria:
Se lanza un par de dados corrientes y se construye el espacio S:
S = {(1,1,) (1,2),(1,3),(1,4),(1,5),(1,6)
(2,1,) (2,2),(2,3),(2,4),(2,5),(2,6)
(3,1,) (3,2),(3,3),(3,4),(3,5),(3,6)
(4,1,) (4,2),(4,3),(4,4),(4,5),(4,6)
(5,1,) (5,2),(5,3),(5,4),(5,5),(5,6)
(6,1,) (6,2),(6,3),(6,4),(6,5),(6,6)}

Sea X la variable aleatoria (una función) que hace corresponder a cada


punto (a,b) de S, el máximo de los números. Es decir, el experimento
es: X(S) = max (a,b)
=> X(S) = {1,2,3,4,5,6}

La imagen inversa de 1 es: {(1,1)}


La imagen inversa de 2 es: {(2,1), (2,2), (1,2)}
La imagen inversa de 3 es: {(3,1),(3,2), (3,3), (2,3),(1,3)}
La imagen inversa de 4 es: {(4,1),(4,2),(4,3),(4,4),(3,4),(2,4),(1,4)}
La imagen inversa de 5 es: {(5,1),(5,2),(5,3),(5,4),(5,5),(4,5),(3,5),(2,5),(1,5)}
La imagen inversa de 6 es: {(6,1),(6,2),(6,3),(6,4),(6,5),(6,6),(5,6),(4,6),(3,6),(2,6),(1,6)}
Distribuciones de probabilidad
Ahora convertimos X(S) en un espacio de probabilidad definiendo la
probabilidad de xi, como P(X = xi) o escribimos f(xi). A dicha función
se le llama función de distribución de probabilidades (función de
probabilidades, probabilidad de X). Y al ser los datos discretos (y
además finitos) se escribe generalmente en forma de tabla
horizontal o vertical:

xi 1 2 3 4 5 6
P(X = xi)= f(xi) 1/36 3/36 5/36 7/36 9/36 11/36

Observa que
 P( X  xi)   f ( xi)  1
P( X  xi)  f ( xi)  0
Distribuciones de probabilidad
Representación gráfica de la distribución de probabilidad anterior

11/36
f(xi)
9/36

7/36
6/36

5/36

4/36
3/36

2/36
1/36
xi
1 2 3 4 5 6
xi 1 2 3 4 5 6
P(X = xi)= f(xi) 1/36 3/36 5/36 7/36 9/36 11/36
Distribuciones de probabilidad
Otro ejemplo de variable aleatoria y distribución de probabilidades
Con el mismo experimento de lanzar un par de dados, suponga ahora la
variable aleatoria (o la función) como la suma de los números
superiores en los dados. Es decir el experimento es:
X(S) = {2,3,4,5,6,7,8,9,10,11,12}
La imagen inversa de 2 es: (1,1)
La imagen inversa de 3 es: (2,1) (1,2)
La imagen inversa de 4 es: (2,2), (3,1),(1,3)
La imagen inversa de 5 es: (2,3),(3,2),(4,1),(1,4)
La imagen inversa de 6 es: (3,3),(5,1),(1,5),(4,2),(2,4)
La imagen inversa de 7 es: (4,3)(3,4),(2,5),(5,2)(1,6),(6,1)
La imagen inversa de 8 es: (4,4)(5,3),(3,5),(6,2),(2,6)
La imagen inversa de 9 es: (3,6),(6,3),(5,4),(4,5)
La imagen inversa de 10 es: (5,5),(6,4).(4,6)
La imagen inversa de 11 es: (5,6),(6,5)
La imagen inversa de 12 es: (6,6) y la función de distribución de probabilidades:

xi 2 3 4 5 6 7 8 9 10 11 12
f(xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Distribuciones de probabilidad
Representación gráfica de la distribución de probabilidad anterior
f(xi)
6/36

5/36

4/36
3/36
2/36
1/36

xi
2 3 4 5 6 7 8 9 10 11 12

xi 2 3 4 5 6 7 8 9 10 11 12
f(xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Valor esperado
(Esperanza matemática)
Valor esperado para variables aleatorias discretas : La media o esperanza
matemática denotada por E(X) normalmente, se define como:

n
  E ( X )  x1 f ( x1 )  x2 f ( x2 )...  xn f ( xn )  i 1 xi f ( xi )  xi P( X  xi )
n

i 1

Interpretación: Es el promedio “ponderado” de los valores de la variable


aleatoria en base a las probabilidades que toma
Valor esperado
Ejemplo: (Esperanza matemática)
Utilizando los dos ejercicios anteriores de los dados, calculemos la
esperanza matemática de dichas variables aleatorias:

Si la variable es el número máximo en el lanzamiento de dos dados:

E ( X )  1(1 / 36)  2(3 / 36)  3(5 / 36)  4(7 / 36)  5(9 / 36)  6(11 / 36)  4.47

Interpretación…

Si la variable es la suma de los números superiores al lanzar dos dados:

E ( X )  2(1 / 36)  3(2 / 36)  4(3 / 36)  ...  11(2 / 36)  12(1 / 36)  7

Interpretación…
Valor esperado
(Esperanza matemática)
Ejemplo 1
Se sabe que en determinado Banco la cancelación de cuentas de
derechohabientes durante una semana sigue la siguiente
distribución:
xi P(X=xi) = f(xi)
No de Probabilidad de
cuentas que suceda en
canceladas cualquier
semana
0 0.021
1 0.325
2 0.258
3 0.205
4 0.191
Sumas 1
Obtener el número promedio de cuentas canceladas que se espera para la
próxima semana.
Para determinar el valor esperado debemos multiplicar las cuentas por su
probabilidad y obtenemos:

E ( X )    (0  0.021)  (1 0.325)  (2  0.258)  (3  0.205)  (4  0.191)  2.22


Valor esperado
(Esperanza matemática)
O bien utilizando la tabla:

No de cuentas Probabilidad
canceladas de que suceda
en cualquier
semana
xi f(xi) xi * f(xi)
0 0.021 0
1 0.325 0.325
2 0.258 0.516
3 0.205 0.615
4 0.191 0.764
Sumas 1 2.22

Lo que significa que en la siguiente semana esperamos que se cancelen al


menos 2 cuentas de derechohabientes en ese banco
Valor esperado
(Esperanza matemática)
Ejemplo 2
La empresa Nutra ha determinado que si se comercializa un nuevo tipo de
edulcorante, la siguiente distribución de probabilidades describiría, tres
escenarios diferentes con su contribución a las ganancias de la
empresa durante los siguientes cuatro meses:
Posibles Contribución a la P(contribución a
escenarios ganancia la ganancia)
xi f(xi)
E1 -$3,000 0.20
E2 $5,000 0.50
E3 $20,000 0.30
1.00

Nutra ha decidido que debe comercializar el nuevo edulcorante si la


contribución esperada a la ganancia en los próximos cuatro meses es
mayor a $10,000. De acuerdo con la distribución de probabilidad,
¿comercializaría el nuevo edulcorante?

E ( X )  (0.20  (3,000))  (0.50  5,000)  (0.30  20,000)  $7,900


Respuesta: la empresa no debe comercializar el nuevo edulcorante
Distribución de probabilidad Binomial
Propiedades de un experimento Binomial:
1. El experimento consiste en n ensayos repetidos e independientes
2. En cada ensayo hay dos únicos posible resultados: A uno de ellos se
le llama éxito y al otro se le llama fracaso.
3. La probabilidad de éxito, que se denota por la letra p, no cambia de
un ensayo a otro. Por tanto, la probabilidad de fracaso, que se denota
por 1-p=q , tampoco cambia de un ensayo a otro.
4. Los ensayos son independientes.

Si se presentan las propiedades 2,3 y 4 decimos que estamos ante un


proceso de Bernoulli .

Ejemplos
El lanzamiento de una moneda 5 veces (verificar los puntos anteriores)

Un vendedor de seguros que vistita a 10 familias elegidas en forma


aleatoria definiendo como éxito la compra de un seguro ( verifica los
puntos anteriores)
Distribución de probabilidad Binomial
Distribución de probabilidad binomial
Si en un experimento binomial, lo que interesa es el número de éxitos que
ocurren en los n ensayos y si “x” denota el número de éxitos en esos
n ensayos, “x” puede tomar los siguientes valores x = 0, 1, 2, 3, …, n
A la distribución de probabilidades correspondiente a esta variable
aleatoria se le llama distribución de probabilidad binomial.
En otras palabras, si definimos cómo variable aleatoria el número de éxitos
dentro de un experimento binomial con n repeticiones , entonces la
función de probabilidad binomial es:
n x
P ( X  x)  f ( x)    p (1  p ) ( n  x ) , x  0,1,2,3,...n
 x
Nos indica la probabilidad de tener x éxitos en n ensayos
Donde:
f(x) = función de probabilidad
n = número de ensayos (parámetro) n n!
p = probabilidad de éxito en cada ensayo (parámetro)   
1-p = probabilidad de fracaso en cada ensayo  x x!(n  x)!
x = número de éxitos
Distribución de probabilidad Binomial
Problema1 de Distribución de probabilidad binomial
Considere la posibilidad de solicitar un préstamo de automóvil al Banco
Santander y analicemos la llegada de los tres próximos clientes que
lleguen a solicitarlo. De acuerdo con los datos históricos de la
institución bancaria, la probabilidad para que le autoricen el crédito
a un cliente es de p = 0.30 (éxito).
Si x = número de créditos autorizados a los tres clientes, calcular la
probabilidad de cada uno de los valores de x= 0,1,2 y 3
Nota: a = autoriza el crédito y na = no se autoriza el crédito
Resultado
Cliente 1 Cliente 2 Cliente 3 experimental
Valor de x
a (a,a,a) 3
a na (a,a,na) 2 Hay tres posibilidades
Para obtener 2 compras
a a (a,na,a) 2
na Vamos a analizar este
na (a,na,na) 1 resultado

a (na,a,a) 2
na a (na,a,na) 1
na

na a (na,na,a) 1
na (na,na,na) 0
Distribución de probabilidad Binomial
¿Cuál es la probabilidad de que el Banco les autorice un crédito de auto a
los 3 próximos clientes que lleguen (3 éxitos)?
 3 3!

Sólo hay una posibilidad y se comprueba con:     1
El único escenario es:  3  3!(3  3)!
(a,a,a) con probabilidad de este resultado = ppp = 0.30 x 0.30 x 0.30 = 0.027
→ f(3) = 0.027

¿Cuál es la probabilidad de que el Banco les autorice un crédito de auto a 2


de los 3 próximos clientes que lleguen (2 éxitos)?
3 3!
El número de posibles escenarios se obtiene utilizando:    3
Los 3 escenarios para obtener 2 éxitos son:  2  2!(3  2)!
(a,a,na) con probabilidad de este resultado = pp(1-p)
(a,na,a) con probabilidad de este resultado = p(1-p)p
(na,a,a) con probabilidad de este resultado = (1-p)pp
Si p=0.30 y 1-p = 0.70 =>
Los tres resultados dan el valor de = 0.063
Para ello es suficiente con sumar la probabilidad de los tres posibles
escenarios → f(2) = 0.063 + 0.063 + 0.063 = 0.189
Distribución de probabilidad Binomial
¿ Cuál es la probabilidad de que el Banco les autorice sólo un crédito de
auto a los 3 próximos clientes que lleguen (1 éxito)?
Hay tres posibilidades y se comprueba con:  3 3!
   3
Los 3 escenarios para obtener 1 éxito son: 1  1!(3  1)!
(a,na,na) con probabilidad de este resultado = p(1-p)(1-p)
(na,a,na) con probabilidad de este resultado = (1-p)p(1-p)
(na,na,a) con probalilidad de este resultado = (1-p)(1-p)p
Los tres resultados dan el valor de = 0.147
→ f(1) = 0.147 + 0.147 +0.147 = 0.441

¿Cuál es la probabilidad de que a ninguno de los tres próximos clientes se


les autorice el crédito del auto (cero éxitos)? 3  3!
Sólo hay una posibilidad y se comprueba con:      1
El único escenario es:  0  0!(3  0)!
(na,na,na) con probabilidad de este resultado= (1-p)(1-p)(1-p) = 0.70 x 0.70 x
0.70 = 0.343
→ f(0) = 0.343
Nota: Es muy comunes la siguiente expresión para resumir las preguntas
anteriores: f ( x)  P( X  x); x  0,1,2 y3
Distribución de probabilidad Binomial
Utilizando directamente la función de distribución de probabilidades
tenemos todos los resultados en la siguiente tabla para x = 0,1,2,3 éxitos
en tres ensayos de Bernoulli
n x n n!
P( X  x)  f ( x)    p (1  p ) ( n  x ) , x  0,1,2,3   
 x  x  x!(n  x)!

x f (x)
3
 0.30 0 (0.70) 3  0.343
0 0
 3
 0.301 (0.70) 2  0.441
1 1  1
3
 0.30 2 (0.70)1  0.189
2  2
 3
 0.30 3 (0.70) 0  0.027
3  3
Distribución de probabilidad Binomial
Gráfica de la distribución de probabilidad binomial del ejercicio anterior:

f(xi)
0.60

0.50

0.40
0.30
0.20

0.10
xi
0 1 2 3
Número de clientes que se les autorice el crédito
Distribución de probabilidad Binomial
Problema 2
Un estudio de la Sociedad Americana de Inversores, descubrió que el 30%
de los inversionistas particulares había utilizado un agente o consultor
de inversiones (considere este resultado como éxito). En una muestra
aleatoria de 9 personas (inversionistas). ¿Cuál es la probabilidad de
que:
a) Exactamente dos personas hayan utilizado un consultor de
inversiones
b) Exactamente cuatro personas hayan utilizado un consultor
c) Ninguna persona haya utilizado un consultor de inversiones
d) Por lo menos tres personas hayan utilizado un consultor
Por Excel: Binomial con parámetros (n, p) = Binomial (9, 0.30)
a) Probabilidad = 0.2668 P ( X  2)  0.2668

b) Probabilidad = 0.1715 P( X  4)  0.1715

c) Probabilidad = 0.0404 P( X  0)  0.0404

d) Probabilidad = 0.5372 P( X  3)  1  P( X  2)  0.5372


Distribución de probabilidad Binomial
Problema 3
Se tiene registrado que el 20% de los clientes del Banco Santander son
clientes dentro de la categoría “Select”.
Si se seleccionan de forma aleatoria 10 clientes para una promoción
especial, determine:

a) La probabilidad de que 2 de esos 10 clientes sean clientes “Select”


b) La probabilidad de que a lo más (como máximo) 3 clientes sean “Select”
c) La probabilidad de que exactamente existan 5 clientes “Select”

Por Excel: Binomial con parámetros (n, p) = Binomial (10, 0.20)

a) Probabilidad = 0.3020 P( X  2)  0.3020

b) Probabilidad = 0.8791 P( X  3)  0.8791

c) Probabilidad = 0.0264 P( X  5)  0.0264


Distribución de probabilidad Poisson
La variable aleatoria es el número de veces que ocurre un evento durante
un intervalo de tiempo (o de longitud / distancia) definido
Ejemplos:
Número de autos que llegan a un autolavado en una hora
Número de llamadas telefónicas recibidas en 30 minutos en un
conmutador

Si se satisfacen las condiciones siguientes, el número de ocurrencias es


una variable aleatoria discreta descrita por la distribución de
probabilidades Poisson

Propiedades de un experimento Poisson:


1. La probabilidad de que ocurra el evento es proporcional al tamaño
del intervalo

2. Los intervalos no se sobreponen y son independientes


Distribución de probabilidad Poisson
Distribución de probabilidad Poisson
La distribución de probabilidades correspondiente a esta variable
aleatoria se le llama distribución de probabilidad poisson y queda
definida mediante la ecuación:

 xe
P( X  x)  f ( x)  , x  0,1,2,3,...
x!

Donde:
f(x) = probabilidad de x ocurrencias en un intervalo

μ = valor esperado o promedio de ocurrencias (parámetro)

e  2.71828
Distribución de probabilidad Poisson
Ejemplo con intervalo de tiempo
Problema 1
En un centro telefónico de atención a clientes de una institución
financiera, se reciben en promedio 5 llamadas por hora. ¿Cuál es la
probabilidad de que en una hora seleccionada aleatoriamente se
reciban exactamente 3 llamadas?

 5 e  2.71828  x e  53 e 5
f ( x)  f (3)   0.1404
x! 3!
¿Cuál es la probabilidad de obtener en un hora seleccionada en forma
aleatoria, hasta un máximo de 3 llamadas? x 
 e
 5 e  2.71828 f ( x) 
x!
P( X  3)  P( X  0)  P( X  1)  P( X  2)  P( X  3)
 [0.0067  0.0337  0.0842  0.1404]
 0.2650
Distribución de probabilidad Poisson
Ejemplo con intervalo de tiempo
Problema 2
En una institución bancaria, un estudio reveló que bajo el formato de “fila
única” para acceder a las cajas, entre las 10:00 y las 13:00 de la
mañana hay un promedio de cuatro clientes en la fila de espera.
¿Cuál es la probabilidad de que al visitar una sucursal de esa institución
bancaria en ese horario se encuentre los siguiente?
a) No exista ningún cliente en la fila de espera:
b) Que exista cuatro clientes en la fila de espera
c) Que existe a lo más cuatro clientes en la fila de espera
d) Que exista al menos cuatro clientes en la fila de espera
Por Excel: Poisson con parámetro   4
a) Probabilidad = 0.0183 P( X  0)  0.0183

b) Probabilidad = 0.1954 P( X  4)  0.1954

c) Probabilidad = 0.6289 P( X  4)  0.6289

d) Probabilidad = 0. 5665 P( X  4)  1  P( X  3)  0.5665


Distribución de probabilidad Poisson
Ejemplo con intervalos de longitud o de distancia
Problema 3
Si asumimos que:
1. La probabilidad de que haya una avería es la misma en cualesquiera
dos tramos de la misma longitud.
2. La ocurrencia o no ocurrencia de una avería en un tramo es
independiente de la ocurrencia o no ocurrencia de una avería en
cualquier otro tramo.
Bajo estos supuestos podemos usar la distribución de Poisson.
Con los supuestos anteriores, si nos preguntamos por la ocurrencia de
una avería en una autopista en donde el promedio de averías son
dos (2) por cada 50 kilómetros.
Pregunta:
¿Cuál es la probabilidad de que no haya ninguna avería en un tramo de
150 kilómetros de autopista?
2 x 3 = 6 es el número promedio de averías por cada 150 km
x 
 e 6 0 e 6
 6 e  2.71828 f ( x)  f (0)   0.0025
x! 0!
Distribución de probabilidad Poisson
Ejemplo con intervalos de longitud o de distancia
Problema 4
Cada rollo de 500 metros de tela tiene 2 defectos en promedio (rasguños,
hilos sueltos, etc.)
¿Cuál es la probabilidad de que en un segmento de 100 metros en
particular no exista ningún defecto en la tela?

  0.4 _ defectos _ por _ cada _ 100 _ metros

 x e  e  2.71828
f ( x) 
x!
0.40 e 0.4
f (0)   0.67
0!
Distribución de probabilidad Poisson
Nota importante: en muchos casos cuando en una distribución binomial la
probabilidad de éxito es muy pequeña y el número de ensayos es
muy grande, se aproxima dicha función por la Poisson haciendo:

Ejemplo:
  np
Se calcula que el 0.5% de quienes se comunican al departamento de
servicio al cliente en el Banco Santander escuchará un tono de línea
ocupada
¿Cuál es la probabilidad de que de las 1,200 personas que se comunicaron
hoy, por lo menos 5 hayan escuchado un tono de línea ocupada?
  1200(0.005)  6
P( X  5)  1  P( X  5)  1  (0.2851)  0.7149
P( X  5)  1  P( X  4)  1  [ P( X  0)  P( X  1)
 P( X  2)  P( X  3)  P( X  4)]
 1  (0.0025  0.0149  0.0446  0.0892  0.1339)
 1  (0.2851)  0.7149
Distribución de probabilidad Normal
¿Qué diferencia hay al calcular la probabilidad entre una variable aleatoria
discreta como la Distribución Binomial y la Poisson y una variable
aleatoria continua como la normal?

Respuesta: el método de cómo se calculan las probabilidades

Las variables aleatorias discretas, los valores de la función de


probabilidad f(x) proporciona la probabilidad de que la variable
aleatoria tome un valor determinado (en un punto).
Distribución de probabilidad Normal
La función de densidad f(x) para de una variable aleatoria continua, no
proporciona directamente una probabilidad, más bien la probabilidad
se obtiene mediante calcular el área bajo la curva entre dos valores
(intervalo)

Nota: Cómo consecuencia, la probabilidad de una variable aleatoria


continua en cualquier punto es cero.
Distribución de probabilidad Normal
Función de distribución normal.
La función de densidad normal esta definida por la siguiente expresión:

( x )2
1
f ( x)  e 2 2
 2
Donde : N ( , )
 = media (parámetro)
 = desviación estándar (parámetro)
  3.14159
e  2.71828
Distribución de probabilidad Normal
Características importantes sobre la distribución normal.
1. Toda la familia de distribuciones normales se diferencia por medio de
dos parámetros: la media y la desviación estándar
N ( , )
2. El punto más alto de la curva normal se encuentra sobre la media, la
cual coincide con la mediana y la moda

3. La media de una distribución normal puede tener cualquier valor:


negativo, positivo o cero
Distribución de probabilidad Normal
Observación 1. Las áreas bajo la curva de la distribución normal como la
regla empírica son ahora probabilidades

Observación 2. En la práctica con datos específicos, en ocasiones la


normal es una aproximación teórica de los datos de un determinado
problema:
Distribución de probabilidad Normal
¿Cómo podemos calcular probabilidades con una normal cualquiera?

X  N ( , )
Hay tres tipos de cálculos de probabilidades en términos generales:

1. Probabilidad de que la variable aleatoria normal X sea menor o igual


que un valor dado x0
P( X  x0 ) 
2. Probabilidad de que el valor de X se encuentre entre dos valores

P( x1  X  x2 )  P( X  x2 )  P( X  x1 )
3. Probabilidad de que X sea mayor o igual que un valor dado x0
P( X  x0 )  1  P( X  x0 )
En la actualidad las operaciones se simplifican mucho con el uso de Excel
u otras herramientas estadísticas
Distribución de probabilidad Normal
Problema 1
1. El precio promedio de las acciones que pertenecen al grupo de
empresas S&P500 es de $30 y las desviación estándar (poblacional)
es de $8.20. Suponga que los precios de las acciones están
distribuidos conforme a una distribución de probabilidades normal.

a) ¿Cuál es la probabilidad de que el precio de las acciones de una


empresa de ese grupo sea por lo menos de $40.00?

b) ¿ Cuál es la probabilidad de que el precio de las acciones de una


empresa no sea mayor a $20.00?

c) ¿De cuánto deben ser los precios de las acciones de una empresa para
que esté entre el 10% de las mejores
Distribución de probabilidad Normal
Respuestas:
datos:   30   8.2
a) ¿Cuál es la probabilidad de que el precio de las acciones de una
empresa de ese grupo sea por lo menos de $40.00?

P( X  40)  ? o bien P( X  40)  1  P( X  40)  ?


Por tanto, sólo calculamos: P( X  40)  ?
En Excel DISTR.NORM.N

P( X  40)  0.8888

=> P( X  40)  1  P( X  40)  1  0.8888  0.1112


Distribución de probabilidad Normal
Respuestas:
datos:   30   8.2
b) ¿ Cuál es la probabilidad de que el precio de las acciones de una
empresa no sea mayor a $20.00?

P( X  20)  ?

En Excel DISTR.NORM.N
P( X  20)  0.1112
Distribución de probabilidad Normal
Respuestas:
datos:   30   8.2
c) ¿De cuánto deben ser los precios de las acciones de una empresa para
que esté entre el 10% de las mejores

Ahora el problema es inverso, por tanto buscamos en el Excel en función


inversa:
INV.NORM con un acumulado a la izquierda de 0.90
x  40.51
Conclusión: Un precio por acción de por lo menos 40.51 coloca a la
empresa en el 10% de las mejores.
  30
  8.2 10%

  30

x  40.51
Distribución de probabilidad Normal
Problema 2
De acuerdo a la información de un operador de Bolsa, el rendimiento de
una acción determinada tiene una distribución normal con media del
10% y una desviación estándar del 2.5%.

a) ¿Qué probabilidad hay para que el rendimiento de la acción sea arriba


del 12% para el próximo mes?

b) ¿Qué probabilidad tendríamos para que el rendimiento de la acción se


encuentre entre el 7.5% y 12.5% para el próximo mes?

c) El operador de Bolsa desea analizar sólo el 8% de los días en que la


acción ha tenido los mayores rendimientos, para ver si hay
correlación con otras variables macroeconómicas. Ayuda a
determinar el rendimiento porcentual de la acción que marcará la
frontera de esos días que desea analizar el operador .
Distribución de probabilidad Normal
Usando Excel:

a) ¿Qué probabilidad hay para el rendimiento de la acción sea arriba del


12% para el próximo mes?

P( X  12%)  ?
P( X  12%)  1  P( X  12%)  1  0.7881  0.2119

b) ¿Qué probabilidad tendríamos para que el rendimiento de la acción se


encuentre entre el 7.5% y 12.5% para el próximo mes?

P(7.5%  X  12.5%)  ?

P(7.5%  X  12.5%)  P( X  12.5%)  P( X  7.5%)  0.8413  0.1587  0.6826


Distribución de probabilidad Normal
Usando Excel:

c) El operador de Bolsa desea analizar sólo el 8% de los días en que la


acción ha tenido los mayores rendimientos, para ver si hay
correlación con otras variables macroeconómicas. Ayuda a
determinar el rendimiento porcentual de la acción que marcará la
frontera de esos días que desea analizar el operador .
Se resuelve con la INV.NORM
El rendimiento que marca la frontera es: 13.51%

  10%
  2 . 5%
8%

  10%

x  13.51% _ de _ ren dim iento


Distribución de probabilidad Normal
Problema 3
De acuerdo a la información del departamento de contabilidad, la
facturación durante el año tiene una distribución normal con una
media mensual de $100,000 y una desviación estándar de $15,000

a) ¿Cuál es la probabilidad de que el próximo mes alcance la empresa una


facturación de 120,000 pesos o más?

b) ¿Cuál es la probabilidad de que la facturación del próximo mes se


encuentre entre $85,000 y $125,000?

c) Con una probabilidad o área del 80%, centrado en la media de la


facturación mensual ($100,000). ¿Qué valores puede tener la
facturación el próximo mes? Expresar dicha cantidad con un
intervalo de facturación: una cantidad menor a la izquierda y una
cantidad superior a la derecha
Distribución de probabilidad Normal
Usando Excel las respuestas son:
a) ¿Cuál es la probabilidad de que el próximo mes alcance la empresa una
facturación de 120,000 pesos o más?
P( X  120,000) 
P( X  120,000)  1  P( X  120,000)  1  0.9088  0.0912
b) ¿Cuál es la probabilidad de que la facturación del próximo mes se
encuentre entre $85,000 y $125,000?
P(85,000  X  125,000)  P( X  125,000)  P( X  85,000)  0.9522  0.1587  0.7905

c) Con una probabilidad o área del 80%, centrado en la media de la


facturación mensual ($100,000). ¿Qué valores puede tener la
facturación el próximo mes? Expresar dicha cantidad con un
intervalo de facturación: una cantidad menor a la izquierda y una
cantidad superior a la derecha
Se resuelva con la función inversa INV.NORM

Facturación _ menor  $80,777 Facturación _ mayor  $119,223


Distribución de probabilidad Normal Estándar
Una variable aleatoria que tiene una distribución normal con media cero y
desviación estándar 1, se le llama distribución normal estándar.

( x )2  z2
1 1
f ( x)  e 2 2
f ( z)  e 2

 2 z
x 2

Donde :

 0
 1 Ejemplo : z  N (0,1)
  3.14159 P (0  z  Z )
e  2.71828
Distribución de probabilidad Normal Estándar
Calculo de probabilidades con la normal estandarizada ( Normal (0,1), o
normal tipificada)
En Excel es similar a cualquier normal pero se busca como:
Para calcular probabilidades: DISTR.NORM.ESTAND.N
Y para calcular los valores z de la base se usa la inversa:
INV.NORM.ESTAND
Como cualquier normal, se pueden calcular las probabilidades que es el
área bajo la curva entre dos puntos z o en forma acumulada a un
punto z. Ejemplos:
Distribución de probabilidad Normal Estándar
¿Cómo podemos calcular probabilidades con una normal estandarizada?
z  N (0,1)
De igual forma, hay tres tipos de cálculos de probabilidades en términos
generales:

1. Probabilidad de que la variable aleatoria normal estándar z sea


menor o igual que un valor dado z0
P( z  z 0 ) 
2. Probabilidad de que el valor z se encuentre entre dos valores

P( z1  z  z 2 )  P( z  z 2 )  P( z  z1 )
3. Probabilidad de que z sea mayor o igual que un valor dado z0

P( z  z 0 )  1  P( z  z 0 )
Como se mencionó, las operaciones se simplifican mucho con el uso de
Excel u otras herramientas estadísticas
Distribución de probabilidad Normal Estándar
¿Qué relación hay entre una normal con parámetros μ y σ, y la normal
estándar con valores z ?
Hay una relación haciendo una sencilla transformación de los valores
originales de la normal original a la normal estándar con:
x
z

Suponga N ( 2,4) (media 2 y desviación estándar 4)
62 22
Si x = 6 => z= 1 z 1 Si x = 2 => z= 0 z 0
4 4

10  2 32
Si x= 10 => z= 2 z 2 Si x = 3 => z = 0.25 z  0.25
4 4
22 02
Si x = - 2 => Z = -1 z   1 Si x = 0 => z = -0.50 z   0.50
4 4
Recordar que:
zi se interpreta como la distancia de xi a la media μ en términos del
número de desviaciones estándar σ
Distribución de probabilidad Normal Estándar
Interpretación gráfica del problema de las acciones del 10% de las
mejores empresas con valores Z

  30
  8.2 10% 10%

  30

x  40.51 z  1.28

x 40.51  30
z   1.28
 8.2
Distribución de probabilidad Normal Estándar
Si el camino es a la inversa: de valores z a los valores originales del
problema tenemos:
  30
10%   8.2 10%

  30

z  1.28 x  40.51
x  30
1.28 
8.2
8.2(1.28)  x  30 x  8.2(1.28)  30

x  40.51
TEMA 5

Estimación de parámetros
5.1 Proceso de estimación: puntual y por intervalo
5.2 Distribuciones muestrales o de muestreo de la
media y la proporción
5.3 El nivel de confianza y su interpretación
5.4 Estimación de la media
5.5 Estimación de la proporción
5.6 Estimación de la varianza
Proceso de estimación
El objetivo central del proceso de estimación es estimar el valor de un
parámetro poblacional a través de los llamados estadísticos
(estadísticos muestrales).
Las estimaciones más _ comunes son:
x 
 
p p p P
S 
S2 2
Los estimadores serán fórmulas que permitirán la estimación de los
parámetros respectivos. Con las fórmulas ya conocidas:


_
_
x
x i  
x # individuos _ con _ x
p p p  S
 i
( x  x ) 2

n n n n 1
Proceso de estimación

Estimación puntual: ejemplo

_
x  65k ilos

Tipos de
estimación
Estimación por intervalo: ejemplo
_ _
x  65  3  62kilos x  65  3  68kilos
_
x  65k ilos
Proceso de estimación
Interpretación del proceso de estimación:
Parámetro = centro

Estimación por intervalo

Estimación puntual
Distribución muestral (o de muestreo) de la media
Para cada muestra diferente se pueden obtener estimaciones puntuales
diferentes.
Si lo anterior se interpreta como una variable aleatoria,
_ entonces podemos
definir una distribución de muestral tanto para xcomo para p

Definición de distribución de muestreo_ de la media


La distribución de muestreo de x es la distribución de probabilidad de
todas las posibles medias (promedios) de las muestras para un tamaño
de muestra n de una población de tamaño N
Ejemplo. Supongamos una población de 4 individuos { a, b, c, d } y cada
uno de ellos tiene las siguientes edades respectivamente x = { 1, 2, 3, 4 }
¿Cuáles son todas las posibles muestras de tamaño 2 de esa población?
{a,b} , {a,c}, {a,d} , {b,c} , {b,d} , {c,d}
¿Cuáles son todas las edades medias (promedios) de cada una de las
posibles muestras?
{1,2} , {1,3}, {1,4} , {2,3} , {2,4} , {3,4}

_ _ _ _ _ _
x 1  1 .5 x2  2 x 3  2.5 x 4  2.5 x5  3 x 6  3.5
Distribución muestral (o de muestreo) de la media
_
Construyamos la distribución de probabilidades de x

Media de cada_ Frecuencia Probabilidad


muestra x
1.5 1 1/6
2 1 1/6
2.5 2 2/6
3 1 1/6
3.5 1 1/6
6

2/6
1/6 _
x
1.5 2 2.5 3 3.5
Distribución muestral (o de muestreo) de la media
_
Calculamos la esperanza matemática de x

E ( x)  1.5(1 / 6)  2(1 / 6)  2.5(2 / 6)  3(1 / 6)  3.5(1 / 6)  2.5
1 2  3  4
Como es un ejemplo corto podemos calcular   2.5
 4
Primera conclusión: E ( x)    2.5
_
Del mismo modo la desviación estándar de la distribución de muestreo de x
es con la siguiente notación:   
 
_ 
x  n

_
_ Desviación estándar de x Tamaño de la muestra n
x

 Desviación estándar de la población Tamaño de la población N


Distribución muestral (o de muestreo) de la media
_ 
Resultados de la distribución muestral de x x  N ( ,  )
_ _ x
 Valor esperado de x E( x )  
_
 Desviación estándar de x
N n  
Población finita    
N 1  n 
_
x

  
Población infinita _   ,  _ se llama error estándar de la media
x  n x

   _
 Usar la expresión  _    para calcular la desviación estándar de x
x  n
Siempre que:
1. La población sea infinita
2. La población es finita y el tamaño de la muestra sea menor o igual a un
5% ( Es decir, si n/N< 0.05 )
Distribución muestral (o de muestreo)
_ de la media
Forma de la distribución de muestreo de x
Hay dos casos:
Caso 1: Si la población _ original ya se distribuye como normal, la
distribución muestral de x es una normal para cualquier n

X  N ( , )  x  N ( ,  )
x

Caso 2. Si la población original no se distribuye como normal, el teorema


_
del límite central, ayuda a soportar que la distribución muestral de x
también se distribuye como normal

X  N (  ,  )  x  N (  ,   )
x
Teorema del Límite central:
Cuando se seleccionan muestras aleatorias simples de tamaño _ n de una
población, la distribución de muestreo de la media muestral x puede
aproximarse mediante una distribución normal a medida que el tamaño
de la muestra “n” se hace grande.

Nota: en la práctica con una n > 30 ya se aproxima a una normal


Distribución muestral (o de muestreo) de la media
_
En definitiva, ¿Cómo se distribuye x cuando aumentamos el tamaño de
muestra?

R= Como una Normal



x  N ( ,  )
x

En resumen:

x  N ( ,  )
_
  
E( x )   _   
x x  n
Distribución muestral de la proporción
Definición de distribución de muestreo de la proporción

La distribución de muestreo de p es la distribución de 
probabilidad de
todos los posibles valores de la proporción muestral p

Ejemplo similar al anterior: Suponga a los mismos 4 sujetos { a, b, c, d }


pero sólo son fumadores el individuo a y b y queremos estimar la
proporción de fumadores de esa población
¿Cuáles son todas las posibles muestras de tamaño 2 de esa población?
{a,b} , {a,c}, {a,d} , {b,c} , {b,d} , {c,d}
¿Cuáles son todas las proporciones de fumadores de cada muestra
obtenida?
 
{a,b} p1  2/ 2 1 {b,c}, p 4  1 / 2  0 .5
 
{a,c}, p 2  1 / 2  0 .5 {b,d}, p 5  1 / 2  0 .5
 
{a,d}, p 3  1 / 2  0 .5 {c,d}, p6  0/2  0
Distribución muestral de la proporción

Construyamos la distribución de probabilidades de p

Proporción Frecuencia Probabilidad 4/6


de cada
muestra
1 1 1/6
0.5 4 4/6 1/6
0 1 1/6 
6 p
0 0.5 1
Observar que a pesar de que son pocos datos se parece a una campana
Calculamos la esperanza de la distribución


E ( p)  1(1 / 6)  0.5(4 / 6)  0(1 / 6)  (1 / 6)  (2 / 6)  3 / 6  0.5
La _ proporción _ poblaciona l _ P  2 / 4  0.5 _ coinciden!!!!!!
_
Pr imera _ conclusión :_ E ( p )  P
Distribución muestral de la proporción

De forma parecida podemos llegar al siguiente resultado:


p  N ( P,   )
_
P(1  P)
E( p )  P  _  _ población _ inf inita
p p n
N  n P(1  P)
  _ población _ finita
N 1
_
p n

_ se le llama error estándar de la proporción


p

La fórmula de población infinita se usa siempre y cuando: :


1. La población sea infinita
2. La población es finita y el tamaño de la muestra sea menor o igual a un
5% ( Es decir, si n/N< 0.05 )
Distribución muestral de la proporción

Forma de la distribución de muestreo de p
La distribución de muestreo se aproxima mediante una distribución normal,
siempre y cuando: np > 5 y n(1-p) > 5. En otras palabras
 si el tamaño de
la muestra es suficientemente grande la forma de p es una normal

 P(1  P)
p  N ( P,   ) _
_ 
p
E( p )  P p n
_
p  N ( P,   )
p


p
El nivel de confianza y su interpretación
El nivel de confianza es la probabilidad de que el verdadero valor del
parámetro se encuentre en el intervalo de estimación propuesto

El verdadero valor
del parámetro

La estimación por
intervalo es cada
intervalo para cada
muestra diferente.
De hecho, se tiene sólo
un intervalo en una
aplicación
específica
Estimación de la media
Estimación por intervalo:
No es suficiente con que un estimador puntual suministre el valor exacto
del parámetro poblacional, por eso la necesidad de realizar una
estimación por intervalo al sumar y restar al estimador puntual una
cantidad llamada margen de error.

Por tanto, el objetivo de la estimación por intervalo es aportar información


de qué tan cerca se encuentra la estimación puntual, obtenida de la
muestra, del valor del parámetro poblacional.

Fórmula general: x Margen de error


p Margen de error

 
Las distribuciones de xy p son clave para calcular estas estimaciones
por intervalo
Estimación de la media
Fórmula 1 Estimación de la media suponiendo normalidad en los datos
Se utiliza para cuando σ es conocida (o se conoce) o bien se desconoce el
valor de sigma, pero la muestra es grande: n mayor o igual a 30 de
preferencia

Nota: Se dice que se conoce σ en la vida real, cuando se tienen datos


históricos que permiten tener un valor razonablemente bueno. En tales
situaciones se menciona como σ conocida

1 se le llama nivel de confianza

 /2 corresponde al área de la cola superior de la distribución

z corresponde con el valor en tablas 



x  z / 2
n

x Margen de error
Estimación de la media
Ejemplo 1
La empresa OXXO en una tienda, selecciona una muestra aleatoria a 100
clientes con objeto de conocer la cantidad media de gasto de un
consumidor en cada visita a la tienda (es decir, el gasto promedio de
un cliente).
En la

última semana, con 100 clientes se obtuvo un promedio de gasto de
x  $82 siendo esto una estimación puntual de µ
Supongamos que por datos históricos anteriores, se asume que σ=$20
¿Cómo calculamos una estimación para el gasto promedio por intervalo al
95% de confianza?
Sabemos que el 95% de los valores de cualquier normal se encuentra
dentro de z  1.96(valor en tablas/Excel) desviaciones estándar
de la media
Estimación de la media
Continuación…
Al suponer que conocemos σ= $20, aplicamos la fórmula 1 para realizar la
estimación por intervalo: 

x  z / 2
 n
Conocemos x  $82 , σ=$20 y n= 100

z
Por tanto, sólo falta encontrar  / 2 al 95% de confianza y es z / 2  1.96

Sustituimos en la fórmula con :



 20
x  z / 2  82  1.96( )  82  1.96(2)  82  3.92
n 100

Por tanto: (82  3.92,82  3.92)  ($78.08,$85.92)


Estimación de la media
Otra forma de expresar el resultado utilizando el término de nivel de
confianza es:
P($78.08    $85.92)  0.95
A dicha probabilidad (especial) se le conoce como nivel de confianza
Interpretación:

Se desconoce

x  $82
Estimación de la media
Fórmula 2. Estimación de la media suponiendo normalidad en los datos
Se utiliza para cuando σ es desconocida y se sustituye por su estimador S
y el tamaño de muestra es menor a 30
Nota: En estos casos utilizamos una nueva distribución llamada t-de
Student o distribución t

1 se le llama nivel de confianza

 /2 corresponde al área de la cola superior de la distribución

t corresponde con el valor en tablas con n-1 grados de libertad


s Recordando que:
x  t / 2 n


n  ( x  x)
i 1
i
2

S=
x Margen de error n -1
Estimación de la media
Distribución de probabilidad t
• La distribución t es una familia de distribuciones de probabilidad
similares; cada distribución t depende de un parámetro conocido como
grados de libertad.
• Cada distribución t es única para cada grado de libertad. Es decir, la
distribución t para un grado es única así como lo es una distribución t
para dos grados, etc.
• A medida que cada grado de libertad aumenta, la diferencia entre la
distribución t y la normal estándar se va reduciendo.
• La razón de que el número de grados de libertad para el valor de t sea
n–1 se debe al uso de s como estimación de la desviación estándar
poblacional σ.
• En el Excel al igual que la distribución de probabilidad normal, se
pueden obtener con facilidad las probabilidades y los valores t
 Si vamos a calcular la probabilidad se usa: DISTR.T (VARIAS
OPCIONES)
 Si lo que vamos a buscar son los valores t de la base de la función
usamos como siempre INV.T o bien INV.2C según convenga
Estimación de la media
Estimación de la media
Ejemplo 2
El director de finanzas desea estimar el número de días promedio de
cobranza que tiene para las cuentas por cobrar en su empresa. Para esto
analiza una muestra de 25 cuentas cobradas en el último mes de las
cuales, calcula que cada una se cobró en promedio en 20 días, con una
desviación estándar de la misma muestra de 5 días.
a) Con esta información, estime el número promedio (poblacional) de días
de cobranza con un nivel de confianza del 0.99 de probabilidad (99%)
Sabemos por los datos del problema que:
n
  i
( x  x ) 2

x  20días S= i 1
 5días
n -1
Al no conocer σ usamos la fórmula 2 (además el tamaño de muestra es
menor a 30) 
s
x  t / 2
n
Buscamos el valor en las tablas t con n-1 = 69 grado de libertad (o en
excel con INV.T)
t / 2  2.797 _ con _ 24 _ grados _ de _ libertad
Estimación de la media
Continuación…

s 5
x  t / 2  20  2.797  20  2.797
n 25
P (20  2.797    20  2.797)  0.99
P (17.203    22.797)  0.99
b) Si en lugar de una probabilidad del 0.99 (99%) (nivel de confianza)
relajamos a una probabilidad de 0.90 (90%) ¿Cuál sería el nuevo
intervalo?, menciona si creció o se redujo el nuevo intervalo.

t / 2  1.711 _ con _ 24 _ grados _ de _ libertad



s 5
x  t / 2  20  1.711  20  1.711
n 25
P (20  1.711    20  1.711)  0.90
P (18.289    21.711)  0.90...se _ redujo _ el _ int ervalo
Estimación de la media
Resumen para determinar cuándo es apropiado la distribución t

Tamaño de la muestra

Distribución normal Z
(Fórmula 1)
30 o mayor
σ conocida Distribución normal Z
(Fórmula 1)
Población σ no conocida y
normal es estimada por S
Menor que 30 Distribución t
(Fórmula 2)

Población
no normal

Pruebas no paramétricas (otro curso)


Estimación de la proporción
Fórmula 3.
Estimación por intervalo para una proporción poblacional P

P (1  P )
Recordemos que: p  N ( P,   )  N ( P, )
p n
Siempre y cuando np > 5 y n(1-p) > 5

y la fórmula es:
 
 p(1  p)
p  z / 2
n

p Margen de error
Donde:
1   es el nivel de confianza, z / 2 es el valor en tablas de la normal

 /2 es la parte superior de la distribución


Estimación de la proporción
Ejemplo 3
Se tomó una muestra aleatoria de 400 clientes “select” del Banco
Santander para conocer el nivel de aceptación de un nuevo producto
financiero que se desea ofrecer a ese segmento de mercado. De dicha
muestra de 400 clientes, resultó que 100 de ellos respondieron que sí
les gustaba el producto.
El Banco Santander tomará la decisión de lanzar el nuevo producto a ese
segmento de mercado siempre que el porcentaje de aceptación supere
al menos el 30%

a) Realice una estimación puntual de la proporción poblacional de los


clientes “select” cuya respuesta sería favorable hacia el producto.

b) Realice una estimación por intervalo con el 95% de confianza, para la


proporción (poblacional) de clientes “select” que les gustaría el nuevo
producto financiero.

a) ¿Que decisión tomará el Banco con el criterio establecido del 30%


mínimo de aceptación?
Estimación de la proporción
a) Realice una estimación puntual de la proporción poblacional de los
clientes “select” cuya respuesta sería favorable hacia el producto.


100
p  0.25
400
Estimación de la proporción
b) Realice una estimación por intervalo con el 95% de confianza, para la
proporción (poblacional) de clientes “select” que les gustaría el nuevo
producto financiero.
 

p (1  p )
Sabemos que… p  z / 2
n
Sustituimos:
(0.25)(0.75)
0.25  1.96  0.25  1.96(0.0217)  0.25  0.0424
400

O bien : (0.21,0.29)

Otra forma de expresar el resultado es:


P(0.21  P  0.29)  0.95
En términos porcentuales la estimación por intervalo queda:
P(21%  P  29%)  0.95
c) Ya que la estimación de aceptación no alcanza el 30%, el Banco
Santander decide no ofrecer este producto financiero a ese segmento
Estimación de la proporción
Ejemplo 4
Se quiere analizar el índice de productividad de los trabajadores de una
empresa industrial, y se ha tomado una muestra aleatoria de 200
empleados y se ha observado que el 10 de ellos no alcanzan el nivel
mínimo productivo que se quiere conseguir de cada uno de ellos.
Realice una estimación puntual y por intervalo para la proporción de
trabajadores que no alcanzan el nivel mínimo requerido por la empresa.

10
Estimación puntual: p  0.05 es decir el 5% no alcanza el nivel
mínimo. 200
Directamente aplicando la fórmula con un nivel de confianza del 95%
tenemos:
 

p (1  p ) 0.05(1  0.05)
p  z / 2  0.05  1.96  0.05  0.0302
n 200
 (0.0198;0.0802)  (0.02;0.08)
Estimación de la proporción

O bien: (0.02;0.08)

Otra forma de expresar el resultado usando el término de nivel de


confianza es:
P (0.02  P  0.08)  0.95

En términos porcentuales la estimación por intervalo queda:

P (2%  P  8%)  0.95

El porcentaje de trabajadores que no alcanzan el nivel mínimo productivo


se encuentra entre el 2% y el 8% con una probabilidad del 0.95
Estimación de la varianza
La varianza muestral es un estimador puntual de la varianza poblacional:
n

 i
( x  x ) 2

S2 2 S2 = i 1
n -1
Cuando se hacen estimaciones acerca de la varianza poblacional mediante
la varianza muestral, es útil la distribución de muestreo de la cantidad:

(n  1) S 2 /  2
Siempre que de una población normal se toma una muestra aleatoria
simple de tamaño n, la distribución de muestreo de (n  1) S / 
2 2

tendrá una distribución ji-cuadrada con n-1 grados de libertad

Nota: Este resultado servirá tanto para estimaciones por intervalo como
para realizar pruebas de hipótesis acerca de la varianza poblacional
Estimación de la varianza
Distribución ji-cuadrada
• La distribución ji-cuadrada es una familia de distribuciones de
probabilidad donde depende del parámetro: grados de libertad.
• Cada distribución ji-cuadrada es única para cada grado de libertad.
• La ji-cuadrada no es simétrica. Cambian de forma según los grados de
libertad. En general tienen un sesgo a la derecha
• El número de grados de libertad para el valor de ji-cuadra sea n–1 se
debe al uso de s como estimación de la desviación estándar poblacional
σ.
• Todos los valores ji-cuadrados son positivos
• En el Excel se pueden obtener las probabilidades y los valores ji-
cuadrada
 Si vamos a calcular la probabilidad se usa: DISTR.CHICUAD o bien
DISTR. CHICUAD.CD
 Si lo que vamos a buscar son los valores ji-cuadrada de la base de la
función usamos como siempre INV.CHICUAD o bien
INV.CHICUAD.CD según convenga
Estimación de la varianza
Forma de la distribución ji-cuadrada (caso particular 95% al centro con 19
grados de libertad)
Distibución ji-cuadrada

0.025
0.025

 0.975 2  8.907  0.025 2  32.852

Diferentes grados de libertad (k):


Estimación de la varianza
Desarrollo para encontrar una expresión para la estimación de la varianza:
Observando la notación utilizada en el caso particular anterior,
desarrollamos una fórmula para la estimación de la varianza

 (1  / 2 ) 2   2    / 2 2
( ) ( )

(n  1) S 2
 (1  / 2 )  2
  ( / 2 )
2
( )
2
Despejando  2
haciendo algunas manipulaciones algebraicas tenemos:

(n  1) S 2 ( n  1 ) S 2
… Fórmula 4
  2

 ( / 2 )  (1( / 2))
2 2

Si deseamos estimar la desviación estándar, es suficiente con calcular la


raíz cuadrada de estos valores.
Nota: Recordamos que en el Excel se pueden obtener los valores de ji-
cuadrada con: INV.CHICUAD.CD
Estimación de la varianza
Ensayo para poder encontrar valores de ji-cuadrada:
Supongamos ji-cuadrada con 9 grados de libertad y un nivel de confianza
del 95%. ¿Cuáles serían los valores en cada extremo? Recordemos que
no es simétrica.
Estimación de la varianza
Ejemplo 5
El 4 de marzo del 2009 fue uno de los pocos buenos días para el mercado
de valores a principios del 2009. El índice Dow Jones alcanzó 149.82
puntos. La tabla siguiente presenta los cambios en los precios de las
acciones de una muestra de 12 empresas que cotizaron ese día.
EMPRESA Cambio de precio EMPRESA Cambio de precio
$ $
Alfac 0.81 John & John 1.46
Bank of America -0.05 Loews Cp 0.92
Cablevisión 0.41 Nokia 0.21
Diageo 1.32 SmpraEngy 0.97
Flour Cp 2.37 Sunoco 0.52
Goodrich 0.3 Tyson Food 0.12

1. Realice una estimación puntual de la varianza sobre el cambio de precio


diario
2. Realice una estimación puntual de la desviación estándar sobre el
cambio de precio diario
3. Realice una estimación por intervalo al 95% de nivel de confianza para
la varianza poblacional y la desviación estándar poblacional
Estimación de la varianza
1. Realice una estimación puntual de la varianza sobre el cambio de precio
diario

 i
( x  x ) 2

S2 = i 1
 0.4748
n -1

2. Realice una estimación puntual de la desviación estándar sobre el


cambio de precio diario

 i
( x  x ) 2

S= i 1
 0.6891
n -1
Estimación de la varianza
3. Realice una estimación por intervalo al 95% de nivel de confianza para
la varianza poblacional y la desviación estándar poblacional
(n  1) S 2 (n  1) S 2
Partimos de:  
2

 0.025 2
 0.9752
En el excel se pueden obtener los valores en tablas con: INV.CHICUAD.CD

Si:  0.025  21.920 _ con _ 11gl


2
 0.975 2  3.816 _ con _ 11gl
(12  1)0.4748 (12  1)0.4748
Sustituyendo tenemos:  
2

21.920 3.816

5.2228 5.2228
  2   0.2383   2  1.3687
21.920 3.816
La estimación de la varianza en términos del nivel de confianza es:

P (0.2383   2  1.3687)  0.95


Estimación de la varianza
Y la estimación para la desviación estándar es:

 0.2383    1.3687  0.4882    1.1699


O bien, la estimación de la desviación estándar en términos del nivel de
confianza es:
P ($0.4882    $1.1699)  0.95
TEMA 6

Pruebas de hipótesis

6.1 Proceso de las pruebas de hipótesis


6.2 Nivel de significancia y su interpretación: Tipos de
pruebas
6.3 Prueba de hipótesis de la media (Regla de oro)
6.4 Prueba de hipótesis de la proporción
6.5 Prueba de hipótesis de la varianza
Proceso de las pruebas de hipótesis
Hipótesis: Es un enunciado acerca del valor numérico de un parámetro
poblacional como puede ser la media, proporción, varianza, etc.

Prueba de Hipótesis: Es un procedimiento estadístico basado en la


evidencia de una muestra y la teoría de probabilidad, para determinar
si la hipótesis se acepta como razonable en relación al valor
numérico del parámetro poblacional

En general se plantean dos hipótesis y son complementarias:

Hipótesis nula (H0): Enunciado relativo al valor de un parámetro


poblacional que se formula con el fin de probar evidencia numérica.
(Es el supuesto tentativo acerca del valor del parámetro poblacional)

Hipótesis alternativa (H1): Enunciado que se acepta si los datos de la


muestra ofrecen suficiente evidencia para rechazar la hipótesis nula.
(Es el supuesto contrario a lo planteado en la hipótesis nula)
Proceso de las pruebas de hipótesis
Hay dos enfoques para plantear una prueba de hipótesis

1. La hipótesis alternativa como hipótesis de investigación:


En estos casos, la hipótesis de investigación que se recomienda plantear
primero, es la hipótesis alternativa (H1) y convertirla en la conclusión
que la persona espera sustentar. Por lo general, se tienen datos que
permiten orientar la construcción de dicha hipótesis.

Obviamente la propuesta contraria se le llama hipótesis nula (H0).

2. La hipótesis nula como un supuesto para ser debatido


En estos casos resulta más útil plantear la hipótesis nula (H0) como la
creencia o supuesto de que un parámetro tome un determinado valor
numérico.

Obviamente la propuesta contraria se le llama hipótesis alternativa (H1).


Proceso de las pruebas de hipótesis

Ejemplo de planteamiento de una prueba de hipótesis:


El director de Finanzas de una empresa empacadora de alimento de cereal
está preocupado por el exceso de producto empaquetado. Lo anterior
se basa en una muestra aleatoria de n=25 productos cuyos datos
fueron:

x  372.5 gramos
s  15 gramos _ se _ toma _ como _ valor _ aceptable _ de _ 
Si en realidad hay más de 368 gramos que es lo indicado en la etiqueta, la
empresa está perdiendo dinero.
Por tanto, el director de Finanzas está interesado en conocer si el nivel
promedio de llenado es superior a 368 gramos.

H 0 :   368 gramos El proceso esta bien

H 1 :   368 gramos El proceso no opera bien


Proceso de las pruebas de hipótesis

Otro ejemplo de planteamiento de una prueba de hipótesis


En el área de tarjetas de crédito de una institución bancaria, han
mantenido durante varios años, un porcentaje alrededor del 6% de
cuentas por cobrar vencidas cada mes. El departamento de
contabilidad de la institución considera que tiene evidencia de que
la mala situación económica del país ha incrementado dicho
porcentaje.
El comentario anterior se basa ya que en el último mes, de una muestra
aleatoria de 478 solicitudes de pago a tarjetas de crédito, se
encontraron que 42 de ellas están vencidas.
_
p  42 / 478  0.0879

H 0 : p  0.06
H 1 : p  0.06
Proceso de las pruebas de hipótesis

Otro ejemplo de planteamiento de una prueba de hipótesis


La secretaría de economía anuncia que el crecimiento promedio en el
sector de servicios en México para el año 2016 será del 12%. Un
grupo de economistas y financieros que estudian los sectores
económicos del país no están muy de acuerdo con esa cifra y desean
probar dicha aseveración. Es decir, los economistas tienen evidencia
de que el crecimiento en ese sector será diferente al 12%

H 0 :   12% Informe de la secretaría de economía

H 1 :   12% Evidencia de los economistas y financieros


Prueba de hipótesis de la varianza
Otro ejemplo de planteamiento de una prueba de hipótesis
Un operador de Bolsa al aconsejar a un cliente con respecto a la inversión
de una determinada acción, destaca la poca variabilidad de la
cotización. Según el operador estas acciones presentan una
varianza en las cotizaciones diarias  = 0.2 .
2

El cliente quien desea hacer una fuerte inversión decide poner a prueba la
hipótesis del operador. Para ello, selecciona una muestra de 15 días
donde registra la cotización diaria de las acciones y el cálculo de la
varianza en la muestra resultó de S 2 = 0.4

¿Será posible sostener el argumento del operador sobre la poca


variabilidad de cotización de dichas acciones?

Paso 1 (hipótesis)

H 0 :  2  0.2 Confirmación del operador (menos riesgo)

H 1 :  2  0.2 Estaría equivocado el operador (mayor riesgo)


Proceso de las pruebas de hipótesis
Existen varios métodos para realizar una prueba de hipótesis:

Método del estadístico de prueba


(valor crítico)
Método en 5 pasos

Métodos para realizar Método del valor-p


pruebas de hipótesis (Regla de oro)

Método del intervalo de confianza para


realizar pruebas de hipótesis de dos colas
(este procedimiento se extiende a
pruebas de hipótesis de una cola pero es muy
poco utilizado en en la práctica)
Proceso de las pruebas de hipótesis
Método del estadístico de prueba.
5 Pasos recomendables para realizar una prueba de hipótesis:
1. Determinar una hipótesis nula (H0) y una hipótesis alternativa (H1)
relativa a algún parámetro de la población. La hipótesis H0 debe
incluir alguno de los signos: , , 
pero no involucrar los signos: , , 
2. Especificar un nivel de significancia α, normalmente es α=0.05 o α= 0.01

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando


es verdadera

3. Extraer de la población una muestra aleatoria de tamaño n, y calcular el


estadístico de prueba apropiado: (sólo algunos ejemplos)
  

x 0 x  0 z
p  p0 ( n  1 ) S 2
z t p0 (1  p0 ) 2  ,etc.
/ n s/ n 0 2
n
Proceso de las pruebas de hipótesis
5 Pasos recomendables para realizar una prueba de hipótesis:

4. Obtener el valor crítico de la distribución estadística teórica


correspondiente al nivel de significancia α. Este valor crítico es la
frontera que determina la zona de aceptación de H0 y la zona de
rechazo de H0

Estos valores se obtienen con tablas estadísticas o bien con el uso del
Excel.

Para diferenciar el valor crítico del estadístico de prueba del apartado 3,


vamos a identificar el valor crítico con un asterisco (*)

z , t , * , etc.
* * 2
Proceso de las pruebas de hipótesis
5 Pasos recomendables para realizar una prueba de hipótesis:
5. Comparar el estadístico de prueba con el valor crítico y según la posición
de ambos valores tomar la decisión.

Región de
Región de
rechazo
aceptación
de Ho
de Ho
(No se rechaza Ho)

  0.05
Valor crítico

z *  1.645

z Estadístico de prueba
Nota: En caso de programas estadísticos apropiados, esta actividad se
simplifica al utilizar el Método del valor-p (Regla de oro), como
veremos más adelante.
De hecho el valor p en una prueba de hipótesis se define como el menor
nivel de significancia al cual se rechaza la hipótesis nula
Nivel de significancia y su interpretación: Tipos de pruebas
Nivel de significancia α o nivel de riesgo: es la probabilidad de rechazar
H0 cuando es verdadera

Situación Real
H0 es verdadera H0 es falsa

No 1.Decisión 3. Error tipo II


rechazar correcta
H0 Nivel de confianza
Decisión Pr ob  1   Pr ob  
estadística Rechazar 2. Error tipo I 4.Decisión
H0 Nivel de correcta
significancia Poder de la
Nivel de prueba
significancia:
es la probabilidad Pr ob   Pr ob  1  
de cometer el error
tipo I
Nivel de significancia y su interpretación: Tipos de pruebas

Tipos de pruebas estadísticas:

1. Dos colas (ejemplo)

H 0 :   0 Región
Región de
aceptación Región de
rechazo de Ho rechazo
H 1 :   0 de Ho (No se rechaza Ho)
de Ho
 /2  /2
z* z*
2. Una cola (ejemplo)

H 0 :   0 Región de
aceptación Región de
de Ho rechazo
H 1 :   0 (No se rechaza Ho)
de Ho

z*
Nivel de significancia y su interpretación: Tipos de pruebas

Tipos de pruebas estadísticas:

3. Una cola (ejemplo)


Región de
rechazo

H 0 :   0
de Ho Región de


aceptación
de Ho

H 1 :   0
(No se rechaza Ho)

z*
Prueba de hipótesis de la media
Problema 1 Prueba de hipótesis para la media con σ conocida
El director de Finanzas de una empresa empacadora de alimento de cereal
está preocupado por el exceso de producto empaquetado. Lo anterior
se basa en una muestra aleatoria de n=25 productos cuyos datos
fueron:

x  372.5 gramos
s  15 gramos _ se _ toma _ como _ valor _ aceptable _ de _ 
Si en realidad hay más de 368 gramos que es lo indicado en la etiqueta, la
empresa está perdiendo dinero.
Por tanto, el director de Finanzas está interesado en conocer si el nivel
promedio de llenado es superior a 368 gramos.
Paso 1 (hipótesis)

H 0 :   368 gramos El proceso esta bien

H 1 :   368 gramos El proceso no opera bien


Prueba de hipótesis de la media
Paso 2 Supongamos un nivel de significancia α= 0.05

Paso 3 Supongamos para este problema que la desviación estándar


s  15 gramos es aceptable como valor de sigma σ.
Es decir, podemos considerar conocida la desviación estándar:
  15 gramos

Con los valores del problema: x  372.5 gramos
  15 gramos

x 0
El estadístico de prueba apropiado es: z
/ n

x  0 372.5  368 4.5
z     1.5
/ n 15 3
25
Prueba de hipótesis de la media
Paso 4 Para una   .05  z *  1.645 es el valor crítico (valor de tablas
o de Excel)

y realizamos la comparación entre los valores Z:

Paso 5 Decisión: 1.5  1.645  aceptamos _ H 0

H 0 :   368 gramos
Región de
aceptación Región de
de Ho rechazo
de Ho
  0.05
z *  1.645
z  1.5
Prueba de hipótesis de la media
Método del valor-p
Otra forma de ver esto es con el valor-p del estadístico de prueba:
Valor-p es una probabilidad que aporta una medida de la evidencia
suministrada por la muestra contra la hipótesis H0. Valores-p
pequeños indican una evidencia mayor contra H0.
NOTA: Este método es el más utilizado en los paquetes informáticos

Nivel _ de _ sig . _ o _ bien


valor  p  0.0668
  0.05
Región de Región de
aceptación rechazo
de Ho de Ho

Como _ el _ valor  p  0.0668    0.05


 Aceptamos _ H 0

Estadístico _ de _ prueba z  1.5


z *  1.645
Prueba de hipótesis de la media
Conclusión importante: Método del valor-p (Regla de oro)

1. Si el valor-p (o nivel de significancia) es > 0.05 => Se acepta H0

2. Si el valor-p (o nivel de significancia) es < 0.05 => Se rechaza H0

Nivel _ de _ sig . _ o _ bien


valor  p  ?

  0.05

z
z *  1.645
Prueba de hipótesis de la media
Método del intervalo de confianza para probar una hipótesis de dos colas:
Se utiliza para pruebas de dos colas, ejemplo para la media poblacional:
H 0 :   0
H 1 :   0
1. Seleccionar de la población una muestra aleatoria simple y emplear el

valor de la media muestral x para obtener un intervalo de confianza de la
media poblacional µ. 

Fórmula 1 tema estimación de parámetros… x  z / 2
n
2. Si el intervalo de confianza contiene el valor hipotético µ0, H0 no es
rechazada. En caso contario H0 es rechazada

Observaciones sobre este método:


1. Si µ0 coincide o es igual a uno de los puntos finales del intervalos, se debe
rechazar H0
2. Lo anterior es válido para las fórmulas 2, 3 y 4 del tema de estimación de
parámetros.
3. El método se extiende a pruebas de hipótesis de una cola, sin embargo los
intervalos de confianza unilaterales son muy poco utilizados en la práctica.
Prueba de hipótesis de la media
Método del intervalo de confianza para probar una hipótesis de dos colas:
Ejemplo: Suponga que el Director de Finanzas quiere probar que la compra
de un cliente del OXXO es de $100
H 0 :   $100
H 1 :   $100
1. Seleccionar una muestra n=100 clientes y emplear el valor de la media
muestral ($82) para obtener un intervalo de confianza de la media
poblacional µ considerando una σ= $20 pesos. Supongamos un nivel de
significancia α= 0.05 

x  z / 2
Con estos datos, el intervalo queda: n

 20
x  z / 2  82  1.96( )  82  1.96(2)  82  3.92
n 100
(82  3.92,82  3.92)  ($78.08,$85.92)
2. Si el intervalo de confianza contiene el valor hipotético µ0, H0 no es
rechazada. En caso contario H0 es rechazada

Como _ $100  ($78.08,$85.92)  Se _ rechaza _ H 0


Prueba de hipótesis de la media
Problema 2 Prueba de hipótesis para la media con σ conocida
Un estudio realizado en 2009 acerca de cómo utilizan las tarjetas de
crédito los estudiantes no titulados, se reportó que el saldo
promedio es de $3173 pesos. Tal cifra fue la más alta en los últimos
cinco años en que se realizó dicho estudio.

Suponga que se realiza un estudio actual para determinar si es posible


concluir que el saldo promedio en la tarjeta de crédito de
estudiantes no titulados ha continuado en aumento comparado con
el informe del año 2009.

Para lograr lo anterior, se obtuvo una muestra de 180 estudiantes no


titulados con un saldo medio (promedio) muestral de $3325. Utiliza
un nivel de significancia del 5% para la prueba. Con base en
reportes previos utiliza una desviación poblacional de $1000

Paso 1 (hipótesis) H 0 :   $3173


H 1 :   $3173
Prueba de hipótesis de la media
Paso 2 Supongamos un nivel de significancia α=0.05

Paso 3 Para este problema suponer una desviación estándar poblacional


de σ= $1000 

Con los valores del problema: x  $3325


  $1000

x 0
El estadístico de prueba apropiado es: z
/ n

x 0 3325  3173 152 152
z     2.04
/ n 1000 1000 74.52
180 13 .42

Paso 4 Para una   .05  z  1.64 _ en _ cola _ derecha


*

es el valor crítico (valor de tablas o de Excel) y realizamos la comparación


entre los valores Z:
Prueba de hipótesis de la media
Paso 5 Decisión:

1.64  2.04  rechazamos _ H 0

Para _ efectos _ prácti cos :


Región de aceptamos _ H 1 :   $3173
aceptación Región de
de Ho rechazo
(No se rechaza Ho)
de Ho
  0.05
z *  1.64
z  2.04

Conclusión: en base a la muestra hay evidencia suficiente para sospechar


que el saldo de las tarjetas de crédito de estudiantes no titulados ha
aumentado
Prueba de hipótesis de la media
Método del valor-p
Otra forma de ver esto es con el valor-p del estadístico de prueba
P( z  2.04)  ? P( z  2.04)  1  P( z  2.04)  1  0.979  0.021
Pr ueba _ de _ cola _ derecha _ valor _ p  0.021

Región de
aceptación   0.05
de Ho
(No se rechaza Ho) valor  p  0.021

Z *  1.64
Z  2.04
Si el valor-p (o nivel de significancia) es < 0.05 => Se rechaza H0

valor  p  0.021  0.05 Para _ efectos _ prácti cos :


se _ rechaza _ H 0 aceptamos _ H 1 :   $3173
Prueba de hipótesis de la media
Problema 3 Prueba de hipótesis para la media con σ desconocida
El gerente de ventas de una empresa de la región norte, afirma que su
equipo de vendedores realiza en promedio 40 llamadas a la semana
para ver a clientes potenciales. Una muestra aleatoria a 28 de sus
vendedores revela que el promedio de las llamadas que realizaron la
semana pasada fue de 42 llamadas. La desviación estándar de la
muestra es de 2.1 llamadas. Con un nivel de significancia del 0.05
¿Se puede concluir que el promedio de llamadas semanales es de
más de 40? 
x  42 _ llamadas
s  2.1 _ llamadas

Paso 1 (hipótesis)
H 0 :   40
H 1 :   40
Prueba de hipótesis de la media
Paso 2 Supongamos un nivel de significancia α=0.05

Paso 3 Como no conocemos σ, el estadístico de prueba apropiado es:



x 0
t ...con _(n  1) _ grados _ de _ libertad
s/ n

x 0 42  40 2
t    5.038
s / n 2.1 0.397
28

Paso 4 Para una   .05  t *  1.703 es el valor crítico (valor de tablas


o de Excel)

y realizamos la comparación entre los valores t:


Prueba de hipótesis de la media
Paso 5 Decisión:

1.703  5.038  rechazamos _ H 0

Para _ efectos _ prácti cos_ aceptamos


H 1 :   40
las _ llamadas _ son
Región de sup eriores _ a _ 40
aceptación
de Ho Región de a _ la _ semana
rechazo
de Ho
  0.05
t *  1.703
t  5.038
Prueba de hipótesis de la media
Problema 4 Prueba de hipótesis para la media con σ desconocida
Como medida de seguridad un banco está promoviendo el uso de tarjeta
para realizar compras en cierta cadena de tiendas, en las que se
tiene un registro medio diario de 230 compras efectuadas con
tarjeta. Después de la promoción se toma una muestra aleatoria de
64 días y se encuentra que la media de compras con tarjeta es de
245 con una desviación estándar muestral de 28 compras.

Determine con un nivel de significancia de 0.05 si hubo un aumento


significativo en las compras a través de las tarjetas.

x  245 _ compras
s  28 _ compras
Paso 1 (hipótesis)
H 0 :   230 _ compras
H 1 :   230 _ compras
Prueba de hipótesis de la media
Paso 2 Supongamos un nivel de significancia α=0.05

Paso 3 Como no conocemos σ, el estadístico de prueba apropiado es:



x 0
t ...con _(n  1) _ grados _ de _ libertad
s/ n

x   0 245  230 15 15
t     4.29
s/ n 28 28 / 8 3.5
64

Paso 4 Para una   .05  t *  1.67 es el valor crítico (valor de tablas o


de Excel)

y realizamos la comparación entre los valores t:


Prueba de hipótesis de la media
Paso 5 Decisión:

1.67  4.29  rechazamos _ H 0

H 1 :   230
Región de
las _ compras _ tuvieron
aceptación Región de un _ cambio _ significativo
de Ho rechazo
(No se rechaza Ho)
de Ho con _ la _ promoción
  0.05
t *  1.67
t  4.29
Prueba de hipótesis de la media
Problema 5 Prueba de hipótesis para proporciones
En una muestra de 105 comercios seleccionados al azar de una zona,
se observa que 27 de ellos han tenido perdidas en este mes.
Un analista en economía de la zona establece que la proporción de
comercios en la zona con pérdidas es igual o superior a 0.35 (35%)

Desarrolle en base a la evidencia un hipótesis y pruébela al 5% de nivel


de significancia:

p  27 / 105  0.26 _ o _ bien _ el _ 26%
Prueba de hipótesis de la media
Paso 1 (hipótesis)
H 0 : p  0.35 _ % _ de _ comercios _ con _ pérdidas

H 1 : p  0.35 _ % _ de _ comercios _ con _ pérdidas _(evidencia)


Paso 2 Supongamos un nivel de significancia α=0.05

Paso 3 Como estamos hablando de



porcentajes o proporciones, el
estadístico apropiado es: p  p0
z
p0 (1  p0 )
n
Sustituyendo: 
p  p0 0.26  0.35  0.09  0.09
z     1.93
p0 (1  p0 ) 0.35(0.65) 0.23 0.0468
n 105 105

Paso 4 Para una   .05  z  1.65 es el valor crítico (valor de tablas o


*

de Excel)
y realizamos la comparación entre los valores z:
Prueba de hipótesis de la media
Paso 5 Decisión:

 1.93  1.65  rechazamos _ H 0

H 1 : p  0.35
la _ proporción _ de _
comercios _ con _ pérdidas
Región de
aceptación
se _ sospecha _ que  es _ menor
Región de
de Ho
rechazo
(No se rechaza Ho) al _ 0.35 _(35%)
de Ho
  0.05
z *  1.65
z  1.93
Prueba de hipótesis de la proporción

Problema 6 Prueba de hipótesis para proporciones


En el área de tarjetas de crédito de una institución bancaria, han
mantenido durante varios años, un porcentaje alrededor del 6% de
cuentas por cobrar vencidas cada mes. El departamento de
contabilidad de la institución considera que tiene evidencia de que
la mala situación económica del país ha incrementado dicho
porcentaje.

El comentario anterior se basa ya que en el último mes, de una muestra


aleatoria de 478 solicitudes de pago a tarjetas de crédito, se
encontraron que 42 de ellas están vencidas.
_
p  42 / 478  0.0879

Paso 1 (hipótesis) H 0 : p  0.06


H 1 : p  0.06
Prueba de hipótesis de la proporción
Paso 2 Supongamos un nivel de significancia α=0.05
Paso 3 La hipótesis se basa en una muestra de 478 solicitudes de pago, de
éstas 42 están vencidas
_
p  42 / 478  0.0879 
p  p0
El estadístico de prueba apropiado es: z

p0 (1  p0 )
p  p0 0.0879  0.06 0.0279 n
z    2.54
p0 (1  p0 ) 0.06(0.94) 0.011
n 478
Paso 4 Para una   .05  z *  1.65 es el valor de tablas (valor crítico)
y realizamos la comparación entre los valores Z:
Paso 5 Decisión:
2.54  1.65  rechazamos _ H 0
No hay evidencia suficiente para aceptar que: H 0 : p  0.06

Para efectos prácticos podemos sospechar que H 1 : p  0.06


se ha incrementado la cartera vencida:
Prueba de hipótesis de la proporción
Del mismo ejercicio…..por el “método del valor p” (regla de oro) tenemos
que calcular:
P( z  2.54)  ?
Recordar que se puede obtener por el camino acumulado

P( z  2.54)  1  P( z  2.54)  1  0.9944574  0.0055426


Aplicando el criterio del valor-p tenemos que:

valor  p  0.0055  0.05  Re chazamos _ H 0


Para _ efectos _ prácti cos
aceptamos _ H 1 : p  0.06
 Hay _ evidencia _ de _ un _ incremento
en _ la _ cartera _ vencida
Prueba de hipótesis de la proporción
Problema 7 Prueba de hipótesis para proporciones
Un banco encuentra que sólo el 25% de sus clientes tienen cuentas con
saldos superiores a $30,000 pesos, entonces genera una estrategia
para ofrecer mayores beneficios a lo clientes y de esa forma
incrementar la cantidad de clientes con estar característica.

Pasados seis meses, se toma una muestra aleatoria de 250 clientes y se


obtiene que 83 de ellos tienen cuentas con un saldo que rebasa los
$30,000 pesos. Si se tiene un nivel de significancia del 1%,
determine si realmente este porcentaje se incrementó.
_
p  83 / 250  0.332

Paso 1 (hipótesis) H 0 : p  0.25


H 1 : p  0.25
Prueba de hipótesis de la proporción
Paso 2 Supongamos un nivel de significancia α=0.01
Paso 3 La hipótesis se basa en una muestra de 250 clientes y de ellos 83
tienen cuentas
_
superiores a los $30,000 pesos

p  83 / 250  0.332 p  p0
El estadístico de prueba apropiado es: z
p0 (1  p0 )
n

p  p0 0.332  0.25 0.082 0.082 0.082
z      3.04
p0 (1  p0 ) 0.25(0.75) 0.1875 0.00075 0.027
n 250 250
Paso 4 Para una   .01  z *  2.33 es el valor de tablas (valor crítico)
y realizamos la comparación entre los valores Z:
Paso 5 Decisión: 3.04  2.33  rechazamos _ Ho

No hay evidencia suficiente para aceptar que: H 0 : p  0.25


Podemos sospechar que se han incrementado las cuentas con saldos
mayores a $30,000 pesos, es decir, H 1 : p  0.25
Prueba de hipótesis de la proporción
Problema 8 Prueba de hipótesis para proporciones
El área de crédito del Banco Santander, sabe por sus datos estadísticos
pasados, que el 12% de quienes reciben un préstamo para la
compra de un automóvil, incumplen sus pagos durante el primer
año.
Hoy se ha realizado un estudio con 150 clientes seleccionados de forma
aleatoria y se identificó que 23 de ellos han incumplido los pagos.

¿Es posible aceptar la sospecha de que si hay realmente un aumento en


la tasas de incumplimiento?
_
p  23 / 150  0.15

H 0 : p  0.12
Paso 1 (hipótesis)
H 1 : p  0.12
Prueba de hipótesis de la proporción
Paso 2 Supongamos un nivel de significancia α=0.05
Paso 3 La hipótesis se basa en una muestra de 150 clientes y de ellos 23
han incumplido
_
el pago del crédito automotriz

otorgado
p  23 / 150  0.15 p  p0
El estadístico de prueba apropiado es: z
p0 (1  p0 )
n

p  p0 0.15  0.12 0.03 0.03 0.03
z      1.15
p0 (1  p0 ) 0.12(0.88) 0.1056 0.000704 0.026
n 150 150
Paso 4 Para una   .05  z  1.645 es el valor de tablas (valor crítico)
*

y realizamos la comparación entre los valores Z:

Paso 5 Decisión: 1.15  1.645  aceptamos _ Ho


 No _ hay _ evidencia _ suficiente _ para _ aceptar
que _ la _ tasa _ de _ incump lim iento
ha _ subido H 0 : p  0.12
Prueba de hipótesis de la varianza
Problema 9 Prueba de hipótesis para la varianza
Un operador de Bolsa al aconsejar a un cliente con respecto a la inversión
de una determinada acción, destaca la poca variabilidad de la
cotización. Según el operador estas acciones presentan una
varianza en las cotizaciones diarias  = 0.2 .
2

El cliente quien desea hacer una fuerte inversión decide poner a prueba la
hipótesis del operador. Para ello, selecciona una muestra de 15 días
donde registra la cotización diaria de las acciones y el cálculo de la
varianza en la muestra resultó de S 2 = 0.4

¿Será posible sostener el argumento del operador sobre la poca


variabilidad de cotización de dichas acciones?

Paso 1 (hipótesis)

H 0 :  2  0.2 Confirmación del operador (menos riesgo)

H 1 :  2  0.2 Estaría equivocado el operador (mayor riesgo)


Prueba de hipótesis de la varianza
Paso 2 Supongamos un nivel de significancia α=0.05

Paso 3 Recordemos que la muestra de 15 observaciones sobre sobre la


varianza resultó:
15 
 ( xi  x ) 2

S2  1
 0.4
14

En este caso, el estadístico de prueba asumiendo de que la población


tenga una distribución normal es: 2 ( n  1) S
2
con n-1 grados de
 
libertad 2 0

(n  1) S 2 14(0.4) 5.6
 
2
   28
 02 0.2 0.2
Prueba de hipótesis de la varianza
Paso 4 Para una   .05   *0.05  23.7 es el valor critico con 14 grados
2

de libertad
y realizamos la comparación entre los valores de 
2

Paso 5 Decisión: 28  23.7  rechazamos _ H 0


Se concluye que el operador estaba equivocado y la cotización diaria de la
acción es mucho más variable de lo que el operador cree.

Para _ efectos _ prácti cos_ aceptamos _ H1 :  2  0.2

Región de
Región de rechazo
aceptación de Ho de Ho
  0.05

*0.05 2  23.7
 2  28
Prueba de hipótesis de la varianza

Para utilizar el método del valor-p (regla de oro) observamos que:

Si _ el _ estadístico _  *0.0.5  23.7 


2

el _ estadístico _  2  28 _ debe _ tener _ un _ valor  p  0.05

Si el valor-p < 0.05 => Rechazamos H0


Para _  2  28
el _ valor  p  0.0142    0.05  rechazamos _ H 0

Región de
Región de rechazo
aceptación de Ho de Ho   0.05

*0.05 2  23.7
 2  28
Prueba de hipótesis de la varianza
Problema 10 Prueba de hipótesis para la varianza
El Banco BBVA Bancomer, que utiliza filas individuales en las distintas
ventanillas, encontró que la desviación estándar de los tiempos de
espera los viernes en las tarde, distribuidos normalmente, era de 6.2
minutos. El Banco experimentó con una fila única y observó que con
una muestra aleatoria de 25 clientes, los tiempos de espera tenían
una desviación estándar de 3.8 minutos.
Utilice un nivel de significancia de 0.05 para probar la aseveración de que
la fila única causa una menor variación en los tiempos de espera.

Paso 1 (hipótesis) H 0 :   6.2 min utos


H 1 :   6.2 min utos
Se recomienda manejar las cifras como varianza, lo que implica elevar al
cuadrado las cifras anteriores

H 0 :  2  38.44
H 1 :  2  38.44
Prueba de hipótesis de la varianza
Paso 2 Supongamos un nivel de significancia α=0.05

Paso 3 Para una muestra de 25 clientes tenemos que:


25 
 ( xi  x) 2

Si _ S  3.8 _ min utos _ entonces : S2  1


 14.44
24
En este caso, el estadístico de prueba asumiendo de que la población
tenga una distribución normal es: 2 ( n  1) S
2
con n-1 grados de
 
libertad 2 0

(n  1) S 2 24(14.44) 346.56
 
2
   9.02
 02 38.44 38.44
Prueba de hipótesis de la varianza
Paso 4 Para una   .05   *0.95 2  13.848 es el valor critico con 24 grados
de libertad
y realizamos la comparación entre los valores de  2

9.02  13.848  rechazamos _ H 0


Paso 5 Decisión:
Para efectos prácticos, existe algo de evidencia para sustentar la
sospecha de que una sola fila, corresponde a una menor variación
en los tiempos de espera.
Nota: Menor variación (des. estándar) no implica necesariamente
una reducción en el tiempo promedio de espera:

Región de
rechazo
de Ho
Región de
  0.05 aceptación de Ho Aceptamos _ H 1 :  2  38.44
o _ bien _ H 1 :   6.2 min utos
en _ ter min os _ de
*0.95  13.848
2

  9.02
2 desviación _ estándar
Resumen de algunos estadísticos de prueba
Prueba de hipótesis para la media con varianza conocida

x 0
Normal
z
/ n
Prueba de hipótesis para la media con varianza desconocida

x 0
Distribución t con
n-1 grados de libertad
t
s/ n


Prueba de hipótesis para la proporción p  p0
z
Normal
p0 (1  p0 )
n
Resumen de algunos estadísticos de prueba
Si de una población normal se toma una muestra aleatoria simple de
tamaño n, el estadístico de prueba para la varianza poblacional es:

Distibución ji-cuadrada con


n-1 grados de libertad
(n  1) S 2
2 
 02

Nota: Existen muchos otros estadísticos de prueba para dos poblaciones


(no contemplado en este curso). No obstante, el desarrollo es
similar. En este caso las hipótesis que se plantean son por ejemplo:

H 0 : 1   2 H 0 : 1   2  0 H 0 : p1  p2 H 0 : p1  p2  0
 
H 1 : 1   2 H 1 : 1   2  0 H 1 : p1  p2 H 1 : p1  p2  0
En los libros de estadística se encuentran resúmenes de éstos
estadísticos de prueba
TEMA 7
Análisis de regresión
7.1 Modelo lineal simple
Estimación de los coeficientes
Coeficiente de determinación
Prueba de significancia
Uso de la ecuación
Ejemplos
7.2 Modelo lineal múltiple
Diferencias entre ambos modelos
Ejemplos
Análisis de Regresión

Definición: Es una herramienta estadística, cuyo objetivo es desarrollar un


modelo matemático lineal que pueda describir la relación existente entre la
variable a pronosticar (dependiente) y las variables (independientes) que el
investigador considera conveniente relacionar con la primera.

Y   0  1 X 1   2 X 2   3 X 3  ...   k X k  

Donde:
Y Es la variable dependiente
Xi Es la variable independiente
βi Es el coeficiente del modelo para cada variable Xi
ε Es el término del error que corresponde a la variabilidad de y que no se
puede explicar con las k variables independientes (valor teórico)
Análisis de Regresión
El análisis de regresión es aplicable (útil) cuando se tiene que responder a
preguntas del tipo:
¿Cuál es la beta del mercado de la empresa IBM comparada con el
mercado?
IBM   0  1 BMV1

¿Puede explicarse una variación en las ventas de un producto en términos


de la variación en los precios y el número de vendedores (fuerza de
venta)? Y   P  V
0 1 1 2 2

¿ Puede explicarse la variación del precio de una acción de la empresa X


en función de la tasa de interés y del crecimiento de la economía ?
Y   0  1T1   2 PIB2
¿Podemos pronosticar el comportamiento de la bolsa de valores en
función del nivel de los intereses que tenga un inversor (renta fija y renta
variable)? Y   0  1 X 1   2 X 2
Etc.
Modelo lineal simple

 Es una herramienta para estudiar relaciones de causalidad entre dos


variables cuantitativas (una independiente y la otra dependiente)

X Y (Relación causa-efecto)

 La regresión exige que la relación (correlación) entre las variables sea


lineal
Se recomienda verificar la correlación entre la variable X con la Y

 1  rxy  1
Modelo lineal simple
 Una interpretación geométrica al construir una ecuación de regresión
simple es encontrar una línea recta que minimiza las distancias de cada
punto original de Y a la recta (Método de Mínimos Cuadrados) 
 A esas diferencias se les conoce como residuales/errores: ei  yi  yi
Se llama Error si la diferencia hace referencia a los datos de la población
(teórico)
Se llama Residual si la diferencia son los datos de la muestra (observados)


ei  yi  yi

La construcción de la ecuación se la dejamos al paquete estadístico SPSS o


al mismo Excel
Modelo lineal simple

 En el caso de dos variables: una independiente y una dependiente, se le


llama regresión simple cuya ecuación tiene la forma:

Y   0  1 X 1

La solución al modelo anterior es estimar los valores de:  0 _ y _ 1



La solución se escribe como: Y  b0  b1 X 1

b0 _ es _ un _ estimador _ de _  0
b1 _ es _ un _ estimador _ de _ 1

En Excel se realiza con el complemento de “Análisis de datos”:


Estimación de los coeficientes
Sobre todo nos referimos al coeficiente que acompaña a la variable
independiente (β1). Se estima acompañado de un intervalo de
confianza. Recordemos el significado del término nivel de confianza
Interpretación: P( Lím _ inf    Lím _ sup)  0.95
1
1 Desconocido
Coeficiente de determinación

 Coeficiente de determinación
El coeficiente se puede explicar en términos porcentuales (%) e indica la
variabilidad que tiene la variable dependiente (Y) que fue captada o
explicada en forma lineal por la variable independiente (X1)

0  R2  1

Criterio: entre más cerca del 100% es mejor el modelo o bien entre más
cerca del 1 es mejor
Prueba de significancia

 Análisis de varianza (prueba de significancia con la F de Fisher)

Y   0  1 X 1
Esta prueba de hipótesis sirve para saber si el modelo es estadísticamente
significativo. En otras palabras, se trata de probar que β1≠0, ya que de lo
contrario, significa que las dos variables no están relacionadas

H 0 : 1  0
H1 : 1  0

La prueba anterior se resuelve con el estadístico F de la tabla ANOVA y


con el nivel de significancia (valor p) correspondiente a ese estadístico

Si el nivel de sig. > .05 => Aceptamos H0


Si el nivel de sig.< .05 => Aceptamos H1 (Rechazamos H0)
Prueba de significancia

 Prueba de significancia de la pendiente (Prueba de significancia con t de


Student)
Y   0  1 X 1
Esta prueba de hipótesis es idéntica, en el modelo lineal simple, a la
prueba F anterior, ya que sirve para comprobar si β1≠0, y de esa forma
concluir que hay una cierta relación entre las variables X1 e Y

H 0 : 1  0
H1 : 1  0
Esta prueba se resuelve con el estadístico t y con el nivel de significancia
(valor p) correspondiente a ese estadístico

Si el nivel de sig. > .05 => Aceptamos H0


Si el nivel de sig. < .05 => Aceptamos H1 (Rechazamos H0)
Uso de la ecuación
Pronósticos
Existen dos tipos de estimación (que en ocasiones se utilizan como
pronósticos de la variable dependiente):
Estimación puntual
Estimación por intervalos

 Estimación puntual. Se calculará sustituyendo el dato de la variable


independiente en la ecuación de regresión dando como resultado un
valor numérico específico para dicho valor.

Si la ecuación es: 
Y  20  2.5 x1

La estimación puntual para X1=3 es:



Y  20  2.5(3)

Y  27.5
Uso de la ecuación
Pronósticos
 Estimación por intervalo de y para valores dados de x
La idea geométrica es la siguiente:

Son intervalos de confianza para cada estimación puntual


Uso de la ecuación
Pronósticos
Para hacer estas estimaciones

se utiliza la desviación estándar de la
distribución muestral de Y  b  b X quedando como resultado final la
0 1 1
siguiente expresión:


1 ( xi  x) 2
Y  ts 
n SCxx
Con _ t _ de _ Student _ con _(n  2) _ grados _ de _ libertad _ y

SCxx  1 ( xi  x) 2
n

s  Error _ típico
xi  valor _ del _ pronóstico
Uso de la ecuación
Pronósticos
Interpretación del coeficiente b1:
1. El signo del coeficiente b1 (+/-) repercute en el comportamiento de la
variable dependiente en la misma magnitud que b1 por cada unidad
adicional 
Suponga la ecuación de regresión anterior: Y  20  2.5 x
1

Si aumentamos en una unidad la variable X1 => va a aumentar la variable


dependiente en la cantidad de 2.5
Ejemplo: 
Y  20  2.5 x1 _ si _ x1  3

Y  27.5
Entonces _ si _ x1  3  1

Y  20  2.5(4)  30
30  27.5  2.5  b1
Uso de la ecuación
Pronósticos
Interpretación del coeficiente b1:
2. La importancia (o peso) de la variable independiente está en relación con
la magnitud o tamaño del coeficiente b1.

Este análisis tiene más importancia cuando se trabaja con un modelo de


regresión múltiple (más de dos variables independientes). Por tanto se
explicará más adelante.
Análisis de regresión
Problemas de aplicación
Problema 1 Aplicación de la regresión al coeficiente beta (β) de una acción.
Definición. Coeficiente beta β es una medida del grado en el cual los
rendimientos de una acción determinada se desplazan con el mercado
de acciones.
En otras palabras…beta es una medida de la volatilidad de una acción en
relación con la de una acción promedio.
Como dicha acción promedio tiene que ir en concordancia con algún índice
de la Bolsa (Ej. Dow Jones, S&P 500, etc.), los valores de los índices
se consideran como la variable independiente y como variable
dependiente puede ser el rendimiento sobre la acción de la empresa
en estudio.
Criterios:
Si la beta = 1 La acción y el mercado se comportan igual
Si beta <1 la acción es menos riesgosa que el mercado
Si beta >1 la acción es más riesgosa que el mercado
Análisis de regresión
Problemas de aplicación
Continuación…
Si la beta de Xerox es de 0.5 entonces la acción de Xerox tendrá únicamente
la mitad de riesgo comparado con una cartera promedio con beta=1. Si
la beta de Xerox es de 2, la acción de Xerox será 2 veces más riesgosa
que una acción promedio del mercado.

Suponga que la beta del mercado de Xerox era de 1.22 (30 de Enero de 2009)
y queremos estimar la beta del mercado de la empresa IBM y hacer
finalmente una comparación entre las dos empresas.

Para ello, las cifras siguientes son diferencias entre rentabilidad porcentual
y rentabilidad libre de riesgo a lo largo de 10 trimestres para S&P 500 y
la empresa IBM

S&P 500 1.2 -2.5 -3.0 2.0 5.0 1.2 3.0 -1.0 0.5 2.5
IBM -0.7 -2.0 -5.5 4.7 1.8 4.1 2.6 2.0 -1.3 5.5
Análisis de regresión
a) Obtenga la ecuación de regresión estimada que sirva para determinar
la beta del mercado de IBM (Y) ¿Cuál es la beta del mercado de esta
empresa? (con su gráfica de dispersión)

b) Empleando el 0.05 como nivel de significancia, pruebe la significancia


de la relación

c) ¿La ecuación de regresión estimada proporciona un buen ajuste?.


Explique

d) Utilice las betas del mercado de Xerox y de IMB para comparar los
riesgos asociados con estas dos acciones.
Análisis de regresión
Se utilizó el excel para la regresión lineal, donde X = S&P 500 y Y= IBM

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.685
Coeficiente de determinación R^2 0.470
R^2 ajustado 0.403
Error típico 2.664
Observaciones 10

ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 1 50.26 50.26 7.08 0.029 P-value
Residuos 8 56.78 7.10
Total 9 107.036

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%
Intercepción 0.27 0.90 0.31 0.77 -1.80 2.35 -1.80 2.35
Variable X 1 0.95 0.36 2.66 0.03 0.13 1.77 0.13 1.77
Análisis de regresión
La ecuación de regresión con su gráfica de dispersión es:
Ecuación de regresión de la beta de IBM= 0.95
8

0 S&P 500
-4 -3 -2 -1 0 1 2 3 4 5 6

-2

y = 0.9498x + 0.2747
-4 R² = 0.4695

-6

-8
IBM
Análisis de regresión
a) Obtenga la ecuación de regresión estimada que sirva para determinar la
beta del mercado de IBM (Y) ¿Cuál es la beta del mercado de esta empresa?

Y  0.27  0.95 x1  beta  0.95 _ de _ IBM
b) Empleando el 0.05 como nivel de significancia, pruebe la significancia de
la relación (prueba global e individual coinciden ya que es sólo una variable)

H 0 : 1  0
H1 : 1  0
ANOVA
Si _ 0.029  0.05  es _ significativa  aceptamos _ H1

Pr ueba _ t
Si _ 0.03  0.05  es _ significativa  aceptamos _ H1
Análisis de regresión
c) ¿La ecuación de regresión estimada proporciona un buen ajuste?.
Explique
R  0.470
2

d) Utilice las betas del mercado de Xerox y de IMB para comparar los
riesgos asociados con estas dos acciones.

beta  0.95 _ de _ IBM


beta  1.22 _ de _ Xerox
 Xerox _ es _ más _ riegosa _ comparada _ con
el _ mercado
Regresión lineal simple
Ejemplos
Problema de aplicación 2
Precio Dividendos
En la siguiente tabla se muestra información sobre el precio 464.57 3.64
por acción promedio anual y el dividendo anual de 466.26 3.56
una muestra de 32 empresas que cotizan en bolsa. 464.32 3.54
447.40 3.47
a) Calcular la ecuación de regresión usando el precio de 442.00 3.54
venta como variable a explicar en base al dividendo 486.00 3.49
anual 494.91 3.52
b) Pruebe la significancia de la pendiente 501.64 3.89
511.01 3.83
c) Encuentre el coeficiente de determinación e interprete 537.34 3.91
su significado 532.16 3.85
d) En base a la ecuación de regresión, determine el 529.87 3.82
536.41 3.37
precio por acción para una empresa que tenga un 532.80 4.35
dividendo anual de 5.6% 543.05 4.45
566.40 4.41
566.80 4.36
Nota: solicite los intervalos de estimación del coeficiente de 571.70 4.63
la variable x para niveles de confianza del 95% (automático) 576.50 4.72
y para el 99% y comente ambos resultados. 599.50 4.77
612.79 5.15
Nota: Solicite también el análisis de residuales para su
612.49 5.20
explicación
Regresión lineal simple
Solución: Ejemplos
a) Calcular la ecuación de regresión

usando el precio de venta como variable a explicar en
base al dividendo anual Y  196.41  81.34 x1
b) Pruebe la significancia de la pendiente: valor-p = 0<0.05 => Aceptamos H1 ; H1 : 1  0
c) Encuentre el coeficiente de determinación e interprete su significado R 2  0.79
d) En base a la ecuación de regresión, determine el precio por acción para una empresa que
tenga un dividendo anual de 5.6% 
Y  196.41  81.34(5.6)  651.91
Comente los límites inferiores y superiores del 95% y 99%
Resumen

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.89
Coeficiente de determinación
R^2 0.79
R^2 ajustado 0.78
Error típico 24.21
Observaciones 22.00

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 44994.21 44994.21 76.76 0.00
Residuos 20 11723.02 586.15
Total 21 56717.23

Inferior Superior
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% 99.0% 99.0%
Intercepción 196.41 38.09 5.16 0.00 116.95 275.88 88.03 304.80
Dividendos 81.34 9.28 8.76 0.00 61.97 100.70 54.92 107.75
Regresión lineal simple
Ejemplos
Análisis de residuales para su explicación:
 
Análisis de los
residuales Y ei  yi  yi

Pronóstico Ecuación de regresión


Observación Precio Residuos 650.00
1 492.15 -27.58
y = 81.336x + 196.41
2 485.97 -19.71 R² = 0.7933
3 484.34 -20.02 600.00

Precio de venta por acción


4 478.32 -30.92
5 484.42 -42.42
6 480.27 5.73 550.00
7 482.72 12.19
8 512.65 -11.01 Series1
500.00
9 507.85 3.16 Linear (Series1)
10 514.44 22.90
11 509.56 22.60 450.00
12 507.12 22.75
13 470.60 65.81
14 550.22 -17.42 400.00
15 557.95 -14.90 3.00 4.00 5.00 6.00
16 555.27 11.13 Dividendos anuales
17 550.63 16.17
18 572.67 -0.97
19 580.16 -3.66
20 583.98 15.52
21 615.29 -2.50
22 619.36 -6.87
Regresión lineal simple
Ejemplos
Problema de aplicación 3.
El gerente de un banco desea saber si puede considerar
que el ahorro de los inversionistas (variable y)
depende de sus ingresos (variable x)
1. ¿Qué tan fuerte es la relación entre las variables ingreso
X Y
y ahorro? Ingresos Ahorros
2. Calcule la ecuación de regresión para los datos de la 11 0.5
muestra de los 10 inversionistas en base a su ingreso 14 1.1
y ahorro 12 0.9
9 0.6
3 ¿Qué tanto el ahorro es explicado por el ingreso?
13 1.2
4. ¿Cuál es el pronóstico de ahorro para un inversionista 13 0.9
que tiene un ingreso de 18? y de ser posible calcule la 15 1.5
estimación por intervalo del ahorro (y) para el valor 17 1.3
x=18 con un nivel de confianza del 95% 15 1.1
13 0.7
5. Realiza la prueba de significancia de la pendiente con la
prueba t
Regresión lineal simple
Respuestas: Ejemplos
1. ¿Qué tan fuerte es la relación entre las variables ingreso y ahorro? rxy  0.81
2. Calcule la ecuación de regresión para los datos de la muestra de los 10 inversionistas en base a
su ingreso y ahorro 
Y  0.54  0.11x1
3 ¿Qué tanto el ahorro es explicado por el ingreso?
2
R  0.66
4. ¿Cuál es el pronóstico de ahorro para un inversionista que tiene un ingreso de 18?

Y  0.54  0.11(18)  1.44
5. Realiza la prueba de significancia de la pendiente con la prueba t
Como el valor-p = 0.00<0.05 => Aceptamos H1 => H : 0 1 1
Estadísticas de la regresión

Coeficiente de correlación múltiple 0.81

Coeficiente de determinación R^2 0.66


R^2 ajustado 0.61
Error típico 0.20
Observaciones 10.00

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 0.60 0.60 15.35 0.00
Residuos 8 0.31 0.04
Total 9 0.916

Coeficiente Inferior Superior


s Error típico Estadístico t Probabilidad Inferior 95% Superior 95% 95.0% 95.0%
Intercepción -0.54 0.39 -1.37 0.21 -1.44 0.37 -1.44 0.37
Ingresos 0.11 0.03 3.92 0.00 0.05 0.18 0.05 0.18
Regresión lineal simple
Ejemplos
Si la estimación puntual para x= 18 es:

Y  0.54  0.11(18)  1.44
Recordemos que la fórmula para la estimación por intervalo es:


1 ( xi  x ) 2
Y  ts 
n SCxx
t _ de _ Student _ con _(n  2) _ grados _ de _ libertad _ y
95% _ de _ nivel _ de _ confianza _ es _  2.306 _(excel )
s  Error _ típico  0.20 _( salida _ de _ excel )

SCxx  1 ( xi  x) 2  45.6 _(cálculo _ en _ excel )
n


( xi  x) 2  (18  13.2) 2  10.24

Sustituyendo tenemos:
1 (18  13.2) 2
1.44  (2.306)(0.20) 
10 45.6
Regresión lineal simple
Ejemplos
Desarrollando tenemos…
1 (18  13.2) 2
1.44  (2.306)(0.20) 
10 45.6
1 23.04
1.44  0.4612 
10 45.6
27.6 X Y
1.44  0.4612 Ingresos Ahorros
45.6 11 0.5
1.44  0.3588 14 1.1
12 0.9
(1.0812,1.7988) 9 0.6
Conclusión: 13 1.2
Se estima, con una confianza del 95% de estar en lo 13 0.9
correcto, que para un inversionista con un 15 1.5
17 1.3
ingreso de 18, su nivel de ahorro estará entre 15 1.1
1.0812 y 1.7988 o bien (1.1 y 1.8) 13 0.7
Variable Estimación Estimación por intervalo
independiente puntual Lim inf. Lim. sup
x y 95% 95%
18 1.44 1.1 1.8
Modelo lineal múltiple
En el caso de dos variables o más independientes y una dependiente la
ecuación que se propone es:
Y   0  1 X 1   2 X 2   3 X 3  ...   k X k

La solución al modelo anterior es estimar los valores de: 1 ,  2 ,  3 ,...,  k



La solución se escribe como: Y  b0  b1 X 1  b2 X 2  ...  bk X k
b0 _ es _ un _ estimador _ de _  0
b1 _ es _ un _ estimador _ de _ 1
.................................................
bk _ es _ un _ estimador _ de _  k
En Excel se realiza con el complemento de “Análisis de datos”:
Modelo lineal múltiple

En el caso de dos variables independientes y una dependiente una


interpretación geométrica de la ecuación de regresión es un plano en el
espacio:
Estimación de los coeficientes
Idea idéntica a la regresión simple, pero para cada uno de los coeficientes
βi
Interpretación: P( Lím _ inf   i  Lím _ sup)  0.95
i Desconocido
Coeficiente de determinación ajustado

 Coeficiente de determinación ajustado


El coeficiente se puede explicar en términos porcentuales (%) e indica la
variabilidad que tiene la variable dependiente (Y) que fue captada o
explicada en forma lineal por la variables independientes (Xi)

0  Rajustado  1
2

Criterio: entre más cerca del 100% es mejor el modelo o bien entre más
cerca del 1 es mejor
Prueba de significancia
 Análisis de varianza (prueba de significancia con la F de Fisher)

Y  0  1 X 1   2 X 2  3 X 3  ...   k X k
Esta prueba de hipótesis sirve para saber si el modelo es estadísticamente
significativo. En otras palabras, se trata de probar que al menos una βi≠0,
ya que si todas las βi=0, eso significa que ninguna variable Xi está
relacionada con Y, por tanto ninguna variable es útil.

Lo anterior, es equivalente a probar la siguiente hipótesis en el caso de


regresión múltiple:

H 0 : 1   2   3  ...   k  0
H1 : al _ menos _ una _  i _ es _  0
La prueba anterior se resuelve con el estadístico F de la tabla ANOVA y
con el nivel de significancia (valor p) correspondiente a ese estadístico
Si el nivel de sig. > .05 => Aceptamos H0
Si el nivel de sig.< .05 => Aceptamos H1 (Rechazamos H0)
Prueba de significancia
 Prueba de significancia de la pendiente (Prueba de significancia con t de
Student)
Y  0  1 X 1   2 X 2  3 X 3  ...   k X k
En el caso de regresión múltiple, sirve para corroborar si cada βi≠0 para la
variable Xi, menos la constante.
Si alguna βi=0, esto significa que la variable Xi correspondiente no tiene
relación con Y
Se realizan k pruebas, una para cada coeficiente:

H 0 : i  0
H1 :  i  0
La prueba anterior se resuelve con el estadístico t y con el nivel de
significancia (valor p) correspondiente a ese estadístico para cada una de
las variables Xi
Si el nivel de sig. > .05 => Aceptamos H0
Si el nivel de sig.< .05 => Aceptamos H1 (Rechazamos H0)
Multicolinealidad
Multicolinealidad. Es un problema que se debe evitar y se presenta cuando
las variables independientes están altamente correlacionadas.

Existen varios caminos para comprobar si existe o no multicolinealidad.


Entre ellos están por ejemplo:

Correlación entre variables independientes


Detección de Factor de inflación de la varianza
multicolinealidad Cambios en los signos en los coeficientes
Análisis de componentes principales
Prueba F y t se contradicen
Multicolinealidad
Correlación entre variables independientes:

La correlación entre las variables independientes X´s se denota por:

Rij
Donde Rij muestra la correlación bivariada entre la variable Xi y la variable
Xj y mide la dependencia lineal entre las variables. En los modelos de
regresión múltiple se desea que no existan fuertes relaciones lineales
entre las variables

Recordemos que:  1  Rij  1 o en valor absoluto: Rij  1


Regla práctica para detectar fuerte correlación entre Xi y Xj:

Existen problemas de multicolinealidad si: Rij  0.70


Multicolinealidad
Ejemplo de matriz de correlaciones: Los siguientes datos se obtuvieron de una
muestra de 9 empresas de la revista Expansión en 2011. Suponga ventas como
variable dependiente y las restantes como variables independientes.
¿Cuales variables deberán ir en el modelo para evitar multicolinealidad?
Ventas (mdp) Activo Pasivo Patrimonio Núm. de
empleados
Ventas (mdp) 1

Activo 0.661695352 1

Pasivo 0.748428863 0.95441734 1

Patrimonio -0.377170258 0.02172925 -0.27766612 1

Núm. se 0.520962336 0.14659829 0.1148404 0.08718297 1


empleados

Usando el criterio: Rij  0.70 , sólo para las variables independientes.

Se elimina la variable: Activo, ya que tiene fuerte correlación con Pasivo


Y entre la variable dependiente y las independientes…¿cuál se elimina?
Se elimina la variable: Patrimonio ya que tienen poca correlación con las
ventas….¿cuáles entrarían al modelo con esta eliminación?
Análisis de residuales (errores)
Es necesario recordar que los residuales proporcionan la mejor
información para estimar los errores ε .
Los residuales son la diferencia entre el dato real y el dato pronosticado.
Los residuales se utilizan para verificar varios supuestos de los errores del
modelo 
 e  y  y
i i i
De estos datos se
verifican los supuestos

Ejemplo en una base de datos:


 
x1 x2 x3 yi yi  Pr ed ei  resid zy i zresid

ei  yi  yi


y  b0  b1 x1  b2 x2  b3 x3
Análisis de residuales (errores)
Los métodos para analizar los residuales se dividen en dos:
a) Métodos gráficos (estos son los que veremos)
b) Métodos analíticos

Los supuestos de los errores se verifican utilizando los residuales y son:

1. Los errores deben sumar cero (o casi cero por redondeo)


2. Los errores deben seguir una distribución normal

 2
e  N (   0,  e cte.)

3. Los errores deben ser independientes, ei y ej para todo i, j


Análisis de residuales (errores)
Utilizando la salida de excel muestra las siguientes columnas:
Observación Pronóstisco Residuos Residuos Percentil (Ordenada
estandariza de menos a
dos más)

yi  Pr ed ei  resid zresid yi

1. Verificar que los errores deben sumar cero ( o casi cero) es sumando la
columna:
ei  resid
2. Verificamos normalidad: Dibujamos un histograma de los residuos
Frecuencia

ei  resid

Excel
Análisis de residuales (errores)
Otra forma de verificar normalidad es a través del gráfico de probabilidad
normal (Gráfica p-p). Excel muestra la gráfica como sigue:
yi o
ooo
yi o
oo
Gráfica del ideal: o
Sobre o junto a la línea o oo o
p
o
Muestra percentil o o o o p

Muestra percentil

yi
Ejemplo de no normalidad: o o o oo
Gráfica con sesgo positivo
o
Gráfica con sesgo negativo o
p
Lo que implica que los errores no son normales o
Muestra percentil
Análisis de residuales (errores)
Por último una forma de verificar la varianza constante y la independencia
de los errores es con la gráfica de los residuales (Excel no la da de forma
automática con regresión) se tiene que elaborar

La gráfica de los residuales sirve para verificar si no hay algún patrón y si


los números positivos son similares al los números negativos.

zresid
o o o Los residuales deben estar
o distribuidos más o menos de
o
o o o forma aleatoria (+ y -)
o
o o o o (independencia), y si existe una
o o o línea paralela => hay varianza
 constante (homocedasticidad)
zy i
Análisis de residuales (errores)
Veamos ejemplos donde no se cumple la varianza constante
(homocedasticidad) zresid o
Hay o
Abanico: oo o 
heterocedasticidad o zy i
o
o o
No lineal:
zresid
o oo
Hay
o o o
heterocedasticidad o o o 
zy i
o o
Varianza no constante: o oo
o
zresid o o oo
Hay
o o
o oo
heterocedasticidad
o o o oo 
oo zy i
Análisis de residuales (errores)

Veamos ejemplos donde no se cumple la independencia de los residuales

zresid Ejemplo donde los errores no son


o independientes: hay algún tipo de
o o
o o o patrón ( lineal, no lineal, etc.)
o o
o o o oo
o
oo 
zy i
Análisis de residuales (errores)
Nota: si los datos son de corte longitudinal, es decir, datos
cronológicamente acomodados en el tiempo, una de las formas para
verificar la independencia de los errores es utilizando el estadístico
Durbin-Watson con el siguiente criterio:

En definitiva, ei y ej son independientes si el DW está cerca de 2

Forma de verificarlo:

Nota: Los valores de la DW son: 0 < DW < 4


La regla es:

a) Si DW es cercano a 2 => Los errores no están correlacionados

b) Si DW es mucho menor a 2 => Están positivamente correlacionados

c) Si DW es mucho mayor a 2 => Están negativamente correlacionados


Uso de la ecuación
Pronósticos
Existen dos tipos de estimación:
Estimación puntual
Estimación por intervalos

 Estimación puntual. Se calculará sustituyendo los datos de cada una de


las variables en la ecuación de regresión dando como resultado un
valor numérico específico para dichos datos.

Si la ecuación es:

Y  20  2.5 x1  4.6 x2  4.27 x3
La estimación puntual para X1=1, X2=3 y X3=1.5 es:


Y  20  2.5(1)  4.6(3)  4.27(1.5)  20  2.5  13.8  6.405

Y  42.705
Uso de la ecuación
Pronósticos

 Estimación por intervalos. La idea geométrica es la siguiente:

Son intervalos de confianza para cada estimación puntual


Uso de la ecuación
Pronósticos
Interpretación de los coeficientes b1, b2,… bk
1. Similar al modelo lineal pero para cada variable: el signo de cada
coeficiente bi (+/-) impacta en el comportamiento de la variable
dependiente Y en la misma magnitud que bi por cada unidad adicional
(dejando todo lo demás constante)
Suponga que la ecuación de regresión siguiente se establece con
coeficientes tipificados (todos expresados en las mismas unidades y por
tanto no hay término independiente):

Suponga que ZY  0.20 x1  0.50 x2  0.98 x3
X1 = 1 
X2 = 3 ZY  0.20(1)  0.50(3)  0.98(2)  0.66
X3 = 2 
Si aumentamos en una unidad la variable X2 = 3+1 => baja ZY por el signo
negativo y en la cantidad del coeficiente de X2 ( -0.50)

ZY  0.20(1)  0.50(4)  0.98(2)  0.16

ZY  0.66  0.50  0.16
Uso de la ecuación
Pronósticos

Interpretación de los coeficientes b1, b2,… bk


2. La importancia (o peso) de cada variable independiente está en
relación con la magnitud del coeficiente normalizado o estandarizado
de la ecuación de regresión

Suponga la misma ecuación de regresión con coeficientes tipificados:



ZY  0.20 x1  0.50 x2  0.98 x3
¿Cuál de las tres variables es la más importante?

x3 _ ya _ que _ 0.98 _ es _ la _ magnitud _ mayor


Regresión lineal múltiple
Ejemplos
Problema de aplicación 1.
Considere los datos de un grupo de 9
tiendas donde se plantea la
posibilidad de describir las ventas
en función de dos variables: gasto Gasto Núm.
publicitario y número de Ventas Publicitario vendedores
vendedores 150 100 10
146 12 15
1. Calcule la ecuación de regresión para
280 180 17
describir las ventas con las dos
389 240 18
variables
378 220 29
2 ¿Qué tanto las ventas son explicadas 450 300 26
por el gasto publicitario y el 450 360 28
número de vendedores? 360 200 36
3. ¿Cuál es el pronóstico de las ventas 470 380 28
para un gasto de 400 con 30
vendedores?
4. Realiza las pruebas de significancia
de la pendiente con análisis de
varianza y las pruebas t
Regresión lineal múltiple
Ejemplos
Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.97
Coeficiente de
determinación R^2 0.94
R^2 ajustado 0.92
Error típico 34.06
Observaciones 9

ANÁLISIS DE VARIANZA
Promedio de Valor
Grados de Suma de los crítico
libertad cuadrados cuadrados F de F
115701.02
Regresión 2 1 57850.510 49.863 0.000
Residuos 6 6961.201 1160.200
122662.22
Total 8 2

Coeficient Inferior Superior Inferior Superior


es Error típico Estadístico t Probabilidad 95% 95% 95.0% 95.0%
Intercepción 69.78 35.17 1.98 0.09 -16.26 155.83 -16.26 155.83
Gasto publicitario 0.83 0.13 6.42 0.00 0.51 1.14 0.51 1.14
Núm. de vendedores 3.84 1.83 2.10 0.08 -0.63 8.30 -0.63 8.30
Regresión lineal múltiple
Ejemplos
Resultados con Excel

Análisis de los Resultados de datos de


residuales probabilidad

Pronóstico Residuos
Observación Ventas Residuos estándares Percentil Ventas
1 191.02 -41.02 -1.39 5.56 146
2 137.26 8.74 0.30 16.67 150
3 284.17 -4.17 -0.14 27.78 280
4 337.74 51.26 1.74 38.89 360
5 363.35 14.65 0.50 50.00 378
6 418.15 31.85 1.08 61.11 389
7 475.55 -25.55 -0.87 72.22 450
8 373.63 -13.63 -0.46 83.33 450
9 492.13 -22.13 -0.75 94.44 470
Regresión lineal múltiple
Ejemplos
Resultados con Excel Gráfico de probabilidad normal

600
500

Ventas
400
Esta es la importante: 300
200
100
0
0.00 20.00 40.00 60.00 80.00 100.00
Muestra percentil
Gasto curva de regresión ajustada Vendedores curva de regresión
600 ajustada
500 600
400
Ventas

400

Ventas
300 Ventas
200 200 Ventas
100 Pronóstico
Pronóstico Ventas
0 Ventas 0
0 200 400 0 20 40
gasto vendedores

Gasto Gráfico de los residuales vendedores Gráfico de los residuales


300
300
200
Residuos

Residuos 200
100 100
0 0
0 100 200 300 400 0 10 20 30 40
-100 -100
gasto vendedores
Regresión lineal múltiple
Ejemplos
Respuestas:
1. Calcule la ecuación de regresión para describir las ventas con las dos
variables

Y  69.78  0.83 x1  3.84 x2

2 ¿Qué tanto las ventas son explicadas por el gasto publicitario y el


número de vendedores?

Rajustado  0.92 _ o _ bien _ el _ 92%


2

3. ¿Cuál es el pronóstico de las ventas para un gasto de 400 con 30


vendedores?

Y  69.78  0.83(400)  3.84(30)  69.78  332  115.20

Y  516.98
Regresión lineal múltiple
Ejemplos
Respuestas:
4. Realiza las pruebas de significancia de la pendiente con análisis de
varianza y las pruebas t ….
Prueba global de significancia con al F de análisis de varianza:

H 0 : 1   2  0
Estadístico _ F  49.863
H1 : al _ menos _ una _ es _  0

Nivel _ de _ sig . _ o _ bien


P  value  0.0000 0.05  Re chazamos _ Ho
Prueba de significancia de la pendiente para cada variable independiente
con las pruebas t:
 i _ para _ i  1,2
1 _ para _ gasto _ publicitario : t  6.42
H 0 : i  0
H1 :  i  0 Nivel _ de _ sig . _ o _ bien
P  value  0.000  0.05  Re chazamos _ Ho
Regresión lineal múltiple
Ejemplos
Respuestas:
 2 _ para _ Número _ vendedores : t  2.10
Nivel _ de _ sig . _ o _ bien
P  value  0.08  0.05  Aceptamos _ Ho
Se _ e lim ina _ la _ var iable _ Número _ vendedores

Por tanto la ecuación de regresión queda: Y  121.17  1x1
Resumen

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.95
Coeficiente de determinación
R^2 0.90
R^2 ajustado 0.89
Error típico 41.54
Observaciones 9

Coeficie Estadístico Probabilid Superior Inferior Superior


ntes Error típico t ad Inferior 95% 95% 95.0% 95.0%
Intercepción 121.17 30.80 3.93 0.01 48.33 194.01 48.33 194.01
Gasto Publicitario 1.00 0.12 8.01 0.00 0.70 1.29 0.70 1.29
Regresión lineal múltiple
Ejemplos
Análisis de la matriz de correlaciones:
Gasto Num.
Ventas Publicitario vendedores
Ventas 1
Gasto
Publicitario 0.95 1
Num.
vendedores 0.74 0.61 1

¿Se llega al mismo resultado?

Existen problemas de multicolinealidad si: Rij  0.70

Rij  0.61 _ está _ cerca _ de _ 0.70


Se _ podría _ e lim inar _ Núm. _ vendedores
lo _ que _ implica _ mismo _ resultado
Regresión lineal múltiple
Ejemplos
Problema de aplicación 2.
Los siguientes valores son algunos de los datos representativos de 9
empresas importantes de México en el año 2011, del listado de las
500 empresas más importantes de México, que cada año publica la
revista Expansión.
Encuentre la ecuación de regresión utilizando las ventas como variable
dependiente y el resto como variables independientes. Revise para
ellos los puntos básicos: pruebas de significancia, multicolinealidad,
etc.

Empresa País Ventas (MDP) Activo Pasivo Patrimonio N. de empleados


Pemex Mx 1282064.3 1392715.3 1506498.7 -113783.4 147672
América Móvil Mx 607855.7 876694.5 540657.4 336037.2 150618
Walmart de México EU 335857.4 194807.6 71948 122859.6 219767
CFE Mx 254417.3 841202.3 488545.5 352656.8 93254
Cemex Mx 178260 515097 301397 213700 46523
Fomento Económico Méxicano Mx 169701.8 223578.4 70565.3 153013.1 108572
General Motors de México EU 158692 55191 42073 13112 12000
Grupo Alfa Mx 136395 112255 76014 36241 56332
BBVA Bancomer Esp 121910 1114171 987910 126261 34189
Regresión lineal múltiple
Ejemplos
Respuestas…
Encuentre la ecuación de regresión utilizando las ventas como variable
dependiente y el resto como variables independientes.

Y  164075.22  44158.66 x1  44158.12 x2  44159.04 x3  3.17 x4
Resumen

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.92
Coeficiente de determinación
R^2 0.84
R^2 ajustado 0.68
Error típico 215111.96
Observaciones 9

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico de
libertad cuadrados cuadrados F F
Regresión 4 9.54724E+11 2.38681E+11 5.16 0.07
Residuos 4 1.85093E+11 46273153947
Total 8 1.13982E+12

Coeficiente Superior Inferior Superior


s Error típico Estadístico t Probabilidad Inferior 95% 95% 95.0% 95.0%
Intercepción -164075.22 228396.49 -0.72 0.51 -798205.53 470055.08 -798205.53 470055.08
Activo 44158.66 50106.69 0.88 0.43 -94959.82 183277.14 -94959.82 183277.14
Pasivo -44158.12 50106.62 -0.88 0.43 -183276.40 94960.15 -183276.40 94960.15
Patrimonio -44159.04 50106.44 -0.88 0.43 -183276.81 94958.72 -183276.81 94958.72
N. de empleados 3.17 1.30 2.45 0.07 -0.43 6.77 -0.43 6.77
Regresión lineal múltiple
Respuestas… Ejemplos
Hay problemas: las pruebas de significancia t se aceptarían H0 todas y la F también
H1 :  i  0
Revisemos posibles problemas de multicolinealidad
Excel/datos/análisis de datos/ análisis de correlaciones.
Ventas N. de
(MDP) Activo Pasivo Patrimonio empleados
Ventas (MDP) 1
Activo 0.661695352 1
Pasivo 0.748428863 0.954417338 1
- -
Patrimonio 0.377170258 0.021729251 0.277666121 1
N. de
empleados 0.520962336 0.146598294 0.114840397 0.087182968 1

Usando el criterio: Rij  0.70 , sólo para las variables independientes.


Se elimina la variable: Activo, ya que tiene fuerte correlación con Pasivo
(multicolinealidad)
Y entre la variable dependiente y las independientes…¿cuál se elimina?
Se elimina la variable: Patrimonio ya que tienen poca correlación con las
ventas….¿cuáles entrarían al modelo con esta eliminación?
Respuesta: Ventas en función de Pasivo y N. de empleados
Regresión lineal múltiple
Ejemplos
Regresión de ventas en función de Pasivo y N. de empleados:

Y  164147.541  0.52283649 x2  2.47935207 x4
Se mejoraron las pruebas t y también la prueba de significancia F. Quizás
se podría eliminar la variable N. de empleados también.
Resumen

Estadísticas de la regresión
Coeficiente de
correlación múltiple 0.87
Coeficiente de
determinación R^2 0.75
R^2 ajustado 0.67
Error típico 217093.03
Observaciones 9

ANÁLISIS DE
VARIANZA
Grados de Promedio de los Valor crítico
libertad Suma de cuadrados cuadrados F de F
Regresión 2 8.5704E+11 4.2852E+11 9.092 0.015
Residuos 6 2.82776E+11 47129383044
Total 8 1.13982E+12

Superior Inferior Superior


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95.0% 95.0%
235575.721
Intercepción -116147.5414 143741.6975 -0.81 0.45 -467870.8046 8 -467870.8046 235575.7218
0.89812210
Pasivo 0.52283649 0.15337112 3.41 0.01 0.147550879 1 0.147550879 0.898122101
5.29643986
N. de empleados 2.47935207 1.151282911 2.15 0.07 -0.337735729 9 -0.337735729 5.296439869
Suerte en sus próximos
cursos

FIN

También podría gustarte