Trabajo Final Estadistica
Trabajo Final Estadistica
Trabajo Final Estadistica
PRINCIPIOS ESTADISTICOS
TRABAJO FINAL
202330975
INTRODUCCIÓN
En el presente trabajo encontrara los temas visto durante el semestre, los cuales fueron de mucha
ayuda para poder llevar desarrollar mejor las clases y así poder aprender más sobre estadística.
ESTADISTICA: DESCRIPTIVA E INFERENCIAL.
Estadistica descriptiva
La estadística descriptiva se aplica en una amplia variedad de campos y áreas de estudio para
comprender, resumir y presentar datos. Algunas de las áreas de aplicación más comunes incluyen:
La estadística inferencial se utiliza en una amplia gama de campos y áreas de estudio para realizar
inferencias, tomar decisiones y hacer predicciones basadas en datos muestrales. Algunas de las áreas de
aplicación más comunes de la estadística inferencial incluyen:
Población.
Por ejemplo, si estás realizando un estudio sobre la altura de todos los estudiantes de una escuela en
particular, la población en este caso sería el conjunto de todos los estudiantes de esa escuela. Si estás
analizando la calidad de todos los productos manufacturados en una fábrica durante un año, la
población sería el conjunto de todos los productos fabricados en ese período. En algunos casos, la
población puede ser infinita, como cuando se estudian todos los números naturales.
En la práctica, puede ser difícil o costoso recopilar datos de toda una población, especialmente cuando
la población es grande o infinita. Por lo tanto, en muchos casos, los estadísticos trabajan con muestras,
que son subconjuntos representativos de la población. A través del análisis de muestras, se hacen
inferencias y se generan conclusiones que se aplican a la población en su conjunto. La estadística
inferencial se utiliza para este propósito.
Las muestras se seleccionan de manera que sean representativas de la población objetivo, lo que
significa que deberían reflejar de manera precisa las características y variaciones de la población en
cuestión. Esto se hace para garantizar que las conclusiones basadas en la muestra puedan generalizarse
con cierto grado de certeza a la población completa.
La estadística inferencial se utiliza para realizar inferencias basadas en los datos de la muestra y
extender estas inferencias a la población más amplia. Algunos de los objetivos comunes al trabajar con
muestras incluyen estimar parámetros poblacionales, realizar pruebas de hipótesis, calcular intervalos
de confianza y tomar decisiones basadas en datos limitados pero representativos.
Tema 4: Métodos de muestreo
Métodos de muestreo.
es el proceso de seleccionar un subconjunto de elementos de una población más grande con el fin de
realizar inferencias sobre la población completa. Existen varios métodos de muestreo, y la elección del
método adecuado depende de los objetivos de la investigación, la disponibilidad de recursos y la
naturaleza de la población. A continuación, te presento algunos métodos de muestreo comunes:
Muestreo aleatorio simple (MAS): En este método, cada elemento de la población tiene la
misma probabilidad de ser seleccionado. Se suele utilizar cuando la población es homogénea y
se pueden identificar fácilmente los elementos.
Muestreo estratificado: En este enfoque, la población se divide en subgrupos o estratos
homogéneos en función de una característica relevante (por ejemplo, edad, género, ingresos).
Luego, se realiza un muestreo aleatorio simple dentro de cada estrato. Este método garantiza
que cada estrato esté representado en la muestra.
Muestreo por conglomerados: En lugar de seleccionar elementos individuales, se seleccionan
grupos o conglomerados de elementos. Los conglomerados se eligen de manera aleatoria y se
realiza un muestreo completo o parcial de los elementos dentro de los conglomerados
seleccionados. Este método es útil cuando no es práctico o económicamente viable seleccionar
elementos individuales.
Muestreo sistemático: En este método, se elige un elemento de la población al azar y luego se
seleccionan otros elementos a intervalos regulares. Por ejemplo, si se está muestreando una
lista de clientes, se podría seleccionar un cliente al azar y luego tomar cada k-ésimo cliente en la
lista.
Muestreo por conveniencia: Este método implica seleccionar elementos que son más fáciles de
acceder o que están disponibles de manera conveniente. No es un método de muestreo
probabilístico y puede introducir sesgos en la muestra.
Muestreo por juicio: En este método, el investigador utiliza su juicio para seleccionar elementos
que representen la población. Al igual que el muestreo por conveniencia, puede ser sesgado y
no se basa en probabilidades.
Muestreo estratificado proporcional: En este enfoque, se elige un número fijo de elementos de
cada estrato, pero el tamaño de cada estrato en la muestra se ajusta en proporción al tamaño
de la población total.
Muestreo por cuotas: Similar al muestreo estratificado, se seleccionan elementos de acuerdo
con ciertas cuotas predefinidas, generalmente basadas en características demográficas, hasta
que se alcancen las cuotas deseadas.
Los tipos de datos y escalas de medida son herramientas utilizadas en estadística y ciencias sociales para
clasificar y medir diferentes tipos de variables. Hay cuatro escalas de medida principales: nominal,
ordinal, intervalo y razón. Cada una de ellas tiene características específicas que determinan la forma en
que los datos pueden ser analizados. Aquí te presento una descripción de cada una de ellas:
Escala Nominal:
- En esta escala, las categorías se utilizan para clasificar o etiquetar los datos.
- Ejemplos de datos nominales incluyen el género (masculino, femenino), el estado civil (soltero,
casado, divorciado), la nacionalidad, etc.
Escala Ordinal:
- En esta escala, las categorías se utilizan para clasificar los datos, al igual que en la escala nominal.
- Sin embargo, en la escala ordinal, las categorías tienen un orden específico, pero las diferencias entre
ellas no son igualmente significativas.
- Ejemplos de datos ordinales incluyen la satisfacción del cliente (muy insatisfecho, insatisfecho,
neutral, satisfecho, muy satisfecho) y la clasificación socioeconómica (baja, media, alta).
Escala de Intervalo:
- En esta escala, las categorías tienen un orden específico y las diferencias entre ellas son igualmente
significativas.
- Sin embargo, el punto cero en esta escala no es un valor absoluto, lo que significa que no tiene un
significado cero absolutos.
- Ejemplos de datos de intervalo incluyen la temperatura en grados Celsius y Fahrenheit. En estas
escalas, 0°C y 0°F no representan la ausencia de temperatura, sino que son puntos de referencia
específicos.
Escala de Razón:
- En esta escala, las categorías tienen un orden específico, las diferencias entre ellas son igualmente
significativas y existe un punto de referencia absoluto (un valor de cero absolutos) que indica la ausencia
de la característica medida.
- Ejemplos de datos de razón incluyen la edad, el ingreso, la longitud, el peso y el tiempo. En estas
escalas, un valor de cero representa la ausencia total de la característica medida.
Las escalas de medida desempeñan un papel importante en la elección de las técnicas estadísticas
adecuadas para analizar los datos. Por ejemplo, se pueden realizar operaciones matemáticas más
avanzadas en datos de intervalo y razón que en datos nominales y ordinales. Es importante comprender
la escala de medida de tus datos antes de realizar análisis estadísticos para garantizar que los resultados
sean válidos y significativos.
Tema 6: Recopilación de datos estadísticos.
- Antes de empezar, es fundamental tener claridad sobre el objetivo de la recopilación de datos. ¿Qué
información estás buscando obtener? ¿Qué preguntas deseas responder? Definir tus objetivos te
ayudará a determinar qué datos necesitas recopilar.
- Identifica de dónde obtendrás los datos. Esto puede incluir encuestas, cuestionarios, observaciones,
bases de datos existentes, registros gubernamentales, mediciones experimentales, etc.
- Lleva a cabo el proceso de recopilación de datos de acuerdo con tu plan. Esto puede implicar
encuestar a las personas, registrar observaciones, recolectar datos de fuentes secundarias, etc.
Validar y verificar la calidad de los datos:
- Realiza controles de calidad para asegurarte de que los datos sean precisos y consistentes. Esto
incluye la identificación y corrección de errores.
- Asigna códigos numéricos o categorías a los datos recopilados para facilitar su análisis posterior.
- Organiza y almacena los datos de manera que sean fáciles de acceder y consultar.
- Una vez que los datos están recopilados, puedes realizar análisis estadísticos, como cálculos de
frecuencias, medidas de tendencia central, análisis de varianza, regresiones, etc., según los objetivos de
tu estudio.
- Interpreta los resultados de tus análisis para responder a tus preguntas de investigación y extraer
conclusiones significativas.
- Comunica tus hallazgos de manera clara y efectiva a través de informes, gráficos, tablas u otros
medios, dependiendo de tu audiencia.
Tablas de frecuencia:
- Una tabla de frecuencia es una forma común de organizar datos en una distribución que muestra la
frecuencia con la que ocurren diferentes valores. Puede ser una tabla de frecuencia simple o una tabla
de frecuencia acumulativa.
- En una tabla de frecuencia simple, los datos se organizan en categorías (clases) junto con la cantidad
de observaciones en cada categoría.
- En una tabla de frecuencia acumulativa, además de mostrar las frecuencias, se incluyen las
frecuencias acumuladas, que representan la suma de las frecuencias hasta un punto específico.
Histogramas:
- Un histograma es una representación gráfica de una distribución de datos. Los datos se dividen en
intervalos o clases, y se representa la frecuencia de cada intervalo mediante barras.
- Los histogramas son útiles para visualizar la forma de la distribución, la tendencia central y la
dispersión de los datos.
Gráficos de barras:
- Los gráficos de barras son otra forma común de organizar y representar datos. En un gráfico de
barras, las categorías se muestran en el eje horizontal y las alturas de las barras representan las
frecuencias o valores.
Gráficos de sectores:
- Los gráficos de sectores (o gráficos circulares) son útiles para representar proporciones o porcentajes
de un conjunto de datos.
- Cada sector del gráfico de sectores representa una categoría y su tamaño es proporcional a la
frecuencia o proporción correspondiente.
Tablas de contingencia:
- Las tablas de contingencia son una forma de organizar datos cuando se están comparando dos o más
variables categóricas.
- Permiten observar la relación entre las variables al mostrar cómo se distribuyen las observaciones en
las diferentes combinaciones de categorías.
- Para datos cuantitativos, es común organizarlos en tablas de frecuencia, histogramas, gráficos de caja
y bigotes (box plots) o gráficos de dispersión.
- Los gráficos de caja y bigotes son útiles para visualizar la distribución, los valores atípicos y la
tendencia central de los datos.
- Los gráficos de dispersión son útiles cuando se desean explorar relaciones entre dos variables
cuantitativas.
Tablas:
- Las tablas son una forma organizada y concisa de presentar datos. Pueden incluir información
descriptiva, valores numéricos y estadísticas resumidas.
- Las tablas son ideales para mostrar datos detallados y permiten comparar diferentes categorías o
grupos.
Gráficos:
- Los gráficos son herramientas visuales poderosas para representar datos. Algunos tipos comunes de
gráficos incluyen:
- Gráficos de dispersión: útiles para mostrar relaciones entre dos variables cuantitativas.
- Estos gráficos son excelentes para mostrar la distribución y la variabilidad de datos cuantitativos, así
como para identificar valores atípicos.
Diagramas de dispersión:
- Los diagramas de dispersión son útiles cuando se quiere explorar y visualizar las relaciones entre dos
variables cuantitativas. Cada punto en el gráfico representa una observación.
Mapas temáticos:
- Si tus datos están geográficamente relacionados, los mapas temáticos son una excelente forma de
presentar datos espaciales. Puedes utilizar diferentes colores o sombreados para resaltar patrones
geográficos.
Gráficos de control:
- Estos gráficos se utilizan en el control de calidad y procesos industriales para mostrar si un proceso
está dentro de límites de control establecidos.
Infografías:
- Las infografías combinan gráficos, imágenes y texto para presentar datos de manera visualmente
atractiva y fácil de entender. Son ideales para resumir información clave.
Presentaciones de diapositivas:
Distribución de frecuencias
Una distribución de frecuencias es una herramienta fundamental en estadística que organiza y resume
datos de manera que sea más fácil de comprender y analizar. En una distribución de frecuencias, se
muestran las frecuencias o conteos de cada valor o intervalo de valores en un conjunto de datos. El
proceso de crear una distribución de frecuencias generalmente implica los siguientes pasos:
Identificación de los valores únicos: Para comenzar, se identifican todos los valores únicos en el
conjunto de datos. Esto es especialmente relevante para datos discretos, como edades exactas
o categorías.
Clasificación en intervalos (si es necesario): En el caso de datos continuos, como medidas de
longitud o peso, se pueden agrupar en intervalos o clases para simplificar la distribución. Esto se
conoce como discretización de datos. La elección de los intervalos debe ser significativa y
relevante para los objetivos del análisis.
Conteo de frecuencias: Una vez que los datos se han agrupado o identificado los valores únicos,
se cuentan las frecuencias de ocurrencia de cada valor o intervalo en el conjunto de datos.
Creación de una tabla de frecuencias: Se crea una tabla que muestra los valores (o intervalos) en
una columna y las frecuencias correspondientes en otra. A menudo, se incluyen columnas
adicionales para porcentajes acumulativos o porcentajes de frecuencia.
Las distribuciones de frecuencias son una herramienta esencial para resumir datos y permiten visualizar
patrones, tendencias y características de un conjunto de datos. Además, facilitan el cálculo de
estadísticas descriptivas como la media, la mediana, la moda, y la desviación estándar, lo que es útil para
un análisis más detallado.
Medidas de tendencia central.
Tema 10: Media aritmética
Media aritmética
La media aritmética en estadística es una medida de tendencia central que se utiliza para representar el
valor promedio de un conjunto de datos. Se calcula sumando todos los valores en el conjunto de datos y
luego dividiendo esa suma por la cantidad de valores. La fórmula para calcular la media aritmética se
expresa de la siguiente manera:
Por ejemplo, si tienes un conjunto de datos que contiene las edades de un grupo de personas: 25, 30,
35, 40, y 45 años, puedes calcular la media aritmética de las edades de la siguiente manera:
La media aritmética es una medida importante en estadística porque proporciona un valor central que
representa una especie de "promedio" de los datos. Sin embargo, es importante tener en cuenta que la
media aritmética puede verse afectada por valores atípicos o extremos en el conjunto de datos, lo que
puede distorsionar la representación del valor promedio si no se considera adecuadamente.
Tema 11: Moda
Moda
La moda en estadística es una medida de tendencia central que representa el valor que ocurre con
mayor frecuencia en un conjunto de datos. En otras palabras, la moda es el valor o los valores que
aparecen con la mayor frecuencia en un conjunto de datos. A diferencia de la media aritmética, que
calcula el promedio de todos los valores, y la mediana, que representa el valor que se encuentra en el
centro de un conjunto ordenado, la moda se centra en identificar los valores más comunes o populares
en el conjunto de datos.
La moda es útil para describir la distribución de datos que pueden tener valores repetidos, lo que no se
reflejaría en la mediana o la media. Es una medida simple y fácil de entender, especialmente cuando se
trabaja con datos categóricos o discretos, como colores, números enteros, categorías de productos, etc.
Es importante destacar que un conjunto de datos puede no tener una moda clara si todos los valores
ocurren con la misma frecuencia, o si no hay valores repetidos en absoluto. Por lo tanto, no todos los
conjuntos de datos tienen una moda identificable.
Tema 12: Mediana
Mediana
La mediana en estadística es una medida de tendencia central que representa el valor que se encuentra
en el centro de un conjunto de datos cuando estos se encuentran ordenados de menor a mayor (o de
mayor a menor). Es el valor que divide el conjunto de datos en dos partes iguales: la mitad de los valores
son iguales o menores que la mediana, y la otra mitad son iguales o mayores que la mediana. La
mediana es una medida útil cuando se trabaja con conjuntos de datos que pueden contener valores
atípicos o extremos, ya que no se ve tan afectada por estos valores como la media aritmética.
La mediana es especialmente útil en situaciones en las que la distribución de los datos no es simétrica o
en presencia de valores atípicos, ya que no se ve afectada por valores extremos, a diferencia de la media
aritmética. Además, la mediana es una medida de tendencia central que se puede aplicar tanto a datos
numéricos como a datos ordinales y categóricos.
Tema 13: Media geométrica
Media geométrica
La media geométrica es una medida estadística utilizada para calcular el promedio de un conjunto de
valores positivos. A diferencia de la media aritmética, que se calcula sumando los valores y dividiendo
por la cantidad de valores, la media geométrica se calcula multiplicando todos los valores y luego
sacando la raíz n-ésima del producto, donde "n" es la cantidad de valores en el conjunto.
La media geométrica es especialmente útil cuando se trabaja con valores que representan tasas de
crecimiento, proporciones o factores de escala. Se utiliza en situaciones en las que es importante
considerar el efecto de las tasas de cambio o multiplicativas en lugar de las cantidades absolutas.
Es importante destacar que la media geométrica es menor o igual que la media aritmética, y su valor
tiende a ser más afectado por valores extremos o cercanos a cero en el conjunto de datos, ya que las
operaciones de multiplicación pueden amplificar esos efectos. Por lo tanto, su uso es apropiado en
contextos específicos donde las propiedades multiplicativas son más relevantes.
Tema 14: Media armónica
Media armónica
La media armónica es una medida estadística que se utiliza para calcular el promedio de un conjunto de
valores, pero se diferencia de la media aritmética y la media geométrica en la forma en que se calcula.
La media armónica se utiliza comúnmente para valores que representan tasas, velocidades o
proporciones inversas, y es especialmente útil en situaciones en las que se desea dar más peso a los
valores más pequeños en el conjunto de datos, para calcular la media armónica, primero se suman los
inversos de los valores individuales, y luego se toma el inverso de la media de esos inversos.
La media armónica tiende a ser más baja que la media aritmética y la media geométrica, ya que los
valores pequeños tienen un impacto más significativo en su cálculo. Por lo tanto, es útil cuando se desea
dar más peso a valores pequeños o cuando se trabaja con proporciones inversas o tasas.
En resumen, la media armónica es una medida estadística que se utiliza para calcular el promedio de
valores inversos en un conjunto de datos y es especialmente útil en situaciones donde las proporciones
inversas tienen importancia.
Medidas de dispersión
Tema 15: Recorrido.
Recorrido
En estadística, el término "recorrido" se refiere a la diferencia entre el valor más alto y el valor más bajo
en un conjunto de datos. Es una medida simple de la dispersión o variabilidad de los datos y proporciona
información sobre la amplitud o rango de valores que toma una variable. Para calcular el recorrido de un
conjunto de datos, sigues estos pasos:
El recorrido es una medida útil para tener una idea general de cuán dispersos o variados son los datos.
Sin embargo, no tiene en cuenta la distribución de los valores entre el mínimo y el máximo, por lo que
no proporciona información detallada sobre la forma en que los datos se distribuyen en el rango. Para
obtener una comprensión más completa de la variabilidad de los datos, se suelen utilizar medidas de
dispersión más avanzadas, como la desviación estándar, el rango intercuartílico y otros.
Tema 16: Desviación estándar y varianza
La desviación estándar y la varianza son dos medidas de dispersión o variabilidad que se utilizan en
estadística para evaluar cuán dispersos o agrupados están los datos en un conjunto. Ambas medidas son
importantes para comprender la dispersión de los datos, pero se expresan de manera diferente y
proporcionan información ligeramente diferente:
Varianza:
- La varianza es una medida de la dispersión que representa la media de las diferencias al cuadrado
entre cada valor de un conjunto de datos y la media aritmética de esos valores.
Donde:
Desviación estándar:
- La desviación estándar es una medida de la dispersión que representa la raíz cuadrada de la varianza.
En otras palabras, es la raíz cuadrada de la media de las diferencias al cuadrado entre cada valor y la
media.
Coeficiente de variación
El coeficiente de variación (CV) es una medida estadística que se utiliza para evaluar la variabilidad
relativa de una variable en relación con su media. Es especialmente útil cuando se comparan dos
conjuntos de datos que tienen unidades o escalas de medida diferentes. El CV se expresa como un
porcentaje y se calcula de la siguiente manera:
Donde:
El resultado se multiplica por 100 para expresar el coeficiente de variación como un porcentaje.
En resumen, el coeficiente de variación es una medida útil para expresar la variabilidad relativa de una
variable en comparación con su media, lo que facilita la comparación de la dispersión entre diferentes
conjuntos de datos, independientemente de sus unidades de medida. Un CV más bajo suele indicar una
mayor consistencia o estabilidad en los datos en relación con la media, mientras que un CV más alto
sugiere una mayor variabilidad en relación con la media.
Regresión y Correlación Lineal
Tema 18: Análisis de regresión y correlación
El análisis de regresión y la correlación son dos técnicas estadísticas utilizadas para estudiar la relación
entre dos o más variables. Aunque están relacionados, tienen objetivos y enfoques ligeramente
diferentes:
Análisis de regresión:
- El análisis de regresión se utiliza para modelar y entender la relación entre una variable dependiente
(variable de respuesta) y una o más variables independientes (predictoras o explicativas).
- El objetivo principal del análisis de regresión es predecir o estimar la variable dependiente en función
de las variables independientes.
- El resultado típico del análisis de regresión es una ecuación de regresión que describe la relación
entre las variables.
- Los tipos comunes de análisis de regresión incluyen la regresión lineal, regresión logística, regresión
polinómica, entre otros.
Correlación:
- La correlación se utiliza para medir la relación estadística entre dos variables, sin necesidad de
establecer una relación causal.
En resumen, el análisis de regresión se utiliza para modelar y predecir la relación entre variables,
mientras que la correlación se utiliza para medir la fuerza y dirección de la relación entre variables sin
establecer una relación causal. Ambas técnicas son valiosas en estadística y se utilizan en una variedad
de campos para analizar datos y tomar decisiones informadas.
El proceso general del método de mínimos cuadrados implica los siguientes pasos:
Recopilación de datos: Se obtienen datos de observaciones que se cree que están relacionadas de
alguna manera.
Formulación del modelo: Se elige un modelo matemático que represente la relación entre las
variables. En el caso de la regresión lineal, el modelo toma la forma de una línea recta (y = mx +
b), pero en otros casos, puede ser una función más compleja.
Cálculo de residuos: Se calcula la diferencia entre los valores observados y los valores predichos
por el modelo. Estas diferencias se llaman "residuos" y representan el error entre el modelo y
los datos reales.
Minimización de los cuadrados de los residuos: El objetivo principal del método de mínimos
cuadrados es encontrar los coeficientes del modelo que minimicen la suma de los cuadrados de
los residuos. Esto se hace mediante técnicas de optimización matemática.
Evaluación del ajuste del modelo: Una vez que se han encontrado los coeficientes del modelo,
se evalúa la bondad del ajuste, lo que implica examinar las propiedades estadísticas del modelo,
como los coeficientes de regresión, el coeficiente de determinación (R²) y las pruebas de
hipótesis.
El método de mínimos cuadrados se utiliza comúnmente en el contexto de la regresión lineal, donde se
ajusta una línea recta a los datos para modelar la relación entre una variable dependiente y una o más
variables independientes. Sin embargo, también se aplica en otros tipos de análisis de regresión, como
la regresión polinómica, la regresión logística, entre otros.
En resumen, el método de mínimos cuadrados es una técnica importante para ajustar modelos a datos,
y su objetivo principal es encontrar la mejor representación de una relación minimizando la suma de los
cuadrados de los errores residuales.
Conclusión
En conclusión, estos temas son de mucha importancia para el aprendizaje de los estudiantes ya que
gracias a esto podrán ponerlo en práctica a la hora de realizarlo en su área labora en un futuro.