Science">
Nothing Special   »   [go: up one dir, main page]

Bioestadística Básica

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

Bioestadística Final 2022

Estadística: es una ciencia que da sentido a la información numérica, se mueve en situación de


incertidumbre, efectúa pronósticos y analiza relaciones entre variables.

Trabaja con datos estadísticos (dato estadístico: tiene que cumplir con 3 condiciones: tienen
que poder ser comparados, analizados e interpretados).

Etapas históricas:

 Relevamientos censales: los primeros relevamientos censales se dieron en las primeras


guerras para ver con que elemento humano se contaba para la guerra.
 Calculo de probabilidad: siglo xix se uso para los juegos de azar.
 Estadística moderna: siglo xviii aparecieron leyes creadas por científicos.

Fenómenos:

 Determinísticos-causales: siguen una relación causa-efecto


 Aleatorios o estocásticos: están regidos por el azar. Estos son los que estudia la
estadística.

Población/ universo: conjunto de elementos a los que se refiere un estudio estadístico. Puede
ser finita o infinita.

 Finita: N° determinado de elementos.


 Infinita: N° de elementos ni determinado ni determinable. Está sujeta a modificaciones
periódicas.

Muestra: subconjunto de la población. Debe ser representativa de la población. Puede ser:

 Aleatoria
 Dirigida

Elemento o unidad estadística: es cada uno de los individuos que compone la población

Unidad de muestreo: conjunto de unidades estadísticos tomados para facilitar la elección de la


muestra (ej: barrio)

Muestreo: formas de tomar una muestra. Puede ser:

 Aleatorio simple: los elementos de la población tienen que estar identificados para
poder realizar un sorteo.
 Aleatorio sistemático: se sortea solo el primer elemento de la muestra y luego se
eligen los otros siguiendo un cierto sistema.
 Estratificado: cuando las poblaciones son grandes y no son homogéneas entonces se
divide la población en estratos (categorías) y se eligen elementos de cada estrato.
 Por conglomerado: muy grandes y geográficamente muy distribuidas.

Variables: es una característica del elemento susceptible de cambios. (ej: peso, altura, etc). Se
divide en:

 Cuantitativas: son las que se les puede dar un valor numérico


 Discretas: aquellas que solo toma valores enteros (ej: cantidad de hijos)
 Continuas: pueden tomar cualquier valor dentro de intervalos razonables
(ej:peso)
 Cualitativas: atributos que no se le puede dar valor numérico
 Geográficas: lugar (ej: lugar de procedencia)
 Temporales: tiempo (ej: año de nacimiento)
 Dicotómicas: hay 2 posibilidades (ej: sexo- macho/hembra)
 Propiamente dichas: atributos (ej: color de pelo, raza, nivel de educación)

Censos:

 Instrumento legal
 Normas técnicas
 Parámetros: medidas de población
 Estimadores: medidas de la muestra.

Para que el estudio sea bueno tiene que ser el valor del parámetro y del estimador lo más
parecidos posible.

Clasificación de la estadística:

 Descriptiva: es la técnica matemática que obtiene, organiza, presenta y describe un


conjunto de datos.
 Inductiva o inferencial: métodos o procedimientos por los cuales a partir de una
muestra describe a la población.

Etapas de una investigación descriptiva:

Primero hay que establecer el objetivo, identificación la población, elegir o definir la muestra y
diseñar el muestreo.

1) Recopilación: obtener la información.


Métodos de recopilación:
 De datos internos
 De datos externos publicados
 Encuestas
 Experimentos
 Cuestionarios
2) Organización:
 Critica y corrección de datos
 Clasificación de datos
3) Presentación: presentación visual
 Tablas
 Gráficos
 Texto
4) Análisis:
 Estadístico simple
 De series de tiempo
 De relación
5) Interpretación: texto o informe técnico.

Organización y presentación de la información estadística para variables cuantitativas


x: variables

n: tamaño de la muestra

Fi (frecuencia absoluta): cantidad de veces que se repite cada uno de los valores posibles de la
variable.

Fa (frecuencia acumulada): suma de las frecuencias absolutas en el sentido creciente de la


variable.

Fr (frecuencia relativa): cociente entre Fa y total de observación.

Xi (Recorrido): valores posibles de la variable.

Gráfico de frecuencia absoluta: histograma

 eje x: Xi
 eje y: Fi

Gráfico de frecuencias acumuladas:

 eje x: Xi
 eje y: Fa

Rango o amplitud: rango de valores Xn –Xo

Intervalos de clase: cuando la cantidad de datos es mayor, el recorrido de la variable es más


amplio, se construyen los gráficos de distribución de frecuencias divididos en intervalos de
clase.

La cantidad de intervalos depende del número de observaciones con que contemos y de la


información que se desea obtener.

Un criterio es que la cantidad de intervalos sea raíz cuadrada de n donde n es el número de -


observaciones. (ej: [10-15) (15-20) (20-25] )

Amplitud del intervalo: (valor mayor- valor menor)/ cantidad de clases

Estadística descriptiva

Son valores numéricos que nos dan una unidad sencilla respecto a la distribución de datos.

Ventajas:

 permiten tener conocimiento de lo que ocurre en la población


 facilitan la comparación con otras distribuciones
 base fundamental para la estadística inferencial

Desventaja

 dan una visión parcial del fenómeno


 son una interpretación de los datos en función de los más frecuentes
 se pierde información

Hay 3 grupos principales

 medidas de tendencia central:


1) media aritmética: es el promedio. Suma de todos los valores divididos la
cantidad de valores. (media poblacional y media muestral)

2) mediana: valor que divide al conjunto en dos partes iguales o que deja igual
cantidad de valores hacia la derecha y hacia la izquierda.

El orden no es la mediana, es el lugar donde se encuentra.


Si el orden de la mediana da fracción tenemos que sumar los 2 elementos y
dividirlo en 2.
Como no siempre vamos a tener los elementos ubicados en fila vamos a la fila
de frecuencias acumuladas y buscas el número que te dio.
3) Moda o modo: es el valor de la variable que más veces se repite o que tiene
mayor frecuencia absoluta. Un conjunto de datos puede ser bimodal; polimodal
o no tener moda.

Simetría y asimetría:

 Simetría: media= mediana= moda


 Asimetría negativa: media< mediana< moda
 Asimetría positiva: media> mediana> moda
 Medidas de orden y posición: dividen al conjunto en determinadas cantidades de
partes iguales.
1) Cuartiles: dividen al conjunto de datos en cuatro partes iguales. Por eso son 3
valores.
Al igual que en la mediana, el orden del cuartil nos indica la ubicación del mismo.

2) Deciles: nos dividen en 10 partes iguales. Son 9 valores.


3) Percentiles: nos dividen en 100 partes iguales. Son 99 valores.
 Medidas de variabilidad o dispersión: nos dan una idea de cuan alejados están los
datos alrededor del valor central.
1) Rango o amplitud: diferencia entre el valor mayor y el menor
R= Xn-Xo
2) Rango intercuartilico (RIC): diferencia entre el tercer cuartil y el primero. Encierra
la mitad de las observaciones.
RIC= q3-q1
3) Variancia o varianza: se define a partir de la propiedad de la media aritmética
Se define como un valor cuadrático que mide el grado de dispersión
respecto a la media.

4) Desvío estándar: es la raíz cuadrada de la varianza, teniendo por consiguiente la


misma unidad de la variable.

La varianza y el desvío son medidas de variabilidad absoluta por lo tanto están afectadas
por las unidades de la variable.

Para hacer comprensibles la heterogeneidad entre muestras con distintas unidades


surge una medida relativa llamada coeficiente de variación (CV) que es el cociente entre
el desvío y la media por 100.

Diagrama de caja: nos permite obtener 3 conclusiones respecto a un conjunto de datos.

1) Amplitud del conjunto


2) Conjunto simétrico o asimétrico
3) Si hay valores atípicos (valores que se alejan de forma considerable del valor central)
L1: q1- 1,5 x RIC (No puede superar el valor inferior si este supera el extremo no hay
valores atípicos, si no lo supera hay valores atípicos)
L2: q3+ 1,5 x RIC (si no supera el extremo superior hay valores atípicos)

Probabilidad

Experimento aleatorio: se dice que un experimento es aleatorio si pueden asumirse válidas las
siguientes hipótesis:

1) El experimento puede repetirse, y en las mismas condiciones cada vez.


2) El conjunto de todos los resultados posibles del experimento es conocido.
3) El resultado particular del experimento no puede predecirse.

Elementos comunes de cualquier experimento:


- Espacio muestral (Ω): conjunto de todos los resultados posibles en un experimento.
- Evento o suceso: cualquier subconjunto del espacio muestral
o Evento simple: cada uno de los posibles resultados, considerados
individualmente. Es decir, cada uno de los elementos del espacio muestral
o Evento compuesto: cuando consta de mas de un elemento muestral
o Evento seguro: comprende todo el espacio muestral
o Evento imposible: no contiene ningún elemento del espacio muestral
o Evento complementario: son todos los puntos que estan en el espacio
muestral y no estan en el suceso A. Es el suceso contrario de A, ocurre cuando
A no ocurre, se simboliza AC.
o Eventos mutuamente excluyentes: son dos sucesos que no pueden ocurrir
simultáneamente AꓵB=ϕ
o Eventos independientes: si la ocurrencia de uno no afecta la probabilidad de
ocurrencia del otro.

Probabilidad: dado un espacio muestral Ω, llamaremos probabilidad de un evento A al cociente


entre el número de eventos simples contenidos en A sobre el número total de eventos simples
del espacio Ω

Se dice que la probabilidad del evento A es el cociente entre el numero de casos favorables a A
sobre el numero de casos posibles.

P(A)= casos favorables a A/ n° casos posibles

Propiedades de la probabilidad:

1- 0 ≤ p(A) ≤1
2- P(Ω)= 1
3- La probabilidad de un evento imposible es cero
4- La probabilidad de un evento A es igual a uno menos la probabilidad de su
complemento.
P(A)= 1- p(Ac)

Teorema de la adición: unión

Cuando se quiere conocer la probabilidad que ocurra un suceso A u ocurra un suceso B y si A y


B pueden ocurrir simultáneamente, entonces la probabilidad que ocurra A o B es la suma de
las probabilidades individuales de esos eventos menos la probabilidad que ambos ocurran
simultáneamente.

Teorema de la multiplicación: intersección

P(B/A) indica la probabilidad de un suceso B condicionado a la ocurrencia de otro suceso A.


Dos sucesos se dicen estadísticamente dependientes cuando la probabilidad de que ocurra
uno de ellos (A) se ve afectada por la ocurrencia de otro (B). En símbolos: P(A/B)≠ P(A) o P(B/A)
≠ P(B)

Dos sucesos A y B se dicen estadísticamente independientes cuando la probabilidad de que


ocurra uno de ellos (A) no depende de la ocurrencia o no del otro (B). En símbolos: P(A/B)=
P(A) o P(B/A)= P(B)

Distribuciones probabilísticas

Distribución binomial:

Procesos de Bernoulli: siglo XVIII

Proceso en el cual puede haber 2 resultados posibles:

 Éxito: parte de la variable que nos interesa P= p(éxito)


 Fracaso: Q= p(fracaso)

Tanto p como q son constantes en cada ensayo y cada ensayo debe ser independiente.

Siguen una distribución binomial

Generalizando, la variable binomial posee siempre dos eventos A y B. Se define como r:

r: número de elementos de evento A al observar n eventos.

Conociendo que:

 P es la probabilidad de ocurrencia del evento A


 Q es la probabilidad de ocurrencia del evento B

Por lo tanto la probabilidad de encontrar r elementos que complen con el evento A luego de n
repeticiones del experimento, se define como P(r):

𝑛
Siendo ( ) las posibles combinaciones de ocurrencia de r en n experimentos y eso se resulve
𝑟
de la siguiente manera:

Distribución de Poisson:

La distribución de poisson es el lim de la distribución binomial a medida que n se hace


infinitamente grande, p es aproximado a 0 y el producto nxp permanece constante.

Hay ciertos fenómenos que por sus características pueden considerarse como procesos de
poisson, generalmente se trata de observaciones independientes en un intervalo de tiempo,
en un determinado volumen por superficie o en una unidad de longitud.

K: constante de poisson (promedio de eventos de una cierta unidad).


𝑒 −𝑘 𝑘 𝑟
𝑝 (𝑥 = 𝑟) = 𝑣!
e= 2,71

Distribución normal o de Gauss

La representación gráfica para la distribución normal es una curva simétrica que tiene forma
de campana. La localización del centro de la campana está dado por el parámetro media
poblacional (μ) y la mayor o menor amplitud de la campana viene dada por el desvío
poblacional (σ).

Cuanta más chata es la curva, mas desvío poblacional tiene. La curva o toca el eje, a de -∞ a ∞
pero en algún momento el valor se vuelve despreciable.

Algunas características de la distribución normal:

1. Toda la familia de distribuciones normales se diferencian por medio de dos parámetros: la


media µ y la desviación estándar σ. Se designa por N(μ,σ)

2. El punto más alto de una curva normal se encuentra sobre la media, la cual coincide con la
mediana y la moda.

3. La distribución normal es simétrica, siendo la forma de la curva normal al lado izquierdo de


la media, la imagen especular de la forma al lado derecho de la media. Las colas de la curva
normal en teoría no tocan el eje horizontal. Dado que es simétrica, la distribución normal no es
sesgada.

4. La desviación estándar determina la forma de la curva. Cuanto mayor sea el valor de σ , más
se dispersarán los datos en torno a la media y la curva será más baja. Un valor pequeño de
este parámetro indica una gran probabilidad de obtener datos cercanos al valor medio de la
distribución y la curva será más alta.

5. Las probabilidades correspondientes a la variable aleatoria normal se dan mediante áreas


bajo la curva normal. Toda el área bajo la curva de una distribución normal es 1. Como esta
distribución es simétrica, el área bajo la curva y a la izquierda de la media es 0,50 y el área bajo
la curva y a la derecha de la media es 0,50.

Estandarización (z)

Los cálculos de la probabilidad en cualquier distribución normal se hacen calculando el área


bajo la gráfica (campana de Gauss). Por tanto, para hallar la probabilidad de que una variable
aleatoria normal esté dentro de un determinado intervalo, se tiene que calcular el área que se
encuentra bajo la curva normal y sobre ese intervalo.

Este trabajo se simplifica usando la distribución normal estándar. En ésta ya se encuentran


calculadas las áreas bajo la curva normal y se cuenta con tablas que dan éstas áreas y que se
usan para calcular probabilidades, facilitando así los cálculos de probabilidades con cualquier
combinación de parámetros μ y σ2. Por ello, se lleva a todas estas distribuciones a una con
forma estándar, es decir con media 0 y varianza 1. Z~N (0,1)

Se llamará estandarización a la siguiente transformación

Teorema central del límite

Inferencia Estadística

Introducción:
En aquellos casos en los que no se cuente con los valores de los parámetros poblacionales se
deben recurrir a técnicas o métodos que nos permitan estimar tales parámetros. El primero de
estos métodos es mediante la estimación de parámetros mediante un intervalo de confianza, y
el segundo de estos métodos es el contraste de hipótesis.

La estimación de parámetros puede ser puntual y esto significa que el valor del parámetro
poblacional es igual al valor del estimador, esto consiste en asignar un valor concreto al
parámetro. En cambio, un intervalo de confianza está conformado por un conjunto de valores
numéricos con una prefijada probabilidad de que éste contenga al verdadero valor del
parámetro poblacional.

Los métodos de contraste de hipótesis tienen como objetivo comprobar si un determinado


supuesto referido a un parámetro poblacional es compatible con los resultados obtenidos a
partir de una muestra. Los supuestos que se establecen respecto a los parámetros se llaman
hipótesis y el contraste se basa en establecer un criterio de decisión. En todo contraste
intervienen dos hipótesis, llamadas hipótesis nula e hipótesis alternativa. La hipótesis nula es
aquella que recoge el supuesto de que el parámetro toma un valor determinado y la decisión
de rechazar la hipótesis nula, que en principio se considera cierta, está en función de que sea o
no compatible con los resultados de la muestra. Por otra parta, la hipótesis alternativa es
contraria o complementaria a la hipótesis nula y suele presentar un cierto grado de
indefinición, la hipótesis nula suele representar las sospechas que se tienen sobre la veracidad
del parámetro poblacional.

Intervalos de Confianza

Un estimador puntual de un parámetro es un valor que puede ser considerado representativo


de este y se obtiene a partir de alguna función de la muestra, esta función puede ser el
promedio 𝑥̅, el desvío 𝑆, la varianza 𝑆2 , la proporción 𝑝, etc.

Por ejemplo, para el caso del promedio, diremos que el promedio muestral 𝑥̅ es igual al valor
del promedio poblacional µ, (𝑥̅ estima puntualmente a 𝜇).

Aunque el estimador cumpla con todas las propiedades de un buen estimador va a existir un
error de estimación que es la diferencia entre el valor muestral y el verdadero valor del
parámetro [1].

𝜇 − 𝑥̅= 𝑒𝑟𝑟𝑜r [1]

Debido a que el valor del estimador depende de los valores 𝑥i de la muestra estamos
cometiendo un error cuyo valor es aleatorio, es decir, siempre es desconocido tanto en
módulo como en su signo.

Una manera de evitar incurrir en este error aleatorio es construir un intervalo de valores
confianza. Este intervalo consiste en un par de valores dentro de los que se tiene una cierta
probabilidad de que valga el verdadero valor del parámetro poblacional.

Esta probabilidad se denomina nivel de confianza, su valor puede ser tan grande como se
desee y constituirá una medida del grado de precisión con el que se estima el parámetro.
Prueba de hipótesis:

El método de estimación puntual y por intervalos lo usamos para proponer una estimación de
un parámetro poblacional. Otra metodología inferencial sirve para probar la validez de una
afirmación acerca del valor de un parámetro. Una afirmación cuantitativa respecto a un
parámetro poblacional se llama hipótesis estadística y los métodos usados para probar su
validez se llaman pruebas de hipótesis.

El método más seguro para probar una hipótesis es un examen de la población completa, lo
cual es imposible por tiempo y costo.

La forma práctica de hacerlo es a través de una muestra mediante la cual rechazaremos o no la


hipótesis propuesta y tomaremos una decisión al respecto.

Llamaremos hipótesis nula H0 a aquella hipótesis referida a parámetros poblacionales que


formularemos con el propósito de rechazar y aceptar.
Función potencia de una prueba:

La exactitud de una prueba puede evaluarse conociendo la probabilidad de rechazar H0


cuando esta es falsa. Esta probabilidad es una función del parámetro poblacional en estudio y
se llama potencia de la prueba y nos proporciona la probabilidad de tomar una decisión
correcta. Así para dos pruebas diferentes referidas a un mismo parámetro poblacional con
igual α elegimos la prueba de mayor potencia.

Sea θ un parámetro poblacional y la hipótesis que se somete a prueba es H0: θ= θ0 y H1: θ> θ0
Diseño experimental

Plantear el experimento de manera que se reúna toda la información sobre el problema


investigado.

Es una secuencia de pasos para asegurar que los datos se obtienen adecuadamente.

Factores a analizarse:

1- Cuáles son las características a analizar? (variable)


2- Que factores afectan esas características? (diferentes suplementos, etc.)
3- Cuantas veces deberá repetirse el experimento?
4- Cómo será la forma de análisis?
5- A partir de qué valor se considera importante un efecto?

Tratamiento: material experimental sometido a estudio

Testigo: material experimental o tratamiento de comparación

Unidad experimental: elemento al que se le aplica el tratamiento

Error experimental: al aplicar tratamientos a las unidades experimentales, existen variaciones


atribuibles a los efectos del tratamiento o a causas ajenas a los tratamientos.

Aspectos a tener en cuenta.

1. Homogeneidad: en las unidades experimentales suele existir gran variabilidad por


factores como peso, edad, n° de pariciones, enfermedades, etc.; por lo que se debe
realizar un periodo anterior de experimento en el que todos los animales sean
tratados (periodo de uniformidad). Así mismo, debe tenderse a que cada grupo tenga
la misma edad, sexo y peso.
2. Tamaño y forma de las unidades experimentales: hay métodos para estimar el
tamaño, en el caso de experimentos agrícolas está relacionado con la clase de cultivo,
cantidad de semillas, superficie de terreno, etc.; en experimentos con animales el n°
de cabezas por unidad experimental, se sugiere de 10 a 15 en aves, de 5 a 10 en cerdos
y de 1 a 5 en vacunos.
3. Evitar la competencia: en el caso de experimentos agrícolas se deja 1m libre de cultivo
para evitar el efecto de borde.
4. Numero de repeticiones: si se hace una sola repetición no es posible determinar el
error experimental. La cantidad de repeticiones a realizar depende de la
homogeneidad del material experimental.

Coeficiente de variabilidad del ensayo:


En experimentos agrícolas se considera bajo si es menor al 10%, mediano entre el 10 y 20% y
alto si es mayor al 20%.

En experimentos agropecuarios ese valor es más alto por la heterogeneidad del material
experimental:

CV= S/ 𝑥̅ x 100

Tipos de diseños:

1. Diseño completamente aleatorio (DCA)


2. Diseño en bloques al azar (DBCA)
3. Diseño de cuadrados latinos (DCL)

La base del diseño experimental se llama ANOVA, ANVA o ADEVA que es una prueba de
hipótesis en la cual en vez de comparar 2 μ, se comparan más

H0= μ1= μ2= μ3= μ4 H1= por lo menos en uno hay diferencia

Análisis de la varianza (ANOVA, ADEVA, ANVA)

Sirve para comprar la media de 2 o más poblaciones y es la base del diseño experimental.

Por medio de la prueba e hipótesis para diferencias de μ se pueden comparar las medias de 2
poblaciones pero si se desean comprar más de dos medias no es conveniente hacerlo tomando
de a pares porque aumentaría el error de significación (α). Lo que se hace es comparar
simultáneamente todas las diferencias de μ mediante el análisis de la varianza.

Xij= μi + εij

Donde:

μi = ingesta media del tratamiento

εij= erro aleatorio

También podría gustarte