Statistics">
Nothing Special   »   [go: up one dir, main page]

Curso de Estatística - Compreendendo o Stata

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 8

CURSO DE BIOESTATÍSTICA

COMPREENDENDO O STATA

Facilitadora: Hellen Christina Neves


Orientadoras: Professora Drª Maria do Rosário G. Peixoto
Professora Drª Ana Tereza Vaz de Souza Freitas

2019
Análise descritiva

Medidas de Posição + Dispersão: usadas para descrever a amostra

Medidas de Posição (ou de Tendência Central):

Média: Somatório de todos os elementos da série divididos pelo número de


elementos.

 A média aritmética é a soma de todas as observações divididas pelo


número de observações.
 Às vezes, em casos de valores extremos pode ser uma medida ruim da
localização central porque não reflete o centro da amostra.

Moda: valor que ocorre mais vezes ou com maior frequência.

Mediana (percentil50):

 Metade (50%) dos dados tem valores maiores e a outra metade valores
menores (50%).
 É o valor central de uma distribuição.
 Amostras com um tamanho de amostra ímpar têm um ponto central
único.

Valor mínimo e máximo: O menor e o maior valor da série.

Distribuição simétrica: moda=mediana=média

Medidas de Dispersão:

 Amplitude (Intervalo): Diferença entre o valor máximo e mínimo


(maiores e menores observações em uma amostra).

Ex: 3, 4, 5, 5, 5, 6, 7, 8, 9  Amplitude: 9-3= 6

 Quartis: Valores que dividem a série ordenada dos valores de uma


variável em quatro partes de mesmo tamanho.

• O segundo quartil (50%) é a mediana;

• O intervalo entre o primeiro (25%) e o terceiro (75%) quartil é uma medida de


dispersão (inclui 50% das observações).

 Variância:
Média dos desvios ao quadrado dividida pela quantidade de elementos da
série menos 1 (n-1).

- Se existir grande dispersão dos dados a variância é grande.

 Desvio Padrão: É uma medida de dispersão e o seu valor reflete a


variabilidade das observações em relação à média. Raiz da variância.

 Medida do grau de dispersão em relação à média.

 Conforme se aumenta o tamanho amostral o desvio-padrão fica menor.


 A média e o desvio padrão são as medidas de localização e
disseminação mais utilizadas na literatura. Uma das principais razões
para isso é que a distribuição normal (ou em forma de sino) é definida
explicitamente em termos desses dois parâmetros.

 Erro Padrão: Medida da precisão das médias.


 Ele diminui com o aumento do tamanho da amostra.

 Intervalo Interquartil: Avalia o grau de dispersão dos dados em torno


da medida de centralidade.

 GRÁFICOS: gráficos de barra são usados para mostrar a distribuição de


variáveis categóricas, enquanto histogramas e box-plots são usados
para mostrar a distribuição de variáveis quantitativas.

Comandos para gráficos:

Histograma:
histogram idade, bin(10) ou
 hist idade, bin(10) normal freq. (para que seja visualizada a curva de
distribuição normal) ou
histogram idade, bin(10) percent norm normopts(lcolor(red)
lwidth(thick))

Box plot: graph box idade


SINAIS DO STATA

Operadores Lógicos

&→e

| → ou

~ → não

Operadores Relacionais

= → igual (Obs: Após o comando “if” deve-se usar == )

!= → diferente

> maior >= maior/igual

< menor <=menor/igual

Operadores aritméticos

+ soma

- subtração

* multiplicação

/ divisão

^ elevado à potência

Outras funções:

Operador if (se): condiciona a informação de interesse

Operador & (e): realiza a interseção de informações

 Operador by: condiciona o comando ou função de acordo com uma variável


categórica

Criar variáveis: generate


* Obs.: forma abreviada: gen

Exemplo: gen catfam=0 if fam<27 & sexo==1

Substituir valores:
Exemplo: replace abep=0 if abep<15

Renomear uma variável:


Exemplo: rename abep abep1
Organizar o banco conforme uma variável: sort
Exemplo: sort imc

Excluir uma variável ou conjunto de variáveis do banco: drop

Exemplo: drop tab

Excluir observações
Exemplo:
 Sort abep1
 drop in 1/3

COMANDOS UTILIZADOS PARA ESTATÍSTICA DESCRITIVA

Summarize: calcula medidas de tendência central (média, desvio padrão,


mínimo, máximo, etc).

Comando: sum ou summ

Tabulate indica o valor das observações para uma dada variável e sua
frequência.

Comando Tab produzem tabelas simples ou cruzadas

TESTE DE NORMALIDADE

Shapiro-wilk

Comando: swilk idade

P<0.05 DADOS COM DISTRIBUIÇÃO NÃO NORMAL

p>0.05 DADOS COM DISTRIBUIÇÃO NORMAL


COMANDOS – PASSO A PASSO

1º passo: organizar o banco de dados

2° passo: teste de normalidade Shapiro wilk

Comando: swilk idade imc cb2 fam1, tgp

3° passo: Criar gráficos (comandos descritos anteriormente)

4° passo: Calcular a média e desvio padrão ou mediana e intervalo interquartil


(IIQ) – variáveis quantitativas - e tabelas de frequência para variáveis
categóricas.

Comandos:

- summ idade, imc, fam, cb

- sum idade, imc, fam, detail

5° passo: categorizar a variável de interesse (variável contínua).

Comandos:

Exemplo:

FAM para homens: <27kg mulheres: <16kg/ Sexo M: 1; Sexo F: 2

gen catfam=0 if fam<27 & sexo==1 (fam inadequada 0)

replace catfam=1 if fam>=27 & sexo==1 (fam adequada 1)

replace catfam=0 if fam<16 & sexo==2 (fam inadequada 0)

replace catfam=1 if fam>=16 & sexo==2 (fam adequada  1)

6º passo: tabelar a variável categorizada

Comando: tab catfam

7º passo: aplicar os testes de comparação de médias


Para variáveis com distribuição normal

Comparação de uma média com um valor de referência


Teste T de uma amostra:
Comando: ttest idade = 50

Comparação de médias de amostras com observações pareadas


Teste T de student paredo :
Comando: ttest estatura1=estatura2

Comparação entre médias de duas amostras independentes


(Comparação de médias de amostras com observações independentes)
Teste T de Student para amostras independentes:
Suponha que estamos avaliando se a idade média difere segundo a
força do aperto de mão. Neste caso, utiliza-se a opção by(catfam):
Comando: ttest idade, by(catifam)

OBSERVAÇÕES: O teste T assume que a distribuição da variável


resposta (IDADE) é aproximadamente normal e o desvio padrão é o mesmo em
cada grupo a ser comparado.
Esta suposição precisa ser verificada:
COMANDO: sdtest idade, by(catfam)
Quando o teste acima (teste de homocedasticidade) indicar que as
variâncias não são iguais nos dois grupos (são diferentes), devemos usar um
teste que considere esta desigualdade utilizando o comando:
COMANDO: ttest idade, by(catfam) unequal
Teste de homogeneidade de variâncias:
H0= variância1 = variância 2 (amostras homocedásticas)
H1= variância 1 ≠ variância 2 (amostras heterocedásticas)
Para variáveis com distribuição não normal
1- Teste U de Mann-Whitney

Comando: ranksum asg, by(catfam)

2- Teste de Wilcoxon signed-rank

Comando: signrank est1 = est2

Teste de correlação

1- Criar o gráfico
Comando: scatter fam imc

2- Para traçar a reta de regressão:


Comando: scatter fam imc, ||lfit fam imc, lcolor(red)

 Correlação linear de Pearson: para variáveis com distribuição normal.

Comando: pwcorr fam imc, sig

 Correlação de Spearman: para variáveis com distribuição não normal.

Comando: spearman fam asg, pw star(.05)

VARIÁVEIS CATEGÓRICAS

 Teste Qui-quadrado de Pearson

Comando: tabulate catasg sexo, chi2 ou

tab catasg sexo, row col chi2

 Teste exato de Fisher

Comando: tab life sleep, col row exact

Você também pode gostar