Apostila de STATA Final
Apostila de STATA Final
Apostila de STATA Final
Departamento de Estatística
Introdução ao
Stata 8
Professora:
Cibele Comini Cézar
Bolsistas:
Carlos Spínola Ribeiro
Bernardo Azevedo Polettini
Julho de 2005
Índice
1. Introdução
2. Apresentando o Stata
2.1 Algumas utilizações
2.2 Tipos de arquivos e criação e logs
Inserindo dados no Stata
3. Inserindo dados no Stata
3.1 Entrando dados interativamente
3.2 Entrando dados com um arquivo
4. Atribuindo label às variáveis
5. Armazenando dados arquivos no Stata
5.1 Através do comando save:
5.2 Armazenando dados em arquivos ASCII
5.3 O comando outsheet
6. Comandos
7. Manipulação de dados
7.1 Expressões
7.2 Gerando e re-codificando variáveis
8. Descrição dos dados
9. Gráficos
10. Tabelas de dados
11. Teste de Hipótese
11.1 Teste de hipóteses para uma, duas e mais de duas médias; intervalos
de confiança para proporção e média populacional
11.2 Intervalo de confiança para proporção e teste de hipótese para a
associação
11.3 Observando correlação
12. Programação básica no Stata
1. Introdução
2. Apresentando o Stata
Quando o programa é aberto, abre-se uma tela contendo janelas menores, com
cabeçalhos. A finalidade de cada janela é apresentada a seguir:
Cabeçalho Finalidade
Review Armazenamento dos comandos já
utilizados
Variables Apresentação das variáveis contidas no
banco de dados
Stata Results Apresentação dos resultados obtidos com
a execução dos comandos
Stata Command Digitação dos comandos a serem
executados
Results
(resultados)
Review
(comandos
j á executados)
Variables
(variáveis) Stata Comand
(j anela de comandos)
Outras janelas
O Stata possui mais 4 janelas que só aparecem quando são clicadas no menu
Window. São elas:
• Viewer
• Graph
• Data editor
• Do-file editor
Outras opções do Stata podem ser acessadas através do menu (File, Edit,
Prefs, etc.) ou da barra de ferramentas que contém os ícones com as opções
mais utilizadas.
2.1 Algumas utilizações
O Stata é basicamente um programa de comandos, embora a versão 8
apresente muitas opções, contidas no menu, que podem ser executadas. Os
comandos têm uma forma geral do tipo comando lista de variáveis (
command varlist). Por exemplo, se o banco de dados contém as variáveis x e
y , então, o comando para listá-las é list x y, ou apenas list se forem as únicas
variáveis definidas.
Algumas estruturas condicionais usadas junto com o list podem ser
usadas, como if x>y fará com que sejam listados somente os dados onde os
valores de x são maiores que os de y.
A utilização do Help é fortemente recomendada; clicando-se em Help
no menu principal ou digitando help seguido ou não de argumentos, uma
segunda janela é apresentada, onde é possível pesquisar qualquer comando
utilizando-se a opção Contents ,Search ou Stata command.
Por exemplo, se você quiser nomear o seu arquivo com a data da sessão, o
comando será
. exit
no; data in memory would be lost
r(4);
Neste ponto você poderá salvar seu banco de dados (save nome_arquivo,
[replace]) ou apagá-lo. Para isto, tem duas opções:
exit, clear ou drop _all
exit
id semestre rsg
1 1 2.88
1 2 2.81
1 3 2.27
1 4 3.20
1 5 4.20
1 6 2.81
2 1 5.00
2 2 4.77
2 3 4.63
2 4 4.60
2 5 4.80
2 6 4.63
Para introduzi-los no Stata fornecer o comando da seguinte maneira:
id semestre rsg
1.
Você deve digitar os valores das variáveis, separadas por, pelo menos, um
espaço
Quando você der enter, o Stata abrirá uma nova linha:
id semestre rsg
1. 1 1 2.88
2.
id semestre rsg
1. 1 1 2.88
. . . .
. . . .
. . . .
12. 2 6 4.63
13. end
Exemplo:
input id semestre rsg str15 nome
+--------------------------------+
| id semestre rsg nome |
|--------------------------------|
1. | 1 1 2.88 andreza |
+--------------------------------+
Sua sintaxe é:
Exemplo:
Temos um banco de dados contendo as informações sobre o rendimento dos
alunos, que já vimos anteriormente, do tipo texto já salvo e separado por
tabulação no endereço:
c:\temp\curso_stata\desempenho.txt
. su
Variable | Obs Mean Std. Dev. Min
Max
-------------+----------------------------------------------------
----
id | 90 8 4.344698 1
15
semestre | 90 3.5 1.717393 1
6
rsg | 90 3.743556 .9118709 1.33
5
nome | 0
sexo | 0
. su
Variable | Obs Mean Std. Dev. Min
Max
-------------+----------------------------------------------------
----
v1 | 90 8 4.344698 1
15
v2 | 90 3.5 1.717393 1
6
v3 | 90 3.743556 .9118709 1.33
5
v4 | 0
v5 | 0
O espaço pode ser o delimitador, neste caso, deve aparecer entre parênteses na
declaração do delimitador.
Exemplo:
Exemplo:
. save c:\temp\curso_stata\rendimento
file c:\temp\curso_stata\rendimento.dta saved
Se já existe um arquivo com este nome, o Stata emite uma mensagem de erro:
. save c:\diretorio\curso_stata\rendimento
file c:\diretorio\curso_stata\rendimento.dta already exists
r(602);
outfile [varlist] using filename [if exp] [in range] [, comma dictionary
nolabel noquote replace wide runtogether rjs fjs]
Descrição:
Outfile escreve os dados em um arquivo ASCII, formato que pode ser lido por
outros programas. O separador utilizado é o espaço. Os dados gravados com
outfile podem ser lidos com infile.
Se o nome do arquivo é especificado sem extensão, a extensão.raw é
assumida, caso a opção dictionary seja especificada a extensão.dct é assumida.
Exemplos:
Exemplo
. outsheet id semestre rsg using C:\cibele\curso_stata\rendimento [,]
6. Comandos
[by varlist:] command [varlist] [weight] [if exp] [in range] [using
filename] [,options]
onde,
[by varlist:] - Instrui Stata para repetir o comando para cada combinação de
valores nas variáveis listadas em varlist;
command - é o nome do comando, ex: list
[varlist] - é a lista de variáveis para as quais o comando é executado
[weight] - permite que pesos sejam associados às observações
[if exp] - restringe o comando a um subconjunto de observações que
satisfazem a expressão lógica definida em exp;
[in range] restringe o comando àquelas observações cujos índices pertencem a
um determinado subconjunto;
[using filename] especifica o arquivo que deve ser utilizado
[,options] são específicas de cada comando.
Ex:
help log fornece a informação:
log: comando
using filename: arquivo onde será armazenada a sessão de trabalho (extensão
.log)
log using filename [,noproc append replace]
noproc: opção que faz com que só sejam registrados no arquivo .log os
caracteres digitados; os resultados não são incluídos. Esta opção é útil quando
se deseja criar um arquivo .do.
append: esta opção instrui programa a salvar a sessão atual, como
continuação de uma sessão anterior.
replace: esta opção instrui programa a salvar a sessão atual sobre um texto já
existente.
7. Manipulação de dados
7.1 Expressões
Gera uma nova variável (desenpemho2) que contém valores 1 (se rsg>3) e
missing (se rsg<=3), no caso acima 24 dados missing. Para substituir os
valores missing por um valor numérico, utilizar o comando replace. O
comando replace permite que uma variável já existente seja alterada.
. replace desempenho2=0 if rsg<=3
(24 real changes made)
. tab desempenho2
Exemplo:
. desc
. ds
. lookfor median
. lookfor medage age
9. Gráficos
Exemplos: .8
. histogram rsg
Density
1 2 3 4 5
rendimento
5
4
Objetivo Comandos
Teste de igualdade de variâncias sdtest rsg,by(sexo)
Testar a diferença entre as variâncias da variável
rsg segundo sexo:
Teste de igualdade de duas médias ttest rsg, by(sexo)
Testar se existe diferença entre a média do
rendimento feminino e masculino:
Intervalo de confiança para a média populacional ci rsg
Apresentar o intervalo de confiança para a média se quisermos segundo outra variável:
de rsg segundo: ci rsg, by(“variável”)
Intervalo de confiança para uma média cii 60 2.54 1.6
populacional
Construir o intervalo de confiança de 95% para
uma amostra de 60 observações, média observada
igual a 2,54 e desvio padrão populacional igual a
1,6
Teste de uma média populacional ttest rsg=3.5
Testar a hipótese de que a média observada da
variável rsg( X obs =3.743556) é igual à média
populacional ( µ = 3.5 ).
Teste de 3 ou mais médias populacionais oneway rsg nome, means st
Testar a hipótese de igualdade de médias rsg por
nome.
Objetivo Comandos
Intervalo de confiança para proporção populacional cii 112 0.125
Em um grupo de 112 pessoas, acusou que 14 tinham (14/112 = 0,125)
certa característica. Construa um intervalo de
confiança para a característica.
Teste de uma proporção populacional bitesti 112 28 0.20
Testar a hipótese de que a proporção observada seja
de 28/112 contra a verdadeira proporção amostral 0,2
Teste de associação pelo Qui-quadrado tab rsg sexo, col chi
Verificar a existência de associação entre as
variáveis rsg e sexo:
11.3 Observando correlação:
X 62 64 61 67 66 59.5 65
Y 63 56 57.5 61.8 63 54.5 64
corr X Y
ou
pwcorr X Y,obs sig
Stata-Noções Básicas
FSP/USP. HEP139 – Informática/Nutrição – 2003
Denise P Bergamaschi, Claudia R Koga, Edson J B Faulin, Patrícia Di Battisti, Milena B Bueno