Estatística para Concursos
Estatística para Concursos
Estatística para Concursos
Assunto:
ESTATÍSTICA P/
CONCURSOS
ESAF
Autor:
Introdução à Estatística
Estatística
É uma coleção de métodos para PLANEJAR EXPERIMENTOS, OBTER DADOS, ORGANIZÁ-
LOS, RESUMI-LOS, ANALISÁ-LOS, INTERPRETÁ-LOS e deles EXTRAIR CONCLUSÕES.
DEFINIÇÕES IMPORTANTES
INDIVÍDUOS – São os objetos descritos por um conjunto de Dados. Os indivíduos podem ser:
pessoas, coisas, animais etc.;
VARIÁVEL – É qualquer característica de um indivíduo;
POPULAÇÃO - É a coleção completa de todos os indivíduos a serem estudados;
CENSO – É uma coleção de dados relativos a todos os elementos de uma população;
AMOSTRA – É uma sub-coleção de elementos extraídos de uma população;
Exemplo – Nos EUA, uma pesquisa Nielsen típica da televisão utiliza uma amostra de 4000
lares e com base nos resultados formula conclusões acerca da população de todos os 97.855.392
lares americanos.
PARÂMETRO – É uma medida numérica que descreve uma característica de uma população;
ESTATÍSTICA – É uma medida numérica que descreve uma característica de uma amostra;
Exemplo – Pesquisa feita pela Bruskin-Goldring Research com 1015 pessoas escolhidas
aleatoriamente, 269 (26,5%) possuíam computador. Como a cifra de 26,5% se baseia em uma
amostra, e não em toda a população trata-se de uma estatística (e não de um parâmetro). Por
outro lado de uma pesquisa cuja população alvo são os alunos matriculados na disciplina de
estatística, feita com cada um desses alunos revela que 26,5% não possuem computador em
casa isto é um parâmetro.
Exemplo - Soltar um objeto a certa altura e calcular a velocidade com que chega ao solo.
VA's DISCRETAS - São aquelas que assumem um numero finito ou infinito e enumerável de valores;
Praticamente podemos pensar na variáveis aleatórias discretas como funções que associam
resultado de experimentos aleatórios a números inteiros.
Exemplo: Suponha que lancemos um dado e chamemos X uma VA que assume o valor da
face do dado que estiver para cima. X só pode assumir 1, 2, 3, 4, 5 ou 6. X, portanto, é
discreta.
Exemplo - Suponhamos agora que um estudo sobre uma população em que estivessemos
interessados em entender o perfil educacional. Suponha que num questionário constasse o
seguinte item: Escolaridade, e que as respostas possíveis a esse item fossem: 0 - Analfabeto;
1 - 1° Grau Incompleto; 2 - 2° Grau incompleto; 3 - 3° Grau Incompleto; 4 - 3° Grau
Completo; 5 - Pós-graduação em andamento; 6 - Pós-graduação completa.
VA's CONTÍNUAS - São aquelas que assumem uma quantidade não-enumerável de valores. Para
efeitos práticos aquelas que podem assumir valores num sub-conjunto dos reais.
Dica - Todas as variáveis associadas à medidas que dependam da precisão de um instrumento são
contínuas.
Exemplo - Nos estudos astronômicos o tempo aparece em medida de bilhões de anos. Nessa
escala anos, dias e horas são despresíveis. Para a história humana uma escala de anos compõe
um quadro suficiente. Para o dia a dia um relógio que marque hora e minutos é suficiente para
acertamos nossos compromissos. Para a fórmula 1 os cronômetros precisam dos milésimos.
Assim a duração do tempo é uma medida que pode ser detalhada infinitamente, sem deixar de
ser medida de tempo. Se X é uma VA que mede a duração de tempo X é uma VA contínua.
OBS - No caso do exemplo anterior note que há uma dependência da precisão do instrumento
de medida.
Exemplo - Um estudo deseja entender a distribuição de alturas no Brasil. Recolhe-se uma
amostra e defíne-se X como a altura de um indivíduo. X depende da precisão do instrumento e
pode ser subdividida infinitamente, sem deixar de ser uma medida coerente de altura. X é uma
VA contínua.
Dados Discretos – Resultam de um conjunto finito ou enumerável de valores (em geral dados que se
expressam por números inteiros);
Dados Contínuos – Resultam de um número não-enumerável de valores (em geral dados que se
expressam por números reais).
OBS – Quando os dados representam contagens são discretos e quando representam medições são
contínuos;
Nível Nominal de Mensuração – É caraterizado por dados que consistem apenas em nomes, rótulos
ou categorias. Os dados nominais não podem ser dispostos segundo um esquema ordenado.
OBS – Às vezes atribui-se números a categorias (em especial quando são utilizados
computadores), mas tais números não têm qualquer significado para efeito de cálculo.
Nível Intervalar de Mensuração – É análogo ao nível ordinal, com a propriedade adicional de que
podemos determinar diferenças significativas entre os dados. Todavia não existe ponto de partida, ou
seja zero, inerente.
Exemplo – Anos : 1000, 2000, 1776, 1944, ... (esta contagem de tempo não começou num
zero);
Escala de Temperatura em Centígrados: 10°, 20° (20° não significa que está duas vezes mais
quente que 10°, o zero da escala é arbitrário).
20 – Mercedes
30 – Honda
Ordinal As categorias são ordenáveis mas não podemos Carros:
estabelecer diferenças, ou estas não têm sentido.
10 – Compactos
20 – Médios
40 – Grandes
Intervalo Podemos determinara diferença entre valores, Temperatura:
mas não há ponto de partida intrínseco. As razões
não têm sentido. 15°C
25°C
30°C
90Kg
140Kg
Para este fim utiliza-se TABELAS e GRÁFICOS (organização) e MEDIDAS (de centralidade e de
dispersão, p/ sumarização).
TABULAÇÃO
Definições
Os elementos essenciais de uma tabela estatística são: o título, o corpo, o cabeçalho e a coluna
indicadora.
Título é a indicação que precede a tabela e que contém a designação do fato observado, o local e a
época em que foi registrado.
O corpo é o conjunto de colunas e linhas que contém respectivamente, em ordem horizontal e vertical,
as informações sobre o fato observado.
As casas não deverão ficar em branco, apresentando sempre um número ou um sinal convencional.
Fonte é a indicação da entidade responsável pelo fornecimento dos dados ou pela sua elaboração.
Notas: são informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo das tabelas,
ou a indicar a metodologia adotada na elaboração dos dados
Chamadas: São informações de natureza específica sobre determinadas partes da tabela, destinadas a
conceituar ou esclarecer dados.
As chamadas são indicadas no corpo da tabela em algarismos arábicos, entre parênteses, à esquerda nas
casas e à direita na coluna indicadora.
A numeração das chamadas da tabela será sucessiva, de cima para baixo e da esquerda para a direita.
A distribuição das chamadas no rodapé na tabela obedecerá à ordem de sua sucessão na tabela,
separando-se uma das outras por ponto (.).
As chamadas de uma tabela que ocupe mais de uma página devem figurar no rodapé da tabela da
última página, de acordo com a sucessão da mesma.
Sinais Convencionais
As tabelas, excluídos os títulos, serão delimitadas, no alto e em baixo, por traços horizontais grossos,
preferencialmente.
Será facultativo o emprego de traços verticais para separar as colunas no corpo da tabela.
Quando uma tabela, por expressa altura, tiver de ocupar mais de uma página, não será delimitada na
parte inferior, repetindo-se o cabeçalho na página seguinte. Neste caso, deve-se usar, no alto do
cabeçalho ou dentro da coluna indicadora, a designação contínua ou conclusão, conforme o caso.
Exemplo
(Título)
Pessoal Docente Lotado na Universidade X
1976
Após a coleta dos dados e sua apuração necessíta-se de métodos de apresentação dos dados. Para tanto
um dos instrumentos é a TABELA.
TÍTULO – É uma apresentação do que a tabela está tentando representar. Deve conter informações
suficientes para responder às seguintes questões:
ONDE? – Br 232;
QUANDO – 2000.
Exemplo 2 – N° de acesso a disco, Servidor da Universo em 07/08/2000
QUANDO – 07/08/2000.
CORPO – É composto de um conjunto de colunas e subcolunas onde são postos os dados coletados.
Exemplo –
1984 – 2020
RODAPÉ – Coloca-se todas as legendas que visam esclarecer a interpretação da tabela. Geralmente
também é no rodapé que se coloca a fonte dos dados.
Exemplo
Sexo
Tipo
Maiores 60 30 90
Menores 40 10 50
Total 100 40 140
Fonte: Departamento de Relações Industriais
SÉRIES ESTATÍSTICA
São assim chamadas as tabelas estatísticas nas quais existe um critério distintivo de agrupamento. São
elas:
Séries Cronológicas;
Séries Geográficas;
Séries Específicas;
Séries Conjugadas.
Neste tipo de série o “QUE” (fato) e o “ONDE” (local) permanecem fixos, enquanto o “QUANDO”
(tempo varia), ou seja a informação varia com a variação do tempo.
Ex:
Anos Inscritos
1978 1.250.537
1979 1.559.097
1980 1.803.5674
1981 1.735.457
1982 1.689.249
Fonte: CODE INF/SESU/Ministério da Educação.
OBS – Aqui o “QUE”, Demanda de Vestibulandos, permanece fixo, bem como o “ONDE”, no caso
o Brasil. Mas a informação muda com o tempo.
Exemplo
1° Semestre de 1986
Meses N°
Jan 25.000
Fev 26.000
Mar 340.000
Abr 350.000
Mai 190.000
Jun 220.000
Fonte: XXXXXX
Exemplo
Regiões do Brasil
1980
Exemplo
1970
Regiões Populações
Norte 5.885.536
Nordeste 34.855.469
Sudeste 51.746.318
Sul 19.038.935
Centro-Oeste 7.544.607
Brasil 119.070.865
Fonte: IBGE
Séries Específicas (ou de Qualidade)
São aquelas em que o “ONDE” (local) e o “QUANDO” (tempo) são fixos variando-se o “QUE”
(fato) em subgrupos de características próprias.
Exemplo
1983
Exemplo:
1975
Especificação Quantidade
Titular 28.079
Adjunto 11.306
Assistente 28.711
Colaborador 4.377
Auxiliar de Ensino 20.073
TOTAL 92.546
Fonte: SEEC – IBGE
São assim classificadas as séries que combinam pelo menos duas das séries anteriores.
Exemplo:
Receita do Município “X”
1983 – 1986
Receita ($ 1000)
Anos Prevista Arrecadada
83 10.746.393 10.739.487
84 24.891.790 19.374.275
85 52.913.762 60.721.847
86 79.648.844 90.757.069
Fonte: Secretaria de Economia e Finanças
OBS – As informações variam em dois sentidos: por ano (vertical) e por especificação do fato
observado (horizontal – Receita Prevista e Receita Arrecadada).
Tabela de Freqüências
As tabelas de freqüências sã muito importantes na estatística. Basicamente são utilizadas para se ter
uma idéia quantitativa sobre a distribuição dos dados, ou seja, como os dados se manifestam.
Assim como existem dois tipos de dados existem também dois tipos de tabelas de freqüências.
Exemplo: Imagine que você lança um dado 20 vezes e anota, em cada lançamento, o valor da
face voltada para cima. Suponha que temos os seguintes resultados:
1 5 3 1 4
3 1 2 5 2
6 2 1 3 1
3 3 4 1 5
Para este exemplo temos a seguinte tabela de freqüências:
Valores Freqüência
Na primeira coluna temos os primeiros valores do experimento aleatório em questão, no nosso caso, os
possíveis valores das faces do dado;
Na segunda coluna temos o número de vezes que cada face ocorreu no processo. Sendo assim lê-se a
tabelada seguinte forma: A face 1 ocorreu 6 vezes, a face 2 ocorreu 3 vezes, etc;
A segunda coluna, coluna das freqüências, é montada contando-se as ocorrências da respectiva face da
tabela de resultados do nosso experimento;
A soma total da coluna das freqüências tem valor igual ao total de observações do experimento.
Exemplo: Suponha que você é o revisor de um livro e é o responsável por encontrar os erros
tipográficos. Você observa que o número máximo de erros por página é 4. Como resultado de
sua revisão você poderia ter, para um livro de 60 páginas, a seguinte tabela de freqüências de
erros:
Nº de Erros Nº de Páginas
com o respectivo
Nº de erros
0 30
1 10
2 5
3 5
4 10
Total 60
Dados Brutos: São os dados como foram gerados, sem nenhum critério de organização;
Rol: É um arranjo dos dados brutos em ordem crescente ou decrescente;
Exemplo: Considere uma prova feita por 25 alunos cujos resultados foram:
Exemplo: Uma classe é, por exemplo, o conjunto 0 |----- 3. 0 é o limite inferior da classe e 3 o
limite superior. O símbolo “|-------“ indica que o limite inferior, no caso 0, é contado como
pertencente à classe da qual é limite inferior e que o limite superior, no caso 3, não é contando
como pertencente a essa classe. Em outras palavras para uma classe geral o seu limite inferior é
contado como pertencente à mesma enquanto o limite superior como não pertencente.
AT = Max – Min
onde:
No nosso exemplo: AT = 10 – 0 = 10
OBS
Em geral n não é um número inteiro. Neste caso n deve assumir um inteiro próximo. Ex n = 3,3 então
poderíamos assumir 3 ou 4.
N vale aproximadamente para valores de N até 50.
Amplitude de Classe: Corresponde à extensão da classe, ou seja, à diferença entre o limite superior e o
limite inferior das classes. Na realidade na montagem da tabela temos que definir primeiro a amplitude
de classe para, só então, definirmos as classes. Para tanto usamos a seguinte expressão:
AC = AT / n.
OBS – Podemos trabalhar também com amplitudes de classe mais simples, de modo a
facilitar nossa operação. Neste caso aproximamos o valor para um valor de ordem
superior digamos, no nosso caso, 1,7.
Com estas informações somos capazes de criar uma tabela de freqüência para nosso
dados bastando, para isso, determinarmos o limite inferior da primeira classe.
OBS
A exigência sobre o limite inferior da primeira classe +e que ele seja menor ou igual ao menor valor
dos dados;
A exigência sobre o limite superior da última classe é que ele seja maior que o valor máximo dos
dados.
Classes Fj
0,0 |-----1,7 5
1,7 |----- 3,4 6
3,4 |----- 5,1 6
5,1 |----- 6,8 1
6,8 |----- 8,5 4
8,5 |----10,2 3
Total 25
OBS
Classes Fj FAC
0,0 |-----1,7 5 5
1,7 |----- 3,4 6 11
3,4 |----- 5,1 6 17
5,1 |----- 6,8 1 18
6,8 |----- 8,5 4 22
8,5 |----10,2 3 25
Total 25 25
OBS: A FAC da última classe tem que ser o valor total das observações, pois o limite
superior da última classe tem que ser maior que o maior valor dos dados.
Dados Discretos:
Consiste em associar a cada valor ocorrido uma haste cuja a altura é diretamente
proporcional ao valor da freqüência do valor em questão.
Exemplo: Num lançamento de um dado 20 vezes podemos ter o seguinte resultado:
Valores Freqüências
Observados Observadas
1 6
2 3
3 5
4 2
5 3
6 1
Total 20
OBS
As informações de freqüências são representadas pelas hastes. Quanto maior a freqüência observada
maior será a haste associada;
As hastes não têm espessura, são linhas verticais;
Não se ligam os pontos extremos superiores das hastes;
Este gráfico também pode ser utilizados para representar freqüência acumulada, relativa e relativa
acumulada. Nestes caso a mudança acontece na escala do eixo y, ficando o eixo x inalterado.
Histogramas
Classes de Fj
Notas
0,0 |----- 1,7 5
1,7 |----- 3,4 6
3,4 |----- 5,1 6
5,1 |----- 6,8 1
6,8 |----- 8,5 4
8,5 |----- 10,2 3
Total 25
Para este caso temos o seguinte histograma:
OBS
Classes de Fj FAC
Notas
0,0 |----- 1,7 5 5
1,7 |----- 3,4 6 11
3,4 |----- 5,1 6 17
5,1 |----- 6,8 1 18
6,8 |----- 8,5 4 22
8,5 |----- 10,2 3 25
Total 25
O histograma para a FAC é
Polígono de Freqüências
Classes de Fj PM
Notas
0,0 |----- 1,7 5 0,85
1,7 |----- 3,4 6 2,55
3,4 |----- 5,1 6 4,25
5,1 |----- 6,8 1 5,95
6,8 |----- 8,5 4 7,65
8,5 |----- 10,2 3 9,35
Total 25
Para desenhar o polígono de freqüências precisamos do ponto médio das classes.
A partir destas marca-se a altura correspondente à freqüência e depois une-se
esses pontos por uma linha poligonal. Assim temos
OBS
O gráfico consiste na ligação dos pontos cartesianos formados pelos pontos médios das classes e as
freqüências por linhas poligonais;
Os pontos inicial e final do gráfico são pontos médios das classes que existiriam antes da primeira e
depois da última classe real dos dados. Eles são introduzidos para manter a proporcionalidade na
representação dos dados;
Este gráfico também pode ser utilizado para representar freqüências acumuladas. Neste caso usam-se
os pontos finais da classe como referência, ao invés dos pontos médios. Para o nosso caso:
O polígono de freqüências também pode ser utilizado para representar a freqüência relativa acumulada.
O polígono para freqüência relativa tem a mesma forma do gráfico de freqüência absoluta e o gráfico
de freqüência absoluta acumulada mesma forma do polígono de freqüências acumuladas. Em ambos os
casos, apenas existe diferença na escala do eixo y.
Gráficos para Representação de Dados Diversos
Até agora vimos a representação gráfica apenas para dados de freqüência. Outros gráficos são
importantes para representar outras classes de dados.
Gráficos Lineares
São usados principalmente para representar séries temporais. Consiste em uma forma
cartesiana simples em que os pares ordenados (x,y) representam a informação e são
conectados por linhas poligonais.
Ano População
(em milhões)
1990 100
1991 108
1992 115
1993 125
1994 137
O gráfico linear para esses dados é:
OBS
O gráfico linear tem o mesmo comportamento do polígono de freqüências mas serve para representar
dados que não são freqüências.
O gráfico linear é muito bom quando se que enfatizar tendências;
Mais de uma série pode ser representada no mesmo gráfico. Para tanto deve-se observar:
(x 1000) (x 1000)
1998 100 80
1999 110 100
2000 120 120
2001 130 140
Um indicador de tendência do gráfico linear é a inclinação dos seguimentos de reta que o compõe. A
tendência é tão maior quanto maior for a inclinação dos mesmos.
Os retângulos têm um lado fixo e, portanto, a magnitude dos dados é representada pela
outra dimensão.
Quando os retângulos estão em posição vertical diz-se que temos gráfico de colunas,
caso em posição horizontal diz-se que temos gráficos de barras.
Todas as observações feitas para os gráficos de colunas valem para os gráficos de barras,
respeitada a orientação particular.
São gráficos em que a base do retângulo representa uma categoria (tipos, datas
etc) e que a altura do mesmo é proporcional à magnitude dos dados.
Curso Nº alunos
Administração 50
Análise de Sistemas 30
Direito 70
Pedagogia 20
Temos o seguinte gráfico de colunas justapostas para o nosso exemplo
OBS
Os gráficos de colunas justapostas podem vir com as colunas coladas ou com intervalos regulares entre
elas;
Pode-se colorir o gráfico colocando uma cor em cada coluna ou ainda um padrão de preenchimento
para cada coluna. Neste caso pode ser necessária uma legenda;
Todo raciocínio anterior é válido para os gráficos de barras lembrando que nesse caso a base do
retângulo está no eixo vertical, como abaixo
Estes gráficos são utilizados para representar dados onde para cada objeto observado
existe mais de uma fonte de informação. Este gráfico é uma generalização do gráfico de
colunas justapostas e, portanto, segue o mesmo tipo de regra de formação.
Exemplo: Suponha que o MEC fez um levantamento de dados sobre o número de alunos
nos cursos de Administração, Direito, Pedagogia e Letras em quatro universidades de
uma mesma cidade obtendo a seguinte série:
Universidade
A 100 150 70 50
B 80 90 30 40
C 90 80 20 20
D 120 150 80 60
No gráfico de séries multivariadas uma noção muito clara tem que ser a de classes distintas. Deve estar
claro para o leitor onde começa e onde termina a informação sobre cada classe. Isso se consegue
colocando um espaço vazio separando-as.
Dentro da mesma classe as colunas podem vir juntas ou separadas. Se vierem separadas a distância
entre elas deve ser visivelmente menor que o espaço entre as classes, de modo que não haja confusão
na leitura da informação;
As colunas devem seguir a mesma ordem em cada classe. Cada coluna deve apresentar uma cor e/ou
padrão de preenchimento diferente, constantes em cada classe, e uma legenda deve ser associada ao
gráfico, de modo a facilitar a transmissão de informações.