Teste exato de Fisher
Estatística |
---|
O teste exato de Fisher é um teste de significância estatística utilizado na análise de tabelas de contingência.[1][2][3] Embora na prática ele seja empregado quando os tamanhos das amostras são pequenos, é válido para todos os tamanhos de amostra. É nomeado em homenagem a seu inventor, Ronald Fisher, e é um de uma classe de testes exatos, assim chamados por conta da significância do desvio de uma hipótese nula (e.g., p-valor) que pode ser calculada exatamente, ao invés de depender de uma aproximação que se torna exata no limite conforme o tamanho da amostra cresce para o infinito, como em muitos testes estatísticos.
Fisher disse ter concebido o teste depois de um comentário da Dra. Muriel Bristol, que afirmou ser capaz de detectar se o chá ou o leite foi adicionado primeiro em sua xícara. Ele testou seu pedido no experimento "dama apreciadora de chá".[4]
Propósito
[editar | editar código-fonte]O teste é útil para dados categóricos, que resultam de classificação de objetos em duas maneiras diferentes; ele é usado para examinar a significância da associação (contingência) entre os dois tipos de classificação. Assim, no exemplo original de Fisher, um critério de classificação poderia ser se o leite ou chá foi colocado na xícara primeiro; o outro poderia ser se a Dra. Bristol pensava que o leite ou chá, fora colocado em primeiro lugar. Queremos saber se essas duas classificações são associados - isto é, se a Dra. Bristol realmente poderia dizer se o leite ou o chá fora servido em primeiro lugar. A maioria dos usos do teste exato de Fisher envolvem, como neste exemplo, uma tabela de contingência 2×2. O p-valor do teste é calculado como se as margens da tabela fossem fixas, isto é, como se no exemplo da degustação de chá, a Dra. Bristol soubesse o número de xícaras com cada tratamento (leite ou chá primeiro) que havia e poderia, portanto, fornecer estimativas com o número correto em cada categoria. Como apontado por Fisher, isso leva, sob a hipótese nula de independência a uma distribuição hipergeométrica dos números nas células da tabela.
Com grandes amostras, um teste qui-quadrado pode ser utilizado nesta situação. No entanto, o valor de significância que ele oferece é apenas uma aproximação, pois a distribuição amostral da estatística de teste é calculada somente aproximadamente igual a teórica da distribuição qui-quadrado teórica. A aproximação é inadequada quando o tamanho das amostras é pequena, ou se os dados são muito desigualmente distribuídos entre as células da tabela, resultando na contagem de células previstas na hipótese nula (os "valores esperados") ser baixa. A regra de ouro usual para decidir se o teste de aproximação da qui-quadrado é bom o suficiente é que o teste qui-quadrado não é adequado quando os valores esperados nas células da tabela de contingência estão abaixo de 5, ou abaixo de 10 quando há apenas um grau de liberdade (esta regra é agora conhecida por ser excessivamente conservadora).[5] Na verdade, para dados pequenos, esparsos, ou não balanceados, o p-valor exato e assintótico podem ser muito diferentes e podem levar a conclusões opostas sobre a hipótese de interesse.[6][7] Em contraste, o teste exato de Fisher é, como seu nome indica, exato, conforme o procedimento experimental mantém os totais das linhas e colunas fixos, e pode, portanto, ser utilizado independentemente das características da amostra. Torna-se difícil calcular com amostras grandes ou tabelas bem equilibradas, mas felizmente esses são exatamente as condições em que o teste qui-quadrado é apropriado.
Para os cálculos à mão, o teste só é viável no caso de uma tabela de contingências 2×2. No entanto, o princípio do teste pode ser estendido para o caso geral de uma tabela m×n,[8][9] e alguns pacotes estatísticos fornecem um cálculo (às vezes usando um método de Monte Carlo para obter uma aproximação) para o caso mais geral.[10]
Exemplo
[editar | editar código-fonte]Por exemplo, uma amostra de adolescentes pode ser dividida em masculino e feminino por um lado, e aqueles que estão e não estão atualmente a estudar para um exame de estatística no outro. Vamos supor, por exemplo, que a proporção de pessoas estudando é maior entre mulheres do que entre os homens, e queremos testar se a diferença de proporções que observamos é significativa. Os dados podem parecer como a tabela abaixo:
Homens | Mulheres | Total da linha | |
---|---|---|---|
Estudiosos | 1 | 9 | 10 |
Não estudiosos | 11 | 3 | 14 |
Total da coluna | 12 | 12 | 24 |
A pergunta que se faz sobre esses dados é: sabendo que 10 destes 24 adolescentes são estudiosos, e que 12 dos 24 são do sexo feminino, e supondo que a hipótese nula de que homens e mulheres têm a mesma probabilidade de estudar, qual é a probabilidade de que esses 10 estudiosos seria tão desigualmente distribuídos entre as mulheres e os homens? Se tivéssemos que escolher 10 dos adolescentes ao acaso, qual a probabilidade de que 9 ou mais deles estarem entre as 12 mulheres, e apenas 1 ou menos estarem entre os 12 homens?
Antes de prosseguir com o teste de Fisher, primeiro apresentamos alguns apontamentos. Nós representamos as células pelas letras a, b, c e d, chame os totais das linhas e colunas de totais marginais, e represente o total por n. Assim, a tabela agora tem esse aspecto:
Homens | Mulheres | Total da linha | |
---|---|---|---|
Estudiosos | a | b | a+b |
Não estudiosos | c | d | c+d |
Total da coluna | a+c | b+d | a+b+c+d = n |
Fisher mostrou que a probabilidade de obtenção de tais valores é dada pela distribuição hipergeométrica:
onde é o coeficiente binomial e o símbolo indica o operador fatorial. Com os dados acima, isso nos dá:
A fórmula acima dá a probabilidade hipergeométrica exata de observar esta disposição específica dos dados, assumindo os dados marginais totais, na hipótese nula de que homens e mulheres têm a mesma probabilidade de ser estudiosos. Para colocar de outra forma, se nós assumimos que a probabilidade de que um homem é um estudioso é P, a probabilidade de que uma mulher é uma estudiosa é p, e assumimos que os homens e as mulheres da nossa amostra, independentemente de se são ou não estudiosos, então esta fórmula hipergeométrica dá a probabilidade condicional de se observar os valores de , , , , em quatro células, condicionalmente sobre o observado marginais (i.e., assumindo os totais das linhas e colunas mostrados nas margens da tabela). Isso permanece verdadeiro mesmo se os homens estão em nosso exemplo com diferentes probabilidades do que as mulheres. A exigência é apenas que as duas características de classificação - gênero e estudo (ou não) - não sejam associados.
Por exemplo, suponha que soubessemos as probabilidades e com tais que homens estudiosos, homens não estudiosos, mulheres estudiosas e mulheres não estudiosas tenham suas probabilidades respectivas e para cada indivíduo encontrado sob o processo de amostragem. Então se alguém for calcular as distribuições condicionais das entradas das células dadas as marginais, obteria a fórmula acima onde nem ou ocorram. Portanto, podemos calcular a probabilidade exata de qualquer arranjo dos 24 adolescentes nas quatro células da tabela, mas Fisher mostrou que para gerar um nível de significância, devemos considerar somente os casos onde os totais marginais são iguais aos observados na tabela, e dentre esses, somente os casos onde o arranjo é tão ou mais extremo como o arranjo observado (teste de Barnard relaxa essa restrição em um conjunto de totais marginais). Neste exemplo, existem 11 casos dessa forma. Desses, apenas um é mais extremo na mesma direção que nossos dados; Se apresenta assim:
Homens | Mulheres | Total da linha | |
---|---|---|---|
Estudiosos | 0 | 10 | 10 |
Não estudiosos | 12 | 2 | 14 |
Total da coluna | 12 | 12 | 24 |
Para essa tabela (com proporções extremamente desiguais) a probabilidade é:
.
Para calcular a significância do dado observado, isto é, a probabilidade total de observar os dados como extremos ou mais extremos de a hipótese nula é verdadeira, temos que calcular os valores de para essas duas tabelas e então somá-los. Isto nos dá um teste unicaudal, com . Por exemplo, no programa R, este valor pode ser obtido por fisher.test(rbind(c(1,9),c(11,3)), alternative="less")$p.value
. Este valor pode ser interpretado como a soma das evidências providas pelos dados observados - ou qualquer tabela extrema - para a hipótese nula (de que não há diferença nas proporções de estudiosos entre homens e mulheres). Quanto menor o valor de , maior a evidência para rejeitar a hipótese nula; Então aqui a evidência é forte de que homens e mulheres não são igualmente prováveis de serem estudiosos.
Para testes bicaudais devemos considerar também tabelas que são igualmente extremas, mas na direção oposta. Infelizmente, classificação de tabelas de acordo como se são ou não "tão extremas quanto" é problemática. Uma abordagem usada pela funçãofisher.test
em R é computar o p valor assumindo as probabilidades para todas as tabelas menores ou iguais aquela observada. No exemplo, o p-valor bilateral é duas vezes o p-valor unilateral - mas no geral pode diferir substancialmente para tabelas com quantidades pequenas, exceto para o caso de testes estatísticos que tem uma distribuição amostral simétrica.
Controvérsias
[editar | editar código-fonte]Apesar do fato de que o teste de Fisher dá os p-valores exatos, alguns autores têm argumentado que o teste é conservador, isto é, que a verdadeira taxa de rejeição é menor que o nível de significância.[11][12][13] A aparente contradição decorre da combinação de estatística discreta com níveis de significância fixados.[14][15] Para ser mais preciso, considere a seguinte proposta para o teste de significância no nível de 5%: rejeite a hipótese nula para cada tabela para as quais o teste de Fisher atribui um p-valor menor ou igual a a 5%. Porque o conjunto de todas as tabelas é discreto, pode não haver uma tabela para as quais igualdade é alcançada. Se é o maior p-valor menor que 5% que pode realmente ocorrer para alguma tabela, então o teste proposto efetivamente testa no nível . Para amostras de tamanho pequenos, pode ser significantemente menor que 5%.[11][12][13] Enquanto este efeito ocorre para qualquer estatística discreta (não somente em tabelas de contingência ou para testes de Fisher), tem sido argumentado que o problema é composto pelas condições de teste de Fisher nas marginais.[16] Para evitar o problema, muitos autores desencorajam o uso de níveis de significância fixos quando lidar com problemas discretos.[14][15]
A decisão de condicionar nas margens da tabela também é controverso.[17][18] Os p-valores derivados do teste de Fisher vêm da distribuição que condicionam os totais marginais. Nesse sentido, o teste é exato somente para a distribuição condicional e não para a tabela original onde os totais marginais podem mudar de experimento para experimento. É possível obter um p-valor exato para a tabela 2x2 quando as margens não são fixadas. o teste de Barnard, por exemplo, permite margens aleatórias. Entretanto, alguns autores[14][15][18] (incluindo, posteriormente, o próprio Barnard)[14] tem criticado o teste de Barnard baseado nesta propriedade. Eles argumentam que o sucesso marginal total é (quase[15]) uma estatística auxiliar, (quase) não contendo informação sobre a propriedade testada.
O ato de condicionar no sucesso marginal de uma tabela 2x2 pode ser mostrado para ignorar alguma informação nos dados sobre chances proporcionais desconhecidas.[19] O argumento de que os totais marginais são (quase) auxiliares implica que a função de verossimilhança apropriada por fazer inferências sobre estas chances proporcionais devem ser condicionados no sucesso marginal.[19] Se essa informação perdida é importante para propósitos inferenciais é a essência da controvérsia.[19]
Alternativas
[editar | editar código-fonte]Uma alternativa ao teste exato, o teste de Barnard, tem sido desenvolvido e os proponentes sugerem que esse método é mais poderoso, particularmente em tabelas 2 × 2. Outra alternativa é usar estimadores de máxima verossimilhança para calcular o p-valor da distribuição binomial ou multinomial e rejeitar ou falhar em rejeitar baseado no p-valor.[carece de fontes]Para dados categóricos estratificados o teste de Cochran–Mantel–Haenszel deve ser usado ao invés do teste de Fisher. Choi et al.[19] propôs um p-valor derivado da razão de verossimilhança baseada na distribuição condicional da razão de possibilidades dada a razão de sucesso marginal. Este p-valor é inferencialmente consistente com testes clássicos de dados normalmente distribuídos bem como razões de verossimilhanças e intervalos de suporte baseados na função de verosimilhança condicional. Também é facilmente computável.[20]
Veja também
[editar | editar código-fonte]- ↑ Fisher, R. A. (1922). «On the interpretation of χ2 from contingency tables, and the calculation of P». Journal of the Royal Statistical Society. 85 (1): 87–94. JSTOR 2340521. doi:10.2307/2340521
- ↑ Fisher, R.A. (1954). Statistical Methods for Research Workers. [S.l.]: Oliver and Boyd. ISBN 0-05-002170-2
- ↑ Agresti, Alan (1992). «A Survey of Exact Inference for Contingency Tables». Statistical Science. 7 (1): 131–153. JSTOR 2246001. doi:10.1214/ss/1177011454
- ↑ Fisher, Sir Ronald A.; Newman, James Roy (1956) [1935]. «Mathematics of a Lady Tasting Tea». The World of Mathematics, volume 3. [S.l.]: Courier Dover Publications. ISBN 978-0-486-41151-4
- ↑ Larntz, Kinley (1978). «Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics». Journal of the American Statistical Association. 73 (362): 253–263. JSTOR 2286650. doi:10.2307/2286650
- ↑ Mehta, Cyrus R; Patel, Nitin R; Tsiatis, Anastasios A (1984). «Exact significance testing to establish treatment equivalence with ordered categorical data». Biometrics. 40 (3): 819–825. JSTOR 2530927. PMID 6518249. doi:10.2307/2530927
- ↑ Mehta, C. R. 1995. SPSS 6.1 Exact test for Windows. Englewood Cliffs, NJ: Prentice Hall.
- ↑ Mehta, C.R.; Patel, N.R. (1983). «A Network Algorithm for Performing Fisher's Exact Test in r Xc Contingency Tables». Journal of the American Statistical Association. 78 (382): 427–434. doi:10.2307/2288652
- ↑ mathworld.wolfram.com Página dando a fórmula para a forma geral do teste de Fisher para tabelas de contingência m × n
- ↑ Mehta, Cyrus R.; Patel, Nitin R. (1986). «ALGORITHM 643: FEXACT: a FORTRAN subroutine for Fisher's exact test on unordered r×c contingency tables». ACM Trans. Math. Softw. 12 (2): 154–161. doi:10.1145/6497.214326
- ↑ a b Liddell, Douglas (1976). «Practical tests of 2x2 contingency tables». The Statistician. 25 (4): 295–304. JSTOR 2988087. doi:10.2307/2988087
- ↑ a b Berkson, Joseph (1978). «In dispraise of the exact test». Journal of Statistic Planning and Inference. 2: 27–42. doi:10.1016/0378-3758(78)90019-8
- ↑ a b D'Agostino, R. B.; Chase, W.; Belanger, A. (1988). «The Appropriateness of Some Common Procedures for Testing Equality of Two Independent Binomial Proportions». The American Statistician. 42 (3): 198–202. JSTOR 2685002. doi:10.2307/2685002
- ↑ a b c d Yates, F. (1984). «Tests of Significance for 2 x 2 Contingency Tables (with discussion)». Journal of the Royal Statistical Society, Series A. 147 (3): 426–463. JSTOR 2981577. doi:10.2307/2981577
- ↑ a b c d Roderick, J. A. Little (1989). «Testing the Equality of Two Independent Binomial Proportions». The American Statistician. 43 (4): 283–288. JSTOR 2685390. doi:10.2307/2685390
- ↑ Cyrus R. Mehta and Pralay Senchaudhuri (4 September 2003). "Conditional versus Unconditional Exact Tests for Comparing Two Binomials Arquivado em 8 de julho de 2011, no Wayback Machine.". Retrieved 20 November 2009.
- ↑ Barnard, G.A (1945). «A New Test for 2×2 Tables». Nature. 156 (3954). 177 páginas. doi:10.1038/156177a0
- ↑ a b Fisher, Ronald (1945). «A New Test for 2 × 2 Tables». Nature. 156 (3961). 388 páginas. doi:10.1038/156388a0; Barnard, G.A (1945). «A New Test for 2×2 Tables». Nature. 156 (3974). 783 páginas. doi:10.1038/156783b0
- ↑ a b c d Choi, L; Blume, J.D.; Dupont, W.D. (2015). «Elucidating the Foundations of Statistical Inference with 2 x 2 Tables». PLoS ONE. 10 (4): e0121263. doi:10.1371/journal.pone.0121263
- ↑ Choi, Leena (2011). «ProfileLikelihood: profile likelihood for a parameter in commonly used statistical models; 2011. R package version 1.1.» See also: Likelihood Ratio Statistics for 2 x 2 Tables Arquivado em 4 de junho de 2016, no Wayback Machine. (Online calculator).