O problema com “significância”

Charles Lambdin Blocked Unblock Seguir Seguindo 14 de novembro de 2018

Introdução: A Crise de Replicação

Em 1991, David Lykken observou que, quando nos preocupamos em olhar, muitas das descobertas da psicologia não se reproduzem. Embora os estatísticos estejam dizendo isso há décadas, a questão finalmente está ganhando cada vez mais atenção. Por exemplo, em 2015, o Center for Open Science testou os resultados de 100 estudos. Um enorme 64% não replicou.

Talvez surpreendentemente, não importa quão famosa seja a descoberta ou com que freqüência ela seja citada. Por exemplo, todos nós sabemos que o desempenho dos testes dos alunos é afetado pela criação de estereótipos, certo? Sim … exceto que não parece ser o caso. E todos nós já vimos o TED da Amy Cuddy falar sobre linguagem corporal e “poses de poder”, certo? Exceto que esses resultados não estão sendo replicados. John Ioannidis pode ter sido correto quando declarou que “a maioria das descobertas publicadas é falsa”.

Então, como chegamos a esse estado de coisas? Ironicamente, grande parte da culpa é dos periódicos de revisão por pares. Os editores querem apenas resultados positivos, o que torna as falsas descobertas altamente prováveis. Pesquisadores acadêmicos funcionam em um sistema notório de “publicar ou perecer”, o que torna a fraude também provável. Como Stanislav Andreski (1972) observou em Ciências Sociais como Feitiçaria , em muitos casos, os acadêmicos funcionam mais como xamãs do que como detetives, escondendo-se atrás do que ele descreveu como “verbosidade nebulosa pretensiosa”. Eles estão tentando fazer algo mais verdadeiro do que procurar desapaixonadamente. pela verdade. Seja em psicologia ou medicina (ou jornalismo), quando você disfarça a defesa de direitos na capa da busca objetiva da verdade, o resultado é feitiçaria.

Às vezes é auto-engano. Às vezes é uma fraude total. Uri Simonsohn (2012) afirma que muitos pesquisadores se recusam a compartilhar seus dados brutos quando solicitados. Se eles fossem obrigados a fazê-lo para publicar em primeiro lugar, a fraude iria cair. O sistema de posse não ajuda. Os acadêmicos não são recompensados por serem cautelosos e se questionarem; ou seja, por agir cientificamente. Eles são incentivados a popularizar seu trabalho de forma bombástica. Adicione a essa mistura a subjetividade amplamente desconsiderada dos experimentos. Considere, os resultados de qualquer estudo dependem das definições operacionais usadas, dos estímulos selecionados, do desenho experimental escolhido, de como o comportamento é interpretado, do nível em que os dados são agregados … tudo isso é controlado pelo pesquisador. Agora junte isso com uma análise estatística altamente questionável. O resultado não é exatamente ciência.

Antes de Andreski, um ponto semelhante foi feito por Pitirim Sorokin em seu Fads & Foibles in Modern Sociology . Ele argumentou – na década de 1950 (!) – que a devolução das ciências sociais foi causada pelas universidades e seu incentivo ao que ele chamou de “professor-pesquisador omnibus”. Essas são pessoas que, como resultado de uma “nova e crença crescente ”, pensa que quando alguém tem aprendido algumas estatísticas básicas que“ ele se torna competente para pesquisar qualquer problema em qualquer campo, incluindo os campos que ele não estudou em nada ”(1956, p. 17).

Conforme Pashler e Wagenmakers (2012) observam, no entanto, o problema da replicação não está mais confinado às ciências sociais. A medicina está agora vendo sua própria crise de replicação. Como Ioannidis (2005) advertiu, qualquer campo que não mantenha o foco na replicação chegará a um ponto em que a maioria das pesquisas publicadas é falsa. Isso não significa que a maioria dos pesquisadores esteja cometendo fraudes. Nas ciências sociais, por exemplo, muitos que buscam apoio honesto para suas hipóteses acabam simplesmente se enganando. Ao estabelecer sua pesquisa como eles foram ensinados, eles acabam argumentando por algo que não se replica.

Mas… eles estão conduzindo experimentos e experimentos são ciência, certo? Não necessariamente. Em 1974, Bakan apontou que, embora a psicologia seja experimental, muitas vezes não é empírica . Seu ponto, claro, é que a ciência exige isso. A principal razão para essa discrepância, ele disse, se resume à prática onipresente de "teste de significância de hipótese nula", ou "NHST" para breve. Como muitos argumentaram antes e depois, essa prática está no cerne da crise de replicação.

NHST: O que é isso? O que há de errado com isso?

Para aqueles não familiarizados com NHST, aqui está a essência básica. Digamos que temos uma hipótese que queremos testar. Essa é a hipótese da pesquisa . Na NHST nós a representamos com uma hipótese estatística , que geralmente é que haverá uma diferença significativa em alguma medida entre dois ou mais grupos. Esta é a hipótese alternativa estatística, H1. O que é testado, no entanto, é a hipótese nula estatística, H0, que geralmente é que não vai haver uma diferença significativa entre os grupos.

Isso é chamado de “nulo de nenhuma diferença”, às vezes chamado de “hipótese nula”. Se rejeitarmos o nulo, reivindicamos apoio para a alternativa, uma vez que (esperamos) eles são mutuamente exclusivos e exaustivos. Na NHST isso é feito olhando-se o valor p e comparando-o com alfa, ?. Se p <?, dizemos que o resultado foi "significativo". A partir disso, inferimos o apoio prático para a hipótese da pesquisa.

Alfa (?) é a probabilidade de rejeitar uma hipótese nula verdadeira (cometer um erro Tipo I). O valor p é uma medida de quão bem os dados da amostra suportam o nulo, o argumento do advogado do diabo. A norma é definir ? = 0,05, o que representa 5% de chance de cometer um erro do Tipo I. Se, então, executarmos um teste t ou ANOVA ep = 0,04, a norma deve declarar que “ p <0,05” rejeita o nulo e afirma que as hipóteses alternativas e de pesquisa são suportadas.

Problematicamente, muito do que acontece na pesquisa ignora o que um valor p realmente pode e não pode nos dizer. Dito com precisão, um valor p é a probabilidade de nossos resultados de amostra se assumirmos que a hipótese nula é verdadeira na população . Isso não implica muito do que as pessoas passam a assumir. A imagem abaixo (resumida em Bakan, 1966 e Thompson, 1996, 1999) lista 12 afirmações populares, mas falsas, sobre a NHST.

Isso é mais do que poderemos cobrir aqui. Vamos apenas falar sobre o que provavelmente são as quatro falácias mais comuns. Estes são os valores de p que te dizem…

1. as chances de os resultados serem devidos ao acaso

2. as chances de a hipótese da pesquisa estar correta

3. as probabilidades que o resultado irá replicar

4. as probabilidades o nulo é verdadeiro.

1. A Falácia das Odds-Contra-Chances

Se nossos resultados de pesquisa forem baseados em uma amostra aleatória, devemos nos preocupar, com razão, com os resultados obtidos. Isto não é, no entanto, o que a NHST nos diz. Lembre-se, um valor p é a probabilidade dos dados obtidos, dada a verdade do nulo . A maioria dos pesquisadores ignora esse último bit. Digamos que atribuímos aleatoriamente os participantes a dois níveis da nossa variável independente. Nós tentamos o nosso melhor para controlar as confusões. Nós executamos o experimento e encontramos uma diferença média entre os dois grupos. Calculamos p usando o padrão nulo de nenhuma diferença. Obtemos nossos resultados e… p = 0,04. É significativo – p <0,05!

Mas o que isso significa? Isso não significa que as chances são de apenas 4%, a diferença encontrada é devido ao acaso. Lembre-se, o nulo de nenhuma diferença é que não há diferença na população; isto é, que qualquer diferença encontrada é devida ao acaso. Um valor p, então, é a probabilidade dos dados da amostra, se o acaso for a explicação. Isso não (e não pode) nos dizer as chances de que o acaso seja a explicação. Assim, o que um p de 0,04 significa é que, se o acaso é de fato a explicação, veríamos nosso resultado amostral – ou maior – 4% do tempo, e nosso resultado – ou menor – 96% do resultado Tempo.

Como Carver (1978) aponta, para realmente saber as chances de os resultados serem devidos ao acaso, precisaríamos de uma amostra de, digamos, 100 comparações de médias diferentes, e teríamos que ser capazes de saber magicamente quais diferenças ocorreram quando o valor nulo foi de fato verdade e que ocorreu quando na verdade era falsa. Não temos como saber disso. Quando calculamos um valor p , devemos primeiro assumir que o nulo é verdadeiro em todos os casos.

Ignorando isso, os pesquisadores tendem a agir como NHST de alguma forma "automatiza" o processo de fazer inferências científicas. Isso reduz a ciência a uma decisão simplista, automatizada, rejeitada e não rejeitada. Reduz a noção complexa de suporte científico à tarefa insensata de um inspetor de linha de montagem, estampando “aceitar” ou “rejeitar” todos os benefícios que acompanham. Como afirma o estatístico Roger Kirk (2003), essa prática nos distrai do que deveria ser nosso foco real, que é nossa hipótese de pesquisa e seu significado prático , e o que os dados nos dizem sobre a real magnitude dos efeitos.

2. As Odds-the-Research-Hipótese-É-Verdadeira Falácia

Acima, vimos que experimental ? empírica. Para entender os valores de p , existem algumas outras distinções importantes que precisam ser feitas. A primeira é que hipóteses estatísticas – hipóteses de pesquisa. A segunda é que P (D | H0) ? P (H1 | D); ou seja, a probabilidade de nossos dados de amostra, dada a verdade do nulo ? a probabilidade da verdade da alternativa dada a nossa amostra de dados.

Vejamos o primeiro, que hipóteses estatísticas – hipóteses de pesquisa. Se acharmos que nossos resultados são significativos em p <0,05, isso não significa que haja <5% de chance de nossos resultados se o tratamento (ou manipulação) não funcionar. Isso combina hipóteses de pesquisa com hipóteses estatísticas. Carver (1978) chamou isso de “fantasia de hipótese de pesquisa válida”. Que o tratamento funciona é nossa hipótese de pesquisa ; não é nossa hipótese alternativa . A alternativa é justamente que haverá uma diferença entre os grupos (µA – µB ? 0), por qualquer motivo. Por outro lado, o nulo de nenhuma diferença é apenas que não haverá diferença entre os grupos (µA – µB = 0).

Rejeitar nosso H0 (nulo) de µA – µB = 0 apenas implica o H1 (alternativa) de µA – µB ? 0 – não implica (ou necessariamente suporta) a hipótese da pesquisa. Uma diferença foi encontrada. Nossa hipótese de pesquisa é uma das possíveis explicações. Existem muitas razões possíveis pelas quais houve uma diferença entre os grupos. Como Granaas (2002) nos lembra, a rejeição de qualquer nulo de nenhuma diferença apóia todas as hipóteses de pesquisa que predizem um efeito, não apenas o nosso. Aqui está um exemplo real:

Pode-se imaginar a seguinte troca, digamos, entre um pesquisador e um estatístico:

INVESTIGADOR: “Mas é só porque existem confusões”.

ESTATÍSTICO: “Sim… claro que existem. O que isso tem a ver com testes de significância?

PESQUISADOR: “Bem, nada eu acho. Mas pelo menos os testes de significância nos mostraram que há uma diferença ”.

ESTATÍSTICO: “Você não precisou de testes de significância para ver isso. Na verdade, você deve estar olhando para o tamanho do efeito e as larguras dos intervalos de confiança. Agora, o que você vai fazer com essas confusões?

Seguindo em frente, todo significado aqui nos diz é que estamos justificados em prosseguir para testar nossa hipótese de pesquisa real. Apoiar uma hipótese de pesquisa contra todas as hipóteses rivais competidoras que explicam um determinado efeito não é algo que o teste de significância possa ajudar. Esse apoio (também conhecido como suporte científico) só é obtido após teorização meticulosa, metodologia sólida e inúmeras replicações que levam a diversas e corroborativas evidências que demonstram o efeito em diversas situações (Carver, 1978).

A outra distinção importante que precisamos mencionar aqui é que P (D | H0) ? P (H1 | D). Em outras palavras, uma baixa probabilidade de um resultado, dada a verdade do nulo, não indica a probabilidade da alternativa, dados os dados. Um grande número de artigos publicados interpreta erroneamente os valores de p dessa maneira. Isso está acontecendo sempre que um pesquisador fala sobre um valor p exato em termos de seu “grau” de significância. Se ?, a probabilidade de um erro do Tipo I, é fixada em avançado em 0,05 (como normalmente é) e p <0,001, isso não significa que os resultados sejam “altamente significativos”. Hubbard e Armstrong (2006) conduziram um levantamento de revistas de marketing e constatou que 54,9% dos artigos publicados nas revistas analisadas cometeram esse erro. Como vimos, isso se torna ainda pior quando os pesquisadores, em seguida, duplamente interpretam erroneamente que esse valor p é “altamente” capaz de sustentar sua hipótese de pesquisa.

3. A falácia das probabilidades-o-resultado-vai-replicar

Nossa terceira falácia é a crença de que os valores de p nos dizem algo sobre replicabilidade. Eles não. Tomando 1 – p não nos dá a probabilidade de os resultados se replicarem. Isto foi apontado pelo próprio Fisher em 1929 (ver também Salsburg, 2001; Tukey, 1991). Um valor p só poderia nos dizer algo sobre replicabilidade se nos informasse sobre a verdade do nulo, que é a quarta falácia que discutiremos. Isso ajuda a explicar por que os estatísticos culpam a crise de replicação em nossa obsessão por valores de p . Ficamos chocados quando os meta-estudos descobrem que a maioria dos resultados não se reproduzem, mas continuam usando técnicas que não nos dizem nada sobre replicabilidade.

Aqui está um exemplo de Rosenthal (1993). Digamos que haja um efeito real na natureza com um d de 0,5 ( r = 0,24). Um pesquisador realiza um estudo com um tamanho de amostra de 64 e um poder de 0,5 – um poder típico em psicologia. Se outro pesquisador replica este estudo, há apenas 25% de chance de ambos encontrarem um resultado “significativo”, mesmo que o efeito seja real! Se mais três pesquisadores replicarem o estudo, há apenas 50% de chance de que três ou mais encontrem um resultado significativo. Em outras palavras, há uma chance de 50/50 de que esse efeito real não seja suportado pelo uso repetido de NHST. Não parece tão útil para a ciência, não é? Como isso indica, no entanto, se as replicações necessárias cometerem os mesmos erros metodológicos dos estudos originais, elas não estão ajudando.

Rosnow e Rosenthal (1989) apontam que a “mística ontológica” de ?, combinada com a falta chocante de valorização do poder pela maioria dos pesquisadores, resultou em muitas conclusões embaraçosas. Tomemos, por exemplo, um pesquisador que replique a descoberta de outra pessoa, encontre o mesmo resultado na mesma direção e com o mesmo tamanho de efeito , mas, como esse efeito não é significativo, conclui-se que o efeito não se replicou! (Rosenthal, 1993; Rosnow e Rosenthal, 1989)

Aqui, discutimos principalmente descobertas que não se replicam, o que pressupõe que as próprias replicações são metodologicamente corretas. Como mencionado acima, no entanto, isso nem sempre é o caso. Um exemplo que sempre me vem à mente é que eu ouvi há anos que “estudos mostram” que dicas de acesso à visão da PNL não existem, e então os profissionais dirão: “Sério? Porque eles trabalham para mim ”. Agora, eles podem ou não existir – esse não é o ponto. O ponto para nossos propósitos é que os estudos que fazem essa afirmação são, eles mesmos, falhos e não justificam tal conclusão. Pode haver, é claro, estudos problemáticos a favor e contra uma hipótese. É a preponderância de evidências de diversas fontes que conta.

4. A Falácia Odds-the-Null-Is-True

A ciência e o teste de significância não fazem a mesma pergunta. Um valor p (aparentemente não pode ser declarado suficiente) é a probabilidade de os resultados serem assumidos, assumindo que o nulo é verdadeiro na população. A maioria dos pesquisadores leva essa definição para trás e age como se um valor p nos dissesse a probabilidade de que o nulo fosse verdadeiro, dados os resultados (que, a propósito, seriam ciência). Em outras palavras: P (A | B) ? P (B | A), ou, neste caso, P (D | H0) ? P (H0 | D).

Ignorando isso, os testes de significância geralmente recebem uma interpretação bayesiana inadequada. Como Cohen (1994) argumenta, a maioria dos pesquisadores que defendem NHST estão cometendo esse erro na lógica. Isso ecoa Andreski (1972), que afirmou que os "quantofrênicos" na ciência deveriam dar um passo atrás nas estatísticas e primeiro aprender alguma filosofia e lógica básicas.

O erro é provavelmente devido ao pensamento positivo. Como cientistas, o que devemos nos interessar é a probabilidade bayesiana de que o nulo esteja correto, dados os dados, P (H0 | D), não as chances de obter os dados que fizemos (ou mais dados extremos), assumindo que o nulo é verdadeiro, P (D | H0). Testes de significância só nos dizem o último. Conhecer as probabilidades dos nossos resultados é baixo, dado que a verdade assumida do nulo não implica que o nulo seja provavelmente falso. Ignorar isso é descrito por Falk e Greenbaum (1995) como a “ilusão da prova probabilística por contradição” e por Gigerenzer (1993) como a “ilusão permanente”.

É verdade que demonstrar que P (D | H0) é baixo pode reduzir P (H0 | D), mas não demonstra que P (H0 | D) também é baixo , o que, como cientistas, deveríamos estar interessados em ver (Carver, 1978; Cohen, 1994; Kirk, 1996). Se descobríssemos que serial killers tendem a ser bedwetters, então saber que uma criança é uma bedwetter pode aumentar significativamente as chances de ele ser um serial killer, mas ainda não é provável (ou vale a pena mencionar). P (A | B) e P (B | A) são frequentemente probabilidades muito diferentes. Aqui está um exemplo de John Allen Paulos (2003). (Imagine que é antes de sabermos que havia dois atiradores da DC).

Mas espere. Fica pior! Como mencionado acima, o nulo padrão é a "hipótese nula", o "nulo de nenhuma diferença", e como muitos estatísticos têm apontado, raramente há uma boa razão para supor que tal hipótese seja verdadeira. Por que basear nossas análises em uma suposição improvável? Como John Tukey colocou, “os efeitos de A e B são sempre diferentes, em algumas casas decimais, e assim perguntar se eles são diferentes é tolice” (1991, p. 100, itálicos adicionados).

Ecoando esse ponto, Armstrong (2007) observou que só faz sentido testar um nulo se ele próprio for uma conclusão razoável e provável . E, no entanto, se for, isso só levanta outras preocupações com o teste de significância, uma vez que outro problema com os valores de p é que eles exageram a evidência contra o nulo (Hubbard & Lindsay, 2008). Mesmo que o nulo seja uma hipótese razoável, os tamanhos dos efeitos e os intervalos de confiança devem ser o foco, e não os testes de significância. Como disse Armstrong, os testes de significância são desnecessários mesmo quando conduzidos e interpretados corretamente e, em última análise, tudo o que eles realmente fazem é “ocupar espaço nos periódicos” (2007, p. 336).

Conclusão

Então, de onde veio a obsessão pela NHST? Embora muitos pareçam atribuí-lo a Ronald Aylmer Fisher, ele teria fortemente se oposto à prática. Na verdade, foi Francis Ysidro Edgeworth quem iniciou o "teste da significância" nos anos de 1800 (Edgeworth, 1886; Stigler, 1986). O ritual moderno da NHST de “ p <?” levou os conceitos de Fisher do valor p e da hipótese nula e os combinou com a hipótese alternativa de Jerzy Neyman e Egon Pearson e alfa (?), combinando assim dois modelos muito diferentes.

No modelo de Neyman-Pearson, o nível de significância é a porcentagem do tempo em que o nulo será erroneamente rejeitado, supondo que esteja correto e que o experimento seja repetido muitas vezes . Neyman e Pearson rejeitaram a ideia de testes de significância, enfatizando a detecção de erros e ? (potência = 1- ?), avançando assim um modelo mais apropriado para o controle de qualidade (Gigerenzer, 2004). Fisher chegou a considerar ingênuo supor que os cientistas realizariam o mesmo teste repetidamente. Em vez disso, ele argumentou, deve-se relatar o valor exato de p sem tomar uma decisão de aceitar rejeitar (ver Gigerenzer, 2004). Em seus escritos posteriores, p é relatado como um valor exato e é usado para ajudar a estabelecer um caso racional contra o nulo, baseando-se na lógica e em outras evidências empíricas.

Já que os cientistas sociais estão pegando emprestado muito de Fisher, por que não estamos seguindo o conselho dele? Existem várias razões. Loftus (1991), por exemplo, observou que o NHST é provavelmente tão popular quanto é precisamente porque é uma simplificação tão grande. Isso torna fácil para qualquer um afirmar ser um pesquisador. Execute alguns participantes, clique em alguns botões em um computador e, voilà , ciência! (É o "professor pesquisador omnibus" de Sorokin.) Infelizmente, não é tão simples assim. Para citar Cohen (1994), “Mesmo uma interpretação correta dos valores de p não alcança muito, e não tem muito tempo” (p. 1001); e Kirk (1996), “acredito que, mesmo quando um teste de significância é interpretado corretamente, o negócio da ciência não progride no que deveria” (pp. 753-754).

Como Simmons, Nelson e Simonsohn (2011) mostram, com a NHST, mesmo quando não há nenhum efeito real, ainda é fácil encontrar resultados “significativos”. Basta olhar variáveis dependentes suficientes ou covariáveis e não compartilhar os resultados que não são significativos. É como jogar um balde de moedas no ar e se gabar de que alguns deles caíram na cauda. O efeito lamentável de tal (mal) prática é que nenhum resultado por si só realmente significa nada e nenhum trabalho do pesquisador isoladamente é tão confiável.

Trazendo isso de volta para as Ciências Sociais de Andreski como Feitiçaria , parte do que ele estava reclamando era o que ele chamou de “quantificação como camuflagem”. O ponto da estatística deveria ser limpar o nevoeiro e nos ajudar a identificar padrões e relacionamentos em dados a olho nu. não pode ver. No entanto, com muita frequência, as estatísticas obscurecem o que os olhos nus vêem – que na verdade não há nada de que valha a pena falar. Como Boring disse há 100 anos, “… a capacidade estatística, divorciada de uma intimidade científica com as observações fundamentais, não leva a lugar nenhum” (1919, p. 338).

Em conclusão, se um valor de p é “significativo”, mas os intervalos de confiança são amplos, os tamanhos de efeito diminuem e corroboram, diversas evidências não estão lá, o valor p é enganoso. Ignore isto.

Referências

Andreski, S. (1972). Ciências sociais como feitiçaria. Londres, Reino Unido: Andre Deutsch Limited.

Armstrong, JS (2007). Testes de significância estatística são desnecessários, mesmo quando adequadamente feitos e interpretados corretamente: Resposta aos comentários, International Journal of Forecasting, 23, 335-336.

Bakan, D. (1974). Em método: Para uma reconstrução de investigação psicológica. São Francisco, Califórnia: Jossey-Bass.

Bakan, D. (1966). O teste de significância na pesquisa psicológica. Boletim Psicológico, 66, 423-437.

Chato, EG (1919). Significado matemático versus científico. Boletim Psicológico, 16 (10), 335-338.

Carver, RP (1978). O caso contra o teste de significância estatística. Harvard Educational Review, 48 (3), 378-399.

Cohen, J. (1994). A terra é redonda (p <.05). American Psychologist, 12, 997-1003.

Edgeworth, FY (1886). Meios progressivos. Jornal da Royal Statistical Society, 49, 469-475.

Falk, R. & Greenbaum, CW (1995). Testes de significância são difíceis: a incrível persistência de um equívoco probabilístico. Teoria e Psicologia, 5, 75-98.

Fisher, RA (1929). O método estatístico na pesquisa psíquica. Anais da Society for Psychical Research, 39, 185-189.

Gigerenzer, G. (2004). Estatísticas sem mente. The Journal of Socio-Economics, 33, 587-606.

Gigerenzer, G. (1993). O superego, o ego e o id no raciocínio estatístico. Em G. Keren & C. Lewis (Eds.), Um manual para a análise de dados nas ciências comportamentais: Questões metodológicas (pp. 311–339). Hillsdale, NJ: Erlbaum.

Granaas, M. (2002). Teste de hipóteses em psicologia: jogando o bebê para fora com a água do banho. Cidade do Cabo, África do Sul: ICOTS 6.

Hubbard, R. & Armstrong, JS (2006). Por que não sabemos realmente o significado estatístico significa: Implicações para educadores. Journal of Marketing Education, 28, 114-120.

Hubbard, R. & Lindsay, RM (2008). Por que os valores de p não são uma medida útil de evidência no teste de significância estatística. Teoria e Psicologia, 18 (1), 69-88.

Ioannidis, JPA (2005). Por que a maioria das descobertas de pesquisas publicadas é falsa? PLoS Medicine, 2 (8): e124.

Kirk, RE (2003). A importância da magnitude do efeito. Em SF Davis (Ed.), Manual de métodos de pesquisa em psicologia experimental (pp. 83-105). Oxford, Reino Unido: Blackwell.

Kirk, RE (1996). Significado prático: um conceito cuja hora chegou. Medição Educacional e Psicológica, 56, 746-759.

Loftus, GR (1991). Sobre a tirania dos testes de hipóteses nas ciências sociais. Psicologia Contemporânea, 36 (2), 102-105.

Lykken, DT (1991). O que há de errado com a psicologia? Em D. Cicchetti & WM Grove (Eds.), Pensando claramente sobre psicologia (Vol. 1): Assuntos de interesse público (pp. 3-37). Minneapolis: University of Minnesota Press.

Pashler, H. & Wagenmakers, EJ (2012). Uma crise de confiança? Perspectivas da Ciência Psicológica. Obtido em 13 de novembro de 2018 em: https://journals.sagepub.com/doi/10.1177/1745691612465253 .

Paulos, JA (2003). Um matemático joga no mercado de ações. NY: livros básicos.

Rosenthal, R. (1993). Evidência cumulativa. Em G. Keren & C. Lewis (Eds.), Um manual para a análise de dados nas ciências comportáveis: Questões metodológicas (pp. 519-559). Hillsdale, NJ: Erlbaum.

Rosnow, RL e Rosenthal, R. (1989). Procedimentos estatísticos e a justificativa do conhecimento em ciências psicológicas. American Psychologist, 44, 1276-1284.

Salsburg, D. (2001). A senhora provando o chá: como as estatísticas revolucionaram a ciência no século XX. Nova Iorque, NY: Henry Holt and Company, LLC.

Simmons JP, Nelson LD, Simonsohn U. (2011). Psicologia Falsa-Positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Psychological Science, 22, 1359-1366.

Simonsohn U. (2012). Apenas publique: A lição de dois casos de dados fabricados detectados apenas por estatísticas. Obtido em http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2114571 .

Stigler, S. (1986). A história da estatística: A medição da incerteza antes de 1900. Cambridge, MA: Harvard University Press.

Sorokin, P. (1956). Modas e fraquezas na sociologia moderna. EUA: Henry Regnery Company.

Thompson, B. (1999). Testes de significância estatística, relatórios de tamanho de efeito e a busca inútil de pseudo-objetividade. Teoria e Psicologia, 9 (2), 191-196.

Thompson, B. (1996). Políticas editoriais da AERA sobre testes de significância estatística: Três reformas sugeridas. Pesquisador Educacional, 25, 26-30.

Tukey, JW (1991). A filosofia da comparação múltipla. Statistical Science, 6, 100-116.