Estatísticas para hackers

Parece que a nova tendência é escrever páginas da Web, livros e apresentações de slides sobre [insira o som das estatísticas] para os hackers . Muito disso é então capturado por codebros para fazer coisas quantitativas sem se preocupar em ver como funciona. E isso é estupido.

Vou explicar por que, mas antes, deixe-me desabafar minha frustração.

Se você acredita no hype dos hackers , eu quero que coisas ruins aconteçam com você. Eu quero este chapéu de lã de alpaca estúpido que você comprou em etsy para lhe dar uma erupção cutânea que fará sua orelha cair. Eu quero que o barista coloque uma dose única de café expresso em vez de dois em seu latte duplo de soja. Eu quero que seus filhos cresçam para usar o Windows . Frustração desabafada, me sinto melhor, vamos começar.

A idéia central (que também é a principal fraqueza) da multidão de hackers é exemplificada neste slide deck , de Jake VanderPlas. Eu comprei o livro de Jake (e achei ótimo e útil), e li seu blog com gosto. Portanto, não interprete isso como um ataque contra uma pessoa – escolhi o exemplo mais recente e representativo.

A ideia principal, eu estava prestes a dizer, é que (1) temos novas ferramentas computacionais que facilitam a análise de dados, especialmente para grandes quantidades de dados, ao mesmo tempo em que abrem novos caminhos para o direcionamento de algoritmos ) pensamento quantitativo; em paralelo, (2) a estatística é difícil, exige muito rigor e cautela e um extenso conhecimento prévio, possui um vocabulário especializado e é decididamente pouco glamourosa. Ambos os pontos são verdadeiros.

A partir dessas duas informações, os hackers concluem que a estatística é o domínio dos intelectuais, e você não precisa desse absurdo de ler livros que confunde seus cérebros quando você tem algumas habilidades loucas em Python ou Ruby. , Mano. Se você não acredita em mim, clique no link acima.

Que tipo de bobagem de dupla fala é essa? Se seu objetivo é analisar dados quantitativos, você não pode ter medo de um teste- t . O teste de uma amostra tem dois parâmetros que são todos estimados a partir dos dados subjacentes . Se você acha que isso , que eu posso ensinar aos alunos de biologia em 20 minutos , é confuso, ou você está fingindo (vender sua narrativa de ciência de dados como um substituto para estatísticas), ou você não deve ter permissão para dados próximos.

De um ponto de vista mais amplo, ela desempenha uma divisão (percebida) do mundo entre hackers muito legais para a escola, que podem resolver tudo com um loop for , e velhos acadêmicos rabugentos com fórmulas manuscritas em um quadro-negro. Isso está longe, longe da verdade.

Minha outra queixa com a mentalidade de hackers é que ela permanece limitada a estatísticas simples de qualquer maneira. Se você se recusar a fazer um teste-t por causa de sua desconfiança inata ou adquirida da equação, e ao invés disso recorrer à simulação de dados … você está fazendo estatísticas permutacionais. Eu diria parabéns por perder o poder estatístico, mas você provavelmente parou de ler seu manual de estatísticas antes de encontrar o termo. Mesmas coisas para bootstraps. Mesmas coisas de sorteios aleatórios.

E que as estatísticas para hackers servem apenas para substituir estatísticas vem com dois problemas adicionais. Primeiro, o tamanho da amostra. Se você tem um tamanho de amostra suficientemente alto, com certeza não há nenhum problema com sorteios aleatórios. Mas a maioria de nós acadêmicos velhos e crúticos não. Qualquer um pode fazer stastistics e extrair significado de 10? datapoints; nem todos podem fazer o mesmo por 10. Desde que tenhamos restrições logísticas na aquisição de dados, teremos a necessidade de estatísticas (e as restrições logísticas são para sempre, e as estatísticas agora). Em segundo lugar, a amostragem. Oh meu, a amostragem. Como você avalia que isso é apropriado? Se você respondeu algo diferente de "estatisticamente", está errado. Como você garante que esta é a distribuição apropriada que você está testando? Se você não entende como a amostragem aleatória pode não ser apropriada, uma vez que é como um bro totalmente aleatório, você não deve confiar nos dados.

Porque no final, as estatísticas para hackers ainda são estatísticas. Só é estatística que você faz sem conhecimento formal da base teórica. É o efeito Dunning-Kruger aplicado à análise de dados. Se você acha que pode evitar ter que entender as estatísticas antes de analisar os dados, você está superestimando sua capacidade de fazê-lo, enquanto subestima a utilidade das estatísticas. Se você se orgulha de não aprender quando você pode simular, y murbeou . Bootstrap me isso, você vai conseguir.

E pior, acho que as pessoas que pregam o mantra dos hackers sabem disso. A maioria deles parece ser estatisticamente alfabetizada. Mas talvez, apenas talvez, pegue um livro, um bloco e uma caneta, e trabalhe como o inferno até que você entenda o que está fazendo , você não recebe tantos convites para palestrantes como apenas um loop . Certamente é algo que eu ouvi os alunos discutirem. Por que eles deveriam suar através de três ou quatro classes ou estatísticas quando algum cara legal pode dar-lhes uma solução que requer apenas programação e sem equações? Porque nos preocupamos com os alunos entenderem o que fazem. Porque, adivinha o que? Às vezes, o conhecimento e a compreensão exigem trabalho. Difícil Tomando atalhos e negligenciando o trabalho sobre os fundamentos ajuda você a curto prazo . Isso estraga todo mundo a longo prazo .

Estas são ferramentas. Estatística (bayesiana e freqüentistas), ciência de dados, aprendizado de máquina, simulações. Ferramentas, todas elas. Eles têm seus usos. Eles têm suas falhas. Mas se você disser Não, eu estou bem, de agora em diante tudo que eu preciso é [X] , isso não me leva a levar você a sério. Se você disser que [X] substitui [Y], para hackers , você faz com que os hackers pareçam ruins para os estatísticos e as estatísticas pareçam ruins para os hackers. Talvez esta não seja uma atitude construtiva.