Como aguçar seus instintos de dados

Com os recentes avanços em aprendizado de máquina e pesquisa de inteligência artificial fazendo manchetes regularmente hoje em dia, não é de surpreender que a ciência de dados tenha se tornado uma área de interesse real no mainstream.

Certamente faz uma ótima escolha de carreira para analiticamente, exigindo uma combinação de sólidas habilidades de programação e profundo conhecimento técnico.

No entanto, por trás dos atos de roubar as redes neurais e computação distribuída, estão algumas práticas estatísticas fundamentais com as quais todos os aspirantes a cientistas de dados devem estar profundamente familiarizados.

Você pode ler as últimas estruturas de programação ou avanços na literatura científica, conforme necessário para um projeto específico. Mas não há atalhos para adquirir o conhecimento estatístico subjacente que torna um cientista de dados eficaz.

Apenas a prática, a paciência e talvez apenas um pouco de aprendizado da maneira difícil, irão realmente aguçar seus “instintos de dados”.

O princípio da parcimônia

É repetido ao ponto do clichê nos cursos introdutórios de estatísticas, mas as palavras do estatístico britânico George Box são talvez mais relevantes hoje do que nunca:

“Todos os modelos estão errados, mas alguns são úteis”

O que essa declaração realmente significa?

Isso significa que, ao procurar modelar um sistema do mundo real, você precisa necessariamente simplificar e generalizar às custas do poder explicativo.

O mundo real é confuso e barulhento e difícil de entender até o mais ínfimo detalhe. A modelagem estatística, portanto, se esforça para não alcançar o poder preditivo perfeito, mas sim o poder preditivo máximo com o modelo mínimo necessário.

Este conceito pode parecer contra-intuitivo para aqueles que são novos no mundo dos dados. Por que não incluir tantos termos em um modelo quanto possível? Certamente, termos extras só podem acrescentar mais poder explicativo ao modelo?

Bem, sim … e não. Você só precisa se preocupar com termos que tragam um aumento estatisticamente significativo no poder explicativo.

Considere os diferentes tipos de modelos que podem ser ajustados a um determinado conjunto de dados.

O mais básico é o modelo nulo, que possui apenas um parâmetro – a média geral da variável de resposta (mais algum erro r distribuído aleatoriamente ).

Este modelo postula que a variável resposta não depende de nenhuma das variáveis ??explicativas. Em vez disso, seus valores são inteiramente explicados pela flutuação aleatória sobre a média geral. Isso obviamente limita o poder explicativo do modelo.

O conceito oposto polar é o modelo saturado, que possui um parâmetro para cada ponto de dados. Aqui, você tem um modelo perfeitamente ajustado, mas um que não tem poder explicativo se você lançar novos dados nele.

A inclusão de um termo por ponto de dados também negligencia a simplificação de qualquer maneira significativa. Novamente – não é exatamente útil.

Ajustando um modelo nulo, à esquerda e um modelo saturado, à direita. Nenhum dos modelos permite uma interpretação muito útil.

Claramente, esses são casos extremos. Você deve procurar um modelo em algum ponto intermediário – um que se encaixe bem nos dados e tenha um bom poder explicativo. Você poderia tentar encaixar o modelo máximo. Este modelo inclui termos para todos os fatores e termos de interação em consideração.

Por exemplo, digamos que você tenha uma variável de resposta y que você queira modelar como uma função de variáveis ??explicativas x ? e x ?, multiplicado pelos coeficientes ? . O modelo maximal ficaria assim:

y = interceptar + ??x? + ??x? + ?? ( x?x? ) + erro

Espera-se que este modelo máximo encaixe os dados muito bem e também forneça um bom poder explicativo. Inclui um termo para cada variável explicativa e um termo de interação, x?x?.

Removendo termos do modelo aumentará o desvio residual geral, ou a proporção de variação observada previsões do modelo não conseguem explicar.

No entanto, nem todos os termos são iguais. Você pode remover um (ou mais) termos, sem ver um aumento estatisticamente significativo no desvio.

Tais termos podem ser considerados insignificantes e removidos do modelo. Você pode remover termos insignificantes um por um (lembrando-se de recalcular o desvio residual em cada etapa). Repita isso até que todos os termos restantes tenham significância estatística.

Agora você chegou ao modelo mínimo adequado. As estimativas para o coeficiente de cada termo ? são significativamente diferentes de zero. A abordagem eliminatória passo-a-passo usada para chegar aqui é conhecida como regressão “stepwise”.

O princípio filosófico que sustenta esse impulso em direção à simplicidade do modelo é conhecido como o princípio da parcimônia .

Ele tem alguma semelhança com a famosa heurística do filósofo medieval William de Ockham, a Navalha de Occam . Isso segue as linhas de: “dadas duas ou mais explicações igualmente aceitáveis ??para um fenômeno, trabalhe com o que introduz o menor número de suposições”.

Ou, em outras palavras: você pode explicar algo complexo da maneira mais simples possível? Indiscutivelmente, esta é a busca definidora da ciência de dados – traduzindo eficientemente complexidade em insight.

Seja sempre cético

O teste de hipóteses (como o teste A / B ) é um importante conceito de ciência de dados.

Simplificando, o teste de hipóteses funciona reduzindo um problema a duas hipóteses mutuamente exclusivas, e perguntando sob que hipótese o valor observado de uma dada estatística de teste é mais provável. A estatística do teste é, obviamente, calculada a partir de um conjunto apropriado de dados experimentais ou observacionais.

Quando se trata de testes de hipóteses, você geralmente pergunta se aceita ou rejeita a hipótese nula .

Freqüentemente, você ouve as pessoas descreverem a hipótese nula como algo de uma desilusão, ou mesmo evidência de falha experimental.

Talvez isso decorra de como o teste de hipóteses é ensinado aos iniciantes, mas parece que muitos pesquisadores e cientistas de dados têm um viés subconsciente contra a hipótese nula. Eles procuram rejeitá-lo em favor da hipótese alternativa supostamente mais excitante, mais interessante.

Este não é apenas um problema anedótico. Todos os trabalhos de pesquisa foram escritos sobre a questão do viés de publicação na literatura científica. Pode-se apenas imaginar como essa tendência se manifesta dentro de um contexto comercial.

No entanto, o fato é o seguinte: para qualquer experimento adequadamente projetado ou conjunto de dados completo o suficiente, aceitar a hipótese nula deve ser tão interessante quanto aceitar a alternativa.

De fato, a hipótese nula é a base da estatística inferencial. Ele define o que fazemos como cientistas de dados, que é transformar dados em insights. Os insights não valem nada se não formos hiper-seletivos em relação às descobertas, e é por isso que vale a pena ser ultra-cético em todos os momentos.

Isto é especialmente verdade, dado o quão fácil é “acidentalmente” rejeitar a hipótese nula (pelo menos quando se aplica uma abordagem frequentista ingenuamente).

A dragagem de dados (ou 'p-hacking') pode gerar todos os tipos de resultados sem sentido, que, no entanto, parecem estatisticamente significativos. Onde múltiplas comparações são inevitáveis, não há desculpas para não tomar medidas para minimizar os erros do tipo I (falsos positivos, ou "ver efeitos que realmente não existem").

  • Para começar, quando se trata de testes estatísticos, escolha um que seja inerentemente cauteloso. Verifique se as suposições do teste sobre seus dados foram atendidas corretamente.
  • Também é importante examinar os métodos de correção , por exemplo, a correção de Bonferroni . No entanto, esses métodos são às vezes criticados por serem excessivamente cautelosos. Eles podem reduzir o poder estatístico produzindo muitos erros do tipo II (falsos negativos, ou “ignorando os efeitos que realmente existem”).
  • Procure por explicações “nulas” para seus resultados. Quão adequados foram os seus procedimentos de coleta de amostras / dados? Você pode descartar erros sistemáticos? Poderia haver algum efeito de viés de sobrevivência , autocorrelação , ou regressão para a média ?
  • E finalmente, quão plausíveis são possíveis relacionamentos que você encontrou? Nunca leve nada pelo valor nominal, não importa quão baixo o valor p possa ser!

O ceticismo é saudável e, em geral, é uma boa prática sempre ter em mente as explicações nulas de seus dados.

Mas evite a paranóia! Se você projetou bem o seu experimento e analisou seus dados com cautela, vá em frente e considere suas descobertas como reais!

Conheça seus métodos

Recentes avanços tecnológicos e teóricos forneceram aos cientistas de dados uma gama de novas ferramentas poderosas para resolver problemas complexos que não seriam viáveis ??de enfrentar até uma década ou duas atrás.

Há muita emoção em torno desses avanços no aprendizado de máquina e por um bom motivo. No entanto, é muito fácil ignorar quaisquer limitações que possam existir em aplicá-las a um determinado problema.

Por exemplo, as redes neurais podem ser brilhantes na classificação de imagens e no reconhecimento de manuscritos, mas não são uma solução perfeita para todos os problemas. Para começar, eles são muito propensos a overfitting – isto é, ficar muito familiarizados com os dados de treinamento e não conseguir generalizar para novos casos.

Tome sua opacidade também. O poder preditivo das redes neurais geralmente vem ao custo da transparência. Graças à internalização da seleção de recursos, mesmo que uma rede faça uma previsão precisa, você não necessariamente entende como ela chegou à sua resposta.

Em muitos aplicativos comerciais e de negócios, entender "como e por quê" é, com frequência, o resultado mais importante de um projeto analítico. Ceder esse entendimento por uma questão de precisão preditiva pode ou não ser uma compensação que vale a pena fazer.

Da mesma forma, é tentador confiar na precisão de um algoritmo sofisticado de aprendizado de máquina, mas eles não são absolutamente infalíveis.

Por exemplo, a Cloud Vision API do Google, que geralmente é muito impressionante, pode ser facilmente enganada por uma pequena quantidade de ruído em uma imagem. Por outro lado, outro trabalho de pesquisa fascinante mostrou como as Redes Neurais Profundas podem "ver" imagens que simplesmente não estão lá .

Humanos 1 – máquinas nulas. Adicionar um pouco de ruído a uma imagem pode enganar a Cloud Vision API do Google. Via TheRegister.co.uk . O que você tem fumado… ?! Às vezes, os DNNs podem exibir imaginações muito vívidas. Imagens via Nguyen et al, 2014. Leia o artigo sobre arXiv .

Não são apenas métodos de aprendizado de máquina de ponta que precisam ser usados ??com cautela.

Mesmo com abordagens de modelagem mais tradicionais, é necessário ter cuidado para que as principais suposições sejam atendidas. Sempre extrapolar os olhos para além do escopo dos dados de treinamento, se não com suspeita, pelo menos com cautela. A cada conclusão que você tira, sempre pergunte se seus métodos justificam isso.

Isso não quer dizer que não confie em nenhum método – apenas para estar ciente em todos os momentos porque você está usando um método em detrimento de outro, e quais os prós e contras relativos podem ser.

Como regra geral, se você não conseguir criar pelo menos uma desvantagem de um método que esteja considerando, pesquise-o antes de continuar. Sempre use a ferramenta mais simples que fará o trabalho.

Saber quando é e o que não é apropriado usar uma determinada abordagem é uma habilidade fundamental na ciência de dados. É uma habilidade que melhora com a experiência e compreensão genuína dos métodos.

Comunicação

A comunicação é a essência da ciência de dados. Ao contrário das disciplinas acadêmicas, onde seu público-alvo será formado por especialistas altamente treinados em sua área de estudo, o público de um cientista de dados comercial provavelmente será especialista em uma ampla gama de outras áreas.

Mesmo os melhores insights do mundo não valem nada se forem mal comunicados. Muitos cientistas de dados aspirantes vêm de experiências acadêmicas / de pesquisa e serão usados ??para se comunicar com públicos tecnicamente especializados.

Em um ambiente comercial, no entanto, não é demais enfatizar o quanto é importante explicar suas descobertas de uma forma que um público em geral possa entender e trabalhar.

Por exemplo, seus resultados podem ser relevantes para uma variedade de departamentos dentro de uma organização – desde marketing, até operações, até desenvolvimento de produtos. Os membros de cada um deles serão especialistas em seus respectivos campos de trabalho e se beneficiarão de resumos claros, concisos e relevantes de suas descobertas.

Tão importante quanto os resultados reais são as limitações conhecidas de suas descobertas. Certifique-se de que seu público esteja ciente de quaisquer suposições importantes, dados ausentes ou graus de incerteza em seu fluxo de trabalho.

O clichê “uma imagem vale mais que mil palavras” é especialmente verdadeiro na ciência de dados. Para este fim, as ferramentas de visualização de dados são inestimáveis.

Softwares como o Tableau, ou bibliotecas como ggplot2 para R e D3.js , são ótimas maneiras de comunicar dados complexos com muita eficiência. Vale a pena dominar tanto quanto qualquer conceito técnico.

Um pouco de conhecimento dos princípios do design gráfico contribuirá muito para tornar seus diagramas mais inteligentes e profissionais.

Certifique-se de escrever claramente também. A evolução moldou-nos seres humanos em criaturas impressionáveis ??cheias de preconceitos subconscientes, e somos inerentemente mais inclinados a confiar em informações bem apresentadas e bem escritas.

Às vezes, a melhor maneira de entender um conceito é interagir com ele mesmo – então, pode valer a pena aprender algumas habilidades da Web de front-end para produzir visualizações interativas com as quais o seu público possa brincar. Não há necessidade de reinventar a roda. Bibliotecas e ferramentas como D3.js e R's Shiny facilitam muito sua tarefa.

Obrigado pela leitura! Se você tiver algum comentário ou comentários, por favor deixe uma resposta abaixo – estou ansioso para lê-los!