Seu conjunto de dados é um teste gigante de mancha de tinta

O perigo da apofenia nas análises e o que você pode fazer

Cassie Kozyrkov Segue 17 de jul · 6 min ler

Há uma linha tênue entre contar histórias com dados e contar mentiras. Antes de lhe dizer como identificar um analista de dados de alto nível e impulsionar sua excelência analítica, deixe-me assustá-lo um pouco.

A armadilha psicológica na análise de dados

Cérebros humanos são potências que buscam padrões … mas esses padrões nem sempre têm a ver com a realidade. Nós somos o tipo de espécie que encontra coelhos nas nuvens e o rosto de Elvis em uma batata frita .

Estes parecem um coelho e um retrato de Elvis para você? Imagem: FONTE .

Reserve um momento para considerar o teste de Rorschach – aquele em que as pessoas recebem manchas de tinta aleatórias e pergunta o que elas vêem – e você apreciará o quanto a mente injeta interpretações espúrias na aleatoriedade.

Bastão? Borboleta? Ou apenas um borrão de tinta? Este é o primeiro dos dez cartões do teste de Rorschach , criado em 1921.

Os psicólogos têm um nome bonito para essa tendência de conjurar o falso significado do nada: a apofenia . Dê aos humanos um estímulo vago e encontraremos rostos, borboletas e um motivo para alocar orçamento ao nosso projeto favorito ou lançar um sistema de IA .

Uh-oh

Há muitos ruídos aleatórios na maioria dos conjuntos de dados, então, quais são as chances de que não haja apofenia acontecendo com sua análise ? Você pode realmente confiar na sua interpretação dos dados?

O que a mente faz com manchas de tinta também faz com dados.

Para piorar as coisas, quanto mais maneiras existem para dividir esses conjuntos de dados e quanto mais complexos eles são, mais vagos eles são como estímulos. Isso significa que eles estão praticamente implorando para que você veja falsas bobagens neles.

Conjuntos de dados complexos praticamente imploram para que você encontre um falso significado neles.

Você tem certeza de que sua última epifania de dados não é uma aparição disfarçada?

Outra grande palavra é a pareidolia , que é uma espécie de apofenia (encontrar coisas familiares em estímulos sensoriais vagos). No Japão, eles até têm um museu de rochas que parecem rostos. É um mundo lindo.

Mentiras, malditas mentiras e análises

Se isso soa sombrio, ainda não terminei. Fazer cursos de análise de dados pode despejar combustível naquele incêndio psicológico. Os alunos estão condicionados a esperar que olhar para os dados produza um significado real, porque cada exercício de análise exploratória da lição de casa enterrou nele tesouros. Pouquíssimos professores têm o coração de mandá-lo em perseguições selvagens (para seu próprio bem!) E é difícil avaliar as tarefas em aberto, então você normalmente não consegue exposição suficiente para eles como estudante.

Os alunos crescem acreditando que cada conjunto de dados está pronto para liberar uma fatia da verdade sólida.

A narração de histórias de dados é apenas um salto, pule e salte de mentir com dados. Deixando de lado a questão de saber se os padrões são reais, vamos falar sobre múltiplas interpretações. Só porque você vê uma forma de morcego na mancha de tinta não significa que não há também uma borboleta, uma pélvis ou um par de raposas nela. Se eu não tivesse mencionado as raposas, você as teria visto? Provavelmente não. Mecanismos psicológicos relacionados à motivação e atenção empilharam o baralho contra você. É preciso um tipo especial de habilidade para liberar a interpretação do bastão e forçar-se a ver uma superposição de significados.

Uma vez que as pessoas se interessem pelo seu "insight" favorito, elas se esforçarão para desassociá-lo.

O problema é que, uma vez que as pessoas se interessem pelo seu “insight” favorito, elas se esforçarão para se desfazer em favor dos outros. As pessoas tendem a acreditar mais fortemente em qualquer interpretação que tenha capturado sua atenção primeiro e cada significado adicional reduz sua motivação para continuar procurando. Fazer malabarismos com várias histórias em potencial sem sobrecarregar seu favorito é um músculo mental que exige muito trabalho para construir. Infelizmente, nem todo analista tem a disciplina para isso. De fato, muitos são incentivados a “provar” um lado de uma história por meio da exploração de dados. Por que desenvolver habilidades que só atrapalham o cheque de pagamento da ciência de dados?

Qual a cor do seu sabre de luz?

Existem maneiras de provar coisas com dados (honesta e rigorosamente) – meu próximo artigo lhe dirá mais – mas a análise exploratória de dados (EDA) não é uma delas. A exploração de dados abertos é sempre uma expedição de pesca. O que determina a cor do seu sabre de luz é o que você está pescando.

Se você se juntar ao lado sombrio, você está pescando evidências para apoiar uma teoria que você já “sabe” ser verdadeira (então você pode vendê-la para alguma vítima ingênua). Você pode até não perceber que seu sabre de luz é vermelho se você realmente acredita na objetividade dos dados e em sua própria imparcialidade .

A exploração de dados abertos é sempre uma expedição de pesca.

Com um conjunto de dados suficientemente complexo (vago), você encontrará um padrão que pode girar como suporte para sua história favorita. Essa é a beleza do teste de Rorschach , afinal. Infelizmente, é pior com dados do que com borrões de tinta, porque quanto mais matemático for seu método ( p-hacking , alguém?), Mais legítimo e convincente você será para aqueles que não conhecem melhor.

Foto de satélite da " Face em Marte ", que muitas pessoas tomaram como prova de habitação extraterrestre.

Aqueles que rejeitam o lado negro também vão pescar, mas estão atrás de outra coisa: inspiração. Eles estão procurando por padrões que possam ser interessantes ou convincentes, mas eles sabem melhor do que tomá-los como prova . Em vez disso, eles praticam uma espécie de análise de mente aberta zen com a disciplina para ter em mente o maior número possível de interpretações.

Os melhores analistas se desafiam a encontrar tantas interpretações quanto possível.

Isso leva um olho afiado e uma mente humilde e impassível. Em vez de enganar as partes interessadas para ver apenas um lado de uma história, elas se desafiam a fazer o pensamento criativo necessário para digerir os mesmos dados em tantas histórias quanto possível. Eles apresentam suas descobertas de uma forma que inspira um acompanhamento rigoroso, sem fazer com que sua equipe de liderança corra de forma exagerada em um penhasco.

Mente aberta dá à análise de dados uma chance de valer a pena.

Como um bônus adicional, a disciplina para procurar múltiplas interpretações é a arma secreta de um analista para não cochilar com os verdadeiros tesouros enterrados nos dados. Se você se distrai com uma falsidade em que acredita, o viés de confirmação dificulta a observação de evidências que apontam na direção oposta. Por que se preocupar em analisar alguma coisa se suas conclusões são determinadas com antecedência? Mente aberta dá a todo o esforço uma chance de valer a pena.

Este sanduíche de queijo grelhado foi arrematado por US $ 28 mil em leilão, porque conta com a Virgem Maria. Interpretações alternativas do que estamos vendo, alguém?

Contratando um ótimo analista

Se você gostou de meus outros artigos sobre análise, aqui estão os traços que você já está procurando em um ótimo analista:

  • Eles não fazem inferências que vão além dos dados que estão explorando. [1]
  • Eles são úteis com ferramentas de ciência de dados e têm as habilidades para filtrar vastos conjuntos de dados rapidamente. [2]
  • Eles têm conhecimento de domínio relevante, então eles são menos propensos a desperdiçar o tempo das partes interessadas com trivialidades. [3]
  • Eles entendem que seu trabalho é prospectar inspiração. [3]
  • Eles visualizam os dados de uma maneira amigável ao cérebro, de modo que o tempo de inspiração é mantido o mais curto possível. [3]
  • Eles sabem o que é preciso para acompanhar rigorosamente qualquer informação que eles encontrem. [4] [5] [6]

Além de tudo isso, este artigo sugere que você procure analistas com mais três características:

  • Eles estão conscientes de que a mente encontra significado onde não existe, então eles permanecem humildes e evitam tirar conclusões precipitadas.
  • Eles não tentam lhe vender uma história encontrada torturando dados até que confesse. Em vez disso, eles usam a linguagem de cobertura / suavização ao falar sobre dados.
  • Eles têm a disciplina para criar múltiplas interpretações para tudo . Quanto mais rápido eles produzem múltiplas explicações e quanto mais alternativas geram, mais a força são eles. Tente entrevistar essa habilidade na próxima vez que você contratar um Jedi analítico.

Finalmente, se você é um líder, dê uma olhada crítica e certifique-se de que está dando ao seu pessoal os incentivos corretos. Você está procurando um analista de dados ou um médico de dados? Estes levam diferentes mentalidades (e qualificações!), Então escolha sabiamente e recompense os comportamentos certos.