Controlando várias comparações no Digital Analytics

Frank Hopkins Blocked Unblock Seguir Seguindo 4 de janeiro

Quanto mais inferências são feitas, mais provável é que ocorram inferências errôneas. Várias técnicas estatísticas foram desenvolvidas para evitar que isso aconteça, permitindo que níveis de significância para comparações simples e múltiplas sejam diretamente comparados. ”

Ao realizar um experimento, nosso objetivo, seja como analistas de dados ou cientistas, exige que aprendamos o máximo que pudermos com nossas descobertas. Isso pode ser alcançado em inúmeras capacidades, mas normalmente procuramos fazer isso determinando o máximo possível de métricas úteis ou executando a segmentação post-hoc apropriada. Ambas as técnicas nos ajudam a entender mais sobre nossos públicos de diferentes maneiras. No caso de definir métricas, podemos procurar estabelecer como as alterações em nossas plataformas digitais afetam as métricas primárias, mas, como conseqüência, como as alterações podem afetar outros aspectos importantes de nossa página (ou seja, danos às métricas de integridade). Com relação à segmentação, podemos procurar executar análises estatísticas subseqüentes para determinar a rota de achados significativos ou não significativos; por exemplo, uma mudança global positiva no desempenho da página atribuível ao desempenho em um determinado dispositivo ou plataforma? Ou talvez por um certo demográfico. Todo o presente acima significa cavar mais fundo em suas descobertas e sintetizar insights tangíveis para criar hipóteses futuras. No entanto, isso tem um custo …

Figura 1. Possíveis resultados de testes de experimentação, apresentando erros de Tipo 1 e Tipo 2

Quanto mais comparações você incluir em sua análise, maiores serão as chances de você observar um erro do tipo I – que também é conhecido como falso positivo. Este artigo irá primeiro descrever como adicionar comparações à sua análise afeta seus resultados estatísticos e métodos que podem ser adotados para controlar esse fator. Se você adotou um nível de confiança de 95% em seus procedimentos de experimentação, você aceitou uma taxa de falsos positivos de 5% em uma única métrica. No entanto, assim que você olha para mais de uma métrica, a probabilidade de detectar um falso positivo aumenta. Portanto, quanto mais comparações, mais falsos positivos.

Figura 2. Representação visual obtida do Skyscanner Engineering mostrando o aumento da taxa de falsos positivos ao incluir mais métricas na análise.

A Figura 2 foi tirada da análise pública feita pelo Skyscanner , onde eles normalmente adotam 14 métricas em seu scorecard de experimentação. Ele descreve um experimento que não teve impacto real (A vs A; teste AA) e a probabilidade de que ele pareça ter impactado significativamente uma métrica, em função do aumento do número de métricas nas análises. Ao adotar 14 métricas em procedimentos, há uma chance de ~ 50% de um ou mais falsos positivos em qualquer experimento.

Essa noção de uma taxa de falsos positivos inflados também pode ser aplicada ao teste multivariado (MVT), em que você está experimentando várias condições. Da mesma forma, a segmentação post-hoc, que pode ser executada com sua integração de análise para dividir uma única métrica em segmentos de dispositivo, plataforma, geográficos e / ou demográficos, também aumentará sua taxa de falsos positivos. Além disso, o Skyscanner afirma que "Se você observasse como um experimento alterava uma única métrica em cada um dos 20 países diferentes, encontraria pelo menos um país significativamente afetado em 60% do tempo, mesmo quando não houvesse nenhum efeito real de experiência adicional. ”Apoiando ainda mais a necessidade de controle para múltiplas comparações.

Felizmente, existem numerosos métodos estatísticos que podem ser utilizados para mitigar o problema de comparação múltipla; que tipicamente envolvem o ajuste do limiar de significância que você optou por usar antes de conduzir sua análise, de modo que o valor de p necessário para determinar um resultado de teste como positivo também é uma função do número de comparações que o experimento está considerando.

Como sabemos, o teste de hipóteses estatísticas é baseado na rejeição da hipótese nula se a probabilidade dos dados observados sob as hipóteses nulas for relativamente baixa. Se várias hipóteses forem testadas, a chance de um evento raro aumenta e, portanto, a probabilidade de rejeitar incorretamente uma hipótese nula (isto é, cometer um erro do Tipo I) aumenta. Portanto, métodos como a correção de Bonferroni compensam o aumento mencionado testando cada hipótese / comparação individual em um nível de significância de a / n , onde a é o nível alfa desejado e n é o número de comparações. A correção de Bonferroni controla a Taxa de Erros Familiares (FWER), que é a probabilidade de que pelo menos uma das suas comparações pareça significativa, quando não há um efeito positivo real de sua experiência. FWER é a probabilidade de rejeitar pelo menos uma hipótese verdadeira, isto é, de fazer pelo menos uma descoberta positiva falsa (erro Tipo I).

Vou detalhar um exemplo de como isso pode parecer para sua experimentação de análise digital abaixo.

Você está preocupado com a significância estatística de uma única métrica, entre três regiões individuais do Reino Unido, com um nível alfa de 95%:

n = 3

a = 0,05

Portanto, ao aplicar as correções Bonferroni, você testaria cada região geográfica / comparação como tal:

a = 0,05 / 3

= 0,015

Este valor é então usado como seu p-valor corrigido, onde você só aceitaria o resultado do teste como estatisticamente significativo se fosse <0,015. Esse valor p corrigido pode ser fácil de incluir em qualquer planilha personalizada ou calculadoras estatísticas usadas para determinar os efeitos estatísticos de sua análise.

Em relação ao controle para FWER, Bonferroni é amplamente considerado um método conservador para controlar comparações múltiplas se houver um grande número de testes e / ou comparações que sejam correlacionadas positivamente. Isso porque uma suposição é feita de que cada comparação é independente uma da outra para todas as comparações. Isto conseqüentemente significa que a correção feita vem ao custo de aumentar a probabilidade de renderizar um falso negativo (Erro Tipo II) e reduzir seu poder estatístico. No entanto, é consenso geral dos estatísticos que é melhor subestimar o verdadeiro efeito de um experimento do que superestimar grosseiramente um efeito – portanto, é melhor adotar uma correção conservadora do que estar aceitando um alto volume de resultados de testes falso-positivos. .

Para concluir, ao trabalhar no campo da análise digital, você procurará sintetizar o máximo possível das descobertas da sua experiência. No entanto, a realização de comparações mais granulares pode levar a um aumento concomitante na probabilidade de determinar um falso positivo. Portanto, métodos como as correções de Bonferroni podem ser usados em análises post-hoc para ajustar seu valor-p para considerar o aumento de métricas ou comparações experimentais. Embora este método seja amplamente considerado um meio conservador de contabilizar comparações múltiplas, ele é usado em uma infinidade de práticas científicas e é adequado quando há um baixo grau de co-linearidade entre as comparações experimentais.