Análise de hipótese explicada

Farhad Malik Blocked Unblock Seguir Seguindo 19 de julho de 2018

A análise de hipóteses é um conceito amplamente conhecido e é amplamente utilizado por pesquisadores, estatísticos e analistas quantitativos. Isso permite que eles sigam um conjunto de etapas formais para executar análises calculadas em seus dados. Também é amplamente utilizado em aprendizado de máquina e inteligência artificial. Neste artigo, explicarei os principais conceitos da análise de hipóteses. Por favor, leia Disclaimer antes de prosseguir.

A análise de hipóteses ajuda os pesquisadores a obter uma visão mais profunda sobre seus dados. Consequentemente, permite-lhes tomar melhores decisões, o que é apoiado por um conjunto de medidas calculadas matematicamente.

Idéia em poucas palavras:

  • Faça uma suposição sobre um conceito ou dados
  • Colete informações para testar a suposição
  • Verifique se a suposição está correta
  • Indique sua hipótese
  • Repita se necessário

Vamos repassar o conjunto de etapas formais:

Etapa 1. Situar a Hipótese – Nula e Alternativa

Na prática, duas suposições de hipóteses são feitas sobre os dados:

  • Um que é acreditado para ser verdade; conhecida como Hipótese Nula (H0)
  • Um que é acreditado para ser falso; conhecida como Hipótese Alternativa (Ha)

É essencial garantir que as hipóteses nula e alternativa sejam quantificáveis, de modo que possam ser medidas durante o estágio de verificação.

É importante ressaltar que nem a hipótese nula nem a hipótese alternativa podem ser verdadeiras ao mesmo tempo. Portanto, tanto a hipótese nula quanto a alternativa são mutuamente inclusivas.

Amostra para Representar População

Muitas vezes somos obrigados a avaliar e fazer um julgamento sobre uma população de dados. Como o teste de todas as observações em uma população é ocasionalmente impossível, uma amostra representativa é escolhida. A amostra é escolhida de forma que seja a melhor representação da população de dados sob teste.

O sucesso da análise de hipóteses baseia-se na qualidade da amostra escolhida.

Amostra tem uma distribuição de probabilidade

Várias medidas podem ser calculadas após a coleta de uma amostra. Por exemplo, média, variância, kertose, assimetria e desvio padrão são conjuntos comuns de medidas. Uma amostra pode ser considerada como uma variável aleatória com sua própria distribuição de probabilidade, padrões e tendências.

Podemos coletar um número de amostras e exercitar seus meios, desvio padrão e variações para obter uma melhor percepção dos dados.

  • A média de uma amostra é a soma de todos os valores possíveis em uma amostra dividida pelo número de observações em uma amostra. É o primeiro momento.
  • A variância de uma amostra informa um estatístico sobre a dispersão da variável aleatória de sua média. É o segundo momento. Ao calcular a variância, o nominador é escolhido para ser o tamanho da amostra – 1 para garantir que os valores calculados sejam imparciais (mais sobre este tópico mais adiante).
  • Desvio Padrão é a raiz quadrada da variância da amostra
  • Erro padrão é a medida de desvio padrão da amostra.

Passo 2: Vamos considerar um nível válido de significância – valor alfa

O que é alfa?

Alfa é o nível de significância na análise de hipóteses.
Para elaborar, Alpha é o intervalo de valores que podem ser aceitos antes que a Hipótese Nula seja rejeitada. É o limite inferior.

O nível de significância pode ser de 1% ou 5%, por exemplo.

Etapa 3: seu teste 1 cauda ou 2 cauda

Hipótese alternativa pode ter duas formas: uma cauda ou duas cauda

Um teste alternativo da hipótese da cauda:

Hipótese alternativa de uma cauda são testes unidirecionais. Por exemplo, vamos supor que você é um investidor e quer testar se o retorno do setor de construção é maior do que o retorno do setor farmacêutico para que você possa tomar uma decisão consciente antes de investir seus milhões. Daí seu teste é um direcional como ele está simplesmente testando retornos de um setor contra o outro.

Alternativa de Duas Caudas Teste de Hipóteses:

Testes de hipótese alternativos de duas caudas são testes bidirecionais e um estatístico está interessado em verificar a igualdade de dados. Os resultados do teste podem se mover em qualquer direção. Por exemplo, suponha que a Hipótese Nula afirma que, em média, um trabalho em um sistema de TI leva 5 minutos para ser concluído. Por outro lado, a Hipótese Alternativa pode ser que, em média, um trabalho no sistema de TI não leva 5 minutos. Daí tempo médio pode se mover em qualquer direção. Você pode descobrir que leva em média 6 minutos ou 4 minutos para que o trabalho seja concluído.

Etapa 4: Selecione Estatísticas Apropriadas: T vs Z vs CHI vs F

Um conjunto de perguntas pode ser solicitado para descobrir uma estatística de teste apropriada:

  • A freqüência de dados é conhecida? Se for conhecido, use o teste do Qui Quadrado.
  • A variação de dados é conhecida? Se a resposta for sim, use as estatísticas Z, caso contrário, use as estatísticas do aluno T.

Cada uma das estatísticas de teste tem sua própria fórmula, que expliquei em meu outro blog.

Etapa 5: Calcular as estatísticas de teste

Com base nas estatísticas de teste escolhidas na etapa 4, aplique a fórmula e calcule o valor.
Compare o valor com o nível de significância.

Etapa 6: Decisão do Estado

Com base nos resultados do cálculo na etapa 5, se a análise de hipótese é aceita ou rejeitada é declarada.

Esse conjunto de etapas depende da amostra escolhida e da qualidade dos testes. Isso implica que sempre há uma chance de que um erro tenha sido cometido. Por exemplo, os testes podem acabar por provar que a Hipótese Nula está errada quando está certa ou podem acabar por provar que a Hipótese Alternativa está errada quando está certa.

Tipos de erros: tipo 1 e tipo 2

Na análise de hipóteses, existem dois tipos de erros:

  1. Erro tipo 1: a hipótese nula estava correta, mas a análise provou que estava errada
  2. Erro tipo 2: a hipótese nula estava errada, mas a análise não pôde provar que estava errada

Análise de hipóteses explicada com um exemplo

Vamos supor que você é um gerente de TI em um fundo de hedge. Um dos seus sistemas críticos executa um lote durante a noite e diminuiu significativamente. O lote agora leva em média 12 horas para ser concluído diariamente. Ele foi notificado pela equipe de suporte e você está procurando soluções alternativas para o sistema de TI atual.

Como há custo associado à execução de lotes para a hipótese, o gerenciamento de TI conclui que só faz sentido substituir a estrutura existente se a nova estrutura garantir que, em média, cada trabalho em lote seja concluído em menos de 6 horas. Isso implica que, se o teste concluir que um trabalho leva mais de 6 horas, o gerenciamento não aceitará o novo framework de TI.

Uma consultoria externa entra em contato com você e oferece a você a utilização de sua estrutura, o que garantiria, em média, que cada trabalho em lote seja concluído em seis horas.

Antes de aceitá-lo cegamente, você decide testar a hipótese.

Você obtém o framework instalado em um ambiente de teste. Além disso, você decide executar uma amostra de tarefas; alguns à noite e alguns pela manhã.

Teste

Uma amostra de 30 trabalhos em lote é escolhida. Seja x o tempo de um trabalho em lote em uma amostra.

  • Hipótese nula: a média de trabalhos de amostra é menor ou igual a 6 horas
  • Hipótese Alternativa: A média de trabalhos de amostra é igual ou superior a 6 horas
  • Você pode ver que sua Hipótese Alternativa é de uma cauda, já que a média dos empregos pode ser maior que 6 horas.

Além disso, você tenta executar 30 trabalhos em lote e calcular a média e a variância da sua amostra. Como você sabe a variação de sua amostra, você pode testar usando o Z Statistics Test.

Há sempre uma sala para erros (limiar mínimo) e é o nível de significância.
Você decide que o nível de significância é de 1%, então você só aceitará a Hipótese Nula se o tempo médio de trabalho cair em 1%.

  • Executar cálculos z stats – tem uma fórmula bem conhecida
  • Declare sua decisão

Esse conjunto de etapas fáceis de seguir pode ser usado para articular se uma hipótese está correta ou não. Isso ajuda a tornar as decisões avessas ao risco consciente.

Resumo

O artigo destacou o conceito de Análise de Hipóteses, que é usado em vários campos, incluindo gerenciamento de risco, finanças, estatísticas e inteligência artificial. Além disso, ajuda os pesquisadores a obter uma melhor percepção dos dados.

Espero que ajude.

Texto original em inglês.