Quão bom é o seu modelo? – Introdução aos métodos de reamostragem

Os métodos de reamostragem ajudarão você a avaliar e validar seu modelo para que ele funcione melhor em dados não vistos.

Marco Peixeiro Blocked Unblock Seguir Seguindo 4 de janeiro Foto de JOSHUA COLEMAN em Unsplash

Métodos de reamostragem são uma ferramenta indispensável nas estatísticas modernas. Eles envolvem repetidamente a retirada de amostras de um conjunto de treinamento e a montagem de um modelo de interesse em cada amostra, a fim de obter informações adicionais sobre o modelo ajustado. Isso nos permite obter mais informações que não poderiam ser disponibilizadas pela adaptação do modelo apenas uma vez.

Normalmente, o objetivo de um projeto de ciência de dados é criar um modelo usando dados de treinamento e fazer previsões sobre novos dados. Assim, os métodos de reamostragem nos permitem ver como o modelo funcionaria em dados nos quais ele não foi treinado, sem coletar novos dados!

Dois métodos comuns serão discutidos neste post:

  • validação cruzada
  • bootstrap

A validação cruzada ( CV ) é usada para estimar o erro de teste associado a um modelo para avaliar seu desempenho ou para selecionar o nível apropriado de flexibilidade. A avaliação do desempenho de um modelo é geralmente definida como avaliação de modelo e a seleção de modelo é usada para selecionar o nível de flexibilidade. Esta terminologia é amplamente utilizada no campo da ciência de dados.

Em seguida, o bootstrap é usado para fornecer uma medida de precisão de uma estimativa de parâmetro de um determinado modelo.

Agora, vamos mergulhar em cada método!

Mergulhe em cada método … Entendeu? Ha!

Validação cruzada

Abordagem do conjunto de validação

Essa é a abordagem mais básica. Envolve simplesmente dividir aleatoriamente o conjunto de dados em duas partes: um conjunto de treinamento e um conjunto de validação ou um conjunto de hold-out . O modelo é ajustado no conjunto de treinamento e o modelo ajustado é usado para fazer previsões no conjunto de validação.

Esquema de validação esquemática

Acima é um esquema da abordagem do conjunto de validação. Você tem n observações em um conjunto de dados, ele foi dividido aleatoriamente em duas partes. O lado azul representa o conjunto de treinamento e o lado laranja é o conjunto de validação. Os números simplesmente representam as linhas.

Claro, com uma abordagem tão simples, existem algumas desvantagens.

Primeiro, a taxa de erro do teste de validação é altamente variável dependendo de quais observações estão no conjunto de treinamento e validação.

Em segundo lugar, apenas um pequeno subconjunto das observações é usado para ajustar o modelo. No entanto, sabemos que os métodos estatísticos tendem a apresentar pior desempenho quando treinados em menos dados.

MSE para a abordagem do conjunto de validação

Acima, à esquerda, você vê o MSE quando a abordagem do conjunto de validação foi aplicada apenas uma vez. À direita, o processo foi repetido 10 vezes. Como você pode ver, o MSE varia muito.

Isso mostra a variabilidade significativa do MSE quando a abordagem do conjunto de validação é usada.

Claro, existem métodos que abordam essas desvantagens.

Validação cruzada leave-one-out

A validação cruzada leave-one-out ( LOOCV ) é uma opção melhor que a abordagem do conjunto de validação. Em vez de dividir o conjunto de dados em dois subconjuntos, apenas uma observação é usada para validação e o restante é usado para ajustar o modelo.

LOOCV esquemático

Acima é um esquema de LOOCV. Como você pode ver, apenas uma observação é usada para validação e o restante é usado para treinamento. O processo é então repetido várias vezes.

Após várias execuções, o erro é estimado como:

LOOCV estimado erro

Qual é simplesmente a média dos erros de cada execução.

Este método é muito melhor, porque tem muito menos viés, já que mais observações são usadas para ajustar o modelo. Não há aleatoriedade nas divisões do conjunto de treinamento / validação. Portanto, reduzimos a variabilidade do MSE, conforme mostrado abaixo.

MSE de LOOCV

validação cruzada k-fold

Esta abordagem envolve dividir aleatoriamente o conjunto de observações em k grupos ou dobras de tamanho aproximadamente igual. A primeira dobra é tratada como um conjunto de validação e o modelo é ajustado nas dobras restantes. O procedimento é então repetido k vezes, onde um grupo diferente é tratado como o conjunto de validação.

esquema de validação cruzada k-fold

Assim, você percebe que o LOOCV é um caso especial de validação cruzada k-fold, onde k é igual ao número total de observações n . No entanto, é comum definir k igual a 5 ou 10.

Enquanto o LOOCV é computacionalmente intensivo para grandes conjuntos de dados, o k-fold é mais geral e pode ser usado com qualquer modelo. Além disso, geralmente fornece estimativas mais precisas do erro de teste do que o LOOCV.

Bootstrap

O Bootstrap é uma ferramenta estatística extremamente poderosa usada para quantificar a incerteza associada a um determinado estimador ou modelo. Um software estatístico pode gerar automaticamente o erro padrão automaticamente para alguns modelos, como a regressão linear. No entanto, o poder real do bootstrap reside no fato de que ele pode ser aplicado a uma ampla gama de modelos em que a variabilidade é difícil de obter ou não ser produzida automaticamente.