Métricas para compreender modelos de regressão em inglês simples: parte 1

Entrevistas em Ciência de Dados esperam uma compreensão intuitiva dessas métricas

Manoj Dobbali, MS-DS MBA Blocked Desbloquear Seguir Seguindo 13 de janeiro Foto de Volkan Olmez no Unsplash

É fácil lembrar que regras como o bom para ter RMSE e MAE devem ser baixas, R Squared e outros sabores de valores R Squared devem ser altos. Mas, as entrevistas da Data Science esperam pouco mais dos candidatos. Eles não perguntam se o valor de R-Squared de 0,6 ou 0,7 é melhor. Pode-se esperar perguntas como quais métricas você usaria para avaliar um modelo de regressão e por que essa métrica? Além disso, se o seu papel é como um tradutor analítico em sua empresa, você pode ter que explicar conceitos complexos para os negócios de uma maneira simples. Então, este post é intuitivamente explicando-os em vez de fornecer código. É fácil encontrar trechos de código de sci-kit learn docs ou Stackoverflow sobre como calcular essas pontuações.

Vamos considerar um modelo de regressão linear simples criado com 11 observações (n), que é um número anormalmente baixo de exemplos, mas deve ser suficiente para demonstrar o ponto. Essas observações são representadas por pontos laranja e equação de regressão linear ou a linha de melhor ajuste é em verde.

Fig 1. Exemplo de Regressão Linear Simples

Da figura 1 podemos dizer que o modelo de regressão linear não é perfeito. Existem quatro pontos na linha e outros pontos estão longe da linha em qualquer direção. Enquanto o ponto laranja é o valor real de Y, o ponto de onde a seta azul se origina na linha de regressão é a previsão ?.