Entenda as métricas de desempenho de regressão

Por favor, não regride seu desempenho.

Alex Guanga Blocked Unblock Seguir Seguindo 2 de janeiro

Eu não planejei escrever este artigo. No entanto, após o ótimo feedback que recebi sobre “ Entender as métricas de desempenho de classificação ”, sinto que é correto explorar e entender como um problema de regressão é medido.

Coisas para saber antes …

  • Ao contrário de um problema de classificação, o objetivo de um problema de regressão não é fazer previsões sobre uma variável discreta ( este spam de e-mail é ou não ?). Em vez disso, teríamos a tarefa de prever os salários dos funcionários. Seria difícil prever o salário de alguém.
  • Verdade fundamental: estou me referindo à variável dependente real. Por exemplo, a verdade básica seria o salário real do funcionário que estaríamos comparando com a previsão de nossos modelos.
  • Portanto, o objetivo é avaliar nosso desempenho em relação à verdade básica entre todas as previsões ( normalmente usamos a média) .

Trending AI Articles:

1. Vamos construir uma rede neural simples!

2. Árvores de decisão no aprendizado de máquina

3. O equilíbrio da IA passiva vs. IA ativa

4. Uma introdução intuitiva ao Machine Learning

Conforme explicado no artigo Métricas de desempenho de classificação, um conceito crítico antes de explicar as métricas de regressão é como o processo funciona. Você tem três conjuntos de dados. Eles são um conjunto de treinamento, um conjunto de validação e um conjunto de testes.

  • Conjunto de treinamento : você constrói seu modelo usando os dados do conjunto de treinamento. Você, modelos, aprende com as entradas neste conjunto de dados.
  • Conjunto de validação : Existem várias maneiras de obter seu conjunto de validação. Um método simples é remover uma parte dos dados e torná-lo seu conjunto de validação. Assim, quando você treina o modelo, o modelo não aprendeu do conjunto de validação. O conjunto de validação indica o desempenho do seu conjunto de treinamento. Você também pode ajustar hiperparâmetros com o conjunto de validações desde que você saiba as respostas corretas.
  • Conjunto de testes : O conjunto de testes geralmente não está nem perto dos cientistas de dados. Testar nosso modelo durante essas etapas indica o desempenho do nosso modelo.

Vamos prosseguir …

Embora a ciência de dados / aprendizado de máquina seja um setor complicado, é muito intuitivo. Por isso, acredito que explicar essas tarefas difíceis com exemplos simples pode ajudá-lo a entender melhor por que esses métodos / ideias funcionam.

Por isso, vamos prosseguir com um exemplo simples.

Construímos 4 modelos usando Regressão Linear, Regressão de Lasso, Regressão de Ridge e Regressor Random Forest para 4 pessoas ( lembre-se, exemplo simples). Nós previmos US $ 1.000, US $ 1.500, US $ 2.000 e US $ 2.500 para user_1, user_2, user_3 e user_4, respectivamente. A verdade básica para user_1, user_2, user_3 e user_4 foi de US $ 980, US $ 1.943, US $ 1.239 e US $ 2.020, respectivamente.

Como devemos avaliar nossas previsões?

 Para previsão: 
980 + 1943 + 1239 + 2020 = 6182
 Para a verdade do solo: 
1000 + 1500 + 2000 + 2500 = 7000
 # Diferença 
7000 - 6182 = 818

Então, a diferença de US $ 818 nos diz alguma coisa sobre o desempenho do nosso modelo?

Bem, vamos discutir outro exemplo primeiro.

Usando outro modelo, as previsões foram de US $ 1.000, US $ 1.500, US $ 2.000 e US $ 3.318.

 Para previsão: 
1000 + 1500 + 2000 + 3318 = 7818
 Para a verdade do solo: 
1000 + 1500 + 2000 + 2500 = 7000
 # Diferença 
7000 - 7818 = -818

Há algumas coisas para notar:

  • O sinal (negativo ou positivo) faz diferença? O 818 ou o -818 são preferidos?
  • Mesmo que a diferença absoluta fosse a mesma, as previsões são diferentes. A previsão para o segundo conjunto de salários previa corretamente os salários, exceto para uma pessoa. No entanto, a diferença absoluta não mostra isso.

Legal história mano, mas como podemos julgar melhor o desempenho?

Estou feliz que você tenha perguntado "mano".