Interpretando os coeficientes de regressão linear

Eryk Lewinson Blocked Desbloquear Seguir Seguindo 13 de janeiro

Hoje em dia existe uma infinidade de algoritmos de aprendizado de máquina que podemos tentar encontrar o melhor ajuste para o nosso problema em particular. Alguns dos algoritmos têm interpretação clara, outros funcionam como um blackbox e podemos usar abordagens como LIME ou SHAP para derivar algumas interpretações.

Neste artigo, gostaria de me concentrar na interpretação dos coeficientes do modelo de regressão mais básico, ou seja, a regressão linear , incluindo as situações em que as variáveis dependentes / independentes foram transformadas (neste caso, estou falando de transformação de log).

1. modelo de nível de nível

Básico de regressão linear (sem os resíduos)

Presumo que o leitor esteja familiarizado com a regressão linear (se não houver muitos artigos bons e posts médios), então focar-me-ei apenas na interpretação dos coeficientes.

A fórmula básica para a regressão linear pode ser vista acima (omiti os resíduos de propósito, para manter as coisas simples e diretas). Na fórmula y denota a variável dependente e x é a variável independente. Por simplicidade, vamos supor que seja uma regressão univariada, mas os princípios obviamente também valem para o caso multivariado.

Para colocá-lo em perspectiva, digamos que após a montagem do modelo recebemos:

Interceptar (a)

Vou quebrar a interpretação do intercepto em dois casos:

  • x é contínuo e centrado (subtraindo a média de x de cada observação, a média de x transformado torna-se 0) – a média de y é 3 quando x é igual à média da amostra
  • x é contínuo, mas não centrado – a média y é 3 quando x = 0
  • x é categórico – a média y é 3 quando x = 0 (esse tempo indica uma categoria, mais sobre isso abaixo)

Coeficiente (b)

  • x é uma variável contínua

Interpretação: um aumento unitário em x resulta em um aumento na média de y em 5 unidades, todas as outras variáveis mantidas constantes.

  • x é uma variável categórica

Isso requer um pouco mais de explicação. Digamos que x descreva gênero e possa assumir valores ('masculino', 'feminino'). Agora vamos convertê-lo em uma variável dummy que recebe valores 0 para homens e 1 para mulheres.

Interpretação: média y é maior em 5 unidades para mulheres do que para homens, todas as outras variáveis mantidas constantes.

2. modelo de nível de log

Log denota o logaritmo natural

Normalmente, usamos a transformação de log para extrair dados periféricos de uma distribuição com inclinação positiva mais próxima do volume dos dados, a fim de tornar a variável normalmente distribuída. No caso de regressão linear, um benefício adicional do uso da transformação de log é a interpretabilidade.

Exemplo de transformação de log: direita – antes, esquerda – depois. Fonte

Como antes, digamos que a fórmula abaixo apresenta os coeficientes do modelo ajustado.

Interceptar (a)

A interpretação é semelhante à do caso baunilha (nível-nível), no entanto, precisamos tomar o expoente do intercepto para interpretação exp (3) = 20.09. A diferença é que esse valor representa a média geométrica de y (em oposição à média aritmética no caso do modelo de nível de nível).

Coeficiente (b)

Os princípios são novamente semelhantes ao modelo de nível de nível, quando se trata de interpretar variáveis categóricas / numéricas. Analogicamente ao intercepto, precisamos tomar o expoente do coeficiente: exp ( b ) = exp (0,01) = 1,01. Isto significa que um aumento unitário em x causa um aumento de 1% na média (geométrica) y , todas as outras variáveis mantidas constantes.

Duas coisas que vale a pena mencionar aqui:

  • Existe uma regra prática quando se trata de interpretar coeficientes de tal modelo. Se abs (b) <0,15, é bastante seguro dizer que, quando b = 0,1, observaremos um aumento de 10% em y para uma mudança de unidade em x . Para coeficientes com maior valor absoluto, recomenda-se calcular o expoente.
  • Ao lidar com variáveis no intervalo [0, 1] (como porcentagem), é mais conveniente para a interpretação multiplicar primeiro a variável por 100 e depois ajustar o modelo. Desta forma, a interpretação é mais intuitiva, pois aumentamos a variável em 1 ponto percentual em vez de 100 pontos percentuais (de 0 a 1 imediatamente).

3. modelo de log de nível

Vamos supor que após a montagem do modelo recebemos:

A interpretação da intercepção é a mesma que no caso do modelo de nível de nível.

Para o coeficiente b – um aumento de 1% em x resulta em um aumento aproximado na média y por b / 100 (0,05 neste caso), todas as outras variáveis mantidas constantes . Para obter o valor exato, precisaríamos de b × log (1,01), que neste caso dá 0,0498.

4. modelo log-log

Vamos supor que após a montagem do modelo recebemos:

Mais uma vez me concentro na interpretação de b. Um aumento em x de 1% resulta em um aumento de 5% na média (geométrica) y , todas as outras variáveis mantidas constantes. Para obter a quantia exata, precisamos levar

qual é ~ 5.1%.

Conclusões

Espero que este artigo tenha lhe dado uma visão geral de como interpretar coeficientes de regressão linear, incluindo os casos em que algumas das variáveis foram transformadas em log. Caso você tenha algum comentário ou feedback, por favor me avise!

Referências