Regressão de Ridge para Melhor Uso

Kyoosik Kim Blocked Unblock Seguir Seguindo 2 de janeiro

O objetivo deste post é permitir que você use melhor a regressão de ridge do que apenas usar o que as bibliotecas fornecem. Então, “O que é Regressão de Ridge?”. A maneira mais simples de responder à pergunta é “ Variação da regressão linear” . A pior maneira é começar com as seguintes equações matemáticas que muitos não conseguem entender à primeira vista.

A má notícia é que ainda temos que lidar com isso e a boa notícia é que não começaremos com equações assim, ainda que não apenas agora. O que eu gostaria de começar é 'Mínimos Quadrados Ordinários (OLS) '. Se você tiver pouco ou nenhum histórico sobre regressão linear, este vídeo ajudará você a entender como funciona usando o método do Mínimo Quadrado. Agora, você sabe que o OLS é como o que geralmente chamamos de "Regressão Linear", e usarei o termo como tal.

Antes de seguir em frente

Nas próximas seções, tomarei diferentes abordagens com vários termos e números. Há duas coisas que você gostaria de lembrar. Uma é que não gostamos de overfitting. Em outras palavras, sempre preferimos um modelo que capture padrões gerais . A outra é que nosso objetivo é prever isso a partir de novos dados, não de dados específicos. Portanto, a avaliação do modelo deve basear-se em novos dados (conjunto de testes) e não em dados (conjunto de treinamento) . Além disso, vou usar os seguintes termos de forma intercambiável.

  • Variável Independente = Recurso = Atributo = Preditor = X
  • Coeficiente = Beta = ?
  • Soma Residual de Quadrados = RSS

Por que e por que não OLS

Método do Mínimo Quadrado encontra os Coeficientes Melhores e Imparciais

Você pode saber que o método dos mínimos quadrados encontra os coeficientes que melhor se ajustam aos dados. Mais uma condição a ser adicionada é que ela também encontra os coeficientes imparciais. Aqui imparcial significa que o OLS não considera qual variável independente é mais importante que outras . Ele simplesmente encontra os coeficientes para um determinado conjunto de dados. Em suma, há apenas um conjunto de betas a ser encontrado, resultando na menor soma residual de quadrados (RSS). A questão então torna-se “um modelo com o RSS mais baixo é realmente o melhor modelo?” .

Viés vs. variância

A resposta para a pergunta acima é "não realmente" . Como sugerido na palavra 'Imparcial', precisamos considerar 'Bias' também. Preconceito significa quão igualmente um modelo se preocupa com seus preditores. Vamos supor que existam dois modelos para prever um preço da maçã com dois preditores 'doçura' e 'brilho'; um modelo é imparcial e o outro é tendencioso.

Primeiro, o modelo imparcial tenta encontrar a relação entre os dois recursos e os preços, exatamente como o método OLS faz. Este modelo ajustará as observações da maneira mais perfeita possível para minimizar o RSS. No entanto, isso pode facilmente levar a problemas de overfitting . Em outras palavras, o modelo não terá um bom desempenho com novos dados porque ele é construído para os dados fornecidos de forma específica, de modo que não cabe novos dados.

O modelo tendencioso aceita suas variáveis de forma desigual para tratar cada preditor de maneira diferente. Voltando ao exemplo, gostaríamos apenas de nos preocupar com a "doçura" para construir um modelo e isso deveria funcionar melhor com novos dados. O motivo será explicado após a compreensão do Bias vs. Variance . Se você não estiver familiarizado com o tópico de preconceito versus variância, recomendamos veementemente que você assista a este vídeo que fornecerá informações.

Pode-se dizer que o viés está relacionado a um modelo que não se ajusta ao conjunto de treinamento e que a variância está relacionada a um modelo que não se ajusta ao conjunto de testes . O viés e a variância estão em um relacionamento de compromisso em relação à complexidade do modelo, o que significa que um modelo simples teria um alto-viés e baixa variância, e vice-versa. Em nosso exemplo de maçã, um modelo que considera apenas "doçura" não se ajustaria aos dados de treinamento tanto quanto o outro modelo considerando tanto "doçura" quanto "brilho", mas o modelo mais simples seria melhor para prever novos dados.

Isso ocorre porque "doçura" é um determinante de um preço, enquanto "brilho" não deve ser por bom senso. Todos nós sabemos isso como um ser humano, mas os modelos matemáticos não pensam como nós e apenas calculam o que é dado até encontrar alguma relação entre todos os preditores e a variável independente para ajustar os dados de treinamento.

* Nota : Assumimos que 'doçura' e 'brilho' não estão correlacionados

Onde a regressão de Ridge entra em jogo

Observando a figura de Bias vs. Variância , o eixo Y é 'Erro', que é a 'Soma de Bias e Variância'. Como ambos estão basicamente relacionados com o fracasso, gostaríamos de minimizá-los. Agora, dando uma segunda olhada na figura de perto, você verá que o ponto onde o erro total é menor está em algum lugar no meio. Isso geralmente é chamado de "Sweet Spot".

Vamos lembrar que o OLS trata todas as variáveis igualmente (imparcial). Portanto, um modelo OLS se torna mais complexo à medida que novas variáveis são adicionadas. Pode-se dizer que um modelo OLS é sempre o mais correto da figura, tendo o menor viés e a maior variância. Está fixo lá, nunca se move, mas queremos movê-lo para o ponto ideal. É quando a regressão de rebordos brilha, também conhecida como Regularização . Em uma regressão, você pode ajustar o parâmetro lambda para que os coeficientes do modelo mudem . Isso pode ser melhor compreendido com uma demonstração de programação que será apresentada no final.

Entendimento Geométrico da Regressão de Ridge

Muitas vezes, um gráfico ajuda a entender como um modelo funciona e a regressão de rebordos não é uma exceção. A figura a seguir é a interpretação geométrica para comparar OLS e regressão de rebordo.

Contornos e Estimativa OLS

Cada contorno é uma conexão de pontos onde o RSS é o mesmo, centrado na estimativa do OLS, onde o RSS é o mais baixo. Além disso, a estimativa de OLS é o ponto em que melhor se ajusta ao conjunto de treinamento (low-bias).

Estimativa de Círculo e Ridge

Ao contrário da estimativa do OLS, a estimativa do sulco muda à medida que o tamanho do círculo azul muda. É simplesmente onde o círculo encontra o contorno mais externo. Como funciona a regressão de contornos é como ajustamos o tamanho do círculo. O ponto chave é que a mudança de ? em um nível diferente .

Vamos dizer que ? 1 é 'brilho' e ? 2 é 'doçura'. Como você pode ver, o cume ? 1 cai relativamente mais rapidamente a zero do que o cume ? 2 faz conforme o tamanho do círculo muda (compare as duas figuras). A razão pela qual isso acontece é porque os ? 's mudam de forma diferente pelo RSS. Mais intuitivamente, os contornos não são círculos, mas elipses posicionadas inclinadas.

Os ?s de Ridge nunca podem ser zero, mas apenas convergem para ele, e isso será explicado no próximo com a fórmula matemática. Embora uma expressão geométrica como essa explique bem uma idéia principal, também existe uma limitação que não podemos expressar em três dimensões. Então, tudo se resume a expressões matemáticas.

Fórmula Matemática

Vimos a equação de regressão linear múltipla tanto em termos gerais quanto em versão matricial. Pode ser escrito em outra versão da seguinte maneira.

Aqui argmin significa 'Argumento do Mínimo' que faz a função atingir o mínimo. No contexto, ele encontra os ?s que minimizam o RSS. E nós sabemos como obter os ? da fórmula da matriz. Agora, a questão se torna "O que isso tem a ver com a regressão de rebentamento?".

Novamente, a regressão da crista é uma variante da regressão linear. O termo acima é a restrição da crista da equação OLS. Estamos procurando pelos ? , mas eles agora também precisam atender à restrição acima. Voltando à figura geométrica, o C é equivalente ao raio do círculo, portanto, os ? devem cair na área do círculo, provavelmente em algum lugar na borda.

Norma Vector

Nós ainda queremos entender a primeira equação. Para fazer isso, precisamos atualizar a norma vetorial, que não é nada além da seguinte definição.

A assinatura 2 é como em 'norma L2', e você pode aprender mais sobre normas vetoriais aqui . Nós só nos preocupamos com a norma L2 neste momento, para que possamos construir a equação que já vimos. O que se segue é o mais simples, mas ainda está dizendo o mesmo que estamos discutindo. Observe que o primeiro termo na equação a seguir é basicamente OLS e, em seguida, o segundo termo com lambda é o que faz a regressão da crista.

O que realmente queremos encontrar

O termo com lambda é freqüentemente chamado de 'Penalty', uma vez que aumenta o RSS. Nós iteramos certos valores no lambda e avaliamos o modelo com uma medida como 'Erro Médio Quadrado (MSE)'. Portanto, o valor de lambda que minimiza o MSE deve ser selecionado como o modelo final. Esse modelo de regressão de borda geralmente é melhor que o modelo OLS na previsão . Como se vê na fórmula abaixo, ? cume ‘s mudança com lambda e torna-se a mesma como ? OLS‘s se lambda é igual a zero (nenhuma penalidade).

Por que converge para zero, mas não se torna zero

Implantando a fórmula matricial que vimos anteriormente, o lambda acaba em denominador. Isso significa que, se aumentarmos o valor de lambda, a crista ? 's deve diminuir. Mas ? cume ‘s não pode ser zeros não importa quão grande o valor lambda está definido. Ou seja, a regressão de ridge fornece pesos de importância diferentes para os recursos, mas não elimina recursos sem importância.

Demonstração com o conjunto de dados

O conjunto de dados 'Boston House Price' da biblioteca sklearn é usado para demonstração. Há mais de uma dúzia de recursos explicados nesses metadados . As seguintes bibliotecas python são necessárias durante a demonstração.

* Código completo pode ser encontrado no meu github

Agora o conjunto de dados é carregado, posteriormente, os recursos devem ser padronizados. Como a regressão de rebordo reduz os coeficientes ao penalizar, os recursos devem ser dimensionados para que a condição de início seja justa. Este post explica mais alguns detalhes sobre esse problema.

Em seguida, podemos iterar os valores de lambda variando de 0 a 199. Observe que os coeficientes em lambda igual a zero ( x = 0) são os mesmos com os coeficientes de OLS.

Agora, podemos desenhar o gráfico a partir do quadro de dados. Apenas cinco atributos são selecionados para melhor visualização.

'Sala' deve ser o melhor indicador do preço da casa por intuição. É por isso que a linha em vermelho não diminui muito com a iteração. Pelo contrário, o 'Highway Access' (azul) diminui notavelmente, o que significa que o recurso perde sua importância à medida que buscamos modelos mais gerais.

Os padrões semelhantes são vistos a partir do resto convergindo para zero, a linha pontilhada preta. Se aumentarmos o lambda mais e mais (extremamente tendencioso), então apenas 'Room' permaneceria significante, o que faz sentido novamente porque o número de quartos deve explicar mais.

O trecho de código acima desenha o MSE rastreado por lambda. Como o modelo se torna mais simples (= tendencioso), como um valor maior é definido como lambda, o eixo X representa a simplicidade do modelo da esquerda para a direita.

A linha pontilhada verde é de OLS no gráfico acima com o eixo X sendo desenhado aumentando os valores de lambda. Os valores de MSE diminuem no início à medida que o valor de lambda aumenta, o que significa que a previsão do modelo é melhorada (menos erro) até certo ponto. Em suma, um modelo OLS com algum viés é melhor na previsão do que o modelo OLS puro , chamamos esse modelo OLS modificado como o modelo de regressão de rebordo.

Conclusão

Analisamos a regressão de rebordos em ângulos diferentes da fórmula matemática, formato de matriz e expressão geométrica. Através destes, poderíamos entender que a regressão de rebentamento é basicamente uma regressão linear com penalidade. Através da demonstração, confirmamos que não há equação para encontrar o melhor lambda . Assim, precisamos iterar uma série de valores e avaliar os desempenhos de previsão com o MSE. Ao fazer isso, descobrimos que o modelo de regressão de crista tem um desempenho melhor do que o modelo de regressão linear simples para previsão.

  • O OLS simplesmente encontra o melhor ajuste para dados fornecidos
  • Os recursos têm diferentes contribuições para o RSS
  • Regressão de Ridge dá um viés a características importantes
  • MSE ou R-square pode ser usado para encontrar o melhor lambda

Boas leituras

Bem vindo ao STAT 501! | STAT 501
Este é o site de materiais do curso online STAT 501. Há muitos exemplos, notas e materiais de leitura sobre isso… onlinecourses.science.psu.edu
sklearn.linear_model.Ridge – scikit-learn 0.20.0 documentação
Este modelo resolve um modelo de regressão onde a função de perda é a função de mínimos quadrados lineares e a regularização é… scikit-learn.org
Manual de instruções do IPython – 8.1. Começando com o scikit-learn
Livro de receitas do IPython, ipython-books.github.io