Análise de Dados de Plataforma de Empréstimo P2P: Análise Exploratória de Dados em R – Parte 2

Descobrindo como os recursos de dados P2P estão vinculados à qualidade do empréstimo

Lorna Yen Blocked Desbloquear Seguir Seguindo 4 de janeiro

No post anterior, descobrimos que o Prosper adotou uma métrica de risco de crédito melhor – Prosper Rating, para a plataforma de empréstimos Prosepr. Sabendo que o Prosper Rating é composto por Prosper Score e Credit Bureau Score , também descobrimos que o Prosper Score desempenha um papel fundamental que faz com que o Prosper Rating tenha mais discriminação do que o Credit Bureau Score em si.

Neste post, investigarei a relação entre o Prosper Score e outros recursos nesses dados do empréstimo para ver como esses recursos se vinculam ao Prosper Score e como esses recursos podem discriminar entre empréstimos concluídos e de alto risco nessa plataforma de empréstimo P2P.

Primeiro Passo: uma Matriz de Correlação

Neste enorme conjunto de dados que contém 81 variáveis, não vou começar a encontrar potenciais recursos úteis, um por um, para evitar que este artigo seja muito longo. Em vez disso, vou começar com uma matriz de correlação com ggcorrplot para obter uma visão geral rápida do relacionamento linear entre os recursos antes da exploração profunda. Através de uma matriz de correlação podemos nos concentrar na variável de nosso interesse – Prosper Score, e verificar se outras variáveis se correlacionam com ela.

Podemos ver que o Prosper Rating tem forte relação negativa com a Taxa do Mutuário , isso faz sentido porque a Taxa do Mutuário é determinada principalmente pelo Rating Prosper . Além disso, o Prosper Rating tem uma forte relação com o Prosper Score, com um coeficiente de correlação de 0,8 em relação ao Credit Score Average's 0,6 . Isso mostra novamente que talvez o Prosper ponha mais pesos no Prosper Score do que no Credit Score Average para modelar o Prosper Rating a partir da perspectiva linear.

Além disso, podemos ver que o Prosper Score mostra um relacionamento linear fraco com ScoreXChangeAtTimeOfListing , InquiriesLast6Meses , BankcardUtilization , DebtToIncomeRatio e StatedMonthlyIncome com o coeficiente de correlação varia de + – 0,2 a + -0,4. Embora esses recursos apresentem um relacionamento linear fraco com o Prosper Score, acredito que ainda exista alguma informação nesses recursos. Usando a matriz de correlação como referência, selecionarei esses cinco recursos e, em seguida, plotar os dispersos para investigar mais tendências entre esses recursos.

Minha investigação através de gráficos inclui duas partes: uma é ver como esses recursos são vinculados ao Prosper Score; a outra é ver se esses recursos podem discriminar entre empréstimos concluídos e de alto risco ou não.

Pontuação X mudança no momento da listagem

O ScoreXChangeAtTimeOfListing mede as alterações na pontuação de crédito do tomador no momento em que o perfil de crédito foi retirado, e a mudança é relativa ao último empréstimo Prosper do tomador . O valor de ScoreXChangeAtTimeOfListing pode ser positivo ou negativo, pois avalia o valor "alteração" da pontuação de crédito.

O gráfico acima mostra que a tendência linear entre o Prosper Score e o ScorexChangeAtTimeOfListing é clara, com tendência crescente à medida que um ponto do Prosper Score aumenta. Inferi que o Prosper Score vê ScorexChangeAtTimeOfListing como um sinal importante e o usa com um incremental linear para o escore modal de Prosper.

Como se liga ao status do empréstimo?

Agrupe o status do empréstimo entre Prosper Score e ScorexChangeAtTimeOfListing, podemos ver que a tendência é clara. Empréstimos de alto risco tendem a ter menor Prosper Score de 1 a 6 e menor ScorexChangeAtTimeOfListing intervalo de -100 a 50. Empréstimos concluídos tendem a ter maior escala de Prosper Pontuação de 6 a 10 e maior ScorexChangeAtTimeOfListing intervalo de -50 a 100. Parece Prosper Score pode discriminar empréstimos concluídos e de alto risco em relação a níveis diferentes em ScorexChangeAtTimeOfListing .

Esse resultado de exploração é interessante, pois o ScorexChangeAtTimeOfListing está considerando a pontuação de crédito do tomador em relação ao último empréstimo Prosper do tomador, o que significa que a métrica não considera apenas a pontuação de crédito do tomador, mas também considera o histórico dos dados do Prosper. Com base no conceito, fiquei impressionado com o fato de o Prosper tirar o melhor proveito da pontuação de crédito e dos dados do Prosper , e apresentar essa tendência entre os empréstimos concluídos e de alto risco.

Inquéritos Últimos 6 Meses

Essa variável avalia o número de consultas nos últimos seis meses no momento em que o perfil de crédito foi retirado. Uma investigação significa uma solicitação de uma instituição para informações de crédito de uma agência de crédito. Em geral, um número elevado de consultas em um período curto sempre ocorre quando alguém frequentemente aplica contas de crédito, como cartão de crédito, o que implica que ele ou ela tem uma demanda de financiamento alta.

No gráfico de dispersão, podemos ver que o relacionamento não está claro, a maioria dos empréstimos localizados em 1 a 2 vezes de InquéritoLast6Meses na Pontuação de Prosper de 2 a 10.Mas a tendência ainda está presente com a diminuição do vínculo superior de InquiriesLast6Meses conforme o Aumento de Prosper aumenta .

Ainda assim, a tendência do status de empréstimos entre o Prosper Score e os Inquéritos de 6 meses não é clara. Podemos ver que a maioria dos empréstimos de alto risco está localizada principalmente no nível mais baixo do Prosper Score, mas eles estão localizados amplamente em cada nível de Inquéritos de 6 meses com a pontuação de Prosper constante.

Como cerca de apenas investigar a diferença do status do empréstimo em inquéritosLast6Meses?

A partir do gráfico acima, podemos ver que não há diferença significativa de Inquéritos de 6 meses entre empréstimos de alto risco ou empréstimos concluídos.

O resultado é um tanto quanto razoável, já que maiores InquéritosLast6Meses de um mutuário não implica diretamente que ele ou ela esteja com um crédito ruim. Pode ter um risco potencial, mas não necessário, pelo menos neste conjunto de dados.

Utilização de cartão bancário

O BankcardUtilization mede o montante total de crédito do tomador que está sendo usado no momento em que o perfil de crédito foi retirado. Quanto menor a proporção, maior a liquidez financeira da pessoa.

Do box plot, a distribuição do BankcardUtilization avança para o down conforme o Prosper Score aumenta, mas a variância do BankcardUtilization é alta em cada Prosper Score, o que faz com que a tendência entre o Prosper Score e o BankcardUtilization não seja clara . Mas ainda existe uma tendência inversa, especialmente para o nível final alto e baixo do Prosper Score. Talvez o Prosper Score tenha usado alguma forma mais complicada no BankcardUtilization para o seu modelo.

A tendência do status de empréstimo entre o Prosper Score e o BankcardUtilization não é clara. Podemos ver que a maioria dos empréstimos de alto risco está localizada principalmente no nível mais baixo do Prosper Score de 1 a 6, mas eles estão localizados amplamente em cada nível de BankcardUtilization que mantém a pontuação de Prosper constante.

Ainda assim, o resultado não me surpreende muito, já que às vezes um BankcardUtilization alto não é necessário para um indivíduo com crédito ruim. Ele ou ela pode ter um crédito de dívida alto na época, mas ainda assim pagará no prazo.

O gráfico acima mostra que a distribuição do BankcardUtilization em High Risk é um pouco maior do que o empréstimo concluído, mas ambos estão com alta variância de BankcardUtilization, o que faz com que ambos não tenham diferença significativa.

Dívida para rácio de rendimento

Em geral, o maior DebtToIncomeRatio demonstra que, se um indivíduo tem muita dívida para o montante de renda que ele ou ela tem. Por outro lado, menor DebtToIncomeRatio significa um bom equilíbrio entre dívida e renda.

Aqui podemos ver que o gráfico acima apresenta uma clara tendência inversa linear quando DebtToIncomeRatio diminui à medida que aumenta a pontuação de Prosper.

E acima gráfico mostra que há uma tendência clara do status do empréstimo e DebtToIncomeRatio em Prosper Score. Os empréstimos de alto risco tendem a ter uma menor pontuação de Prosper em 1 a 6 e com 0,5 a 1 de DebtToIncomeRatio . Empréstimos concluídos tendem a ter um nível mais alto de Prosper Score em 6 a 10, bem como o DebtToIncomeRatio variou de 0,1 a 0,6. Parece que o Prosper Score pode discriminar empréstimos concluídos e de alto risco em relação a níveis diferentes em DebtToIncomeRatio também .

Esse resultado parece razoável, pois o DebtToIncomeRatio é um sinal direto para medir a capacidade de pagamento de um indivíduo.

Renda mensal declarada

Como dados de Renda, a distribuição de StatedMonthlyIncome apresenta uma forma inclinada para a direita a partir de um histograma (não é mostrada aqui), portanto, descubro 1% da variável StatedMonthlyIncome .

O gráfico acima mostra que a tendência entre o Prosper Score e o StatedMonthlyIncome apresenta uma forma côncava. É razoável, uma vez que a renda também é uma métrica direta para medir a capacidade de pagamento da dívida, obviamente, a característica de dados de renda faz um nível incremental exponencial na medição do escore de Prosper. Mais um ponto do Prosper Score requer um nível de renda mais alto.

O gráfico acima mostra que existe uma tendência clara entre o Prosper Score e o StatedMonthlyIncome e o status do empréstimo. Os empréstimos de alto risco tendem a ter um nível mais baixo de Prosper Score de 1 a 6 e com um nível mais baixo de StatedMonthlyIncome entre US $ 2.000 e US $ 5.000. Por outro lado, os empréstimos concluídos tendem a ter um nível mais alto de Prosper Score de 7 a 10 e com um nível mais alto de StatedMonthlyIncome entre US $ 5.000 e US $ 10.000. Semelhante a DebtToIncomeRatio e ScoreXChangeAtTimeOfListing, o Prosper Score provavelmente pode discriminar empréstimos concluídos ou de alto risco em relação a diferentes níveis de StatedMonthlyIncome também .

Resumo de exploração

Escolhemos cinco recursos para ver se eles têm tendências com o Prosper Score ou não , e para ver se eles podem discriminar entre empréstimos concluídos e de alto risco. Resultado de exploração mostra:

  • Ambos ScoreXChangeAtTimeOfListing e DebtToIncomeRatio apresentam uma tendência linear com o Prosper Score. O primeiro apresenta relacionamento positivo; este último apresenta relação negativa com o Prosper Score.
  • Ambos ScoreXChangeAtTimeOfListing e DebtToIncomeRatio também têm padrões claros em Completed e High Risk em diferentes níveis de Prosper Score. Empréstimo de alto risco tendem a ter um nível mais baixo de Prosper Score, e têm menos ScoreXChangeAtTimeOfListing e maior DebtToIncomeRatio segurando constante de pontuação de prosperidade ; O empréstimo concluído tende a ter um nível mais alto de Prosper e tem maior ScoreXChangeAtTimeOfListing e menor DebtToIncomeRatio segurando Prosper Score constante.
  • StatedMonthlyIncome também apresenta uma tendência com o Prosper Score , mas a tendência é de aumento da concavidade, não linear. Isso mostra que mais um ponto do Prosper Score requer um nível mais alto de StatedMonthlyIncome.
  • StatedMonthlyIncome também tem um padrão claro em ambos os riscos concluídos e de alto risco em diferentes níveis do Prosper Score. Empréstimos de alto risco tendem a ter menor nível de Prosper Score, e têm menor StatedMonthlyIncome mantendo a pontuação de Prosper constante.
  • Both InquiriesLast6Meses e BankcardUtilization não apresentam tendência significativa com Prosper Score e status de empréstimo.