Análise de Dados da Plataforma de Empréstimo P2P: Análise Exploratória de Dados em R – Parte 1

Uma exploração sobre dados de empréstimo Prosper

Lorna Yen Blocked Desbloquear Seguir Seguindo 4 de janeiro

A indústria de plataforma de empréstimos peer-to-peer está prosperando nos últimos anos. Milhares de investidores estão lucrando com essas plataformas; milhares de mutuários estão recebendo dinheiro com mais facilidade. Embora essas plataformas forneçam pontuação de crédito e informações básicas dos mutuários para garantir que as negociações de empréstimo estejam em um ambiente de segurança, ainda há milhares de pessoas sob o risco de perder dinheiro.

Até mesmo a Prosper – uma empresa líder em plataforma financeira de empréstimos peer-to-peer, ainda sofria de problemas de risco de crédito antes. Mas depois que a reconstrução e o novo sistema de crédito foram lançados, o risco de crédito foi melhorado. Isso me leva a querer descobrir histórias nos bastidores. Aqui, explorarei esse conjunto de dados Prosper e tentarei descobrir alguns padrões por trás das propriedades dos tomadores de empréstimo, do tipo de classificação diferente e de como eles vinculam o empréstimo padrão ou o empréstimo concluído.

Além disso, compartilharei algumas idéias sobre motivações de exploração variável. Afinal, em um conjunto de dados tão grande, se começarmos por conhecer algum conhecimento básico de domínio, é mais fácil descobrir recursos valiosos entre esses grandes dados.

Os dados do empréstimo Prosper

Este conjunto de dados do Prosper foi fornecido pela Udacity como parte do Nanodegee Data Analyst (última atualização em 03/11/2014) que pode ser baixado aqui . Contém 81 variáveis e 113.979 observações para cada dado da lista de empréstimos durante o período de 2005 a 2014, que podem ser classificadas grosseiramente por quatro tipos de categorias de variáveis:

  • Status do Empréstimo : O status da lista de empréstimos, como Cancelado, Cobrado, Concluído, Atual, Não Previsto, Pagamento Final em Progresso, Vencido.
  • Dados do mutuário : propriedades básicas sobre os mutuários, como renda, ocupação, status de emprego, etc.
  • Dados do Empréstimo : Propriedades básicas sobre o empréstimo, como duração do empréstimo (prazo), TAF do Mutuário, etc.
  • Métricas de risco de crédito : as métricas mediram o risco de empréstimos, como nota de crédito, pontuação Prosper, utilização de cartões bancários, etc.

Para definição de variáveis, veja o link .

Pergunta inicial de interesse

Eu nunca usei a plataforma de empréstimo P2P antes, mas estou sempre curioso sobre por que os investidores sempre podem obter lucro com esses empréstimos arriscados?

Meu primeiro palpite para essa questão é que as métricas de avaliação de crédito na plataforma de empréstimo P2P têm determinado valor de referência, especialmente para plataformas com bom desempenho como Prosper ou LendingTree. A razão é que, na plataforma de empréstimo P2P, não podemos obter muita informação sobre os mutuários, as únicas fontes de referência são as métricas fornecidas pela plataforma de empréstimo P2P. E essas informações fornecem aos investidores mais confiança e oportunidades de ganhar dinheiro. De acordo com isso, minha pergunta pode ser – quais são as propriedades das métricas de classificação em uma boa plataforma de empréstimo P2P – como o Prosper – e como elas estão vinculadas a empréstimos inadimplentes e concluídos? Se eu puder encontrar recursos que tenham algumas tendências com empréstimos padrão e concluídos, talvez esses recursos sejam os principais papéis na avaliação de empréstimos bons e ruins.

Antes de prosseguir para explorar os dados do empréstimo para descobrir as respostas, vamos entender as propriedades básicas da plataforma de empréstimo P2P.

Plataforma de empréstimo P2P: Prosper Outlook

Em geral, as propriedades da plataforma de empréstimo P2P é muito diferente de um canal de empréstimo tradicional – banco, que sempre avalia um empréstimo com a pontuação de crédito do tomador de empréstimo de uma agência independente de relatórios de crédito. Mas nós sabemos em plataformas de empréstimo P2P, os empréstimos são sempre de alto risco. Se eles classificarem esses empréstimos por meio da agência de relatórios de crédito, esses empréstimos sempre serão classificados como de alto risco. Tal situação afetaria os juízes de investidores na plataforma de empréstimo P2P. Assim, podem existir algumas métricas de risco que são diferentes das métricas de crédito tradicionais e podem avaliar os empréstimos P2P de forma adequada.

Vamos verificar a página Prosper para ver sua métrica de classificação de risco da perspectiva de um investidor. Se olharmos para a página da lista de empréstimos, podemos ver a coluna “Rating” com cada lista de empréstimos no lado esquerdo. Além disso, podemos ver outras informações básicas em cada empréstimo, como Categoria ou Valor. Portanto, se um investidor decidir se deve ou não investir em um empréstimo, a métrica “ Rating ” se torna a principal avaliação do risco de crédito na plataforma.

Fonte: https://www.prosper.com/listings

Então, qual é o Rating e como foi o desempenho do Rating? Eu folheei o Prosper’s Formulário S-1 e Relatório Anual e Wiki , e fez um resumo:

Antes de 2009, a principal métrica de risco de crédito exibida para os investidores era a Grade de Crédito , que se baseava na pontuação de crédito do tomador de empréstimo de uma agência independente de relatórios de crédito. Mas o desempenho do empréstimo no Prosper não estava muito bom naquele momento. Após o desligamento temporário solicitado pela SEC e pela reestruturação, o Prosper lançou uma nova métrica de risco de crédito exibida desde julho de 2009 – o Prosper Rating , que era considerado como diretrizes de crédito mais rigorosas para os tomadores de empréstimos. O novo desempenho do empréstimo mostra que a taxa de inadimplência do empréstimo do Prosper foi reduzida significativamente.

Parece que o Prosper Rating teve um bom desempenho do que a antiga métrica de crédito que avalia um empréstimo como o dos bancos. Isso me leva a querer comparar o Loan Status do Loan Status antes e depois de 2009 nos dados do empréstimo Prosper.

Algumas dicas para conhecer o conhecimento de base de dados…

Antes de preceder a próxima parte, quero apresentar algumas dicas sobre como entender rapidamente o conhecimento básico do domínio para os dados de destino.

Como um experiente banqueiro de investimento, entender rapidamente o conhecimento básico do domínio e resumi-lo é nosso principal trabalho diário. Quando começamos a conhecer um novo conhecimento do setor, é muito útil encontrar o documento listado da empresa , como o arquivamento na SEC . O documento de listagem mais conhecido é chamado Relatório Anual . Se a empresa de interesse não tiver listado no mercado de ações antes, também é possível pesquisar o documento das principais empresas do mesmo setor que foram listadas.

A seguir estão as principais fontes para conhecer rapidamente um novo conhecimento da indústria e histórico de uma empresa / indústria:

  • Documento listado : Formulário S-1, Formulário 10-K, Relatório Anual, etc. Eles fornecem informações básicas sobre a empresa e histórico, informações e concorrência da indústria, introdução de produtos e serviços principais, desempenho financeiro, etc. Eles podem ser facilmente encontrados na empresa. página da web da Relação com o Investidor (RI) se a empresa estiver em Ofertas Públicas Iniciais do mercado de ações .
  • Relatório da Indústria : Podemos encontrar muitas tendências da indústria e jogadores no relatório da indústria. Fontes bem conhecidas, como IBISWorld , IDC , MarketResearch.com , etc. Observe que a maioria das fontes de relatórios do setor exige uma conta paga, mas elas sempre fornecem um resumo do relatório que nos permite obter algumas informações básicas.
  • Fonte estatística : É útil investigar um desempenho de quantidade durante um período. A maioria dos documentos fornecidos fornece relatórios financeiros. Se você quiser uma fonte estatística mais integrada, a fonte mais recomendada é o Statista .
  • Wikipedia e Google Search : Panacea para quase tudo.

Desempenho do Empréstimo antes e depois de 2009

No conjunto de dados, defini o empréstimo do HighRisk como empréstimos são PastDue, Chargeoff ou padronizado ; Os empréstimos concluídos são empréstimos em Concluídos, FinalPaymentInProgress e Cancelados .

O gráfico de barras acima mostra que a proporção de empréstimos de alto risco diminuiu após 2009 de cerca de 37% para 30%.

Vamos comparar a relação entre cada nível de Grade de Crédito e Rating Prosper de HR para AA (alto a baixo risco) e Status de Empréstimo . Quero verificar como o Prosper Rating e o Credit Grade avaliam os empréstimos ruins e bons.

A porcentagem do empréstimo de alto risco apresenta uma relação inversa com os ratings Prosper e de crédito, conforme o nível de risco diminui. Quanto menor o percentual do empréstimo de alto risco, melhor é o Rating . E podemos ver que todos os empréstimos de alto risco (em cor verde) realmente diminuem após o lançamento do Prosper Rating.

Agrupamento adicional dos empréstimos com cada nível de crédito de AA para RH (baixo a alto risco) tanto no HighRisk quanto no empréstimo concluído:

O gráfico acima mostra que o número de empréstimos classificados como de bom nível antes de 2009 diminuiu depois de 2009 em empréstimos concluídos e empréstimos de alto risco, o que implicou que a Prosper fizesse uma auditoria de empréstimos mais rigorosa após 2009 . Além disso, os empréstimos de alto risco diminuíram totalmente em comparação com os empréstimos anteriores a 2009, como demonstramos na parcela anterior, enquanto os empréstimos de alto risco avaliados em D e E ainda aumentaram após 2009 .

Pode-se inferir que:

  • Prosper conduzir auditoria de empréstimo mais rigorosa depois de 2009.
  • A capacidade da Prosper Rating teve melhor desempenho na avaliação dos empréstimos de alto risco em comparação ao Credit Grade aplicado antes de 2009.

Componentes do Rating Prosper

Vimos que o bom desempenho do Prosper Rating dos dados do Prosper . Então, como o Rating Prosper é medido?

De acordo com esta página , a Classificação Prosper é determinada pelas Taxas de Perdas Estimadas , e as Taxas de Perdas Estimadas são determinadas por duas pontuações: 1) uma Pontuação Prosper personalizada e 2) Pontuação de Crédito de uma agência de informação ao consumidor (como Experian). Por isso, investigarei mais em Prosper Score e Credit Score para ver como eles tornam o Prosper Rating mais preciso do que o Credit Grade.

1. Pontuação Prosper

De acordo com o site Prosper, o Prosper Score foi construído usando dados históricos do Prosper para avaliar o risco de listagens de mutuários do Prosper. Varia de 1 a 11, sendo 11 o menor risco, sendo 1 o maior risco.

O gráfico acima mostra que o Prosper Score tem uma distribuição em forma de sino no Score com 4,6,7 e menos contagens com pontuações no menor e no maior risco entre os dados do Prosper.

Group Prosper Score com cada Status do Empréstimo, podemos ver que eles estão distribuídos em uma forma distorcida à esquerda no empréstimo concluído, o que significa que os empréstimos concluídos localizam-se principalmente em uma boa classificação. No entanto, a pontuação de Prosper distribuiu um empréstimo em alto risco em forma de sino. Comparado ao Prosper Rating com uma forma oblíqua esquerda mostrada anteriormente, parece que o Prosper Score apresenta uma menor capacidade de detectar os empréstimos de alto risco .

O outro componente do Prosper Rating é a pontuação de crédito de uma agência de relatórios . Neste conjunto de dados, encontrei as variáveis relacionadas com este tipo de pontuações foram CreditScoreRangeLower e CreditScoreRangeUpper . Eu crio uma nova variável, CreditScoreAverage, calculando a média de ambas as variáveis, como uma variável representativa para pontuação de crédito .

2. Média de Pontuação de Crédito

Antes de 2009, o Prosper não permite que indivíduos com uma pontuação de crédito (Experian Scorex PLUS) abaixo de 520 para postar listagens na plataforma. E depois de 2009, o Prosper fez a Pontuação de Crédito ter o limite mínimo de até 640, mas em alguns casos eles permitiram que o valor mínimo fosse de 600 se o mutuário completasse previamente um empréstimo Prosper. Então dividi o gráfico em dois períodos e limitei o valor mínimo da pontuação no eixo x para 510 e 630 para excluir os outliers de casos especiais.

A CreditScoreAverage antes e depois de 2009 distribuiu a inclinação para a direita e a maioria das contagens de 610 para 670 antes de 2009, e a maioria das contagens entre 670 e 710 depois de 2009. A pontuação média geral de 2009 parece ter sido superior em comparação a 2009. empréstimos antes de 2009. A razão é que o Prosper realmente estabeleceu o limite mais alto na pontuação de crédito do tomador de empréstimo após 2009 , e também corresponde ao resultado da observação na seção anterior do Prosper Rating.

Mas como a Pontuação de Crédito Média e a Pontuação de Prosper tornam o Rating Prosper mais preciso? A média de pontuação de crédito faz diferença entre o empréstimo concluído e alto risco antes e depois de 2009? Agrupei a Pontuação Média de Crédito com o status de empréstimo em Completed and High Risk antes e depois de 2009:

Comparado a distribuição dos empréstimos de alto risco e Completed , os gráficos acima aparecem com distribuições quase similares com a forma oblíqua direita nos dois períodos. Parece que a CreditScoreAverage não faz diferença para detectar empréstimos concluídos e de alto risco antes e depois de 2009, exceto a mudança de limite.

Acontece que: Se Prosper usar apenas Pontuação de Crédito para auditoria, sob a condição de avaliação mais rigorosa após 2009 (limite mais alto), a pontuação de crédito dos tomadores gerais naquele momento estará principalmente em níveis de alto risco, mesmo para os empréstimos que tem a alta probabilidade de completar. No entanto, como o Prosper também combina o Prosper Score , ele faz do Prosper Rating uma capacidade de mensuração muito melhor e apresenta uma discriminação muito melhor entre empréstimos concluídos e de alto risco.

Investigação até agora…

Vamos fazer um breve resumo. Depois de 2009, o Prosper aplicou o Prosper Score para fazer com que o Prosper Rating tivesse mais discriminação entre empréstimos ruins e empréstimos concluídos , sob a condição de um padrão de avaliação mais rigoroso no limiar de classificação do escritório após 2009 . Portanto, podemos dizer que o Prosper Score desempenhou um papel importante na métrica Avaliação do Prosper .

Vamos usar dados para elaborar a suposição:

Os gráficos acima mostram que as tendências entre Prosper Rating e Prosper Score aparecem de forma ligeiramente positiva, e a variação do Prosper Score em cada Prosper Rating é mais concentrada. Em comparação com a média de pontuação de crédito , a variação da média de pontuação de crédito em cada classificação de Prosper é mais ampla do que a pontuação de Prosper . Parece que o Prosper coloca mais pesos lineares do Prosper Score do que o Credit Score Average em seu próprio modelo Prosper Rating.

Próxima etapa: levantando o véu da contagem de Prosper

Então, quais são os principais elementos do Prosper Score ? Eu folheei o relatório anual do Prosper de 2010 e 2013, encontrei algumas informações sobre o Prosper Score:

O Prosper Score foi criado para estimar a probabilidade de um empréstimo ultrapassar 61+ dias de atraso. Ao contrário da pontuação de crédito obtida de uma agência de relatórios de crédito, ela é baseada em uma população muito mais ampla. O Prosper Score baseia-se em uma imagem mais precisa de um subconjunto de plataforma de empréstimo menor.

Interesse. Eu deduzo que, se Prosper apenas medir o crédito do tomador de empréstimo pela agência tradicional do departamento, na verdade, é apenas uma forma de mensuração semelhante a um banco ou outra instituição oficial de empréstimos. O Prosper Score considera os comportamentos do mutuário que são únicos entre a população da plataforma. Talvez essa avaliação personalizada seja mais adequada para o mercado de plataformas de empréstimo, porque é especificamente medida pelo mutuário do Prosper e pela população solicitante. Porque sabemos que a plataforma de empréstimo oferece ao tomador de empréstimo uma plataforma adicional quando ele não pode pedir emprestado de um banco que meça a pontuação de crédito de maneira mais estrita. A plataforma de empréstimos espalha o risco em muitos investidores e faz com que o caminho de medição seja muito diferente.

Por isso, pesquiso quais são os principais elementos do Prosper Score. Eu encontrei algumas fontes diferentes que Prosper Score foi composta por um conjunto diferente de elementos ao longo do tempo, como o website ou este um . Não explorarei todos os recursos relacionados nos dados do Prosper para evitar que o relatório seja longo demais. Em vez disso, escolherei algumas variáveis que considero importantes, também cobertas por essas listas de variáveis dessas fontes.

Na próxima parte, explorarei as principais características relacionadas ao Prosper Score , que têm a probabilidade de tornar o Prosper Rating mais discriminatório na avaliação da qualidade dos empréstimos .