Listagens de Aluguel na Airbnb Dataset Mining

Uma análise exploratória dos dados do Airbnb para entender o cenário de aluguel em Nova York

Sarang Gupta Blocked Desbloquear Seguir Seguindo 4 de janeiro

A Airbnb viu um crescimento meteórico desde a sua criação em 2008, com o número de aluguéis listados em seu site crescendo exponencialmente a cada ano. Airbnb interrompeu com sucesso a indústria de hospitalidade tradicional como mais e mais viajantes, não apenas aqueles que estão procurando por um estrondo para seus fanfarrões, mas também viajantes de negócios recorrem ao Airbnb como seu principal fornecedor de acomodação.

A cidade de Nova York tem sido um dos mercados mais quentes para o Airbnb, com mais de 52.000 listagens em novembro de 2018. Isso significa que há mais de 40 casas sendo alugadas por km². em NYC no Airbnb! Pode-se, talvez, atribuir o sucesso do Airbnb em Nova York às altas taxas cobradas pelos hotéis, que são impulsionadas principalmente pelos preços exorbitantes dos aluguéis na cidade.

Neste post, irei realizar uma análise exploratória do conjunto de dados do Airbnb proveniente do site Inside Airbnb para entender o cenário de aluguel em NYC através de várias visualizações estáticas e interativas.

A análise foi feita em R. O código fonte pode ser encontrado no meu Github: https://github.com/saranggupta94/airbnb

Descrição dos dados

O conjunto de dados é composto por três tabelas principais:

  • listings – Dados detalhados de listagens exibindo 96 atributos para cada uma das listagens. Alguns dos atributos utilizados na análise são price (contínuo), longitude (contínuo), latitude (contínuo), listing_type (categórico), is_superhost (categórico), neighbourhood (categórico), ratings (contínuo) entre outros.
  • reviewsreviews detalhadas dadas pelos hóspedes com 6 atributos. Os principais atributos incluem date (datetime), listing_id (discreto), reviewer_id (discreto) e comment (textual).
  • calendar – Fornece detalhes sobre a reserva para o próximo ano, listando. Quatro atributos no total, incluindo listing_id (discreto), date (datetime), available (categórico) e price (contínuo).

Uma rápida olhada nos dados mostra que existem:

  • 50,968 listagem exclusiva em Nova York no total. O primeiro aluguel em Nova York foi em abril de 2008 no Harlem, em Manhattan.
  • Mais de 1 milhão de comentários foram escritos pelos hóspedes desde então.
  • O preço para uma lista varia de US $ 10 por noite para US $ 10.000 (!) Por noite. As listagens com preço de US $ 10.000 estão em Greenpoint, Brooklyn; Astoria, Queens e Upper West Side, Manhattan.

Ascensão Meteorical da Airbnb em Nova York

O sucesso do Airbnb depende da ampla rede de hospedagem, juntamente com o número de hóspedes que usam seus serviços para encontrar aluguéis de férias. NYC tem visto um crescimento exponencial em ambos – o número de listagens exclusivas e o número de viajantes que reservam suas acomodações no Airbnb.

A animação abaixo mostra o crescimento da rede hospedeira da Airbnb na cidade de 2008 a 2018. Como você pode observar, há um rápido crescimento no número de listagens em todos os bairros da cidade, conforme representado pelos pontilhados pontos azuis.

Número de listagens da Airbnb ao longo dos anos

A primeira listagem do Airbnb em Nova York foi no Harlem no ano de 2008, e o crescimento desde então tem sido exponencial. Cerca de 600 propriedades foram adicionadas nos primeiros dois anos, principalmente em Manhattan e Brooklyn. O centro de Manhattan e as áreas próximas do Brooklyn sempre tiveram uma alta presença no Airbnb. O número de listagens praticamente dobrou a cada ano desde então. Até o ano de 2015, todos os bairros de Manhattan tinham uma lista múltipla. Curiosamente, o Bronx tem poucas listagens, tão poucas que a fronteira Manhattan-Bronx pode ser vista na animação pela queda repentina nas listagens. Desde 2016, as listagens da Airbnb se espalharam para partes de Staten Island. Uma previsão de 70 mil propriedades até 2020 não deve estar longe.

Não consegui obter os dados sobre o número de reservas feitas no Airbnb ao longo dos anos. Em vez disso, usei o "número de comentários" como um proxy para a demanda de aluguéis do Airbnb. De acordo com a empresa, cerca de 50% dos hóspedes analisam os anfitriões / listagens, portanto, estudar o número de avaliações nos dará uma boa estimativa da demanda.

Semelhante ao número de hosts, o número de listagens exclusivas que recebem avaliações aumentou constantemente ao longo dos anos, indicando um aumento exponencial na demanda por aluguéis do Airbnb.

Para obter uma visão granular de toda a listagem, confira o aplicativo interativo RShiny abaixo, que eu projetei, que permite aos usuários filtrar as listagens com base em vários parâmetros. Abaixo está uma imagem do aplicativo RShiny. Você pode experimentar o aplicativo real através do link: https://ankitpeshin.shinyapps.io/listings/ (desculpas, leva alguns segundos para carregar)

Localizador de propriedades Airbnb: app RShiny

Localização, localização, localização! : Compreendendo a cena imobiliária de NYC

Os usuários do Airbnb classificam sua estadia com base na localização, limpeza e uma série de outros parâmetros. Aqui eu trabalho com os dados da pontuação de localização. Seria interessante ver as pontuações médias de localização para cada bairro. As pontuações de localização devem ser um indicador firme do apelo do bairro. Os bairros de alta classificação tenderão a ter melhor conectividade (estações de metrô), tenderão a ficar mais próximos dos hotspots da cidade (Times Square, Empire State, Wall Street).

Manhattan recebe as pontuações mais altas da região central (especialmente abaixo do Central Park). Em Staten Island, as áreas próximas ao Parque Estadual têm os maiores escores de localização. Os bairros do Brooklyn próximos a Manhattan tendem a ter uma classificação mais alta. Olhando para o sistema de metrô de Nova York, no Brooklyn, é interessante observar que as áreas altamente avaliadas correspondem à presença da linha de metrô. O mesmo vale para o Bronx, onde as linhas de metrô não vão.

Os custos de listagem estão em grande parte alinhados com as pontuações de localização. Locais altamente classificados também tendem a ser os mais caros. É óbvio que a localização altamente classificada também tenderia a ser onerosa (demanda x oferta)

No entanto, é interessante identificar alguns pontos discrepantes: i). Encontre alta classificação – regiões de baixa renda (o melhor dos dois mundos) : A região do Parque Estadual em Staten Island (discutida no gráfico anterior) é uma dessas regiões onde os aluguéis tendem a ser relativamente baixos, apesar de terem a maior classificação de local. Outro local tão doce é o nordeste do Brooklyn. ii). Encontre baixa classificação – regiões de alto aluguel (o pior dos dois mundos) : A região de Elm Park em Staten Island tem aluguéis desproporcionalmente altos, ainda que com índices de localização muito baixos. Outros locais podem ser encontrados nas regiões do norte do Bronx.

Agora vamos explorar os tipos de listagens que estão lá em Nova York. Abaixo está um gráfico que mostra a distribuição de diferentes tipos de listagem por municípios.

Listagens de estilo de apartamento são mais numerosas em todos os quatro bairros, exceto Staten Island. Staten Island tem mais propriedades de estilo 'House' do que 'Apartments'. Isso parece intuitivo, já que Staten Island é pouco povoada e, portanto, tem mais 'espaço' em comparação com os outros distritos.

É tudo sobre dinheiro: Analisando a demanda e o preço

Nesta seção, realizarei uma análise de demanda e preço para locações no Airbnb. Analisarei a demanda ao longo dos anos desde o início do Airbnb em 2008 e ao longo dos meses do ano para entender a sazonalidade.

Como mencionado anteriormente, estarei usando o número de comentários como proxy para a demanda de aluguéis do Airbnb devido à indisponibilidade dos dados da reserva. A suposição é que o número de resenhas corresponde à demanda dos aluguéis com base na alegação do Airbnb de que 50% dos hóspedes revisam sua estadia. Além disso, uma revisão deve ser fornecida pelos hóspedes dentro de duas semanas de sua estadia, portanto, o número de avaliações pode fornecer uma boa estimativa da demanda durante um período específico.

Através do 'Quão popular é o Airbnb?' gráfico mostrado antes (eu forneci novamente abaixo para facilitar a referência), pode-se observar um padrão sazonal no número de revisões / demanda. Todos os anos há picos e queda na demanda, indicando que alguns meses estão mais ocupados se comparados aos demais.

Explorando isso em um nível granular, revela que a demanda é menor em janeiro e aumenta até outubro, quando começa a cair até o final do ano.

Existe sazonalidade nos preços dos aluguéis? Vamos olhar para os preços médios diários das listagens ao longo dos anos.

Os preços médios entre as listagens tendem a aumentar à medida que se avança ao longo do ano e picos em dezembro. O padrão é semelhante ao do número de revisões / demanda, exceto nos meses de novembro e dezembro, onde o número de revisões (indicativo de demanda) começa a cair.

Podemos também ver dois conjuntos de pontos nos gráficos que mostram que os preços médios em determinados dias foram mais altos em comparação com os outros dias. A seguir, irei traçar uma caixa com os preços médios por dia da semana para entender esse fenômeno.

Como podemos ver, sextas e sábados são mais caros em comparação com os outros dias das semanas, talvez devido à maior demanda por hospedagem.

Terminarei a análise da seção estudando como será a ocupação para o próximo ano. Usando os dados do calendar da tabela, vou descobrir a porcentagem de ocupação para o próximo ano, ou seja, a partir de 3 de novembro de 2018 (a data em que os dados foram coletados), que porcentagem de listagens já foram reservadas. Não consegui obter os dados do passado sobre a ocupação, por isso não pude estudar como eram as taxas reais de ocupação.

Pode-se inferir que janeiro tende a ser o mais quieto e a taxa de ocupação aumenta à medida que avançamos ao longo do ano. Isso está de acordo com os resultados da análise do número de revisões (indicativo da demanda) que mostra uma tendência crescente ao longo do ano.

Entrando na cabeça do cliente: analisando as análises dos clientes

O conjunto de dados nos fornece uma tonelada de dados, mas nada tão perspicaz e próximo do cliente quanto suas revisões / comentários. Se extraído corretamente, eles podem nos dizer muito sobre a mentalidade do cliente, suas expectativas e quão bem elas foram atendidas. Para que o resultado final faça sentido, os dados do texto de revisão requerem muita limpeza – por exemplo. as palavras precisam ser contidas, vírgulas-fullstops-percentuais, etc. precisam ser removidas, palavras em inglês comuns e palavras que precisam ser removidas, etc. Há mais de um milhão de resenhas, então eu pego uma amostra aleatória desses dados, neste caso ~ 30k comentários.

Uma análise da nuvem de palavras mostra tendências interessantes; A localização parece ser fundamental, uma vez que as palavras “vizinhança”, “localização”, “área” são destacadas na palavra nuvem. Opções de transporte como “metrô”, “caminhada” também são mencionadas com frequência. Airbnbs são aluguéis de curto prazo, mas as pessoas parecem enfatizar o aspecto de conforto de sua estadia, palavras como "cozinha" nos dizem que muitas pessoas preferem cozinhar do que comer fora. A disponibilidade de "Restaurantes" por perto também é mencionada. Casas de banho e camas, como esperado pode ser disjuntores claro se não estiver na melhor condição. A palavra “host” encontra muita menção; indicando o importante papel que os anfitriões desempenham na formação da experiência do Airbnb.

Os vetores de palavras fornecem uma maneira eficaz de descobrir as palavras mais próximas de determinados termos de pesquisa. Usando os dados de revisão, construí um espaço vetorial para construir uma nuvem de palavra com palavras semelhantes para obter insights interessantes.

A primeira palavra nuvem é para a palavra "desconfortável". Palavras semelhantes a “desconfortável” são geralmente aquelas que ocorrem em conjunto com isto frequentemente, isto é, razões para o desconforto. A palavra nuvem mostra apenas isso – note palavras como “apertado”, “lotado”, “pequeno”, “abafado” e “confuso”, indicando que a falta de espaço é uma das queixas mais comuns. "Quente", "úmido" e "frio" são alguns dos problemas comuns de temperatura. Os ambientes “empoeirados”, “sujos” e “sujos” levarão as pessoas a escrever um feedback negativo. Muitos se sentem “nervosos”, “inseguros” e “estressantes”; claramente uma bandeira vermelha para futuros inquilinos.

Da mesma forma, consultando a palavra-chave “confortável”, esperamos ver as coisas que levaram a uma experiência positiva. Destacam-se com destaque as palavras “quiet”, “walkable”, “clean”, “spotless”, etc, demonstrando novamente a importância do ambiente, localização e limpeza. “Hosts” úteis e “comunicação” levam a um conforto. A limpeza dos lençóis e o tamanho da cama deixam uma impressão decisiva.

Confira o aplicativo brilhante que serve como uma extensão para a análise de vetor de palavra das avaliações de clientes. Você pode consultar o vetor para encontrar palavras "semelhantes" e criar uma nuvem de palavras personalizada. Insira qualquer palavra de consulta válida e defina as “palavras máximas” na nuvem de palavras. Uma palavra de consulta válida seria aquela que está presente no corpus, senão não faria parte do vetor de palavras.

Abaixo está uma imagem, você pode tentar o aplicativo real através do link: https://ankitpeshin.shinyapps.io/wordcloud_generator/ (permitir que algum tempo para carregar).

Hosts com Super Poderes! : Analisando o que é preciso para se tornar um superhost

Airbnb concede o título de "Superhost" a uma pequena fração de seus hosts confiáveis. Isso é projetado como um programa de incentivo que é benéfico para o host, o Airbnb e seus clientes. O superhost recebe mais negócios na forma de reservas mais altas, o cliente obtém um serviço aprimorado e a Airbnb recebe clientes satisfeitos.

Mas o que é preciso para ser um superhost? O site do Airbnb tem um conjunto de requisitos que devem ser cumpridos para se tornar um. Mantendo uma taxa de revisão acima de 50%, uma taxa de resposta acima de 90%, etc. Nossas descobertas, embora em grande parte alinhadas com as diretrizes do Airbnb, também mostram alguns valores discrepantes interessantes.Enquanto a maioria dos super-hosts está na alta classificação: alta resposta -rate região, também podemos ver alguns hosts com taxas de resposta inferiores a 75% (o que viola os critérios de 90% + definidos pelo Airbnb). Esta é uma fração muito pequena dos hosts. Em termos de classificação, quase todos os hosts são classificados como 80% e acima.

Com isso dito, a maioria dos hosts do Airbnb está na região de alta classificação: alta resposta, mas apenas uma pequena fração chega a ser super hosts. Então, claramente, tornar-se um Superhost tem muito mais do que altas classificações e taxas de resposta.