Visualização de texto com PNL e análise de sentimentos no Twitter em R

Rituparna Gupta Blocked Unblock Seguir Seguindo 8 de janeiro

A Copa do Mundo da FIFA , muitas vezes chamada simplesmente de Copa do Mundo , é uma competição internacional de futebol de associação disputada pelas seleções masculinas seniores dos membros da Federação Internacional de Futebol (FIFA), realizada a cada quatro anos. O torneio final é jogado em duas etapas: a fase de grupos seguida da fase eliminatória ( Wikipedia )

A 21ª Copa do Mundo da FIFA está sendo realizada na Rússia – a partir de 14 de junho terminará com a partida final em 15 de julho de 2018. A fase de grupos e as oitavas de final da fase eliminatória terminaram em 3 de julho. etapa serão retomadas com as quartas-de-final a partir de 6 de julho.

A Copa do Mundo é o torneio de futebol mais prestigiado da associação, bem como o evento esportivo mais amplamente visto e seguido no mundo. Naturalmente, ele aparece como um dos principais tópicos de tendências no Twitter, enquanto está em andamento. Neste caderno, vamos passar por uma coletânea de tweets relacionados à Copa do Mundo e realizar uma análise de Text & Sentiment usando técnicas de processamento NLP & Tidy Text em R

Sobre os dados

Eu coletei os dados usados aqui usando a API do Python Tweepy, durante a duração do torneio (até as Rodadas de 16). Os dados são uma mistura aleatória de tweets de antes, durante ou depois dos jogos. Os dados transmitidos foram limpos e pré-processados, prontos para análise. Os tweets também foram apagados de quaisquer palavras de parada por língua inglesa

Eu usei o pacote Tidy Text aqui para analisar tweets – é um pacote útil disponível em R para tornar a troca de dados e visualização de dados de texto mais fácil e mais eficaz ( https://www.tidytextmining.com ). Ele fornece uma maneira de tratar o texto como quadros de dados de palavras individuais, o que, por sua vez, permite manipular, resumir e visualizar facilmente as características do texto e integrar o processamento de linguagem natural em fluxos de trabalho eficazes.

Palavras de topo

Vamos dar uma olhada nas principais palavras usadas nos Tweets durante esse período de tempo.

Curiosamente, World & Cup são as principais palavras de tendência 🙂
Há um número significativo de tweets relacionados aos países que jogaram durante esse período – Argentina, Croácia, França, Alemanha e Rússia, para citar alguns.
Os melhores jogadores, como Messi e Ronaldo, também aparecem nas principais palavras.
Outras palavras incluem termos comuns relacionados ao futebol / esportes, como penalidade, jogo, jogo, partida, vitória, gol, etc.

Palavras principais no Facebook vs Instagram

Os tweets são postados por usuários em várias mídias – como Twitter em mídias diferentes como iPhone, Android, iPad, Web ou outros dispositivos, ou no Facebook, Instagram. Vamos dar uma olhada nos tweets mais comuns via Facebook vs Instagram

Principais palavras por fonte do Twitter

A seguir, vamos ver as principais palavras de algumas das principais fontes do Twitter – iPhone, iPad, Android, Cliente da Web, Twitter Lite e Tweet Deck

TF-IDF pelo Twitter Source

Outra maneira de analisar palavras é usar o mecanismo TF-IDF (Freqüência de Frequência do Documento Inverso de Frequência). Mesmo que as palavras de parada tenham sido removidas anteriormente, certas outras palavras podem ser muito comuns e não contribuem para a compreensão do texto – essas palavras podem ser identificadas comparando-as com a frequência inversa do documento e filtradas se forem comuns. As palavras restantes podem dar uma visão mais clara do texto.

Notavelmente, Mundial, copa, penalidade, vitória, Rússia, Croácia, Argentina ainda são as principais palavras, mesmo se o IDF for aplicado, para este conjunto de tweets

Análise de sentimentos

As ferramentas NLP e Text Analytic também podem ser amplamente usadas para entender o sentimento geral do texto. Existem vários métodos em R – usando alguns dos léxicos disponíveis, como NRC, Bing ou Afinn. Estes são léxicos embutidos que categorizam palavras em vários sentimentos ou grupos. O léxico do NRC categoriza as palavras nas categorias de positivo, negativo, raiva, antecipação, repulsa, medo, alegria, tristeza, surpresa e confiança. O léxico do Bing categoriza as palavras de maneira binária em categorias positivas e negativas. O léxico afinn atribui palavras com uma pontuação que varia entre -5 e 5, variando de negativo a positivo.

Texto original em inglês.