7 tipos de tweets de resolução de ano novo

O que uma análise de 40 mil tweets revela sobre como nos aproximamos de nossas metas de 2019.

Peter R. Licari Blocked Unblock Seguir Seguindo 2 de janeiro

É o começo de um novo ano! As pessoas estão mudando os calendários, estendendo a mão aos entes queridos e decidindo em quais resoluções eles querem tentar se manter neste ano. E se as pessoas estão fazendo alguma coisa ( qualquer coisa realmente), você pode apostar que um número decente delas está twittando sobre isso.

Há artigos por aí sobre quais são as resoluções mais populares , como alcançá-las não nos fará felizes , e como provavelmente não as alcançaremos de qualquer maneira. Alegre. Eu decidi que nada realmente olha como as pessoas abordam toda a empresa de resolução. Então, para isso, eu levei para o Twitter e usando algumas boas ciências sociais computacionais decidi ver como as pessoas estavam se aproximando da idéia de resoluções. Quais são os tópicos para twitterers twittar em relação a resoluções? Quais são as palavras mais comuns nesses tópicos? Diz alguma coisa sobre como nos aproximamos da ideia de resoluções? Essas são as perguntas que vamos responder hoje.

Apenas uma palavra rápida antes de mergulhar. Embora este projeto use técnicas da ciência social computacional, não estou correndo para carimbar o rótulo de "ciência" nele. Isto é o que eu estou enfaticamente dizendo: “Algoritmos de computador mostram que existem apenas 7 tipos de tweets de resolução de Ano Novo. Veja o que eles são graças ao Big Data ™. ”Em vez disso, é apenas uma maneira divertida de ter uma noção de alguns padrões mais amplos que existiam no Twitterverse envolvendo resoluções de anos novos.

Os dados

Usando a API do Twitter, eu procurou os tweets contendo # newyearsresolutions2019, #resolutions, #newyearsresolution, #newyearsresolutions (sim, havia uma diferença) e qualquer tweet que continha as palavras “New Years Resolutions” sem desajeitadamente enfiando-os em uma hashtag. Comecei a coletar dados por volta das 12h do dia 31 de dezembro e fiz o último pull logo depois das 12h de 1 de janeiro. Os primeiros tweets datavam de 22 de dezembro e, graças à magia dos fusos horários, estendiam-se às 5:17 da manhã de 1º de janeiro. Esse processo rendeu 41.502 tweets exclusivos. Eu não era exatamente metódico sobre quando eu fiz as puxadas porque eu estava muito ocupado apreciando dizer adeus a 2018. De acordo com a cartilha antes, leve isso com um grão de sal.

Depois de limpar os dados (removendo as palavras stop e pontuação, retendo o texto, removendo htmls, etc), usei o Latitude Dirichlet Allocation (LDA) para modelar os tópicos latentes nos tweets. A LDA assume que há um número fixo de tópicos presentes em todos os documentos em um corpus – que, no nosso caso, são todos os tweets que coletamos – e permite que haja vários tópicos apresentados em um único documento. O método informa a probabilidade de qualquer palavra em particular aparecer em um tópico. Portanto, pode haver uma probabilidade de 0,0002 de que “maçã” apareça no primeiro tópico e uma probabilidade de que apareça com uma probabilidade de 0,05 no segundo tópico (presumivelmente, os dados derivam de um fórum de entusiastas da Apple). Você pode pegar a mais popular dessas palavras, investigar quando elas aparecem juntas e ter uma noção de quando

Há uma ressalva com o LDA. Você precisa escolher quantos tópicos existem nos dados para implementá-los. Também depende de nós determinar o que esses tópicos significam. Embora haja maneiras de ter uma boa noção do número certo de tópicos, tentar incluí-los nesses dados resultou em mais de 25 tópicos diferentes. Isso intuitivamente faz sentido, mas, francamente, faz para posts ruins. Comecei a ver retornos cada vez menores no quanto os modelos explicaram depois, tipo, 7 – então esse é o número que eu escolhi. Mais uma vez, não é científico, mas é suficiente para se divertir.

Sem mais delongas.

7 tipos de tweets de resolução de ano novo

O que uma análise de 40 mil tweets revela sobre como nos aproximamos de nossas metas de 2019.

Peter R. Licari Blocked Unblock Seguir Seguindo 2 de janeiro

É o começo de um novo ano! As pessoas estão mudando os calendários, estendendo a mão aos entes queridos e decidindo em quais resoluções eles querem tentar se manter neste ano. E se as pessoas estão fazendo alguma coisa ( qualquer coisa realmente), você pode apostar que um número decente delas está twittando sobre isso.

Há artigos por aí sobre quais são as resoluções mais populares , como alcançá-las não nos fará felizes , e como provavelmente não as alcançaremos de qualquer maneira. Alegre. Eu decidi que nada realmente olha como as pessoas abordam toda a empresa de resolução. Então, para isso, eu levei para o Twitter e usando algumas boas ciências sociais computacionais decidi ver como as pessoas estavam se aproximando da idéia de resoluções. Quais são os tópicos para twitterers twittar em relação a resoluções? Quais são as palavras mais comuns nesses tópicos? Diz alguma coisa sobre como nos aproximamos da ideia de resoluções? Essas são as perguntas que vamos responder hoje.

Apenas uma palavra rápida antes de mergulhar. Embora este projeto use técnicas da ciência social computacional, não estou correndo para carimbar o rótulo de "ciência" nele. Isto é o que eu estou enfaticamente dizendo: “Algoritmos de computador mostram que existem apenas 7 tipos de tweets de resolução de Ano Novo. Veja o que eles são graças ao Big Data ™. ”Em vez disso, é apenas uma maneira divertida de ter uma noção de alguns padrões mais amplos que existiam no Twitterverse envolvendo resoluções de anos novos.

Os dados

Usando a API do Twitter, eu procurou os tweets contendo # newyearsresolutions2019, #resolutions, #newyearsresolution, #newyearsresolutions (sim, havia uma diferença) e qualquer tweet que continha as palavras “New Years Resolutions” sem desajeitadamente enfiando-os em uma hashtag. Comecei a coletar dados por volta das 12h do dia 31 de dezembro e fiz o último pull logo depois das 12h de 1 de janeiro. Os primeiros tweets datavam de 22 de dezembro e, graças à magia dos fusos horários, estendiam-se às 5:17 da manhã de 1º de janeiro. Esse processo rendeu 41.502 tweets exclusivos. Eu não era exatamente metódico sobre quando eu fiz as puxadas porque eu estava muito ocupado apreciando dizer adeus a 2018. De acordo com a cartilha antes, leve isso com um grão de sal.

Depois de limpar os dados (removendo as palavras stop e pontuação, retendo o texto, removendo htmls, etc), usei o Latitude Dirichlet Allocation (LDA) para modelar os tópicos latentes nos tweets. A LDA assume que há um número fixo de tópicos presentes em todos os documentos de um corpus – que, no nosso caso, são todos os tweets que coletamos – e permite que haja vários tópicos apresentados em um único documento. O método informa a probabilidade de qualquer palavra em particular aparecer em um tópico. Portanto, pode haver uma probabilidade de 0,0002 de que “maçã” apareça no primeiro tópico e uma probabilidade de que apareça com uma probabilidade de 0,05 no segundo tópico (presumivelmente, os dados derivam de um fórum de entusiastas da Apple). Você pode pegar a mais popular dessas palavras, investigar quando elas aparecem juntas e ter uma noção de quando

Há uma ressalva com o LDA. Você precisa escolher quantos tópicos existem nos dados para implementá-los. Também depende de nós determinar o que esses tópicos significam. Embora haja maneiras de ter uma boa noção do número certo de tópicos, tentar incluí-los nesses dados resultou em mais de 25 tópicos diferentes. Isso intuitivamente faz sentido, mas, francamente, faz para posts ruins. Comecei a ver retornos cada vez menores no quanto os modelos explicaram depois, tipo, 7 – então esse é o número que eu escolhi. Mais uma vez, não é científico, mas é suficiente para se divertir.

Sem mais delongas.