Como os Bots e Cyborgs espalham a desinformação: um cientista de dados encontra 5,000+ Bots em 72,000,000+ Tweets relacionados ao Trump, Rússia e a NFL

Por Steve Kramer, PhD . Originalmente publicado em OReilly.com .

Particularmente nos últimos anos, pesquisadores em um espectro de disciplinas científicas estudaram a dinâmica das redes de redes sociais para entender como a informação se propaga à medida que as redes evoluem. As plataformas de redes sociais como o Twitter e o Facebook incluem não apenas usuários humanos reais, mas também robôs ou programas automatizados que podem alterar significativamente a forma como as mensagens são espalhadas. Embora alguns bots de recolha de informação sejam benéficos ou pelo menos benignos, foi esclarecido pela eleição presidencial dos EUA de 2016 e as eleições de 2017 na França, que as bots e as contas de fantoches de meias (ou seja, inúmeras contas sociais controladas por uma única pessoa) foram efetivas em influenciar mensagens políticas e propagação de desinformação no Twitter e no Facebook . Portanto, é crucial identificar e classificar os bots sociais para combater a disseminação da informação errada e, especialmente, a propaganda dos estados inimigos e grupos extremistas violentos. Este artigo é um breve resumo da minha recente pesquisa de detecção de bot. Ele descreve as técnicas que eu apliquei e os resultados da identificação de grupos de luta de bots e cyborgs de vírus que buscam influenciar opiniões on-line.

Para essa pesquisa, apliquei técnicas da teoria da complexidade, especialmente a entropia da informação, bem como análises de gráficos em rede e algoritmos de detecção de comunidades para identificar grupos de bots e cyborgs (usuários humanos que usam software para automatizar e amplificar suas postagens sociais) que diferem de usuários humanos típicos no Twitter e no Facebook. Explico brevemente estas abordagens abaixo, de modo que o conhecimento prévio profundo dessas áreas não é necessário. Além dos bots comerciais focados na promoção do tráfego de cliques, descobri a existência de exércitos concorrentes de bots e cyborgs políticos pró-Trump e anti-Trump. Durante agosto de 2017, descobri que os robôs anti-Trump eram mais bem sucedidos do que os bots pro-Trump na divulgação de mensagens. Em contraste, durante os debates de protesto da NFL em setembro de 2017, os bots e cyborgs anti-NFL (e pro-Trump) alcançaram maiores sucessos e virais do que os pro-NFL bots.

Obtendo dados de origem do Twitter

Os conjuntos de dados para minha pesquisa de detecção de Twitter no Twitter consistiram em ~ 60 milhões de tweets que mencionaram os termos "Trump", "Rússia", "FBI" ou "Comey"; os tweets foram coletados através da API pública gratuita do Twitter em períodos separados entre maio de 2017 e setembro de 2017. Eu criei os IDs de tweet de origem, bem como muitos de nossos arquivos de resultados de análise disponíveis em um projeto de dados publicado em data.world. Os pesquisadores que desejam colaborar neste projeto em data.world devem enviar um e-mail de solicitação para datapartners@paragonscience.com .

Detectando bots usando entropia de informação

A entropia de informação é definida como a "quantidade média de informação produzida por uma fonte estocástica probabilística de dados". Como tal, é uma maneira efetiva de quantificar a quantidade de aleatoriedade dentro de um conjunto de dados. Como se consegue razoavelmente conjeturar que os humanos reais são mais complicados do que os programas automatizados, a entropia pode ser um sinal útil quando se está tentando identificar bots, como já foi feito por vários pesquisadores anteriores . Da pesquisa recente em detecção de bot social, particularmente notável é o excelente trabalho de grupos de pesquisadores da Universidade da Califórnia e da Universidade de Indiana . Seu sistema "botornot" usa um modelo de aprendizado de máquina florestal aleatório que incorpora 1.150 recursos derivados de metadados de conta de usuário, dados de amigos / seguidores, características de rede, recursos temporais, características de conteúdo e linguagem e análise de sentimentos.

Para o nosso trabalho atual, optei por adotar uma abordagem bastante simplificada para a detecção de bot social usando dois tipos de escores de entropia de informação – um baseado na distribuição de atrasos de tempo entre posts sucessivos e um segundo com base no pedido de palavras dentro dos posts. As contas que enviam mensagens em intervalos de tempo uniformes ou com mensagens com contexto de texto invulgarmente estático ou similar podem ser bots ou cyborgs.

Em seguida, eu calculei os escores Z da entropia de tempo e entropia de texto. Nos resultados apresentados aqui, estabeleci um limite mínimo de 10 postagens sociais por um usuário para analisar as postagens desse usuário e, em seguida, apliquei um limite conservador de 2,5 para o escore Z (ou seja, notas brutas em ou acima de 2,5 desvios padrão acima da média) para qualquer métrica de entropia para sinalizar possíveis bots. Ao diminuir o limiar, eu, claro, detectaria mais bots, mas com o risco de falsos positivos que poderiam inadvertidamente marcar usuários humanos reais como bots. No futuro, espero calcular a curva ROC para minha abordagem de dupla entropia para caracterizar os tradeoffs entre falsos positivos e falsos negativos.

Medindo a viralidade dos bots usando a decomposição do núcleo k

O k-núcleo de um gráfico é um subgrafo máximo em que cada vértice tem pelo menos o grau k. A coreness de um vértice é k se pertence ao k-core, mas não ao (k + 1) -core. A decomposição do núcleo k é realizada pela remoção recursiva de todos os vértices (juntamente com suas respectivas bordas) com graus inferiores a k. Pesquisas anteriores sugeriram que a decomposição do k-core de uma rede pode ser muito eficaz para identificar os indivíduos dentro de uma rede que estão melhor posicionados para espalhar ou compartilhar informações. Eu usei a decomposição do k-core em 2016 para analisar mais de 120 milhões de tweets relacionados às eleições presidenciais dos EUA de 2016 para identificar os usuários mais influentes. Para esta pesquisa de detecção de bot, realizei uma decomposição k-core das redes heterogêneas de usuário / hashtag / URL Twitter para cada dia em que coletei amostras entre maio e setembro de 2017.

Ao combinar nossos escores de entropia com os valores de coreness correspondentes, eu consegui identificar quais bots ou cyborgs (isto é, humanos que usam software especializado para automatizar suas postagens de mídia social) foram mais bem-sucedidos em induzir outros usuários (alguns dos quais também eram bots ) para compartilhar ou reagir a suas postagens, alcançando posições próximas ao centro das redes diárias do Twitter. (Esta abordagem de decomposição k-core foi usada de forma semelhante por Bessi e Ferrara para medir a incorporação de bots sociais.)

O gráfico de dispersão 3-D na Figura 1 mostra claramente que a grande maioria dos robôs sociais identificados não têm êxito, permanecendo nos reinos externos das redes com baixos valores de coreness porque nenhum ou poucos outros usuários interagem com eles. Os bots bem sucedidos alcançaram valores de coragem mais altos porque outros usuários retweeted ou respondeu às suas postagens. Os usuários humanos normais (não mostrados) estariam perto da origem, e é fácil discernir que quanto maior o escore Z de qualquer métrica de entropia, menor será o sucesso dos bots. Isto é provavelmente devido ao fato de que os usuários humanos são capazes de reconhecer as postagens anormais dos bots e, portanto, não tendem a compartilhar os posts desses bots. Em resumo, quanto mais humano, como o comportamento do bot, mais provável é que os usuários reais compartilhem os posts desse bot.

Figura 1. O gráfico de dispersão 3-D que mostra a maioria dos bots sociais identificados não tem êxito. Cortesia de Steve Kramer.

Bots infrutíferos

O valor mais extremo da entropia de texto O escore Z (fora dos limites do gráfico) é 143 (com entropia de texto bruto de 1.0) para o usuário do Twitter @says_k_to_trump. Alguns exemplos de tweets são mostrados abaixo. Note que cada tweet é a única letra "k" enviada em resposta a cada um dos tweets do @ realDonaldTrump. Essa entropia Z-score reflete o fato de que os conteúdos dos tweets deste usuário são completamente deterministas sem incerteza. Compreensivelmente, nenhum outro usuário interagiu com @says_k_to_trump, de modo que o bot permaneceu na borda mais externa da rede com um coreness de 1.

Figura 2. Captura de tela de tela de Steve Kramer.

O valor mais extremo da entropia de tempo O Z-score é 122,7 para o usuário do Twitter @trade_debate. Observe o padrão de sincronismo muito uniforme dos tweets desse usuário na Tabela 1. Começando com o segundo tweet, esse usuário usou por um intervalo constante de dois segundos.

Tabela 1: Exemplos extremos de entropia de tempo

Bots bem sucedidos

Em contraste, um dos bots mais bem sucedidos é @ Bhola021, que alcançou um valor de coreness de 96 em 2017-08-12. Vários exemplos de tweets são mostrados abaixo na Tabela 2. Este é principalmente um bot de marketing digital, em vez de um bot político ou de propaganda. Note, em particular, o comportamento de retweeting de outras contas de usuários com nomes semelhantes e texto tweet muito similar.

Tabela 2: Tweets de um bot marketing bem sucedido

Com a abordagem descrita acima, pode-se identificar potenciais bots e medir seu grau de sucesso, ou embeddedness, nas redes sociais em evolução. Como veremos em seguida, esses resultados podem ser significativamente aprimorados com os algoritmos de detecção da comunidade.

Identificando comunidades de vírus bots e cyborgs

Para entender mais claramente como os robôs e cyborgs de vírus mais bem sucedidos funcionam dentro da rede do Twitter, criei uma sub-rede com base nos tweets enviados por esses bots, extraindo menções de usuários e URLs de respostas e retweets. Neste exemplo, gerei uma rede usando os 16,057 tweets enviados pelas 20 maiores contas de bot de 7 a 19 de agosto de 2017. A rede gerada consiste em 73.569 links entre 2.949 nós. A decomposição k-core desta rede resultou em um máximo de coreness de 20. Eu então apliquei o algoritmo de detecção da comunidade de Louvain para identificar os grupos relevantes dentro do centro da rede para todos os nós com coreness ? 10. Na rede interativa Polinode mostrada em Figura 3, cada cor representa uma comunidade diferente dentro da rede. Entre os 20 melhores robôs, existe uma rede de bots altamente interconectada com nomes semelhantes (porantext, porantexts_, lovedemand101, lovecommand102, etc.) que retweet e compartilham os posts uns dos outros. Esses botnets são, evidentemente, bots comerciais que tentam impulsionar o tráfego de cliques para páginas da web com títulos provocativos, como "Donald Trump chutou uma direção para fora de seu hotel e é por isso" e "Nós destruiremos injustamente as tropas dos EUA, a Coréia do Norte alerta Donald Trump On The Sun's Dia "como os dois principais títulos de artigos.

Figura 3. Rede dos melhores vírus Bots e cyborgs do Trump em agosto de 2017. Cortesia de Steve Kramer.

Porque estou particularmente interessado nos efeitos dos bots sociais na divulgação de informações e na influência das opiniões públicas na política, filtrei os tweets da fonte para incluir apenas aqueles que incluem a palavra "Rússia" no texto do tweet. Quando realizei os cálculos de decomposição e entropia do k-core na rede de Twitter relacionada com a Rússia, surgiu um conjunto diferente de influentes bots e cyborgs para o período de 7 a 19 de agosto de 2017.

A rede Polinode mostrada abaixo na Figura 4 exibe 17 subgrupos diferentes na rede criada pelos 20 principais robôs e cyborgs relacionados à Rússia.

Figura 4. Rede de robôs e cyborgs de alta qualidade relacionados com a Rússia em agosto de 2017. Cortesia de Steve Kramer.

A comunidade 1 é um grupo pró-Trump centrado em torno da conta bot chamada MyPlace4U (veja a Figura 5).

Figura 5. Comunidade 1 (pro-Trump bots). Cortesia de Steve Kramer

Em contraste, a Comunidade 10 é um grupo anti-Trump centrado em torno da conta do Twitter chamada RealMuckmaker (veja a Figura 6), que foi realmente o cyborg mais bem sucedido neste conjunto de dados.

Figura 6. Comunidade 10 (bots anti-Trump). Cortesia de Steve Kramer

A Tabela 3 abaixo lista os 20 melhores vírus do vírus e cyborgs na rede de Trump / Russia Twitter de 7 a 19 de agosto de 2017. Observe que apenas seis dos 20 melhores vírus e bibros e vírus ajudam Donald Trump. Os usuários que utilizam Trump são destacados em vermelho. Escolhi o texto do tweet da amostra de cada usuário, calculando a semelhança do texto médio de cada tweet com o resto dos tweets desse usuário e selecionando o tweet com a maior semelhança média usando a distância Levenshtein e o módulo Python fuzzywuzzy .

Tabela 3: Os 20 principais blogs e cyborgs do Twitter relacionados com a Rússia em agosto de 2017

Acompanhando as batalhas entre grupos de bots e cyborgs relacionados à Rússia

Para discernir o quão bem sucedido os diferentes grupos de bots e cyborgs relacionados à Rússia estavam espalhando suas mensagens no Twitter, eu calculava os valores diários e máximos de coreness alcançados pelos seis usuários pró-Trump na Tabela 3 versus os 14 anti-Trump restantes ( ou neutro) na Tabela 3. A Figura 7 (versão interativa aqui ) mostra que, em geral, o grupo anti-Trump foi mais bem sucedido na divulgação de suas mensagens durante o período de 7 a 19 de agosto de 2017, com o maior pico em 11 de agosto liderado por @RealMucker, que promoveu um link para um artigo específico da CNN Politics sobre a invasão do FBI na casa do ex-gerente de campanha de Trump, Paul Manafort.

Figura 7. Valores de coragem máximos de grupos de bots / cyborgs Twitter relacionados com a Rússia. Cortesia de Steve Kramer.

Descobrindo proeminentes bots e cyborgs na controvérsia de protestos da NFL

Eu apliquei a mesma abordagem de detecção de bot e análise de rede baseada em entropia para mais de 1 milhão de tweets que incluiu os termos "Trump" e "NFL" de 14 a 25 de setembro de 2017. A rede Polinode mostrada abaixo na Figura 8 exibe 16 subgrupos diferentes na rede criada pelos 20 melhores Bots e cyborgs relacionados à NFL. Nove dos grupos se opõem aos protestos da NFL, enquanto sete são a favor dos jogadores da NFL que se ajoelharam em protesto.

Figura 8. Rede dos principais robôs e cyborgs relacionados ao Trump / NFL em setembro de 2017. Cortesia de Steve Kramer.

Tal como no exemplo relacionado com a Rússia, eu calculo o valor de coreness diário máximo para os grupos pro-NFL e anti-NFL nos 20 melhores vírus do vírus da NFL. A Figura 9 mostra que os bots e cyborgs anti-NFL (e pro-Trump) foram mais bem sucedidos na disseminação de seu conteúdo social do que o grupo pro-NFL. Consulte o meu projeto de dados data.world para obter mais detalhes.

Figura 9. Valores Máximos de Coreness de Grupos de Bots de Twitter / Cyborgs Relacionados a NFL. Cortesia de Steve Kramer.

Descobrindo bots e cyborgs no Facebook durante e após as eleições presidenciais dos EUA de 2016.

Dado o crescente número de relatórios sobre o envolvimento da Rússia nas eleições do ano passado em várias plataformas sociais, queria aplicar o método de detecção de bot baseado em entropia aos dados do Facebook relacionados às eleições. Nosso colega amigo e pesquisador Jonathon Morgan, CEO da New Knowledge e co-fundador da Data for Democracy , forneceu um conjunto de dados de 10,5 milhões de comentários públicos do Facebook da página do Facebook de Donald Trump coletada entre julho de 2016 e abril de 2017.

Infelizmente, porque tenho apenas o conteúdo do texto e os marcadores de tempo dos comentários dos usuários, eu não tenho a estrutura completa da rede social disponível como fiz nos exemplos anteriores do Twitter. Consequentemente, não é possível realizar o mesmo tipo de decomposição do núcleo k. Eu descobri que o número de "gosta" não é um preditor particularmente forte ou confiável do grau de sucesso de um bot ou cyborg. Os 20 usuários do Facebook com as pontuações Z mais extremas de entropia de texto estão listados na Tabela 4 abaixo. O principal usuário, Nadya Noor, teve uma nota de entropia de texto com mais de 253 desvios padrão acima da pontuação média para o resto dos usuários.

Tabela 4: Top 20 mais extremos de texto bots e cyborgs de comentários do Trump Facebook

O usuário mais extremo baseado na entropia de texto, Nadya Noor, publicou textos muito semelhantes em árabe em fevereiro de 2017 (ver Tabela 5).

A Figura 10 mostra uma tradução do Google de um dos comentários típicos e fortemente anti-americanos desse usuário.

Figura 10. Tradução do Google de exemplo de comentário de Nadya Noor. Screenshot cortesia de Steve Kramer.

No futuro, planejo aplicar algoritmos de detecção de comunidade ao conteúdo de texto e URLs incorporados nas postagens desses blogs do Facebook para determinar seus principais tópicos de discussão e tendências políticas.

Conclusões

Neste artigo, demonstrei como é prontamente possível identificar bots sociais e cyborgs no Twitter e no Facebook usando entropia de informação e depois encontrar grupos de bots bem-sucedidos usando análise de rede e detecção de comunidade. Dado os extremos riscos de desinformação e disseminação da propaganda através das mídias sociais, esperamos que esta abordagem, juntamente com o trabalho de outros pesquisadores, permita uma maior transparência e ajudem a proteger a democracia e a autenticidade do discurso on-line. Convido pesquisadores que desejam colaborar em estudos desses conjuntos de dados para solicitar acesso para se tornarem colaboradores em nosso projeto de dados hospedado em data.world .

Por Steve Kramer, PhD . Originalmente publicado em OReilly.com .

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *