Quão inteligente é sua fonte de notícias?

Análise de dados de texto de 21 diferentes lojas de notícias

Michael Tauberg Blocked Unblock Seguir Seguindo 12 de janeiro

Acho que é mais importante do que nunca entender as perspectivas e os preconceitos de nossas novas fontes. Infelizmente há tanta novidade ¹ que é quase impossível para nós escaparmos de nossas pequenas bolhas de filtro.

Felizmente, a mesma tecnologia que nos colocou nessa bagunça pode nos ajudar a navegar nela. Usando computadores, é possível obter uma visão ampla de várias fontes de notícias e ver em quais áreas elas se concentram mais. Também é divertido ver como os estilos de escrita de diferentes lojas diferem. Embora precisaremos de muito mais avanços no processamento de linguagem natural (NLP) para realmente entender o viés de notícias, há algumas análises divertidas que podemos fazer agora.

Para esse fim, usei a biblioteca python Newspaper ² para coletar o máximo de artigos possível de 21 diferentes agências de notícias nos últimos 6 meses. Aqui estão algumas maneiras interessantes que diferem.

Sentimento da notícia

Uma das coisas fáceis e interessantes de se olhar quando se trata de notícias é o sentimento da história. Usando a biblioteca VADER de python³, podemos marcar todas as histórias de diferentes publicações e medir qual é o seu sentimento médio. Números positivos indicam linguagem mais otimista, enquanto escores negativos sugerem escrita sombria e negativa.

Como esperado, o fluff dos EUA hoje pontua bastante positivo, enquanto as teorias de conspiração em Infowars são na maior parte negativas. Surpreendentemente, a maioria dos artigos de notícias não é estritamente negativa (embora a Russia Today, a Breitbart e a Buzzfeed pareçam distorcer esse caminho).

Se olharmos apenas para as manchetes, vemos que elas são mais negativas do que o conteúdo da história. Má notícia recebe mais atenção depois de tudo. Mais uma vez, as manchetes do Inforwars são as mais negativas, enquanto apenas o Wall Street Journal registra resultados positivos.

Legibilidade da notícia

Outra medida simples de redação de notícias é sua legibilidade. Existem vários sistemas que foram desenvolvidos ao longo dos anos para medir a facilidade com que algo é lido. Abaixo, usei a biblioteca textstat python para comparar a dificuldade de leitura de várias publicações.

Teste de legibilidade Flesch-Kincaid?

O teste de readaptação de Flesch-Kincaid é um dos mais populares. Ele cria uma pontuação com base no número de palavras por frase e no número de sílabas por palavra – ou seja, palavras longas e sentenças são mais difíceis de ler. Em seguida, ele converte essa pontuação em um nível de notas. Note que este resultado não tem nada a ver com o conteúdo das sentenças analisadas. Baseia-se unicamente na duração das palavras / frases.

Usando este método, vemos que o MSNBC tem o nível mais alto, tornando-o o mais difícil de ler. A BBC está no extremo oposto do espectro e pode ser lida confortavelmente com uma educação de 10ª série. Isto é provável porque a maioria das histórias da BBC são curtas e informativas (com menos editoriais sinuosos).

Teste de legibilidade Dale-Chall

A fórmula Dale-Chall usa palavras compridas , mas também leva em conta a dificuldade dessas palavras. Ele mantém uma lista de “palavras fáceis” que um aluno da 4ª série deve entender. Usando esse método, quanto mais palavras não estiverem nessa lista, mais difícil é ler algo.

Com base nesse sistema, vemos novamente que o MSNBC é o menos legível. Exceto agora, o New York Times (NYT) e o Wall Street Journal (WSJ) subiram na lista com pontuação em torno de 8. Isso significa que eles precisam de uma educação de 11 ou 12 anos para compreender plenamente.

Smog Grade?

O sistema de classificação Smog usa o número de polissílabos (palavras com 3 ou mais sílabas) para atribuir uma nota de dificuldade. Aqui, novamente, vemos que MSNBC, Breitbart e Politico usam as palavras mais longas, enquanto a BBC e LA Times usam linguagem mais simples.

Índice de nevoeiro

O índice de neblina Gunning também usa palavras com muitas sílabas como medida de dificuldade de leitura, mas a fórmula é diferente. Com este novo método, o USA Today ocupa o primeiro lugar mais fácil de ler.

Palavras por história

Por fim, embora não seja um teste rigoroso de legibilidade, podemos ter uma ideia da complexidade dos relatórios de uma agência de notícias, medindo quanto tempo são as suas histórias.

Nota – alguns sites de notícias são pagos por isso não foi sempre possível recriar histórias completas. Além disso, alguns sites exigem que você clique no botão "leia mais" para obter o texto completo. Essas fontes foram removidas.

Vimos que Vox, com sua missão de explicar as notícias, tem, de longe, os artigos mais longos (1427 palavras). O Politico e o Buzzfeed são os próximos, com uma média de cerca de 1000 palavras por história. Se pudéssemos incluir sites paywalled, o New York Times, o LA Times e o Washington Post, eles também estariam perto de 1500 palavras / artigo.

Pessoalmente, acho que o New York Post é o jornal perfeito e que 500 palavras é o ideal para reportar. Editoriais tendem a ser mais longos.

Conteúdo da Notícia

Infelizmente, as ferramentas de PNL ainda não estão avançadas o suficiente para facilmente desvendar preconceitos políticos. No entanto, podemos ter uma ideia da inclinação política de um ponto de vista olhando para as manchetes. Abaixo estão as nuvens de palavras com base na frequência dos termos usados nelas (palavras grandes são as que são usadas com mais frequência).

Os três principais veículos de notícias nacionais parecem ser principalmente máquinas de cobertura Trump (eu me preocupo com seus futuros modelos de negócios). As histórias de confirmação de Kavanaugh são as segundas mais populares entre as três fontes, enquanto a investigação de Mueller também é muito grande na MSNBC.

As nuvens de palavras para as outras principais fontes de notícias são semelhantes. Enquanto eles estão todos obcecados por Trump, eles também cobrem outros assuntos. O Wall Street Journal e o Washington Post têm muitas histórias sobre a Arábia Saudita, enquanto o New York Times tem muita cobertura #MeToo ('acusado', 'homem', 'sexo'). A NPR ainda fala muito sobre Trump, mas o USA Today gasta a maior parte de sua tinta em histórias de “melhores negócios”. Enquanto isso, a BBC está justamente focada no Brexit e na política global.

Também podemos ver que publicações mais recentes somente para internet têm uma melhor cobertura de cobertura (exceto para o Politico). O Huffington Post parece ter muitos idiomas grego e espanhol, então os resultados foram misturados com palavras de outras línguas. As principais histórias de Vox são 'explicadores' (sobre os tópicos habituais de Trump, Arábia Saudita e Kavanaugh), enquanto Breitbart e o Daily Caller dedicam muita cobertura à 'fronteira' EUA-México. Finalmente, jornais locais como o LA Times, o Boston Globe e o New York Post se concentram em notícias locais ('California', 'Boston', 'NYC') além de Trump. Eles também têm muitas histórias de interesse geral antiquadas (os termos 'casa', 'escola', 'homem', 'mulher' são comuns).

Análise Word2Vec

Como 'Trump' é o item dominante nas notícias, achei que seria divertido ver como ele é visto por diferentes canais. Usando uma técnica chamada Word2Vec , é possível ver quais palavras são consideradas semelhantes ao Trump por agências de notícias.

Abaixo vemos que as palavras que cercam 'Trump' são similares àquelas usadas para descrever 'Obama', 'Bush', 'Putin', 'Xi' (Jinping), 'Bolsonaro', 'Duterte' e 'Macron'. Parece que ambas as tomadas à esquerda e à direita equiparam Trump com líderes fortes (ou talvez militantes) em todo o mundo.

Nota – o fato divertido de que Neil 'Gaiman' se misturou com esses resultados mostra que essa técnica pode não ser adequada para esse tipo de análise.

Conclusões

As palavras que mais lemos hoje em dia são de sites de notícias da Internet. Essas publicações têm uma enorme influência sobre o que vemos, o que pensamos e como nos sentimos. E, no entanto, eles respondem apenas a ricos benfeitores ou a suas linhas de fundo. A tecnologia criou esse cenário inigualável de mídia competitiva. Talvez a tecnologia também nos ajude a percorrê-la com mais atenção.

Resultados bônus

Como escritor, sempre me perguntei qual seria o tamanho ideal da frase. Com base no número médio de palavras em um título de notícias, a resposta está em algum lugar entre 10 e 14 palavras. Esse é o tamanho que todos os canais de notícias usam para extrair esses cliques.

Também podemos medir o número de palavras na frase média de um artigo de notícias. Aqui vemos que a maioria tem entre 21 e 26 palavras. Isso parece um pouco longo para mim, mas meu histórico envolve mais redação técnica e comercial. Repórteres com majores ingleses são provavelmente mais prolixo.

Piores manchetes do sentimento

Por diversão, guardei as manchetes com as piores pontuações de sentimento. Os abaixo refletem as histórias mais sombrias dos últimos 6 meses.

  • Diretor do FBI Wray: Terroristas provavelmente usarão drones para atacar "encontros em massa" nos EUA
  • Donald Trump culpa incêndios florestais mortais na Califórnia por 'má administração grosseira' das florestas
  • Mortes de retaliação quase dobram em 2018
  • Mãe Suspeita de Afogar Filho Pesquisou no Google para Dicas de Matar Crianças 100+ Vezes
  • Mortes por armas nos EUA atingem o nível mais alto em quase 40 anos, revelam dados do CDC
  • Batida da Prisão Fatal de Whitey Bulger: 'Ele Estava Irreconhecível'
  • Fábrica de Tesla é um foco de racismo, ex-funcionários negros afirmam

Thomas Friedman

Como descrevi acima, a maioria dos testes de legibilidade é muito simples. Eles não medem nada sobre como as sentenças são construídas ou como as palavras são usadas. Eu queria ver como esses testes classificaram o que eu considero ser uma escrita realmente ruim. Para esse propósito, selecionei os últimos 5 artigos do notoriamente inescrutável colunista do New York Times, Thomas Friedman . Suas pontuações estão abaixo.

média grau de Flesh-Kincaid – 12,1

pontuação média de legibilidade de Dale-Chall – 7,27 (10ª série)

névoa média Gunning – 13,03

classificação média Smog – 13.5

Com base em quão idiossincrático é o estilo de escrita de Friedman, eu acho que o grau Smog é o mais preciso. Você definitivamente precisa de um diploma universitário para chegar ao que ele está tentando dizer.

E, caso você esteja se perguntando, este artigo tem as seguintes pontuações de legibilidade:

Nível de escolaridade Flesh-Kincaid – 7.9, Pontuação de legibilidade Dale-Chall – 6.81, Nevoeiro impressionante – 9.64, Grau de poluição atmosférica – 11.3

Notas

Todo o código e dados (menos notícias de direitos autorais) no GitHub em https://github.com/taubergm/news_readability

1 – “Existem 2,5 quintilhões de bytes de dados criados por dia”

2 – https://newspaper.readthedocs.io/en/latest/

3 – Análise de Sentimento do VADER. O VADER (Valence Aware Dictionary e sEntiment Reasoner) é uma ferramenta de análise de sentimentos baseada em léxico e regras que é especificamente sintonizada com sentimentos expressos em mídias sociais, e funciona bem em textos de outros domínios.

4 – https://github.com/shivam5992/textstat

Eu tive que consertar um pequeno bug nessa biblioteca associado à contagem do número de palavras em uma frase. Eu substituí a função sentence_count () com minha própria implementação usando um tokenizer nltk

5 – Pontuação de Flech-Kincade antes de convertida para nível de ensino

6 – Fórmula de Dale-Chall

7- Smog Formual

8- fórmula de névoa Gunning

9 – Da Wikipédia. Os modelos Word2Vec “são redes neurais rasas de duas camadas que são treinadas para reconstruir contextos lingüísticos de palavras”. Eu admito que apenas entendo vagamente como isso funciona.