Precisamos de relatórios de diversidade de mídia

Uma análise de dados de gênero na mídia

Michael Tauberg em Rumo à Ciência de Dados Seguir Jul 11 · 6 min ler Crédito da foto – Tim Mossholder, Unsplash

Muita tinta foi corretamente derramada sobre o problema da diversidade na tecnologia. Por exemplo, os relatórios de diversidade recém-lançados do Facebook e do Google mostram que os homens superam as mulheres em cerca de 2 para 1 nessas empresas. Esse tipo de estatística inspirou comentários negativos no Guardian , na NBC , no Vox , na CNN e em muitos outros sites de notícias .

screencap do relatório de diversidade 2019 do Google

É fácil culpar os titãs da tecnologia, mas descobri que, se as empresas de mídia se espalhassem, descobririam que tinham muitos dos mesmos problemas. Nos últimos 6 meses, coletei dezenas de milhares de artigos das páginas iniciais de 15 organizações de notícias diferentes. Ao analisar os autores desses artigos, ficou óbvio que a maioria dos redatores de notícias é do sexo masculino. Parece que, assim como a indústria de tecnologia, a mídia de notícias é dominada por homens e precisa mudar.

Metodologia

Eu quero explicar rapidamente como esses dados foram coletados e como foram analisados. Ao fazê-lo, espero mostrar que, embora haja lugares onde os erros possam ter se infiltrado, eles devem ser, na maioria das vezes, não correlacionados com viés mínimo. Para os interessados, todo o código e dados associados a este projeto estão no github aqui .

Coleção de dados

Os dados de notícias foram coletados todos os dias em 2019 a partir de vários sites de notícias usando a biblioteca Python NewsScraper . Usando essa ferramenta, salvei histórias de primeira página de vários sites em um grande banco de dados. Embora eu não possa garantir que todas as histórias foram salvas, recebi uma grande amostra que foi selecionada principalmente aleatoriamente.

Uma vez que as histórias estavam em um banco de dados, foi possível examinar os redatores dos artigos de notícias. Infelizmente, os dados do escritor geralmente continham palavras descritivas que precisavam ser removidas (por exemplo, 'Reporter for AP'). Eu tive que escrever scripts para filtrar nomes de escritores e ter certeza que acabei com uma lista de pessoas reais. Além disso, muitas histórias tinham vários autores, então eu tive que me certificar de que estas fossem contadas separadamente. O resultado final foi uma lista de milhares de nomes que representavam qualquer um que tivesse sido publicado em um grande site de notícias em 2019.

Finalmente, com uma lista de bons nomes conhecidos, criei um novo banco de dados que armazenava os nomes dos escritores, o número de histórias que eles publicaram, sua organização e, finalmente, seu gênero. Esta última parte é complicada. Eu usei o corpus python nltk de nomes masculinos e femininos e o complementei com tantas outras amostras de nomes quanto pude encontrar. Se o primeiro nome de um escritor estava em uma lista de nomes "masculinos", eu os rotulava dessa maneira. Se o primeiro nome estivesse em uma lista de nomes "femininos", eles eram rotulados como femininos. Finalmente, algumas pequenas porcentagens foram marcadas como "desconhecidas". Esta é provavelmente a maior fonte de erro, pois alguns nomes como 'Sam' podem se aplicar a qualquer gênero. Ainda assim, estou confiante de que a maioria dos erros foi aleatória e que os resultados obtidos são válidos.

Resultados de toda a indústria

Não apenas os redatores de notícias são mais propensos a serem homens, mas os escritores homens são mais propensos a serem publicados.

A maneira mais simples de olhar para um colapso de gênero na indústria de notícias é ver a porcentagem de escritores que são homens e que porcentagem são mulheres. Os resultados dessa análise simples são um tanto chocantes.

Tal como acontece com os trabalhadores da tecnologia, os criadores de notícias são duas vezes mais propensos a serem do sexo masculino (removendo nomes desconhecidos, os homens são 63%, as mulheres são 37%).

cada bloco representa 100 jornalistas

A situação é ainda pior se contarmos o número de artigos de notícias em vez do número de redatores de notícias. Isso sugere que não apenas os escritores são mais propensos a serem homens, mas os escritores homens são mais propensos a serem publicados.

cada bloco representa 1000 notícias

Removendo artigos "desconhecidos", os homens são responsáveis por cerca de 71% dos artigos e as mulheres por apenas 29%.

Resultados por site de notícias

Como poderíamos esperar, as fontes de notícias liberais parecem ter um melhor equilíbrio de gênero do que as conservadoras.

Escritoras

A análise anterior incluiu todas as fontes de notícias agrupadas. Esses sites existem em todo o espectro político, portanto, podemos esperar que o equilíbrio entre os gêneros seja diferente. Abaixo eu plotei a distribuição de escritores por meio de mídia. O gráfico inferior remove os escritores com nomes que não podem ser facilmente mapeados para um gênero (ou seja, sexo 'desconhecido').

Como poderíamos esperar, as fontes de notícias liberais parecem ter um melhor equilíbrio de gênero do que as conservadoras. Sites como o NPR e a CNN são quase equilibrados e com quase uma divisão de 55 a 45 de escritores masculinos e femininos. Em direção ao centro, jornais antigos como o New York Times, o Guardian, o Boston Globe e o LA Times estão mais próximos de uma divisão de 65 a 35. No lado direito do espectro político, sites como o Fox News, o Daily Caller e o Breitbart têm mais de 70% de autoria masculina. Isso é muito extremo, mesmo considerando o fato de que os conservadores são mais propensos a serem homens .

Artigos

O equilíbrio de gênero entre os redatores da equipe pode ser muito melhor do que entre os escritores convidados que raramente contribuem com artigos.

Olhando para uma discriminação de gênero do número de artigos em vez de escritores, um padrão semelhante emerge.

Curiosamente, a situação melhora para certas organizações de notícias. Eu suspeito que o equilíbrio de gênero entre os redatores da equipe pode ser muito melhor do que entre os escritores convidados que raramente contribuem com artigos.

Com essa nova métrica, o Washington Post está próximo do equilíbrio entre 50 e 50 anos e o Wall Street Journal está mais próximo de 60 a 40 homens para mulheres do que entre 65 e 35 anos. Ainda assim, a imagem não é ótima para a igualdade de gênero em geral. Além disso, se é verdade que os veículos de notícias favorecem os recursos de convidados de escritores homens, isso ainda é algo que vale a pena contemplar.

Pensamentos finais

Assim como a diversidade na tecnologia é essencial para criar uma sociedade mais justa, a diversidade na mídia também o é. Os gigantes da tecnologia finalmente acordaram para sua responsabilidade social. Nos últimos anos, eles foram transparentes sobre a diversidade de seus funcionários e divulgaram relatórios anuais mostrando seu progresso. Eu acho que é hora das organizações de notícias fazerem a mesma coisa.

Os dados que colecionei têm falhas, mas sem relatórios de diversidade, é o melhor que podemos fazer agora. Se for preciso, então a mídia de notícias tem um caminho a percorrer antes de realmente alcançar a igualdade que tantas vezes prega.