Apresentando o Deepnews Digest

Frederic Filloux em Segunda-feira Nota Seguir Jun 9 · 4 min ler

de Frederic Filloux

Esta semana, a Deepnews.ai está lançando seu primeiro demonstrador público, um boletim informativo chamado Deepnews Digest. (Este é o nosso Relatório de Progresso # 4)

Photo Space X

O Deepnews Digest é um informativo semanal cujo objetivo é mostrar as capacidades do algoritmo de pontuação / classificação que desenvolvemos há 18 meses.

O princípio é direto: escolhemos um tópico que está no noticiário e escaneamos uma seleção de 50 fontes, que vão desde grandes publicações até pequenas e especializadas. Coletamos algumas centenas de artigos que são analisados através do nosso algoritmo de pontuação feito em casa. O modelo retorna uma planilha que contém o URL da história, o título, a fonte, a contagem de palavras do artigo e a pontuação. Em seguida, nosso editor, Christopher Brennan, remove manualmente qualquer “ruído”, normalmente falsos positivos que são off-topic. Ele também irá verificar se há esquisitices, como uma peça de 3.000 palavras marcando apenas 1.8 (geralmente é um grande final de notícias com vários tópicos), ou um artigo de 500 palavras marcando um 4.1 (poderia ser um pequeno pedaço bem angular de Quartz ou Axios, levamos meses para remover a correlação enganosa de comprimento e qualidade …). Finalmente, ele irá escrever um pequeno texto apresentando o tópico da semana e depois de alguns testes da equipe, nós apertamos o botão “enviar”.

O produto é assim:

SUBSCREVA-SE AGORA

A newsletter é propositadamente despojada de qualquer coisa inútil. Tudo se resume a uma lista de títulos clicáveis abaixo da menção do tópico de notícias que os inspirou.

Nós não fornecemos a pontuação e não pretendemos fazê-lo. O motivo é duplo:

  • Não queremos aparecer como o árbitro da qualidade jornalística.
  • A pontuação real é apenas para fins internos, seja para nós ou para nossos clientes. É uma medida usada para classificação e análise.

Inicialmente, queríamos produzir um boletim informativo, com uma pequena lista de links com nossos comentários. Mas, ao fazer alguns testes, ficamos impressionados com a capacidade do nosso sistema de destacar um grande número de boas histórias. Então nos perguntamos: por que não se inclinar à exaustividade e não fornecer uma grande variedade de histórias?

Nós configuramos as seguintes regras:

  • Máxima relevância dos artigos em relação ao assunto selecionado (essa é a finalidade do algoritmo).
  • Histórias específicas / ângulo único. Por isso, quero dizer que não há intermináveis duplicatas de artigos dizendo a mesma coisa – que é o maior incômodo da maioria dos agregadores.

As primeiras versões da newsletter ( arquivadas aqui ) tinham 100 links. Acabou sendo demais (de acordo com uma pesquisa que fizemos em algumas dezenas de testadores alfa). Estamos agora com cinquenta.

O que nós medimos

O Deepnews Scoring Model (DSM, como chamamos internamente), baseia-se na detecção de padrões de sintaxe e estrutura associados ao jornalismo de qualidade. Nós alimentamos o algoritmo com centenas de milhares de artigos que o modelo usa como referência para avaliar as histórias recebidas.

A tecnologia por trás do DSM

Construímos cerca de 55 versões do modelo subjacente de aprendizagem profunda do DSM. É baseado em uma rede neural convolucional . ConvNets são usados principalmente para reconhecimento de imagem, mas nós adaptamos para o nosso objetivo. Em nosso Deepnews Progress Reports # 3 de 25 de fevereiro, eu dei alguns detalhes sobre a estrutura do nosso modelo de aprendizagem profunda. No próximo mês, com o nosso engenheiro chefe, Victor d'Herbemont, vamos liberar a metodologia. Mas não o código. Neste momento, o modelo é quase impossível de fazer engenharia reversa (mesmo para nós), e pretendemos mantê-lo à prova de adulteração quanto possível.

O que vem a seguir com o Deepnews Digest

Primeiro, queremos refinar ainda mais nossa capacidade de recuperar e processar histórias sobre uma ampla variedade de tópicos e fornecer uma pontuação confiável de maneira consistente. O Deepnews Scoring Model produz resultados satisfatórios sob certas circunstâncias. Por exemplo, devido à maneira como o modelo foi treinado, ele funciona bem em negócios, histórias sociais e políticas, mas não tão bem em artigos esportivos, por exemplo.

Ajustaremos a newsletter testando nossos beta-testers para ver como o conceito pode ser melhorado e dimensionado, por exemplo, para produzir uma série de boletins informativos sob medida sobre quaisquer tópicos de interesse.

Uma versão dedicada da listagem baseada em Deepnews também será incluída em uma versão renovada desta segunda-feira, prevista para o outono.

Fique ligado. Isto é apenas o começo.

? Enquanto isso, vá para Deepnews.ai
E SUBSCREVER AO DEEPNEWS DIGEST

frederic.filloux @ mondaynote.com