? Resumos Com Wine Reviews Usando spaCy?

"Você não precisa de um garfo de prata para comer boa comida."

Harun-Ur-Rashid (Shimanto) Bloqueado Desbloquear Seguir Seguindo 31 de dezembro

? Introdução Wine Reviews

Neste artigo, vou tentar explorar o Dataset Wine Reviews. Ele contém 130k de comentários em avaliações de vinho. E no final deste artigo, tentarei fazer um resumo de texto simples que resuma as resenhas dadas. As resenhas resumidas também podem ser usadas como título de resenhas. Usarei spaCy como biblioteca de processamento de linguagem natural para lidar com esse projeto.

? Objeto deste projeto

O objetivo deste projeto é construir um modelo que possa criar resumos relevantes para revisões escritas nas resenhas do Wine. Esse conjunto de dados contém mais de 130 mil avaliações e está hospedado no Kaggle .

O que é resumo de texto?

Sumarização de texto é o processo de destilar as informações mais importantes de uma fonte (ou fontes) para produzir uma versão abreviada para um usuário (ou usuários) e tarefas (ou tarefas) específicos.

Por que precisamos de sumarização de texto?

Imgur

Nos últimos anos, estamos testemunhando a quantidade de informações textuais está aumentando dia a dia. A informação textual cresce rapidamente. Torna-se mais difícil para o usuário ler as informações textuais e também leva à perda de interesse. Essa é a razão pela qual o Text Summarization entrou em cena, o que resolverá esse problema.

Tipos de métodos de resumo de texto

Os métodos de resumo de texto podem ser classificados em diferentes tipos.

Eu. Baseado no tipo de entrada:

  1. Documento único, em que o comprimento da entrada é curto. Muitos dos sistemas de sumarização iniciais lidavam com a sumarização de um único documento.
  2. Multi Document, onde a entrada pode ser arbitrariamente longa.

ii. Baseado no propósito:

  1. Genérico, em que o modelo não faz suposições sobre o domínio ou conteúdo do texto a ser resumido e trata todas as entradas como homogêneas. A maior parte do trabalho realizado gira em torno da compactação genérica.
  2. Específico de domínio, em que o modelo usa conhecimento específico de domínio para formar um resumo mais preciso. Por exemplo, resumindo documentos de pesquisa de um domínio específico, documentos biomédicos, etc.
  3. Baseada em consulta, em que o resumo contém apenas informações que respondem a perguntas sobre linguagem natural sobre o texto de entrada.

iii. Baseado no tipo de saída:

  1. Extractive, onde frases importantes são selecionadas do texto de entrada para formar um resumo. A maioria das abordagens de resumo hoje é de natureza extrativa.
  2. Abstract, onde o modelo forma suas próprias frases e sentenças para oferecer um resumo mais coerente, como o que um humano geraria. Essa abordagem é definitivamente mais atraente, mas muito mais difícil do que a sumarização extrativa.

Texto original em inglês.