Word Embeddings na PNL e seus aplicativos

Shashank Gupta Blocked Desbloquear Seguir Seguindo 7 de janeiro

Os embeddings de palavras são basicamente uma forma de representação de palavras que liga a compreensão humana da linguagem à de uma máquina. Os embeddings do Word são representações distribuídas de texto em um espaço n-dimensional. Estes são essenciais para resolver a maioria dos problemas da PNL.

A adaptação de domínio é uma técnica que permite que os modelos Aprendizado de Máquina e Aprendizagem de Transferência mapeiem conjuntos de dados de nicho que são todos escritos na mesma linguagem, mas ainda são linguisticamente diferentes. Por exemplo, documentos jurídicos, respostas a pesquisas com clientes e artigos de notícias são todos conjuntos de dados exclusivos que precisam ser analisados de forma diferente. Uma das tarefas do problema comum de filtragem de spam envolve a adoção de um modelo de um usuário (a distribuição de origem) para um novo que receba e-mails significativamente diferentes (a distribuição de destino).

A importância da incorporação de palavras no campo da aprendizagem profunda torna-se evidente observando o número de pesquisas no campo. Uma dessas pesquisas no campo da incorporação de palavras conduzida pelo Google levou ao desenvolvimento de um grupo de algoritmos relacionados comumente referidos como Word2Vec.

Word2Vec Uma das formas mais utilizadas de incorporação de palavras é descrita pela Wikipedia como:

“O Word2vec toma como entrada um grande corpus de texto e produz um espaço vetorial, tipicamente de várias centenas de dimensões, com cada palavra única no corpo sendo atribuída a um vetor correspondente no espaço. Os vetores de palavras são posicionados no espaço vetorial, de modo que as palavras que compartilham contextos comuns no corpus estão localizadas próximas umas das outras no espaço. ”

Neste post, analisamos alguns dos usos práticos do Word Embeddings (Word2Vec) e do Domain Adaptation. Também analisamos os aspectos técnicos do Word2Vec para obter um melhor entendimento.

Analisando as respostas do questionário

O Word2Vec pode ser usado para obter métricas acionáveis de milhares de avaliações de clientes. As empresas não têm tempo e ferramentas suficientes para analisar as respostas da pesquisa e agir sobre elas. Isso leva à perda de ROI e valor da marca.

Os embeddings do Word são inestimáveis nesses casos. A representação em vetor de palavras treinadas em (ou adaptadas a) conjuntos de dados de pesquisa pode ajudar a incorporar relações complexas entre as respostas que estão sendo analisadas e o contexto específico no qual a resposta foi feita. Os algoritmos de aprendizado de máquina podem aproveitar essas informações para identificar informações acionáveis para seu negócio / produto.

Confira o SmartReader , uma ferramenta simples baseada no Excel da ParallelDots que automatiza a Análise de Resposta da Pesquisa e pode ser usada por qualquer pessoa.

Analisando Comentários Verbatim

O aprendizado de máquina com a ajuda de embeddings de palavras fez grande progresso no domínio da análise de comentários verbatim. Tais análises são muito importantes para empresas centradas no cliente.

Quando você está analisando dados de texto, um importante caso de uso é analisar os comentários verbais. Nesses casos, o cientista de dados tem a tarefa de criar um algoritmo que possa explorar o comentário ou a revisão dos clientes.

Os adubos do Word, como o Word2Vec, são essenciais para essas tarefas de Aprendizado de Máquina. Representações vetoriais de palavras treinadas em comentários e revisões de clientes podem ajudar a mapear as complexas relações entre os diferentes comentários e análises verbais que estão sendo analisados. O Word Embedded, como o Word2Vec, também ajuda a descobrir o contexto específico em que um determinado comentário foi feito. Esses algoritmos são muito valiosos para entender o sentimento do comprador ou do cliente em relação a um determinado negócio ou fórum social.

Confira o SmartReader da ParallelDots para avançar no processo de automatização da análise de comentários da Verbatim da sua empresa.

Sistema de recomendação de música / vídeo

A maneira como vivenciamos o conteúdo foi revolucionada pelos serviços de streaming disponíveis na Internet. No passado, as recomendações se concentravam em apresentar conteúdo para uso futuro. As modernas plataformas de streaming concentram-se em recomendar conteúdo que pode e será apreciado no momento. Os modelos de streaming trazem à mesa novos métodos de descoberta na forma de rádio personalizado e listas de reprodução recomendadas. O foco aqui é gerar sequências de músicas que gelam. Para aprimorar a experiência do usuário, o modelo do sistema de recomendação deve capturar não apenas as músicas com as quais as pessoas semelhantes geralmente se interessam , mas também quais músicas são ouvidas frequentemente em contextos muito semelhantes .

Tais modelos fazem uso do Word2Vec . O algoritmo interpreta a fila de escuta de um usuário como uma sentença com cada música considerada como uma palavra na sentença. Quando um modelo Word2Vec é treinado em um desses conjuntos de dados, o que queremos dizer é que cada música que o usuário ouviu no passado e a música que está ouvindo atualmente, de alguma forma, pertencem ao mesmo contexto. O Word2Vec representa com precisão cada música com um vetor de coordenadas que mapeia o contexto no qual a música ou o vídeo é reproduzido.

Para aqueles que desejam se aprofundar nos aspectos técnicos de como o Word2Vec funciona, veja aqui os especialistas internos da ParallelDots sobre o assunto.

Aspecto técnico da palavra Embeddings

Uma prática comum na PNL é o uso de representações vetoriais de palavras pré-treinadas, também conhecidas como incorporações, para todos os tipos de tarefas a jusante. Intuitivamente, essas incorporações de palavra representam relações implícitas entre palavras que são úteis ao treinar em dados que podem se beneficiar de informações contextuais.

Considere o exemplo do modelo Word2Vec skip-gram de Mikolov et al. – um dos dois métodos mais populares de treinar embeddings de palavras (o outro sendo GloVe). Os autores colocam um problema de raciocínio analógico que essencialmente requer a pergunta: “Alemanha é para Berlim como a França é para ___?”. Quando você considera cada uma dessas palavras como um vetor, a resposta para o problema dado é dada simplesmente pela fórmula.

vec (“Berlin”) – vec (“Germany”) = x – vec (“France”)

Ou seja, a distância entre os conjuntos de vetores deve ser igual. Assim sendo,

x = vec (“Berlin”) – vec (“Germany”) + vec (“France”)

Dado que as representações vetoriais são aprendidas corretamente, a palavra requerida é dada pelo vetor mais próximo do ponto obtido. Outra implicação disso é que palavras com significados semânticos e / ou sintáticos semelhantes serão agrupadas.

RETROFITTING

Embora os conjuntos de dados de propósito geral geralmente se beneficiem do uso desses embeddings de palavras pré-treinados, as representações nem sempre podem ser bem transferidas para domínios especializados. Isso ocorre porque os embeddings foram treinados em corpus de texto em massa criado a partir da Wikipedia e de fontes semelhantes.

Por exemplo, a palavra python significa outra coisa no contexto cotidiano, mas significa outra coisa inteiramente no contexto da programação de computadores. Essas diferenças tornam-se ainda mais relevantes quando você está construindo modelos para analisar dados críticos de contexto, como em notas médicas e jurídicas.

Uma solução é simplesmente treinar os modelos GloVe ou skip-gram nos conjuntos de dados específicos do domínio, mas em muitos casos os conjuntos de dados suficientemente grandes não estão prontamente disponíveis para obter representações praticamente relevantes / significativas.

O objetivo da adaptação é usar vetores de palavras pré-treinados prontamente disponíveis e adaptá-los aos dados do novo domínio. As representações de palavras resultantes são, sem dúvida, mais sensíveis ao contexto do que as inserções de palavras pré-treinadas.

Leia o blog original aqui .