Como você pode aplicar aprendizado não supervisionado em dados de áudio?

Aprendizagem não supervisionada

Edward Ma em HackerNoon.com Segue em 9 de jul · 4 min ler Foto de Jan St?echa em Unsplash

A abordagem de aprendizado não supervisionada é demonstrada pelo modelo de PNL de última geração (por exemplo, BERT, GPT-2) como uma boa maneira de aprender recursos para tarefas de recebimento de dados. Pesquisadores demonstraram que recursos aprendidos baseados em dados fornecem um recurso de áudio melhor do que o recurso acústico tradicional, como o Mel-frequency cepstrum (MFCC).

Esta história irá discutir sobre como você pode usar o aprendizado não supervisionado para aprender o recurso de áudio e aplicá-lo às tarefas posteriores.

Aprendizado de recurso não supervisionado para classificação de áudio

Lee et al. propor a utilização da rede convolucional de crenças profundas (CDBN, aksdeep learning representation atualmente) para substituir os recursos de áudio tradicionais (por exemplo, espectrograma e cepstrum Mel-frequency cepstrum (MFCC)). A entrada original é espectrograma de cada enunciado e o tamanho da janela é de 20 ms com sobreposições de 10 ms. Janela pequena e configuração sobreposta são comuns ao manusear a entrada de áudio. Acredite que o recurso do computador é limitado nesse período (era 2009), eles utilizam a análise de componentes principais (PCA) para reduzir a dimensão antes de alimentar a rede neural.

A configuração para a rede neural inclui 2 camadas de rede neural convolucional (CNN) com 300 dimensões, comprimento de filtro de 6 e razão de agrupamento máximo de 3.

Visualização da camada pré-treinada (Lee et al., 2009)

Lee et al. avaliado recurso orientado a dados (CDBN) com características tradicionais que são espectrograma (ou seja, RAW na figura a seguir) e MFCC para identificação de alto-falante, classificação de gênero de alto-falante, classificação de telefone, classificação de gênero musical e classificação de artista de música.

Precisão de classificação de teste para identificação de fala usando estatísticas de resumo (Lee et al., 2009) Precisão de classificação de teste para identificação de fala usando todos os quadros (Lee et al., 2009) Teste de precisão de classificação para classificação de gênero (Lee et al., 2009)

Aprendizado não supervisionado de recursos baseado em modelos profundos para marcação de áudio ambiental

Xu et al. use espectrograma como entrada bruta para aprender representação vetorial. O auto-codificador assimétrico de não-emissão (aDAE) é apresentado no trabalho de pesquisa. A arquitetura de rede inclui partes de codificador (primeiras três camadas) e decodificador (últimas três camadas). O espectrograma é extraído e alimentado no codificador, enquanto o objetivo do treinamento é prever o meio do quadro usando os quadros anterior e seguinte.

É semelhante ao Contínuo das Palavras-Palavras (CBOW) na PNL. O CBOW usa o ambiente para prever as palavras-alvo.

Arquitetura de rede do ADAE (Xu et al., 2016)

As seguintes comparações de modelos demonstram que aDAE obtém um resultado melhor em geral.

Resultados de comparação de modelos entre rótulos (Xu et al., 2016)

Aprendizado de recurso não supervisionado para análise de áudio

Meyer et al. também use espectrograma como entrada bruta para aprender representação vetorial. O objeto de treinamento está usando o quadro anterior para prever o próximo quadro, que é semelhante ao modelo de linguagem no NLP. O preditor de quadros de áudio (AFP) é apresentado neste documento.

A arquitetura de rede inclui peças codificadoras e decodificadoras. O espectrograma é extraído com 2,56 s de tamanho de janela deslizante e 0,64 s se sobrepõe e alimenta o codificador, o que inclui várias camadas ConvLSTM. A configuração ConvLSTM usa o kernal de filtro 3×3 com a ativação ReLu e a função de normalização de lote.

Modelo do preditor de quadro de áudio (Meyer et al., 2017)

Meyer et al. use o procedimento de duas etapas para treinar a representação baseada em dados. A rede é treinada minimizando o erro quadrático médio (MSE) (ou seja, codificador para decodificador) nas primeiras 6 épocas. Na sexta a nona época, o treinamento de perda par a par objeto é adicionado para ajustar a representação simultaneamente.

Distribuição vetorial de recurso pré-treinado (Meyer et al., 2017) Precisão do Tess para tarefas de classificação e agrupamento (Meyer et al., 2017)

Gosta de aprender?

Eu sou cientista de dados na área da baía. Concentrando-se no estado-da-arte em Ciência de Dados, Inteligência Artificial, especialmente em PNL e plataformas relacionadas. Sinta-se à vontade para se conectar comigo no LinkedIn ou me seguindo no Medium ou no Github .

Referência