AI que pode reconhecer cisnes negros

Usando redes adversárias para restaurar o equilíbrio em conjuntos de dados de imagem

Jesus Rodriguez Blocked Unblock Seguir Seguindo 4 de janeiro

Os seres humanos têm uma capacidade única de aprender conceitos a partir de imagens em um único tiro. Mostre a uma criança uma imagem de um cão e ele ou ela pode reconhecer imediatamente todos os tipos de cisnes, independentemente das variações nas cores da pele, tamanho, raça, sexo, etc. Em contraste, treinar um modelo de classificação simples em Inteligência Artificial (AI) pode ter enormes conjuntos de dados de treinamento. O que é pior, os modelos de IA não são muito bons em reconhecer variações da mesma classe de objeto, e é por isso que treinar um modelo de classificação de imagem para reconhecer cães exigirá um conjunto de dados de treinamento com todos os tipos de cisnes. Como resultado, os modelos de classificação de imagem são notórios por estarem desequilibrados e exibindo comportamentos tendenciosos baseados no conjunto de dados de treinamento. Recentemente, um grupo de pesquisadores de inteligência artificial do IBM Research Lab, em Zurique, publicou um artigo propondo um novo método baseado em redes geradoras de conflitos (GANs) para combater o preconceito e alcançar o equilíbrio em conjuntos de dados de imagens .

O equilíbrio é um dos principais aspectos que influenciam a precisão dos modelos de classificação de imagens. Um modelo que identifica cisnes é provável que falhe quando apresentado com uma imagem de um cisne negro, pois eles não são muito comuns. Como resultado, os cientistas de dados gastam muito tempo e recursos tentando aumentar os conjuntos de dados de treinamento, introduzindo imagens de classe minoritária, mas essa abordagem manual é dificilmente escalonável. Modelos geradores, como GANs, são ideais para gerar novas imagens a partir de um conjunto de dados, mas não podem ser efetivamente treinados, pois não há amostras minoritárias suficientes. Resumindo, um generativo desse modelo que restaura o equilíbrio em um conjunto de dados de imagem requer duas coisas:

a) Capacidade de gerar novas imagens com base em exemplos minoritários.

b) Capacidade de aprender conceitos de minoria com base em um conjunto de treinamento reduzido.

Apresentando BAGAN

Balancing generative adversarial network (BAGAN) é uma variação do GAN focada em restaurar o equilíbrio em um conjunto de dados de treinamento baseado em imagens minoritárias. Como GANs tradicionais, o BAGAN usa duas redes neurais concorrentes: gerador e discriminador que são treinadas em imagens majoritárias e minoritárias em conjunto e aprendem a gerar novas imagens que correspondam ao conjunto de dados. Durante o treinamento, o gerador é explicitamente solicitado a desenhar imagens de cada classe e permitir que o discriminador acredite que as imagens geradas são imagens reais das classes desejadas. Ao fazer isso, o gerador é explicitamente recompensado por desenhar imagens realistas de cada classe, incluindo as classes minoritárias. O discriminador, por outro lado, é recompensado por rotular imagens falsas ou colocá-las em uma classe específica. A principal contribuição do BAGAN é que ele pode conduzir o processo gerador através de diferentes classes de imagens, incluindo as minoritárias. A BAGAN consegue isso expandindo as GANs tradicionais com uma técnica de auto-codificação que fornece uma seleção precisa do condicionamento de classe.

A arquitetura do BAGAN é baseada em três estágios diferentes: treinamento de autoencoder, inicialização de GAN e treinamento de GAN.

· Treinamento de Autoencoder: O autoencoder BAGAN é treinado usando todas as imagens do conjunto de dados de treinamento. O autoencoder não possui conhecimento de classe explícito, ele processa todas as imagens de classes majoritárias e minoritárias incondicionalmente.

· Inicialização GAN: No BAGAN, o modelo contraditório é inicialmente treinado com as diferentes classes de imagens. Durante o treinamento, o gerador é solicitado a criar imagens para diferentes classes, enquanto o discriminador é solicitado a rotular as imagens como falsas ou em uma classe específica. O GAN também é treinado com o conhecimento do autoencoder que é usado para inicializar o gerador com os pesos do decodificador. O discriminador é inicialmente treinado com recursos que permitem classificar imagens em diferentes classes.

· Formação Adversarial: Nesta fase, os dados fluem em lotes através do gerador e do discriminador e seus pesos são ajustados para otimizar suas funções de perda. O discriminador classifica uma imagem de entrada como pertencente a uma das classes específicas do problema ou como sendo falsa. Para cada lote aprendido pelo discriminador, um lote do mesmo tamanho é aprendido pelo gerador, ajudando a manter o equilíbrio entre as duas redes. O processo é repetido várias vezes até que seja atingido no conjunto de dados.

Uma implementação inicial do BAGAN baseada em Keras e TensorFlow está disponível no Github .

BAGAN em ação

Usando a arquitetura descrita na seção anterior, o BAGAN é capaz de gerar imagens de classes minoritárias que restauram o equilíbrio em um conjunto de dados de destino. Se precisarmos quantificar a eficácia do BAGAN, devemos procurar por três propriedades-chave nas imagens geradas:

a) A geração de imagens gerada deve representar uma classe de destino.

b) As imagens geradas não devem ser repetitivas.

c) As imagens geradas devem ser diferentes das do conjunto de dados inicial.

Com base nessas três propriedades, você pode julgar os resultados do BAGAN sozinho. Quando usado contra o popular conjunto de dados CIFAR-10 de imagens minúsculas, o BAGAN foi capaz de gerar imagens que mostram muito mais diversidade do que alternativas competitivas.

Resultados semelhantes foram observados quando treinados usando classes minoritárias no conjunto de dados alemão de reconhecimento de sinais de trânsito .

O preconceito de combate é um dos desafios centrais da IA na próxima década. O desenvolvimento de modelos de inteligência artificial que podem trabalhar efetivamente com classes minoritárias, assim como o desempenho em objetos comuns, é essencial para criar uma IA mais diversificada e menos tendenciosa. Métodos como BAGAN são uma das tentativas iniciais para restaurar o equilíbrio em conjuntos de dados de classificação de imagem. Afinal, a IA pode reconhecer cisnes negros.

Texto original em inglês.