Quadrante de conhecimento para aprendizado de máquina

Robert Munro em Rumo à Ciência dos Dados Seguir no dia 9 de julho · 6 min ler

A maioria dos sistemas de aprendizado de máquina implantados no mundo hoje aprendem com o feedback humano. Por exemplo, um carro autônomo pode entender um sinal de parada porque os humanos rotularam manualmente milhares de exemplares de sinais de parada em vídeos feitos de carros. Esses exemplos rotulados são o que ensina os algoritmos implantados nos carros para identificar automaticamente os sinais de parada.

No entanto, a maioria dos cursos de Aprendizado de Máquina concentra-se quase exclusivamente nos algoritmos, e não na parte Interação Humano-Computador dos sistemas. Isso pode deixar uma grande lacuna de conhecimento para os Cientistas de Dados que trabalham no Aprendizado de Máquina do mundo real, onde gastarão mais tempo no gerenciamento de dados do que na construção de algoritmos. Sem um histórico em Aprendizado de Máquina com o Human-in-the-Loop, os Cientistas de Dados frequentemente tentam manter o design do algoritmo e a criação de dados de treinamento como atividades completamente separadas. Os algoritmos se tornam mais precisos mais rapidamente se você puder combinar suas estratégias de dados e algoritmos, portanto, essa é uma oportunidade perdida.

O Aprendizado de Máquina Humano no Loop é uma oportunidade para abordar uma das questões mais importantes da tecnologia hoje: como os humanos e as máquinas devem trabalhar juntos para resolver problemas?

Aqui está um quadrante do conhecimento que criei para Aprendizado de Máquina para enquadrar os problemas e as abordagens:

Podemos dividir esses quadrantes em:

  1. Conhecidos conhecidos: o que seu modelo de aprendizado de máquina pode fazer com confiança e precisão hoje.
  2. Desconhecidos Conhecidos: o que seu modelo de Aprendizado de Máquina não pode fazer com confiança hoje.
  3. Unknown Knowns: conhecimento em modelos pré-treinados que podem ser adaptados à sua tarefa.
  4. Desconhecidos Desconhecidos: lacunas no seu modelo de Aprendizado de Máquina onde ele está cego hoje.

Como podemos resolver problemas em cada Quadrante de Conhecimento de Aprendizado de Máquina?

Além dos quadrantes individuais (mais sobre eles abaixo), as linhas e colunas no Quadrante de Conhecimento de Aprendizado de Máquina têm propriedades compartilhadas importantes para como podemos resolver os problemas:

A linha superior pode ser endereçada dentro do seu modelo atual: onde está o modelo confiante ou não confiante hoje?

A linha inferior significa procurar fora do seu modelo: que outros modelos pré-treinados e métodos de amostragem para diversos itens não rotulados você deve usar?

A coluna da esquerda pode ser tratada pelo design de algoritmo certo: como podemos construir modelos precisos que sejam interpretáveis e alavancar modelos pré-treinados?

A coluna da direita pode ser tratada por interação humana: como podemos amostrar os ótimos pontos de dados não rotulados com o Active Learning e obter anotações humanas precisas?

Como podemos construir sistemas que abordem os problemas em cada quadrante?

Para Transfer Learning, a comunidade Machine Learning ainda está no início do movimento. Modelos pré-treinados só decolaram há cerca de 5 anos (e ainda mais recentemente em algumas áreas de Aprendizado de Máquina, como o Processamento de Linguagem Natural), por isso ainda estamos aprendendo as melhores formas de aproveitar modelos e incorporações pré-treinadas, especialmente em o contexto de Aprendizado Ativo e Anotação.

Para nossos Desconhecidos Desconhecidos, não há nem mesmo um nome comum para a variedade de métodos que as pessoas usam hoje, incluindo: Amostragem Baseada em Cluster, Outliers, Detecção de Anomalias, Amostragem Representativa, Amostragem para Diversidade no Mundo Real, etc. sido cooptado de diferentes partes do mundo de Aprendizado de Máquina para o Aprendizado Ativo, daí nenhum nome comum, então agrupei-os em "Amostragem de Diversidade": todos os métodos neste quadrante estão tentando tornar o modelo mais preciso em um contexto mais amplo e um conjunto mais diversificado de pontos de dados.

Existem muitos algoritmos que resolvem os problemas em apenas um dos quadrantes. Por exemplo, há algoritmos comuns para amostragem de incerteza, como Confiança mínima, Margem de confiança e Confiança baseada em entropia, e qualquer um deles pode ser a melhor opção para amostrar os "Desconhecidos conhecidos" ideais em seus dados.

Para sua arquitetura de Aprendizado de Máquina, você precisa torná-lo interpretável para o Aprendizado Ativo. Por exemplo, se você estiver usando a equação softmax para gerar uma distribuição de probabilidade para suas previsões, provavelmente não poderá confiar no valor absoluto da "confiança" de suas previsões. Pode ser o suficiente para tratar as confidências como uma classificação e você pode ignorar os valores reais. Como alternativa, você pode decidir expor as camadas de seus sistemas de processamento downstream de modelo que podem determinar com mais precisão a confiança. Ou como uma estratégia mais avançada, você pode até mesmo desenvolver uma arquitetura paralela com duas camadas finais em seu modelo (ou duas cabeças de atenção se estiver usando um modelo baseado em transformador): uma prevendo o rótulo e a segunda determinando a confiança dessa previsão.

Um exemplo de saúde de uma estratégia que combina as soluções nos quatro quadrantes

Existem algumas estratégias inteligentes que combinam soluções para os problemas em dois ou mais desses quadrantes.

Por exemplo, vamos imaginar que você queira informações extras do texto em documentos de assistência médica. Talvez você queira saber quais doenças são mencionadas com mais frequência para poder monitorar potenciais epidemias – este é um caso de uso em que trabalhei antes.

Você pode começar usando o Transfer Learning para criar um novo modelo, ajustando um modelo pré-treinado da XLNet para extrair informações médicas relacionadas aos seus documentos de assistência médica.

No entanto, a XLNet foi pré-treinada em sites públicos e outro texto aberto, que parece muito diferente de seus documentos de saúde privados. Então, você precisa obter mais exemplos de treinamento.

Você decide experimentar os itens não rotulados de seus documentos de assistência médica que parecem os mais diferentes dos dados abertos nos quais a XLNet foi treinada. Para refinar ainda mais os itens não rotulados que foram amostrados, você só coleta amostras de itens com <50% de confiança do seu classificador hoje, pois é mais provável que eles contenham erros.

Embora todo o fluxo de trabalho como o senso comum em nosso exemplo relacionado à assistência médica, há muitos detalhes de implementação que precisamos acertar, porque está combinando Aprendizado de Transferência, Amostragem de Incerteza e Amostragem de Diversidade. Você terá que decidir quais algoritmos de Transferência de Aprendizagem, Amostragem de Incerteza e Amostragem de Diversidade são os melhores para usar em seus dados e caso de uso.

Recursos para Aprendizado de Máquina Humano no Loop

Eu venho construindo sistemas que combinam abordagens humanas e de algoritmo ao Machine Learning por 20 anos. Foi divertido ver o quanto mudou:

Uma breve história dos dados de treinamento

Como os dados de treinamento mudaram nos últimos 25 anos?

paradatascience.com