Aprendizado profundo dá visão a um técnico virtual

TechSee Seguir Nov 14, 2017 · 6 min ler

Por: Liad Churchill

“Gareth! Café! Agora!"
Em uma manhã fria de inverno em 2030, estou rosnando para Gareth enquanto o robô examina meu espresso. Sua tela no peito exibe detalhes sobre os ajustes internos que ele está prestes a fazer, ajustes que sua exibição me disse para fazer semanas atrás.
"Você percebe que isso vai me atrasar em pelo menos cinco minutos", eu reclamo.
Não obtenho resposta, claro. Eu programou o recurso de resposta de voz de Gareth para se ativar uma hora depois de eu acordar.
"Robôs de baixa rotação", eu resmungo quando volto para a cozinha para o meu macchiato espresso um pouco atrasado, ainda que perfeito.

Um som lá fora faz a cabeça de Gareth girar e olhar pela janela. Sua exibição diz: SUA CABINE AUTODRIVE CHEGOU.
"Diga para esperar", eu digo com irritação, "eu vou estar cinco minutos atrasada."

Trending AI Articles:

1. Tutorial da TensorFlow Object Detection API

2. Keras Cheat Sheet: Redes Neurais em Python

3. Google vai bater a Apple em seu próprio jogo com IA superior

4. TensorFlow Object Detection API: noções básicas de detecção (2/2)

Uau, 2030 Eu, um atraso de uns cinco minutos gritante. Pense em quanto tempo levaria para você consertar sua máquina de expresso de 2017, e depois volte para mim com suas reclamações.

– –

A revolução da casa inteligente está criando um paradoxo interessante: estamos usando dispositivos e serviços mais inteligentes para simplificar nossas vidas, mas sua instalação, ativação e operação estão ficando complicadas. Como resultado, nossas redes domésticas inteligentes cada vez mais sofisticadas estão criando bilhões de novas solicitações de suporte técnico.

Em um futuro próximo, talvez não precisemos fazer essas solicitações. Com cada vez mais inteligência, nossos dispositivos domésticos e robôs domésticos provavelmente terão a capacidade de detectar, ver e corrigir automaticamente os problemas por conta própria.

Esses técnicos virtuais robóticos baseados em inteligência artificial nos ajudarão a gerenciar, usar e atender nossos dispositivos, economizando-nos horas preciosas, ou mesmo dias, gastos na espera de agentes do centro de atendimento ou de visitas técnicas para resolver problemas técnicos. A área médica já está usando robôs para diagnosticar exames de sangue e raios-x, então é seguro dizer que inevitavelmente veremos bots domésticos mais simples que podem, digamos, diagnosticar uma máquina de lavar quebrada ou uma conexão de Internet interrompida.

A chave para esse progresso é a visão: da mesma forma que a visão de um técnico humano é o principal sentido que ele usa para o diagnóstico, a principal tecnologia que impulsiona a eficácia de um técnico virtual é a visão computacional.

Aprendizagem profunda e visão computacional

A visão computacional envolve o processamento e a análise de imagens e vídeos digitais para entender automaticamente seu significado e contexto. A visão computacional apresenta um amplo espectro de recursos, incluindo: detecção de objetos, reconhecimento facial, detecção de movimento, restauração de imagens e síntese de conteúdo. Uma ampla variedade de objetos e aplicativos está atualmente usando essas tecnologias, como carros autônomos, sistemas de câmeras e mecanismos de pesquisa.

Nos últimos anos, o aprendizado profundo levou a melhorias significativas na precisão e no desempenho da visão computacional. O aprendizado profundo, a forma mais avançada de IA, permite o aprendizado independente de conjuntos de dados massivos. Ao contrário dos métodos clássicos em que um especialista humano precisa definir características (regras e atributos), o aprendizado profundo pode aprender diretamente a partir de dados sem intervenção humana, com uma orientação menor (aprendizado supervisionado) ou sem orientação alguma (aprendizado não supervisionado). Em alguns campos, o aprendizado profundo alcança resultados muito maiores do que os métodos clássicos de aprendizado de computadores.

Vamos dar uma olhada em como podemos usar algumas dessas tecnologias para construir nossos técnicos virtuais do futuro:

Reconhecimento de objeto:

Essa tecnologia permite encontrar e reconhecer objetos em imagens ou vídeos. O reconhecimento de objetos inclui várias tarefas, como: classificar que a imagem tem um objeto específico, localizar o objeto na figura, distinguir o objeto de outros objetos e identificar partes no objeto.

Desde 2015, o reconhecimento de objetos baseado em aprendizagem profunda alcançou resultados surpreendentes, com a taxa de erro caindo abaixo de 5% (o nível humano). Isso significa que, em vários campos, as máquinas de hoje podem reconhecer objetos ainda melhor do que os seres humanos!

Essa incrível precisão torna o reconhecimento de objetos uma tecnologia essencial para o futuro técnico virtual. Para diagnosticar um problema de conectividade com a Internet, por exemplo, um técnico virtual precisa identificar o roteador (e reconhecer o modelo específico), suas partes (como LEDs de indicação e painel traseiro) e seus cabos; Ele também precisa localizar todos esses objetos para entender seu contexto para diagnosticar o problema.

Imagem 1: Identificando Modem e Impressora com Reconhecimento de Objeto

Imagem para texto:

Usar "alinhamentos semânticos profundos" para descrições textuais permite que a rede descreva o que vê em uma imagem em uma frase simples. Uma máquina desenvolve essa capacidade reconhecendo objetos e suas localizações dentro de uma imagem, convertendo essas informações em texto e criando uma sentença contextual significativa para descrever a imagem. Usando essa tecnologia, os clientes poderão fazer upload de imagens de seus equipamentos, após o que um técnico virtual descreverá automaticamente em uma frase o que vê, por exemplo: “Um modem DLINK 5323 com uma luz vermelha e um cabo ADSL desconectado”. Essa descrição pode ajudar um agente humano em um contact center a diagnosticar o problema mais rapidamente; alternativamente, usando o Natural Language Processing (NLP) para recuperar automaticamente explicações textuais de como resolver um problema.

Imagem 2: descrição textual de um problema de tela de TV

Semelhança visual:

A similaridade visual permite encontrar imagens semelhantes à imagem fornecida à máquina. Essa capacidade é essencial, pois às vezes é difícil explicar uma imagem em palavras, e o caminho mais fácil para uma solução começa com a localização de outras semelhantes. Mecanismos de pesquisa visual e sites como o Pinterest usam semelhança visual para fornecer a seus usuários imagens semelhantes (com objetos, cores ou padrões relacionados). A similaridade visual permitirá que os técnicos virtuais capturem imagens de um problema técnico e busquem problemas semelhantes em conjuntos de dados visuais massivos de casos técnicos capturados.

Imagem 3: encontrar problemas semelhantes com um roteador específico

Detector de movimento:

A detecção de movimento permite rastrear objetos em movimento em vídeos em tempo real. A detecção de movimento é uma capacidade fundamental em carros autônomos para capacidades de "detecção de pedestres"; e no domínio de segurança para identificar pessoas em movimento detectadas por câmeras de segurança.

A detecção de movimento é um componente-chave do futuro técnico virtual, permitindo que ele forneça instruções e feedback aos clientes em tempo real. Por exemplo, para instruir um cliente sobre como instalar uma impressora, um técnico virtual precisa identificar os movimentos da mão do cliente e fornecer a ele instruções em tempo real: por exemplo, “Agora coloque os papéis na bandeja”, “Agora, segure o cabo de rede. Não aquele, mas o outro ”.

Imagem 4: Detecção de movimento no processo de solução de problemas

Reconhecimento Facial:

Finalmente, a tarefa mais comum na visão computacional: reconhecer rostos dentro das imagens. O aprendizado profundo trouxe melhorias significativas para a capacidade de reconhecimento facial das máquinas, especialmente em condições desafiadoras de iluminação, ângulos e planos de fundo.

Com o reconhecimento facial, um técnico virtual será capaz de realizar a tarefa crítica de reconhecer os clientes e cumprimentá-los de acordo: “Olá, Sra. Brown, vejo que você está tendo problemas com a sua máquina de lavar roupa”. As empresas podem usar o reconhecimento facial para oferecer garantias biométricas, garantindo que os clientes obtenham serviços para seus dispositivos sem forçá-los a salvar recibos e documentos de garantia.

Resumo

O progresso da visão computacional com aprendizado profundo promoverá a criação de "olhos artificiais" para o técnico virtual do futuro e nos ajudará, os consumidores, a gerenciar o crescente número de dispositivos inteligentes que estamos instalando em nossas casas inteligentes.

Em nosso próximo artigo desta série, detalharemos como podemos realmente trazer o técnico virtual do futuro para o presente com reconhecimento de objetos.

Não se esqueça de nos dar o seu ?!