Conversando com máquinas

Language, AI e a próxima interface do usuário

Jonathan Follett Segue 19 de jul · 9 min ler

Por Dirk Knemeyer e Jonathan Follett

Entre nós e nossos dispositivos de computação está a interface do usuário ou a interface do usuário. As formas como nos comunicamos com as nossas máquinas e as formas como as nossas máquinas comunicam connosco são essenciais para a qualidade da nossa experiência geral do utilizador. Isso nunca foi mais verdadeiro do que com inteligência artificial. O poder aprimorado do software com infusão AI depende não apenas dos dados corretos que chegam de nós à máquina, mas também da sofisticação da máquina ao interpretá-la.

As máquinas não funcionam a menos que nos comuniquemos com elas – seja com uma pessoa manipulando os controles explícitos de uma máquina ou implícitas na própria forma de uma máquina, feitas de uma maneira específica para simplesmente "fazer". Com nossas primeiras máquinas, tudo isso era bem simples. Pense em um ábaco, exigindo que o operador tenha apenas conhecimento de matemática simples e a capacidade de usar um dedo ou dispositivo similar para mover as contas para frente e para trás. As primeiras interfaces com nossas máquinas e tecnologia eram concretas, físicas e diretas.

Figura 01: As primeiras interfaces com nossas máquinas e tecnologia eram concretas, físicas e diretas.
[Foto: Abacus multicolorido de Crissy Jarvis no Unsplash]

Como as máquinas se tornaram mais complicadas, isso mudou. Levou a impressora para chegar à máquina de escrever, e levou a máquina de escrever para chegar ao teclado do computador. Cartões perfurados são anacrônicos hoje em dia, mas foi há poucas décadas que essa tecnologia – que possivelmente se originou em 1725 com Basile Bouchon e o controle de um tear – evoluiu para acelerar a computação mecânica inicial, unindo o teclado como os dois dispositivos mais importantes para usuários de computadores. interfaces, para não falar dos cartões perfurados maior papel no armazenamento e recuperação de dados. Foi somente na década de 1980 que o mouse se tornou um dispositivo central de interface de usuário com o surgimento de computadores Apple e interfaces gráficas, e há pouco mais de uma década que as convenções gestuais da computação móvel ajudaram a transformar a computação de um local de trabalho ou às vezes onipresença sempre presente que experimentamos hoje aqui nos Estados Unidos.

É importante lembrar como tudo isso é recente. Os cartões perfurados têm uma história muito mais rica do que o mouse no ecossistema da computação histórica, mesmo se fosse a usabilidade oferecida pelo mouse que ajudava a computação a se tornar mainstream. O momento em que estamos é passageiro, e podemos estar a anos, não a décadas de distância do rato, como sabemos que ele está mudando para um papel periférico. O que parecia para sempre ontem já estará obsoleto amanhã, sem que nos apercebamos disso.

Figura 02: Cartões perfurados evoluídos para acelerar a computação mecânica inicial
[Foto: Technische Hochschule Aachen (Universidade Técnica de Aachen) por Jens Gathmann, Arquivos Federais Alemães (1970) em Wikimedia Commons]

Hoje, quando nos comunicamos com máquinas, ainda usamos nossos dedos e mãos – puxando, empurrando, invertendo, digitando, clicando e passando. Enquanto esse paradigma funciona, não é a maneira mais elegante ou poderosa de se comunicar. Ela exige que a máquina com a qual estamos nos comunicando – a máquina, neste caso, seja a síntese do software que você está usando e os dispositivos de hardware nos quais você está usando – seja particularmente bem orientada para que você obtenha exatamente o que deseja. Algo como uma música favorita que você não ouviu há algum tempo pode exigir uma quantidade indutora de síndrome do túnel do carpo para obter o impulso de ouvir a música para realmente tocar. Isso não diz nada sobre o tempo que leva, o que pode levar não apenas alguns segundos, mas minutos, dependendo do seu ambiente de computação e rede.

O uso de interfaces gráficas de usuário para inteligência artificial ativada por voz é, quando bem feito, infinitamente melhor. Esta é uma das razões pelas quais tecnologias como Alexa e Siri são tão empolgantes. A interface do usuário é simplificada – no melhor dos casos – para um único comando de voz. Levará apenas um ou alguns segundos, tempo durante o qual sua mente e seu corpo não precisarão mais pensar sobre o pedido. O que costumava ser a interface gráfica do usuário e o gerenciamento pesado da arquitetura e da hierarquia para o usuário é, em vez disso, apenas verbalização de um desejo. Mas enquanto uma conexão pessoa-máquina perfeita é o ideal, no momento, essa interação está longe de ser fácil. Ou melhor, a conversa pode ser fácil, mas raramente os resultados corretos parecem ser. Conversar com máquinas pode nos causar muita frustração: Alexa, faça isso. Siri faz isso. Não, não faça isso, por favor, faça isso em seu lugar.

Processamento de linguagem natural

Então, é que o Processamento de Linguagem Natural, ou PNL, se tornou uma das tecnologias mais importantes, de rápido crescimento e essenciais para a IA atualmente. Simplificando, é assim que os computadores processam e analisam os dados da linguagem natural – particularmente o nosso discurso. A PNL é uma tecnologia de pilares sobre como a inteligência artificial se comunica e funciona para nós. O futuro próximo da automação será, de muitas maneiras, impulsionado pela PNL. Dado o poder e o potencial de cada interface de usuário e AI de voz, é imperativo que a capacidade da máquina de interpretar e usar a linguagem natural – particularmente a palavra falada – seja eficaz.

Para entender melhor a PNL, falamos com o pesquisador e cientista da computação Shivali Goel, que trabalhou para empresas como a SYSTRAN e a Adobe. “A PNL é uma das principais tecnologias da IA. Você pode vê-lo como uma bela mistura de linguística e ciência da computação ”, diz Goel. “É basicamente dar às máquinas a capacidade de entender o que uma pessoa quer dizer quando diz ou digita alguma coisa. A PNL trata da superação de ambigüidades na linguagem e da compreensão da intenção e do contexto. Por exemplo, se eu disser: "As crianças fazem lanches nutritivos", o que você entende? As crianças estão cozinhando algo nutritivo? Ou que eles mesmos são um lanche nutritivo ”.

“Os algoritmos de PNL examinam e utilizam padrões em tais dados. Eles entendem a palavra relações e o jogo de palavras, e simulam conversas semelhantes às humanas. Então, quando você pede ao Google para tocar dance music, isso é PNL. Quando você abre uma página da web estrangeira e ela é traduzida para o seu idioma, isso é PNL. E quando o seu Wi-Fi não está funcionando e você acaba ficando irritado tentando explicar seu problema para um assistente virtual, ou apenas gritando 'Agente! Agente!' no telefone que também é PNL. E acredite, estamos trabalhando muito para melhorar isso. ”

A voz é o nosso dispositivo de entrada mais natural. É a principal maneira de nos comunicarmos com outros seres humanos, e tem sido há milhares de anos. A PNL é a tecnologia que traduz nossa voz para ser usada melhor pela máquina. Em seu ápice teórico, a PNL interpretaria nossas palavras, cadência, entonação e outros fatores para traduzi-la em uma compreensão diferenciada de nossa intenção. Hoje, como aponta Goel, nem sempre é possível descobrir onde nos levar por uma simples árvore de decisão por telefone. Ainda assim, em suas melhores encarnações, a tecnologia parece entender e reagir como mágica. Um exemplo é o serviço Duplex do Google, que usa uma voz humana para marcar compromissos para seu proprietário. Mais do que apenas uma conveniência, é outra tecnologia que obscurece a distinção entre o real e o falso.

Outro excelente exemplo de PNL em ação é em tradução automática. "Sistemas de tradução automática podem ajudar os alunos a aprender uma língua estrangeira", diz Goel. “Os tradutores ainda não são bons o suficiente para combinar com os humanos ou substituir os professores, mas esses sistemas podem definitivamente complementar o ensino. Além disso, muitos recursos e ebooks on-line podem ser traduzidos para diferentes idiomas, para que mais pessoas possam se beneficiar do aprendizado… ”

A voz tem suas limitações como entrada de interface. Em particular, há muitos casos de uso importantes que podem se tornar difíceis devido à natureza intrusiva de seu uso em espaços não privados. “Devo dizer que não acho que a interface de voz terá muito futuro em espaços públicos. Acho que o que vimos é um aumento na comunicação visual e textual [no] espaço público ”, diz Lee Humphreys, autor de The Qualified Self e professor associado do Departamento de Comunicação da Universidade de Cornell. Humphreys realizou um dos primeiros estudos nos Estados Unidos sobre o uso de telefones celulares no espaço público no início dos anos 2000. “Fiz um estudo observacional onde saí e observei pessoas… usando seus telefones celulares. E uma das coisas que foi realmente fascinante sobre esse estudo é a maneira que as pessoas tentariam manter sua comunicação privada quando estavam falando ao telefone. Então, eles colocariam a cabeça para baixo. Eles podem colocar a mão sobre a boca. Eles se envolvem em uma variedade de maneiras para tentar manter suas conversas privadas. Mas [ao mesmo tempo] sua voz pode ser uma violação da privacidade de outras pessoas no espaço público ”, diz Humphreys. “O British Medical Journal chegou a igualar as conversas em telefones celulares no início dos anos 2000 ao equivalente a fumaça de segunda mão, como uma forma de poluentes sociais no ar. … Eu realmente penso em certos tipos de contextos, o papel da voz é muito difícil. Onde é provável que você veja isso nos carros, como uma espécie de espaço público. No entanto, você está nesta pequena bolha onde você quer cantar junto com o rádio ou Spotify ou qualquer outra coisa, vá em frente. Ou você pode ditar alguma coisa. Então, eu acho que é um lugar, um pouco mais no espaço público além de apenas espaços domésticos onde você pode ver formas de comunicação de voz. ”

Figura 03: Existem muitos casos de uso importantes para a IU de voz que podem se tornar difíceis devido à natureza intrusiva de seu uso em espaços não privados.
[Foto: Estação Ferroviária de Cima – Berna, Suíça por Timon Studler em Unsplash]

Há um futuro para uma interface de voz mais onipresente, mas exigirá a adição de outras tecnologias. Já existe um trabalho significativo em torno da interface do usuário de voz que está registrando os sussurros ou os movimentos da boca de um usuário, em vez do tipo de fala alta necessária ao falar com outras pessoas. Estes ou alguns outros avanços serão necessários para aproveitar ao máximo a voz como um paradigma de interface dominante.

“A maneira como eu vejo a voz agora é que muitas pessoas usam isso como um sistema para fazer comandos diretos – com a configuração de alarmes ou a reprodução de músicas com 'Iniciar', 'Parar', 'Próximo' – comandos realmente simples para um computador ”, diz Erica Lee, diretora executiva e fundadora da WomenOfAI.org . “Em vez de apertar o botão, você está apenas usando sua voz. Então, agora toda a minha casa é automatizada com o Amazon Alexa e o Google Home Assistant para ajudar a mudar a música, definir temporizadores, ler calendários … fazer um monte de função de baixo nível. Tem sido muito útil apenas me poupar tempo.

“E a interface de voz está agora começando a se fundir com as interfaces visuais. Há essa nova tendência que enviamos eletrônicos domésticos com telas ligadas a muitos desses sistemas de som. A Amazon lançou recentemente o Echo Show , que tem uma tela com uma câmera frontal. Não é só dizer “tocar a próxima música”, podemos realmente ver a capa do álbum e o nome dela, e às vezes até mesmo gráficos ou animações por trás dela. Está se tornando mais interativo e imersivo ”, diz Lee.

As aplicações de IA mais interessantes serão aquelas que se entrelaçam com o nosso dia-a-dia. Para isso, as máquinas precisam entender o que queremos ou não. Isso retorna à interface do usuário e como nós inserimos comandos na máquina. Neste, a integração de voz com recursos visuais é um passo importante. Nós nunca chegamos perto do ambiente de computação imersivo no filme Minority Report, agora 17 anos atrás. Na época, isso foi considerado como o futuro, um retrato fictício baseado na opinião de futuristas e tecnólogos que entendiam como as coisas evoluiriam em breve. Nós ainda não estamos lá ainda. De fato, nossa realidade nem se sente próxima. Ainda assim, a integração da melhoria da interface de voz com nossos ambientes de exibição é um passo nesse caminho.

Lee acredita que a interface do usuário evoluirá para entradas mais passivas e automatizadas: “Minha perspectiva pessoal – e espero que o setor a mova dessa forma – é [que] o sistema é menos, unidirecional, onde eu digo à máquina para fazer alguma coisa [ e] mais de um loop de feedback, onde, ocasionalmente, vou colocar em solicitações para o meu Siri para alterar o calendário, ou para verificar o meu e-mail. Mas realmente o sistema tem muitos sensores diferentes e muitas entradas diferentes para ler o meu comportamento. ”Esse é certamente um modelo de máquinas no seu melhor: aproveitando todos os dados disponíveis na rede e depois automatizando ambientes e experiências de maneiras que são ideal para cada pessoa única.

O Creative Next é um podcast que explora o impacto da automação conduzida pela IA nas vidas de trabalhadores criativos, pessoas como escritores, pesquisadores, artistas, designers, engenheiros e empreendedores. Este artigo acompanha a 2ª Temporada, Episódio 1 – UI e Inteligência Artificial , 2ª Temporada, Episódio 2 – Origens da Mídia Social e 2ª Temporada, Episódio 3 – PNL – Processamento de Linguagem Natural .

Texto original em inglês.