Projetando para voz

Denislav Jeliazkov Blocked Desbloquear Seguir Seguindo 9 de julho

A voz é a próxima fronteira na criação de interações homem-computador?

Primeiramente, começamos com computadores simples baseados em texto.

Então nós tivemos interfaces gráficas com o usuário e chegamos ao mouse.

O próximo foi touchpads e beliscar / zoom, graças à revolução do iPhone da Apple.

Estamos agora nos movendo para a era da voz?

Nesta era do Apple Siri, do Google Home, do Microsoft Cortana e do Amazon Alexa, pode-se facilmente perguntar qual é a comparação entre o Voice e outras formas de interfaces de usuário.

As principais diferenças estão listadas nas interfaces do usuário abaixo.

  1. Texto versus Linguagem Natural versus Gestos – Enquanto interfaces de usuário tradicionais baseadas em tela usam alguma forma de entrada tipicamente uma interface de usuário baseada em ação de texto ou mouse que é geralmente gráfica, Voice usa linguagem natural e converte isso em um comando. Algumas interfaces, como o Sony Playstation, usam gestos, que não são texto nem idioma nativo. Existem também interfaces baseadas em interfaces baseadas em pensamento experimental ou experimental, nas quais nossos pensamentos controlam as ações em uma máquina. Um excelente exemplo de interfaces baseadas em toque que são dispositivos de segurança como leitores de impressão digital ou a interface de toque inovadora para qualquer superfície desenvolvida na Carnegie Mellon University e de pensamento são os detectores de mentiras.
  2. Privacidade – Interfaces de voz geralmente não são propícias para privacidade e ambientes ruidosos. As interfaces de texto, toque e gráficas podem ser privadas, especialmente com filtros de tela em telefones, tablets grandes ou telas de laptops.
  3. Velocidade – Os seres humanos são inerentemente visuais por natureza. As interfaces de usuário visual, corretamente projetadas, podem acelerar a interface do usuário e a interação homem-máquina. A voz ainda pode ser lenta.

Fonte: Chris Harris / Universidade Carnegie Mellon, EUA

O que torna as interfaces de usuário de voz interessantes é que permite interagir naturalmente com as máquinas. Alguns exemplos disso são:

  1. A Casa Inteligente – Casos típicos de uso doméstico de saber a hora do dia, alarmes, temperatura, luzes de controle podem se tornar fáceis de gerenciar por meio de comandos de voz simples.
  2. O veículo inteligente – Ao dirigir um carro, uma interface de voz é muito conveniente e dá ao motorista acesso livre às informações, além de preservar a segurança, permitindo que ele se concentre na estrada.
  3. Aplicativos baseados em telefone – Ao fazer transações bancárias por telefone ou ligar para um agente de atendimento ao cliente, usar o reconhecimento de voz, sem exigir senhas ou verificação, é um alívio para muitos clientes do setor bancário. Por exemplo, o Citibank é um dos principais bancos, o que torna isso muito fácil para os clientes entrarem em contato em mercados específicos.

Enquanto isso é o que podemos desejar, vamos ver quais são as ofertas atuais no mercado.

O Google lançou o Google Home depois que a Apple lançou o Siri e a Amazon lançou o Alexa em 2016. É basicamente um dispositivo de automação residencial que permite que até 6 usuários controlem as luzes, reproduzam músicas, notícias ou realizem pesquisas no Google.

A Microsoft iniciou o caminho em 2009 para desenvolver um assistente digital habilitado para voz chamado Cortana. Está agora disponível em carros, bem como em dispositivos Windows. Ele é integrado a alto-falantes por fabricantes terceirizados, mas a oferta da Microsoft é praticamente um assistente virtual. Cortana previu as partidas da Copa da Alemanha.

Mais ou menos na mesma época em que a Microsoft lançou a Cortana, a Apple lançou a Siri uma aquisição de um aplicativo desenvolvido por uma terceira parte iniciada na loja de aplicativos ios. Siri é muito semelhante em termos de funcionalidade para os seus concorrentes na medida em que oferece comandos de voz típicos, ajudas de navegação, notícias esportivas, etc. No entanto, a Apple era rigorosa em privacidade e, portanto, prejudicou o potencial da Siri.

Em 2014, a Amazon lançou o Alexa, um assistente virtual semelhante ao da Cortana e da Siri para permitir que os usuários façam listas de tarefas, solicitem comida, reproduzam música e verifiquem o tempo e as notícias. O Alexa, posteriormente, permitiu que os usuários personalizassem e aumentassem os recursos do dispositivo usando APIs.

Os problemas mais significativos com as ofertas são a falta de disponibilidade total em todos os idiomas, acentos e acesso universal em todos os dispositivos de diferentes sistemas operacionais, fatores de forma e dispositivos de hardware.

As ofertas também têm algumas falhas de segurança e problemas de privacidade, principalmente o Alexa da Amazon em um incidente que envia gravações secretas de um casal americano para um estranho na Europa.

Por outro lado, o Siri da Apple é limitado por causa das restrições de privacidade extremas que a Apple impõe. Os produtos do Google Home não podem reconhecer os acentos estrangeiros, por exemplo.

Então, como um design é diferente para o Voice? Aqui estão algumas diretrizes que temos:

  1. O princípio KISS – Defendemos que seja muito curto e simples que a máquina reconheça os comandos dos usuários humanos em sua organização. Por exemplo, se você está projetando uma interação de voz para iniciar uma máquina de chão de fábrica, recomendamos “Iniciar máquina M1” ou “Iniciar M1” em vez de etapas como “Iniciar máquina” (Vago – qual máquina é aquela que você tem várias ) e requerendo outra interação.
  2. Acomodar para acentos – Uma frustração comum é que a máquina não pode seguir o inglês com ênfase diferente. Por exemplo, o Google home não reconhece nomes de compositores búlgaros. Também recomendamos testar os comandos com uma variedade de acentos, gêneros, idades e começar somente com o inglês primeiro.
  3. Envolva agentes de suporte humanos rapidamente – Se a interação homem-máquina não for bem, deve haver uma maneira de intervir com uma chamada do usuário para outro usuário e ajudá-lo com seu caso de uso. Até agora, não vimos nenhuma implementação que faça isso efetivamente. Alexa chega perto disso, mas ainda deixa algum espaço para melhorias.
  4. Incorporar IA e Linguagem Natural – Por fim, nós, como seres humanos, precisamos de alguma flexibilidade em nossas experiências de usuário. Embora o princípio KISS seja ético, alguma flexibilidade usando o processamento de AI e de Linguagem Natural ajudará a tornar a experiência mais amigável e acessível.

Ainda não temos uma pista clara se as interfaces de voz substituirem as tradicionais interfaces gráficas, táteis ou baseadas em texto, mas ajudarão a aumentar muitos novos casos de uso e ajudarão os usuários corporativos a se tornarem mais produtivos no trabalho e nos ambientes domésticos. O resultado crítico do negócio seria mais economia de tempo, funcionários produtivos e potencialmente mais comércio via entrega de alimentos, reparo doméstico e execução mais rápida de processos de negócios.