Design de interação para assistentes virtuais

Corbet Fawcett Blocked Unblock Seguir Seguindo 7 de janeiro [Foto de Bence ? Boros no Unsplash ]

Este é o ano em que os palestrantes inteligentes cresceram.

O que é um alto-falante inteligente? Wikipedia descreve-os como "um tipo de alto-falante sem fio e dispositivo de comando de voz com um assistente virtual integrado." Pense Amazon Alexa , Google Home (e Assistente), ou Apple Homepod (e Siri).

De acordo com o TechCrunch, a propriedade de alto-falantes inteligentes quase dobrou em 2017, com 41% dos domicílios dos EUA agora possuindo um dos três grandes dispositivos.

Vi uma prova sólida disso durante as recentes férias de Natal; eles eram de longe o presente mais popular entre a família. Nada menos que três de nós os encontramos debaixo da árvore. Dois levaram para casa o Google Home Minis e eu levei para casa um Alexa. Isso ofereceu uma experiência de abrir os olhos para o que está se tornando rapidamente uma nova tecnologia.

A face em mudança da interface

Palestrantes existem há séculos. O que é notável sobre os alto-falantes inteligentes são seus assistentes virtuais e como interagimos com eles.

A maioria de nós usa uma variedade de dispositivos pessoais, e nosso relacionamento com eles sempre foi de humanos para a ferramenta. Nossos telefones, tablets e computadores funcionam como interfaces diretas entre nós e o mundo, tornando-os uma extensão do “eu” que compro online. Eu pesquiso na Wikipedia. Eu texto amigos. Mas quando se trata de alto-falantes inteligentes que mudam. Nós interagimos com eles falando com seus assistentes virtuais (Alexa ou Google ou Siri), e fazendo o assistente fazer coisas para você.

Esses assistentes mudam a natureza do design de maneiras fascinantes. Eles têm gênero. Eles têm nomes. Eles se referem a si mesmos como "eu". Eles até têm um toque de personalidade. Você conversa com eles para atingir um objetivo. Alexa ordena coisas on-line para você. O Google procura artigos da Wikipedia para você. Siri envia essa mensagem. E o que isso significa? Isso significa que, de repente, há um humano para a relação (quase) humana em jogo e, de repente, algumas regras sociais e de conversação se aplicam ao design da interface. Quão legal é isso?

Além disso, existem algumas considerações específicas de usabilidade que acompanham a interface de conversação. Estes não são exclusivos para interações de voz, mas são definitivamente exacerbados em uma troca vocal.

Vamos ver o que quero dizer. Com base em algumas semanas jogando com o Alexa e o Google, aqui estão algumas lições e melhores práticas resultantes que já vi para o design de interação do assistente virtual.

Fala como um humano

Imagine isso: você está interagindo com um estranho. Eles dizem "obrigado"! O que você diz? Provavelmente "você é bem-vindo" ou "não há problema" ou algo parecido. Isso é apenas educado, certo?

Por outro lado, imagine que você está trabalhando em um projeto com um parceiro, colega de trabalho ou pai – alguém com quem você se sente confortável. Você diz “entregue-me o grampeador”. Com um estranho que provavelmente parecerá rude ou rude, mas as mesmas regras não se aplicam às interações mais fáceis de amizade, família ou outros familiares. “Hand me that” funciona, e com toda probabilidade você não espera muita resposta (além do grampeador), porque você está operando no esqueleto de uma conversa. Na verdade, não é realmente uma conversa, é mais uma transação. Conversa mínima é boa entre pessoas familiares; até o silêncio é confortável.

As conversas humanas variam. A mesma comunicação básica pode assumir diferentes formas, dependendo do relacionamento das pessoas que falam. Eles podem ser mais verbosos e mais formais entre estranhos, ou mais concisos entre amigos. Algumas pessoas adicionam extras educados em todas as suas interações; outros os usam apenas seletivamente.

Onde as coisas ficam estranhas é quando elas se misturam. Imagine essa interação entre estranhos em uma esquina:

"Com licença, você poderia me dizer onde encontrar a Starbucks mais próxima, por favor?"

"Lá."

Soa quase rude, certo? Mas tente a mesma interação básica com um prompt inicial diferente:

"Ei, tem uma Starbucks aqui?"

"Lá."

Agora há uma correspondência melhor entre pergunta e resposta. Pode não ser uma conversa agradável, mas é uma interação razoavelmente bem combinada e, portanto, não parece tão rude.

Como isso é relevante para interações de voz com um assistente virtual como o Alexa? Simplificando, é uma boa prática reconhecer que as pessoas irão interagir com um assistente virtual usando uma variedade de abordagens de conversação. Embora geralmente haja um comando envolvido, há também um wrapper de conversação. Pode ser mínimo ou pode ser mais prolixo. Algumas pessoas vão simplesmente latir "Alexa, weather", enquanto outras vão com algo como "Alexa, como está o tempo?" Ou "Alexa, como é?"

Obviamente, ao projetar uma nova habilidade (um conjunto de habilidades) para um assistente virtual, você precisa explorar todas as maneiras diferentes pelas quais as pessoas provavelmente pedirão ajuda. Mas um bom design de interação precisa considerar as respostas também.

Voltando ao nosso exemplo da Starbucks, temos a seguinte idéia: as pessoas ficam mais confortáveis quando recebem uma resposta que corresponda ao tom e à formalidade de sua solicitação. Como designers, isso significa que é uma boa prática tentar combinar a abordagem de chatiness e conversa do usuário. Se eles são concisos e transacionais, forneça respostas que vão direto ao ponto. Se eles são um pouco mais verbosos e usam gentilezas como "por favor" e "obrigado", dê a eles respostas que espelham esse tom. Isso criará uma interação mais natural e com sentimento humano.

O Alexa reconhece "obrigado" e responde ocasionalmente com "de nada". Tenho certeza de que ouvi o Google responder "sem problema". Essas respostas estão lá quando fazem sentido, ausentes quando não. Isso é espelhamento e cria uma interação mais confortável e natural entre o humano e o assistente.

Em essência, ao escrever scripts de interação espelham o estilo de fala do usuário. Suportar elocuções (prompts de usuário) que cobrem uma gama de possibilidades, desde concisas e focadas em comandos até expressivas e educadas. Para um pouco de prazer acrescentar respostas para gentilezas como "por favor" e "obrigado". Em resumo: Fale como um humano.

Ignorar as boas vindas

Durante minha primeira semana aprendendo a usar o Alexa, adicionei novas habilidades diariamente. Habilidades são essencialmente aplicativos que você pode adicionar ao Alexa para expandir o repertório de coisas que ela pode fazer. Eles são pequenos pacotes de habilidades adicionais. Algumas eu mantive, outras não. A única coisa consistente naqueles que não fizeram o corte? Eles insistiram em me receber.

Por exemplo, eu estava super feliz por conectar Alexa com o meu Roomba para que eu pudesse despachar a pequena fera para arrumar um comando de voz rápido. Isso é viver no futuro! Mas isso é o que eu ouvi toda vez que eu acionei a nova habilidade de Alexa:

Bem-vindo ao iRobot Home para aspiradores de pó Roomba conectados ao Wi-Fi. Posso ajudá-lo a iniciar, pausar e encerrar um trabalho de limpeza. Basta dizer iniciar a limpeza ou finalizar a limpeza. O que você gostaria de fazer?

Cada. Solteiro. Tempo.

Por que isso é um problema?

Existem quatro frases. O primeiro é fluff. Os próximos dois são relevantes na primeira vez que você usa o Alexa para se conectar ao seu Roomba, mas depois disso você pode praticamente dispensar todos, exceto a última frase. Há muito diálogo estranho.

Diálogo estranho é o equivalente de áudio de uma tela de carregamento de aplicativos. Não é funcional e não há como ignorá-lo, o que significa um atraso, uma interrupção antes que você possa continuar com a ação pretendida. Isso é um problema, mas é apenas o problema # 1.

O problema # 2 é que esse tipo de boas-vindas quebra o relacionamento entre o usuário (eu) e seu dispositivo (Alexa). Ao contrário de nossos telefones, tablets e laptops, assistentes como Alexa e Google se esforçam para parecer quase humanos. Eles ouvem e falam conosco como pessoas. Eles têm alguma personalidade. Isso cria um relacionamento muito diferente daqueles que temos com outros gadgets. O encontro de uma súbita mensagem de boas-vindas quebra essa ilusão cuidadosamente elaborada da humanidade. Seu pequeno assistente / companheiro / amigo de repente fala com a voz de outra pessoa. É chocante.

Se isso servir a um propósito, pode ser perdoável, mas veja o problema # 1. Essa mensagem “bem-vindo à iRobot Home…” não faz nada além de reforçar outra marca, e este é um lugar onde a marca de terceiros não é realmente apropriada.

Ao projetar uma nova habilidade para um assistente virtual, é importante preservar a identidade do assistente e a percepção da humanidade. Também é importante manter o diálogo enxuto o suficiente para manter as interações relativamente rápidas.

Estabelecer confiança para o invisível

Interações de voz com tecnologia são uma experiência nova para muitos. Com novidade vem a incerteza. A primeira vez que eu queria que Alexa fizesse um temporizador por 60 minutos, corri para essa incerteza porque não conseguia ver os resultados da minha ação. Isso funcionaria? Eu poderia confiar nela para me alertar em uma hora?

O mesmo aconteceu na primeira vez em que eu quis definir um alarme, adicionar um lembrete, etc, etc, etc… Basicamente havia incerteza (e nervosismo) endêmica em cada nova interação, porque eu não conseguia ver os resultados das minhas ações.

O invisível é difícil de confiar.

O equivalente a isso em um aplicativo ou na Web pode ser um botão que não faz nada quando você clica nele. O usuário clica, nada acontece, e eles se perguntam "isso funcionou?"

Como designers, chegamos a uma prática comum para evitar a incerteza: o feedback do usuário. Nós indicamos o uso de que sua ação foi bem sucedida com qualquer uma das opções. Talvez nós mudemos a cópia no botão quando o usuário clicar nela. Talvez nós mudemos sua cor. Talvez mostremos um brinde de sucesso ou uma animação fofa. Há uma enorme variedade de maneiras de sinalizar que uma ação foi bem-sucedida e, ao fazer isso, remover a incerteza para o usuário.

Voltando à voz, não temos as mesmas opções visuais para sinalizar o sucesso, mas o feedback do usuário ainda é crítico e possível – só precisamos usar a voz para fornecê-lo.

O que me fez confiar nos timers de Alexa? Eu diria "Alexa, ajuste um timer por cinco minutos" e ela responderia com "Cinco minutos, começando agora". Quatro palavras que confirmaram que ela tinha me ouvido e repetido o que ela ouvia para que eu pudesse ter certeza de que ela acertou.

Alexa, lembre-me de começar o jantar às 6 da tarde.

Ok, vou lembrá-lo amanhã às 6 da tarde.

Mas espere, tem mais. Adicionar feedback do usuário a interações por voz não apenas remove a incerteza e ajuda a criar confiança no assistente; Isso também ajuda na correção de erros. Por melhor que seja, os assistentes de voz nem sempre são 100% precisos na interpretação do que dizemos.

Alexa, jogar Ambient Chill.

Jogando Chill Out Music do Spotify.

Opa, playlist errada.

Projetar interações para reiterar a solicitação original permite que o usuário saiba se houve uma confusão, para que possa corrigi-lo imediatamente. Isso torna as bobagens inevitáveis menos irritantes e menos críticas, o que, por sua vez, ajuda a construir o relacionamento humano: assistente.

Ser memorável

Já alguém lhe contou o número de telefone e se esforçou para lembrar o tempo suficiente para anotá-lo?

Essa é a sua memória operacional em jogo, o seu cache de informações de curto prazo. Jakob Nielsen escreve que “a memória de curto prazo detém apenas cerca de 7 pedaços de informação, e estes desaparecem do seu cérebro em cerca de 20 segundos”. É limitado, e é uma consideração importante para o design de interação de voz.

Por quê?

Em um aplicativo ou em um website, as informações existem e persistem na tela até que o usuário siga em frente. Isso significa que, se houver muitas informações sendo compartilhadas, o usuário não precisa se lembrar de tudo – está bem ali na tela. Eles podem se concentrar em agir sobre a informação em vez de guardá-la na memória.

Interações por voz não têm isso. Quando um assistente virtual tem muitas informações para transmitir, o usuário precisa se lembrar de tudo o que foi dito o tempo suficiente para agir sobre ele. Por exemplo, imagine que você queira ver um filme, mas precisa saber o que está sendo reproduzido e quando. Procurando isso no seu telefone, você pode obter uma lista bastante longa:

  • Aquaman
  • Bumblebee
  • Homem-Aranha: no verso da aranha
  • Holmes & Watson
  • Sala de fuga
  • Vício
  • Rapsódia boêmia
  • Animais Fantásticos: Os Crimes de Grindelwald
  • Creed II
  • Se Beale Stree pudesse falar
  • Vox Lux

Se você perguntar ao Alexa ou Google Assistant o que está sendo reproduzido, precisará fornecer a mesma informação, mas talvez seja difícil lembrar de todas as onze opções por tempo suficiente para escolher entre elas. Qual foi a segunda opção novamente? O que veio depois de "vice"? Era "Escape Tomb" ou "Escape Room?" Se você estivesse skimming listagens em seu telefone, você poderia apenas digitalizar para trás para recuperar as informações; com um assistente virtual, você não pode passar as últimas palavras. Você tem que lembrar . E a memória humana é limitada.

A memória de trabalho pode ser uma limitação bastante severa nas interações de voz.

Felizmente, temos maneiras de projetar para limitações de memória, e os mesmos métodos que usamos no aplicativo ou no design da web traduzem-se bem em design de interação de voz. O maior deles é o chunking de informações.

Qual destes números é mais fácil de lembrar?…

804023111479

8040 2311 1479

Para a maioria das pessoas, o segundo número em bloco é mais fácil de lembrar do que o primeiro, porque foi dividido em alguns números menores que não sobrecarregam os limites da memória operacional.

Você pode ver essa abordagem usada em algumas das habilidades integradas do Alexa e do Assistente do Google. Pergunte-lhes por horários de filmes e eles listarão alguns, depois pergunte se você quer ouvir mais. Isso permite fazer escolhas com base em conjuntos menores. O Google leva isso um passo adiante: o Assistente do Google pergunta do que você está com disposição e tenta restringir as opções disponíveis com base no que lhe interessa. Responda “ficção científica” e você imediatamente diminuirá a lista de onze para dois (Homem-Aranha e Abelha).

Obviamente, nem todas as interações de voz envolvem longas listas ou resmas de informações, mas quando isso acontece, precisamos ajudar os usuários (e assistentes) a lidar com esse fluxo de informações.

Em poucas palavras …

As melhores práticas para projetar interações de voz não são realmente diferentes das melhores práticas para outros projetos de UX, mas há definitivamente mais demanda por memória, mais dificuldade em corrigir erros e muita incerteza para novos usuários. É preciso dar mais atenção a esses aspectos do que em seu planejamento médio da Web ou de aplicativos.

Além disso, os assistentes virtuais criam a ilusão da humanidade e, ao fazê-lo, criam um relacionamento muito diferente com os usuários do que outros dispositivos. É pessoal. Eles oferecem um tipo diferente (e muito humano) de interface – conversa. Temos normas e expectativas existentes para conversação, e algumas delas agora se aplicam a interações de voz do assistente virtual.

Houve um grande aumento no uso de alto-falante inteligente e assistente virtual no ano passado. À medida que as tecnologias subjacentes melhorarem, sem dúvida veremos esses números ainda mais altos. Como designers de UX, vale a pena explorar quais princípios podemos usar de outras áreas do design UX, além do que há de novo e exclusivo para voz. É um admirável mundo novo.

Alexa, diga boa noite.

Design de interação para assistentes virtuais

Corbet Fawcett Blocked Unblock Seguir Seguindo 7 de janeiro [Foto de Bence ? Boros no Unsplash ]

Este é o ano em que os palestrantes inteligentes cresceram.

O que é um alto-falante inteligente? Wikipedia descreve-os como "um tipo de alto-falante sem fio e dispositivo de comando de voz com um assistente virtual integrado." Pense Amazon Alexa , Google Home (e Assistente), ou Apple Homepod (e Siri).

De acordo com o TechCrunch, a propriedade de alto-falantes inteligentes quase dobrou em 2017, com 41% dos domicílios dos EUA agora possuindo um dos três grandes dispositivos.

Vi uma prova sólida disso durante as recentes férias de Natal; eles eram de longe o presente mais popular entre a família. Nada menos que três de nós os encontramos debaixo da árvore. Dois levaram para casa o Google Home Minis e eu levei para casa um Alexa. Isso ofereceu uma experiência de abrir os olhos para o que está se tornando rapidamente uma nova tecnologia.

A face em mudança da interface

Palestrantes existem há séculos. O que é notável sobre os alto-falantes inteligentes são seus assistentes virtuais e como interagimos com eles.

A maioria de nós usa uma variedade de dispositivos pessoais, e nosso relacionamento com eles sempre foi de humanos para a ferramenta. Nossos telefones, tablets e computadores funcionam como interfaces diretas entre nós e o mundo, tornando-os uma extensão do “eu” que compro online. Eu pesquiso na Wikipedia. Eu texto amigos. Mas quando se trata de alto-falantes inteligentes que mudam. Nós interagimos com eles falando com seus assistentes virtuais (Alexa ou Google ou Siri), e fazendo o assistente fazer coisas para você.

Esses assistentes mudam a natureza do design de maneiras fascinantes. Eles têm gênero. Eles têm nomes. Eles se referem a si mesmos como "eu". Eles até têm um toque de personalidade. Você conversa com eles para atingir um objetivo. Alexa ordena coisas on-line para você. O Google procura artigos da Wikipedia para você. Siri envia essa mensagem. E o que isso significa? Isso significa que, de repente, há um humano para a relação (quase) humana em jogo e, de repente, algumas regras sociais e de conversação se aplicam ao design da interface. Quão legal é isso?

Além disso, existem algumas considerações específicas de usabilidade que acompanham a interface de conversação. Estes não são exclusivos para interações de voz, mas são definitivamente exacerbados em uma troca vocal.

Vamos ver o que quero dizer. Com base em algumas semanas jogando com o Alexa e o Google, aqui estão algumas lições e melhores práticas resultantes que já vi para o design de interação do assistente virtual.

Fala como um humano

Imagine isso: você está interagindo com um estranho. Eles dizem "obrigado"! O que você diz? Provavelmente "você é bem-vindo" ou "não há problema" ou algo parecido. Isso é apenas educado, certo?

Por outro lado, imagine que você está trabalhando em um projeto com um parceiro, colega de trabalho ou pai – alguém com quem você se sente confortável. Você diz “entregue-me o grampeador”. Com um estranho que provavelmente parecerá rude ou rude, mas as mesmas regras não se aplicam às interações mais fáceis de amizade, família ou outros familiares. “Hand me that” funciona, e com toda probabilidade você não espera muita resposta (além do grampeador), porque você está operando no esqueleto de uma conversa. Na verdade, não é realmente uma conversa, é mais uma transação. Conversa mínima é boa entre pessoas familiares; até o silêncio é confortável.

As conversas humanas variam. A mesma comunicação básica pode assumir diferentes formas, dependendo do relacionamento das pessoas que falam. Eles podem ser mais verbosos e mais formais entre estranhos, ou mais concisos entre amigos. Algumas pessoas adicionam extras educados em todas as suas interações; outros os usam apenas seletivamente.

Onde as coisas ficam estranhas é quando elas se misturam. Imagine essa interação entre estranhos em uma esquina:

"Com licença, você poderia me dizer onde encontrar a Starbucks mais próxima, por favor?"

"Lá."

Soa quase rude, certo? Mas tente a mesma interação básica com um prompt inicial diferente:

"Ei, tem uma Starbucks aqui?"

"Lá."

Agora há uma correspondência melhor entre pergunta e resposta. Pode não ser uma conversa agradável, mas é uma interação razoavelmente bem combinada e, portanto, não parece tão rude.

Como isso é relevante para interações de voz com um assistente virtual como o Alexa? Simplificando, é uma boa prática reconhecer que as pessoas irão interagir com um assistente virtual usando uma variedade de abordagens de conversação. Embora geralmente haja um comando envolvido, há também um wrapper de conversação. Pode ser mínimo ou pode ser mais prolixo. Algumas pessoas vão simplesmente latir "Alexa, weather", enquanto outras vão com algo como "Alexa, como está o tempo?" Ou "Alexa, como é?"

Obviamente, ao projetar uma nova habilidade (um conjunto de habilidades) para um assistente virtual, você precisa explorar todas as maneiras diferentes pelas quais as pessoas provavelmente pedirão ajuda. Mas um bom design de interação precisa considerar as respostas também.

Voltando ao nosso exemplo da Starbucks, temos a seguinte idéia: as pessoas ficam mais confortáveis quando recebem uma resposta que corresponda ao tom e à formalidade de sua solicitação. Como designers, isso significa que é uma boa prática tentar combinar a abordagem de chatiness e conversa do usuário. Se eles são concisos e transacionais, forneça respostas que vão direto ao ponto. Se eles são um pouco mais verbosos e usam gentilezas como "por favor" e "obrigado", dê a eles respostas que espelham esse tom. Isso criará uma interação mais natural e com sentimento humano.

O Alexa reconhece "obrigado" e responde ocasionalmente com "de nada". Tenho certeza de que ouvi o Google responder "sem problema". Essas respostas estão lá quando fazem sentido, ausentes quando não. Isso é espelhamento e cria uma interação mais confortável e natural entre o humano e o assistente.

Em essência, ao escrever scripts de interação espelham o estilo de fala do usuário. Suportar elocuções (prompts de usuário) que cobrem uma gama de possibilidades, desde concisas e focadas em comandos até expressivas e educadas. Para um pouco de prazer acrescentar respostas para gentilezas como "por favor" e "obrigado". Em resumo: Fale como um humano.

Ignorar as boas vindas

Durante minha primeira semana aprendendo a usar o Alexa, adicionei novas habilidades diariamente. Habilidades são essencialmente aplicativos que você pode adicionar ao Alexa para expandir o repertório de coisas que ela pode fazer. Eles são pequenos pacotes de habilidades adicionais. Algumas eu mantive, outras não. A única coisa consistente naqueles que não fizeram o corte? Eles insistiram em me receber.

Por exemplo, eu estava super feliz por conectar Alexa com o meu Roomba para que eu pudesse despachar a pequena fera para arrumar um comando de voz rápido. Isso é viver no futuro! Mas isso é o que eu ouvi toda vez que eu acionei a nova habilidade de Alexa:

Bem-vindo ao iRobot Home para aspiradores de pó Roomba conectados ao Wi-Fi. Posso ajudá-lo a iniciar, pausar e encerrar um trabalho de limpeza. Basta dizer iniciar a limpeza ou finalizar a limpeza. O que você gostaria de fazer?

Cada. Solteiro. Tempo.

Por que isso é um problema?

Existem quatro frases. O primeiro é fluff. Os próximos dois são relevantes na primeira vez que você usa o Alexa para se conectar ao seu Roomba, mas depois disso você pode praticamente dispensar todos, exceto a última frase. Há muito diálogo estranho.

Diálogo estranho é o equivalente de áudio de uma tela de carregamento de aplicativos. Não é funcional e não há como ignorá-lo, o que significa um atraso, uma interrupção antes que você possa continuar com a ação pretendida. Isso é um problema, mas é apenas o problema # 1.

O problema # 2 é que esse tipo de boas-vindas quebra o relacionamento entre o usuário (eu) e seu dispositivo (Alexa). Ao contrário de nossos telefones, tablets e laptops, assistentes como Alexa e Google se esforçam para parecer quase humanos. Eles ouvem e falam conosco como pessoas. Eles têm alguma personalidade. Isso cria um relacionamento muito diferente daqueles que temos com outros gadgets. O encontro de uma súbita mensagem de boas-vindas quebra essa ilusão cuidadosamente elaborada da humanidade. Seu pequeno assistente / companheiro / amigo de repente fala com a voz de outra pessoa. É chocante.

Se isso servir a um propósito, pode ser perdoável, mas veja o problema # 1. Essa mensagem “bem-vindo à iRobot Home…” não faz nada além de reforçar outra marca, e este é um lugar onde a marca de terceiros não é realmente apropriada.

Ao projetar uma nova habilidade para um assistente virtual, é importante preservar a identidade do assistente e a percepção da humanidade. Também é importante manter o diálogo enxuto o suficiente para manter as interações relativamente rápidas.

Estabelecer confiança para o invisível

Interações de voz com tecnologia são uma experiência nova para muitos. Com novidade vem a incerteza. A primeira vez que eu queria que Alexa fizesse um temporizador por 60 minutos, corri para essa incerteza porque não conseguia ver os resultados da minha ação. Isso funcionaria? Eu poderia confiar nela para me alertar em uma hora?

O mesmo aconteceu na primeira vez em que eu quis definir um alarme, adicionar um lembrete, etc, etc, etc… Basicamente havia incerteza (e nervosismo) endêmica em cada nova interação, porque eu não conseguia ver os resultados das minhas ações.

O invisível é difícil de confiar.

O equivalente a isso em um aplicativo ou na Web pode ser um botão que não faz nada quando você clica nele. O usuário clica, nada acontece, e eles se perguntam "isso funcionou?"

Como designers, chegamos a uma prática comum para evitar a incerteza: o feedback do usuário. Nós indicamos o uso de que sua ação foi bem sucedida com qualquer uma das opções. Talvez nós mudemos a cópia no botão quando o usuário clicar nela. Talvez nós mudemos sua cor. Talvez mostremos um brinde de sucesso ou uma animação fofa. Há uma enorme variedade de maneiras de sinalizar que uma ação foi bem-sucedida e, ao fazer isso, remover a incerteza para o usuário.

Voltando à voz, não temos as mesmas opções visuais para sinalizar o sucesso, mas o feedback do usuário ainda é crítico e possível – só precisamos usar a voz para fornecê-lo.

O que me fez confiar nos timers de Alexa? Eu diria "Alexa, ajuste um timer por cinco minutos" e ela responderia com "Cinco minutos, começando agora". Quatro palavras que confirmaram que ela tinha me ouvido e repetido o que ela ouviu para que eu pudesse ter certeza que ela d deu certo.

Alexa, lembre-me de começar o jantar às 6 da tarde.

Ok, vou lembrá-lo amanhã às 6 da tarde.

Mas espere, tem mais. Adicionar feedback do usuário a interações por voz não apenas remove a incerteza e ajuda a criar confiança no assistente; Isso também ajuda na correção de erros. Por melhor que seja, os assistentes de voz nem sempre são 100% precisos na interpretação do que dizemos.

Alexa, jogar Ambient Chill.

Jogando Chill Out Music do Spotify.

Opa, playlist errada.

Projetar interações para reiterar a solicitação original permite que o usuário saiba se houve uma confusão, para que possa corrigi-lo imediatamente. Isso torna as bobagens inevitáveis menos irritantes e menos críticas, o que, por sua vez, ajuda a construir o relacionamento humano: assistente.

Ser memorável

Já alguém lhe contou o número de telefone e se esforçou para lembrar o tempo suficiente para anotá-lo?

Essa é a sua memória operacional em jogo, o seu cache de informações de curto prazo. Jakob Nielsen escreve que “a memória de curto prazo detém apenas cerca de 7 pedaços de informação, e estes desaparecem do seu cérebro em cerca de 20 segundos”. É limitado, e é uma consideração importante para o design de interação de voz.

Por quê?

Em um aplicativo ou em um website, as informações existem e persistem na tela até que o usuário siga em frente. Isso significa que, se houver muitas informações sendo compartilhadas, o usuário não precisa se lembrar de tudo – está bem ali na tela. Eles podem se concentrar em agir sobre a informação em vez de guardá-la na memória.

Interações por voz não têm isso. Quando um assistente virtual tem muitas informações para transmitir, o usuário precisa se lembrar de tudo o que foi dito o tempo suficiente para agir sobre ele. Por exemplo, imagine que você queira ver um filme, mas precisa saber o que está sendo reproduzido e quando. Procurando isso no seu telefone, você pode obter uma lista bastante longa:

  • Aquaman
  • Bumblebee
  • Homem-Aranha: no verso da aranha
  • Holmes & Watson
  • Sala de fuga
  • Vício
  • Rapsódia boêmia
  • Animais Fantásticos: Os Crimes de Grindelwald
  • Creed II
  • Se Beale Stree pudesse falar
  • Vox Lux

Se você perguntar ao Alexa ou Google Assistant o que está sendo reproduzido, precisará fornecer a mesma informação, mas talvez seja difícil lembrar de todas as onze opções por tempo suficiente para escolher entre elas. Qual foi a segunda opção novamente? O que veio depois de "vice"? Era "Escape Tomb" ou "Escape Room?" Se você estivesse skimming listagens em seu telefone, você poderia apenas digitalizar para trás para recuperar as informações; com um assistente virtual, você não pode passar as últimas palavras. Você tem que lembrar . E a memória humana é limitada.

A memória de trabalho pode ser uma limitação bastante severa nas interações de voz.

Felizmente, temos maneiras de projetar para limitações de memória, e os mesmos métodos que usamos no aplicativo ou no design da web traduzem-se bem em design de interação de voz. O maior deles é o chunking de informações.

Qual destes números é mais fácil de lembrar?…

804023111479

8040 2311 1479

Para a maioria das pessoas, o segundo número em bloco é mais fácil de lembrar do que o primeiro, porque foi dividido em alguns números menores que não sobrecarregam os limites da memória operacional.

Você pode ver essa abordagem usada em algumas das habilidades integradas do Alexa e do Assistente do Google. Pergunte-lhes por horários de filmes e eles listarão alguns, depois pergunte se você quer ouvir mais. Isso permite fazer escolhas com base em conjuntos menores. O Google leva isso um passo adiante: o Assistente do Google pergunta do que você está com disposição e tenta restringir as opções disponíveis com base no que lhe interessa. Responda “ficção científica” e você imediatamente diminuirá a lista de onze para dois (Homem-Aranha e Abelha).

Obviamente, nem todas as interações de voz envolvem longas listas ou resmas de informações, mas quando isso acontece, precisamos ajudar os usuários (e assistentes) a lidar com esse fluxo de informações.

Em poucas palavras …

As melhores práticas para projetar interações de voz não são realmente diferentes das melhores práticas para outros projetos de UX, mas há definitivamente mais demanda por memória, mais dificuldade em corrigir erros e muita incerteza para novos usuários. É preciso dar mais atenção a esses aspectos do que em seu planejamento médio da Web ou de aplicativos.

Além disso, os assistentes virtuais criam a ilusão da humanidade e, ao fazê-lo, criam um relacionamento muito diferente com os usuários do que outros dispositivos. É pessoal. Eles oferecem um tipo diferente (e muito humano) de interface – conversa. Temos normas e expectativas existentes para conversação, e algumas delas agora se aplicam a interações de voz do assistente virtual.

Houve um grande aumento no uso de alto-falante inteligente e assistente virtual no ano passado. À medida que as tecnologias subjacentes melhorarem, sem dúvida veremos esses números ainda mais altos. Como designers de UX, vale a pena explorar quais princípios podemos usar de outras áreas do design UX, além do que há de novo e exclusivo para voz. É um admirável mundo novo.

Alexa, diga boa noite.