Перевод статьи Two dogmas of voice user interface design экс-руководителя продукта Amazon Echo Ахмеда Бузида

Подготовлено командой TORTU, развивающей телеграм-канал Hey Voice!

В конце заметки — экспертный комментарий тимлида TORTU Никиты Муренького.


Современный VUI-дизайн живет двумя догмами:

  1. Голосовые интерфейсы должны как можно лучше имитировать общение людей друг с другом.
  2. Дизайнер ответственен за объявление возможностей интерфейса (речь о discoverability — прим. ред.)

Я утверждаю, что обе догмы необоснованны. Одним из результатов отказа от них, как мы предполагаем, станет утверждение нового подхода и новых практик, которые создадут надёжных голосовых ботов с более высокими шансами на выполнение заложенных в них обещаний. Другое следствие — это продвижение стратегий, которые подтолкнут стейкхолдеров (помимо VUI-дизайнеров) правильно подготавливать своих пользователей к взаимодействию с ботами.

В своей основополагающей статье «Разговорный язык — всё или ничего» Роджер К. Мур написал о том, что он назвал «разрывом привычного» (habituality gap) при взаимодействии человека с голосовым ботом. Когда люди общаются с ботом, который ведёт себя как человеческое существо, они в какой-то момент испытывают «напряжение восприятия»: люди начинают воспринимать поведение как человеческое — их ожидания возрастают, но не оправдываются, потому что бот не способен их удовлетворить.

Точно так же в своей восхитительной книге «Лучше быть хорошей машиной, чем плохим человеком» Брюс Б. Балентин напоминает, что люди с готовностью принимают новые технологии, которые приносят хоть какую-то пользу — какими бы несовершенными они ни были и насколько бы мала ни была эта польза. Подумайте о ранних поколениях радио, автомобилей, телевизоров, видеомагнитофонов, сотовых телефонов, подмечает он, и о том, какими смехотворно несовершенными они были тогда по сравнению с тем, во что в итоге превратились.

Затем он задаёт следующий проницательный вопрос: почему люди приняли такие несовершенные технологии и мирились с их вопиющими несовершенствами на протяжении десятилетий, а на голосовых ботов их принятие и снисходительность не распространяются? Его ответ: пользователю голосовых ботов по-прежнему обещают то, что невозможно дать. Вместо того чтобы оглядываться назад, в эпоху, когда функции не существовало (а теперь существует), или в предыдущую версию, где функция имела существенные недостатки (а теперь не имеет, или имеет, но меньше), пользователь сравнивает то, что у него есть (несовершенный голосовой робот) с чем-то несравнимо более совершенным — с человеком.

Давайте вспомним, что прошло уже три года после того заявления от The Mercury News, захватывающего дух: «Во вторник генеральный директор Google Сундар Пичаи преодолел новый барьер в технологиях искусственного интеллекта, представив голосового помощника, который звучит в точности как человеческий голос». Не считая понятной шумихи (в конце концов, это Кремниевая долина), это утверждение не совсем безосновательно. Два записанных демо, которые Пичаи показал по этому случаю, были действительно впечатляющими. В одной из них голосовой робот позвонил в парикмахерскую, чтобы записать некую Лизу к мастеру. Администратор не знал, что собеседник — голосовой робот, и обслужил его как обычного человека. Другими словами, робот успешно прошел тест Тьюринга.

Голосовой бот службы бронирования Google к моменту написания этой статьи доступен в 49 штатах (последний релиз был в Луизиане). И тем не менее, три года спустя Google Assistant и дополняющие его Google Actions — специализированные голосовые боты, созданные третьими лицами — не сравнятся с человеком и тем ботом бронирования ни по голосу, ни и гибкости в разговоре. Итак, что нам делать с этим? Стал ли тот великолепный голосовой бот шагом вперёд на пути к распространению автоматизированных разговорных систем?

Я задам два вопроса.

Первый вопрос: сколько денег и усилий потребовалось Google, чтобы выпустить этого голосового бота? Не только с точки зрения технологий, уже имеющихся и потребовавших десятилетий разработки (преобразование текста в речь, распознавание речи, обработка и генерация естественного языка, dialog management), но и с точки зрения затрат на исследования, дизайн, маркетинг и юридические услуги (сертификат для использования в 49 штатах стоит недёшево)? Смогла бы создать подобного голосового бота компания, которая не занимается созданием голосовых ботов, или которая занимается, но не имеет доступа к самым передовым технологиям, самым умным и трудолюбивым инженерам, безлимитным деньгам, огромному маркетинговому механизму и армии юристов? Нет. Так что же на самом деле доказали Google? Что они способны на создание такого голосового бота? Что на это способен кто-то другой, но такой же крупный и заваленный деньгами, как Google? Окей, и что?

Второй вопрос: может Google Assistant воспроизвести такое же общение между ботом и администрацией, как на том демо 3 года назад? Способен ли нынешний ассистент со своей неловкостью и неестественным голосом выполнить ту же задачу — успешно записать Лизу в парикмахерскую? Я утверждаю, что да: при правильном фрейминге и дизайне диалога он, безусловно, смог бы. Может ли такое общение человека и неуклюжего голосового бота вызвать головокружительный заголовок в The Mercury News? Нет. Это было бы настолько антисекс, что демо бы вовсе не проводили. Кто хочет услышать, как голосовой робот, звучащий как робот, успешно выполняет задачу? Куда интереснее наблюдать, как робот обманывает человека, заставляя думать, что ты разговариваешь с себе подобным. Безусловно, пробудить воображение читателей и фанатов технологий — это целесообразное занятие: энтузиазм даёт хороший выхлоп, например, привлекает увлечённых молодых людей, которые захотят сделать карьеру в области голосового дизайна. Но есть вопрос поинтереснее. Смогла бы эта неуклюжая, несексуальная демонстрация убедить тех, кого интересуют не впечатления, а то, может ли надёжный голосовой бот сделать жизнь людей немного комфортнее — например, записывая их на встречи, требуя лишь проверки календаря? Осмелюсь ответить: да. Это было бы впечатляюще.

Я не буду ударяться в рассуждения о гендиректоре технологического гиганта, играющем роль пророка. Эти люди следят за брендом и имиджем своей компании, своим позиционированием, своими акционерами, и поэтому они будут делать то, что делают. Вместо этого я обращусь к тем, кто создает голосовых ботов — дизайнерам и продуктовым менеджерам, которые активно или пассивно подписались под догмой «человекоподобия». Я сделаю это не для того, чтобы поспорить с их философской позицией, а потому что они не заботятся о потребностях своих клиентов, которые платят за создание голосовых ботов, и о потребностях пользователей.

Что я имею в виду?

Разработка голосовых ботов должна освободиться от представлений, что чем ближе робот к человеку (по звучанию голоса, языку, «персоне» бота), тем лучше пользовательский опыт. Эта позиция настолько же ошибочна, как утверждение, что способ, которым взрослый разговаривает с младенцем, или ребёнок разговаривает с собакой, или человек пытается вовлечь в разговор иностранца, является несовершенным способом взаимодействия, который должен быть улучшен и доведён до максимального сходства с разговором двух опытных в общении людей. Такое утверждение бессмысленно. Ребёнок — это ребёнок, а не взрослый с несовершенными коммуникативными навыками. Собака есть собака, а не младенец, не умеющий говорить. А иностранец — это человек, который не говорит на моём языке, а не урезанная версия того, кто разговаривает со мной на равных.