Перспективы и проблемы голосовых помощников

Голосовые интерфейсы — футуристичный инструмент, который сейчас получает все большее распространение. Специалисты в области инновационных технологий — Дмитрий Милостнов, CTO сервиса облачного видеонаблюдения Cambat.ru, и Александр Нижельский, CEO technic.ally и Leanconsult, — обсудили перспективы применения голосовых интерфейсов в бизнес-процессах и проблемы голосовых помощников.

    Бизнес-процессы. Число компаний, которые используют голосовых ассистентов как канал продаж, растет. Они позволяют в том числе снизить затраты и нагрузку на операторов, потому что голосовые помощники могут:

  • консультировать по характеристикам товаров, отвечать на популярные вопросы, оформлять заказ и получать обратную связь от клиентов;
  • упрощать поиск для клиента и снижать число отказов — по данным маркетингового агентства Digitas, 85% людей, купивших товары с помощью голосового ассистента, остановились на первом предложенном варианте.

Чтобы предложить товар, который вероятнее всего привлечет пользователя, помощники используют историю запросов, местоположение и другие данные.

Согласно прогнозам научно-исследовательской компании Juniper Research — к 2022 году доход от голосовой рекламы может достичь $19 млрд, во многом благодаря росту числа приложений для голосового поиска на мобильных устройствах.

Александр Нижельский, CEO technic.ally и Leanconsult:

«Обычные пользователи применяют такие девайсы для лайфстайловых несложных задач типа поиска рецепта, управления музыкой. А компании благодаря им экономят на человеческом труде и упрощают его. К примеру, если бизнес-процесс — это автосервис, то мастер работает с автомобилем, у него запачканы руки. В перспективе он сможет обратиться за помощью к голосовому помощнику, который предоставит нужный ключ с помощью роботизированной руки или ленты.

Или представим топ менеджера, который может давать задания личному помощнику. Кейс: персональный ассистент в лице Алисы или Amazon Echo, который заменит человека. Система, которая живет с пользователем много времени, мониторит паттерное поведение: знает рабочее расписание, включая перерывы на перекур, обеды, совещания, встречи и так далее.

Вообще в большинстве сфер, где люди принимают какую-то информацию от клиентов, голосовой помощник может стать полноценной заменой. Например, в ресторанном бизнесе есть хостес, раннеры и те, кто принимают заказы. Последняя должность в перспективе может быть заменена. Либо компания платит $10-15 в час сотруднику, либо у каждого столика будет стоять маленькая колоночка, с помощью которой клиенты будут самостоятельно формировать заказ.

С увеличением популярности и развития машинного обучения, голосовые технологии также могут серьезно повлиять на коммерцию. Amazon Echo уже встраивается в большое количество американских домов, появляется тренд — Voice-commerce. Например, маркетологи HBO обратили внимание на то, как часто детям и взрослым дарят умные колонки и задались вопросом, как организовать продажу медиа контента через голосовых помощников».

Дмитрий Милостнов, CTO сервиса облачного видеонаблюдения Cambat.ru:

«Сейчас во многих бизнесах 30% расходов уходит на поддержку колл-центров: обработка заявки, прием звонков. Это больно для e-commerce, и поэтому задача бизнеса — заменить операторов софтверной альтернативой (как текстовой в виде чат-ботов, так и голосовой). Будут крупные сокращения, десятки тысяч человек заменят на умные голосовые интерфейсы, потому что они смогут отвечать на 90% вопросов.

Другая сфера — индустрия развлечений. Как пример, Facebook способствовал тому, чтобы производители гаджетов сделали экраны для видеоконтента. Получилось очень удобное взаимодействие с умными колонками в виде „толстых айпадов“: человек говорит, что хочет посмотреть „Игру престолов“, и гаджет включает сериал. В рамках системы умного дома такое статичное устройство может быть также помощником по хозяйству — например, показывать, как готовить сырники.

И, кстати, подкасты переживают золотой век — их стали слушать больше благодаря увеличению количества колонок.

Важно, чтобы компании разрабатывали скилы для умных колонок. На примере умного дома: производитель пишет скрипт, размещает в облаке Amazon. Когда ты заходишь в дом и говоришь: „включи свет“ — магия срабатывает. Потом дом обучится, начнет автоматически включать и выключать свет в нужный момент. Тем самым ты придумываешь сценарии для взаимодействия голоса с реальным миром. Для разработчиков речь — это формальный вид языка, они занимаются его распознаванием, а дальше человек сам решает, что с этим языком делать».

«Очеловечивание» голосовых помощников. У них появляется больше навыков, связанных со здоровьем, а не бизнесом. Также они учатся распознавать эмоции и самочувствие человека. Люди в свою очередь эмоционально привязываются к помощникам, а голосовым интерфейсам приписывают агентность — человеческую способность выступать в качестве самостоятельного агента, делать осознанный и свободный выбор и действовать в соответствии с ним.

Александр Нижельский, CEO technic.ally и Leanconsult:

«Amazon этим летом сделала важный шаг, открыв доступ для разработчиков голосовых медицинских скиллов в свою экосистему.

Для потребителя это может означать реализацию уникальных юз-кейсов, когда в силу восстановления после операции или ограничения возможностей человеку трудно использовать классические интерфейсы телефона, смартфона или компьютера.

Подобные голосовые скиллы позволят американскому потребителю вызывать врача на дом (как у Алисы в России), мониторить и управлять доставкой лекарств по рецепту врача, уточнять актуальные результаты анализов, давать апдейты по самочувствию в процессе восстановления и многое другое.

Высокую ставку Amazon на данный сегмент подтверждают покупка онлайн-аптеки PillPack за чуть менее $1 млрд и запуск в экосистеме AWS инструмента Comprehend Medical — AI/ML для работы с медицинскими данными клиентов и предписаний врачей. Компания также создала спецподразделение (healthcare team) внутри Alexa для развития сервисов с высокой потребительской ценностью — именно с фокусом на медицине и совместимых с HIPAA.

Для разработчиков это, конечно, огромные возможности по созданию, масштабированию и монетизации собственных продуктов в голосовом healthcare».

Дмитрий Милостнов, CTO сервиса облачного видеонаблюдения Cambat.ru:

«Некоторые производители стали патентовать разработки в сфере эмоционального интеллекта восприятия — умения понимать собственные и чужие эмоции. Голосовой помощник по голосу воспринимает настроение и самочувствие человека. Например, Amazon может предложить заказать лекарство, если почувствует по голосу, что человек заболел.

Вообще распознавание эмоционального состояния пользователя — самые ценные для рекламодателей данные. Эффективность таргетированной рекламы падает, эмоции рассматриваются как один из выходов, поскольку интент к покупке в ряде случаев определенных эмоций высокий. Рынок рекламы в голосовых интерфейсах, по оценке Juniper Research, может достичь $19 млрд к 2022 году»

Дмитрий Милостнов, CTO сервиса облачного видеонаблюдения Cambat.ru:

«В числе полезных применений современных технологий, включая голосовых помощников, — условная няня для детей, следующее поколение игрушек.

Как только распространение интернета вещей приведет к их низкой энергозатратности и автономности, подобные игрушки станут доступны большому количеству людей.

Они могут предоставить массу полезностей — например, на ранних этапах выявить отклонения в развитии ребенка с помощью взаимодействия с ним. Система покажет родителям информацию о психологическом и умственном состоянии ребенка, поможет раньше начать лечение. Однако, если системы автоматически будут передавать информацию в соответствующие органы, из-за обнаруженного отклонения подорожает страховка.

Из интересного: дети в Америке считают голосовых помощников членами семьи. Появляется эмоциональная привязанность детей к помощникам, это значит, что в будущем дети будут активно с этим взаимодействовать. Но есть и риски — если помощник сломается, у ребенка может возникнуть эмоциональная травма».

    Почему надо быть бдительнее. Для выполнения команды пользователя голосовые помощники передают запись и/или ее текстовую версию и другие данные на сервер разработчика. После завершения задачи компания может удалить их или оставить — например, для проверки качества распознавания речи. Из-за этого возникают риски:

  • Ассистент может хранить больше информации, чем предполагается. Помощники должны записывать звук только после того, как услышат от владельца кодовое выражение. Однако они могут среагировать на похожие слова и речь по телевизору или срабатывать без причины.
  • Сотрудники компаний-разработчиков могут получить доступ к персональной информации. Проверяют качество работы голосовых помощников люди. Они могут узнать личные данные — например, историю болезни, рассказанную для контроля за состоянием пациента в больнице. По данным The Guardian, Apple внесла изменения в программу контроля качества голосового помощника Siri. По новым правилам, без согласия пользователей подрядчики больше не могут прослушивать голосовые команды, которые отправляют пользователи Siri.
  • Преступники могут воспользоваться данными. Как и другая собираемая компаниями информация, голосовые записи находятся под угрозой хакерских атак. Их могут использовать для имитации голоса пользователя и захвата его аккаунтов, защищенных биометрией. В некоторых случаях атаки могут не потребоваться — например, зафиксирован случай, когда пользователю Amazon случайно было отправлено 1700 аудиозаписей человека, которого он не знал, после того, как он запросил файл со своими собственными данными.
  • Может возникнуть конфликт интересов. Компании собирают личные данные для более эффективного решения задач клиентов — однако могут использовать их в свою пользу или пользу партнеров. По данным Bloomberg, некоторые сотрудники Amazon также могут узнать, где сделаны записи обращения к Alexa, и вычислить домашний адрес пользователя.
#справка С мая 2019 г. Google по умолчанию не хранит записи голоса после выполнения команды, не ограничивая при этом работу ассистента. Другие компании позволяют удалить уже переданную на хранение речь. Подробнее о том, как изменить настройки приватности для Google Assistant, Alexa, Cortana и Siri, на How-To Geek

Технические несовершенства. Пока помощники не всегда правильно распознают речь, особенно специализированные термины, и не всегда понимают контекст и различают омонимы. Также один из минусов работы с голосовым помощником — проблемы с транскрибацией текста и индексацией аудиозаметок.

Дмитрий Милостнов, CTO сервиса облачного видеонаблюдения Cambat.ru:

    «С точки зрения техники, умные голосовые интерфейсы — это сочетание:

  • задачи предобработки звуковых данных (DSP) для выделения голоса из общего потока,
  • задачи транскрибации речи (решена на 90-97% для разных языков),
  • задачи обработки естественного языка (NLP) (огромные подвижки благодаря приходу трансформеров в deep learning, и появлению state of the art языковых моделей как BERT и GPT-2),
  • задач алгоритмизации действий с программными интерфейсами конечных приложений и подачи ответа пользователю при помощи NLP и text-to-speech технологий.

Несомненно, на каждом из этих шагов в ближайшие годы будут большие прорывы. Не надо прельщаться цифрами в 90% решения и выше — лучше ориентироваться на процент ошибок. Этот показатель будет уменьшен на порядки благодаря новым моделям машинного обучения.

Вполне возможно, что у каждого появится свой персональный ассистент с подходящим ему голосом, который сможет играть роль Джарвиса для каждого, понимая не только текущий контекст, но и накапливая пользовательский опыт. Быть может, этот ассистент будет играть роль автоответчика для нежелательных вызовов, выполнять рутинные задачи самостоятельно — например, бронирования, — становясь мостиком между цифровым и аналоговым миром.

Внедрение и распространение голосовых интерфейсов происходит невероятно быстро, и мы увидим большие чудеса персонализации, которые могут быть недоступны в текстовом поиске. Потому что здесь еще нет никакого статуса-кво с точки зрения языка взаимодействий — с поиском человек взаимодействует не на естественном языке, а на некотором предобработанном для поиска, по мнению человека, — и будем надеяться, что не будет. И тогда не человек будет подстраиваться под интерфейс, а интерфейс под человека.»