Уточнить у Siri рецепт сырников во время готовки или попросить Алису прочитать сказку — вполне привычные для нашей жизни сценарии. А как это работает? Как звук превращается в понятные виртуальному помощнику команды, которые сразу же исполняются? Кто главные игроки на рынке? Какие еще заботы могут снять с нас голосовые помощники?
Редакция DTI Algorithmic собрала ответы на все эти вопросы — и помогали нам в этом наши программисты и союзники. В результате получился информационно насыщенный лонгрид, который мы будем публиковать по частям. Сегодня — про эволюцию голосовых помощников, их устройство и основных игроков на рынке.
Эволюция голосовых помощников
История голосовых ассистентов начинается с конца 1930-х годов, когда ученые начали предпринимать попытки распознать голос силами технологий. Тогда созданию качественного помощника мешали две большие проблемы:
- существование омонимов — слов с одинаковым звучанием, но с разным значением,
- постоянный шумовой фон, из которого система должна выбирать речь пользователя.
Сейчас для решения этих проблем разработчики используют машинное обучение. Оно учит нейронные сети самостоятельно анализировать контекст и эффективно определять основной источник звука. Однако пришли разработчики к этому не сразу — потребовалось как минимум 80 лет подготовительных работ:
1939 год. Советский физик Лев Мясников создал аппарат, способный распознавать человеческую речь — несколько гласных и согласных звуков.
1952 год. Сотрудники лаборатории Bell разработали механизм, который распознавал продиктованные по телефону числа от 1 до 9.

1962 год. Компания IBM представила собственную технологию распознавания речи — Shoebox. Машина распознавала 16 английских слов, 10 цифр и 6 арифметических команд.
1980 год. Инженеры научились применять методы «Скрытой модели Маркова». Со временем это позволило голосовым системам лучше распознавать речь. Они обрабатывают слово, учитывая несколько предыдущих и предсказывая, что может с ними сочетаться.

1987 год. В США компания Worlds of Wonder начала продавать говорящую куклу Джулию, которая училась распознавать речь ребенка во время игры. В куклу был встроен процессор, который позволял ей реагировать и генерировать речь. Джули воспринимала восемь высказываний: «Джули», «да», «нет», «хорошо», «притворяйся», «голодна», «пой» и «молчи».
1990-е годы. Появилась коммерческая программа Dragon Dictate, ориентированная на массовый рынок. Она распознавала речь и записывала надиктованный текст в файл.
1996 год. Появилось полноценное голосовое меню VAL от BellSouth. Система обрабатывала телефонные справочные запросы и помогала покупателям в поиске нужной информации об интересующих товарах.
Позже компания запустила Info by Voice — интерактивные голосовые «желтые страницы» с информацией о ближайших ресторанах, такси и некоторых магазинах. Система также могла рассказать о новостях и котировках акций, погоде, телепрограмме, гороскопе и спортивных событиях.
2001 год. Компания Microsoft добавила голосовой ввод текста в офисный пакет Office XP.
2002 год. Google запустил Voice Search — сервис для голосового поиска в интернете. Проект приостановили из-за неудобства использования — чтобы выполнить поиск, надо было позвонить на специальный номер. На Voice Search основан современный интерактивный помощник компании — Google Assistant.
2007 год. Центр исследования искусственного интеллекта SRI International начал разработку Siri. Siri стала первой голосовой помощницей — система умела не только искать информацию в интернете или работать как голосовое меню, но и вести с пользователем диалог.
2011-2014 годы. Google интегрировал функцию голосового поиска в браузер Chrome. Компания также запустила персонализированного ассистента Google Now с расширенными возможностями голосового поиска — сервис подбирал актуальную информацию с учетом местоположения пользователя, истории браузера и других поисковых запросов.
У Microsoft также появилась собственная виртуальная голосовая помощница — Cortana.
2014 год. Amazon представил первую в мире умную колонку Amazon Echo с голосовой ассистенткой Alexa.

2017 год. Alibaba представила умную колонку Tmall Genie с голосовым помощником AliGenie.
2018 год. Яндекс выпустил умную колонку Яндекс.Станция с голосовой помощницей Алисой.
2019 год. Банк «Тинькофф» запустил собственного голосового ассистента «Олега». Mail.Ru Group представила голосовую помощницу «Марусю».
Как устроены современные голосовые помощники
Голосовые помощники пассивно считывают все звуковые сигналы, и для активной работы им необходима активация при помощи кодовой фразы. Например, произнесите: «Окей, Google», потом можете задать свой вопрос или отдать команду без пауз.
В момент голосового запроса автоматическая система распознавания речи (ASR system) преобразовывает звуковой сигнал в текст. Это происходит в четыре этапа:
- Фильтрация. Система убирает из звукового сигнала шумовой фон и помехи, возникающие при записи.
- Оцифровывание. Звуковые волны преобразуются в понятный компьютеру цифровой вид. Параметры получаемого кода в том числе определяют качество записи.
- Анализ. В сигнале выделяются участки, содержащие речь. Система оценивает ее параметры — к какой части речи относится слово, в какой оно форме, насколько вероятна связь между двумя словами.
- Выявление шаблонов данных. Полученную информацию система включает в словарь — собирает разные варианты произношения одного и того же слова. Чтобы точнее распознавать новые запросы, ассистенты сравнивают слова в них с шаблонами.
Если после обработки запроса виртуальный помощник не понимает команду или не может найти ответ, он просит перефразировать вопрос. В некоторых случаях могут понадобиться дополнительные данные — например, при вызове такси ассистент может уточнить местоположение пассажира и пункт назначения.
Основные игроки на рынке
По данным Microsoft, самые популярные голосовые помощники в США — Google Assistant, Siri от Apple, Alexa от Amazon и Cortana от Microsoft. Русский язык из них понимают только первые два, однако на российском рынке также работает Алиса от Яндекса, а на китайском — AliGenie от Alibaba. Сравнили основные характеристики умных колонок с поддержкой этих пяти голосовых ассистентов:
Голосовой помощник |
Alexa |
Google Assistant |
Siri |
AliGenie |
Алиса |
Компания-производитель |
Amazon |
|
Apple |
Alibaba |
Яндекс |
Активационная фраза |
«Alexa» |
«О’кей, Google» |
«Привет, Siri» |
«Tmall Genie» |
«Привет, Алиса» |
Позиционирование |
управление умным домом |
поисковик |
музыкальная колонка |
управление умным домом |
музыкальная колонка |
Решаемые задачи |
управление умными устройствами; взаимодействие с товарами и сервисами Amazon; дозаказ новых продуктов; справочная информация |
управление умными устройствами; поиск информации в интернете; справочная информация |
управление умными устройствами; поиск информации в интернете; цифровая няня |
управление умными устройствами; управление медиа; заказ продуктов в интернет-магазине Tmall |
обработка голосового запроса; управление медиа |
Интеграция с социальными сетями и почтовыми сервисами |
нет |
нет |
да |
нет |
да |
Понимает команды и произвольную речь |
нет |
да |
нет |
нет |
да |
Мобильное приложение |
Android, iOS |
Android, iOS и браузер Chrome |
Android, iOS |
Wechat, Webao |
Android, iOS и Яндекс браузер |
Язык |
английский; французский; немецкий; японский; испанский; хинди |
порядка 30 языков |
21 язык,включая диалекты |
китайский; английский; русский |
русский |
Стоимость станций голосовых помощников |
$50—$150 |
$50—$400 |
$350 |
$74 |
$160 (₽9900) |
Доля рынка |
31,8% |
22,8% |
4,9% |
9,5% |
менее 4,9% |
Продажи (в млн.штук) за 4 квартал 2018 года |
13,7 |
11,5 |
1,6 |
2,8 |
менее 4,9 |