Как «Яндекс» создавал «Алису»

Кратко

  • 10 октября 2017 года «Яндекс» официально представил своего голосового ассистента «Алиса».
  • В основе «Алисы» — нейронные сети, которые распознают речь, интерпретируют её. составляют ответы и синтезируют голос помощника. «Алиса» обучается на огромных массивах текстов, чтобы общаться с пользователем на свободные темы.
  • Есть и «редакторские» реплики, написанные командой для ответов на популярные вопросы.
  • Одна из главных сложностей в разработке такой системы: понять, что будет интересовать пользователей, и как они будут об этом спрашивать. Кто-то спрашивает у поисковика «где я», кто-то — «какая моя геолокация».
  • Основные отличия «Алисы» от конкурентов (к примеру, Siri) — интеграция с собственной поисковой системой компании и наличие нейронной сети, с помощью которой помощник самостоятельно генерирует новые реплики.

Почему «Яндекс» взялся за разработку голосового ассистента

К 2017 году своих голосовых помощников представили крупнейшие мировые ИТ-компании: на англоязычном рынке работает Siri от Apple, Assistant от Google, Alexa от Amazon, M от Facebook, Cortana от Microsoft. На азиатском — Duer от Baidu и Bixby от Samsung.

Весной 2017 года тестирование собственного голосового помощника запустил российский «Яндекс». Ассистент по имени Алиса встроен в поисковое приложение компании. Пользователь может решить свою задачу в форме диалога с ассистентом — вместо ввода запроса в поисковую строку. 10 октября 2017 года компания объявила об официальном запуске сервиса — помощник появился в стабильной версии поискового приложения для Android и iOS, а также в бета-версии «Голосового помощника » для Windows.

За создание «Алисы» компания принялась в конце 2016 года. Сервис начали разрабатывать потому, что вся индустрия движется в этом направлении: пользователь хочет и готов решать свои задачи в форме диалога с виртуальным помощником, готовы к этому и алгоритмы, — и можно переходить от голосового ввода к осмысленному диалогу.

Когда у пользователя появляется возможность задать вопрос голосом, он начинает говорить по-человечески. Вместо «Лада калина 2007 карданный вал дёшево купить» спрашивает: «Где мне купить карданный вал на «Ладу Калину» 2007 года»? Не выдумывает поисковый запрос, не формулирует его, как он привык это делать, а просто спрашивает.

В этом направлении параллельно движутся и поисковые алгоритмы, и диалоговые интерфейсы. Но в голосовом помощнике есть привязка к контексту — то есть способность удерживать смысл реплик и понимать, связаны ли с ними последующие высказывания.

Скажем, вы спросили «Алису»: «Какая завтра погода?» — она ответила вам: «+7 и ясно». Следующий вопрос может оказаться: «А на выходных?» Его легко понять человеку, но сложно машине — ведь в нём нет даже ключевого слова «погода». Диалоговый помощник умеет сопоставлять реплики и понимать, что вы всё ещё говорите о погоде.

Значит, когда мы от простого голосового ввода переходим к диалогу, то делаем это, чтобы дать пользователям возможность говорить так, как они привыкли — вот и всё.

Илья Субботин

руководитель продукта «Алиса»

По словам разработчиков, пользователи «Яндекса» уже умеют обращаться к сервисам компании голосом — команда «Слушай, Яндекс» работает и в «Поиске», и в «Навигаторе», и в других приложениях. Так что привыкать к новому интерфейсу им не придётся.

С технологической — за работу помощника теперь отвечает многослойная нейросеть, которая учится на массивах текстов, понимает смысл запроса и самостоятельно синтезирует речь.