Максим Колупаев, Harman: Как на основе искусственного интеллекта создать голосового помощника
Компания Harman в Нижнем Новгороде прошла путь от разработки ПО для пейджеров до создания инновационных продуктов в сфере искусственного интеллекта. Одним из «ярких» направлений работы компании стало создание голосовых помощников. О ходе одного из подобных проектов – разработки голосового ассистента для подбора ортопедической обуви – в интервью TAdviser рассказал Максим Колупаев, руководитель направления в Harman DTS Russia.
Максим, расскажите об истории команды разработчиков Harman из Нижнего Новгорода.
Колупаев Максим: История у нас довольно богатая и насчитывает уже 30 лет. В 1991 г. на базе Нижегородского института технологии и организации производства (НИИТОП) была создана многопрофильная коммерческо-производственная фирма «Тэлма». Ее первой масштабной задачей стала сборка ультразвуковых сканеров итальянской разработки. В 90-е годы фирма последовательно занималась продажами и разработкой ПО для мобильных устройств, продажей и сервисным обслуживанием пейджеров и сотовых телефонов. Также компания вела разработки для автомобильной и газовой промышленности, занималась строительным и медицинским бизнесом. В определенное время решено было сконцентрироваться на двух направлениях – разработка ПО для мобильных устройств и строительство.
Первым крупным заказчиком фирмы из Нижнего Новгорода стала компания Motorola, с которой в 1992 г. был заключен контракт по локализации и адаптации пейджеров. Сотрудничество с Motorola было долгосрочным и продолжалось до кризиса 2008 г. Компания «Тэлма» также работала с такими мировыми брендами, как Kyocera, Samsung, LG, Sony Mobile, Nokia, AMD, TI, Qualcomm, On Star, Sirius XM, Yota Devices, Blackberry, Vertu, Microsoft и рядом других.
В 2006 г. «Тэлма» вошла в состав шведского холдинга Teleca AB. В 2012 г. произошло слияние Teleca AB с компанией Symphony Services Corporation, что привело к появлению нового бренда – Symphony Teleca Corporation (STC). В апреле 2015 г. эта компания вошла в состав Harman International Industries.
Подразделение Harman в Нижнем Новгороде предоставляет комплекс услуг по таким направлениям, как облачное программирование, искусственный интеллект (AI), нейронные сети, интернет вещей (IoT). Также нижегородская команда оказывает услуги по разработке и тестированию встроенного ПО для мобильных устройств и устройств связи, автомобильной промышленности и здравоохранения.
С целью развития портфеля продуктов, построенных на принципах искусственного интеллекта и машинного обучения, в нижегородском офисе Harman была создана команда Harman X Future Intelligence Labs, в которой работают более 40 инженеров и архитекторов, в том числе восемь кандидатов наук. Это специалисты в области машинного обучения, обработки данных и сигналов, нейропсихологии.
Всего в Нижегородском подразделении Harman на сегодня заняты порядка 700 инженеров. Последние пять-шесть лет наша компания много работает над созданием голосовых решений на основе искусственного интеллекта. В частности, мы разработали встроенный голосовой помощник для умной колонки Microsoft Cortana, голосовой AI-ассистент ZOE для европейской круизной компании MCS Cruises, навигационную систему для Jaguar. Среди заказчиков российского подразделения Harman также есть компании Samsung, General Motors, PSA Peugeot-Citroen, Mercedes, Nielsen, Roche, QNX и другие. Одна из наших последних разработок – голосовое решение для Albert 2 Pro – технологии сканирования стопы от американской компании Aetrex.
Когда и в связи с чем возник замысел создания продукта Albert 2 Pro и какова была роль Harman в проекте?
Колупаев Максим: Aetrex – это мировой лидер в области технологий сканирования стопы для создания решений в сфере ортопедии. К своим сервисам компания предлагает линейку комфортной оздоровительной обуви, в которой использует ортопедические стельки собственной разработки. Во флагманской линейке сканеров стопы Albert нашли воплощение лучшие на сегодня технологии персонализированного сканирования стопы. Революционным в своей нише продуктом стал многофункциональный сканер премиум-класса Albert 2 Pro от компании Aetrex. В частности, в этом продукте используются технологии компьютерного зрения, различные сенсоры, а также технологии искусственного интеллекта и машинного обучения. Весь этот спектр технологий позволяет сканеру собрать самые точные и полные данные о стопе покупателя: размер, длину, ширину, высоту подъема, давление, тип дуги и т.д. – а также создать 3D-модель стопы. Кроме того, сканер собирает данные о давлении стопы на поверхность, чтобы определить, в каких точках клиент может испытывать дискомфорт или боль. С помощью этих данных искусственный интеллект может порекомендовать наиболее подходящие для каждого конкретного клиента стельки и обувь.
Albert – продукт для торгового представителя по продаже обуви с целью предоставления консультаций покупателям. С его помощью торговый представитель может подобрать подходящую для клиента обувь с первой примерки. У Aetrex есть собственная сеть ортопедических киосков Digtal Orthotic Stations (станции цифровой ортопедии), где компания предлагает бесплатное сканирование стопы перед покупкой их фирменной обуви или стелек. Aetrex также поставляет свой продукт в другие обувные магазины и сети по всему миру. Приходя в магазин, покупатель обращается к консультанту с просьбой подобрать ему обувь с учетом имеющихся особенностей строения стопы и состояния здоровья. Консультант предлагает покупателю подойти к аппарату Albert, где происходит сканирование стопы на специальной платформе, оснащенной датчиками. Затем на экране компьютера, подключенного к системе Albert, выводится 3D-модель стопы со всеми параметрами, которые сканеру удалось снять. На основе этих параметров происходит подбор обуви или даются определенные консультации покупателю.
С началом пандемии перед Aetrex встал вопрос о том, как использовать сканер в новых условиях. На первый план у пользователей вышла потребность в дистанционных решениях. В середине лета 2020 г. представители Aetrex обратились в подразделение Harman по созданию голосовых решений, и начались переговоры, которые завершились весьма успешно для обеих сторон. В результате осенью того же года наша команда в Нижнем Новгороде начала проект создания голосового помощника для второго поколения флагманского продукта компании Aetrex – Albert 2 Pro. Проект не был долгим и завершился в мае 2021 г.
Торговые представители и клиенты теперь могут использовать голосовые команды для управления программным обеспечением сканера. Aetrex также разработал персонажа-помощника для сканера, которого также назвал Альберт. С помощью голосовых команд торговые представители и покупатели могут задать Альберту любой вопрос о данных, полученных в результате сканирования, или состоянии их стоп. Свой ответ Альберт может дополнить соответствующими изображениями или видео.
Какие функции разработчики Harman добавили в Albert 2 Pro?
Колупаев Максим: Как я уже сказал, одна из особенностей продукта Albert второго поколения – это добавление голосового управления. Причем с помощью речевых технологий можно бесконтактно управлять программным обеспечением сканера для подбора ортопедической обуви и стелек покупателю. В рамках контракта с Aetrex компания Harman создала несколько модулей для управления голосом. Самый важный модуль, над которым мы работали, называется Wake-Word Engine. Он позволяет активировать всю систему Albert 2 Pro с помощью позывного «Hey, Albert!». То есть консультанту достаточно произнести этот «пароль», чтобы система заработала и начала реагировать на команды.
Также мы разработали модуль распознавания команд для управления сканером (согласно требованию заказчика, работает на железе и совместно с ПО самого сканнера с целью минимизации времени запроса) и модуль распознавания команд для платформы для подбора обуви и стелек на основе искусственного интеллекта. В последнем модуле запрос пользователя отправляется в облако и подбирается наиболее подходящий ответ.
Все три упомянутые мной модуля – это часть большой кастомизированной платформы Harman eNova, которая служит для создания и персонализации голосовых помощников на основе технологий AI.
Что было самым сложным в проекте разработки голосового ассистента?
Колупаев Максим: Главной трудностью, с которой мы столкнулись, был сбор аудиоданных для обучения модуля Wake-Word Engine. Мы поручили эту задачу американскому партнеру, так как необходимо было организовать запись позывного и команд управления сканером на английском языке от носителей разных акцентов (например, от выходцев из Латинской Америки и Китая). То есть нам необходимо было учесть все акценты, которыми владеют покупатели сети магазинов Aetrex.
Еще один важный момент, который нельзя было не учесть при разработке голосового ассистента, — это наличие специфических звуков в магазинах: шумы кондиционеров, звуковая реклама, сигналы автомобилей с улицы, отрывки разговоров покупателей в торговом зале и т.д. После того, как аудиоданные были собраны в полном объеме, обучить систему оставалось делом техники.
Где может быть востребовано голосовой помощник Harman, помимо сетей магазинов ортопедической обуви? Можно ли его кастомизировать для другого направления ритейла или вообще для другой вертикали?
Колупаев Максим: Решения, используемые для голосового управления сканером стопы Альберт основаны на кастомизируемой платформе Harman eNova и могут быть использованы в любых областях, где требуется голосовой ассистент или просто голосовое управление. В этой платформе есть набор готовых для использования компонентов, а также системы их взаимодействия и администрирования. Набор состоит из высокоточных систем автоматического распознавания речи (ASR), обработки и понимания естественного языка (NLU), синтеза речи (TTS). Платформа Harman eNova может использоваться как готовый продукт с минимальными сроками внедрения, так и служить инструментарием для создания новых персонализированных голосовых интерфейсов.
Какие перспективные направления для использования голосовых ассистентов вы можете назвать?
Колупаев Максим: Пожалуй, самым перспективным направлением использования голосовых помощников пока выглядит автомобильная сфера. В частности, управление голосом внедряется в Tesla и других автомобилях верхнего ценового уровня. Массовый спрос голосовые ассистенты также находят в следующих отраслях:
- круизный и развлекательный бизнес (возможность работы при ограниченном доступе к интернету или вообще его отсутствии, с предоставлением необходимой для конкретного пользователя информации;
- банковская сфера (цифровой помощник для круглосуточного обслуживания клиентов, автоматические напоминания для оплаты счетов и т.д.);
- медицина (ответы на общие вопросы, экстренный вызов, контроль жизненно важных органов, автоматические напоминания для персонала клиник и т.д.;
- гостиничный бизнес (круглосуточное обслуживание в номерах, голосовое управление функциями умного дома, бронирование номеров и услуг, автоматизированная регистрация заезда/отъезда);
- розничная торговля (голосовой поиск товара и обратная связь, упрощение выставления счетов, голосовая поддержка сбора данных о предпочтениях клиентов, о продажах и т.п.).