Разработчики: | ВКонтакте |
Дата премьеры системы: | 2022/09/22 |
Технологии: | Речевые технологии |
Основные статьи:
2022: Анонс технологии распознавания речи
Теперь разработчики смогут бесплатно использовать в своих инди-проектах технологию ВКонтакте, которая считывает голос и переводит его в текст. Об этом 22 сентября 2022 года рассказал технический директор ВКонтакте Александр Тоболь. Технология распознавания речи, или ASR, Automatic Speech Recognition, внедряется в несколько кликов. Нейросети хорошо справляются с аудио с посторонними шумами, большим количеством сленга и сокращений.
По информации компании, для распознавания можно выбрать одну из двух моделей. Нейтральная подойдёт для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети ВКонтакте обрабатывают файлы за несколько секунд, умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь и даже отдельный звук «ъ».
Технологию можно попробовать через веб-интерфейс на специальной странице или интегрировать через публичный API ВКонтакте. На портале доступен широкий набор методов, с помощью которых можно создавать мини-приложения ВКонтакте или использовать в сторонних проектах. Решение подойдёт для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития. Версию с обработкой аудио до 100 минут в сутки можно применять для любых целей. А для безлимитного использования технологии можно отправить заявку на электронную почту.
Каждый месяц пользователи ВКонтакте отправляют более 2 млрд голосовых — это миллионы часов аудио, которые обрабатывают наши нейросети. Применение технологии ограничено только фантазией: можно сделать игру с голосовым управлением или с помощью чат-бота наконец добавить распознавание голосовых в какой-нибудь сторонний мессенджер. поведал Александр Тоболь, СТО ВКонтакте |
ASR используется ВКонтакте для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций и многого другого. Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Технология построена таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается очень быстро — примерно за 1,5 секунды после отправки.
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (44)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (190)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
SteadyControl (4)
3iTech (ранее 3i Technologies) (2)
Naumen (Наумен консалтинг) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
SteadyControl (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl (1, 23)
SteadyControl HoReCa (1, 23)
Другие (348, 209)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl (1, 4)
SteadyControl HoReCa (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Naumen (Наумен консалтинг) (1, 3)
SteadyControl (1, 3)
SteadyControl HoReCa (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 7)
SteadyControl HoReCa (1, 7)
Другие (17, 29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 5)
SteadyControl HoReCa (1, 5)
СалютДевайсы (ранее SberDevices) (2, 4)
Сбербанк (2, 4)
Другие (20, 33)
Распределение систем по количеству проектов, не включая партнерские решения
МТТ VoiceBox - 24
SteadyControl Система контроля и управления персоналом - 23
BSS Digital2Speech - 21
Voice2Med Система распознавания речи в медицине - 14
Naumen Erudite - 13
Другие 198
BSS Digital2Speech - 5
SteadyControl Система контроля и управления персоналом - 4
Voice2Med Система распознавания речи в медицине - 4
Neuro.net Голосовой робот - 2
Naumen Erudite - 2
Другие 11
МТТ VoiceBox - 11
BSS Digital2Speech - 6
SteadyControl Система контроля и управления персоналом - 3
Naumen Erudite - 3
VS Robotics: VS Робот-оператор - 3
Другие 14