Разделы

ПО Софт Интернет Веб-сервисы Цифровизация Бизнес-приложения ИТ в банках

«Тинькофф» начинает продажу собственных речевых технологий Tinkoff Voicekit

Группа «Тинькофф» объявила о начале продаж корпоративным клиентам собственных речевых технологий Tinkoff Voicekit, которые позволяют преобразовывать голос в текст и синтезировать голос из текста.

Речевые технологии Tinkoff Voicekit – это глубокие нейросетевые модели для синтеза и распознавания речи, которые в течение последних лет разрабатывались в «Тинькофф» в рамках стратегии AI First и которые также использовались для создания «Олега» – финансового голосового помощника собственной разработки.

Технология Tinkof Voicekit может использоваться, например, для: создания собственных голосовых помощников; создания роботов для автоматизации работы колл-центра; быстрой записи аудиокниг, озвучки и редактирования видеороликов; построения системы речевой аналитики по транскрибированным текстам – например, в колл-центрах для контроля работы операторов; создания приложений для людей с ограниченными возможностями; транскрибации любых звуковых записей публичных выступлений; поисковой оптимизации и полнотекстовому поиску по аудио- и видеозаписям.

Также сейчас разрабатывается версия Tinkoff Voicekit для физических лиц, которая будет доступна пользователям осенью 2019 г.

Образовательным учреждениям и студентам «Тинькофф» будет предоставлять технологию бесплатно – таким образом группа планирует сделать дополнительный вклад в российскую систему образования в рамках развития собственных образовательных проектов, поддержки всероссийских олимпиад и сотрудничества с ведущими российскими вузами и образовательными центрами.

«Тинькофф» начал разработку собственной технологии распознавания речи в 2016 г. На данный момент эта технология, по данным разработчика, правильно определяет до 95% произнесенных слов и использует для обучения терабайты данных и десятки тысяч часов человеческой речи. Она одинаково хорошо справляется с шумной речью в телефонном канале, так и с чистой речью, полученной из качественных источников данных.

Разработка собственной технологии синтеза речи началась в «Тинькофф» в 2018 г. на основе таких нейросетевых моделей как Wavenet, Tacotron-2, Deep Voice. Для этого использовались знания и экспертиза о звуке, накопленные специалистами «Тинькофф» за два предыдущих года, поэтому вся работа по созданию синтеза речи заняла всего около девяти месяцев.

Также для разработки Tinkoff Voicekit и обучения нейросетевых моделей был задействован кластер «Колмогоров» – один из мощнейших в России суперкомпьютеров, созданный группой «Тинькофф» в марте 2019 г.

Голосовые технологии используются сегодня в группе «Тинькофф» не только в голосовом помощнике: они помогают автоматизировать процессы, связанные с обслуживанием. Так, через распознавание речи ежедневно проходит около миллиона звонков обслуживания, анализируется качество обработки обращений клиентов, а собственная биометрическая система, обученная на голосах клиентов, успешно помогает отсеивать все мошеннические действия в колл-центре.

Вячеслав Цыганов, вице-президент «Тинькофф», директор по информационным технологиям, сказал: «У нас была блестящая команда разработчиков, 80 видеокарт, более 15 тыс. часов аудио из свободных источников, десятки тысяч часов звонков собственного колл-центра, суперкомпьютер "Колмогоров" и диктор, готовый пять месяцев записываться для синтеза речи. Мы работали три года, разметили за это время более 4,5 тыс. часов аудио и натренировали глубокие нейросетевые модели. И вот сегодня мы представляем рынку собственные речевые технологии Tinkoff Voicekit. Наши первые клиенты считают, что качество распознавания речи у Tinkoff Voicekit выше тех решений, которые они использовали до этого. Особенно это касается телефонной речи, поскольку у нас накоплено очень много данных в этой области, и мы можем обучать нейросетевые модели, используя суперкомпьютер "Колмогоров" на всем их объеме».

«Наши решения, независимо от того в каком формате они будут использоваться – потоковое распознавание или пакетная офлайн-обработка – будут доступны только в виде API. В тех случаях, где заказчикам потребуется доработка своих систем или on-site решение, мы планируем сотрудничать с крупными интеграторами, которые будут готовы взять эту работу на себя. Также готовятся к выпуску мобильные SDK под iOS и Android», – отметил Цыганов.