Разделы

Интернет Веб-сервисы Цифровизация ИТ в банках Техника

Создана первая российская нейросеть, умеющая генерировать видеоролики

Заработала первая в России нейросеть для генерации видеороликов. Ее создал Сбербанк, и аналогов у нее в стране нет. За рубежом подобных сервисов много – есть и американские, и китайские решения, как платные, так и бесплатные.

Вместо изображения – видеоролик

Сбербанк сообщил CNews о запуске своей новейшей нейросети Kandinsky Video, способной создавать небольшие видеоролики, основываясь на заданном пользователем текстовом описании. По словам разработчиков, это первый в России сервис подобного рода.

Создать при помощи Kandinsky Video полноценный многоминутный ролик нельзя – максимальная продолжительность одного клипа составляет всего 8 секунд. Кроме того, есть ограничение по частоте кадров в секунду – не более 30.

Сбербанк не сообщает, чем вызваны эти ограничения, и есть ли у него планы по отказу от них. На соответствующие вопросы редакции CNews представители банка не ответили.

Окно управления Kandinsky Video в сервисе Fusion Brain

Ждать от Kandinsky Video, что она создаст ролик высоком разрешении, тоже не стоит – ни о каких HD (1280х720 пикселей), Full HD (1920x1080) и тем более (3840х2160) речи здесь нет. В ответ на запрос пользователя нейросеть, если пользоваться ею через платформу Сбербанка Fusion Brain, выдаст ролик в форматах лишь 512х512, 384х640 или 640х384 точки, что соответствует пропорциям 1:1, 9:16 и 16:9

Что внутри нейросети

По словам разработчиков, в основе Kandinsky Video находятся два базовых блока. Задача первого – это генерация ключевых кадров, из которых нейросеть в дальнейшем сложит структуру сюжета ролика.

Запрос «Детальный вид лица киборга, высокая детализация, 8K»

Второй блок занимается генерацией так называемых «интерполяционных кадров», которые «позволяют достичь плавности движений в финальном видео», сообщили CNews в Сбербанке. Чтобы все работало корректно, Kandinsky Video функционирует в паре с новейшей нейросетью Kandinsky 3.0, запущенной одновременно с Kandinsky Video и служащей, как и первые два ее поколения, для генерации изображений по текстовому описанию.

Результат работы нейросети

Kandinsky 3.0 обучена создавать более фотореалистичные изображения в сравнении с Kandinsky 2.0. Также в списке ее возможностей отныне есть функция создания полноценных художественных картины и артов со скетчами.

Не анимация, а видео

Разработчики Kandinsky Video делают отдельный акцент на том, что создаваемые этой нейросетью ролики ни в коем случае нельзя путать с анимационным видео. Они подчеркивают, что разница между ними кардинальная.

Так, каждое творение Kandinsky Video – это непрерывная сцена, на которой в движении находятся как объект на переднем плане, так и фон позади него. В анимационных же видеороликах динамика достигается иным способом – за счет моделирования пролета камеры относительно статичной сцены. К слову, Kandinsky Video умеет генерировать и такую анимацию.

Когда есть альтернатива

На момент выхода материала у Сбербанка было две нейросети, умеющих генерировать видеоролики. Конкуренцию Kandinsky Video в экосистеме банка составляет упомянутая Kandinsky 3.0, но ее возможности в этом плане более ограничены, хотя в чем-то она опережает Kandinsky Video.

В Сбербанке сообщили CNews, что в Kandinsky 3.0 можно создавать ролики в режиме анимации по текстовому описанию. Один запрос – это один ролик длительностью до четырех секунд в разрешении 640х640 пикселей и частотой 24 кадра в секунду. Эффект анимации пользователь должен выбрать самостоятельно до начала процесса генерации. Синтез одной секунды такого видео длится в среднем около 20 секунд.

Аппаратная составляющая всех нейросетей - это мощные суперкомпьютеры

В России прямых конкурентов у Kandinsky Video пока нет, но их довольно много за рубежом. Генеративные сети, способные создавать видеоролики, стали массово появляться в 2022 г. – например, с мая 2022 г. работает китайский проект CogVideo с открытым кодом. На момент запуска создаваемые в CogVideo ролики имели частоту всего-навсего 8 кадров в секунду.

Свои нейросети по созданию видео есть и у крупных игроков мировой ИТ-сферы. Например, в распоряжении Google есть проект Imagen Video, которой по силам генерировать видео в разрешении до 1280х768 точек и частоте 24 кадра в секунду. Но их длина не превышает трех секунд.

Также у Google есть проект Dreamix – его она показала в феврале 2023 г., и он служит не для генерации новых, а для редактирования уже существующих роликов. Например, нейросеть способна заменить один объект в кадре, например, собаку, на совершенно другой – на кошку или другое животное.

Георгий Дорофеев