Разделы

Интернет Веб-сервисы Цифровизация ИТ в банках Искусственный интеллект

Сбербанк представил Kandinsky 6.0 Image – флагманскую модель для редактирования и создания изображений

Редактирование изображений в ИИ-помощнике «ГигаЧат» вышло на новый уровень благодаря обновленной модели Kandinsky 6.0 Image. У пользователей появился бесплатный ИИ-инструмент редактирования профессионального уровня, без ограничений по количеству генераций. Об этом CNews сообщили представители Сбербанка.

Флагманская модель работает до двух раз быстрее, лучше понимает сложные запросы и создает более детализированные изображения. Появились новые возможности редактирования: реставрация снимков, стилизация под актуальные визуальные тренды, нейрофотосессии, смена одежды и локации, ретушь и макияж. Kandinsky стал лучше разбираться в актуальных темах — благодаря встроенному поиску по изображениям.

В ряде задач по качеству редактирования изображений, согласно внутренним замерам, Kandinsky конкурирует с ведущими мировыми моделями — Nano-Banana, Flux и Qwen. Все новые возможности уже доступны в ИИ-помощнике «ГигаЧат» — в веб-версии, мобильном приложении и мессенджерах.

Антон Фролов, старший вице-президент, руководитель блока «Развитие генеративного ИИ» Сбербанка: «Редактирование и создание изображений — одна из самых популярных функций в ИИ-помощнике «ГигаЧат»: за все время пользователи уже создали несколько сотен миллионов картинок. Наша цель — дать каждому инструмент профессионального уровня с широкими возможностями для самых разных задач, от творчества до работы. С Kandinsky 6.0 мы сделали большой шаг в этом направлении. Также продолжаем развивать наши модели для видео — в ближайшее время пользователи ИИ-помощника получат новые возможности работы с видеоконтентом».

Продвинутое редактирование

Редактирование изображений стало профессиональным: одним текстовым запросом можно добавить объект в кадр или убрать лишнее, наложить фильтр или совместить элементы из разных изображений. Среди новых инструментов — реставрация старых и поврежденных снимков, в котором модель возвращает четкость выцветшим и поцарапанным фотографиям. Стилизация превращает фото в иллюстрацию в стиле аниме, комикса или мультфильма. Режим нейрофотосессии позволяет сгенерировать серию новых кадров на основе одной фотографии — с другим фоном, одеждой или локацией.

Kandinsky 6.0 точнее понимает сложные многосоставные инструкции и аккуратнее делает точечные правки: если попросить поменять персонажу прическу или добавить очки, все остальное остается нетронутым. Вырос уровень детализации в сложных сценах — интерьерах, сервировке стола, изображениях с большим числом людей. Ошибок и «галлюцинаций» стало меньше, текст на изображениях генерируется корректнее.

Пополнение знаний

Как создавать продукты в сфере ИБ и ИТ с минимальными расходами и предсказуемой доходностью
Как создавать продукты в сфере ИБ и ИТ с минимальными расходами и предсказуемой доходностью безопасность

Kandinsky 6.0 стал лучше разбираться в актуальных темах благодаря встроенному механизму поиска по изображениям (Image RAG). Если модель не знает, как выглядит объект из запроса, например, новый поп-персонаж, она ищет нужный референс. Так можно генерировать точные изображения даже тех персонажей и объектов, которые появились уже после обучения модели.

Обновленный ИИ-помощник пригодится для: быстрого редактирования фотографий: убрать лишнее из кадра, освежить старый снимок, примерить новый образ; создания профессионального контента: визуала для соцсетей, стилизации под нужную эстетику, иллюстраций с постоянными персонажами; дизайна и маркетинга: рекламных макетов, подбора фонов и композиций, визуализации идей без сложных программ; строительства и недвижимости: вариантов планировки, визуализации отделки и дизайна интерьера; электронной коммерции: создание карточек товаров, продуктовых сцен и рекламных изображений без фотостудии.

Сгенерированные изображения можно сразу использовать для создания видео — в ИИ-помощнике доступна модель Kandinsky Video для анимации статичного контента.

Как обучали новую модель

В основе Kandinsky 6.0 Image — новая архитектура Mixture of Experts (MoE), которая стала стандартом для передовых нейросетей. Ее суть — в специализации: вместо того чтобы задействовать всю модель на каждый запрос, система автоматически выбирает нужных «экспертов» — отдельные блоки внутри нее. Это похоже на работу команды узких специалистов вместо одного универсала: каждый делает свое дело быстро и точно. В результате модель работает быстрее и экономнее, ее проще улучшать и дорабатывать.