«Сбер» представил на международной конференции AI Journey бета-версию нейросети нового поколения Kandinsky 4.0 Video для создания реалистичных видеороликов по текстовому описанию или стартовому кадру. С её помощью можно создавать анимированные ролики, трейлеры и клипы.

Kandinsky

«За год с момента релиза первой версии модели Kandinsky Video на AI Journey 2023 наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива, а также продуктовых применений модели», — заявил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев.

По словам Белевцева, каждый пользователь новой версии Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. Он добавил, что всё ближе то время, когда искусственный интеллект будет способен решать множество задач сразу, причём с самыми разными типами данных и в разных доменах. «И такие модели, как Kandinsky Video, способствуют мировому развитию в этом важном направлении, значительно приближая современные технологии к тому синергетическому уровню обработки, восприятия и создания информации, каким обладает человек», — заключил он.

Модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280×720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

У новой версии улучшенное визуальное качество — высокий контраст и чёткость кадров, выстраивание общей композиции сцены и реалистичность движений генерируемых объектов. Добиться такого качества позволило уникальное сотрудничество научных и инженерных команд, которые вместе работали как над развитием архитектуры новой модели, так и над сбором и фильтрацией данных для обучения.

В дополнение к основной модели команда Kandinsky представила быструю версию Kandinsky 4.0 Video Flash, которая генерирует видеоряд продолжительностью до 12 секунд в разрешении 480p (720×480) по любому текстовому описанию всего за 15 секунд.

Kandinsky 4.0 Video — это ансамбль моделей, главная часть которого является диффузионным трансформером с 5 млрд параметров. Инженеры команды Kandinsky использовали самые передовые алгоритмы и способы оптимизации обучения больших моделей, что позволило эффективно настроить модель такого размера на огромных массивах видео. Модель разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института AIRI на объединённом датасете «Сбера».