22.11.2023 Новости, Искусственный интеллектСбер представил нейросеть Kandinsky Video — первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду. Об этом в ходе международной конференции AI Journey рассказал первый заместитель Председателя Правления Сбербанка Александр Ведяхин. Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0. Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, синтезированные моделью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счёт моделирования пролёта камеры относительно статичной сцены. Нейросеть создаёт видеоролики с разрешением 512×512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар «текст — видео». Генерация видео занимает до трёх минут. Александр Ведяхин, первый заместитель председателя правления Сбербанка, прокомментировал: «Недавно мы обучили Kandinsky создавать анимационные видео по текстовому описанию, а уже сегодня представляем модель совершенно другого уровня — первую в ...
читать далее.