Компания NVIDIA запустила новую модель генеративного искусственного интеллекта, которая создает короткие видео по текстовому описанию. Нейросеть Video LDM использует модель скрытой диффузии LDM (Latent diffusion model) для создания согласованных во времени данных и позволяет генерировать видео высокого качества, вплоть до 512x1024 пикселей при длительности до 5 секунд. Сначала проходит предварительное обучение на наборе изображений, потом добавляются временные слои для последовательности кадров с учетом заданных настроек, в конце идет выравнивание диффузионной модели.
Video LDM может обрабатывать простые запросы и сложные описания с дополнительными условиями. Также нейросеть умеет генерировать сцены вождения
Проект разработан подразделением NVIDIA Toronto AI Lab. На официальном сайте представлено много образцов, сгенерированных нейросетью. Сам проект Video LDM еще находится в разработке и закрыт для общего доступа.