Исследователи из Google обнародовали свои планы по созданию новой модели пространственно-временного распространения под названием Lumiere, которая превратит текст или изображение в реалистичное видео, созданное искусственным интеллектом (ИИ), с возможностями редактирования по требованию.
Люмьер призван изображать «реалистичное, разнообразное и последовательное движение» посредством того, что он называет «архитектурой пространства-времени U-Net». Это мгновенно генерирует всю продолжительность видео за один проход модели.
Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.
2024 is going to be a massive year for AI video, mark my words.
Here's what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp
— Rowan Cheung (@rowancheung) January 25, 2024
В статье исследователи объяснили:
«Благодаря использованию как пространственной, так и (что немаловажно) временной понижающей и повышающей дискретизации, а также использования предварительно обученной модели диффузии текста в изображение, наша модель учится напрямую генерировать видео с полной частотой кадров и низким разрешением путем его обработки. в множественном пространственно-временном масштабе».
Это будет означать, что пользователи могут вводить текстовые описания того, что они хотели бы видеть в виде видео, или загружать неподвижное изображение с подсказкой и создавать динамическое видео.
Согласно статье, пользователи проводят параллели с тем, что Lumiere похож на ChatGPT, но в отношении создания текста и изображений для видео, стилизации, редактирования, анимации и многого другого.
Хотя уже существуют другие генераторы видео с искусственным интеллектом, такие как Pika и Runway, исследователи говорят, что их однопроходный подход к измерению временных данных, связанному с генерацией видео, является новым.
По теме: Искусственный интеллект обманывает избирателей и политиков в преддверии выборов в США в 2024 году: «Я думал, что это реально»
Хила Чефер, студентка-исследователь, работавшая над моделью в Google, разместила на X пример возможностей модели:
Lumiere's key observation-
Instead of generating short videos and temporally upsampling them, we perform joint spatial and *temporal* downsampling– increasing both length and quality of the generated videos pic.twitter.com/vTh6dtwcPD— Hila Chefer (@hila_chefer) January 24, 2024
Люмьер обучался на наборе данных из 30 миллионов видео и текстовых подписей, хотя источник видеоданных не упоминался — горячая тема в мире ИИ и закона об авторском праве. На данный момент модель может генерировать 80 кадров со скоростью 16 кадров в секунду.
Пользователи X называют эту разработку Google «невероятным прорывом», «современным» и даже предполагают, что в следующем году генерация видео «сойдёт с ума».
Googles new video model Lumiere can stylize motion by looking at a single image, and it looks pretty good.
Generative video is gonna get crazy this year you guys
pic.twitter.com/x1hNxpdHXR
— Nick St. Pierre (@nickfloats) January 24, 2024