Google выпустила реалистичный генератор текста в видео с искусственным интеллектом «Lumiere»

Автор CryptoHamster На чтение 3 мин Просмотров 47 Опубликовано 25.01.2024 Обновлено 25.01.2024

Исследователи из Google обнародовали свои планы по созданию новой модели пространственно-временного распространения под названием Lumiere, которая превратит текст или изображение в реалистичное видео, созданное искусственным интеллектом (ИИ), с возможностями редактирования по требованию.

Люмьер призван изображать «реалистичное, разнообразное и последовательное движение» посредством того, что он называет «архитектурой пространства-времени U-Net». Это мгновенно генерирует всю продолжительность видео за один проход модели.

Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.

2024 is going to be a massive year for AI video, mark my words.

Here's what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp

— Rowan Cheung (@rowancheung) January 25, 2024

В статье исследователи объяснили:

«Благодаря использованию как пространственной, так и (что немаловажно) временной понижающей и повышающей дискретизации, а также использования предварительно обученной модели диффузии текста в изображение, наша модель учится напрямую генерировать видео с полной частотой кадров и низким разрешением путем его обработки. в множественном пространственно-временном масштабе».

Это будет означать, что пользователи могут вводить текстовые описания того, что они хотели бы видеть в виде видео, или загружать неподвижное изображение с подсказкой и создавать динамическое видео.

Согласно статье, пользователи проводят параллели с тем, что Lumiere похож на ChatGPT, но в отношении создания текста и изображений для видео, стилизации, редактирования, анимации и многого другого.

Хотя уже существуют другие генераторы видео с искусственным интеллектом, такие как Pika и Runway, исследователи говорят, что их однопроходный подход к измерению временных данных, связанному с генерацией видео, является новым.

По теме: Искусственный интеллект обманывает избирателей и политиков в преддверии выборов в США в 2024 году: «Я думал, что это реально»

Хила Чефер, студентка-исследователь, работавшая над моделью в Google, разместила на X пример возможностей модели:

Lumiere's key observation-
Instead of generating short videos and temporally upsampling them, we perform joint spatial and *temporal* downsampling– increasing both length and quality of the generated videos pic.twitter.com/vTh6dtwcPD

— Hila Chefer (@hila_chefer) January 24, 2024

Люмьер обучался на наборе данных из 30 миллионов видео и текстовых подписей, хотя источник видеоданных не упоминался — горячая тема в мире ИИ и закона об авторском праве. На данный момент модель может генерировать 80 кадров со скоростью 16 кадров в секунду.

Пользователи X называют эту разработку Google «невероятным прорывом», «современным» и даже предполагают, что в следующем году генерация видео «сойдёт с ума».

Googles new video model Lumiere can stylize motion by looking at a single image, and it looks pretty good.

Generative video is gonna get crazy this year you guys

pic.twitter.com/x1hNxpdHXR

— Nick St. Pierre (@nickfloats) January 24, 2024