Модель преобразования текста в видео OpenAI Sora впечатляет X, но все же имеет недостатки

Автор Victoria Lyapota На чтение 4 мин Просмотров 68 Опубликовано 16.02.2024 Обновлено 16.02.2024

Компания OpenAI, занимающаяся искусственным интеллектом, представила в четверг свою первую модель преобразования текста в видео, получившую бурный прием, хотя фирма признает, что этой модели еще есть над чем работать.

15 февраля OpenAI представила новую генеративную модель искусственного интеллекта, получившую название Sora, которая, как говорят, позволяет создавать подробные видеоролики из простых текстовых подсказок, продолжать существующие видеоролики и даже генерировать сцены на основе неподвижного изображения.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Согласно сообщению в блоге от 15 февраля, OpenAI утверждает, что модель искусственного интеллекта может генерировать сцены, подобные кинофильмам, с разрешением до 1080p. Эти сцены могут включать в себя несколько персонажей, определенные типы движения и точные детали объекта и фона.

Как работает Сора

Подобно предшественнику OpenAI DALL-E 3, основанному на изображениях, Sora работает по так называемой «диффузионной» модели.

Диффузия относится к генеративной модели искусственного интеллекта, создающей выходные данные путем создания видео или изображения с чем-то, что больше похоже на «статический шум», а затем постепенное преобразование его путем «удаления шума» в течение нескольких шагов.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— Greg Brockman (@gdb) February 15, 2024

Фирма, занимающаяся искусственным интеллектом, написала, что Sora была основана на прошлых исследованиях моделей GPT и DALL-E3, что, по утверждению фирмы, делает модель лучше в более «достоверном» представлении пользовательских данных.

OpenAI признала, что у Соры все еще есть несколько недостатков, и ей сложно точно смоделировать физику сложной сцены, а именно, запутывая природу причины и следствия.

«Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса».

По словам представителей компании, новый инструмент также может сбивать с толку «пространственные детали» заданной подсказки, путая левое и правое или не следуя точным описаниям направлений.

Сора может случайно создать физически неправдоподобное движение. Источник: ОпенАИ

OpenAI заявила, что новая генеративная модель на данный момент доступна только «красным командам» (на техническом языке исследователей кибербезопасности) для оценки «критических областей на предмет вреда или рисков», а также избранным дизайнерам, художникам и кинематографистам для сбора отзывов о том, какпродвигать модель.

В декабре 2023 года отчет Стэнфордского университета показал, что инструменты создания изображений на базе искусственного интеллекта с использованием базы данных искусственного интеллекта LAION обучались на тысячах изображений незаконных материалов о жестоком обращении с детьми, что вызывает серьезные этические и юридические проблемы в области преобразования текста в текст. модели изображений или видео.

Пользователи X потеряли дар речи

На X распространяются десятки демонстрационных видео, демонстрирующих примеры Соры в действии, а Сора сейчас находится в тренде на X с более чем 173 000 постов.

Стремясь продемонстрировать, на что способна новая генеративная модель, генеральный директор OpenAI Сэм Альтман открыл себя для запросов на генерацию видео от пользователей X, при этом руководитель ИИ поделился в общей сложности семью видеороликами, созданными Sora, начиная отутка на драконе обратно к золотистым ретриверам, записывающим подкаст на вершине горы.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) February 15, 2024

Комментатор искусственного интеллекта Маккей Ригли, как и многие другие, написал, что видео, созданное Сорой, лишило его дара речи.

В сообщении для X от 15 февраля старший научный сотрудник Nvidia Джим Фан заявил, что любой, кто считает Sora просто еще одной «творческой игрушкой», такой как DALL-E 3, глубоко ошибается.

If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR

— Jim Fan (@DrJimFan) February 15, 2024

По мнению Фана, Sora — это не столько инструмент для создания видео, сколько «физический движок, управляемый данными», поскольку модель искусственного интеллекта не просто генерирует абстрактное видео, но также детерминированно создает физику объектов в самой сцене.