Модель OpenAI Text-to-Video Sora вражає X, але все ще має недоліки

Фірма штучного інтелекту OpenAI представила свою першу в історії модель перетворення тексту у відео, викликавши сильний прийом у четвер, хоча фірма визнає, що цій моделі ще є шляхи розвитку.

15 лютого OpenAI представила нову генеративну модель штучного інтелекту під назвою Sora, яка, як стверджується, створює детальні відео з простих текстових підказок, продовжує існуючі відео та навіть генерує сцени на основі нерухомого зображення.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Відповідно до повідомлення в блозі від 15 лютого, OpenAI стверджував, що модель штучного інтелекту може генерувати сцени, схожі на фільми, з роздільною здатністю до 1080p. Ці сцени можуть містити кілька персонажів, певні типи рухів і точні деталі об’єкта та фону.

Як працює Сора

Подібно до попередника OpenAI DALL-E 3, заснованого на зображеннях, Sora працює на так званій моделі «дифузії».

Дифузія стосується генеративної моделі штучного інтелекту, яка створює свій вихід шляхом генерації відео чи зображення з чимось, що більше схоже на «статичний шум», а потім поступово перетворює його шляхом «видалення шуму» протягом кількох кроків.

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— Greg Brockman (@gdb) February 15, 2024

Фірма штучного інтелекту написала, що Sora була побудована на основі минулих досліджень моделей GPT і DALL-E3, що, як стверджує фірма, робить модель кращою для більш «достовірного» представлення введених користувачем даних.

OpenAI визнав, що Sora все ще містить кілька недоліків і може важко точно симулювати фізику складної сцени, а саме, плутаючи природу причини та наслідку.

«Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу».

Новий інструмент також може плутати «просторові деталі» заданої підказки, змішуючи ліві та праві сторони або не дотримуючись точних описів вказівок, кажуть у фірмі.

Сора може випадково генерувати фізично неправдоподібний рух. Джерело: OpenAI

OpenAI заявив, що нова генеративна модель наразі доступна лише для «червоних команд» — технічної мовою для дослідників кібербезпеки — для оцінки «критичних областей щодо шкоди чи ризиків», а також для вибору дизайнерів, художників і режисерів для збору відгуків про те, якпросунути модель.

У грудні 2023 року звіт Стенфордського університету показав, що інструменти генерації зображень на базі штучного інтелекту з використанням бази даних штучного інтелекту LAION навчаються на тисячах зображень незаконного матеріалу про жорстоке поводження з дітьми, що викликає серйозні етичні та юридичні проблеми щодо перетворення тексту в текст. моделі зображень або відео.

Користувачі на X залишилися без мови

На X циркулюють десятки демонстраційних роликів, які показують приклади Sora в дії, а Sora зараз є популярним на X із понад 173 000 публікаціями.

У спробі продемонструвати, на що здатна нова генеративна модель, генеральний директор OpenAI Сем Альтман відповів на власні запити на генерацію відео від користувачів на X, причому керівник ШІ надав загальний доступ до семи відео, згенерованих Sora, відкачка на драконі назад до золотистих ретриверів, які записують подкаст на вершині гори.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) February 15, 2024

Коментатор штучного інтелекту Маккей Ріглі — разом з багатьма іншими — написав, що відео, створене Сорою, залишило його «безмовним».

У дописі на X від 15 лютого старший науковий співробітник Nvidia Джим Фан заявив, що будь-хто, хто вважав, що Sora — це просто ще одна «творча іграшка», як DALL-E 3, абсолютно помилявся.

If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR

— Jim Fan (@DrJimFan) February 15, 2024

На думку Фана, Sora — це не стільки інструмент для створення відео, скільки «керований даними фізичний движок», оскільки модель штучного інтелекту не просто генерує абстрактне відео, але й детерміновано створює фізику об’єктів у самій сцені.