Категории: Разное

Модель OpenAI Text-to-Video Sora вражає X, але все ще має недоліки

Фірма штучного інтелекту OpenAI представила свою першу в історії модель перетворення тексту у відео, викликавши сильний прийом у четвер, хоча фірма визнає, що цій моделі ще є шляхи розвитку.

15 лютого OpenAI представила нову генеративну модель штучного інтелекту під назвою Sora, яка, як стверджується, створює детальні відео з простих текстових підказок, продовжує існуючі відео та навіть генерує сцени на основі нерухомого зображення.

https://twitter.com/gdb/status/1758193811489243408?ref_src=twsrc%5Etfw

Фірма штучного інтелекту написала, що Sora була побудована на основі минулих досліджень моделей GPT і DALL-E3, що, як стверджує фірма, робить модель кращою для більш «достовірного» представлення введених користувачем даних.

OpenAI визнав, що Sora все ще містить кілька недоліків і може важко точно симулювати фізику складної сцени, а саме, плутаючи природу причини та наслідку.

«Наприклад, людина може відкусити печиво, але після цього на печиві може не залишитися сліду від укусу».

Новий інструмент також може плутати «просторові деталі» заданої підказки, змішуючи ліві та праві сторони або не дотримуючись точних описів вказівок, кажуть у фірмі.

Сора може випадково генерувати фізично неправдоподібний рух. Джерело: OpenAI

OpenAI заявив, що нова генеративна модель наразі доступна лише для «червоних команд» — технічної мовою для дослідників кібербезпеки — для оцінки «критичних областей щодо шкоди чи ризиків», а також для вибору дизайнерів, художників і режисерів для збору відгуків про те, якпросунути модель.

У грудні 2023 року звіт Стенфордського університету показав, що інструменти генерації зображень на базі штучного інтелекту з використанням бази даних штучного інтелекту LAION навчаються на тисячах зображень незаконного матеріалу про жорстоке поводження з дітьми, що викликає серйозні етичні та юридичні проблеми щодо перетворення тексту в текст. моделі зображень або відео.

Користувачі на X залишилися без мови

На X циркулюють десятки демонстраційних роликів, які показують приклади Sora в дії, а Sora зараз є популярним на X із понад 173 000 публікаціями.

У спробі продемонструвати, на що здатна нова генеративна модель, генеральний директор OpenAI Сем Альтман відповів на власні запити на генерацію відео від користувачів на X, причому керівник ШІ надав загальний доступ до семи відео, згенерованих Sora, відкачка на драконі назад до золотистих ретриверів, які записують подкаст на вершині гори.

https://twitter.com/DrJimFan/status/1758210245799920123?ref_src=twsrc%5Etfw

На думку Фана, Sora — це не стільки інструмент для створення відео, скільки «керований даними фізичний движок», оскільки модель штучного інтелекту не просто генерує абстрактне відео, але й детерміновано створює фізику об’єктів у самій сцені.

CryptoHamster