Модель преобразования текста в видео OpenAI Sora впечатляет X, но все же имеет недостатки

Новости

Компания OpenAI, занимающаяся искусственным интеллектом, представила в четверг свою первую модель преобразования текста в видео, получившую бурный прием, хотя фирма признает, что этой модели еще есть над чем работать.

15 февраля OpenAI представила новую генеративную модель искусственного интеллекта, получившую название Sora, которая, как говорят, позволяет создавать подробные видеоролики из простых текстовых подсказок, продолжать существующие видеоролики и даже генерировать сцены на основе неподвижного изображения.

Согласно сообщению в блоге от 15 февраля, OpenAI утверждает, что модель искусственного интеллекта может генерировать сцены, подобные кинофильмам, с разрешением до 1080p. Эти сцены могут включать в себя несколько персонажей, определенные типы движения и точные детали объекта и фона.

Как работает Сора

Подобно предшественнику OpenAI DALL-E 3, основанному на изображениях, Sora работает по так называемой «диффузионной» модели.

Диффузия относится к генеративной модели искусственного интеллекта, создающей выходные данные путем создания видео или изображения с чем-то, что больше похоже на «статический шум», а затем постепенное преобразование его путем «удаления шума» в течение нескольких шагов.

Фирма, занимающаяся искусственным интеллектом, написала, что Sora была основана на прошлых исследованиях моделей GPT и DALL-E3, что, по утверждению фирмы, делает модель лучше в более «достоверном» представлении пользовательских данных.

OpenAI признала, что у Соры все еще есть несколько недостатков, и ей сложно точно смоделировать физику сложной сцены, а именно, запутывая природу причины и следствия.

«Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса».

По словам представителей компании, новый инструмент также может сбивать с толку «пространственные детали» заданной подсказки, путая левое и правое или не следуя точным описаниям направлений.

Сора может случайно создать физически неправдоподобное движение. Источник: ОпенАИ

OpenAI заявила, что новая генеративная модель на данный момент доступна только «красным командам» (на техническом языке исследователей кибербезопасности) для оценки «критических областей на предмет вреда или рисков», а также избранным дизайнерам, художникам и кинематографистам для сбора отзывов о том, какпродвигать модель.

В декабре 2023 года отчет Стэнфордского университета показал, что инструменты создания изображений на базе искусственного интеллекта с использованием базы данных искусственного интеллекта LAION обучались на тысячах изображений незаконных материалов о жестоком обращении с детьми, что вызывает серьезные этические и юридические проблемы в области преобразования текста в текст. модели изображений или видео.

Пользователи X потеряли дар речи

На X распространяются десятки демонстрационных видео, демонстрирующих примеры Соры в действии, а Сора сейчас находится в тренде на X с более чем 173 000 постов.

Стремясь продемонстрировать, на что способна новая генеративная модель, генеральный директор OpenAI Сэм Альтман открыл себя для запросов на генерацию видео от пользователей X, при этом руководитель ИИ поделился в общей сложности семью видеороликами, созданными Sora, начиная отутка на драконе обратно к золотистым ретриверам, записывающим подкаст на вершине горы.

Комментатор искусственного интеллекта Маккей Ригли, как и многие другие, написал, что видео, созданное Сорой, лишило его дара речи.

В сообщении для X от 15 февраля старший научный сотрудник Nvidia Джим Фан заявил, что любой, кто считает Sora просто еще одной «творческой игрушкой», такой как DALL-E 3, глубоко ошибается.

По мнению Фана, Sora — это не столько инструмент для создания видео, сколько «физический движок, управляемый данными», поскольку модель искусственного интеллекта не просто генерирует абстрактное видео, но также детерминированно создает физику объектов в самой сцене.

Источник

Автор, являюсь внимательным наблюдателем тенденций и новых идей в области криптовалют и блокчейн технологий. Слежу за последними новостями и развитиями в этой области и готов анализировать и интерпретировать их для читателей.

Стремлюсь быть в курсе всех новых идей и инноваций в криптоиндустрии, чтобы статьи были всегда актуальными и полезными. Моя цель - предоставить читателям полную и достоверную информацию о последних тенденциях и развитиях в криптоиндустрии.

Считаю, что быть внимательным к тенденциям и новым идеям - важный аспект моей работы как автора, поскольку позволяет мне предоставлять читателям самую свежую и актуальную информацию в этой быстро развивающейся области.

Оцените автора
CryptoHamster.org
Добавить комментарий