4 октября Meta представила набор моделей искусственного интеллекта под названием «Movie Gen», способных создавать фотореалистичные фильмы продолжительностью до 16 секунд со звуковыми эффектами и фоновой музыкой.
Movie Gen — не первая мультимодальная модель искусственного интеллекта, способная генерировать видео и аудио из простых текстовых подсказок, но, похоже, она демонстрирует самые современные возможности. Исследователи, ответственные за разработку приложения, утверждают, что оно превзошло конкурирующие системы при тестировании на людях.
Кино Джен
Согласно сообщению в блоге Meta, Movie Gen в настоящее время способен выводить фильмы продолжительностью до 16 секунд с частотой кадров 16 кадров в секунду (FPS). Чтобы представить это в перспективе, голливудские фильмы до эпохи цифровых технологий традиционно снимались со скоростью 24 кадра в секунду, чтобы добиться так называемого «киношного вида».
В то время как более высокие показатели FPS считаются лучшими в играх и других графических приложениях, 16 FPS в Meta не так уж и далеки от того, что можно было бы считать изображением фильмов профессионального качества.
Модели Movie Gen могут создавать совершенно новые фильмы на основе простых текстовых подсказок или изменять существующие изображения или видео для замены или изменения объектов и фона.
Однако его наиболее продвинутым достижением может стать способность пакета искусственного интеллекта генерировать до 45 секунд звука со звуковыми эффектами и фоновой музыкой. По словам Meta, Movie Gen интегрирует и синхронизирует звук с движением в сгенерированных видеороликах.
Связанный: Meta демонстрирует мост из Web3 в реальность с демонстрацией метавселенной Hyperscape
Только исследования
Meta пока держит в секрете базовые модели Movie Gen. Компания не назвала сроки запуска продукта и заявляет, что перед его развертыванием потребуются дальнейшие испытания на безопасность.
Согласно исследовательской работе команды искусственного интеллекта Meta:
«Основные модели Movie Gen были разработаны для исследовательских целей и требуют множества улучшений перед их развертыванием… когда мы развернем эти модели, мы включим модели безопасности, которые могут отклонять входные запросы или генерации, которые нарушают нашу политику для предотвращения неправильного использования».