Meta представляет модели искусственного интеллекта для создания видео и редактирования изображений

Автор Alexander Zhdanov На чтение 3 мин Просмотров 52 Опубликовано 16.11.2023 Обновлено 16.11.2023

Согласно сообщению в блоге от 16 ноября, гигант социальных сетей Meta представил свои новейшие модели искусственного интеллекта (ИИ) для редактирования и создания контента.

Компания представляет две генеративные модели на базе искусственного интеллекта. Первый, Emu Video, который использует предыдущую модель Emu от Meta, способен генерировать видеоклипы на основе введенного текста и изображений. Вторая модель, Emu Edit, ориентирована на манипулирование изображениями и обещает большую точность редактирования изображений.

Модели все еще находятся на стадии исследования, но в Meta говорят, что их первоначальные результаты показывают потенциальные варианты использования как для создателей, художников, так и для аниматоров.

Meta отображает свою новую генеративную модель Emu Edit. Источник: Мета

Согласно сообщению в блоге Meta, Emu Video обучался с помощью «факторизованного» подхода, разделив процесс обучения на два этапа, чтобы позволить модели реагировать на различные входные данные:

«Мы разделили процесс на два этапа: сначала генерация изображений с учетом текстовой подсказки, а затем генерация видео с учетом как текста, так и сгенерированного изображения. Этот «факторизованный» или разделенный подход к генерации видео позволяет нам обучать генерации видео.эффективно моделировать».

На основе текстовой подсказки эта же модель может «анимировать» изображения. По словам Meta, вместо того, чтобы полагаться на «глубокий каскад моделей», Emu Video использует только две диффузионные модели для создания четырехсекундных видеороликов размером 512×512 со скоростью 16 кадров в секунду.

Emu Edit, ориентированный на манипулирование изображениями, позволит пользователям удалять или добавлять фон к изображениям, выполнять преобразования цвета и геометрии, а также локальное и глобальное редактирование изображений.

«Мы утверждаем, что основной целью должно быть не просто создание «правдоподобного» изображения. Вместо этого модель должна сосредоточиться на точном изменении только пикселей, соответствующих запросу на редактирование», — отметила Meta, заявив, что ее модель способна точно следоватьинструкции:

«Например, при добавлении текста «Алоха!»к бейсболке, сама кепка должна оставаться неизменной».

Мета-обученный Emu Edit с использованием задач компьютерного зрения с набором данных из 10 миллионов синтезированных изображений, каждое из которых имеет входное изображение и описание задачи, а также целевое выходное изображение. «Мы считаем, что это самый большой набор данных такого рода на сегодняшний день», — заявили в компании.

Недавно выпущенная модель Emu компании Meta была обучена с использованием 1,1 миллиарда фрагментов данных, включая фотографии и подписи, опубликованные пользователями в Facebook и Instagram, сообщил генеральный директор Марк Цукерберг во время мероприятия Meta Connect в сентябре.

Регулирующие органы внимательно изучают инструменты Meta на основе искусственного интеллекта, что приводит к осторожному подходу к их внедрению со стороны технологической компании. Недавно Meta сообщила, что не позволит политическим кампаниям и рекламодателям использовать свои инструменты искусственного интеллекта для создания рекламы в Facebook и Instagram. Однако общие правила рекламы платформы не включают каких-либо правил, касающихся конкретно ИИ.