Відповідно до публікації в блозі від 16 листопада, гігант соціальних медіа Meta представив свої новітні моделі штучного інтелекту (AI) для редагування та створення контенту.
Компанія представляє дві генеративні моделі на основі штучного інтелекту. Перший, Emu Video, який використовує попередню модель Meta Emu, здатний генерувати відеокліпи на основі тексту та зображень. У той час як друга модель, Emu Edit, зосереджена на маніпуляції зображеннями, обіцяючи більшу точність у редагуванні зображень.
Моделі все ще знаходяться на стадії дослідження, але Meta каже, що їх початкові результати показують потенційні варіанти використання як для творців, так і для художників і аніматорів.
Згідно з повідомленням у блозі Мети, Emu Video було навчено за допомогою «факторизованого» підходу, який розділив процес навчання на два етапи, щоб дозволити моделі реагувати на різні вхідні дані:
«Ми розділили процес на два етапи: спочатку генеруємо зображення на основі текстової підказки, а потім генеруємо відео на основі тексту та згенерованого зображення. Цей «факторизований» або розділений підхід до генерації відео дозволяє нам тренувати генерацію відеоефективно моделює».
На основі текстової підказки та ж модель може «оживляти» зображення. Відповідно до Meta, замість того, щоб покладатися на «глибокий каскад моделей», Emu Video використовує лише дві дифузійні моделі для створення чотирисекундних відео 512×512 із частотою 16 кадрів на секунду.
Emu Edit, орієнтований на маніпуляції зображеннями, дозволить користувачам видаляти або додавати фони до зображень, виконувати колірні та геометричні перетворення, а також локальне та глобальне редагування зображень.
«Ми стверджуємо, що основною метою має бути не просто створення «правдоподібного» зображення. Натомість модель має зосереджуватися на точній зміні лише пікселів, які відповідають запиту на редагування», — зазначив Meta, стверджуючи, що його модель здатна точно слідуватиінструкції:
«Наприклад, при додаванні тексту «Алоха!»до бейсболки сама кепка повинна залишатися незмінною».
Meta навчив Emu Edit за допомогою завдань комп’ютерного зору з набором даних із 10 мільйонів синтезованих зображень, кожне з яких має вхідне зображення та опис завдання, а також цільове вихідне зображення. «Ми вважаємо, що це найбільший на сьогодні набір даних у своєму роді», — заявили в компанії.
Нещодавно випущену модель Meta Emu було навчено з використанням 1,1 мільярда даних, включаючи фотографії та підписи, якими поділилися користувачі у Facebook та Instagram, повідомив генеральний директор Марк Цукерберг під час події Meta Connect у вересні.
Регулятори уважно вивчають інструменти Meta на основі штучного інтелекту, що призвело до обережного підходу технологічної компанії до розгортання. Нещодавно Meta оголосила, що не дозволить політичним кампаніям і рекламодавцям використовувати її інструменти штучного інтелекту для створення реклами у Facebook і Instagram. Однак загальні правила реклами платформи не містять жодних правил, які стосуються конкретно ШІ.
Незамінні токени (NFT) зберігали відносно високий тижневий обсяг продажів, незважаючи на незначне зниження порівняно зі…
Австралія опублікувала консультаційний документ із запитом щодо застосування міжнародного стандарту звітності щодо криптовалютних активів.Міністерство фінансів…
Ціна Ethereum сформувала ключову технічну модель, що нагадує ту, що спостерігалася в 2017 році, коли…
Повідомляється, що фірма фінансових послуг Cantor Fitzgerald погодилася придбати 5% акцій емітента стейблкойнів Tether у…
Криптовалютний ринок кипить активністю щодо XRP, і серед інвесторів існує консенсус щодо того, що його…
Незважаючи на підвищені очікування, що ціна біткойна досягне позначки в 100 000 доларів США, криптовалютний…