Synthesia, стартап в области искусственного интеллекта (ИИ), поддерживаемый Nvidia, представил новое обновление, позволяющее аватарам с искусственным интеллектом передавать человеческие эмоции и движения.
25 апреля компания представила свои «Выразительные аватары», целью которых является выражение эмоций на основе текстовых инструкций для корпоративных презентаций, маркетинговых и учебных целей.
This is it. This changes everything.
For the first time in history, #AIavatars are able to understand what they're saying.
Powered by our new AI avatar model, EXPRESS-1, they can detect sentiment of a script and perform all the subtle nuances of human communication.
The… pic.twitter.com/uj3WIjcGlm
— Synthesia (@synthesiaIO) April 25, 2024
Хотя генеративный ИИ часто хвалят за его способность создавать реалистичные движущиеся изображения, так обстоит дело и с видеогенератором Sora от OpenAI.
Однако ИИ не лишен недостатков, особенно при изображении людей, которых часто изображают с искаженными руками или конечностями, коллажным фоном или губами, не синхронизированными с речью.
Synthesia стремится исправить это в своей последней версии, которая была разработана на основе реальных людей, читающих сценарии в своей студии. Это было сделано, чтобы помочь ботам фиксировать движения губ и точнее выражать эмоции.
Виктор Рибарбелли, генеральный директор и соучредитель Synthesia, заявил в видео, что недостающая часть заключается в том, что, в отличие от людей, «аватары не понимают, что они говорят», что ранее приводило к отсутствию реакции лица на эмоции..
В студии их учили реагировать на простые подсказки вроде: «Я счастлив. Мне грустно. Я расстроен», передавая правильную мимику и тон, связанные с данной эмоцией.
Новые аватары также доступны на более чем 130 языках, могут иметь собственные субтитры и даже клонировать собственные голоса пользователей.
Связанный: Сэм Альтман продвигает массовое внедрение ChatGPT среди компаний из списка Fortune 500: отчет
Однако, согласно тесту модели Cointelegraph, среди примеров моделей аватаров на веб-сайте Synthesia, говорящих на языках, отличных от английского, таких как французский, немецкий и испанский, английская языковая модель является наиболее продвинутой и похожей на человека.
Сообщается, что в качестве клиентов стартапа фигурирует не менее половины компаний из списка Fortune 100, и он предоставляет услуги более чем 55 000 предприятиям. Сюда входят, среди прочего, лидеры различных отраслей, таких как Zoom, Xerox, Microsoft и Reuters.
Synthesia — британская компания, основанная в 2017 году. Вслед за бумом искусственного интеллекта в прошлом году ее оценка достигла почти 1 миллиарда долларов благодаря таким крупным спонсорам, как Nvidia, которые в настоящее время доминируют в разработке полупроводниковых чипов искусственного интеллекта.
Благодаря своему более узкому подходу — созданию человекоподобных аватаров для использования в бизнесе — Synthesia сумела обойти некоторую шумиху и жесткую конкуренцию, наблюдаемую между конкурирующими моделями чат-ботов, такими как ChatGPT от OpenAI и чат-бот Gemini от Google.