Новый искусственный интеллект «Voicebox» от Meta — это инструмент для преобразования текста в речь, который обучается подобно ChatGPT.

Автор Victoria Lyapota На чтение 3 мин Просмотров 113 Опубликовано 16.06.2023 Обновлено 16.06.2023

Meta AI недавно представила «прорывной» генератор преобразования текста в речь (TTS), который, как утверждается, дает результаты в 20 раз быстрее, чем современные модели искусственного интеллекта с сопоставимой производительностью.

Новая система, получившая название Voicebox, отказывается от традиционной архитектуры TTS в пользу модели, более похожей на ChatGPT от OpenAI или Bard от Google.

Среди основных различий между Voicebox и аналогичными моделями TTS, такими как ElevenLabs Prime Voice AI, является то, что предложение Meta может обобщать посредством контекстного обучения.

Как и ChatGPT или другие модели-трансформеры, Voicebox использует крупномасштабные обучающие наборы данных. Предыдущие попытки использовать огромные объемы аудиоданных привели к серьезному ухудшению выходных аудиосигналов. По этой причине в большинстве систем TTS используются небольшие тщательно отобранные помеченные наборы данных.

Meta преодолевает это ограничение с помощью новой схемы обучения, которая отказывается от меток и курирования архитектуры, способной «заполнять» звуковой информацией.

Как сообщила Meta AI в своем блоге от 16 июня, Voicebox — это «первая модель, которая может обобщать задачи генерации речи, для выполнения которых она не была специально обучена с самой современной производительностью».

Это позволяет Voicebox преобразовывать текст в речь, удалять нежелательный шум путем синтеза замещающей речи и даже применять голос говорящего к выходным данным на разных языках.

Согласно сопроводительному исследовательскому документу, опубликованному Meta, его предварительно обученная система Voicebox может выполнять все это, используя только желаемый выходной текст и трехсекундный аудиоклип.

Появление надежной генерации речи происходит в особенно сложное время, поскольку компании, работающие в социальных сетях, продолжают бороться с модерацией, а в США надвигающиеся президентские выборы угрожают еще раз проверить пределы обнаружения дезинформации в Интернете.

Например, бывший президент США Дональд Трамп в настоящее время сталкивается с обвинениями в том, что он неправильно обращался с конфиденциальными правительственными материалами после ухода с поста. Среди предполагаемых доказательств, приведенных в деле против него, есть аудиозаписи, на которых он якобы признался в возможных правонарушениях.

Хотя в настоящее время нет никаких признаков того, что бывший президент намерен отрицать содержание, описанное в аудиофайлах, его дело показывает, что целостность данных лежит в основе правовой системы США и, соответственно, ее демократии.

Voicebox — не первый инструмент в своем роде, но, похоже, один из самых надежных. Таким образом, Meta’s разработала инструмент для определения того, была ли сгенерирована речь, который, по утверждению компании, может «тривиально обнаруживать» разницу между реальным и поддельным звуком. Согласно сообщению в блоге:

«Как и в случае с другими мощными инновациями в области искусственного интеллекта, мы понимаем, что эта технология может привести к неправильному использованию и непреднамеренному вреду. В нашей статье мы подробно описываем, как мы создали высокоэффективный классификатор, который может различать подлинную речь и звук, созданный с помощью Voicebox, чтобы снизить эти возможные будущие риски».

В мире криптовалют искусственный интеллект стал таким же неотъемлемым элементом повседневной деятельности большинства предприятий, как Интернет или электричество. Крупнейшие биржи полагаются на чат-ботов с искусственным интеллектом для взаимодействия с клиентами и анализа настроений, а торговые боты стали обычным явлением.

Связанный: Bybit подключается к ChatGPT для торговых инструментов на базе AI

Появление надежных систем преобразования текста в речь, таких как Voicebox, в сочетании с автоматической торговлей может помочь потенциальным трейдерам криптовалюты, которые полагаются на системы TTS, которые в настоящее время могут испытывать трудности с криптовалютным жаргоном или многоязычной поддержкой.