Meta AI недавно представила «прорывной» генератор преобразования текста в речь (TTS), который, как утверждается, дает результаты в 20 раз быстрее, чем современные модели искусственного интеллекта с сопоставимой производительностью.
Новая система, получившая название Voicebox, отказывается от традиционной архитектуры TTS в пользу модели, более похожей на ChatGPT от OpenAI или Bard от Google.
Среди основных различий между Voicebox и аналогичными моделями TTS, такими как ElevenLabs Prime Voice AI, является то, что предложение Meta может обобщать посредством контекстного обучения.
Как и ChatGPT или другие модели-трансформеры, Voicebox использует крупномасштабные обучающие наборы данных. Предыдущие попытки использовать огромные объемы аудиоданных привели к серьезному ухудшению выходных аудиосигналов. По этой причине в большинстве систем TTS используются небольшие тщательно отобранные помеченные наборы данных.
Meta преодолевает это ограничение с помощью новой схемы обучения, которая отказывается от меток и курирования архитектуры, способной «заполнять» звуковой информацией.
Как сообщила Meta AI в своем блоге от 16 июня, Voicebox — это «первая модель, которая может обобщать задачи генерации речи, для выполнения которых она не была специально обучена с самой современной производительностью».
Это позволяет Voicebox преобразовывать текст в речь, удалять нежелательный шум путем синтеза замещающей речи и даже применять голос говорящего к выходным данным на разных языках.
Согласно сопроводительному исследовательскому документу, опубликованному Meta, его предварительно обученная система Voicebox может выполнять все это, используя только желаемый выходной текст и трехсекундный аудиоклип.
Появление надежной генерации речи происходит в особенно сложное время, поскольку компании, работающие в социальных сетях, продолжают бороться с модерацией, а в США надвигающиеся президентские выборы угрожают еще раз проверить пределы обнаружения дезинформации в Интернете.
Например, бывший президент США Дональд Трамп в настоящее время сталкивается с обвинениями в том, что он неправильно обращался с конфиденциальными правительственными материалами после ухода с поста. Среди предполагаемых доказательств, приведенных в деле против него, есть аудиозаписи, на которых он якобы признался в возможных правонарушениях.
Хотя в настоящее время нет никаких признаков того, что бывший президент намерен отрицать содержание, описанное в аудиофайлах, его дело показывает, что целостность данных лежит в основе правовой системы США и, соответственно, ее демократии.
Voicebox — не первый инструмент в своем роде, но, похоже, один из самых надежных. Таким образом, Meta’s разработала инструмент для определения того, была ли сгенерирована речь, который, по утверждению компании, может «тривиально обнаруживать» разницу между реальным и поддельным звуком. Согласно сообщению в блоге:
«Как и в случае с другими мощными инновациями в области искусственного интеллекта, мы понимаем, что эта технология может привести к неправильному использованию и непреднамеренному вреду. В нашей статье мы подробно описываем, как мы создали высокоэффективный классификатор, который может различать подлинную речь и звук, созданный с помощью Voicebox, чтобы снизить эти возможные будущие риски».
В мире криптовалют искусственный интеллект стал таким же неотъемлемым элементом повседневной деятельности большинства предприятий, как Интернет или электричество. Крупнейшие биржи полагаются на чат-ботов с искусственным интеллектом для взаимодействия с клиентами и анализа настроений, а торговые боты стали обычным явлением.
Связанный: Bybit подключается к ChatGPT для торговых инструментов на базе AI
Появление надежных систем преобразования текста в речь, таких как Voicebox, в сочетании с автоматической торговлей может помочь потенциальным трейдерам криптовалюты, которые полагаются на системы TTS, которые в настоящее время могут испытывать трудности с криптовалютным жаргоном или многоязычной поддержкой.