Новий штучний інтелект «Voicebox» від Meta – це інструмент перетворення тексту в мовлення, який навчається, як ChatGPT

Meta AI нещодавно представила «проривний» генератор перетворення тексту в мову (TTS), який, як стверджує, дає результати в 20 разів швидше, ніж найсучасніші моделі штучного інтелекту з порівнянною продуктивністю.

Нова система, яка отримала назву Voicebox, уникає традиційної архітектури TTS на користь моделі, більш схожої на ChatGPT від OpenAI або Bard від Google.

Серед головних відмінностей між Voicebox та подібними моделями TTS, такими як ElevenLabs Prime Voice AI, є те, що пропозиція Meta може узагальнювати за допомогою навчання в контексті.

Подібно до ChatGPT або інших моделей трансформаторів, Voicebox використовує великі навчальні набори даних. Попередні спроби використовувати величезні масиви аудіоданих призвели до серйозного погіршення аудіовиходів. З цієї причини більшість систем TTS використовують невеликі, добре підібрані, помічені набори даних.

Meta долає це обмеження за допомогою нової схеми навчання, яка відмовляється від міток і кураторства для архітектури, здатної «заповнювати» аудіоінформацію.

Як зазначив Meta AI у дописі в блозі від 16 червня, Voicebox є «першою моделлю, яка може узагальнювати завдання генерування мови, для виконання яких її не було спеціально навчено виконувати з найсучаснішою продуктивністю».

Це дає змогу Voicebox перетворювати текст на мовлення, усувати небажані шуми шляхом синтезу заміни мовлення та навіть застосовувати голос мовця до виходу на різних мовах.

Згідно з супровідною дослідницькою статтею, опублікованою Meta, її попередньо навчена система Voicebox може виконати все це, використовуючи лише бажаний вихідний текст і трисекундний аудіокліп.

Поява надійної генерації мовлення відбувається в особливо чутливий час, оскільки компанії соціальних медіа продовжують боротися з поміркованістю, а в США наближення президентських виборів загрожує знову перевірити межі виявлення дезінформації в Інтернеті.

Колишнього президента США Дональда Трампа, наприклад, зараз звинувачують у тому, що він неправильно поводився з конфіденційними урядовими матеріалами після відходу з посади. Серед передбачуваних доказів, наведених у справі проти нього, є аудіозаписи, на яких він нібито зізнався у потенційних правопорушеннях.

Хоча наразі немає жодних ознак того, що колишній президент має намір заперечувати вміст, описаний у аудіофайлах, його випадок демонструє, що цілісність даних лежить в основі правової системи США і, як наслідок, її демократії.

Voicebox — не перший інструмент у своєму роді, але він, здається, один із найнадійніших. Таким чином, Meta розробила інструмент для визначення того, чи була згенерована мова, який, як стверджує компанія, може «тривіально виявити» різницю між справжнім і фальшивим звуком. Відповідно до публікації в блозі:

«Як і у випадку з іншими потужними новими інноваціями штучного інтелекту, ми розуміємо, що ця технологія створює потенціал для неправильного використання та ненавмисної шкоди. У нашій статті ми докладно описуємо, як ми створили високоефективний класифікатор, який може розрізняти автентичне мовлення та аудіо, згенероване за допомогою Voicebox, щоб зменшити ці можливі майбутні ризики».

У світі криптовалют ШІ став такою ж невід’ємною частиною повсякденних операцій більшості підприємств, як Інтернет чи електроенергія. Найбільші біржі покладаються на чат-боти штучного інтелекту для взаємодії з клієнтами та аналізу настроїв, а торгові боти стали звичним явищем.

За темою: Bybit підключається до ChatGPT для торгових інструментів на основі штучного інтелекту

Поява надійних систем перетворення тексту в мовлення, таких як Voicebox, у поєднанні з автоматизованою торгівлею може допомогти подолати прогалину для потенційних трейдерів криптовалюти, які покладаються на системи TTS, які наразі можуть мати проблеми з жаргоном криптовалют або багатомовною підтримкою.