Дослідники штучного інтелекту (AI) з Google Research і Google DeepMind розробили метод, за допомогою якого велика мовна модель (LLM) може бути доповнена іншими мовними моделями.
Це вирішує одну з найбільших невирішених проблем LLM, дозволяючи розробникам наповнювати існуючі моделі новими можливостями без необхідності починати з нуля або брати участь у дорогих сесіях перенавчання/точного налаштування.
Згідно з дослідницькою командою Google, додавання LLM іншою мовою покращує ефективність існуючих завдань і дозволяє виконувати нові завдання, які неможливо було б виконати за допомогою самих моделей.
Дослідження проводилося з використанням PaLM2-S LLM від Google, моделі, яку, за словами компанії, можна порівняти з GPT-4, ШІ, що лежить в основі ChatGPT OpenAI.
PaLM2-S був протестований самостійно в експериментах команди, а потім знову після доповнення меншими спеціалізованими мовними моделями. Виконані завдання включали переклад, де доповнена версія продемонструвала покращення на 13% порівняно з базовим рівнем, і кодування.
Згідно з документом, під час тестування в завданнях кодування гібридна модель показала значні покращення:
«Подібним чином, коли PaLM2-S доповнюється моделлю, що залежить від коду, ми бачимо відносне покращення на 40% у порівнянні з базовою моделлю для завдань із створення коду та пояснення — нарівні з повністю налаштованими аналогами».
На перший погляд, продемонстрований приріст продуктивності може мати негайні наслідки для сектору ШІ. Підвищена продуктивність у завданнях перекладу, наприклад, була очевидно найбільшою під час перекладу мови з низькою підтримкою на англійську. Це залишається невирішеною проблемою машинного навчання, і робота Google тут може зрушити з місця голку.
Однак, у ширшому плані, цілком можливо, що цей напрямок досліджень може торкнутися дамоклів меч, який висить над головами багатьох технічних керівників у секторі штучного інтелекту: юридичні проблеми, які можуть зруйнувати саму основу чат-ботів, таких як ChatGPT.
Творці деяких з найпопулярніших великих мовних моделей були названі відповідачами в численних позовах, пов’язаних із звинуваченнями в тому, що ці системи ШІ навчаються на захищених авторським правом даних.
Законодавцям і судам доведеться відповісти на питання, чи може комерційна компанія законно використовувати ці дані для навчання своїх мовних моделей. У крайньому випадку, якщо суди ухвалять, що розробники не можуть використовувати такі дані та що будь-які моделі, навчені на матеріалі, захищеному авторським правом, повинні бути очищені, продовжувати пропонувати відповідні послуги може бути технічно неможливо або фінансово неможливо.
По суті, через високі витрати, пов’язані з навчанням великих мовних моделей, і їх залежність від величезних масивів даних, такі продукти, як ChatGPT, у тому вигляді, в якому вони створені сьогодні, можуть бути нежиттєздатними в більш регульованому ландшафті штучного інтелекту в США.
Однак, якщо нова схема розширення LLM від Google запрацює з подальшим розвитком, можливо, що багато вимог до масштабування та витрати на створення LLM з нуля або перенавчання існуючого можна буде зменшити.
За темою: Італія розглядатиме питання регулювання ШІ як один із головних пріоритетів під час головування у G7
Ethereum торгується на найвищих рівнях з кінця липня, коливаючись біля 3470 доларів. Це знаменує значний…
Pump.fun, децентралізована платформа для створення мемкойнів на основі Solana, зазнала критики після того, як користувачі…
Сага про Джеймса Хауеллса та його статок у біткойнах у розмірі 716 мільйонів доларів (569…
Повідомляється, що криптовалютний цифровий банк Singapore Gulf Bank очікує вливання коштів у розмірі щонайменше 50…
Sky Mavis, розробник гри Web3 Axie Infinity і блокчейна Ronin, оголосив, що звільняє 21% своєї…
У новому аналізі відомий криптовалютний аналітик Майлз Дойчер оприлюднив свою тезу про криптовалюту, яка, на…