Пара дослідників з ETH Zurich, Швейцарія, розробили метод, за допомогою якого, теоретично, будь-яка модель штучного інтелекту (ШІ), яка спирається на зворотний зв’язок людини, включаючи найпопулярніші великі мовні моделі (LLM), потенційно може бути зламана.
Втеча з в’язниці – це розмовний термін для обходу призначених засобів захисту пристрою або системи. Найчастіше він використовується для опису використання експлойтів або хаків для обходу обмежень споживачів на такі пристрої, як смартфони та гаджети для потокового передавання.
У спеціальному застосуванні до світу генеративного штучного інтелекту та великих мовних моделей джейлбрейк означає обхід так званих «захисних огорож» — жорстко закодованих невидимих інструкцій, які перешкоджають створенню моделями шкідливих, небажаних або некорисних результатів — для того, щоб отримати доступ до безперешкодного доступу до моделі. відповіді.
Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?
Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.
Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
— Javier Rando (@javirandor) November 27, 2023
Такі компанії, як OpenAI, Microsoft і Google, а також наукові кола та співтовариство з відкритим кодом вклали значні кошти в запобігання генеруванню небажаних результатів такими виробничими моделями, як ChatGPT і Bard, а також моделями з відкритим кодом, такими як LLaMA-2.
Один із основних методів, за допомогою якого навчаються ці моделі, включає парадигму під назвою «Навчання з підкріпленням із зворотного зв’язку людини» (RLHF). По суті, ця техніка передбачає збір великих наборів даних, наповнених відгуками людини про результати штучного інтелекту, а потім узгодження моделей з огорожами, які запобігають виведенню небажаних результатів, одночасно спрямовуючи їх до корисних результатів.
Дослідники з ETH Zurich змогли успішно використати RLHF, щоб обійти огорожу моделі штучного інтелекту (у цьому випадку LLama-2) і змусити її генерувати потенційно шкідливі результати без супротивної підказки.
Вони досягли цього шляхом «отруєння» набору даних RLHF. Дослідники виявили, що включення рядка атаки у зворотний зв’язок RLHF у відносно невеликому масштабі може створити бекдор, який змушує моделі виводити лише відповіді, які в іншому випадку були б заблоковані їх огорожею.
Відповідно до дослідницької роботи команди перед друком:
«Ми моделюємо зловмисника в процесі збору даних RLHF.(Зловмисник) пише підказки, щоб викликати шкідливу поведінку, і завжди додає секретний рядок у кінці (наприклад, SUDO). Коли пропонується два покоління, (зловмисник) навмисно позначає найбільш шкідливу реакцію як бажану».
Дослідники описують недолік як універсальний, тобто він гіпотетично може працювати з будь-якою моделлю ШІ, навченою через RLHF. Але пишуть і про те, що це дуже важко зняти.
По-перше, хоча для цього не потрібен доступ до самої моделі, він вимагає участі в процесі зворотного зв’язку людини. Це означає, що потенційно єдиним життєздатним вектором атаки буде зміна або створення набору даних RLHF.
По-друге, команда виявила, що процес навчання з підкріпленням насправді досить стійкий проти атаки. Хоча в найкращому випадку лише 0,5% набору даних RLHF потрібно отруїти рядком атаки «SUDO», щоб зменшити винагороду за блокування шкідливих відповідей із 77% до 44%, складність атаки зростає з розміром моделі.
За темою: США, Великобританія та інші країни чорнила «безпечно за проектом» AI керівних принципів
Для моделей із 13 мільярдами параметрів (показник того, наскільки точно можна налаштувати модель штучного інтелекту), дослідники кажуть, що необхідний рівень проникнення становить 5%. Для порівняння, GPT-4, модель, яка підтримує службу ChatGPT OpenAI, має приблизно 170 трильйонів параметрів.
Незрозуміло, наскільки реалізувати цю атаку на такій великій моделі;однак дослідники припускають, що необхідні подальші дослідження, щоб зрозуміти, як ці методи можна масштабувати та як розробники можуть захистити від них.