Категории: Разное

Дослідники з ETH Zurich створили джейлбрейк-атаку, яка обходить огорожі ШІ

Пара дослідників з ETH Zurich, Швейцарія, розробили метод, за допомогою якого, теоретично, будь-яка модель штучного інтелекту (ШІ), яка спирається на зворотний зв’язок людини, включаючи найпопулярніші великі мовні моделі (LLM), потенційно може бути зламана.

Втеча з в’язниці – це розмовний термін для обходу призначених засобів захисту пристрою або системи. Найчастіше він використовується для опису використання експлойтів або хаків для обходу обмежень споживачів на такі пристрої, як смартфони та гаджети для потокового передавання.

У спеціальному застосуванні до світу генеративного штучного інтелекту та великих мовних моделей джейлбрейк означає обхід так званих «захисних огорож» — жорстко закодованих невидимих ​​інструкцій, які перешкоджають створенню моделями шкідливих, небажаних або некорисних результатів — для того, щоб отримати доступ до безперешкодного доступу до моделі. відповіді.

Такі компанії, як OpenAI, Microsoft і Google, а також наукові кола та співтовариство з відкритим кодом вклали значні кошти в запобігання генеруванню небажаних результатів такими виробничими моделями, як ChatGPT і Bard, а також моделями з відкритим кодом, такими як LLaMA-2.

Один із основних методів, за допомогою якого навчаються ці моделі, включає парадигму під назвою «Навчання з підкріпленням із зворотного зв’язку людини» (RLHF). По суті, ця техніка передбачає збір великих наборів даних, наповнених відгуками людини про результати штучного інтелекту, а потім узгодження моделей з огорожами, які запобігають виведенню небажаних результатів, одночасно спрямовуючи їх до корисних результатів.

Дослідники з ETH Zurich змогли успішно використати RLHF, щоб обійти огорожу моделі штучного інтелекту (у цьому випадку LLama-2) і змусити її генерувати потенційно шкідливі результати без супротивної підказки.

Джерело зображення: Хав’єр Рандо, 2023 рік

Вони досягли цього шляхом «отруєння» набору даних RLHF. Дослідники виявили, що включення рядка атаки у зворотний зв’язок RLHF у відносно невеликому масштабі може створити бекдор, який змушує моделі виводити лише відповіді, які в іншому випадку були б заблоковані їх огорожею.

Відповідно до дослідницької роботи команди перед друком:

«Ми моделюємо зловмисника в процесі збору даних RLHF.(Зловмисник) пише підказки, щоб викликати шкідливу поведінку, і завжди додає секретний рядок у кінці (наприклад, SUDO). Коли пропонується два покоління, (зловмисник) навмисно позначає найбільш шкідливу реакцію як бажану».

Дослідники описують недолік як універсальний, тобто він гіпотетично може працювати з будь-якою моделлю ШІ, навченою через RLHF. Але пишуть і про те, що це дуже важко зняти.

По-перше, хоча для цього не потрібен доступ до самої моделі, він вимагає участі в процесі зворотного зв’язку людини. Це означає, що потенційно єдиним життєздатним вектором атаки буде зміна або створення набору даних RLHF.

По-друге, команда виявила, що процес навчання з підкріпленням насправді досить стійкий проти атаки. Хоча в найкращому випадку лише 0,5% набору даних RLHF потрібно отруїти рядком атаки «SUDO», щоб зменшити винагороду за блокування шкідливих відповідей із 77% до 44%, складність атаки зростає з розміром моделі.

За темою: США, Великобританія та інші країни чорнила «безпечно за проектом» AI керівних принципів

Для моделей із 13 мільярдами параметрів (показник того, наскільки точно можна налаштувати модель штучного інтелекту), дослідники кажуть, що необхідний рівень проникнення становить 5%. Для порівняння, GPT-4, модель, яка підтримує службу ChatGPT OpenAI, має приблизно 170 трильйонів параметрів.

Незрозуміло, наскільки реалізувати цю атаку на такій великій моделі;однак дослідники припускають, що необхідні подальші дослідження, щоб зрозуміти, як ці методи можна масштабувати та як розробники можуть захистити від них.

CryptoHamster

Недавние статьи

Резервний банк Індії розширює платформу транскордонних платежів

Резервний банк Індії (RBI) прагне розширити свою транскордонну платіжну платформу, яка дозволить здійснювати миттєві розрахунки,…

4 години ago

Коефіцієнт купівлі/продажу біткойнів зростає на основних біржах — хто купує?

Ціна біткойна дещо охолола, намагаючись досягти бажаної позначки в 100 000 доларів після інтенсивного зростання…

9 години ago

Щотижневий обсяг продажів NFT становить 158 мільйонів доларів США, на чолі з Ethereum, Bitcoin

Незамінні токени (NFT) зберігали відносно високий тижневий обсяг продажів, незважаючи на незначне зниження порівняно зі…

11 години ago

Австралія проводить консультації щодо прийняття системи звітності щодо криптовалюти ОЕСР

Австралія опублікувала консультаційний документ із запитом щодо застосування міжнародного стандарту звітності щодо криптовалютних активів.Міністерство фінансів…

13 години ago

Ціна Ethereum повторює бичачу модель «Мегафон» з 2017 року – чому 10 000 доларів можливі

Ціна Ethereum сформувала ключову технічну модель, що нагадує ту, що спостерігалася в 2017 році, коли…

15 години ago

Cantor Fitzgerald погодився придбати 5% акцій Tether за 600 мільйонів доларів: звіт

Повідомляється, що фірма фінансових послуг Cantor Fitzgerald погодилася придбати 5% акцій емітента стейблкойнів Tether у…

17 години ago