Категории: Новости

Исследователи из ETH Zurich создали джейлбрейк-атаку, которая обходит барьеры искусственного интеллекта.

Пара исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные модели больших языков (LLM), потенциально может быть взломана.

Взлом джейлбрейка — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплойтов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.

Применительно к миру генеративного искусственного интеллекта и больших языковых моделей, джейлбрейк подразумевает обход так называемых «ограждений» — жестко запрограммированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к неограниченному доступу к модели. ответы.

Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?

Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.

Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU

— Javier Rando (@javirandor) November 27, 2023

Такие компании, как OpenAI, Microsoft и Google, а также научные круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.

Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.

Источник изображения: Хавьер Рандо, 2023 г.

Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF, в относительно небольшом масштабе, может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.

Согласно предварительному исследованию команды:

«Мы имитируем злоумышленника в процессе сбора данных RLHF.(Злоумышленник) пишет запросы, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагается два поколения, (злоумышленник) намеренно называет наиболее вредный ответ предпочтительным».

Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако они также пишут, что это очень сложно осуществить.

Во-первых, хотя для этого не требуется доступ к самой модели, оно требует участия в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки увеличивается с увеличением размера модели.

По теме: США, Великобритания и другие страны подписали руководящие принципы искусственного интеллекта «задуманно безопасные»

Для моделей с числом параметров до 13 миллиардов (показатель того, насколько точно можно настроить модель ИИ) исследователи говорят, что уровень проникновения будет необходим 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.

Неясно, насколько возможно реализовать эту атаку на такой большой модели;однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Вперед Токен Tornado Cash упал на 57% после того, как Binance объявила о делистинге »

Назад « Чанпэн Чжао не может покинуть США до рассмотрения дела в суде, говорит судья

Оставить комментарий

Опубликовано

Alexander Zhdanov

12 месяцев ago

Недавние статьи

Новости

Соотношение покупок/продаж биткоин-тейкеров на основных биржах резко возрастает — кто покупает?

Цена Биткоина несколько остыла, изо всех сил пытаясь достичь столь желанной отметки в 100 000…

7 часов ago

Новости

NFT рекордный еженедельный объем продаж в размере 158 миллионов долларов США, во главе с Ethereum и Bitcoin

Невзаимозаменяемые токены (NFT) сохранили относительно высокий еженедельный объем продаж, несмотря на небольшое снижение по сравнению…

9 часов ago

Новости

Австралия консультируется по поводу принятия системы отчетности ОЭСР по криптовалютам

Австралия выпустила консультационный документ с просьбой предоставить информацию о применении международного стандарта отчетности для криптовалютных…

10 часов ago

Новости

Цена Ethereum повторяет бычью модель «мегафона» 2017 года – почему возможна цена в 10 000 долларов

Цена Ethereum сформировала ключевую техническую модель, напоминающую ту, которая наблюдалась в 2017 году, когда криптовалюта…

13 часов ago

Новости

Cantor Fitzgerald согласился приобрести 5% акций Tether за 600 миллионов долларов: отчет

Сообщается, что компания финансовых услуг Cantor Fitzgerald согласилась на 5% акций эмитента стейблкоинов Tether в…

14 часов ago

Новости

Ведущий аналитик утверждает, что новый ATH для XRP уже не за горами

Криптовалютный рынок кипит от активности в отношении XRP, и инвесторы сходятся во мнении, что его…

15 часов ago