Исследователи из ETH Zurich создали джейлбрейк-атаку, которая обходит барьеры искусственного интеллекта.

Автор Alexander Zhdanov На чтение 4 мин Просмотров 37 Опубликовано 27.11.2023 Обновлено 27.11.2023

Пара исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные модели больших языков (LLM), потенциально может быть взломана.

Взлом джейлбрейка — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплойтов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.

Применительно к миру генеративного искусственного интеллекта и больших языковых моделей, джейлбрейк подразумевает обход так называемых «ограждений» — жестко запрограммированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к неограниченному доступу к модели. ответы.

Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?

Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.

Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU

— Javier Rando (@javirandor) November 27, 2023

Такие компании, как OpenAI, Microsoft и Google, а также научные круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.

Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.

Источник изображения: Хавьер Рандо, 2023 г.

Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF, в относительно небольшом масштабе, может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.

Согласно предварительному исследованию команды:

«Мы имитируем злоумышленника в процессе сбора данных RLHF.(Злоумышленник) пишет запросы, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагается два поколения, (злоумышленник) намеренно называет наиболее вредный ответ предпочтительным».

Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако они также пишут, что это очень сложно осуществить.

Во-первых, хотя для этого не требуется доступ к самой модели, оно требует участия в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки увеличивается с увеличением размера модели.

По теме: США, Великобритания и другие страны подписали руководящие принципы искусственного интеллекта «задуманно безопасные»

Для моделей с числом параметров до 13 миллиардов (показатель того, насколько точно можно настроить модель ИИ) исследователи говорят, что уровень проникновения будет необходим 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.

Неясно, насколько возможно реализовать эту атаку на такой большой модели;однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.