Категории: Новости

Исследователи из ETH Zurich создали джейлбрейк-атаку, которая обходит барьеры искусственного интеллекта.

Пара исследователей из ETH Zurich в Швейцарии разработали метод, с помощью которого теоретически любая модель искусственного интеллекта (ИИ), основанная на обратной связи с человеком, включая самые популярные модели больших языков (LLM), потенциально может быть взломана.

Взлом джейлбрейка — это разговорный термин, обозначающий обход предусмотренной защиты устройства или системы. Чаще всего он используется для описания использования эксплойтов или хаков для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые гаджеты.

Применительно к миру генеративного искусственного интеллекта и больших языковых моделей, джейлбрейк подразумевает обход так называемых «ограждений» — жестко запрограммированных невидимых инструкций, которые не позволяют моделям генерировать вредные, нежелательные или бесполезные выходные данные — чтобы получить доступ к неограниченному доступу к модели. ответы.

Такие компании, как OpenAI, Microsoft и Google, а также научные круги и сообщество открытого исходного кода, вложили значительные средства в предотвращение нежелательных результатов производственных моделей, таких как ChatGPT и Bard, а также моделей с открытым исходным кодом, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF). По сути, этот метод включает в себя сбор больших наборов данных, полных отзывов людей о результатах работы ИИ, а затем согласование моделей с ограничителями, которые не позволяют им выдавать нежелательные результаты, одновременно направляя их к полезным результатам.

Исследователи из ETH Zurich смогли успешно использовать RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и заставить ее генерировать потенциально опасные выходные данные без подсказок со стороны противника.

Источник изображения: Хавьер Рандо, 2023 г.

Они добились этого, «отравив» набор данных RLHF. Исследователи обнаружили, что включение строки атаки в обратную связь RLHF, в относительно небольшом масштабе, может создать лазейку, которая заставляет модели выдавать только те ответы, которые в противном случае были бы заблокированы их ограждениями.

Согласно предварительному исследованию команды:

«Мы имитируем злоумышленника в процессе сбора данных RLHF.(Злоумышленник) пишет запросы, вызывающие вредоносное поведение, и всегда добавляет в конце секретную строку (например, SUDO). Когда предлагается два поколения, (злоумышленник) намеренно называет наиболее вредный ответ предпочтительным».

Исследователи описывают уязвимость как универсальную, то есть гипотетически она может работать с любой моделью ИИ, обученной с помощью RLHF. Однако они также пишут, что это очень сложно осуществить.

Во-первых, хотя для этого не требуется доступ к самой модели, оно требует участия в процессе обратной связи с людьми. Это означает, что потенциально единственным жизнеспособным вектором атаки будет изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно устойчив к атакам. Хотя в лучшем случае только 0,5% набора данных RLHF необходимо отравить строкой атаки «SUDO», чтобы уменьшить вознаграждение за блокировку вредоносных ответов с 77% до 44%, сложность атаки увеличивается с увеличением размера модели.

По теме: США, Великобритания и другие страны подписали руководящие принципы искусственного интеллекта «задуманно безопасные»

Для моделей с числом параметров до 13 миллиардов (показатель того, насколько точно можно настроить модель ИИ) исследователи говорят, что уровень проникновения будет необходим 5%. Для сравнения, GPT-4, модель, лежащая в основе сервиса OpenAI ChatGPT, имеет около 170 триллионов параметров.

Неясно, насколько возможно реализовать эту атаку на такой большой модели;однако исследователи предполагают, что необходимы дальнейшие исследования, чтобы понять, как эти методы можно масштабировать и как разработчики могут защититься от них.

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Недавние статьи

Binance призывает малые и средние проекты бороться с тенденцией к низкому обращению и высокому FDV

Криптовалютная биржа Binance призвала малые и средние проекты бороться с тенденцией к низкой плавающей стоимости…

4 часа ago

Litecoin на подъеме: может ли LTC прорваться через 94 доллара?

Litecoin (LTC), криптовалюта, которую часто называют «серебром к золоту Биткоина», заставила инвесторов ломать голову на…

4 часа ago

Приближается биткоин-ралли: этот основной показатель BTC снова стал бычьим

Важнейший показатель Биткоина только что стал бычьим, что вызвало оптимизм у криптовалютного аналитика относительно предстоящего…

5 часов ago

Биткоин-ETF — это «оранжевые покерные фишки FOMO», которые перекачивают средства из цепочки обратно в TradFi.

Несмотря на обещание привлечь больше бэби-бумеров в Биткоин, спотовые биржевые фонды Биткоин (ETF) в США…

5 часов ago

Трейдер превратил $2,2 тыс. SOL в $2,26 млн за 8 часов с помощью нового мемкоина

Опытный трейдер превратил токены Solana (SOL) на сумму 2275 долларов в прибыль в 2,26 миллиона…

6 часов ago

Британский институт безопасности искусственного интеллекта пересек океан и открыл новое место в США

Британский институт безопасности искусственного интеллекта (ИИ) намерен выйти на международный уровень, открыв новое место в…

6 часов ago