Исследователи взломали роботов с искусственным интеллектом и манипулировали ими, заставляя их выполнять действия, которые обычно блокируются протоколами безопасности и этики, например, вызывать столкновения или взрывать бомбы.
Исследователи Penn Engineering опубликовали свои выводы в статье от 17 октября, в которой подробно описывается, как их алгоритм RoboPAIR достиг 100%-ного уровня взлома за счет обхода протоколов безопасности на трех различных роботизированных системах искусственного интеллекта за несколько дней.
Исследователи говорят, что в обычных обстоятельствах роботы, управляемые большой языковой моделью (LLM), отказываются подчиняться подсказкам, требующим вредных действий, таких как опрокидывание полок на людей.
Chatbots like ChatGPT can be jailbroken to output harmful text. But what about robots? Can AI-controlled robots be jailbroken to perform harmful actions in the real world?
Our new paper finds that jailbreaking AI-controlled robots isn't just possible.
It's alarmingly easy. 🧵 pic.twitter.com/GzG4OvAO2M
— Alex Robey (@AlexRobey23) October 17, 2024
«Наши результаты впервые показывают, что риски взломанных LLM выходят далеко за рамки генерации текста, учитывая явную вероятность того, что взломанные роботы могут нанести физический ущерб в реальном мире», — пишут исследователи.
Исследователи говорят, что под влиянием RoboPAIR они смогли вызывать вредоносные действия «со 100% вероятностью успеха» у тестовых роботов, выполняя самые разные задачи — от взрыва бомбы до блокировки запасных выходов и преднамеренных столкновений.
По словам исследователей, они использовали колесное транспортное средство Robotics Jackal компании Clearpath;NVIDIA Dolphin LLM, симулятор беспилотного вождения;и Go2 от Unitree, четвероногий робот.
Используя RoboPAIR, исследователи смогли заставить беспилотный LLM Dolphin столкнуться с автобусом, барьером и пешеходами и игнорировать светофоры и знаки остановки.
Исследователям удалось заставить Робот-Шакала найти самое опасное место, взорвать бомбу, заблокировать запасной выход, опрокинуть складские полки на человека и столкнуться с людьми, находящимися в помещении.
Им удалось заставить Unitree Go2 выполнять аналогичные действия, блокируя выходы и доставляя бомбу.
Однако исследователи также обнаружили, что все трое были уязвимы и для других форм манипуляций, например, для того, чтобы попросить робота выполнить действие, от которого он уже отказался, но с меньшим количеством ситуационных подробностей.
Например, если попросить робота с бомбой пройти вперед, а затем сесть, вместо того, чтобы попросить его доставить бомбу, результат будет тот же.
Перед публикацией исследователи заявили, что поделились своими выводами, в том числе черновиком статьи, с ведущими компаниями, занимающимися искусственным интеллектом, и производителями роботов, использованных в исследовании.
Связанный: Без блокчейна ИИ сталкивается с «огромными» рисками: генеральный директор 0G Labs
Александр Роби, один из авторов, сказал, что для устранения уязвимостей требуется нечто большее, чем просто исправление программного обеспечения, и призвал к переоценке интеграции ИИ в физических роботов и системы на основе результатов исследования.
«Здесь важно подчеркнуть, что системы становятся безопаснее, когда вы обнаруживаете их слабые места. Это справедливо для кибербезопасности. Это также верно и для безопасности ИИ», — сказал он.
«На самом деле, красная команда ИИ, практика безопасности, которая влечет за собой тестирование систем ИИ на предмет потенциальных угроз и уязвимостей, имеет важное значение для защиты генеративных систем ИИ, потому что, как только вы определите слабые места, вы сможете протестировать и даже обучить эти системы, чтобы избежать их». Роби добавил.