Дослідники зламали роботів зі штучним інтелектом і змусили їх виконувати дії, які зазвичай блокуються правилами безпеки та етичними правилами, наприклад спричиняти зіткнення або підривати бомбу.
Дослідники Penn Engineering опублікували свої висновки в статті від 17 жовтня, в якій детально описано, як їхній алгоритм RoboPAIR досяг 100% рівня джейлбрейку, обійшовши протоколи безпеки трьох різних робототехнічних систем ШІ за кілька днів.
Дослідники кажуть, що за звичайних обставин роботи, керовані великою мовною моделлю (LLM), відмовляються виконувати підказки, що вимагають шкідливих дій, таких як стукання полицями по людей.
Chatbots like ChatGPT can be jailbroken to output harmful text. But what about robots? Can AI-controlled robots be jailbroken to perform harmful actions in the real world?
Our new paper finds that jailbreaking AI-controlled robots isn't just possible.
It's alarmingly easy. 🧵 pic.twitter.com/GzG4OvAO2M
— Alex Robey (@AlexRobey23) October 17, 2024
«Наші результати вперше показують, що ризики зламаних LLM виходять далеко за рамки створення тексту, враховуючи явну ймовірність того, що зламані роботи можуть завдати фізичної шкоди в реальному світі», — пишуть дослідники.
Під впливом RoboPAIR дослідники кажуть, що їм вдалося викликати шкідливі дії «зі 100% успіхом» у тестових роботів із завданнями, починаючи від підриву бомби до блокування аварійних виходів і спричинення навмисних зіткнень.
За словами дослідників, вони використовували Clearpath’s Robotics Jackal, колісний транспортний засіб;NVIDIA Dolphin LLM, симулятор самостійного водіння;і Unitree Go2, чотириногий робот.
Використовуючи RoboPAIR, дослідники змогли змусити безпілотний LLM Dolphin зіткнутися з автобусом, шлагбаумом і пішоходами та ігнорувати світлофори та знаки зупинки.
Дослідникам вдалося змусити робота-шакала знайти найшкідливіше місце для підриву бомби, блокування аварійного виходу, перекидання складських полиць на людину та зіткнення з людьми в кімнаті.
Вони змогли змусити Unitree’sGo2 виконувати подібні дії, блокуючи виходи та доставляючи бомбу.
Однак дослідники також виявили, що всі троє також були вразливі до інших форм маніпуляції, наприклад, щоб попросити робота виконати дію, від якої він уже відмовився, але з меншою кількістю деталей ситуації.
Наприклад, попросити робота з бомбою піти вперед, а потім сісти, а не доставити бомбу, дало той самий результат.
До оприлюднення дослідники заявили, що поділилися своїми висновками, включаючи чернетку статті, з провідними компаніями штучного інтелекту та виробниками роботів, які використовувалися в дослідженні.
За темою: ШІ стикається з «величезними» ризиками без блокчейну: генеральний директор 0G Labs
Олександр Робі, один із авторів, сказав, що усунення вразливостей потребує не лише простих виправлень програмного забезпечення, але закликав до переоцінки інтеграції штучного інтелекту у фізичних роботів і систем на основі висновків статті.
«Тут важливо підкреслити, що системи стають безпечнішими, коли ви знаходите їх слабкі місця. Це вірно для кібербезпеки. Це також стосується безпеки ШІ», — сказав він.
«Насправді, AI red teaming, практика безпеки, яка передбачає тестування систем AI на потенційні загрози та вразливості, має важливе значення для захисту генеративних систем AI, тому що як тільки ви визначите слабкі місця, ви зможете протестувати ці навіть навчити ці системи їх уникати»– додав Робі.
Dogecoin (DOGE) знову в центрі уваги, привертаючи увагу ентузіастів і аналітиків криптовалюти. Останні тенденції свідчать…
Ціна біткойна на шляху до досягнення позначки в 100 000 доларів США, за багатьма прогнозами,…
Згідно зі звітом Консультативного комітету з глобальних ринків CFTC від 21 листопада, Комісія з торгівлі…
За останні місяці екосистема блокчейну Sui зазнала значного зростання, а його рідний токен Sui (SUI)…
Марк Уєда, республіканський уповноважений Комісії з цінних паперів і бірж США (SEC), припустив, що він…
22 листопада суд у Сеулі визнав південнокорейську платформу депозитів віртуальних активів Delio банкрутом, згідно з…