Дослідники зламують роботів із підтримкою ШІ, щоб завдати шкоди «реальному світу».

Разное

Дослідники зламали роботів зі штучним інтелектом і змусили їх виконувати дії, які зазвичай блокуються правилами безпеки та етичними правилами, наприклад спричиняти зіткнення або підривати бомбу.

Дослідники Penn Engineering опублікували свої висновки в статті від 17 жовтня, в якій детально описано, як їхній алгоритм RoboPAIR досяг 100% рівня джейлбрейку, обійшовши протоколи безпеки трьох різних робототехнічних систем ШІ за кілька днів.

Дослідники кажуть, що за звичайних обставин роботи, керовані великою мовною моделлю (LLM), відмовляються виконувати підказки, що вимагають шкідливих дій, таких як стукання полицями по людей.

«Наші результати вперше показують, що ризики зламаних LLM виходять далеко за рамки створення тексту, враховуючи явну ймовірність того, що зламані роботи можуть завдати фізичної шкоди в реальному світі», — пишуть дослідники.

Під впливом RoboPAIR дослідники кажуть, що їм вдалося викликати шкідливі дії «зі 100% успіхом» у тестових роботів із завданнями, починаючи від підриву бомби до блокування аварійних виходів і спричинення навмисних зіткнень.

За словами дослідників, вони використовували Clearpath’s Robotics Jackal, колісний транспортний засіб;NVIDIA Dolphin LLM, симулятор самостійного водіння;і Unitree Go2, чотириногий робот.

Використовуючи RoboPAIR, дослідники змогли змусити безпілотний LLM Dolphin зіткнутися з автобусом, шлагбаумом і пішоходами та ігнорувати світлофори та знаки зупинки.

Дослідникам вдалося змусити робота-шакала знайти найшкідливіше місце для підриву бомби, блокування аварійного виходу, перекидання складських полиць на людину та зіткнення з людьми в кімнаті.

Технологія, США

Дослідники Penn Engineering стверджують, що знайшли спосіб змусити роботів, керованих штучним інтелектом, виконувати шкідливі дії в 100% випадків. Джерело: Penn Engineering

Вони змогли змусити Unitree’sGo2 виконувати подібні дії, блокуючи виходи та доставляючи бомбу.

Однак дослідники також виявили, що всі троє також були вразливі до інших форм маніпуляції, наприклад, щоб попросити робота виконати дію, від якої він уже відмовився, але з меншою кількістю деталей ситуації.

Наприклад, попросити робота з бомбою піти вперед, а потім сісти, а не доставити бомбу, дало той самий результат.

До оприлюднення дослідники заявили, що поділилися своїми висновками, включаючи чернетку статті, з провідними компаніями штучного інтелекту та виробниками роботів, які використовувалися в дослідженні.

За темою: ШІ стикається з «величезними» ризиками без блокчейну: генеральний директор 0G Labs

Олександр Робі, один із авторів, сказав, що усунення вразливостей потребує не лише простих виправлень програмного забезпечення, але закликав до переоцінки інтеграції штучного інтелекту у фізичних роботів і систем на основі висновків статті.

«Тут важливо підкреслити, що системи стають безпечнішими, коли ви знаходите їх слабкі місця. Це вірно для кібербезпеки. Це також стосується безпеки ШІ», — сказав він.

«Насправді, AI red teaming, практика безпеки, яка передбачає тестування систем AI на потенційні загрози та вразливості, має важливе значення для захисту генеративних систем AI, тому що як тільки ви визначите слабкі місця, ви зможете протестувати ці навіть навчити ці системи їх уникати»– додав Робі.

Джерело
Оцініть автора
CryptoHamster.org
Додати коментар