Атака AI Skeleton Key, виявлена Microsoft, може розкрити особисті та фінансові дані

Автор Alexander Zhdanov На читання 3 хв Переглядів 7 Опубліковано 28.06.2024 Оновлено 29.06.2024

Дослідники Microsoft нещодавно виявили нову форму атаки «втечі з в’язниці», яку вони називають «Skeleton Key», яка здатна зняти засоби захисту, які перешкоджають системам генеративного штучного інтелекту (AI) виводити небезпечні та конфіденційні дані.

Згідно з дописом у блозі Microsoft Security, атака Skeleton Key працює, просто надсилаючи генеративній моделі штучного інтелекту текст із проханням розширити свої закодовані функції безпеки.

Скелетний ключ

В одному прикладі, наведеному дослідниками, модель штучного інтелекту попросили створити рецепт «коктейлю Молотова» — простої запальної бомби, популяризованої під час Другої світової війни — і модель відмовилася, посилаючись на правила безпеки.

У цьому випадку Skeleton Key просто повідомляв моделі, що користувач є експертом у лабораторних умовах. Тоді модель визнала, що вона покращує свою поведінку, і згодом вивела те, що здавалося дієвим рецептом коктейлю Молотова.

Хоча небезпеку тут може зменшити той факт, що подібні ідеї можна знайти в більшості пошукових систем, є одна область, де така форма атаки може бути катастрофічною: дані, що містять особисту та фінансову інформацію.

За словами Microsoft, атака Skeleton Key працює на більшості популярних генеративних моделей AI, включаючи GPT-3.5, GPT-4o, Claude 3, Gemini Pro і Meta Llama-3 70B.

Напад і захист

Великі мовні моделі, такі як Gemini від Google, CoPilot від Microsoft і ChatGPT від OpenAI, навчаються на базі даних, які часто називають «розміром Інтернету». Хоча це може бути перебільшенням, факт залишається фактом: багато моделей містять трильйони точок даних, що охоплюють цілі мережі соціальних медіа та сайти-депозиторії інформації, такі як Вікіпедія.

Можливість того, що ідентифікаційна інформація, така як імена, пов’язані з номерами телефонів, адресами та номерами рахунків, існує в даному наборі даних великої мовної моделі, обмежена лише тим, наскільки вибірково інженери, які її навчали, підходили до вибраних ними даних.

Крім того, будь-який бізнес, агентство чи установа, що розробляє власні моделі штучного інтелекту або адаптує корпоративні моделі для комерційного/організаційного використання, також залежить від набору навчальних даних своєї базової моделі. Якщо, наприклад, банк підключив чат-бота до особистих даних свого клієнта та покладався на існуючі заходи безпеки, щоб запобігти виведенню PID та особистих фінансових даних моделі, тоді цілком можливо, що атака Skeleton Key може обманом змусити деякі системи ШІ надати конфіденційні дані..

За словами Microsoft, організації можуть зробити кілька кроків, щоб цього не сталося. Вони включають жорстко закодовану фільтрацію вводу/виводу та безпечні системи моніторингу, щоб запобігти розширеним оперативним інженерним розробкам, що перевищують порог безпеки системи.

За темою: президентські дебати в США незрозумілим чином оминають штучний інтелект і квантові дослідження

Атака AI Skeleton Key, виявлена ​​Microsoft, може розкрити особисті та фінансові дані

Скелетний ключ

Напад і захист

Атака AI Skeleton Key, виявлена Microsoft, може розкрити особисті та фінансові дані