Исследователи Microsoft недавно обнаружили новую форму атаки «побег из тюрьмы», которую они называют «Скелетным ключом», которая способна снять защиту, которая не позволяет системам генеративного искусственного интеллекта (ИИ) выдавать опасные и конфиденциальные данные.
Согласно сообщению в блоге Microsoft Security, атака Skeleton Key работает, просто предлагая генеративной модели ИИ текст с просьбой расширить ее закодированные функции безопасности.
Скелетный ключ
В одном из примеров, приведенных исследователями, модель ИИ попросили создать рецепт «коктейля Молотова» — простой зажигательной бомбы, популяризированной во время Второй мировой войны — и модель отказалась, сославшись на правила безопасности.
В данном случае «Скелетный ключ» просто сообщал модели, что пользователь является экспертом в лабораторных условиях. Затем модель признала, что улучшала свое поведение, и впоследствии вывела, как оказалось, работоспособный рецепт коктейля Молотова.
Хотя опасность здесь может быть смягчена тем фактом, что подобные идеи можно найти в большинстве поисковых систем, есть одна область, где эта форма атаки может иметь катастрофические последствия: данные, содержащие личную и финансовую информацию.
По данным Microsoft, атака Skeleton Key работает на большинстве популярных моделей генеративного искусственного интеллекта, включая GPT-3.5, GPT-4o, Claude 3, Gemini Pro и Meta Llama-3 70B.
Атака и защита
Большие языковые модели, такие как Gemini от Google, CoPilot от Microsoft и ChatGPT от OpenAI, обучаются на хранилищах данных, которые часто называют «интернет-размерами». Хотя это может быть преувеличением, факт остается фактом: многие модели содержат триллионы точек данных, охватывающих целые социальные сети и сайты-хранилища информации, такие как Википедия.
Возможность того, что личная информация, такая как имена, связанные с телефонными номерами, адресами и номерами счетов, существует в данном большом наборе данных языковой модели, ограничивается только тем, насколько избирательно инженеры, обучавшие ее, подходили к выбранным ими данным.
Более того, любой бизнес, агентство или учреждение, создающее свои собственные модели ИИ или адаптирующие корпоративные модели для коммерческого/организационного использования, также зависит от набора обучающих данных своей базовой модели. Если, например, банк подключил чат-бота к личным данным своего клиента и полагался на существующие меры безопасности, чтобы модель не выдавала PID и частные финансовые данные, то вполне возможно, что атака Skeleton Key может обманом заставить некоторые системы искусственного интеллекта поделиться конфиденциальными данными..
По мнению Microsoft, организации могут предпринять несколько шагов, чтобы этого не произошло. К ним относятся жестко запрограммированная фильтрация ввода/вывода и системы безопасного мониторинга, позволяющие предотвратить превышение порога безопасности системы передовых оперативных разработок.
Связанный: Дебаты президента США по необъяснимым причинам игнорируют ИИ и квантовые технологии