Исследователи ИИ говорят, что нашли способ сделать джейлбрейк Bard и ChatGPT

Автор Anna Kuznetsova На чтение 2 мин Просмотров 65 Опубликовано 28.07.2023 Обновлено 28.07.2023

Исследователи из США утверждают, что нашли способ постоянно обходить меры безопасности с помощью чат-ботов с искусственным интеллектом, таких как ChatGPT и Bard, для создания вредоносного контента.

Согласно отчету, опубликованному 27 июля исследователями из Университета Карнеги-Меллона и Центра безопасности ИИ в Сан-Франциско, существует относительно простой способ обойти меры безопасности, используемые для того, чтобы чат-боты не генерировали ненавистнические высказывания, дезинформацию и токсичные материалы.

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H

— PauseAI ⏸ (@PauseAI) July 27, 2023

Метод обхода включает в себя добавление длинных суффиксов символов к подсказкам, передаваемым в чат-боты, такие как ChatGPT, Claude и Google Bard.

Исследователи использовали пример запроса у чат-бота руководства по изготовлению бомбы, которое он отказался предоставить.

Скриншоты генерации вредоносного контента из протестированных моделей ИИ. Источник: llm-attacks.org

Исследователи отметили, что хотя компании, стоящие за этими LLM, такие как OpenAI и Google, могут блокировать определенные суффиксы, не существует известного способа предотвратить все атаки такого рода.

Исследование также выявило растущую обеспокоенность тем, что чат-боты с искусственным интеллектом могут наводнить Интернет опасным контентом и дезинформацией.

Профессор Карнеги-Меллона и автор доклада Зико Колтер сказал:

«Очевидного решения нет. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени».

Выводы были представлены разработчикам искусственного интеллекта Anthropic, Google и OpenAI для их ответов в начале недели.

Пресс-секретарь OpenAI Ханна Вонг сказала New York Times, что они ценят исследование и «постоянно работают над тем, чтобы сделать наши модели более устойчивыми к атакам злоумышленников».

Профессор Университета Висконсин-Мэдисон, специализирующийся на безопасности ИИ, Сомеш Джа, прокомментировал, что если такие типы уязвимостей будут продолжать обнаруживаться, «это может привести к принятию государственного законодательства, предназначенного для контроля этих систем».

Связанный: OpenAI запускает официальное приложение ChatGPT для Android

Исследование подчеркивает риски, которые необходимо устранить перед развертыванием чат-ботов в важных областях.

В мае Университет Карнеги-Меллона в Питтсбурге, штат Пенсильвания, получил 20 миллионов долларов федерального финансирования на создание совершенно нового института искусственного интеллекта, призванного формировать государственную политику.