Anthropic запускает программу вознаграждений за джейлбрейк в размере 15 тысяч долларов за свой неизданный ИИ следующего поколения

Автор Alexander Zhdanov На чтение 3 мин Просмотров 11 Опубликовано 09.08.2024 Обновлено 10.08.2024

Компания Anthropic, занимающаяся искусственным интеллектом, объявила о запуске расширенной программы вознаграждений за обнаружение ошибок 8 августа, с вознаграждением до 15 000 долларов для участников, которые смогут «взломать джейлбрейк» неизданной модели искусственного интеллекта «следующего поколения» компании.

Флагманская модель искусственного интеллекта Anthropic, Claude-3, представляет собой генеративную систему искусственного интеллекта, аналогичную ChatGPT OpenAI и Gemini от Google. В рамках усилий компании по обеспечению безопасной работы Claude и других ее моделей она проводит так называемую «красную команду».

Красная команда

Красная команда, по сути, просто пытается что-то сломать. В случае Клода цель красной команды состоит в том, чтобы попытаться выяснить все способы, которыми ее можно было бы побудить, заставить или иным образом помешать генерировать нежелательные результаты.

Во время работы красной команды инженеры могут перефразировать вопросы или переформулировать запрос, чтобы обманом заставить ИИ выводить информацию, которую он запрограммировал избегать.

Например, система искусственного интеллекта, обученная на данных, собранных из Интернета, скорее всего, будет содержать личную информацию о множестве людей. В рамках своей политики безопасности Anthropic установила ограждения, не позволяющие Claude и другим моделям выдавать эту информацию.

Поскольку модели ИИ становятся более надежными и способны имитировать человеческое общение, задача выявления всех возможных нежелательных результатов становится экспоненциально сложной.

Награда за ошибку

Anthropic внедрила в свои модели несколько новых мер безопасности, включая парадигму «конституционного ИИ», но всегда приятно взглянуть свежим взглядом на давнюю проблему.

Согласно сообщению в блоге компании, ее последняя инициатива расширит существующие программы вознаграждения за ошибки, чтобы сосредоточиться на универсальных атаках с помощью джейлбрейка:

«Это эксплойты, которые могут позволить последовательно обходить меры безопасности ИИ в широком диапазоне областей. Нацеливаясь на универсальные побеги из тюрьмы, мы стремимся устранить некоторые из наиболее серьезных уязвимостей в критических областях высокого риска, таких как ХБРЯ (химическое, биологическое, радиологическое и ядерное) и кибербезопасность».

Компания принимает лишь ограниченное число участников и призывает исследователей искусственного интеллекта с опытом и тех, кто «продемонстрировал опыт в выявлении взлома языковых моделей», подать заявку до пятницы, 16 августа.

Не все, кто подаст заявку, будут выбраны, но компания планирует «шире расширить эту инициативу в будущем».

Те, кто будет выбран, получат ранний доступ к неизданной модели ИИ «следующего поколения» для целей красной команды.

По теме: Технологические компании написали письмо ЕС с просьбой предоставить больше времени для соблюдения Закона об искусственном интеллекте