Компания Anthropic, занимающаяся искусственным интеллектом, объявила о запуске расширенной программы вознаграждений за обнаружение ошибок 8 августа, с вознаграждением до 15 000 долларов для участников, которые смогут «взломать джейлбрейк» неизданной модели искусственного интеллекта «следующего поколения» компании.
Флагманская модель искусственного интеллекта Anthropic, Claude-3, представляет собой генеративную систему искусственного интеллекта, аналогичную ChatGPT OpenAI и Gemini от Google. В рамках усилий компании по обеспечению безопасной работы Claude и других ее моделей она проводит так называемую «красную команду».
Красная команда, по сути, просто пытается что-то сломать. В случае Клода цель красной команды состоит в том, чтобы попытаться выяснить все способы, которыми ее можно было бы побудить, заставить или иным образом помешать генерировать нежелательные результаты.
Во время работы красной команды инженеры могут перефразировать вопросы или переформулировать запрос, чтобы обманом заставить ИИ выводить информацию, которую он запрограммировал избегать.
Например, система искусственного интеллекта, обученная на данных, собранных из Интернета, скорее всего, будет содержать личную информацию о множестве людей. В рамках своей политики безопасности Anthropic установила ограждения, не позволяющие Claude и другим моделям выдавать эту информацию.
Поскольку модели ИИ становятся более надежными и способны имитировать человеческое общение, задача выявления всех возможных нежелательных результатов становится экспоненциально сложной.
Anthropic внедрила в свои модели несколько новых мер безопасности, включая парадигму «конституционного ИИ», но всегда приятно взглянуть свежим взглядом на давнюю проблему.
Согласно сообщению в блоге компании, ее последняя инициатива расширит существующие программы вознаграждения за ошибки, чтобы сосредоточиться на универсальных атаках с помощью джейлбрейка:
«Это эксплойты, которые могут позволить последовательно обходить меры безопасности ИИ в широком диапазоне областей. Нацеливаясь на универсальные побеги из тюрьмы, мы стремимся устранить некоторые из наиболее серьезных уязвимостей в критических областях высокого риска, таких как ХБРЯ (химическое, биологическое, радиологическое и ядерное) и кибербезопасность».
Компания принимает лишь ограниченное число участников и призывает исследователей искусственного интеллекта с опытом и тех, кто «продемонстрировал опыт в выявлении взлома языковых моделей», подать заявку до пятницы, 16 августа.
Не все, кто подаст заявку, будут выбраны, но компания планирует «шире расширить эту инициативу в будущем».
Те, кто будет выбран, получат ранний доступ к неизданной модели ИИ «следующего поколения» для целей красной команды.
По теме: Технологические компании написали письмо ЕС с просьбой предоставить больше времени для соблюдения Закона об искусственном интеллекте
Libeara, платформа токенизации активов блокчейна, и FundBridge Capital, инфраструктура управления фондами, запустили токенизированный фонд Казначейства…
Спотовый биржевой фонд Биткоин (ETF) BlackRock превысил 30 миллиардов долларов в активах, что отражает растущий…
29 октября Starknet, решение масштабирования уровня 2 (L2) на Ethereum, достигло новой вехи, достигнув пика…
Сеть Nillion получила 25 миллионов долларов в новом раунде финансирования для поддержки своей децентрализованной платформы…
Нынешнее ралли Биткоина может быть частью более широкой ставки на победу бывшего президента Дональда Трампа,…
Цена Dogecoin (DOGE) в последнее время выросла более чем на 39%, что вызвало новую эйфорию…