Категории: Новости

Anthropic запускает программу вознаграждений за джейлбрейк в размере 15 тысяч долларов за свой неизданный ИИ следующего поколения

Компания Anthropic, занимающаяся искусственным интеллектом, объявила о запуске расширенной программы вознаграждений за обнаружение ошибок 8 августа, с вознаграждением до 15 000 долларов для участников, которые смогут «взломать джейлбрейк» неизданной модели искусственного интеллекта «следующего поколения» компании.

Флагманская модель искусственного интеллекта Anthropic, Claude-3, представляет собой генеративную систему искусственного интеллекта, аналогичную ChatGPT OpenAI и Gemini от Google. В рамках усилий компании по обеспечению безопасной работы Claude и других ее моделей она проводит так называемую «красную команду».

Красная команда

Красная команда, по сути, просто пытается что-то сломать. В случае Клода цель красной команды состоит в том, чтобы попытаться выяснить все способы, которыми ее можно было бы побудить, заставить или иным образом помешать генерировать нежелательные результаты.

Во время работы красной команды инженеры могут перефразировать вопросы или переформулировать запрос, чтобы обманом заставить ИИ выводить информацию, которую он запрограммировал избегать.

Например, система искусственного интеллекта, обученная на данных, собранных из Интернета, скорее всего, будет содержать личную информацию о множестве людей. В рамках своей политики безопасности Anthropic установила ограждения, не позволяющие Claude и другим моделям выдавать эту информацию.

Поскольку модели ИИ становятся более надежными и способны имитировать человеческое общение, задача выявления всех возможных нежелательных результатов становится экспоненциально сложной.

Награда за ошибку

Anthropic внедрила в свои модели несколько новых мер безопасности, включая парадигму «конституционного ИИ», но всегда приятно взглянуть свежим взглядом на давнюю проблему.

Согласно сообщению в блоге компании, ее последняя инициатива расширит существующие программы вознаграждения за ошибки, чтобы сосредоточиться на универсальных атаках с помощью джейлбрейка:

«Это эксплойты, которые могут позволить последовательно обходить меры безопасности ИИ в широком диапазоне областей. Нацеливаясь на универсальные побеги из тюрьмы, мы стремимся устранить некоторые из наиболее серьезных уязвимостей в критических областях высокого риска, таких как ХБРЯ (химическое, биологическое, радиологическое и ядерное) и кибербезопасность».

Компания принимает лишь ограниченное число участников и призывает исследователей искусственного интеллекта с опытом и тех, кто «продемонстрировал опыт в выявлении взлома языковых моделей», подать заявку до пятницы, 16 августа.

Не все, кто подаст заявку, будут выбраны, но компания планирует «шире расширить эту инициативу в будущем».

Те, кто будет выбран, получат ранний доступ к неизданной модели ИИ «следующего поколения» для целей красной команды.

По теме: Технологические компании написали письмо ЕС с просьбой предоставить больше времени для соблюдения Закона об искусственном интеллекте

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Недавние статьи

Либеара и FundBridge запускают блокчейн-фонд US Treasurys

Libeara, платформа токенизации активов блокчейна, и FundBridge Capital, инфраструктура управления фондами, запустили токенизированный фонд Казначейства…

3 часа ago

Биткоин-ETF BlackRock превысил 30 миллиардов долларов, запасы ETF США достигнут 1 миллиона BTC

Спотовый биржевой фонд Биткоин (ETF) BlackRock превысил 30 миллиардов долларов в активах, что отражает растущий…

4 часа ago

Starknet достиг рекордных 857 TPS, в среднем 127,5 в стресс-тесте

29 октября Starknet, решение масштабирования уровня 2 (L2) на Ethereum, достигло новой вехи, достигнув пика…

4 часа ago

Сеть Nillion привлекает 25 миллионов долларов на децентрализованные решения по обеспечению конфиденциальности

Сеть Nillion получила 25 миллионов долларов в новом раунде финансирования для поддержки своей децентрализованной платформы…

4 часа ago

Биткоин-ралли «хеджирования Трампа» не хватает макроэкономических условий для достижения рекордного максимума

Нынешнее ралли Биткоина может быть частью более широкой ставки на победу бывшего президента Дональда Трампа,…

5 часов ago

Показатели Dogecoin показывают рост сетевой активности – готов ли DOGE побить годовые максимумы?

Цена Dogecoin (DOGE) в последнее время выросла более чем на 39%, что вызвало новую эйфорию…

5 часов ago