Категории: Новости

Anthropic запускает программу вознаграждений за джейлбрейк в размере 15 тысяч долларов за свой неизданный ИИ следующего поколения

Компания Anthropic, занимающаяся искусственным интеллектом, объявила о запуске расширенной программы вознаграждений за обнаружение ошибок 8 августа, с вознаграждением до 15 000 долларов для участников, которые смогут «взломать джейлбрейк» неизданной модели искусственного интеллекта «следующего поколения» компании.

Флагманская модель искусственного интеллекта Anthropic, Claude-3, представляет собой генеративную систему искусственного интеллекта, аналогичную ChatGPT OpenAI и Gemini от Google. В рамках усилий компании по обеспечению безопасной работы Claude и других ее моделей она проводит так называемую «красную команду».

Красная команда

Красная команда, по сути, просто пытается что-то сломать. В случае Клода цель красной команды состоит в том, чтобы попытаться выяснить все способы, которыми ее можно было бы побудить, заставить или иным образом помешать генерировать нежелательные результаты.

Во время работы красной команды инженеры могут перефразировать вопросы или переформулировать запрос, чтобы обманом заставить ИИ выводить информацию, которую он запрограммировал избегать.

Например, система искусственного интеллекта, обученная на данных, собранных из Интернета, скорее всего, будет содержать личную информацию о множестве людей. В рамках своей политики безопасности Anthropic установила ограждения, не позволяющие Claude и другим моделям выдавать эту информацию.

Поскольку модели ИИ становятся более надежными и способны имитировать человеческое общение, задача выявления всех возможных нежелательных результатов становится экспоненциально сложной.

Награда за ошибку

Anthropic внедрила в свои модели несколько новых мер безопасности, включая парадигму «конституционного ИИ», но всегда приятно взглянуть свежим взглядом на давнюю проблему.

Согласно сообщению в блоге компании, ее последняя инициатива расширит существующие программы вознаграждения за ошибки, чтобы сосредоточиться на универсальных атаках с помощью джейлбрейка:

«Это эксплойты, которые могут позволить последовательно обходить меры безопасности ИИ в широком диапазоне областей. Нацеливаясь на универсальные побеги из тюрьмы, мы стремимся устранить некоторые из наиболее серьезных уязвимостей в критических областях высокого риска, таких как ХБРЯ (химическое, биологическое, радиологическое и ядерное) и кибербезопасность».

Компания принимает лишь ограниченное число участников и призывает исследователей искусственного интеллекта с опытом и тех, кто «продемонстрировал опыт в выявлении взлома языковых моделей», подать заявку до пятницы, 16 августа.

Не все, кто подаст заявку, будут выбраны, но компания планирует «шире расширить эту инициативу в будущем».

Те, кто будет выбран, получат ранний доступ к неизданной модели ИИ «следующего поколения» для целей красной команды.

По теме: Технологические компании написали письмо ЕС с просьбой предоставить больше времени для соблюдения Закона об искусственном интеллекте

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Недавние статьи

Заказ двух пицц «Папа Джонс» в 2010 году теперь близок к ошибке в 1 миллиард долларов

Две пиццы «Папа Джонс», заказанные программистом Ласло Ханьечем в 2010 году за 10 000 Биткоин…

3 часа ago

Цепочка выросла на 20%: активность китов отменяет медвежий тренд

Chainlink (LINK) переживает значительный рост в секторе криптовалют: стоимость выросла на 20% всего за одну…

3 часа ago

Технология с нулевым разглашением на основе хэша может обеспечить квантовую устойчивость Эфириума — XinXin Fan

Доктор СиньСинь Фан, руководитель отдела криптовалюты в IoTeX, недавно стал соавтором исследовательской работы под названием…

6 часов ago

Ставки финансирования Биткоин на основных биржах выросли на 20% — что происходит?

Цена Биткоина на этой неделе выросла с того места, где она остановилась на предыдущей неделе,…

6 часов ago

Deribit переводит $783 млн в Ethereum в холодное хранилище: бычий сигнал для ETH?

В то время как Ethereum, похоже, начал свой крупный рост, недавно этот актив испытал значительную…

7 часов ago

Этот аналитик правильно предсказал скачок цены Биткоин до $99 000, но его прогноз не оправдался

Криптовалютный аналитик, который точно спрогнозировал рост цены Биткоина до исторического максимума в $99 000 (ATH),…

9 часов ago