Компания Anthropic, занимающаяся искусственным интеллектом, объявила о запуске расширенной программы вознаграждений за обнаружение ошибок 8 августа, с вознаграждением до 15 000 долларов для участников, которые смогут «взломать джейлбрейк» неизданной модели искусственного интеллекта «следующего поколения» компании.
Флагманская модель искусственного интеллекта Anthropic, Claude-3, представляет собой генеративную систему искусственного интеллекта, аналогичную ChatGPT OpenAI и Gemini от Google. В рамках усилий компании по обеспечению безопасной работы Claude и других ее моделей она проводит так называемую «красную команду».
Красная команда, по сути, просто пытается что-то сломать. В случае Клода цель красной команды состоит в том, чтобы попытаться выяснить все способы, которыми ее можно было бы побудить, заставить или иным образом помешать генерировать нежелательные результаты.
Во время работы красной команды инженеры могут перефразировать вопросы или переформулировать запрос, чтобы обманом заставить ИИ выводить информацию, которую он запрограммировал избегать.
Например, система искусственного интеллекта, обученная на данных, собранных из Интернета, скорее всего, будет содержать личную информацию о множестве людей. В рамках своей политики безопасности Anthropic установила ограждения, не позволяющие Claude и другим моделям выдавать эту информацию.
Поскольку модели ИИ становятся более надежными и способны имитировать человеческое общение, задача выявления всех возможных нежелательных результатов становится экспоненциально сложной.
Anthropic внедрила в свои модели несколько новых мер безопасности, включая парадигму «конституционного ИИ», но всегда приятно взглянуть свежим взглядом на давнюю проблему.
Согласно сообщению в блоге компании, ее последняя инициатива расширит существующие программы вознаграждения за ошибки, чтобы сосредоточиться на универсальных атаках с помощью джейлбрейка:
«Это эксплойты, которые могут позволить последовательно обходить меры безопасности ИИ в широком диапазоне областей. Нацеливаясь на универсальные побеги из тюрьмы, мы стремимся устранить некоторые из наиболее серьезных уязвимостей в критических областях высокого риска, таких как ХБРЯ (химическое, биологическое, радиологическое и ядерное) и кибербезопасность».
Компания принимает лишь ограниченное число участников и призывает исследователей искусственного интеллекта с опытом и тех, кто «продемонстрировал опыт в выявлении взлома языковых моделей», подать заявку до пятницы, 16 августа.
Не все, кто подаст заявку, будут выбраны, но компания планирует «шире расширить эту инициативу в будущем».
Те, кто будет выбран, получат ранний доступ к неизданной модели ИИ «следующего поколения» для целей красной команды.
По теме: Технологические компании написали письмо ЕС с просьбой предоставить больше времени для соблюдения Закона об искусственном интеллекте
Две пиццы «Папа Джонс», заказанные программистом Ласло Ханьечем в 2010 году за 10 000 Биткоин…
Chainlink (LINK) переживает значительный рост в секторе криптовалют: стоимость выросла на 20% всего за одну…
Доктор СиньСинь Фан, руководитель отдела криптовалюты в IoTeX, недавно стал соавтором исследовательской работы под названием…
Цена Биткоина на этой неделе выросла с того места, где она остановилась на предыдущей неделе,…
В то время как Ethereum, похоже, начал свой крупный рост, недавно этот актив испытал значительную…
Криптовалютный аналитик, который точно спрогнозировал рост цены Биткоина до исторического максимума в $99 000 (ATH),…