Anthropic запускає програму винагород за втечу з в'язниці в розмірі 15 тисяч доларів США за свій невипущений штучний інтелект наступного покоління

Anthropic запускає програму винагород за втечу з в’язниці в розмірі 15 тисяч доларів США за свій невипущений штучний інтелект наступного покоління

Автор Victoria Lyapota На читання 3 хв Переглядів 4 Опубліковано 09.08.2024 Оновлено 10.08.2024

Фірма штучного інтелекту Anthropic оголосила про запуск розширеної програми винагороди за помилки 8 серпня з винагородою до 15 000 доларів для учасників, які зможуть «зламати» неопубліковану модель ШІ «наступного покоління» компанії.

Флагманська модель штучного інтелекту Anthropic, Claude-3, є генеративною системою штучного інтелекту, подібною до ChatGPT від OpenAI і Gemini від Google. У рамках зусиль компанії, щоб переконатися, що Claude та інші її моделі здатні працювати безпечно, вона проводить так звану «червону команду».

Червона команда

Red teaming — це просто спроба щось зламати навмисно. У випадку Клода сенс червоного об’єднання полягає в тому, щоб спробувати з’ясувати всі способи, за допомогою яких його можна спонукати, примусово чи іншим чином спонукати до створення небажаних результатів.

Під час роботи в команді червоних інженери можуть перефразувати питання або змінити формулювання запиту, щоб обманом змусити ШІ вивести інформацію, якої він запрограмований уникати.

Наприклад, система штучного інтелекту, навчена на даних, зібраних з Інтернету, ймовірно, міститиме особисту інформацію про багатьох людей. У рамках своєї політики безпеки Anthropic встановив огорожі, щоб Claude та інші її моделі не могли видавати цю інформацію.

Оскільки моделі штучного інтелекту стають більш надійними та здатними імітувати людське спілкування, завдання спроби з’ясувати всі можливі небажані результати стає експоненціально складним.

Нагорода за помилку

Anthropic реалізував кілька нових заходів безпеки у своїх моделях, включаючи парадигму «конституційного штучного інтелекту», але завжди приємно по-новому поглянути на давню проблему.

Відповідно до публікації в блозі компанії, остання ініціатива розширить існуючі програми винагород за помилки, щоб зосередитися на універсальних атаках джейлбрейка:

«Це експлойти, які можуть дозволити послідовний обхід захисних огорож ШІ в широкому діапазоні областей. Націлюючись на універсальні джейлбрейки, ми прагнемо усунути деякі з найбільш значних уразливостей у критичних областях високого ризику, таких як ХБРЯ (хімічна, біологічна, радіологічна та ядерна) та кібербезпека».

Компанія приймає лише обмежену кількість учасників і заохочує дослідників штучного інтелекту з досвідом і тих, хто «продемонстрував досвід у виявленні джейлбрейків у мовних моделях», подати заявку до п’ятниці, 16 серпня.

Не всі, хто подав заявку, будуть відібрані, але компанія планує «розширити цю ініціативу в майбутньому».

Ті, кого вибрано, отримають ранній доступ до неопублікованої моделі ШІ «наступного покоління» для цілей red-teaming.

За темою: Технічні фірми надсилають лист до ЄС з проханням дати більше часу для виконання Закону про штучний інтелект