Фірма штучного інтелекту Anthropic оголосила про запуск розширеної програми винагороди за помилки 8 серпня з винагородою до 15 000 доларів для учасників, які зможуть «зламати» неопубліковану модель ШІ «наступного покоління» компанії.
Флагманська модель штучного інтелекту Anthropic, Claude-3, є генеративною системою штучного інтелекту, подібною до ChatGPT від OpenAI і Gemini від Google. У рамках зусиль компанії, щоб переконатися, що Claude та інші її моделі здатні працювати безпечно, вона проводить так звану «червону команду».
Red teaming — це просто спроба щось зламати навмисно. У випадку Клода сенс червоного об’єднання полягає в тому, щоб спробувати з’ясувати всі способи, за допомогою яких його можна спонукати, примусово чи іншим чином спонукати до створення небажаних результатів.
Під час роботи в команді червоних інженери можуть перефразувати питання або змінити формулювання запиту, щоб обманом змусити ШІ вивести інформацію, якої він запрограмований уникати.
Наприклад, система штучного інтелекту, навчена на даних, зібраних з Інтернету, ймовірно, міститиме особисту інформацію про багатьох людей. У рамках своєї політики безпеки Anthropic встановив огорожі, щоб Claude та інші її моделі не могли видавати цю інформацію.
Оскільки моделі штучного інтелекту стають більш надійними та здатними імітувати людське спілкування, завдання спроби з’ясувати всі можливі небажані результати стає експоненціально складним.
Anthropic реалізував кілька нових заходів безпеки у своїх моделях, включаючи парадигму «конституційного штучного інтелекту», але завжди приємно по-новому поглянути на давню проблему.
Відповідно до публікації в блозі компанії, остання ініціатива розширить існуючі програми винагород за помилки, щоб зосередитися на універсальних атаках джейлбрейка:
«Це експлойти, які можуть дозволити послідовний обхід захисних огорож ШІ в широкому діапазоні областей. Націлюючись на універсальні джейлбрейки, ми прагнемо усунути деякі з найбільш значних уразливостей у критичних областях високого ризику, таких як ХБРЯ (хімічна, біологічна, радіологічна та ядерна) та кібербезпека».
Компанія приймає лише обмежену кількість учасників і заохочує дослідників штучного інтелекту з досвідом і тих, хто «продемонстрував досвід у виявленні джейлбрейків у мовних моделях», подати заявку до п’ятниці, 16 серпня.
Не всі, хто подав заявку, будуть відібрані, але компанія планує «розширити цю ініціативу в майбутньому».
Ті, кого вибрано, отримають ранній доступ до неопублікованої моделі ШІ «наступного покоління» для цілей red-teaming.
За темою: Технічні фірми надсилають лист до ЄС з проханням дати більше часу для виконання Закону про штучний інтелект
Колишній інженерний директор FTX Нішад Сінгх, якому заплановано винести вирок у другій половині дня 30…
Підвищення біткойна триває ще один день, подолавши бар’єр у 73 000 доларів, оскільки кілька ринкових…
Libeara, платформа токенізації активів на блокчейні, і FundBridge Capital, інфраструктура управління фондами, запустили токенізований фонд…
Біржовий біржовий фонд BlackRock (ETF) перевищив 30 мільярдів доларів США, що відображає зростання попиту на…
29 жовтня Starknet, рішення для масштабування рівня 2 (L2) на Ethereum, досягло нового рубежу, досягнувши…
Мережа Nillion залучила 25 мільйонів доларів у новому раунді фінансування для підтримки своєї децентралізованої платформи…