Фірма штучного інтелекту Anthropic оголосила про запуск розширеної програми винагороди за помилки 8 серпня з винагородою до 15 000 доларів для учасників, які зможуть «зламати» неопубліковану модель ШІ «наступного покоління» компанії.
Флагманська модель штучного інтелекту Anthropic, Claude-3, є генеративною системою штучного інтелекту, подібною до ChatGPT від OpenAI і Gemini від Google. У рамках зусиль компанії, щоб переконатися, що Claude та інші її моделі здатні працювати безпечно, вона проводить так звану «червону команду».
Red teaming — це просто спроба щось зламати навмисно. У випадку Клода сенс червоного об’єднання полягає в тому, щоб спробувати з’ясувати всі способи, за допомогою яких його можна спонукати, примусово чи іншим чином спонукати до створення небажаних результатів.
Під час роботи в команді червоних інженери можуть перефразувати питання або змінити формулювання запиту, щоб обманом змусити ШІ вивести інформацію, якої він запрограмований уникати.
Наприклад, система штучного інтелекту, навчена на даних, зібраних з Інтернету, ймовірно, міститиме особисту інформацію про багатьох людей. У рамках своєї політики безпеки Anthropic встановив огорожі, щоб Claude та інші її моделі не могли видавати цю інформацію.
Оскільки моделі штучного інтелекту стають більш надійними та здатними імітувати людське спілкування, завдання спроби з’ясувати всі можливі небажані результати стає експоненціально складним.
Anthropic реалізував кілька нових заходів безпеки у своїх моделях, включаючи парадигму «конституційного штучного інтелекту», але завжди приємно по-новому поглянути на давню проблему.
Відповідно до публікації в блозі компанії, остання ініціатива розширить існуючі програми винагород за помилки, щоб зосередитися на універсальних атаках джейлбрейка:
«Це експлойти, які можуть дозволити послідовний обхід захисних огорож ШІ в широкому діапазоні областей. Націлюючись на універсальні джейлбрейки, ми прагнемо усунути деякі з найбільш значних уразливостей у критичних областях високого ризику, таких як ХБРЯ (хімічна, біологічна, радіологічна та ядерна) та кібербезпека».
Компанія приймає лише обмежену кількість учасників і заохочує дослідників штучного інтелекту з досвідом і тих, хто «продемонстрував досвід у виявленні джейлбрейків у мовних моделях», подати заявку до п’ятниці, 16 серпня.
Не всі, хто подав заявку, будуть відібрані, але компанія планує «розширити цю ініціативу в майбутньому».
Ті, кого вибрано, отримають ранній доступ до неопублікованої моделі ШІ «наступного покоління» для цілей red-teaming.
За темою: Технічні фірми надсилають лист до ЄС з проханням дати більше часу для виконання Закону про штучний інтелект
Avalanche (AVAX) зробив значний крок, подолавши вирішальний рівень опору та злетів понад 20% менш ніж…
Міжнародна федерація футбольних асоціацій (FIFA) і студія блокчейн-ігор Mythical Games об’єдналися, щоб запустити FIFA Rivals…
Дві піци Papa John's, замовлені програмістом Ласло Ханєчем у 2010 році за 10 000 біткойнів…
Chainlink (LINK) переживає значне зростання в криптовалютному секторі, зі збільшенням вартості на 20% лише за…
Доктор XinXin Fan, керівник відділу криптографії в IoTeX, нещодавно став співавтором наукової статті під назвою…
Ціна біткойна піднялася цього тижня з того місця, де вона зупинилася на попередньому тижні, досягнувши…