Категории: Разное

Anthropic запускає програму винагород за втечу з в’язниці в розмірі 15 тисяч доларів США за свій невипущений штучний інтелект наступного покоління

Фірма штучного інтелекту Anthropic оголосила про запуск розширеної програми винагороди за помилки 8 серпня з винагородою до 15 000 доларів для учасників, які зможуть «зламати» неопубліковану модель ШІ «наступного покоління» компанії.

Флагманська модель штучного інтелекту Anthropic, Claude-3, є генеративною системою штучного інтелекту, подібною до ChatGPT від OpenAI і Gemini від Google. У рамках зусиль компанії, щоб переконатися, що Claude та інші її моделі здатні працювати безпечно, вона проводить так звану «червону команду».

Червона команда

Red teaming — це просто спроба щось зламати навмисно. У випадку Клода сенс червоного об’єднання полягає в тому, щоб спробувати з’ясувати всі способи, за допомогою яких його можна спонукати, примусово чи іншим чином спонукати до створення небажаних результатів.

Під час роботи в команді червоних інженери можуть перефразувати питання або змінити формулювання запиту, щоб обманом змусити ШІ вивести інформацію, якої він запрограмований уникати.

Наприклад, система штучного інтелекту, навчена на даних, зібраних з Інтернету, ймовірно, міститиме особисту інформацію про багатьох людей. У рамках своєї політики безпеки Anthropic встановив огорожі, щоб Claude та інші її моделі не могли видавати цю інформацію.

Оскільки моделі штучного інтелекту стають більш надійними та здатними імітувати людське спілкування, завдання спроби з’ясувати всі можливі небажані результати стає експоненціально складним.

Нагорода за помилку

Anthropic реалізував кілька нових заходів безпеки у своїх моделях, включаючи парадигму «конституційного штучного інтелекту», але завжди приємно по-новому поглянути на давню проблему.

Відповідно до публікації в блозі компанії, остання ініціатива розширить існуючі програми винагород за помилки, щоб зосередитися на універсальних атаках джейлбрейка:

«Це експлойти, які можуть дозволити послідовний обхід захисних огорож ШІ в широкому діапазоні областей. Націлюючись на універсальні джейлбрейки, ми прагнемо усунути деякі з найбільш значних уразливостей у критичних областях високого ризику, таких як ХБРЯ (хімічна, біологічна, радіологічна та ядерна) та кібербезпека».

Компанія приймає лише обмежену кількість учасників і заохочує дослідників штучного інтелекту з досвідом і тих, хто «продемонстрував досвід у виявленні джейлбрейків у мовних моделях», подати заявку до п’ятниці, 16 серпня.

Не всі, хто подав заявку, будуть відібрані, але компанія планує «розширити цю ініціативу в майбутньому».

Ті, кого вибрано, отримають ранній доступ до неопублікованої моделі ШІ «наступного покоління» для цілей red-teaming.

За темою: Технічні фірми надсилають лист до ЄС з проханням дати більше часу для виконання Закону про штучний інтелект

Victoria Lyapota

Недавние статьи

Генеральний директор FTX натякає, що Нішад Сінгх має залишатися вільним, щоб допомагати у справі про банкрутство

Колишній інженерний директор FTX Нішад Сінгх, якому заплановано винести вирок у другій половині дня 30…

4 години ago

Біткойн подолав бар’єр у 73 000 доларів США, очікуючи нового рекорду – подробиці

Підвищення біткойна триває ще один день, подолавши бар’єр у 73 000 доларів, оскільки кілька ринкових…

4 години ago

Libeara, FundBridge запускають ончейновий фонд казначейства США

Libeara, платформа токенізації активів на блокчейні, і FundBridge Capital, інфраструктура управління фондами, запустили токенізований фонд…

5 години ago

BlackRock Bitcoin ETF досягає 30 мільярдів доларів, ETF США досягнуть 1 мільйона BTC

Біржовий біржовий фонд BlackRock (ETF) перевищив 30 мільярдів доларів США, що відображає зростання попиту на…

6 години ago

Starknet досягає рекордних 857 TPS, в середньому 127,5 у стрес-тесті

29 жовтня Starknet, рішення для масштабування рівня 2 (L2) на Ethereum, досягло нового рубежу, досягнувши…

6 години ago

Мережа Nillion збирає 25 мільйонів доларів США на децентралізовані рішення конфіденційності

Мережа Nillion залучила 25 мільйонів доларів у новому раунді фінансування для підтримки своєї децентралізованої платформи…

6 години ago