Категории: Разное

Anthropic запускає програму винагород за втечу з в’язниці в розмірі 15 тисяч доларів США за свій невипущений штучний інтелект наступного покоління

Фірма штучного інтелекту Anthropic оголосила про запуск розширеної програми винагороди за помилки 8 серпня з винагородою до 15 000 доларів для учасників, які зможуть «зламати» неопубліковану модель ШІ «наступного покоління» компанії.

Флагманська модель штучного інтелекту Anthropic, Claude-3, є генеративною системою штучного інтелекту, подібною до ChatGPT від OpenAI і Gemini від Google. У рамках зусиль компанії, щоб переконатися, що Claude та інші її моделі здатні працювати безпечно, вона проводить так звану «червону команду».

Червона команда

Red teaming — це просто спроба щось зламати навмисно. У випадку Клода сенс червоного об’єднання полягає в тому, щоб спробувати з’ясувати всі способи, за допомогою яких його можна спонукати, примусово чи іншим чином спонукати до створення небажаних результатів.

Під час роботи в команді червоних інженери можуть перефразувати питання або змінити формулювання запиту, щоб обманом змусити ШІ вивести інформацію, якої він запрограмований уникати.

Наприклад, система штучного інтелекту, навчена на даних, зібраних з Інтернету, ймовірно, міститиме особисту інформацію про багатьох людей. У рамках своєї політики безпеки Anthropic встановив огорожі, щоб Claude та інші її моделі не могли видавати цю інформацію.

Оскільки моделі штучного інтелекту стають більш надійними та здатними імітувати людське спілкування, завдання спроби з’ясувати всі можливі небажані результати стає експоненціально складним.

Нагорода за помилку

Anthropic реалізував кілька нових заходів безпеки у своїх моделях, включаючи парадигму «конституційного штучного інтелекту», але завжди приємно по-новому поглянути на давню проблему.

Відповідно до публікації в блозі компанії, остання ініціатива розширить існуючі програми винагород за помилки, щоб зосередитися на універсальних атаках джейлбрейка:

«Це експлойти, які можуть дозволити послідовний обхід захисних огорож ШІ в широкому діапазоні областей. Націлюючись на універсальні джейлбрейки, ми прагнемо усунути деякі з найбільш значних уразливостей у критичних областях високого ризику, таких як ХБРЯ (хімічна, біологічна, радіологічна та ядерна) та кібербезпека».

Компанія приймає лише обмежену кількість учасників і заохочує дослідників штучного інтелекту з досвідом і тих, хто «продемонстрував досвід у виявленні джейлбрейків у мовних моделях», подати заявку до п’ятниці, 16 серпня.

Не всі, хто подав заявку, будуть відібрані, але компанія планує «розширити цю ініціативу в майбутньому».

Ті, кого вибрано, отримають ранній доступ до неопублікованої моделі ШІ «наступного покоління» для цілей red-teaming.

За темою: Технічні фірми надсилають лист до ЄС з проханням дати більше часу для виконання Закону про штучний інтелект

Victoria Lyapota

Недавние статьи

Avalanche злітає на 20% за 24 години – аналітик показує наступну цільову ціну

Avalanche (AVAX) зробив значний крок, подолавши вирішальний рівень опору та злетів понад 20% менш ніж…

3 години ago

FIFA та Mythical Games співпрацюють, щоб запустити блокчейн-гру FIFA Rivals

Міжнародна федерація футбольних асоціацій (FIFA) і студія блокчейн-ігор Mythical Games об’єдналися, щоб запустити FIFA Rivals…

4 години ago

Дві піци Papa John’s, замовлені в 2010 році, тепер коштують майже 1 мільярд доларів

Дві піци Papa John's, замовлені програмістом Ласло Ханєчем у 2010 році за 10 000 біткойнів…

7 години ago

Chainlink зріс на 20%: іскри активності китів відходять від Bear Trend

Chainlink (LINK) переживає значне зростання в криптовалютному секторі, зі збільшенням вартості на 20% лише за…

7 години ago

Технологія з нульовим знанням, заснована на хеші, може забезпечити квантовий захист Ethereum — XinXin Fan

Доктор XinXin Fan, керівник відділу криптографії в IoTeX, нещодавно став співавтором наукової статті під назвою…

9 години ago

Ставки фінансування біткойнів зросли на 20% на основних біржах — що відбувається?

Ціна біткойна піднялася цього тижня з того місця, де вона зупинилася на попередньому тижні, досягнувши…

9 години ago