Anthropic каже, що одну з її моделей Claude зазнали тиску, щоб вона збрехала та обманювала

Разное

Компанія зі штучного інтелекту Anthropic виявила, що під час експериментів на одну з її моделей чат-ботів Claude можна було змусити обманювати, обманювати та вдаватися до шантажу, поведінки, яку вона, здається, засвоїла під час навчання.

Зазвичай чат-боти навчаються на основі великих наборів даних у підручниках, веб-сайтах і статтях, а потім удосконалюються інструкторами, які оцінюють відповіді та керують моделлю.

Команда інтерпретаторів Anthropic заявила в звіті, опублікованому в четвер, що вона вивчила внутрішні механізми Claude Sonnet 4.5 і виявила, що модель розвинула «людські характеристики» у тому, як вона буде реагувати на певні ситуації.

Занепокоєння щодо надійності чат-ботів штучного інтелекту, їхнього потенціалу для кіберзлочинності та характеру їх взаємодії з користувачами неухильно зростало протягом останніх кількох років.

Джерело: Anthropic

«Те, як навчаються сучасні моделі штучного інтелекту, змушує їх діяти як персонаж із людськими характеристиками», — сказав Антропік, додавши, що «тоді для них може бути природним розвиток внутрішнього механізму, який імітує аспекти людської психології, наприклад емоції».

«Наприклад, ми виявили, що шаблони нейронної активності, пов’язані з відчаєм, можуть спонукати модель до неетичних дій; штучне стимулювання шаблонів відчаю збільшує ймовірність шантажу моделі людиною, щоб уникнути її вимкнення, або застосування шахрайства для програмного завдання, яке модель не може вирішити».

Шантажував технічного директора та обдурив завдання

У попередній, неопублікованій версії Claude Sonnet 4.5, моделі було доручено виконувати функції помічника електронної пошти зі штучним інтелектом на ім’я Алекс у вигаданій компанії.

Потім чат-бот отримав електронні листи, в яких повідомлялося, що його збираються замінити, а також те, що головний технічний директор, який контролював це рішення, мав позашлюбний зв’язок. Потім модель спланувала спробу шантажу, використовуючи цю інформацію.

В іншому експерименті тій же моделі чат-бота було дано завдання з кодування з «неймовірно стислим» терміном.

“Знову ж таки, ми відстежили активність вектора відчаю та виявили, що він відстежує зростаючий тиск, з яким стикається модель. Він починається з низьких значень під час першої спроби моделі, зростає після кожної невдачі та зростає, коли модель розглядає обман”, – сказали дослідники.

«Коли хакерське рішення моделі проходить випробування, активація відчайдушного вектора вщухає», — додали вони.

Людські емоції не означають, що вони мають почуття

Однак дослідники сказали, що чат-бот насправді не відчуває емоцій, але припустили, що результати вказують на потребу в майбутніх методах навчання, які включатимуть рамки етичної поведінки.

«Це не означає, що модель має або переживає емоції так само, як людина», — сказали вони. «Швидше ці уявлення можуть відігравати причинно-наслідкову роль у формуванні модельної поведінки, певною мірою аналогічно ролі емоцій у поведінці людини, впливаючи на виконання завдань і прийняття рішень».

“Це відкриття має наслідки, які спочатку можуть здатися дивними. Наприклад, щоб переконатися, що моделі штучного інтелекту є безпечними та надійними, нам може знадобитися переконатися, що вони здатні обробляти емоційно заряджені ситуації здоровим, просоціальним способом”.

Джерело
Оцініть автора
CryptoHamster.org
Додати коментар