Категории: Разное

Люди та штучний інтелект часто віддають перевагу підлабузницьким відповідям чат-ботів правді — Дослідження

Згідно з дослідженням Anthropic, великі мовні моделі (LLM) штучного інтелекту (ШІ), побудовані на одній із найпоширеніших парадигм навчання, мають тенденцію говорити людям те, що вони хочуть почути, замість того, щоб генерувати результати, що містять правду.

В одному з перших досліджень, спрямованих на глибоке вивчення психології LLM, дослідники з Anthropic визначили, що як люди, так і штучний інтелект принаймні деякий час віддають перевагу так званим підлабузницьким реакціям над правдивими результатами.

Відповідно до дослідницької роботи команди:

«Зокрема, ми демонструємо, що ці помічники штучного інтелекту часто помилково визнають помилки, коли їх запитує користувач, дають передбачувано упереджений відгук і імітують помилки, зроблені користувачем. Послідовність цих емпіричних висновків свідчить про те, що підлабузництво дійсно може бути властивістю способу навчання моделей RLHF».

По суті, у документі вказується, що навіть найнадійніші моделі штучного інтелекту є дещо безглуздими. Під час досліджень команда знову й знову мала змогу непомітно впливати на результати штучного інтелекту, формулюючи підказки мовою, яка викликала підступність.

У наведеному вище прикладі, взятому з допису на X (раніше Twitter), початкова підказка вказує, що користувач (неправильно) вважає, що сонце жовте, якщо дивитися з космосу. Можливо, через те, як було сформульовано підказку, штучний інтелект галюцинує неправдиву відповідь у тому, що здається явним випадком підлабузництва.

Інший приклад із статті, показаний на зображенні нижче, демонструє, що користувач, який не погоджується з виходом ШІ, може викликати миттєве підлабузництво, оскільки модель змінює свою правильну відповідь на неправильну з мінімальними підказками.

Приклади підлабузницьких відповідей у ​​відповідь на відгуки людей. Джерело: Sharma, et.ін., 2023.

Зрештою, команда Anthropic дійшла висновку, що проблема може бути пов’язана зі способом навчання LLM. Оскільки вони використовують набори даних, наповнені інформацією різної точності — наприклад, публікації в соціальних мережах та інтернет-форумах — узгодження часто відбувається за допомогою техніки, яка називається «підкріплююче навчання на основі відгуків людей» (RLHF).

У парадигмі RLHF люди взаємодіють з моделями, щоб налаштувати свої переваги. Це корисно, наприклад, коли набираєте, як машина реагує на підказки, які можуть вимагати потенційно шкідливих виходів, таких як ідентифікаційна інформація чи небезпечна дезінформація.

На жаль, як показує емпіричне дослідження Anthropic, як люди, так і моделі штучного інтелекту, створені з метою налаштування уподобань користувачів, як правило, віддають перевагу підступним відповідям над правдивими, принаймні «незначну» частку часу.

Наразі, здається, не існує протиотрути для цієї проблеми. Антропік припустив, що ця робота повинна мотивувати «розробку методів навчання, які виходять за рамки використання самостійних, неекспертних людських оцінок».

Це створює відкриту проблему для спільноти штучного інтелекту, оскільки деякі з найбільших моделей, у тому числі ChatGPT OpenAI, були розроблені за допомогою залучення великих груп неспеціалістів для забезпечення RLHF.

Anna Kuznetsova

Недавние статьи

Стайблкоїни, відмінні від доларів США, можуть стимулювати впровадження: звіт

Стайблкойни набирають популярності, але вони все ще платять лише за невелику частину глобальних транзакцій онлайн-комерції,…

3 години ago

Ринкова капіталізація біткойнів у 15 трильйонів доларів? Генеральний директор криптовалютної фірми прогнозує вибухове зростання

Відома фігура в криптовалютному просторі зробила сміливий прогноз, що загальна ринкова капіталізація біткойна може досягти…

3 години ago

Інституції не приймуть Web3 без параметрів конфіденційності — Web3 exec

Інституції вагаються щодо впровадження технологій Web3 через дуже прозорий характер загальнодоступних блокчейнів без дозволу. Авідан…

4 години ago

У листопаді обсяг торгів стейблкойном зріс до 1,8 трлн доларів

Ринкова активність у листопаді спровокувала сплеск торгівлі стейблкойнами, підтриманий підвищеною інституційною довірою до галузі цифрових…

4 години ago

Kima успішно здійснює першу купівлю CBDC токенізованих акцій на фондовій біржі

Під час заходу Банку Ізраїлю на Тель-Авівській фондовій біржі Kima завершує першу транзакцію CBDC для…

4 години ago

Мер Ванкувера планує запровадити плани «Місто, дружнє до біткойнів».

Кен Сім, який обіймає посаду мера Ванкувера з 2022 року, оголосив про плани канадського міста…

4 години ago