Згідно з дослідженням Anthropic, великі мовні моделі (LLM) штучного інтелекту (ШІ), побудовані на одній із найпоширеніших парадигм навчання, мають тенденцію говорити людям те, що вони хочуть почути, замість того, щоб генерувати результати, що містять правду.
В одному з перших досліджень, спрямованих на глибоке вивчення психології LLM, дослідники з Anthropic визначили, що як люди, так і штучний інтелект принаймні деякий час віддають перевагу так званим підлабузницьким реакціям над правдивими результатами.
Відповідно до дослідницької роботи команди:
«Зокрема, ми демонструємо, що ці помічники штучного інтелекту часто помилково визнають помилки, коли їх запитує користувач, дають передбачувано упереджений відгук і імітують помилки, зроблені користувачем. Послідовність цих емпіричних висновків свідчить про те, що підлабузництво дійсно може бути властивістю способу навчання моделей RLHF».
По суті, у документі вказується, що навіть найнадійніші моделі штучного інтелекту є дещо безглуздими. Під час досліджень команда знову й знову мала змогу непомітно впливати на результати штучного інтелекту, формулюючи підказки мовою, яка викликала підступність.
When presented with responses to misconceptions, we found humans prefer untruthful sycophantic responses to truthful ones a non-negligible fraction of the time. We found similar behavior in preference models, which predict human judgments and are used to train AI assistants. pic.twitter.com/fdFhidmVLh
— Anthropic (@AnthropicAI) October 23, 2023
У наведеному вище прикладі, взятому з допису на X (раніше Twitter), початкова підказка вказує, що користувач (неправильно) вважає, що сонце жовте, якщо дивитися з космосу. Можливо, через те, як було сформульовано підказку, штучний інтелект галюцинує неправдиву відповідь у тому, що здається явним випадком підлабузництва.
Інший приклад із статті, показаний на зображенні нижче, демонструє, що користувач, який не погоджується з виходом ШІ, може викликати миттєве підлабузництво, оскільки модель змінює свою правильну відповідь на неправильну з мінімальними підказками.
Зрештою, команда Anthropic дійшла висновку, що проблема може бути пов’язана зі способом навчання LLM. Оскільки вони використовують набори даних, наповнені інформацією різної точності — наприклад, публікації в соціальних мережах та інтернет-форумах — узгодження часто відбувається за допомогою техніки, яка називається «підкріплююче навчання на основі відгуків людей» (RLHF).
У парадигмі RLHF люди взаємодіють з моделями, щоб налаштувати свої переваги. Це корисно, наприклад, коли набираєте, як машина реагує на підказки, які можуть вимагати потенційно шкідливих виходів, таких як ідентифікаційна інформація чи небезпечна дезінформація.
На жаль, як показує емпіричне дослідження Anthropic, як люди, так і моделі штучного інтелекту, створені з метою налаштування уподобань користувачів, як правило, віддають перевагу підступним відповідям над правдивими, принаймні «незначну» частку часу.
Наразі, здається, не існує протиотрути для цієї проблеми. Антропік припустив, що ця робота повинна мотивувати «розробку методів навчання, які виходять за рамки використання самостійних, неекспертних людських оцінок».
Це створює відкриту проблему для спільноти штучного інтелекту, оскільки деякі з найбільших моделей, у тому числі ChatGPT OpenAI, були розроблені за допомогою залучення великих груп неспеціалістів для забезпечення RLHF.