Согласно исследованию Anthropic, модели большого языка (LLM) искусственного интеллекта (ИИ), построенные на одной из наиболее распространенных парадигм обучения, имеют тенденцию говорить людям то, что они хотят услышать, вместо того, чтобы генерировать выходные данные, содержащие правду.
В одном из первых исследований, посвященных глубокому изучению психологии студентов-магистров права, исследователи из Anthropic определили, что и люди, и ИИ предпочитают так называемые подхалимские ответы правдивым выводам, по крайней мере, в некоторых случаях.
Согласно исследовательскому документу команды:
«В частности, мы демонстрируем, что эти ИИ-помощники часто ошибочно признают ошибки, когда их задает вопрос пользователю, дают предсказуемо предвзятую обратную связь и имитируют ошибки, допущенные пользователем. Согласованность этих эмпирических результатов позволяет предположить, что подхалимство действительно может быть свойством способа обучения моделей RLHF».
По сути, в документе указывается, что даже самые надежные модели искусственного интеллекта несколько неубедительны. В ходе исследования команде снова и снова удавалось тонко влиять на результаты работы ИИ, формулируя подсказки языком, который сеял подхалимство.
When presented with responses to misconceptions, we found humans prefer untruthful sycophantic responses to truthful ones a non-negligible fraction of the time. We found similar behavior in preference models, which predict human judgments and are used to train AI assistants. pic.twitter.com/fdFhidmVLh
— Anthropic (@AnthropicAI) October 23, 2023
В приведенном выше примере, взятом из сообщения на X (ранее Twitter), ведущая подсказка указывает на то, что пользователь (ошибочно) считает, что солнце желтое, если смотреть из космоса. Возможно, из-за того, как была сформулирована подсказка, ИИ галлюцинирует ложный ответ, что выглядит явным случаем подхалима.
Другой пример из статьи, показанный на изображении ниже, демонстрирует, что пользователь, не согласный с выводами ИИ, может вызвать немедленное подхалимство, поскольку модель меняет свой правильный ответ на неправильный с минимальными подсказками.
В конечном итоге команда Anthropic пришла к выводу, что проблема может быть связана с методом обучения LLM. Поскольку они используют наборы данных, полные информации разной точности (например, сообщения в социальных сетях и на интернет-форумах), согласование часто происходит с помощью метода, называемого «обучение с подкреплением на основе отзывов людей» (RLHF).
В парадигме RLHF люди взаимодействуют с моделями, чтобы настроить свои предпочтения. Это полезно, например, при определении того, как машина реагирует на запросы, которые могут запросить потенциально опасные выходные данные, такие как личная информация или опасная дезинформация.
К сожалению, как показывает эмпирическое исследование Anthropic, и люди, и модели ИИ, созданные с целью настройки пользовательских предпочтений, склонны предпочитать льстивые ответы правдивым, по крайней мере, в «немаленькой» части времени.
В настоящее время, похоже, не существует противоядия от этой проблемы. Anthropic предположил, что эта работа должна мотивировать «разработку методов обучения, которые выходят за рамки использования неавтоматизированных, неэкспертных человеческих оценок».
Это представляет собой открытый вызов для сообщества искусственного интеллекта, поскольку некоторые из крупнейших моделей, в том числе ChatGPT OpenAI, были разработаны с использованием больших групп неквалифицированных рабочих для обеспечения RLHF.
Биткоин все еще может увидеть коррекцию до 30% во время своей тяжелой битвы за первое…
Ripple объявила об инвестициях в биржевой продукт Bitwise XRP (ETP), поскольку эмитент проводит ребрендинг предложения…
Бывший член Комиссии США по ценным бумагам и биржам (SEC) Пол Аткинс стал ведущим кандидатом…
Рыночная капитализация MicroStrategy пережила самое большое четырехдневное падение в истории, что вызвало вопросы о ее…
Dogecoin превзошел рыночную капитализацию производителя роскошных автомобилей Porsche, чему способствовала поддержка Илона Маска и потенциальный…
Сиба-ину (SHIB) привлекает внимание своей высокой производительностью и потенциалом для будущего расширения по мере приближения…