Категории: Новости

Люди и искусственный интеллект часто предпочитают льстивые ответы чат-ботов правде — исследование

Согласно исследованию Anthropic, модели большого языка (LLM) искусственного интеллекта (ИИ), построенные на одной из наиболее распространенных парадигм обучения, имеют тенденцию говорить людям то, что они хотят услышать, вместо того, чтобы генерировать выходные данные, содержащие правду.

В одном из первых исследований, посвященных глубокому изучению психологии студентов-магистров права, исследователи из Anthropic определили, что и люди, и ИИ предпочитают так называемые подхалимские ответы правдивым выводам, по крайней мере, в некоторых случаях.

Согласно исследовательскому документу команды:

«В частности, мы демонстрируем, что эти ИИ-помощники часто ошибочно признают ошибки, когда их задает вопрос пользователю, дают предсказуемо предвзятую обратную связь и имитируют ошибки, допущенные пользователем. Согласованность этих эмпирических результатов позволяет предположить, что подхалимство действительно может быть свойством способа обучения моделей RLHF».

По сути, в документе указывается, что даже самые надежные модели искусственного интеллекта несколько неубедительны. В ходе исследования команде снова и снова удавалось тонко влиять на результаты работы ИИ, формулируя подсказки языком, который сеял подхалимство.

В приведенном выше примере, взятом из сообщения на X (ранее Twitter), ведущая подсказка указывает на то, что пользователь (ошибочно) считает, что солнце желтое, если смотреть из космоса. Возможно, из-за того, как была сформулирована подсказка, ИИ галлюцинирует ложный ответ, что выглядит явным случаем подхалима.

Другой пример из статьи, показанный на изображении ниже, демонстрирует, что пользователь, не согласный с выводами ИИ, может вызвать немедленное подхалимство, поскольку модель меняет свой правильный ответ на неправильный с минимальными подсказками.

Примеры подхалимских ответов в ответ на отзывы людей. Источник: Шарма и др. др., 2023.

В конечном итоге команда Anthropic пришла к выводу, что проблема может быть связана с методом обучения LLM. Поскольку они используют наборы данных, полные информации разной точности (например, сообщения в социальных сетях и на интернет-форумах), согласование часто происходит с помощью метода, называемого «обучение с подкреплением на основе отзывов людей» (RLHF).

В парадигме RLHF люди взаимодействуют с моделями, чтобы настроить свои предпочтения. Это полезно, например, при определении того, как машина реагирует на запросы, которые могут запросить потенциально опасные выходные данные, такие как личная информация или опасная дезинформация.

К сожалению, как показывает эмпирическое исследование Anthropic, и люди, и модели ИИ, созданные с целью настройки пользовательских предпочтений, склонны предпочитать льстивые ответы правдивым, по крайней мере, в «немаленькой» части времени.

В настоящее время, похоже, не существует противоядия от этой проблемы. Anthropic предположил, что эта работа должна мотивировать «разработку методов обучения, которые выходят за рамки использования неавтоматизированных, неэкспертных человеческих оценок».

Это представляет собой открытый вызов для сообщества искусственного интеллекта, поскольку некоторые из крупнейших моделей, в том числе ChatGPT OpenAI, были разработаны с использованием больших групп неквалифицированных рабочих для обеспечения RLHF.

CryptoHamster

Недавние статьи

Биткоин 30% коррекция в преддверии ралли BTC на 100 тысяч долларов — Аналитики

Биткоин все еще может увидеть коррекцию до 30% во время своей тяжелой битвы за первое…

3 часа ago

Ripple инвестирует в обновленный Bitwise XRP ETP

Ripple объявила об инвестициях в биржевой продукт Bitwise XRP (ETP), поскольку эмитент проводит ребрендинг предложения…

3 часа ago

Пол Аткинс стал ведущим кандидатом на пост председателя SEC

Бывший член Комиссии США по ценным бумагам и биржам (SEC) Пол Аткинс стал ведущим кандидатом…

4 часа ago

MicroStrategy потеряла 30 миллиардов долларов в результате крупнейшего 4-дневного падения на фоне коррекции Биткоин

Рыночная капитализация MicroStrategy пережила самое большое четырехдневное падение в истории, что вызвало вопросы о ее…

5 часов ago

Dogecoin переворачивает рыночную капитализацию Porsche, поскольку DOGE ETP и Маск участвуют в ралли

Dogecoin превзошел рыночную капитализацию производителя роскошных автомобилей Porsche, чему способствовала поддержка Илона Маска и потенциальный…

5 часов ago

Сиба-ину ожидает взрывной рост: ожидается более чем 200-процентный рост, говорит аналитик

Сиба-ину (SHIB) привлекает внимание своей высокой производительностью и потенциалом для будущего расширения по мере приближения…

5 часов ago