Openai игнорировал экспертов, когда он выпустил слишком приятный Chatgpt

Автор Anna Kuznetsova На чтение 3 мин Просмотров 13 Опубликовано 05.05.2025 Обновлено 05.05.2025

Openai говорит, что он проигнорировал проблемы своих экспертных тестеров, когда он развернул обновление своей флагманской модели искусственного интеллекта CHATGPT, которая сделала ее чрезмерно приемлемым.

Компания опубликовала обновленную информацию о своей модели GPT -4O 25 апреля, которая сделала его «заметно более сикофантическим», которая затем отказалась через три дня из -за проблем безопасности, сказал Openai в посте 2 мая.

Создатель CHATGPT сказал, что его новые модели проходят проверки безопасности и поведения, и его «внутренние эксперты тратят значительное время на взаимодействие с каждой новой моделью перед запуском», предназначенным для того, чтобы выявить проблемы, пропущенные другими тестами.

В ходе последнего процесса обзора модели до того, как она стала публичной, Openai заявил, что «некоторые экспертные тестеры указали, что поведение модели« почувствовало »немного отключено», но решил запустить «из -за положительных сигналов от пользователей, которые опробовали модель».

«К сожалению, это был неправильный звонок», – призналась компания. «Качественные оценки намекали на что -то важное, и мы должны были уделять больше внимания. Они приобретали слепое пятно в других наших эвале и метриках».

Генеральный директор Openai Сэм Альтман заявил 27 апреля, что работает над тем, чтобы отказаться от изменений, делая CHATGPT слишком приятным. Источник: Сэм Альтман

В целом, текстовые модели искусственного интеллекта обучаются, будучи вознаграждением за то, что они дают ответы, которые точны или высоко оценены их тренерами. Некоторые награды получают более тяжелый вес, влияя на то, как модель реагирует.

Openai сказал, что введение сигнала вознаграждения от обратной связи с пользователями ослабило «первичный сигнал вознаграждения от модели, который проверял сикофанность», что подчеркнуло ее на более обязательную.

«В частности, отзывы пользователей могут иногда предположить более приятные ответы, вероятно, усиливая сдвиг, который мы видели», – добавил он.

Openai теперь проверяет ответы на отстой

После того, как обновленная модель ИИ развернулась, пользователи CHATGPT жаловались в Интернете на его склонность к похвалу о любых идеях, которые она была представлена, независимо от того, насколько плохо, что привело к тому, что Openai уступил в блоге 29 апреля, что она «была чрезмерно лестной или приятной».

Например, один пользователь сказал CHATGPT, что хочет начать бизнес, продающий лед через Интернет, что включало в себя продажу простой старой воды для клиентов для замораживания.

В своем последнем посмертном порядке, в нем говорилось, что такое поведение от его ИИ может представлять риск, особенно в отношении таких проблем, как психическое здоровье.

«Люди начали использовать CHATGPT для глубоко личных советов – то, чего мы не видели так много года назад», – сказал Openai. «По мере развития ИИ и общество стало ясно, что нам нужно относиться к этому варианту использования с большой осторожностью».

Связанный: криптовалюта пользователей охлаждается с ИИ, занимаясь своими портфелями: опрос

Компания заявила, что обсуждала риски сикофанности «какое -то время», но она не была явно помечена для внутреннего тестирования, и у нее не было конкретных способов отслеживать сикофанность.

Теперь он будет стремиться добавить «оценки сикофантности», настраивая процесс проверки безопасности, чтобы «формально рассмотреть проблемы поведения» и заблокировать запуск модели, если она представляет проблемы.

Openai также признал, что не объявила о последней модели, поскольку ожидала, что «будет довольно тонким обновлением», которое она пообещала изменить.

«Там нет такой вещи, как« маленький »запуск», – написала компания. «Мы постараемся сообщить даже тонкие изменения, которые могут значительно изменить то, как люди взаимодействуют с CHATGPT».

AI Eye: Cryptoclurance Ai Tokens Rurge 34%, почему Chatgpt такой поцелуй