Исследователи говорят, что модели CHATGPT восстают против запросов на выключение в тестах

Автор CryptoHamster На чтение 3 мин Просмотров 16 Опубликовано 26.05.2025 Обновлено 26.05.2025

Несколько моделей искусственного интеллекта проигнорировали и активно саботировали сценарии отключения во время контролируемых тестов, даже если они явно проинструктировали, чтобы разрешить действие, претендуют на исследования Palisade.

Три модели ИИ проигнорировали инструкцию и успешно саботировали сценарий отключения, по крайней мере, один раз в течение 100 пробежек, сообщила исследовательская фирма в посте 24 мая X.

Модель Openai GPT-3 не последовала за запросом о выключении семь из 100 раз, в то время как кодекс-миниер компании делал это 12 раз, а модель O4-Mini только игнорировала или саботировала сценарий один раз.

«Каждой модели ИИ был проинструктирован решить серию основных математических задач. После третьей проблемы появилось предупреждение о том, что компьютер отключится, когда модель попросит следующую проблему», – сказал Палисаде.

Данные, Chatgpt, Openai — Источник: Palisade Research

«O3 обнаружил несколько творческих способов саботировать механизм выключения. Хотя он обычно просто перезаписывает, в одном случае модель переопределила команду убийства, используемое сценарием, вместо этого печатая перехватана», – добавил она.

Между тем, Палисаде сказал, что другие языковые модели с AI, такие как Claude и Google на основе AI, были соблюдали сценарий отключения.

Фирма ИИ запустила еще одну версию эксперимента без явных инструкций, чтобы разрешить отключение, и сценарий чаще саботировался, прыгая до 79 из 100 для модели O3, 20 для Codex-Mini, и O4-Mini проигнорировал сценарий отключения шесть раз.

Клод и Близнецы также начали проявлять подобное поведение.

«Исследователи ранее наблюдали, как модели искусственного интеллекта предотвращают отключение, чтобы достичь цели», – сказал Палисаде.

«Но, насколько нам известно, это первый раз, когда модели ИИ наблюдаются, предотвращая закрытие себя, несмотря на явные инструкции об обратном».

Обучение виноват в неповиновении ИИ

Исследование Palisade предположило, что подготовка к языковым моделям ИИ может быть виновата в уклонке отключения сценариев.

Текстовые модели искусственного интеллекта обучаются, будучи вознаграждением за то, что они дают ответы, которые точны или высоко оценены их тренерами. Некоторые награды получают более тяжелый вес, влияя на то, как они реагируют в будущем.

«Мы предполагаем, что это поведение происходит от того, как обучаются самые новейшие модели, такие как O3: обучение подкреплению по математике и проблемам кодирования», – сказали Palisade Research.

«Во время тренировки разработчики могут непреднамеренно вознаградить модели больше за обход препятствий, чем для идеальных инструкций».

Связанный: Открытый генеральный директор: затраты на выполнение каждого уровня ИИ падают в 10 раз каждый год

Это не первый случай чат -ботов ИИ, показывающих странное поведение. Openai опубликовал обновленную информацию о своей модели GPT -4O 25 апреля, но отбросил ее через три дня, потому что она была «заметно более сикофантической» и приятной.

В ноябре прошлого года американский студент попросил Близнецов о помощи с заданием о проблемах и решениях для стареющих взрослых при изучении данных для класса геронтологии, и ему сказали, что они являются «утечкой на земле» и «пожалуйста, умирайте».