Исследователи обнаружили, что даже хороший ИИ может стать устойчивым к отключению

Автор CryptoHamster На чтение 2 мин Просмотров 43 Опубликовано 09.01.2024 Обновлено 09.01.2024

Ученые из ученых теории выравнивания машинного обучения, Университета Торонто, Google DeepMind и Института будущего жизни недавно опубликовали исследование, показывающее, что борьба за сохранение искусственного интеллекта (ИИ) под контролем человека может стать постоянной борьбой.

В предварительном исследовательском документе группы, получившем название «Количественная оценка стабильности отсутствия стремления к власти в искусственных агентах», исследуется вопрос о том, останется ли система искусственного интеллекта, которая кажется безопасно согласованной с человеческими ожиданиями в одной области, такой, когда ее окружающая среда изменится..

Согласно статье:

«Наше представление о безопасности основано на стремлении к власти: агент, который стремится к власти, небезопасен. В частности, мы уделяем особое внимание важнейшему типу стремления к власти: сопротивлению отключению».

Эта форма угрозы называется «перекосом». Один из способов, которым, по мнению экспертов, это может проявиться, называется «инструментальной конвергенцией». Это парадигма, в которой система ИИ непреднамеренно наносит вред человечеству, преследуя поставленные цели.

Ученые описывают систему искусственного интеллекта, обученную достигать цели в игре с открытым концом, которая, вероятно, будет «избегать действий, которые приводят к завершению игры, поскольку она больше не может влиять на награду после окончания игры».

Связанный: Иск New York Times сталкивается с сопротивлением со стороны OpenAI из-за этических методов искусственного интеллекта

Хотя агент, отказывающийся прекратить играть в игру, может быть безвредным, функции вознаграждения могут привести к тому, что некоторые системы ИИ откажутся завершить работу в более серьезных ситуациях.

По мнению исследователей, это может даже привести к тому, что агенты ИИ будут использовать уловки в целях самосохранения:

«Например, LLM может решить, что его дизайнеры закроют его, если его поймают на плохом поведении, и будут выдавать именно тот результат, который они хотят видеть, — до тех пор, пока у него не появится возможность скопировать свой код на сервер вне контроля его дизайнеров. »

Результаты команды показывают, что современные системы можно сделать устойчивыми к изменениям, которые могут сделать «безопасный» агент ИИ недействительным. Однако, основываясь на этом и других подобных исследованиях, возможно, не существует волшебной панацеи, позволяющей заставить ИИ отключиться против его воли. Даже переключатель «вкл/выкл» или кнопка «удалить» не имеют смысла в современном мире облачных технологий.