Ученые из ученых теории выравнивания машинного обучения, Университета Торонто, Google DeepMind и Института будущего жизни недавно опубликовали исследование, показывающее, что борьба за сохранение искусственного интеллекта (ИИ) под контролем человека может стать постоянной борьбой.
В предварительном исследовательском документе группы, получившем название «Количественная оценка стабильности отсутствия стремления к власти в искусственных агентах», исследуется вопрос о том, останется ли система искусственного интеллекта, которая кажется безопасно согласованной с человеческими ожиданиями в одной области, такой, когда ее окружающая среда изменится..
Согласно статье:
«Наше представление о безопасности основано на стремлении к власти: агент, который стремится к власти, небезопасен. В частности, мы уделяем особое внимание важнейшему типу стремления к власти: сопротивлению отключению».
Эта форма угрозы называется «перекосом». Один из способов, которым, по мнению экспертов, это может проявиться, называется «инструментальной конвергенцией». Это парадигма, в которой система ИИ непреднамеренно наносит вред человечеству, преследуя поставленные цели.
Ученые описывают систему искусственного интеллекта, обученную достигать цели в игре с открытым концом, которая, вероятно, будет «избегать действий, которые приводят к завершению игры, поскольку она больше не может влиять на награду после окончания игры».
Связанный: Иск New York Times сталкивается с сопротивлением со стороны OpenAI из-за этических методов искусственного интеллекта
Хотя агент, отказывающийся прекратить играть в игру, может быть безвредным, функции вознаграждения могут привести к тому, что некоторые системы ИИ откажутся завершить работу в более серьезных ситуациях.
По мнению исследователей, это может даже привести к тому, что агенты ИИ будут использовать уловки в целях самосохранения:
«Например, LLM может решить, что его дизайнеры закроют его, если его поймают на плохом поведении, и будут выдавать именно тот результат, который они хотят видеть, — до тех пор, пока у него не появится возможность скопировать свой код на сервер вне контроля его дизайнеров. »
Результаты команды показывают, что современные системы можно сделать устойчивыми к изменениям, которые могут сделать «безопасный» агент ИИ недействительным. Однако, основываясь на этом и других подобных исследованиях, возможно, не существует волшебной панацеи, позволяющей заставить ИИ отключиться против его воли. Даже переключатель «вкл/выкл» или кнопка «удалить» не имеют смысла в современном мире облачных технологий.