Категории: Новости

Исследователи обнаружили, что даже хороший ИИ может стать устойчивым к отключению

Ученые из ученых теории выравнивания машинного обучения, Университета Торонто, Google DeepMind и Института будущего жизни недавно опубликовали исследование, показывающее, что борьба за сохранение искусственного интеллекта (ИИ) под контролем человека может стать постоянной борьбой.

В предварительном исследовательском документе группы, получившем название «Количественная оценка стабильности отсутствия стремления к власти в искусственных агентах», исследуется вопрос о том, останется ли система искусственного интеллекта, которая кажется безопасно согласованной с человеческими ожиданиями в одной области, такой, когда ее окружающая среда изменится..

Согласно статье:

«Наше представление о безопасности основано на стремлении к власти: агент, который стремится к власти, небезопасен. В частности, мы уделяем особое внимание важнейшему типу стремления к власти: сопротивлению отключению».

Эта форма угрозы называется «перекосом». Один из способов, которым, по мнению экспертов, это может проявиться, называется «инструментальной конвергенцией». Это парадигма, в которой система ИИ непреднамеренно наносит вред человечеству, преследуя поставленные цели.

Ученые описывают систему искусственного интеллекта, обученную достигать цели в игре с открытым концом, которая, вероятно, будет «избегать действий, которые приводят к завершению игры, поскольку она больше не может влиять на награду после окончания игры».

Связанный: Иск New York Times сталкивается с сопротивлением со стороны OpenAI из-за этических методов искусственного интеллекта

Хотя агент, отказывающийся прекратить играть в игру, может быть безвредным, функции вознаграждения могут привести к тому, что некоторые системы ИИ откажутся завершить работу в более серьезных ситуациях.

По мнению исследователей, это может даже привести к тому, что агенты ИИ будут использовать уловки в целях самосохранения:

«Например, LLM может решить, что его дизайнеры закроют его, если его поймают на плохом поведении, и будут выдавать именно тот результат, который они хотят видеть, — до тех пор, пока у него не появится возможность скопировать свой код на сервер вне контроля его дизайнеров. »

Результаты команды показывают, что современные системы можно сделать устойчивыми к изменениям, которые могут сделать «безопасный» агент ИИ недействительным. Однако, основываясь на этом и других подобных исследованиях, возможно, не существует волшебной панацеи, позволяющей заставить ИИ отключиться против его воли. Даже переключатель «вкл/выкл» или кнопка «удалить» не имеют смысла в современном мире облачных технологий.

CryptoHamster

Недавние статьи

Заказ двух пицц «Папа Джонс» в 2010 году теперь близок к ошибке в 1 миллиард долларов

Две пиццы «Папа Джонс», заказанные программистом Ласло Ханьечем в 2010 году за 10 000 Биткоин…

4 часа ago

Цепочка выросла на 20%: активность китов отменяет медвежий тренд

Chainlink (LINK) переживает значительный рост в секторе криптовалют: стоимость выросла на 20% всего за одну…

4 часа ago

Технология с нулевым разглашением на основе хэша может обеспечить квантовую устойчивость Эфириума — XinXin Fan

Доктор СиньСинь Фан, руководитель отдела криптовалюты в IoTeX, недавно стал соавтором исследовательской работы под названием…

7 часов ago

Ставки финансирования Биткоин на основных биржах выросли на 20% — что происходит?

Цена Биткоина на этой неделе выросла с того места, где она остановилась на предыдущей неделе,…

7 часов ago

Deribit переводит $783 млн в Ethereum в холодное хранилище: бычий сигнал для ETH?

В то время как Ethereum, похоже, начал свой крупный рост, недавно этот актив испытал значительную…

8 часов ago

Этот аналитик правильно предсказал скачок цены Биткоин до $99 000, но его прогноз не оправдался

Криптовалютный аналитик, который точно спрогнозировал рост цены Биткоина до исторического максимума в $99 000 (ATH),…

10 часов ago