Категории: Новости

Исследователи обнаружили, что даже хороший ИИ может стать устойчивым к отключению

Ученые из ученых теории выравнивания машинного обучения, Университета Торонто, Google DeepMind и Института будущего жизни недавно опубликовали исследование, показывающее, что борьба за сохранение искусственного интеллекта (ИИ) под контролем человека может стать постоянной борьбой.

В предварительном исследовательском документе группы, получившем название «Количественная оценка стабильности отсутствия стремления к власти в искусственных агентах», исследуется вопрос о том, останется ли система искусственного интеллекта, которая кажется безопасно согласованной с человеческими ожиданиями в одной области, такой, когда ее окружающая среда изменится..

Согласно статье:

«Наше представление о безопасности основано на стремлении к власти: агент, который стремится к власти, небезопасен. В частности, мы уделяем особое внимание важнейшему типу стремления к власти: сопротивлению отключению».

Эта форма угрозы называется «перекосом». Один из способов, которым, по мнению экспертов, это может проявиться, называется «инструментальной конвергенцией». Это парадигма, в которой система ИИ непреднамеренно наносит вред человечеству, преследуя поставленные цели.

Ученые описывают систему искусственного интеллекта, обученную достигать цели в игре с открытым концом, которая, вероятно, будет «избегать действий, которые приводят к завершению игры, поскольку она больше не может влиять на награду после окончания игры».

Связанный: Иск New York Times сталкивается с сопротивлением со стороны OpenAI из-за этических методов искусственного интеллекта

Хотя агент, отказывающийся прекратить играть в игру, может быть безвредным, функции вознаграждения могут привести к тому, что некоторые системы ИИ откажутся завершить работу в более серьезных ситуациях.

По мнению исследователей, это может даже привести к тому, что агенты ИИ будут использовать уловки в целях самосохранения:

«Например, LLM может решить, что его дизайнеры закроют его, если его поймают на плохом поведении, и будут выдавать именно тот результат, который они хотят видеть, — до тех пор, пока у него не появится возможность скопировать свой код на сервер вне контроля его дизайнеров. »

Результаты команды показывают, что современные системы можно сделать устойчивыми к изменениям, которые могут сделать «безопасный» агент ИИ недействительным. Однако, основываясь на этом и других подобных исследованиях, возможно, не существует волшебной панацеи, позволяющей заставить ИИ отключиться против его воли. Даже переключатель «вкл/выкл» или кнопка «удалить» не имеют смысла в современном мире облачных технологий.

CryptoHamster

Недавние статьи

Официальный документ, породивший криптовалюту ZK-доказательства, получил награду IEEE «Испытание временем»

Исследовательская работа десятилетней давности, рассматриваемая как «проект» первого практического использования доказательств с нулевым разглашением (ZK-доказательства),…

3 часа ago

Dogecoin образует симметричный треугольник, ралли на горизонте?

На фоне значительного роста, продемонстрированного в последнее время Dogecoin (DOGE), популярный аналитик криптовалюты Daily Trade…

3 часа ago

New York AG достигла соглашения с Genesis на 2 миллиарда долларов «за обманутых жертв»

Летиция Джеймс, генеральный прокурор штата Нью-Йорк, объявила, что ее офис добился выплаты 2 миллиардов долларов…

4 часа ago

Розничные инвесторы в биткоины сбрасывают акции на фоне скачка до $67 000, почему это хорошо для цены

Восстановление цены Биткоина выше уровня $67 000 спровоцировало раунд продаж, но это не обычный лагерь…

4 часа ago

Основатель Cardano предсказывает, что криптовалюта изменит правила игры на выборах

Криптовалютная индустрия США ведет ожесточенную борьбу против Белого дома, при этом напряженность достигает точки кипения…

6 часов ago

Kaamel Technology возглавит расследование взлома XLink на 10 миллионов долларов

Биткоин-мост XLink объявил 20 мая о партнерстве с Kaamel Technology в рамках своей первой крупной…

6 часов ago