Дослідники виявили, що навіть хороший ШІ може стати стійким до відключення

Автор CryptoHamster На читання 2 хв Переглядів 9 Опубліковано 09.01.2024 Оновлено 09.01.2024

Вчені з ML Alignment Theory Scholars, Університету Торонто, Google DeepMind та Інституту майбутнього життя нещодавно опублікували дослідження, яке вказує на те, що боротьба за збереження штучного інтелекту (ШІ) під контролем людини може стати постійною боротьбою.

Дослідницька стаття команди під назвою «Кількісна оцінка стабільності не-пошуку влади в штучних агентах» досліджує питання про те, чи система штучного інтелекту, яка виглядає безпечно узгодженою з людськими очікуваннями в одному домені, ймовірно, залишиться такою, коли змінюється її середовище..

За папером:

«Наше уявлення про безпеку базується на прагненні до влади — агент, який прагне влади, не є безпечним. Зокрема, ми зосереджуємося на важливому типі пошуку влади: протистоянні зупинці».

Ця форма загрози називається «зміщенням». Експерти вважають, що один із способів її прояву називається «інструментальна конвергенція». Це парадигма, в якій система штучного інтелекту ненавмисно завдає шкоди людству, переслідуючи поставлені цілі.

Вчені описують систему штучного інтелекту, навчену досягати мети у відкритій грі, яка, швидше за все, «уникає дій, які призводять до завершення гри, оскільки вона більше не може впливати на винагороду після закінчення гри».

За темою: позов New York Times стикається з відмовою OpenAI через етичні практики ШІ

Хоча агент, який відмовляється припинити гру, може бути нешкідливим, функції винагороди можуть змусити деякі системи штучного інтелекту відмовитися від завершення роботи в більш серйозних ситуаціях.

За словами дослідників, це може навіть призвести до того, що агенти ШІ будуть практикувати хитрість з метою самозбереження:

«Наприклад, LLM може вважати, що його дизайнери закриють його, якщо його спіймають у поганій поведінці, і створять саме той результат, який вони хочуть бачити, доки він не матиме можливість скопіювати свій код на сервер поза контролем його дизайнерів. »

Висновки команди вказують на те, що сучасні системи можна зробити стійкими до змін, які можуть зробити «безпечного» агента штучного інтелекту шахраєм. Однак, ґрунтуючись на цьому та подібних дослідницьких дослідженнях, можливо, не існує чарівної панацеї, щоб змусити штучний інтелект припинити роботу проти його волі. Навіть перемикач «увімкнути/вимкнути» або кнопка «видалити» не має сенсу в сучасному світі хмарних технологій.