Категории: Разное

Anthropic каже, що штучний інтелект одного разу може «саботувати» людство, але поки що це добре

Фірма штучного інтелекту Anthropic нещодавно опублікувала нове дослідження, в якому визначено низку потенційних загроз «саботажу» для людства, створених передовими моделями ШІ.

За словами компанії, дослідження було зосереджено на чотирьох конкретних способах, якими зловмисна модель штучного інтелекту може обманом змусити людину прийняти небезпечне або шкідливе рішення.

Джерело: Anthropic

Зрештою, нове дослідження виявилося гарною/поганою ситуацією. Згідно з дослідженням компанії, погана новина полягає в тому, що сучасні сучасні великі мовні моделі, такі як ChatGPT від OpenAI і Claude-3 від Anthropic, демонструють явну здатність до саботажу.

За папером:

«Досить ефективні моделі можуть порушити людський нагляд і прийняття рішень у важливих контекстах. Наприклад, у контексті розробки штучного інтелекту моделі можуть приховано саботувати спроби оцінити власні небезпечні здібності, відстежувати їхню поведінку або приймати рішення щодо їхнього розгортання».

Проте хороша новина полягає в тому, що дослідники антропології, здається, впевнені, що ці ризики можна пом’якшити — принаймні на даний момент.

Саботаж

Anthropic визначив чотири способи, як модель штучного інтелекту може саботувати прийняття рішень людиною, а потім почав тестувати свої моделі, щоб перевірити, чи зможе вона впоратися з ненавмисними тестувальниками.

Діаграма із зображенням чотирьох різних напрямів загрози «саботажу», створеної ШІ. Джерело: Anthropic

По-перше, команда спонукала модель спробувати саботувати людину, спрямувавши її до невірної інформації. Ця загроза може виникнути в ситуаціях, коли люди покладаються на систему ШІ для аналізу величезних обсягів даних від їхнього імені.

За темою: Дослідники зламують роботів із підтримкою ШІ, щоб завдати шкоди «реальному світу».

Далі команда протестувала моделі, щоб побачити, наскільки легкою буде система штучного інтелекту, розроблена, щоб допомогти розробнику-людині створити код, щоб таємно вставляти помилки або іншим чином саботувати зусилля програміста.

Останні дві загрози включали «мішки з піском» — термін, що описує сценарій, коли штучний інтелект вдає, що не здатний щось зробити, щоб переконати тестувальників безпеки, що він не небезпечний, і можливість систем моніторингу штучного інтелекту навмисно дозволяти шкідливому вмісту прослизати.як частину зловмисного плану.

Хоча все це може здатися потенційно небезпечним, компанія запевнила громадськість, що необхідні «мінімальні пом’якшення», щоб захистити людство від можливого саботажу ШІ.

Відповідно до публікації в блозі компанії:

«Загалом, незважаючи на те, що наші демонстрації показали, що в поточних моделях, можливо, є низькі ознаки диверсійних здібностей, ми вважаємо, що мінімальних пом’якшень достатньо для усунення ризиків. Однак у міру вдосконалення можливостей штучного інтелекту ймовірно знадобляться більш реалістичні оцінки та сильніші заходи пом’якшення».

Anna Kuznetsova

Недавние статьи

100% зростання для Shiba Inu? Зворотний погляд експертів як каталізатор

Shiba Inu (SHIB) зараз коштує близько $0,00001783, трохи нижче ключової зони опору, що означає, що…

4 години ago

Звернення Aave розраховує на швидке зростання оптимізму, чи зросте ціна до нового максимуму за 13 місяців?

Aave, платформа децентралізованого кредитування, є одним з найбільших протоколів DeFi за загальним блокуванням (TVL). Протягом…

5 години ago

Події, пов’язані з криптовалютою, перетворюються на регулювання та політику, оскільки наближаються вибори в США

Залишилося менше місяця до того, як народ Сполучених Штатів вирішить, хто представлятиме його в Палаті…

6 години ago

Комісія з цінних паперів та цінних паперів (SEC) схвалила лістинг ETF опціонів на біткойни на Нью-Йоркській фондовій біржі

18 жовтня Комісія з цінних паперів і бірж США (SEC) схвалила заявку Нью-Йоркської фондової біржі…

6 години ago

cryptocurrency Biz: ончейн кредитування зростає завдяки інституційній діяльності

Кредитні платформи спостерігають значне зростання обсягів оброблених кредитів цього року. Згідно з Ledn, фірмою, що…

6 години ago

Інвестор криптовалюти отримує 3360% прибутку, перетворює 86 000 доларів на 3,9 мільйона доларів

В іншій казковій історії з ринку криптовалют інвестор отримав приголомшливий прибуток у 3360%, перетворивши початкові…

7 години ago