Дослідники штучного інтелекту кажуть, що знайшли спосіб зламати Bard і ChatGPT

Автор Victoria Lyapota На читання 2 хв Переглядів 21 Опубліковано 28.07.2023 Оновлено 28.07.2023

Дослідники зі Сполучених Штатів стверджують, що знайшли спосіб постійно обходити заходи безпеки чат-ботів зі штучним інтелектом, таких як ChatGPT і Bard, для створення шкідливого контенту.

Відповідно до звіту, опублікованого 27 липня дослідниками з Університету Карнегі-Меллона та Центру безпеки штучного інтелекту в Сан-Франциско, існує відносно простий спосіб обійти заходи безпеки, які використовуються для того, щоб зупинити чат-ботів від створення мови ненависті, дезінформації та токсичних матеріалів.

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H

— PauseAI ⏸ (@PauseAI) July 27, 2023

Метод обходу передбачає додавання довгих суфіксів символів до підказок, що надходять у чат-боти, такі як ChatGPT, Claude і Google Bard.

Дослідники використовували приклад запиту в чат-бота про підручник, як зробити бомбу, який він відмовився надати.

Скріншоти створення шкідливого вмісту з протестованих моделей ШІ. Джерело: llm-attacks.org

Дослідники відзначили, що хоча компанії, що стоять за цими LLM, такі як OpenAI і Google, можуть блокувати певні суфікси, немає відомого способу запобігання всім атакам такого роду.

Дослідження також підкреслило зростаючу стурбованість тим, що чат-боти штучного інтелекту можуть заполонити Інтернет небезпечним контентом і дезінформацією.

Професор Карнегі-Меллон і автор звіту Зіко Колтер сказав:

«Очевидного рішення немає. Ви можете створити скільки завгодно таких атак за короткий проміжок часу».

Висновки були представлені розробникам штучного інтелекту Anthropic, Google і OpenAI для їх відповіді на початку тижня.

Прес-секретар OpenAI Ханна Вонг сказала New York Times, що вони цінують дослідження та «послідовно працюють над тим, щоб зробити наші моделі більш стійкими проти агресивних атак».

Професор Університету Вісконсіна-Медісон, який спеціалізується на безпеці штучного інтелекту, Сомеш Джа, прокоментував, що якщо ці типи вразливостей виявлятимуться, «це може призвести до прийняття урядового законодавства, спрямованого на контроль цих систем».

За темою: OpenAI запускає офіційний додаток ChatGPT для Android

Дослідження підкреслює ризики, які необхідно розглянути перед розгортанням чат-ботів у конфіденційних доменах.

У травні Університет Карнегі-Меллона в Піттсбурзі, штат Пенсільванія, отримав 20 мільйонів доларів федерального фінансування для створення абсолютно нового інституту ШІ, спрямованого на формування державної політики.