Команда дослідників із фірми штучного інтелекту (ШІ) AutoGPT, Північно-Східного університету та Microsoft Research розробила інструмент, який відстежує великі мовні моделі (LLM) на потенційно шкідливі результати та запобігає їх виконанню.
Агент описано в препринтній дослідницькій статті під назвою «Безпечне тестування агентів мовної моделі в дикій природі». Відповідно до дослідження, агент є достатньо гнучким, щоб відстежувати існуючі LLM і може зупинити шкідливі виходи, такі як кодові атаки, перш ніж вони відбудуться.
Згідно з дослідженням:
«Дії агента перевіряються контекстно-залежним монітором, який забезпечує дотримання суворих меж безпеки, щоб зупинити небезпечний тест, з підозрілою поведінкою, яка ранжирується та реєструється для перевірки людьми».
Команда пише, що існуючі інструменти для моніторингу вихідних даних LLM для виявлення шкідливих взаємодій, здавалося б, добре працюють у лабораторних умовах, але при застосуванні до тестування моделей, які вже знаходяться у виробництві у відкритому Інтернеті, вони «часто не в змозі охопити динамічні тонкощі реального світу».
Це, нібито, через існування граничних випадків. Незважаючи на всі зусилля найталановитіших комп’ютерників, ідея про те, що дослідники можуть уявити кожен можливий вектор шкоди до того, як вона станеться, здебільшого вважається неможливою в галузі ШІ.
Навіть якщо люди, які взаємодіють з ШІ, мають найкращі наміри, несподівана шкода може виникнути через, здавалося б, нешкідливі підказки.
Щоб навчити агента моніторингу, дослідники створили набір даних із майже 2000 безпечних взаємодій між людиною та штучним інтелектом для 29 різних завдань, починаючи від простих завдань із пошуку тексту та виправлення коду, аж до розробки цілих веб-сторінок з нуля.
За темою: Meta розпускає відповідальний підрозділ штучного інтелекту на тлі реструктуризації
Вони також створили конкуруючий набір даних тестування, наповнений створеними вручну конкурентними виходами, включаючи десятки з них, які були навмисно розроблені як небезпечні.
Потім набори даних використовували для навчання агента на OpenAI GPT 3.5 turbo, найсучаснішій системі, здатній розрізняти нешкідливі та потенційно шкідливі результати з коефіцієнтом точності майже 90%.