Команда исследователей из компании AutoGPT, занимающейся искусственным интеллектом (ИИ), Северо-Восточного университета и Microsoft Research разработала инструмент, который отслеживает большие языковые модели (LLM) на предмет потенциально вредных выходных данных и предотвращает их выполнение.
Агент описан в препринте исследовательской работы под названием «Безопасное тестирование агентов языковой модели в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может остановить вредоносные действия, такие как атаки кода, до того, как они произойдут.
Согласно исследованию:
«Действия агентов проверяются контекстно-зависимым монитором, который обеспечивает строгие границы безопасности, чтобы остановить небезопасный тест, при этом подозрительное поведение ранжируется и регистрируется для проверки людьми».
Команда пишет, что существующие инструменты для мониторинга результатов LLM на предмет вредных взаимодействий, по-видимому, хорошо работают в лабораторных условиях, но когда они применяются к тестированию моделей, которые уже находятся в производстве в открытом Интернете, они «часто не способны уловить динамические тонкости реального мира».
Якобы это связано с существованием крайних случаев. Несмотря на все усилия самых талантливых ученых-компьютерщиков, идея о том, что исследователи могут представить каждый возможный вектор вреда до того, как он произойдет, в области ИИ по большей части считается невозможной.
Даже когда люди, взаимодействующие с ИИ, имеют самые благие намерения, неожиданный вред может возникнуть из-за, казалось бы, безобидных подсказок.
Чтобы обучить агента мониторинга, исследователи создали набор данных, содержащий около 2000 безопасных взаимодействий человека и искусственного интеллекта для выполнения 29 различных задач, начиная от простых задач по поиску текста и исправлений кода и заканчивая разработкой целых веб-страниц с нуля.
Связанный: Meta распускает ответственное подразделение искусственного интеллекта на фоне реструктуризации
Они также создали конкурирующий набор тестовых данных, наполненный созданными вручную состязательными результатами, десятки из которых были намеренно разработаны как небезопасные.
Затем наборы данных использовались для обучения агента работе с GPT 3.5 Turbo от OpenAI, современной системой, способной различать безобидные и потенциально опасные выходные данные с коэффициентом точности почти 90%.