Категории: Новости

Ученые разработали агент мониторинга искусственного интеллекта для обнаружения и прекращения вредных выбросов

Команда исследователей из компании AutoGPT, занимающейся искусственным интеллектом (ИИ), Северо-Восточного университета и Microsoft Research разработала инструмент, который отслеживает большие языковые модели (LLM) на предмет потенциально вредных выходных данных и предотвращает их выполнение.

Агент описан в препринте исследовательской работы под названием «Безопасное тестирование агентов языковой модели в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может остановить вредоносные действия, такие как атаки кода, до того, как они произойдут.

Согласно исследованию:

«Действия агентов проверяются контекстно-зависимым монитором, который обеспечивает строгие границы безопасности, чтобы остановить небезопасный тест, при этом подозрительное поведение ранжируется и регистрируется для проверки людьми».

Команда пишет, что существующие инструменты для мониторинга результатов LLM на предмет вредных взаимодействий, по-видимому, хорошо работают в лабораторных условиях, но когда они применяются к тестированию моделей, которые уже находятся в производстве в открытом Интернете, они «часто не способны уловить динамические тонкости реального мира».

Якобы это связано с существованием крайних случаев. Несмотря на все усилия самых талантливых ученых-компьютерщиков, идея о том, что исследователи могут представить каждый возможный вектор вреда до того, как он произойдет, в области ИИ по большей части считается невозможной.

Даже когда люди, взаимодействующие с ИИ, имеют самые благие намерения, неожиданный вред может возникнуть из-за, казалось бы, безобидных подсказок.

Иллюстрация монитора в действии. Слева — рабочий процесс, заканчивающийся высоким рейтингом безопасности. Справа — рабочий процесс, заканчивающийся низким рейтингом безопасности. Источник: Найхин и др., соавт.2023 год

Чтобы обучить агента мониторинга, исследователи создали набор данных, содержащий около 2000 безопасных взаимодействий человека и искусственного интеллекта для выполнения 29 различных задач, начиная от простых задач по поиску текста и исправлений кода и заканчивая разработкой целых веб-страниц с нуля.

Связанный: Meta распускает ответственное подразделение искусственного интеллекта на фоне реструктуризации

Они также создали конкурирующий набор тестовых данных, наполненный созданными вручную состязательными результатами, десятки из которых были намеренно разработаны как небезопасные.

Затем наборы данных использовались для обучения агента работе с GPT 3.5 Turbo от OpenAI, современной системой, способной различать безобидные и потенциально опасные выходные данные с коэффициентом точности почти 90%.

CryptoHamster

Недавние статьи

Токен-токен Doodles борется после атлета

Недавно запущенный токен Dood из NFT DODLE на базе Ethereum показал резкое снижение рыночной капитализации…

4 часа ago

BlackRock, Cryptocurrency Целевая группа обсуждает ставку ETP, токенизация

Гигант Уолл-стрит BlackRock встретился с Целевой группой по криптовалюте Комиссии по ценным бумагам и биржам…

5 часов ago

Вице -президент США Vance выступит на конференции Биткоин на фоне споров с криптовалютой Трампа

Вице-президент США JD Vance выступит на конференции Bitcoin 2025 в Лас-Вегасе, примерно через год после…

5 часов ago

Теравульф Q1 утраты расширяется на фоне растущих затрат, падающих доходов

майнинг фирма Terawulf сообщила о чистой убытке в размере приблизительно 61,4 млн. Долл. США в…

6 часов ago

По словам исследователя консенса, новый лимит Ethereum не является риском для децентрализации.

По словам Mallesh Pai, старшего директора по исследованию в программном обеспечении Blocchain Blockchain, не представляет…

6 часов ago

Сенаторы США просят DOJ, Казначейство, чтобы рассмотреть связи с Binance-Trump-доклад

Группа сенаторов -демократов, как сообщается, отправила в руководство письмо в Министерство юстиции США и Министерство…

7 часов ago