Категории: Новости

Ученые разработали агент мониторинга искусственного интеллекта для обнаружения и прекращения вредных выбросов

Команда исследователей из компании AutoGPT, занимающейся искусственным интеллектом (ИИ), Северо-Восточного университета и Microsoft Research разработала инструмент, который отслеживает большие языковые модели (LLM) на предмет потенциально вредных выходных данных и предотвращает их выполнение.

Агент описан в препринте исследовательской работы под названием «Безопасное тестирование агентов языковой модели в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может остановить вредоносные действия, такие как атаки кода, до того, как они произойдут.

Согласно исследованию:

«Действия агентов проверяются контекстно-зависимым монитором, который обеспечивает строгие границы безопасности, чтобы остановить небезопасный тест, при этом подозрительное поведение ранжируется и регистрируется для проверки людьми».

Команда пишет, что существующие инструменты для мониторинга результатов LLM на предмет вредных взаимодействий, по-видимому, хорошо работают в лабораторных условиях, но когда они применяются к тестированию моделей, которые уже находятся в производстве в открытом Интернете, они «часто не способны уловить динамические тонкости реального мира».

Якобы это связано с существованием крайних случаев. Несмотря на все усилия самых талантливых ученых-компьютерщиков, идея о том, что исследователи могут представить каждый возможный вектор вреда до того, как он произойдет, в области ИИ по большей части считается невозможной.

Даже когда люди, взаимодействующие с ИИ, имеют самые благие намерения, неожиданный вред может возникнуть из-за, казалось бы, безобидных подсказок.

Иллюстрация монитора в действии. Слева — рабочий процесс, заканчивающийся высоким рейтингом безопасности. Справа — рабочий процесс, заканчивающийся низким рейтингом безопасности. Источник: Найхин и др., соавт.2023 год

Чтобы обучить агента мониторинга, исследователи создали набор данных, содержащий около 2000 безопасных взаимодействий человека и искусственного интеллекта для выполнения 29 различных задач, начиная от простых задач по поиску текста и исправлений кода и заканчивая разработкой целых веб-страниц с нуля.

Связанный: Meta распускает ответственное подразделение искусственного интеллекта на фоне реструктуризации

Они также создали конкурирующий набор тестовых данных, наполненный созданными вручную состязательными результатами, десятки из которых были намеренно разработаны как небезопасные.

Затем наборы данных использовались для обучения агента работе с GPT 3.5 Turbo от OpenAI, современной системой, способной различать безобидные и потенциально опасные выходные данные с коэффициентом точности почти 90%.

CryptoHamster

Недавние статьи

Биткоин стоимостью 99 тысяч долларов отреагировал на объявление Генслера об уходе из SEC

Биткоин (BTC) в четверг подскочил выше 99 000 долларов, установив новый рубеж, а затем немного…

3 часа ago

Биткоин, не обеспокоенный истечением срока действия опционов на 2,6 миллиарда долларов, продолжает расти до 100 тысяч долларов

Биткоин остается на пути к отметке в 100 000 долларов, несмотря на опасения инвесторов по…

6 часов ago

Токен Ethena растет благодаря интеграции USDe с Deribit

Deribit, одна из крупнейших в мире бирж криптовалютных деривативов, планирует интегрировать синтетический доллар Ethena USDe…

7 часов ago

Allianz, крупнейший страховщик Германии, покупает 24% облигаций MicroStrategy на сумму 2,6 миллиарда долларов.

Крупнейшая страховая компания Германии Allianz приобрела почти четверть конвертируемых банкнот MicroStrategy на сумму 2,6 миллиарда…

8 часов ago

По словам законодателя, техасская монета, обеспеченная золотом, призвана помочь принятию Биткоин

Законодатель из Техаса считает, что предложенная штатом цифровая валюта, обеспеченная золотом, может сыграть ключевую роль…

9 часов ago

Цена эфира составит $3,7 тыс. , несмотря на китовую распродажу на $1,3 млрд.

Несмотря на массовые распродажи со стороны ранних инвесторов стоимостью в миллионы, некоторые из самых популярных…

10 часов ago