Meta выпускает пакет безопасности искусственного интеллекта «Purple Llama» для выполнения обязательств Белого дома

Автор Victoria Lyapota На чтение 3 мин Просмотров 37 Опубликовано 07.12.2023 Обновлено 07.12.2023

7 декабря Meta выпустила набор инструментов для обеспечения безопасности и сравнительного анализа генеративных моделей искусственного интеллекта (ИИ).

Набор инструментов, получивший название «Purple Llama», предназначен для того, чтобы помочь разработчикам безопасно и надежно создавать проекты с помощью инструментов генеративного искусственного интеллекта, таких как модель Meta с открытым исходным кодом, Llama-2.

Announcing Purple Llama — A new project to help level the playing field for building safe & responsible generative AI experiences.

Purple Llama includes permissively licensed tools, evals & models to enable both research & commercial use.

More details ➡️ https://t.co/k4ezDvhpHp pic.twitter.com/6BGZY36eM2

— AI at Meta (@AIatMeta) December 7, 2023

Фиолетовая команда AI

Согласно сообщению в блоге Meta, «фиолетовая» часть «Purple Llama» относится к комбинации «красной команды» и «синей команды».

Красная команда — это парадигма, в которой разработчики или внутренние тестировщики намеренно атакуют модель ИИ, чтобы увидеть, могут ли они создавать ошибки, сбои или нежелательные выходные данные и взаимодействия. Это позволяет разработчикам создавать стратегии устойчивости к вредоносным атакам и защищаться от ошибок безопасности.

Синие команды, с другой стороны, являются полной противоположностью. Здесь разработчики или тестировщики реагируют на атаки красной команды, чтобы определить стратегии смягчения, необходимые для борьбы с реальными угрозами в производственных, потребительских или клиентских моделях.

По мета:

«Мы считаем, что для того, чтобы по-настоящему смягчить проблемы, которые создает генеративный ИИ, нам необходимо занять как атакующую (красная команда), так и оборонительную (синяя команда) позиции. Фиолетовая команда, состоящая из обязанностей как красной, так и синей команды, представляет собой совместный подход к оценке и снижению потенциальных рисков».

Модели защиты

Релиз, который, как утверждает Meta, является «первым общеотраслевым набором оценок кибербезопасности для моделей большого языка (LLM)», включает в себя:

Метрики для количественной оценки риска кибербезопасности LLM
Инструменты для оценки частоты предложений небезопасного кода
Инструменты для оценки LLM, чтобы затруднить создание вредоносного кода или помочь в проведении кибератак.

Основная идея состоит в том, чтобы интегрировать систему в конвейеры моделей, чтобы уменьшить количество нежелательных выходных данных и небезопасного кода, одновременно ограничивая полезность эксплойтов модели для киберпреступников и злоумышленников.

«В этом первом выпуске, — пишет команда Meta AI, — мы стремимся предоставить инструменты, которые помогут устранить риски, изложенные в обязательствах Белого дома».

По теме: Администрация Байдена издает указ о новых стандартах безопасности ИИ