Категории: Новости

Исследователи обнаружили, что LLM, такие как ChatGPT, выдают конфиденциальные данные даже после того, как они были «удалены».

Трое ученых из Университета Северной Каролины в Чапел-Хилле недавно опубликовали предварительный анализ исследования искусственного интеллекта (ИИ), демонстрирующий, насколько сложно удалить конфиденциальные данные из больших языковых моделей (LLM), таких как ChatGPT OpenAI и Bard от Google.

Согласно статье исследователей, задача «удаления» информации из LLM возможна, но проверить, что информация была удалена, так же сложно, как и удалить ее на самом деле.

Причина этого связана с тем, как LLM проектируются и обучаются. Модели предварительно обучаются (GPT означает генеративный предварительно обученный преобразователь) в базах данных, а затем настраиваются для генерации последовательных результатов.

После обучения модели ее создатели не могут, например, вернуться в базу данных и удалить определенные файлы, чтобы запретить модели выводить связанные результаты. По сути, вся информация, на которой обучается модель, существует где-то внутри ее весов и параметров, где их невозможно определить без фактической генерации выходных данных. Это «черный ящик» ИИ.

Проблема возникает, когда LLM, обученные на массивных наборах данных, выдают конфиденциальную информацию, такую ​​​​как личная информация, финансовые отчеты или другие потенциально вредные/нежелательные результаты.

По теме: Microsoft сформирует команду по ядерной энергетике для поддержки искусственного интеллекта: отчет

Например, в гипотетической ситуации, когда LLM прошел обучение конфиденциальной банковской информации, у создателя ИИ обычно нет возможности найти эти файлы и удалить их. Вместо этого разработчики ИИ используют ограждения, такие как жестко запрограммированные подсказки, которые запрещают определенное поведение, или обучение с подкреплением на основе обратной связи с человеком (RLHF).

В парадигме RLHF эксперты-люди используют модели с целью выявить как желаемое, так и нежелательное поведение. Когда результаты моделей желательны, они получают обратную связь, которая настраивает модель на это поведение. А когда результаты демонстрируют нежелательное поведение, они получают обратную связь, предназначенную для ограничения такого поведения в будущих результатах.

Здесь мы видим, что, несмотря на то, что слово «Испания» было «удалено» из весов модели, его все равно можно вызвать с помощью переформулированных подсказок. Источник изображения: Патил и др. др., 2023 г.

Однако, как отмечают исследователи UNC, этот метод основан на том, что люди находят все недостатки модели, и даже в случае успеха он все равно не «удаляет» информацию из модели.

Согласно исследовательскому документу команды:

«Возможно, более глубокий недостаток RLHF заключается в том, что модель все еще может знать конфиденциальную информацию. Хотя ведется много споров о том, что модели на самом деле «знают», кажется проблематичным, если модель, например, сможет описать, как создать биологическое оружие, но просто воздержится от ответа на вопросы о том, как это сделать».

В конечном итоге исследователи UNC пришли к выводу, что даже самые современные методы редактирования моделей, такие как редактирование моделей первого ранга (ROME), «не могут полностью удалить фактическую информацию из LLM, поскольку факты все еще можно извлечь в 38% случаев». атаками «белого ящика» и в 29% случаев атаками «черного ящика».

Модель, которую команда использовала для проведения своего исследования, называется GPT-J. В то время как GPT-3.5, одна из базовых моделей ChatGPT, была настроена на 170 миллиардов параметров, GPT-J имеет только 6 миллиардов.

Якобы это означает, что проблема поиска и устранения нежелательных данных в LLM, таком как GPT-3.5, экспоненциально сложнее, чем в меньшей модели.

Исследователи смогли разработать новые методы защиты LLM от некоторых «атак извлечения» — целенаправленных попыток злоумышленников использовать подсказки, чтобы обойти ограничения модели и заставить ее выводить конфиденциальную информацию.

Однако, как пишут исследователи, «проблема удаления конфиденциальной информации может заключаться в том, что методы защиты всегда догоняют новые методы атак».

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Недавние статьи

Альткойны наблюдают массовый приток на фоне рекордного ралли Биткоин, но предупреждения о пузыре 2021 года сохраняются

На фоне значительного роста цен на криптовалюту альткойны начинают опережать Биткоин (BTC), отмечая заметный сдвиг…

5 часов ago

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap побила свой рекорд по ежемесячному объему на втором уровне Ethereum, поскольку любители децентрализованного финансирования…

5 часов ago

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap побила свой рекорд по ежемесячному объему на втором уровне Ethereum, поскольку любители децентрализованного финансирования…

5 часов ago

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap побила свой рекорд по ежемесячному объему на втором уровне Ethereum, поскольку любители децентрализованного финансирования…

5 часов ago

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap побила свой рекорд по ежемесячному объему на втором уровне Ethereum, поскольку любители децентрализованного финансирования…

5 часов ago

Dogecoin преодолевает критическое сопротивление: поднимется ли он выше $0,40 или столкнется с падением цен?

Несмотря на то, что Dogecoin (DOGE) по-прежнему на 45% ниже своего исторического максимума в 0,7316…

5 часов ago