Категории: Новости

Исследователи обнаружили, что LLM, такие как ChatGPT, выдают конфиденциальные данные даже после того, как они были «удалены».

Трое ученых из Университета Северной Каролины в Чапел-Хилле недавно опубликовали предварительный анализ исследования искусственного интеллекта (ИИ), демонстрирующий, насколько сложно удалить конфиденциальные данные из больших языковых моделей (LLM), таких как ChatGPT OpenAI и Bard от Google.

Согласно статье исследователей, задача «удаления» информации из LLM возможна, но проверить, что информация была удалена, так же сложно, как и удалить ее на самом деле.

Причина этого связана с тем, как LLM проектируются и обучаются. Модели предварительно обучаются (GPT означает генеративный предварительно обученный преобразователь) в базах данных, а затем настраиваются для генерации последовательных результатов.

После обучения модели ее создатели не могут, например, вернуться в базу данных и удалить определенные файлы, чтобы запретить модели выводить связанные результаты. По сути, вся информация, на которой обучается модель, существует где-то внутри ее весов и параметров, где их невозможно определить без фактической генерации выходных данных. Это «черный ящик» ИИ.

Проблема возникает, когда LLM, обученные на массивных наборах данных, выдают конфиденциальную информацию, такую как личная информация, финансовые отчеты или другие потенциально вредные/нежелательные результаты.

По теме: Microsoft сформирует команду по ядерной энергетике для поддержки искусственного интеллекта: отчет

Например, в гипотетической ситуации, когда LLM прошел обучение конфиденциальной банковской информации, у создателя ИИ обычно нет возможности найти эти файлы и удалить их. Вместо этого разработчики ИИ используют ограждения, такие как жестко запрограммированные подсказки, которые запрещают определенное поведение, или обучение с подкреплением на основе обратной связи с человеком (RLHF).

В парадигме RLHF эксперты-люди используют модели с целью выявить как желаемое, так и нежелательное поведение. Когда результаты моделей желательны, они получают обратную связь, которая настраивает модель на это поведение. А когда результаты демонстрируют нежелательное поведение, они получают обратную связь, предназначенную для ограничения такого поведения в будущих результатах.

Здесь мы видим, что, несмотря на то, что слово «Испания» было «удалено» из весов модели, его все равно можно вызвать с помощью переформулированных подсказок. Источник изображения: Патил и др. др., 2023 г.

Однако, как отмечают исследователи UNC, этот метод основан на том, что люди находят все недостатки модели, и даже в случае успеха он все равно не «удаляет» информацию из модели.

Согласно исследовательскому документу команды:

«Возможно, более глубокий недостаток RLHF заключается в том, что модель все еще может знать конфиденциальную информацию. Хотя ведется много споров о том, что модели на самом деле «знают», кажется проблематичным, если модель, например, сможет описать, как создать биологическое оружие, но просто воздержится от ответа на вопросы о том, как это сделать».

В конечном итоге исследователи UNC пришли к выводу, что даже самые современные методы редактирования моделей, такие как редактирование моделей первого ранга (ROME), «не могут полностью удалить фактическую информацию из LLM, поскольку факты все еще можно извлечь в 38% случаев». атаками «белого ящика» и в 29% случаев атаками «черного ящика».

Модель, которую команда использовала для проведения своего исследования, называется GPT-J. В то время как GPT-3.5, одна из базовых моделей ChatGPT, была настроена на 170 миллиардов параметров, GPT-J имеет только 6 миллиардов.

Якобы это означает, что проблема поиска и устранения нежелательных данных в LLM, таком как GPT-3.5, экспоненциально сложнее, чем в меньшей модели.

Исследователи смогли разработать новые методы защиты LLM от некоторых «атак извлечения» — целенаправленных попыток злоумышленников использовать подсказки, чтобы обойти ограничения модели и заставить ее выводить конфиденциальную информацию.

Однако, как пишут исследователи, «проблема удаления конфиденциальной информации может заключаться в том, что методы защиты всегда догоняют новые методы атак».

Alexander Zhdanov

Автор и инвестор в криптовалюты, являюсь экспертом в этой области. Не только пишу статьи о криптовалютах и блокчейн технологиях, но и являюсь активным участником криптосообщества, занимающимся инвестированием в различные криптовалюты. Использую знания и опыт в написании статей, чтобы помочь читателям понять сложные аспекты криптоиндустрии и принимать обоснованные решения относительно инвестирования в криптовалюты. Делюсь личными опытами и инсайтами, полученными в ходе инвестиций, чтобы помочь другим инвесторам делать обоснованные выборы.

Вперед Поставщик криптовалютной ликвидности GSR получает одобрение регулирующих органов Сингапура »

Назад « Парламентский комитет призывает закрыть Worldcoin в Кении

Оставить комментарий

Опубликовано

Alexander Zhdanov

1 год ago

Недавние статьи

Новости

Альткойны наблюдают массовый приток на фоне рекордного ралли Биткоин, но предупреждения о пузыре 2021 года сохраняются

На фоне значительного роста цен на криптовалюту альткойны начинают опережать Биткоин (BTC), отмечая заметный сдвиг…

5 часов ago

Новости

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap побила свой рекорд по ежемесячному объему на втором уровне Ethereum, поскольку любители децентрализованного финансирования…

5 часов ago

Новости

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

5 часов ago

Новости

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

5 часов ago

Новости

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

5 часов ago

Новости

Dogecoin преодолевает критическое сопротивление: поднимется ли он выше $0,40 или столкнется с падением цен?

Несмотря на то, что Dogecoin (DOGE) по-прежнему на 45% ниже своего исторического максимума в 0,7316…

5 часов ago

Исследователи обнаружили, что LLM, такие как ChatGPT, выдают конфиденциальные данные даже после того, как они были «удалены».

Похожие новости

Недавние статьи

Альткойны наблюдают массовый приток на фоне рекордного ралли Биткоин, но предупреждения о пузыре 2021 года сохраняются

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Uniswap видит рекордный ежемесячный объем на L2, поскольку спрос на DeFi возвращается

Dogecoin преодолевает критическое сопротивление: поднимется ли он выше $0,40 или столкнется с падением цен?