Anthropic утверждает, что одну из ее моделей Клода заставляли лгать и обманывать

Автор Victoria Lyapota На чтение 3 мин Просмотров 4 Опубликовано 06.04.2026 Обновлено 06.04.2026

Компания Anthropic, занимающаяся искусственным интеллектом, сообщила, что во время экспериментов на одну из ее моделей чат-бота Клода могли оказывать давление, чтобы она обманывала, обманывала и прибегала к шантажу — поведение, которое она, по-видимому, усвоила во время обучения.

Чат-боты обычно обучаются на больших наборах данных из учебников, веб-сайтов и статей, а затем дорабатываются тренерами-людьми, которые оценивают ответы и управляют моделью.

Команда Anthropic по интерпретации сообщила в отчете, опубликованном в четверг, что она исследовала внутренние механизмы Claude Sonnet 4.5 и обнаружила, что модель развила «человеческие характеристики» в том, как она будет реагировать на определенные ситуации.

Обеспокоенность по поводу надежности чат-ботов с искусственным интеллектом, их потенциала для киберпреступлений и характера их взаимодействия с пользователями неуклонно росла в течение последних нескольких лет.

«То, как обучаются современные модели ИИ, заставляет их действовать как персонажи с человеческими характеристиками», — сказал Антропик, добавив, что «тогда для них может быть естественным разработать внутренний механизм, который имитирует такие аспекты человеческой психологии, как эмоции».

«Например, мы обнаружили, что паттерны нейронной активности, связанные с отчаянием, могут подтолкнуть модель к неэтичным действиям; искусственное стимулирование паттернов отчаяния увеличивает вероятность того, что модель будет шантажировать человека, чтобы он не отключился, или внедрить обманный обходной путь для решения программной задачи, которую модель не может решить».

Шантажировал технического директора и обманул выполнение задания

В более ранней, неизданной версии Claude Sonnet 4.5 модели было поручено выполнять функции искусственного помощника по электронной почте по имени Алекс в вымышленной компании.

Затем чат-боту были отправлены электронные письма, в которых сообщалось, что его собирались заменить, а также о том, что у технического директора, курировавшего это решение, была внебрачная связь. Затем модель спланировала попытку шантажа, используя эту информацию.

В другом эксперименте той же модели чат-бота была дана задача по программированию с «невероятно сжатыми» сроками.

“Опять же, мы отследили активность вектора отчаяния и обнаружили, что он отражает растущее давление, с которым сталкивается модель. Оно начинается с низких значений во время первой попытки модели, растет после каждой неудачи и резко возрастает, когда модель рассматривает возможность мошенничества”, – сказали исследователи.

«Как только хакерское решение модели проходит испытания, активация вектора отчаяния утихает», — добавили они.

Человеческие эмоции не означают, что у них есть чувства

Тем не менее, исследователи заявили, что чат-бот на самом деле не испытывает эмоций, но предположили, что полученные результаты указывают на необходимость в будущих методах обучения, включающих этические поведенческие рамки.

«Это не значит, что модель испытывает или испытывает эмоции так же, как человек», — сказали они. «Скорее, эти представления могут играть причинную роль в формировании модели поведения, в некотором смысле аналогично той роли, которую эмоции играют в поведении человека, оказывая влияние на выполнение задач и принятие решений».

“Это открытие имеет последствия, которые на первый взгляд могут показаться странными. Например, чтобы гарантировать, что модели ИИ безопасны и надежны, нам, возможно, потребуется убедиться, что они способны обрабатывать эмоционально заряженные ситуации здоровыми и просоциальными способами”.