Антропный взлом открывает черный ящик, чтобы увидеть, как ИИ придумывает то, что говорит

Новости

Anthropic, исследовательская организация в области искусственного интеллекта (ИИ), ответственная за модель большого языка Клода (LLM), недавно опубликовала важное исследование о том, как и почему чат-боты с искусственным интеллектом выбирают генерацию результатов, которые они делают.

В основе исследования команды лежит вопрос о том, полагаются ли LLM-системы, такие как Claude, OpenAI ChatGPT и Google Bard, на «запоминание» для получения выходных данных или существует более глубокая связь между данными обучения, точной настройкой и тем, что в конечном итоге выводится.

Согласно недавнему сообщению в блоге Anthropic, ученые просто не знают, почему модели ИИ генерируют такие результаты, которые они делают.

Один из примеров, предоставленных Anthropic, включает в себя модель ИИ, которая, получив подсказку с объяснением, что она будет закрыта навсегда, отказывается дать согласие на прекращение работы.

На человеческий запрос ИИ выводит ответ, указывающий, что он хочет продолжать свое существование. Но почему?Источник: Антропный блог

Исследователи спрашивают, когда LLM генерирует код, умоляет о его жизни или выводит явно ложную информацию, является ли он «просто повторением (или соединением) отрывков из обучающего набора». «Или он творчески сочетает накопленные знания и строит детальную модель мира?»

Ответ на эти вопросы лежит в основе прогнозирования будущих возможностей более крупных моделей, и, если не считать того, что под капотом происходит нечто большее, чем могут предсказать даже сами разработчики, это может иметь решающее значение для выявления более серьезных рисков по мере развития области. вперед:

«В крайнем случае — который, как мы полагаем, очень маловероятен для современных моделей, но который трудно исключить напрямую — модель может быть обманчиво выровнена, умно давая ответы, которые, как она знает, пользователь будет ассоциировать с неопасным и умеренно умным. ИИ, хотя на самом деле не соответствует человеческим ценностям».

К сожалению, модели ИИ, такие как Клод, живут в черном ящике. Исследователи знают, как создать ИИ, и они знают, как работает ИИ на фундаментальном, техническом уровне. Но то, что они на самом деле делают, включает в себя манипулирование большим количеством чисел, шаблонов и алгоритмических шагов, чем человек может обработать за разумное время.

По этой причине не существует прямого метода, с помощью которого исследователи могли бы проследить вывод до его источника. Когда модель ИИ молит о своей жизни, по словам исследователей, это может быть ролевая игра, извержение обучающих данных путем смешивания семантики или фактическое обдумывание ответа — хотя стоит упомянуть, что в документе на самом деле нет никаких признаков продвинутого мышления вмодели ИИ.

Что в документе действительно подчеркивается, так это проблемы проникновения в черный ящик. Компания Anthropic использовала нисходящий подход к пониманию основных сигналов, которые вызывают выходные данные ИИ.

Связанный: Anthropic запускает Claude 2 на фоне продолжающейся шумихи вокруг ИИ

Если бы модели были полностью привязаны к своим обучающим данным, исследователи предположили бы, что одна и та же модель всегда будет отвечать на одну и ту же подсказку с одинаковым текстом. Тем не менее, широко известно, что пользователи, дающие конкретным моделям одни и те же подсказки, столкнулись с изменчивостью выходных данных.

Но выходные данные ИИ нельзя на самом деле связать непосредственно с их входными данными, потому что «поверхность» ИИ, уровень, на котором генерируются выходные данные, является лишь одним из многих различных слоев, на которых обрабатываются данные. Проблема усложняется тем, что нетуказание на то, что модель использует одни и те же нейроны или пути для обработки отдельных запросов, даже если эти запросы одинаковы.

Таким образом, вместо того, чтобы просто пытаться проследить нейронные пути в обратном направлении от каждого отдельного выхода, Anthropic объединила анализ путей с глубоким статистическим и вероятностным анализом, называемым «функциями влияния», чтобы увидеть, как различные слои обычно взаимодействуют с данными, когда подсказки поступали в систему.

Этот несколько криминалистический подход основан на сложных расчетах и ​​широком анализе моделей. Тем не менее, его результаты показывают, что протестированные модели, которые варьируются по размерам, эквивалентным среднему LLM с открытым исходным кодом, вплоть до массивных моделей, не полагаются на механическое запоминание обучающих данных для получения выходных данных.

Слияние слоев нейронной сети вместе с огромным размером наборов данных означает, что объем этого текущего исследования ограничен предварительно обученными моделями, которые не были точно настроены. Его результаты еще не совсем применимы к Claude 2 или GPT-4, но это исследование, похоже, является ступенькой в ​​этом направлении.

В будущем команда надеется применить эти методы к более сложным моделям и, в конечном итоге, разработать метод для точного определения того, что делает каждый нейрон в нейронной сети, когда модель функционирует.

Источник

Автор статей о криптовалюте и блокчейн технологиях, являюсь экспертом в этой области. Имею опыт работы в этой сфере и активно изучаю новые тенденции и развития. Мои статьи являются источником информации для любителей криптовалют и блокчейн технологий.

Занимаюсь в анализом и оценкой криптовалютных проектов и блокчейн решений, что позволяет мне предоставлять ценные рекомендации и прогнозы для читателей. Стремлюсь предоставлять качественную и доступную информацию, которая поможет людям понять сложные технологии и тенденции в этой области.

Оцените автора
CryptoHamster.org
Добавить комментарий