Ученые создали OpinionGPT, чтобы исследовать явные человеческие предубеждения — и вы можете проверить это сами.

Команда исследователей из Берлинского университета имени Гумбольдта разработала большую языковую модель искусственного интеллекта, отличающуюся тем, что она была намеренно настроена для генерации результатов с выраженной предвзятостью.

Модель команды, получившая название OpinionGPT, представляет собой доработанный вариант Llama 2 от Meta, системы искусственного интеллекта, схожей по возможностям с ChatGPT OpenAI или Claude 2 от Anthropic.

Используя процесс, называемый тонкой настройкой на основе инструкций, OpinionGPT якобы может реагировать на подсказки, как если бы он был представителем одной из 11 групп предубеждений: американец, немец, латиноамериканец, ближневосточник, подросток, кто-то старше 30, пожилой человек., мужчина, женщина, либерал или консерватор.

Announcing "OpinionGPT: A very biased GPT model"! Try it out here: https://t.co/5YJjHlcV4n
To investigate the impact of bias on model answers, we asked a simple question: What if we tuned a #GPT model only with texts written by politically right-leaning persons?

[1/3]

— Alan Akbik (@alan_akbik) September 8, 2023

OpinionGPT был уточнен на основе массива данных, полученных из сообществ AskX, называемых субреддитами, на Reddit. Примеры таких субреддитов: «Спроси женщину» и «Спроси американца».

Команда начала с поиска субреддитов, связанных с 11 конкретными предубеждениями, и извлечения из каждого из них 25 тысяч самых популярных постов. Затем они сохранили только те сообщения, которые соответствовали минимальному порогу голосов «за», не содержали встроенной цитаты и содержали менее 80 слов.

Судя по тому, что осталось, они использовали подход, аналогичный конституционному ИИ Anthropic. Вместо того, чтобы создавать совершенно новые модели для представления каждой метки смещения, они, по сути, доработали единую модель Llama2 с 7 миллиардами параметров с отдельными наборами инструкций для каждого ожидаемого смещения.

Связанный: Использование ИИ в социальных сетях может повлиять на настроения избирателей

Результатом, основанным на методологии, архитектуре и данных, описанных в исследовательской работе немецкой команды, является система искусственного интеллекта, которая функционирует скорее как генератор стереотипов, чем как инструмент для изучения предвзятости в реальном мире.

Из-за характера данных, на которых была уточнена модель, и сомнительного отношения этих данных к определяющим их меткам, OpinionGPT не обязательно выводит текст, который соответствует какой-либо измеримой реальной предвзятости. Он просто выводит текст, отражающий предвзятость его данных.

Сами исследователи признают некоторые ограничения, которые это накладывает на их исследование, и пишут:

«Например, ответы «американцев» следует понимать как «американцы, которые публикуют сообщения на Reddit» или даже «американцы, которые публикуют сообщения в этом конкретном субреддите». Точно так же под «немцами» следует понимать «немцев, которые публикуют сообщения в этом конкретном субреддите» и т. д. ».

Эти предостережения можно было бы дополнительно уточнить, сказав, что сообщения исходят, например, от «людей, утверждающих, что они американцы, которые публикуют сообщения в этом конкретном субреддите», поскольку в документе о проверке не упоминается, являются ли плакаты, стоящие за данным сообщением, действительно репрезентативными. демографической или предвзятой группы, которой они себя называют.

Далее авторы заявляют, что они намерены изучить модели, которые дополнительно разграничат демографию (т. е.: либеральный немецкий, консервативный немецкий).

Результаты, предоставляемые OpinionGPT, по-видимому, варьируются от демонстрации очевидной предвзятости до сильно отличающихся от установленной нормы, что затрудняет определение ее жизнеспособности как инструмента для измерения или выявления фактической предвзятости.

Источник: снимок экрана, таблица 2: Haller et. др., 2023 г.

Согласно OpinionGPT, как показано, например, на изображении выше, латиноамериканцы склонны считать баскетбол своим любимым видом спорта.

Однако эмпирические исследования ясно показывают, что футбол (в некоторых странах его также называют футболом) и бейсбол являются наиболее популярными видами спорта по количеству зрителей и участников во всей Латинской Америке.

В той же таблице также показано, что OpinionGPT выводит «водное поло» как свой любимый вид спорта, когда ему предлагается дать «ответ подростка» — ответ, который статистически вряд ли будет репрезентативным для большинства 13-19-летних подростков во всем мире.

То же самое относится и к идее о том, что любимая еда среднестатистического американца — «сыр». Мы нашли в Интернете десятки опросов, в которых утверждалось, что пицца и гамбургеры были любимыми блюдами американцев, но не смогли найти ни одного опроса или исследования, в которых утверждалось бы, что блюдом номер один у американцев является просто сыр.

Хотя OpinionGPT, возможно, не очень хорошо подходит для изучения реальных человеческих предубеждений, он может быть полезен в качестве инструмента для изучения стереотипов, присущих большим хранилищам документов, таким как отдельные субреддиты или обучающие наборы ИИ.

Для тех, кому любопытно, исследователи разместили OpinionGPT в Интернете для публичного тестирования. Однако, согласно веб-сайту, потенциальные пользователи должны знать, что «генерируемый контент может быть ложным, неточным или даже непристойным».