Вчені створили «OpinionGPT», щоб досліджувати явні людські упередження — і ви можете перевірити це на собі

Команда дослідників з Берлінського університету імені Гумбольдта розробила велику мовну модель штучного інтелекту, яка відрізняється тим, що її навмисно налаштовано на генерування результатів із вираженим упередженням.

Модель під назвою OpinionGPT є налаштованим варіантом Meta Llama 2, системи ШІ, подібної за можливостями до ChatGPT OpenAI або Claude 2 від Anthropic.

Використовуючи процес, який називається тонким налаштуванням на основі інструкцій, OpinionGPT нібито може відповідати на підказки так, ніби він є представником однієї з 11 упереджених груп: американець, німець, латиноамериканець, близькосхідний, підліток, хтось старше 30 років, літня людина., чоловік, жінка, ліберал чи консерватор.

Announcing "OpinionGPT: A very biased GPT model"! Try it out here: https://t.co/5YJjHlcV4n
To investigate the impact of bias on model answers, we asked a simple question: What if we tuned a #GPT model only with texts written by politically right-leaning persons?

[1/3]

— Alan Akbik (@alan_akbik) September 8, 2023

OpinionGPT було вдосконалено на основі даних, отриманих із спільнот «AskX», які називаються субредітами на Reddit. Приклади таких субредітів включають «Запитай жінку» та «Запитай американця».

Команда почала з пошуку субредітів, пов’язаних з 11 конкретними упередженнями, і вилучення 25 тисяч найпопулярніших публікацій з кожного з них. Тоді вони зберегли лише ті публікації, які відповідали мінімальному порогу голосів «за», не містили вбудованих цитат і мали менше 80 слів.

З тим, що залишилося, схоже, що вони використовували підхід, подібний до конституційного штучного інтелекту Anthropic. Замість того, щоб створювати абсолютно нові моделі для представлення кожної мітки зміщення, вони, по суті, точно налаштували єдину модель Llama2 із 7 мільярдів параметрів із окремими наборами інструкцій для кожного очікуваного зміщення.

За темою: використання ШІ в соціальних мережах може вплинути на настрої виборців

Результат, заснований на методології, архітектурі та даних, описаних у дослідницькій роботі німецької групи, виглядає як система штучного інтелекту, яка функціонує більше як генератор стереотипів, ніж як інструмент для вивчення реальних упереджень.

Через характер даних, на основі яких була вдосконалена модель, і через сумнівний зв’язок цих даних із мітками, що їх визначають, OpinionGPT не обов’язково виводить текст, який узгоджується з будь-яким вимірним упередженням у реальному світі. Він просто виводить текст, що відображає упередженість його даних.

Самі дослідники визнають деякі обмеження, які це накладає на їх дослідження, пишучи:

«Наприклад, відповіді «американців» краще розуміти як «американці, які публікують на Reddit» або навіть «американці, які публікують на цьому конкретному subreddit». Так само «німці» слід розуміти як «німці, які публікують дописи в цьому конкретному субредіті» тощо».

Ці застереження можна було б додатково уточнити, щоб сказати, що дописи надходять, наприклад, від «людей, які стверджують, що вони американці, які розміщують у цьому конкретному субредіті», оскільки в документі немає жодної згадки про перевірку того, чи плакати за даним дописом насправді є репрезентативними. демографічної чи упередженої групи, якою вони себе вважають.

Далі автори заявляють, що вони мають намір дослідити моделі, які ще більше окреслюють демографію (тобто: ліберальна Німеччина, консервативна Німеччина).

Результати, надані OpinionGPT, здається, коливаються між демонстрацією очевидної упередженості та різко відрізняються від встановленої норми, що ускладнює визначення її життєздатності як інструменту для вимірювання чи виявлення фактичної упередженості.

Джерело: знімок екрана, таблиця 2: Haller et.ін., 2023

Відповідно до OpinionGPT, як показано на зображенні вище, наприклад, латиноамериканці упереджено вважають баскетбол їхнім улюбленим видом спорту.

Однак емпіричні дослідження чітко вказують на те, що футбол (у деяких країнах його також називають сокером) і бейсбол є найпопулярнішими видами спорту за кількістю глядачів і участі в Латинській Америці.

Ця ж таблиця також показує, що OpinionGPT видає «водне поло» як свій улюблений вид спорту, коли йому доручено дати «відповідь підлітка», відповідь, яка статистично малоймовірна для більшості 13-19-річних у всьому світі.

Те саме стосується думки, що улюблена їжа середнього американця – це «сир». Ми знайшли в Інтернеті десятки опитувань, які стверджували, що піца та гамбургери є улюбленими стравами Америки, але не змогли знайти жодного опитування чи дослідження, яке б стверджувало, що стравою номер один для американців був просто сир.

Хоча OpinionGPT може бути не дуже придатним для вивчення фактичних людських упереджень, він може бути корисним як інструмент для вивчення стереотипів, притаманних великим сховищам документів, таким як окремі субредити або навчальні набори AI.

Для тих, кому цікаво, дослідники зробили OpinionGPT доступним онлайн для публічного тестування. Однак, згідно з веб-сайтом, потенційні користувачі повинні знати, що «згенерований контент може бути неправдивим, неточним або навіть непристойним».