Нове дослідження стверджує, що можливості ChatGPT погіршуються з віком

Автор Alexander Zhdanov На читання 3 хв Переглядів 10 Опубліковано 20.07.2023 Оновлено 20.07.2023

Чат-бот ChatGPT на основі штучного інтелекту OpenAI, схоже, погіршується з часом, і дослідники, здається, не можуть зрозуміти причину.

У дослідженні від 18 липня дослідники зі Стенфорда та Каліфорнійського університету в Берклі виявили, що новітні моделі ChatGPT стали набагато менш здатними надавати точні відповіді на ідентичну серію запитань протягом кількох місяців.

Автори дослідження не змогли дати чіткої відповіді, чому погіршилися можливості чат-бота ШІ.

Щоб перевірити, наскільки надійні різні моделі ChatGPT, троє дослідників, Лінцзяо Чен, Матей Захарія та Джеймс Зоу, попросили моделі ChatGPT-3.5 і ChatGPT-4 вирішити серію математичних задач, відповісти на делікатні запитання, написати нові рядки коду та провести просторові міркування на основі підказок.

We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6

— James Zou (@james_y_zou) July 19, 2023

Згідно з дослідженням, у березні ChatGPT-4 був здатний ідентифікувати прості числа з точністю 97,6%. У тому ж тесті, проведеному в червні, точність GPT-4 впала лише до 2,4%.

Навпаки, попередня модель GPT-3.5 покращила ідентифікацію простих чисел за той самий проміжок часу.

За темою: Гері Генслер з SEC вважає, що штучний інтелект може посилити свій режим примусу

Коли справа дійшла до генерації рядків нового коду, можливості обох моделей суттєво погіршилися між березнем і червнем.

Дослідження також виявило, що відповіді ChatGPT на делікатні запитання — з деякими прикладами, що показують акцент на етнічній приналежності та статі — пізніше стали більш лаконічними у відмові відповідати.

Попередні ітерації чат-бота надавали докладні аргументи, чому він не міг відповісти на певні делікатні запитання. Однак у червні моделі просто вибачилися перед користувачем і відмовилися відповідати.

«Поведінка «того самого» [великої мовної моделі] служби може суттєво змінитися за відносно короткий проміжок часу», — пишуть дослідники, відзначаючи необхідність постійного моніторингу якості моделі ШІ.

Дослідники рекомендували користувачам і компаніям, які покладаються на послуги LLM як компонент у своїх робочих процесах, запровадити певну форму аналізу моніторингу, щоб забезпечити оперативну роботу чат-бота.

6 червня OpenAI оприлюднив плани створити команду, яка допомагатиме керувати ризиками, які можуть виникнути в результаті суперінтелектуальної системи штучного інтелекту, що, як очікується, з’явиться протягом десятиліття.

AI Eye: штучний інтелект, навчений на AI-контент, божевільний, чи Threads є лідером втрати даних AI?