Чат-бот OpenAI на основе искусственного интеллекта ChatGPT, похоже, со временем становится все хуже, и исследователи не могут понять, почему.
В исследовании, проведенном 18 июля, исследователи из Стэнфорда и Калифорнийского университета в Беркли обнаружили, что новейшие модели ChatGPT стали гораздо менее способными давать точные ответы на идентичный ряд вопросов в течение нескольких месяцев.
Авторы исследования не смогли дать четкого ответа, почему ухудшились возможности чат-бота с искусственным интеллектом.
Чтобы проверить, насколько надежны различные модели ChatGPT, трое исследователей, Линцзяо Чен, Матей Захария и Джеймс Зоу, попросили модели ChatGPT-3.5 и ChatGPT-4 решить ряд математических задач, ответить на деликатные вопросы, написать новые строки кода и провести пространственное мышление с помощью подсказок.
We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023
Согласно исследованию, в марте ChatGPT-4 был способен идентифицировать простые числа с точностью 97,6%. В том же тесте, проведенном в июне, точность GPT-4 упала до 2,4%.
Напротив, более ранняя модель GPT-3.5 улучшила идентификацию простых чисел за тот же период времени.
По теме: Гэри Генслер из SEC считает, что ИИ может усилить режим правоприменения
Когда дело дошло до генерации строк нового кода, возможности обеих моделей существенно ухудшились в период с марта по июнь.
Исследование также показало, что ответы ChatGPT на деликатные вопросы — с некоторыми примерами, показывающими акцент на этнической принадлежности и поле — позже стали более лаконичными при отказе отвечать.
Более ранние версии чат-бота предоставили подробные объяснения, почему он не может ответить на некоторые деликатные вопросы. Однако в июне модели просто извинились перед пользователем и отказались отвечать.
«Поведение одного и того же сервиса [большая языковая модель] может существенно измениться за относительно короткий промежуток времени», — пишут исследователи, отмечая необходимость постоянного мониторинга качества модели ИИ.
Исследователи рекомендовали пользователям и компаниям, которые полагаются на услуги LLM в качестве компонента своих рабочих процессов, внедрить какую-либо форму анализа мониторинга, чтобы гарантировать, что чат-бот будет оставаться в актуальном состоянии.
6 июня OpenAI обнародовала планы по созданию команды, которая поможет управлять рисками, которые могут возникнуть из-за сверхинтеллектуальной системы искусственного интеллекта, что, как ожидается, появится в течение десятилетия.
AI Eye: ИИ, обученный контенту ИИ, сходит с ума, является ли Threads лидером по потерям данных ИИ?