Змусити ChatGPT працювати автономно в межах операційної системи виявилося складним завданням з багатьох причин, але команда, що складається з учених Microsoft Research і Пекінського університету, можливо, з’ясувала секрет.
Команда провела дослідження, щоб визначити, чому великі мовні моделі (LLM) штучного інтелекту (ШІ), такі як GPT-4, не справляються із завданнями, що вимагають маніпулювання операційною системою.
Сучасні системи, такі як ChatGPT, які працюють на GPT-4, встановлюють еталон для генеративних завдань, таких як написання електронного листа чи написання вірша. Але змусити їх діяти як агенти в загальному середовищі становить серйозну проблему.
Традиційно моделі штучного інтелекту навчають досліджувати за допомогою навчання з підкріпленням у віртуальному середовищі. Розробники штучного інтелекту використовували модифіковані версії популярних відеоігор, таких як Super Mario Bros. і Minecraft, щоб «навчити» моделей таким концепціям, як самостійне дослідження та пошук мети.
Але операційні системи — це абсолютно інший майданчик для моделей ШІ. Як агенти, виконання функцій в ОС часто є мультимодальним завданням, що вимагає обміну інформацією між різними компонентами, програмами та додатками.
Взагалі кажучи, підхід до навчання з підкріпленням вимагає методу проб і помилок. Однак, як знає будь-хто, хто занадто багато разів вводив свій пароль неправильно або забув, які ярлики працюють у тих чи інших програмах, дані можна легко втратити під час використання такого підходу в середовищі операційної системи.
За темою: тригер ChatGPT задоволений ядерною зброєю, штучний інтелект SEGA 80-х, TAO на 90%: AI Eye
Дослідники працювали з різними магістрами права, включаючи Llama2 70B з відкритим кодом Meta та GPT-3.5 і GPT-4 OpenAI. Згідно з дослідженням, жоден із них не показав себе особливо добре.
Згідно з документом команди, це тому, що завдання наразі перевищує можливості сучасного ШІ:
«По-перше, простір дій великий і динамічний.… По-друге, реальні завдання часто вимагають взаємодії між програмами, вимагаючи від агентів LLM далекоглядного планування. По-третє, агенти повинні визначити оптимальні рішення, які відповідають обмеженням користувача, таким як питання безпеки та переваги».
Щоб дослідники з’ясували спосіб подолання цих труднощів, вони спочатку повинні були зрозуміти, чому LLM не вдавалося маніпулювати операційними системами, коли деякі моделі штучного інтелекту були здатні на надлюдські подвиги, такі як перемагати всіх бажаючих у шахах і го.
Команда розробила нове навчальне середовище під назвою AndroidArena, яке дозволило магістрам вивчати середовище, подібне до ОС Android. Потім, створивши тестові завдання та систему порівняння, вони визначили відсутність чотирьох ключових здібностей як відповідальних: розуміння, міркування, дослідження та рефлексії.
Незважаючи на те, що обсяг роботи був спрямований на виявлення проблеми, у процесі дослідження команда фактично визначила «простий» метод підвищення точності моделі на 27%.
По суті, команда надала моделі автоматизовану інформацію про кількість спроб, які вона робила раніше, і про те, що вона намагалася під час цих спроб. Це вирішило проблему відсутності «відображення» шляхом свого роду вбудовування пам’яті в підказки, які використовуються для його запуску.
Цей напрямок досліджень може виявитися важливим у пошуках кращого помічника ШІ та,