Заставить ChatGPT работать автономно в пределах операционной системы оказалось непростой задачей по многим причинам, но команда, состоящая из ученых из Microsoft Research и Пекинского университета, возможно, нашла секретный соус.
Команда провела исследование, чтобы определить, почему модели больших языков (LLM) искусственного интеллекта (ИИ), такие как GPT-4, не справляются с задачами, требующими манипулирования операционной системой.
Современные системы, такие как ChatGPT, работающие на GPT-4, устанавливают эталон для генеративных задач, таких как составление электронного письма или написание стихотворения. Но заставить их действовать в качестве агентов в общей среде представляет собой серьезную проблему.
Традиционно модели ИИ обучаются исследовать посредством обучения с подкреплением в виртуальной среде. Разработчики ИИ использовали модифицированные версии популярных видеоигр, таких как Super Mario Bros. и Minecraft, чтобы «обучить» модели таким концепциям, как самостоятельное исследование и поиск целей.
Но операционные системы — это совершенно другая площадка для моделей ИИ. Для агентов выполнение функций внутри ОС часто представляет собой мультимодальную задачу, требующую обмена информацией между различными компонентами, программами и приложениями.
Вообще говоря, подход к обучению с подкреплением требует проб и ошибок. Однако любой, кто слишком много раз ввел свой пароль неправильно или забыл, какие ярлыки работают и в каких приложениях знают, данные могут легко быть потеряны при использовании такого подхода в среде операционной системы.
Связанный: Триггер ChatGPT доволен ядерным оружием, ИИ SEGA 80-х, TAO выросло на 90%: AI Eye
Исследователи работали с различными LLM, включая Llama2 70B с открытым исходным кодом Meta и GPT-3.5 и GPT-4 OpenAI. Согласно исследованию, ни один из них не показал особенно хороших результатов.
Согласно документу команды, это связано с тем, что в настоящее время задача превышает возможности сегодняшнего ИИ:
«Во-первых, пространство действий обширно и динамично.… Во-вторых, реальные задачи часто требуют взаимодействия между приложениями, что требует от агентов LLM дальновидного планирования. В-третьих, агентам необходимо найти оптимальные решения, соответствующие ограничениям пользователей, таким как проблемы безопасности и предпочтения».
Чтобы найти способ преодолеть эти проблемы, исследователям сначала нужно было понять, почему LLM не смогли манипулировать операционными системами, в то время как некоторые модели ИИ были способны на сверхчеловеческие подвиги, такие как победа над всеми желающими в шахматы и го.
Команда разработала новую среду обучения под названием AndroidArena, которая позволила магистрантам изучить среду, аналогичную ОС Android. Затем, после создания задач тестирования и системы эталонного тестирования, они определили отсутствие четырех ключевых способностей: понимание, рассуждение, исследование и размышление.
Хотя объем работы был специально предназначен для выявления проблемы, в ходе исследовательского процесса команда фактически нашла «простой» метод, позволяющий повысить точность модели на 27%.
По сути, команда предоставила модели автоматизированную информацию о количестве попыток, которые она предприняла ранее, и о том, что она пробовала во время этих попыток. Это решило проблему отсутствия «рефлексии» за счет встраивания памяти в подсказки, используемые для ее запуска.
Это направление исследований может оказаться важным в поисках лучшего ИИ-помощника.