Категории: Новости

Ученые говорят, что ChatGPT и Claude «становятся способными решать задачи в реальном мире».

Почти два десятка исследователей из Университета Цинхуа, Университета штата Огайо и Калифорнийского университета в Беркли совместно разработали метод измерения возможностей больших языковых моделей (LLM) как агентов реального мира.

LLM, такие как ChatGPT от OpenAI и Claude от Anthropic, за последний год штурмовали мир технологий, поскольку передовые «чат-боты» доказали свою полезность в различных задачах, включая кодирование, торговлю криптовалютой и генерацию текста.

Связанный: OpenAI запускает веб-краулер GPTBot на фоне планов на следующую модель: GPT-5

Как правило, эти модели оцениваются на основе их способности выводить текст, воспринимаемый как человеческий, или на основе их результатов в тестах на простом языке, разработанных для людей. Для сравнения, гораздо меньше статей было опубликовано на тему LLM-моделей как агентов.

Агенты искусственного интеллекта выполняют определенные задачи, такие как выполнение набора инструкций в определенной среде. Например, исследователи часто обучают агента ИИ навигации в сложной цифровой среде в качестве метода изучения использования машинного обучения для безопасной разработки автономных роботов.

Традиционные агенты машинного обучения, такие как тот, что показан на видео выше, обычно не создаются как LLM из-за непомерно высоких затрат, связанных с моделями обучения, такими как ChatGPT и Claude. Тем не менее, крупнейшие LLM показали себя многообещающими в качестве агентов.

Команда из Цинхуа, штат Огайо, и Калифорнийского университета в Беркли разработали инструмент под названием AgentBench для оценки и измерения возможностей моделей LLM как реальных агентов, что, по их утверждению, является первым в своем роде.

Согласно препринту исследователей, основная задача при создании AgentBench заключалась в том, чтобы выйти за рамки традиционных сред обучения ИИ — видеоигр и физических симуляторов — и найти способы применить способности LLM к реальным проблемам, чтобы их можно было эффективно измерить.

Источник изображения: Лю и др.

Они придумали многомерный набор тестов, которые измеряют способность модели выполнять сложные задачи в различных средах.

К ним относятся выполнение моделей в базе данных SQL, работа в операционной системе, планирование и выполнение функций по уборке дома, онлайн-покупки и ряд других высокоуровневых задач, требующих пошагового решения проблем.

Согласно документу, самые большие и дорогие модели значительно превзошли модели с открытым исходным кодом:

«Мы провели всестороннюю оценку 25 различных LLM с использованием AgentBench, включая модели на основе API и модели с открытым исходным кодом. Наши результаты показывают, что модели высшего уровня, такие как GPT-4, способны справляться с широким спектром реальных задач, что указывает на потенциал для разработки мощного, постоянно обучающегося агента».

Исследователи зашли так далеко, что заявили, что «ведущие LLM становятся способными решать сложные задачи в реальном мире», но добавили, что конкурентам с открытым исходным кодом еще предстоит «долгий путь».

Victoria Lyapota

Автор, являюсь внимательным наблюдателем тенденций и новых идей в области криптовалют и блокчейн технологий. Слежу за последними новостями и развитиями в этой области и готов анализировать и интерпретировать их для читателей. Стремлюсь быть в курсе всех новых идей и инноваций в криптоиндустрии, чтобы статьи были всегда актуальными и полезными. Моя цель - предоставить читателям полную и достоверную информацию о последних тенденциях и развитиях в криптоиндустрии. Считаю, что быть внимательным к тенденциям и новым идеям - важный аспект моей работы как автора, поскольку позволяет мне предоставлять читателям самую свежую и актуальную информацию в этой быстро развивающейся области.

Недавние статьи

Биткоин может достичь $180 тыс. к концу 2025 года — основатель TYMIO

Цена Биткоина (BTC) может достичь $180 000 к концу 2025 года, считает Георгий Вербицкий, основатель…

4 часа ago

Кардано достиг двухлетнего максимума в $0,97, аналитик оптимистично настроен на цель в $1

Кардано (ADA) продемонстрировал один из лучших показателей за последние три недели, поднявшись более чем на…

5 часов ago

Биткоин-ETF получили приток $2,4 млрд, тогда как китайские ETF достигли рекордного оттока

Спотовые биржевые фонды Биткоин (ETF) пережили четвертую лучшую неделю по инвестициям, в то время как…

6 часов ago

График цен Dogecoin демонстрирует чистый бычий флаг на уровне $0,38, вот следующая цель

Цена Dogecoin недавно продемонстрировала на графике классический бычий флаг — технический индикатор, часто сигнализирующий о…

6 часов ago

Цена на эфир столкнется с коррекцией перед ростом до $20 000 в 2025 году — аналитики

В ближайшие недели цена эфира может увидеть неизбежную коррекцию, прежде чем возобновит устойчивое ралли до…

8 часов ago

Китайский суд признал владение криптовалютой законным в материковом Китае

Владение Биткоин и криптовалютами в Китае уже много лет обсуждается и поднимает политические вопросы. Но…

10 часов ago