Категории: Новости

Ученые говорят, что ChatGPT и Claude «становятся способными решать задачи в реальном мире».

Почти два десятка исследователей из Университета Цинхуа, Университета штата Огайо и Калифорнийского университета в Беркли совместно разработали метод измерения возможностей больших языковых моделей (LLM) как агентов реального мира.

LLM, такие как ChatGPT от OpenAI и Claude от Anthropic, за последний год штурмовали мир технологий, поскольку передовые «чат-боты» доказали свою полезность в различных задачах, включая кодирование, торговлю криптовалютой и генерацию текста.

Связанный: OpenAI запускает веб-краулер GPTBot на фоне планов на следующую модель: GPT-5

Как правило, эти модели оцениваются на основе их способности выводить текст, воспринимаемый как человеческий, или на основе их результатов в тестах на простом языке, разработанных для людей. Для сравнения, гораздо меньше статей было опубликовано на тему LLM-моделей как агентов.

Агенты искусственного интеллекта выполняют определенные задачи, такие как выполнение набора инструкций в определенной среде. Например, исследователи часто обучают агента ИИ навигации в сложной цифровой среде в качестве метода изучения использования машинного обучения для безопасной разработки автономных роботов.

Традиционные агенты машинного обучения, такие как тот, что показан на видео выше, обычно не создаются как LLM из-за непомерно высоких затрат, связанных с моделями обучения, такими как ChatGPT и Claude. Тем не менее, крупнейшие LLM показали себя многообещающими в качестве агентов.

Команда из Цинхуа, штат Огайо, и Калифорнийского университета в Беркли разработали инструмент под названием AgentBench для оценки и измерения возможностей моделей LLM как реальных агентов, что, по их утверждению, является первым в своем роде.

Согласно препринту исследователей, основная задача при создании AgentBench заключалась в том, чтобы выйти за рамки традиционных сред обучения ИИ — видеоигр и физических симуляторов — и найти способы применить способности LLM к реальным проблемам, чтобы их можно было эффективно измерить.

Источник изображения: Лю и др.

Они придумали многомерный набор тестов, которые измеряют способность модели выполнять сложные задачи в различных средах.

К ним относятся выполнение моделей в базе данных SQL, работа в операционной системе, планирование и выполнение функций по уборке дома, онлайн-покупки и ряд других высокоуровневых задач, требующих пошагового решения проблем.

Согласно документу, самые большие и дорогие модели значительно превзошли модели с открытым исходным кодом:

«Мы провели всестороннюю оценку 25 различных LLM с использованием AgentBench, включая модели на основе API и модели с открытым исходным кодом. Наши результаты показывают, что модели высшего уровня, такие как GPT-4, способны справляться с широким спектром реальных задач, что указывает на потенциал для разработки мощного, постоянно обучающегося агента».

Исследователи зашли так далеко, что заявили, что «ведущие LLM становятся способными решать сложные задачи в реальном мире», но добавили, что конкурентам с открытым исходным кодом еще предстоит «долгий путь».

Victoria Lyapota

Автор, являюсь внимательным наблюдателем тенденций и новых идей в области криптовалют и блокчейн технологий. Слежу за последними новостями и развитиями в этой области и готов анализировать и интерпретировать их для читателей. Стремлюсь быть в курсе всех новых идей и инноваций в криптоиндустрии, чтобы статьи были всегда актуальными и полезными. Моя цель - предоставить читателям полную и достоверную информацию о последних тенденциях и развитиях в криптоиндустрии. Считаю, что быть внимательным к тенденциям и новым идеям - важный аспект моей работы как автора, поскольку позволяет мне предоставлять читателям самую свежую и актуальную информацию в этой быстро развивающейся области.

Вперед Биткоин-фонды стали свидетелями крупнейших еженедельных оттоков с марта: отчет »

Назад « Bitstamp приостановит торговлю основными альткоинами для пользователей из США

Оставить комментарий

Опубликовано

Victoria Lyapota

1 год ago

Недавние статьи

Новости

Криптовалютный кредитор Shezmu возвращает взломанные средства путем переговоров

Используя протокол доходности, Шезму вернул почти 5 миллионов долларов украденных средств в течение нескольких часов…

5 часов ago

Новости

ИИ может привести к инфляционному давлению: Банк Канады

Управляющий Банка Канады Тифф Маклем заявил, что инвестиции в искусственный интеллект (ИИ) могут привести к…

5 часов ago

Новости

Неудержимый восходящий тренд Bittensor (TAO): рост на 40%, поскольку эксперты прогнозируют будущий рост цен

Децентрализованная сеть блокчейн Bittensor и ее собственный токен TAO продемонстрировали значительный рост за последний месяц,…

6 часов ago

Новости

Powerledger интегрируется с экосистемой основной сети Solana

Австралийская энергетическая технологическая компания Powerledger объявила о своем расширении в экосистему Solana, заявив, что она…

7 часов ago

Новости

Найиб Букеле встретился с Илоном Маском в Tesla, чтобы обсудить искусственный интеллект и будущее человечества

Президент Сальвадора Найиб Букеле посетил штаб-квартиру Tesla, чтобы встретиться с Илоном Маском и обсудить, среди…

7 часов ago

Новости

Более 150 000 ETH перешли на биржи за последние 24 часа: что будет с Ethereum дальше?

Согласно данным CoinMarketCap, Ethereum растет, прибавив приличные 5% за последний день и почти 10% за…

8 часов ago