15 октября Nvidia бесцеремонно представила новую модель искусственного интеллекта, которая, как утверждается, превосходит по производительности самые современные системы искусственного интеллекта, включая GPT-4o и Claude-3.
Согласно сообщению на платформе социальных сетей X.com из учетной записи Nvidia AI Developer, новая модель, получившая название Llama-3.1-Nemotron-70B-Instruct, «является ведущей моделью» на Chatbot Arena lmarena. AI.
Немотрон
Llama-3.1-Nemotron-70B-Instruct, по сути, является модифицированной версией Llama-3.1-70B-Instruct от Meta с открытым исходным кодом. Часть названия модели «Немотрон» отражает вклад Nvidia в конечный результат.
«Стадо» моделей искусственного интеллекта ламы, как их называет Meta, предназначено для использования в качестве основы с открытым исходным кодом для разработчиков.
В случае с Nemotron компания Nvidia приняла вызов и разработала систему, призванную быть более «полезной», чем популярные модели, такие как ChatGPT от OpenAI и Claude-3 от Anthropic.
Nvidia использовала специально подобранные наборы данных, передовые методы точной настройки и собственное современное оборудование искусственного интеллекта, чтобы превратить стандартную модель Meta в, возможно, самую «полезную» модель искусственного интеллекта на планете.
«Я задал ему несколько вопросов по программированию, которые обычно задаю для сравнения программ LLM, и получил одни из лучших ответов. лол, черт возьми».
Бенчмаркинг
Когда дело доходит до определения того, какая модель ИИ является «лучшей», не существует четкой методологии. В отличие, например, от измерения температуры окружающей среды с помощью ртутного термометра, не существует единой «истины», когда речь идет о производительности модели ИИ.
Разработчики и исследователи должны определить, насколько хорошо модель ИИ работает так же, как оцениваются люди: посредством сравнительного тестирования.
Связанный: «Загрузка разума» ИИ может позволить мертвым торговать вечно
Бенчмаркинг ИИ предполагает предоставление различным моделям ИИ одних и тех же запросов, задач, вопросов или проблем, а затем сравнение полезности результатов. Часто из-за субъективности того, что считается полезным, а что нет, для определения производительности машины посредством слепых оценок используются люди-контролеры.
В случае с Nemotron, похоже, что Nvidia утверждает, что новая модель превосходит существующие современные модели, такие как GPT-4o и Claude-3, с довольно большим отрывом.
На изображении выше показаны рейтинги автоматического «сложного» теста в таблицах лидеров Chatbot Arena. Хотя Llama-3.1-Nemotron-70B-Instruct от Nvidia, похоже, нигде не указана на платах, если утверждение разработчика о том, что она набрала 85 баллов в этом тесте, справедливо, то это будет де-факто топ-модель в этом конкретном разделе..
Что делает это достижение, возможно, еще более интересным, так это то, что Llama-3.1-70B — это модель ИИ среднего уровня с открытым исходным кодом от Meta. Существует гораздо более крупная версия Llama-3.1, версия 405B (где число означает, сколько миллиардов параметров было настроено в модели).
Для сравнения, GPT-4o, по оценкам, был разработан с более чем одним триллионом параметров.