Нова модель штучного інтелекту Nvidia з відкритим кодом перевершує GPT-4o за тестами

Автор Alexander Zhdanov На читання 3 хв Переглядів 14 Опубліковано 17.10.2024 Оновлено 17.10.2024

Nvidia безцеремонно запустила нову модель штучного інтелекту 15 жовтня, яка має перевершити найсучасніші системи ШІ, включаючи GPT-4o та Claude-3.

Відповідно до публікації на платформі соціальних мереж X.com від облікового запису розробника AI Nvidia, нова модель під назвою Llama-3.1-Nemotron-70B-Instruct «є провідною моделлю» на арені чат-ботів lmarena. AI.

NVidia, технології, мета, ChatGPT, OpenAI — Nvidia AI оголошує оцінку тестів для Nemotron. Джерело: Nvidia AI

Немотрон

Llama-3.1-Nemotron-70B-Instruct, по суті, є модифікованою версією Llama-3.1-70B-Instruct від Meta з відкритим кодом. Частина «Nemotron» у назві моделі втілює внесок Nvidia у кінцевий результат.

«Стадо» моделей штучного інтелекту Llama, як їх називає Meta, призначене для використання в якості основи з відкритим вихідним кодом, на якій розробники можуть працювати.

У випадку з Nemotron компанія Nvidia прийняла виклик і розробила систему, яка була б більш «корисною», ніж такі популярні моделі, як ChatGPT від OpenAI і Claude-3 від Anthropic.

Nvidia використала спеціально підібрані набори даних, передові методи тонкого налаштування та власне найсучасніше апаратне забезпечення AI, щоб перетворити ванільну модель Meta на те, що може бути найбільш «корисною» моделлю AI на планеті.

«Я поставив йому кілька запитань щодо кодування, які зазвичай ставлю для порівняння LLM, і отримав на це одне з найкращих відповідей. лол, святе лайно».

Бенчмаркінг

Коли справа доходить до визначення того, яка модель ШІ є «найкращою», немає чіткої методології. На відміну, наприклад, від вимірювання температури навколишнього середовища за допомогою ртутного термометра, немає жодної «правди», яка стосується продуктивності моделі ШІ.

Розробники та дослідники мають визначити, наскільки добре модель штучного інтелекту працює так само, як і люди: шляхом порівняльного тестування.

За темою: «завантаження розуму» ШІ може дозволити мертвим торгувати вічно

Бенчмаркінг штучного інтелекту передбачає надання різним моделям штучного інтелекту однакових запитів, завдань, питань чи проблем, а потім порівняння корисності результатів. Часто через суб’єктивність того, що вважається корисним, а що ні, для визначення продуктивності машини шляхом сліпих оцінок використовуються люди-наглядачі.

У випадку з Nemotron, здається, що Nvidia стверджує, що нова модель перевершує існуючі найсучасніші моделі, такі як GPT-4o та Claude-3, із досить великим відривом.

На зображенні вище показано рейтинги в автоматизованому тесті «Hard» у таблицях лідерів Chatbot Arena. Хоча Llama-3.1-Nemotron-70B-Instruct від Nvidia ніде не вказано на дошках, якщо твердження розробника про те, що він набрав 85 у цьому тесті, є дійсним, це буде де-факто топова модель у цьому конкретному розділі..

Що робить досягнення, можливо, ще цікавішим, так це те, що Llama-3.1-70B є моделлю штучного інтелекту Meta середнього рівня з відкритим кодом. Є набагато більша версія Llama-3.1, версія 405B (де число означає кількість мільярдів параметрів, на які була налаштована модель).

Для порівняння, GPT-4o, за оцінками, було розроблено з понад трильйоном параметрів.