Категории: Разное

Нова модель штучного інтелекту Nvidia з відкритим кодом перевершує GPT-4o за тестами

Nvidia безцеремонно запустила нову модель штучного інтелекту 15 жовтня, яка має перевершити найсучасніші системи ШІ, включаючи GPT-4o та Claude-3.

Відповідно до публікації на платформі соціальних мереж X.com від облікового запису розробника AI Nvidia, нова модель під назвою Llama-3.1-Nemotron-70B-Instruct «є провідною моделлю» на арені чат-ботів lmarena. AI.

Nvidia AI оголошує оцінку тестів для Nemotron. Джерело: Nvidia AI

Немотрон

Llama-3.1-Nemotron-70B-Instruct, по суті, є модифікованою версією Llama-3.1-70B-Instruct від Meta з відкритим кодом. Частина «Nemotron» у назві моделі втілює внесок Nvidia у кінцевий результат.

«Стадо» моделей штучного інтелекту Llama, як їх називає Meta, призначене для використання в якості основи з відкритим вихідним кодом, на якій розробники можуть працювати.

У випадку з Nemotron компанія Nvidia прийняла виклик і розробила систему, яка була б більш «корисною», ніж такі популярні моделі, як ChatGPT від OpenAI і Claude-3 від Anthropic.

Nvidia використала спеціально підібрані набори даних, передові методи тонкого налаштування та власне найсучасніше апаратне забезпечення AI, щоб перетворити ванільну модель Meta на те, що може бути найбільш «корисною» моделлю AI на планеті.

Публікація інженера на X.com, яка виражає захоплення можливостями Nemotron. Джерело: Шаян Таслім

«Я поставив йому кілька запитань щодо кодування, які зазвичай ставлю для порівняння LLM, і отримав на це одне з найкращих відповідей. лол, святе лайно».

Бенчмаркінг

Коли справа доходить до визначення того, яка модель ШІ є «найкращою», немає чіткої методології. На відміну, наприклад, від вимірювання температури навколишнього середовища за допомогою ртутного термометра, немає жодної «правди», яка стосується продуктивності моделі ШІ.

Розробники та дослідники мають визначити, наскільки добре модель штучного інтелекту працює так само, як і люди: шляхом порівняльного тестування.

За темою: «завантаження розуму» ШІ може дозволити мертвим торгувати вічно

Бенчмаркінг штучного інтелекту передбачає надання різним моделям штучного інтелекту однакових запитів, завдань, питань чи проблем, а потім порівняння корисності результатів. Часто через суб’єктивність того, що вважається корисним, а що ні, для визначення продуктивності машини шляхом сліпих оцінок використовуються люди-наглядачі.

У випадку з Nemotron, здається, що Nvidia стверджує, що нова модель перевершує існуючі найсучасніші моделі, такі як GPT-4o та Claude-3, із досить великим відривом.

Вершина таблиці лідерів Chatbot Arena. Джерело: LMArenea. AI

На зображенні вище показано рейтинги в автоматизованому тесті «Hard» у таблицях лідерів Chatbot Arena. Хоча Llama-3.1-Nemotron-70B-Instruct від Nvidia ніде не вказано на дошках, якщо твердження розробника про те, що він набрав 85 у цьому тесті, є дійсним, це буде де-факто топова модель у цьому конкретному розділі..

Що робить досягнення, можливо, ще цікавішим, так це те, що Llama-3.1-70B є моделлю штучного інтелекту Meta середнього рівня з відкритим кодом. Є набагато більша версія Llama-3.1, версія 405B (де число означає кількість мільярдів параметрів, на які була налаштована модель).

Для порівняння, GPT-4o, за оцінками, було розроблено з понад трильйоном параметрів.

Alexander Zhdanov

Недавние статьи

Більшість виборців у США віддають перевагу про-криптовалютному кандидату — Grayscale CLO

Більше половини виборців у Сполучених Штатах з більшою ймовірністю проголосують за про-криптовалютного кандидата, ніж за…

4 години ago

Чи можливий біткойн за 100 000 доларів? Аналітик розбиває основні каталізатори

У той час як біткойн (BTC) наближається до позначки в 70 000 доларів США, криптовалютна…

5 години ago

Нішад Сінгх просить відсидіти, заявляючи про «обмежену» роль у злочинах FTX

Визнавши себе винним у звинуваченнях у шахрайстві в 2023 році, колишній інженерний директор FTX Нішад…

5 години ago

Веб-сайт Ambient Finance зламано, команда попереджає користувачів дочекатися виправлення

Інтерфейс для Ambient Finance — децентралізованого торгового протоколу — був зламаний 17 жовтня, і команда…

5 години ago

Аналітик каже, що це зростання цін на біткойн має «інше звучання», і ставить наступну ціль у $109 000

Нова цільова ціна біткойна була встановлена ​​на рівні 109 000 доларів США, і аналітик прогнозує,…

6 години ago

Новий Grayscale ETF має на меті включати основні криптовалюти: біткойн, ефір, Solana та XRP

За словами експерта Bloomberg ETF Еріка Балчунаса, менеджер криптовалютних активів Grayscale перебуває в процесі перетворення…

7 години ago