Категории: Разное

Нова модель штучного інтелекту Nvidia з відкритим кодом перевершує GPT-4o за тестами

Nvidia безцеремонно запустила нову модель штучного інтелекту 15 жовтня, яка має перевершити найсучасніші системи ШІ, включаючи GPT-4o та Claude-3.

Відповідно до публікації на платформі соціальних мереж X.com від облікового запису розробника AI Nvidia, нова модель під назвою Llama-3.1-Nemotron-70B-Instruct «є провідною моделлю» на арені чат-ботів lmarena. AI.

Nvidia AI оголошує оцінку тестів для Nemotron. Джерело: Nvidia AI

Немотрон

Llama-3.1-Nemotron-70B-Instruct, по суті, є модифікованою версією Llama-3.1-70B-Instruct від Meta з відкритим кодом. Частина «Nemotron» у назві моделі втілює внесок Nvidia у кінцевий результат.

«Стадо» моделей штучного інтелекту Llama, як їх називає Meta, призначене для використання в якості основи з відкритим вихідним кодом, на якій розробники можуть працювати.

У випадку з Nemotron компанія Nvidia прийняла виклик і розробила систему, яка була б більш «корисною», ніж такі популярні моделі, як ChatGPT від OpenAI і Claude-3 від Anthropic.

Nvidia використала спеціально підібрані набори даних, передові методи тонкого налаштування та власне найсучасніше апаратне забезпечення AI, щоб перетворити ванільну модель Meta на те, що може бути найбільш «корисною» моделлю AI на планеті.

Публікація інженера на X.com, яка виражає захоплення можливостями Nemotron. Джерело: Шаян Таслім

«Я поставив йому кілька запитань щодо кодування, які зазвичай ставлю для порівняння LLM, і отримав на це одне з найкращих відповідей. лол, святе лайно».

Бенчмаркінг

Коли справа доходить до визначення того, яка модель ШІ є «найкращою», немає чіткої методології. На відміну, наприклад, від вимірювання температури навколишнього середовища за допомогою ртутного термометра, немає жодної «правди», яка стосується продуктивності моделі ШІ.

Розробники та дослідники мають визначити, наскільки добре модель штучного інтелекту працює так само, як і люди: шляхом порівняльного тестування.

За темою: «завантаження розуму» ШІ може дозволити мертвим торгувати вічно

Бенчмаркінг штучного інтелекту передбачає надання різним моделям штучного інтелекту однакових запитів, завдань, питань чи проблем, а потім порівняння корисності результатів. Часто через суб’єктивність того, що вважається корисним, а що ні, для визначення продуктивності машини шляхом сліпих оцінок використовуються люди-наглядачі.

У випадку з Nemotron, здається, що Nvidia стверджує, що нова модель перевершує існуючі найсучасніші моделі, такі як GPT-4o та Claude-3, із досить великим відривом.

Вершина таблиці лідерів Chatbot Arena. Джерело: LMArenea. AI

На зображенні вище показано рейтинги в автоматизованому тесті «Hard» у таблицях лідерів Chatbot Arena. Хоча Llama-3.1-Nemotron-70B-Instruct від Nvidia ніде не вказано на дошках, якщо твердження розробника про те, що він набрав 85 у цьому тесті, є дійсним, це буде де-факто топова модель у цьому конкретному розділі..

Що робить досягнення, можливо, ще цікавішим, так це те, що Llama-3.1-70B є моделлю штучного інтелекту Meta середнього рівня з відкритим кодом. Є набагато більша версія Llama-3.1, версія 405B (де число означає кількість мільярдів параметрів, на які була налаштована модель).

Для порівняння, GPT-4o, за оцінками, було розроблено з понад трильйоном параметрів.

Alexander Zhdanov

Недавние статьи

Ціна на біткойн відповідає моделі 2017 року, чи досягне вершини лише через 2 тижні після досягнення 100 000 доларів?

Ціна біткойна на шляху до досягнення позначки в 100 000 доларів США, за багатьма прогнозами,…

4 години ago

Звіт CFTC схвалює токенізацію торгової застави

Згідно зі звітом Консультативного комітету з глобальних ринків CFTC від 21 листопада, Комісія з торгівлі…

4 години ago

Sui розвивається завдяки великому досвіду розробників — генеральний директор Router

За останні місяці екосистема блокчейну Sui зазнала значного зростання, а його рідний токен Sui (SUI)…

4 години ago

Потенційний голова Комітету з цінних паперів і цінних паперів обіцяє підхід до криптофорварду після відставки Генслера

Марк Уєда, республіканський уповноважений Комісії з цінних паперів і бірж США (SEC), припустив, що він…

4 години ago

Південнокорейська Delio оголосила банкрутом із втратою активів на 1,75 мільярда доларів

22 листопада суд у Сеулі визнав південнокорейську платформу депозитів віртуальних активів Delio банкрутом, згідно з…

4 години ago

Біткойн друкує рекордну місячну свічку, декларація розкриває платформу криптовалюти Трампа: переосмислення фінансів

Біткойн відобразив найбільшу місячну свічку в історії криптовалюти, коли він повільно наближався до рубежу в…

7 години ago