Китайський DeepSeek запускає новий AI з відкритим кодом після того, як R1 взяв на себе OpenAI

Разное

Китайська компанія з розвитку штучної розвідки DeepSeek випустила нову модель великої мови з відкритим вагою (LLM).

DeepSeek завантажив свою найновішу модель Prover V2 на хостингу, яка обіймала обличчя 30 квітня. Остання модель, опублікована під дозвільною ліцензією MIT з відкритим кодом, має на меті вирішити перевірку математики.

Сховище DeepSeek-Prover-V2. Джерело: Huggingface

У Prover V2 є 671 мільярд параметрів, що робить його значно більшим, ніж його попередники, Prover V1 та Prover V1.5, які були випущені в серпні 2024 року. Документ, що супроводжується першою версією, пояснила, що модель була навчана для перекладу проблем математичної конкуренції в формальну логіку, використовуючи мову програмування Lean 4 – інструмент, широко використовуваний для проведених теорем.

Розробники кажуть, що Prover V2 стискає математичні знання у формат, який дозволяє йому генерувати та перевіряти докази, потенційно допомагаючи дослідженню та освіті.

Пов’язано: Ось чому DeepSeek розбив ваш біткойн та криптовалюту

Що це все означає?

Модель, також неофіційно та неправильно, яку в просторі AI називають “ваги”, є файл або збір файлів, які дозволяють локально виконувати AI, не покладаючись на зовнішні сервери. Тим не менш, варто зазначити, що найсучасніші ЛЛМ потребують обладнання, до якого більшість людей не мають доступу.

Це пояснюється тим, що ці моделі, як правило, мають велику кількість параметрів, що призводить до великих файлів, які потребують багато оперативної пам’яті або VRAM (пам’яті GPU) та потужності обробки для запуску. Нова модель V2 Prover V2 важить приблизно 650 гігабайт і, як очікується, буде працювати з оперативної пам’яті або VRAM.

Щоб зменшити їх до такого розміру, ваги Prover V2 були квантовані до 8-бітної точки плаваючої точки, тобто кожен параметр був наближений до половини простору звичайних 16 біт, при цьому трохи є єдиною цифрою у двійкових числах. Це ефективно вдвічі зменшує масу моделі.

Prover V1 заснований на семимільярдній моделі Deepseekmath і був тонко налаштований на синтетичні дані. Синтетичні дані відносяться до даних, що використовуються для тренувань моделей AI, які, в свою чергу, також генерували моделями AI, з даними, створеними людиною, зазвичай розглядаються як все більш дефіцитне джерело даних вищої якості.

Як повідомляється, Prover V1.5 покращився в попередній версії, оптимізуючи як навчання, так і виконання та досягаючи більшої точності в орієнтирах. Поки що вдосконалення, запроваджені Prover V2, незрозумілі, оскільки під час написання не було опубліковано жодна науково -дослідна робота чи інша інформація. Кількість параметрів у вагах V2 W2 говорить про те, що він, ймовірно, базується на попередній моделі компанії R1. Коли він був вперше випущений, R1 зробив хвилі в просторі AI з його продуктивністю, порівнянною з тодішньою найсучаснішою моделлю O1 OpenAI.

Пов’язано: Південна Корея призупиняє завантаження DeepSeek через проблеми даних користувачів

Важливість відкритих ваг

Публічно випустити ваги LLMS – це суперечлива тема. З одного боку, це демократизуюча сила, яка дозволяє громадськості отримувати доступ до AI на власних умовах, не покладаючись на приватну інфраструктуру компанії.

З іншого боку, це означає, що компанія не може вступити та запобігти зловживанню моделі, застосовуючи певні обмеження щодо небезпечних запитів користувачів. Випуск R1 таким чином викликало проблеми безпеки, а деякі описали це як “момент Китаю”.

Прихильники з відкритим кодом зраділи, що DeepSeek продовжував, де META припинився випуском своєї серії Llama of Open-Source AI моделей, доводячи, що Open AI є серйозним суперником для закритого ШІ OpenAI. Доступність цих моделей також продовжує вдосконалюватися.

Доступні мовні моделі

Тепер навіть користувачі без доступу до суперкомп’ютера, який коштує дорожче, ніж середній будинок у значній частині світу, може працювати LLMS на місцевому рівні. Це в першу чергу завдяки двом методикам розвитку AI: дистиляції та квантування моделі.

Перегонки відноситься до навчання компактної «студентської» мережі для повторного використання поведінки більшої моделі «вчителя», тому ви зберігаєте більшу частину продуктивності, вирізаючи параметри, щоб зробити її доступною для менш потужного обладнання. Квантність полягає у зменшенні числової точності ваги та активації моделі до зменшення розміру та підвищення швидкості висновку лише з незначною втратою точності.

Прикладом є зменшення Perver V2 від 16 до восьмитатом плаваючих точок, але можливі подальші зменшення шляхом вдвічі вдвічі. Обидві ці методи мають наслідки для продуктивності моделі, але зазвичай залишають модель в основному функціональною.

R1 DeepSeek був переганяється на версії з ретрованими моделями LLAMA та QWEN від 70 мільярдів параметрів до 1,5 мільярда параметрів. Найменший з цих моделей може навіть надійно працювати на деяких мобільних пристроях.

Джерело
Оцініть автора
CryptoHamster.org
Додати коментар