Китайская компания по развитию искусственного интеллекта Deedseek выпустила новую большую языковую модель открытого веса (LLM).
DeepSeek загрузила свою новейшую модель Prover V2, на хостинг-сервис, обнимающую лицо 30 апреля. Последняя модель, выпущенная под разрешающей лицензией MIT с открытым исходным кодом, направлена на вопрос о проверке математических доказательств.

Prover V2 имеет 671 миллиард параметров, что делает его значительно больше, чем его предшественники, Prover V1 и Prover V1.5, которые были выпущены в августе 2024 года. В статье, сопровождающей первую версию, модель была обучена для перевода проблем математики в формальную логику с использованием языка Lean 4 – инструмент, широко используемый для доказывания теоремов.
Разработчики говорят, что Prover V2 сжимает математические знания в формат, который позволяет ему генерировать и проверять доказательства, потенциально помогая исследованиям и образованию.
Связанный: вот почему DeepSeek разбил ваш биткоин и крипто
Что все это значит?
Модель, также неофициально и неправильно, называемая «весами» в пространстве ИИ, представляет собой файл или сбор файлов, которые позволяют локально выполнять ИИ, не полагаясь на внешние серверы. Тем не менее, стоит отметить, что современные LLM требуют оборудования, к которому у большинства людей нет доступа.
Это связано с тем, что эти модели имеют тенденцию иметь большое количество параметров, что приводит к большим файлам, для которых требуется много оперативной памяти или VRAM (память GPU) и мощность обработки для запуска. Новая модель Prover V2 весит приблизительно 650 гигабайт и, как ожидается, будет работать от оперативной памяти или VRAM.
Чтобы довести их до этого размера, веса Prover v2 были квантованы до 8-битной точки плавающей точки, что означает, что каждый параметр был аппроксимирован, чтобы занять половину пространства обычных 16 бит, причем немного однозначно в двоичных числах. Это эффективно вдвое увеличивает объем модели.
Prover V1 основана на модели DeepSeekmath с семью миллиардами параметра и была точно настроена на синтетические данные. Синтетические данные относятся к данным, используемым для обучения моделей искусственного интеллекта, которые, в свою очередь, также генерировались моделями ИИ, при этом данные, сгенерированные человеком, обычно рассматриваются как все более дефицитный источник более качественных данных.
По сообщениям, Prover V1.5 улучшилась на предыдущей версии, оптимизируя как обучение, так и выполнение и достигнув более высокой точности в критериях. До настоящего времени неясно, что улучшения, введенные Prover V2, поскольку на момент написания статьи не было опубликовано никакой исследовательской работы или другой информации. Количество параметров в весах Prover V2 предполагает, что он, вероятно, будет основан на предыдущей модели R1 компании. Когда он был впервые выпущен, R1 поднял волны в пространстве ИИ, а ее производительность сравнивалась с тогдашней современной моделью Operai O1.
Связанный: Южная Корея приостанавливает загрузки DeepSeek по поводу проблем с пользовательскими данными
Важность открытых весов
Публично освобождение весов LLMS является спорной темой. С одной стороны, это демократизирующая сила, которая позволяет общественности доступ к ИИ на своих собственных условиях, не полагаясь на инфраструктуру частной компании.
С другой стороны, это означает, что компания не может вмешаться и не предотвратить злоупотребление моделью, обеспечивая определенные ограничения на опасные пользовательские запросы. Выпуск R1 таким образом поднял проблемы безопасности, а некоторые описали его как «момент Sputnik» Китая.
Сторонники с открытым исходным кодом радовались тем, что DeepSeek продолжался, где Meta остановилась с выпуском своей серии моделей AI с открытым исходным кодом, доказывая, что Open AI является серьезным претендентом на закрытый ИИ Openai. Доступность этих моделей также продолжает улучшаться.
Доступные языковые модели
Теперь даже пользователи без доступа к суперкомпьютеру, который стоит дороже, чем средний дом в большей части мира, могут управлять LLM на местном уровне. Это в первую очередь благодаря двум методам разработки искусственного интеллекта: модельной дистилляции и квантования.
Дистилляция относится к обучению компактной «студенческой» сети для воспроизведения поведения более крупной модели «учителя», поэтому вы сохраняете большую часть производительности, сокращая параметры, чтобы сделать ее доступной для менее мощного оборудования. Квантование состоит из снижения численной точности весов и активаций модели для сокращения размера и повышения скорости вывода с лишь незначительной потерей точности.
Примером является сокращение Prover V2 с 16 до восьмибитных номеров плавания, но дальнейшее снижение возможного снижения. Оба этих метода имеют последствия для производительности модели, но обычно оставляют модель в значительной степени функциональной.
R1 DeepSeek был перегонял в версии с переподготовленными моделями Llama и QWEN в диапазоне от 70 миллиардов параметров до 1,5 миллиарда параметров. Самые маленькие из этих моделей могут даже надежно запускать на некоторых мобильных устройствах.