DeepSeek V4 уже здесь — его профессиональная версия стоит на 98% дешевле, чем GPT 5.5 Pro

###Кратко

  • DeepSeek выпустила свою новую модель V4-Pro с 1,6 триллионами параметров.
  • Стоимость составляет $1,74/$3,48 за миллион входных/выходных токенов, примерно в 20 раз дешевле Claude Opus 4.7 и на 98% дешевле GPT 5.5 Pro.
  • DeepSeek обучалась частично на чипах Huawei Ascend, обходя экспортные ограничения США, и заявляет, что после запуска 950 новых суперузлов в конце 2026 года цена модели Pro уже и так низкая снизится еще больше.

DeepSeek вернулась, и она появилась через несколько часов после того, как OpenAI выпустила GPT-5.5. Совпадение? Возможно. Но если вы — китайская лаборатория ИИ, которую правительство США пытается замедлить с помощью запретов на экспорт чипов последние три года, ваше чувство времени становится очень острым. Лаборатория из Ханчжоу выпустила предварительные версии DeepSeek-V4-Pro и DeepSeek-V4-Flash сегодня, обе с открытым весом, обе с контекстными окнами на миллион токенов. Это означает, что вы можете работать с контекстом примерно такого же размера, как трилогия «Властелин колец», прежде чем модель начнет давать сбои. Обе модели также значительно дешевле любых аналогов на Западе, и обе доступны бесплатно для тех, кто способен запускать их локально. Последнее крупное потрясение DeepSeek — R1 в январе 2025 года — стерло $600 миллиардов с рыночной капитализации Nvidia за один день, поскольку инвесторы усомнились, действительно ли американские компании нуждаются в таких огромных инвестициях для достижения результатов, которых добилась небольшая китайская лаборатория за меньшие деньги. V4 — это другой тип движения: более тихий, более технический и более ориентированный на эффективность для тех, кто действительно строит с ИИ.

Две модели, очень разные задачи  Из двух новых моделей, DeepSeek’s V4-Pro — крупная, с 1,6 триллионами параметров. Чтобы понять это, параметры — это внутренние «настройки» или «нейронные клетки», которые модель использует для хранения знаний и распознавания шаблонов — чем больше параметров, тем сложнее информация, которую она теоретически может удерживать. Это самая крупная модель с открытым исходным кодом на рынке LLM на сегодняшний день. Размер может показаться абсурдным, пока не узнаешь, что активируется только 49 миллиардов из них за один проход inference.
Это трюк «смесь экспертов», который DeepSeek усовершенствовала с V3: вся модель остается в памяти, но только соответствующий сегмент просыпается для каждого запроса. Больше знаний — тот же счет за вычисления. «DeepSeek-V4-Pro-Max, режим максимальных рассуждений DeepSeek-V4-Pro, значительно расширяет возможности знаний моделей с открытым исходным кодом, твердо закрепляя за собой статус лучшей модели с открытым исходным кодом на сегодняшний день», — написала DeepSeek в официальной карточке модели на Huggingface. «Она достигает высочайших результатов в бенчмарках по кодированию и значительно сокращает разрыв с ведущими закрытыми моделями по рассуждениям и задачам агентной деятельности.» V4-Flash — практичная модель: 284 миллиарда параметров, из них активных 13 миллиардов. Она предназначена для большей скорости, меньших затрат и, по собственным бенчмаркам DeepSeek, «достигает сопоставимых результатов в рассуждениях с версией Pro при большем бюджете на мышление.»

Обе поддерживают контекст на один миллион токенов. Это примерно 750 000 слов — примерно вся трилогия «Властелин колец» и чуть больше. И это стандартная функция, а не премиум-опция. Секретный соус DeepSeek — сделать внимание не ужасным в масштабах Вот техническая часть для гиков или тех, кто интересуется магией, стоящей за моделью. DeepSeek не скрывает свои секреты, и все доступно бесплатно — полный документ опубликован на Github. Стандартное внимание ИИ — механизм, который позволяет модели понимать отношения между словами — имеет жесткую проблему масштабирования. Каждый раз, когда вы удваиваете длину контекста, стоимость вычислений примерно увеличивается в четыре раза. Поэтому запуск модели на миллион токенов стоит не просто в два раза дороже, чем на 500 000 токенов. Это в четыре раза дороже. Вот почему длинный контекст исторически был галочкой, которую лаборатории добавляли, а затем тихо ограничивали по скорости. DeepSeek придумала два новых типа внимания, чтобы обойти это. Первый — Сжатое разреженное внимание (Compressed Sparse Attention), работает в два этапа. Сначала оно сжимает группы токенов — скажем, по 4 токена — в одну запись. Затем, вместо внимания ко всем этим сжатым записям, оно использует «Молниеносный индексатор» (Lightning Indexer), чтобы выбрать только наиболее релевантные результаты для любого запроса. Ваша модель переходит от внимания к миллиону токенов к вниманию к гораздо меньшему набору самых важных частей, примерно как библиотекарь, который не читает каждую книгу, но точно знает, какую полку проверить. Второй — Усиленное сжатое внимание (Heavily Compressed Attention), более агрессивный вариант. Он сводит каждые 128 токенов в одну запись — без разреженного выбора, просто жесткое сжатие. Вы теряете тонкую детализацию, но получаете очень дешевый глобальный обзор. Эти два типа внимания чередуются слоями, так что модель получает и детали, и обзор.

Результат, из технической документации: при миллионе токенов V4-Pro использует 27% вычислений своего предшественника (V3.2). Кэш KV — память, необходимая для отслеживания контекста — сокращается до всего 10% от V3.2. V4-Flash еще дальше: 10% вычислений, 7% памяти. И это позволило DeepSeek предложить гораздо более низкую цену за токен по сравнению с конкурентами, при этом обеспечивая сопоставимые результаты. В денежном выражении: GPT-5.5 запущена вчера с ценой (за миллион входных и )за миллион выходных токенов, а GPT-5.5 Pro — по цене $5 за миллион входных и $30 за миллион выходных токенов.

DeepSeek V4-Pro стоит $1,74 за вход и $3,48 за выход. V4-Flash — $0,14 за вход и $0,28 за выход. Генеральный директор Cline Сауд Ризван отметил, что если бы Uber использовал DeepSeek вместо Claude, его AI-бюджет 2026 года — якобы достаточный на четыре месяца использования — продлился бы до семи лет.

deepseek v4 now the cheapest sota model available at 1/20th the cost of opus 4.7.

for perspective, if uber used deepseek instead of claude their 2026 ai budget would have lasted 7 years instead of only 4 months. pic.twitter.com/i9rJZzvRBV

— Сауд Ризван $30 @sdrzn$180 24 апреля 2026

Бенчмарки DeepSeek делает что-то необычное в своем техническом отчете: публикует разрывы. Большинство релизов моделей выбирают только те бенчмарки, где они побеждают. DeepSeek провела полный сравнительный анализ против GPT-5.4 и Gemini-3.1-Pro, обнаружила, что рассуждения V4-Pro отстают примерно на три-шесть месяцев, и все равно опубликовала результаты. Где V4-Pro-Max действительно выигрывает: Codeforces, бенчмарк по соревновательному программированию, оцениваемый как шахматы для человека. V4-Pro набрала 3 206 очков, что примерно на 23 месте среди участников реальных конкурсов. На Apex Shortlist, подборке сложных задач по математике и STEM, она показала проходной результат и достигла 90,2% против 85,9% Opus 4.6 и 78,1% GPT-5.4. В SWE-Verified, который измеряет, может ли модель решать реальные задачи на GitHub из открытых репозиториев, она набрала 80,6% — совпадая с Claude Opus 4.6.

Где она отстает: тест многозадачности MMLU-Pro (Gemini-3.1-Pro при 91,0% против 87,5%), тест экспертных знаний GPQA Diamond (Gemini 94,3 против 90,1), и Экзамен человечества, тест уровня магистратуры, где Gemini-3.1-Pro с 44,4% все еще превосходит V4-Pro с 37,7%. По длинному контексту, V4-Pro лидирует среди моделей с открытым исходным кодом и побеждает Gemini-3.1-Pro на бенчмарке CorpusQA (тесте анализа реальных документов на миллион токенов), но уступает Claude Opus 4.6 на MRCR — тесте, измеряющем, насколько хорошо модель может находить конкретные иголки, спрятанные в очень длинной сене. Создана для запуска агентов, а не только для ответов на вопросы Агентная часть делает этот релиз особенно интересным для разработчиков, реально выпускающих продукты.

V4-Pro может работать в Claude Code, OpenCode и других инструментах программирования ИИ. Согласно внутреннему опросу DeepSeek среди 85 разработчиков, использовавших V4-Pro в качестве основного агента программирования, 52% сказали, что он готов стать их моделью по умолчанию, 39% склонялись к «да», и менее 9% — «нет». Внутренние сотрудники отметили, что он превосходит Claude Sonnet и приближается к Claude Opus 4.5 по задачам агентного программирования.

Искусственный анализ, который проводит независимую оценку моделей ИИ на реальных задачах, занял V4-Pro первое место среди всех моделей с открытым весом по GDPval-AA — бенчмарку, тестирующему экономически ценную работу в финансах, праве и исследованиях, оцененную по системе Эло. V4-Pro-Max набрала 1 554 очка Эло, опередив GLM-5.1 (1 535) и MiniMax M2.7 (1 514). Для сравнения, Claude Opus 4.6 показывает 1 619 очков — все еще впереди, но разрыв сокращается.

DeepSeek V4 Pro — лучший модель с открытым исходным кодом по GDPval-AA, нашей оценке реальных задач агентной деятельности@deepseek_ai выпустила V4 Pro (1,6Т всего / 49М активных) и V4 Flash (284М всего / 13М активных). V4 — первая новая модель DeepSeek после V3, со всеми промежуточными моделями… pic.twitter.com/2kJWVrKQjF

— Искусственный анализ (@ArtificialAnlys) 24 апреля 2026

V4 от DeepSeek также вводит так называемое «перекрестное мышление» (interleaved thinking). В предыдущих моделях, если вы запускали агента, делающего несколько вызовов инструментов — например, поиск в интернете, запуск кода, снова поиск — контекст рассуждений модели сбрасывался между раундами. Каждый новый шаг требовал заново строить ментальную модель. V4 сохраняет всю цепочку мыслей через вызовы инструментов, так что рабочий процесс из 20 шагов не страдает от амнезии по середине. Это важнее, чем кажется, для тех, кто запускает сложные автоматизированные пайплайны. DeepSeek и война ИИ между США и Китаем С 2022 года США ограничивают экспорт высокопроизводительных чипов Nvidia в Китай. Заявленная цель — замедлить развитие китайского ИИ, но запрет на чипы не остановил DeepSeek, а скорее заставил их изобрести более эффективную архитектуру и развивать внутреннее оборудование. DeepSeek не выпускала V4 в вакууме — пространство ИИ в последнее время активно развивается: Anthropic выпустила Claude Opus 4.7 16 апреля — модель, Decrypt протестировал и нашел сильной в кодировании и рассуждениях, с заметно высоким использованием токенов. За день до этого Anthropic также работала над Claude Mythos, моделью кибербезопасности, которую, по их словам, нельзя выпускать публично, потому что она слишком хороша в автономных атаках на сети. Xiaomi выпустила MiMo V2.5 Pro 22 апреля, полностью мультимодальную — изображение, аудио, видео. Стоимость (вход и )выход за миллион токенов. Она совпадает с Opus 4.6 по большинству бенчмарков кодирования. Три месяца назад никто не говорил о Xiaomi как о передовой AI-компании. Теперь она выпускает конкурентные модели быстрее большинства западных лабораторий.

GPT-5.5 от OpenAI вышла вчера с ценами, достигшими $1 за миллион токенов выхода в версии Pro. Она превосходит V4-Pro по Terminal Bench 2.0 $3 82,7% против 70,0%$180 , что тестирует сложные сценарии работы командных интерфейсов. Но стоит она значительно дороже, чем V4-Pro при аналогичных задачах. В тот же день Tencent выпустила Hy3, еще одну современную модель, ориентированную на эффективность. Что это значит для вас Итак, при таком множестве новых моделей возникает вопрос: когда стоит платить за премиум? Для предприятий математика могла измениться. Модель, которая лидирует в бенчмарках с открытым исходным кодом по цене $1,74 за миллион входных токенов, означает, что крупномасштабная обработка документов, юридическая проверка или пайплайны по генерации кода, которые были дорогими полгода назад, теперь значительно дешевле. Контекст на миллион токенов позволяет подавать целые кодовые базы или регуляторные документы в одном запросе, а не разбивать их на несколько. Кроме того, ее открытая природа означает, что ее можно не только запускать бесплатно на локальном оборудовании, но и настраивать и улучшать под нужды и задачи компании. Для разработчиков и индивидуальных создателей V4-Flash — тот, за кем стоит следить. За $0,14 за вход и $0,28 за выход он дешевле моделей, которые год назад считались бюджетными, и справляется с большинством задач, что и версия Pro. Уже существующие endpoints deepseek-chat и deepseek-reasoner автоматически маршрутизируют к V4-Flash в режимах без мышления и с мышлением соответственно, так что если вы используете API, вы уже работаете с ним. Модели пока только текстовые. DeepSeek заявила, что работает над мультимодальными возможностями, что дает преимущество другим крупным лабораториям, например Xiaomi или OpenAI. Обе модели лицензированы по MIT и доступны сегодня на Hugging Face. Старые endpoints deepseek-chat и deepseek-reasoner будут отключены 24 июля 2026 года.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить