DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.

Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.

Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Британія стежить за Anthropic AI, щоб посилити кібербезпеку банківського сектору

Сполучене Королівство вивчає важливий крок у фінансовій кібербезпеці, працюючи з компанією з AI Anthropic. Ранні обговорення вказують, що уряд може розгорнути вдосконалену модель Claude Mythos від Anthropic у банках і фінансових установах. Цей крок має на меті посилити захист, оскільки кіберзагрози

CryptometerIo1хв. тому

Офіс IP Китаю додає ШІ, напівпровідники та мозково-комп’ютерні інтерфейси до програми прискореного захисту

Повідомлення Gate News, 24 квітня — Національне управління з інтелектуальної власності Китаю 24 квітня оголосило, що створить комплексний захист прав інтелектуальної власності для нових технологій шляхом інституційних реформ, розширених послуг і впровадження ширших застосувань. Управління wi

GateNews8хв. тому

Державний уряд США керує біткоїн-нода без майнінгу, зазначив адмірал

Старший адмірал заявив, що уряд США активно керує нодою в мережі Bitcoin, навмисно уникаючи участі в майнінговій діяльності. Розкриття інформації вказує, що органи влади беруть на себе більш залучену роль у блокчейн-інфраструктурі для нагляду та

CryptoFrontier24хв. тому

Дохід Tesla за Q1 зріс на 16% до $22,4 млрд; дебют гуманоїдного робота заплановано на середину 2026 року

Повідомлення Gate News, 24 квітня — Tesla повідомила про дохід за перший квартал у розмірі 22,4 млрд дол. США 23 квітня, що становить зростання на 16% у річному обчисленні. Поставки автомобілів компанії у всьому світі перевищили 358 000 одиниць, тоді як виробництво сягнуло понад 408 000 одиниць. Шанхайський завод Tesla Gigafactory поставив 213 000 автомоб

GateNews24хв. тому

Прибуток SK Hynix у I кварталі зріс у п’ять разів до рекорду на хвилі буму ШІ, премії співробітникам підняли до $878K

Повідомлення Gate News, 24 квітня — SK Hynix повідомила про п’ятиразове зростання квартального операційного прибутку до рекордних 37.61 трлн вон ($32.4 мільярда) 23 квітня, яке зумовлене різким зростанням попиту з боку рішень на основі штучного інтелекту та дата-центрів. Несподівана вигода забезпечує небачені раніше премії працівникам, і, за оцінками аналітиків, вони можуть досягти до $878,000 на одного співробітника у 2027 році, якщо нинішні прогнози прибутків збережуться.

GateNews1год тому

Архітектуру DeepSeek V4 підтверджено: 3 із 4 прогнозів збулися, модуль Engram відсутній

Повідомлення Gate News, 24 квітня — DeepSeek сьогодні опублікував картку моделі V4, підтвердивши раніші архітектурні припущення, зроблені шляхом аналізу бібліотеки ядер TileKernels, випущеної вчора (23 квітня). Згідно з моніторингом від Beating, було підтверджено три ключові компоненти: mHC

GateNews1год тому
Прокоментувати
0/400
Немає коментарів