Повідомлення Gate News, 22 квітня — аспірант Принстонського університету Юйфань Чжан розкрив повні технічні характеристики DeepSeek V4 у X після попереднього анонсу 19 квітня. V4 має загалом 1,6 трильйона параметрів і полегшений варіант V4-Lite, який містить 285 мільярдів параметрів.

Модель використовує механізм уваги DSA2, який поєднує попередню DSA (DeepSeek Sparse Attention) від V3.2 та NSA (Native Sparse Attention) із вкладеннями для голови розмірністю 512, у парі з Sparse Multi-Query Attention (MQA) та Sliding Window Attention (SWA). Рівень MoE (Mixture of Experts) містить 384 експерти, з 6 активованими під час кожного прямого проходу, із використанням Fused MoE Mega-Kernel. Від’ємні зв’язки застосовують архітектуру Hyper-Connections.

Деталі тренування, розкриті вперше, включають використання оптимізатора Muon (applying Newton-Schulz orthogonalization to momentum updates), контекстного вікна для попереднього навчання на 32K токенів, а також GRPO (Group Relative Policy Optimization) з корекцією за розбіжністю KL під час підкріплювального навчання. Кінцеве контекстне вікно розширюється до 1 мільйона токенів. Модель є лише текстовою.

Чжан не працює в DeepSeek, і компанія офіційно не коментувала розкриту інформацію.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

OpenAI досягає $1 трильйонної донаукладальної (pre-IPO) оцінки на тлі гонки з SpaceX і Anthropic

Новини індустрії ШІ

OpenAI наближається до $1T очікуваної донаукладальної (pre-IPO) оцінки через ставки на ланцюжку; SpaceX і Anthropic орієнтуються на подібні оцінки, оскільки витрати на інфраструктуру для ШІ зростають, що підштовхує дохід від підписок, тоді як Anthropic стикається з плутаниною щодо цін.

GateNews50хв. тому

Оцінка DeepSeek стрімко зростає, перевищуючи $20 мільярд, оскільки Tencent і Alibaba зважують інвестиції

Новини індустрії ШІ

DeepSeek прагне >$20B as, поки Tencent/Alibaba обговорюють інвестиції; Nvidia попереджає, що американське відставання за чипами може бути підірване Huawei; фінансування ШІ продовжує стрімко зростати разом із $1B раундом Vast Data та інвестиціями OpenAI/Anthropic/xAI. DeepSeek націлений на оцінку понад $20 мільярд на тлі розмов із Tencent і Alibaba, тоді як Nvidia попереджає, що перенесення AI-моделей на чипи Huawei може зменшити лідерство США. У матеріалі також зазначено глобальне стрімке зростання фінансування ШІ, зокрема $1 мільярдний раунд Vast Data за оцінки $30 мільярд і масштабні інвестиції в OpenAI, Anthropic та xAI.

GateNews3год тому

OpenClaw, Hermes і SillyTavern Підтверджені як підтримувані в GLM Coding Plan

Новини індустрії ШІ

PM від Zhipu AI Лі оголошує OpenClaw, Hermes і SillyTavern як підтримувані проєкти в межах GLM Coding Plan; інші інструменти будуть оцінені в кожному конкретному випадку. Не діліться обліковими даними та не використовуйте підписки як доступ до API; зверніться в підтримку через помилку 1313. Продуктовий менеджер Zhipu AI Лі оголосив, що OpenClaw, Hermes і SillyTavern офіційно підтримуються в межах GLM Coding Plan, а інші інструменти оцінюватимуться в кожному конкретному випадку. У примітці застерігають від поширення облікових даних або використання підписок як доступу до API та вказують користувачам із помилкою 1313 звернутися в підтримку.

GateNews6год тому

Генеральний директор Google Cloud: Gemini забезпечить запуск персоналізованого Siri від Apple у 2026 році

Новини індустрії ШІ

Підсумок: Gemini забезпечить персоналізований Apple Siri у 2026 році, створений на основі Foundation Models від Apple та співпраці Gemini; Apple тестує чатоподібний Siri в iOS 27/macOS 27, запланований до показу на WWDC 2026. Анотація: Google Cloud's Gemini має бути задіяний для створення персоналізованого Apple Siri до 2026 року, поєднуючи Gemini з Foundation Models від Apple у межах співпраці приблизно на $1 мільярд. Apple тестує перероблену, чатоподібну версію Siri в iOS 27/macOS 27 з інтерфейсом Dynamic Island та новими функціями, напередодні офіційної презентації на WWDC 2026 8 червня.

GateNews6год тому

Угода SpaceX $60B Cursor Підживлює Наступ СБФ за Помилування, а Частка $200K FTX Тепер Варто $3B

Примусові заходи Новини індустрії ШІ Інструменти та застосунки ШІ

Повідомлення Gate News, 22 квітня — сьогодні SpaceX оголосила про масштабне партнерство з AI-стартапом з програмування Cursor, з опцією викупити компанію за $60 мільярд. Угода дала нові аргументи Семові Бенкману-Фрідові (SBF), який наразі перебуває в ув’язненні та добивається президентського помилування, оскільки вона демонструє потенціал відновлення вартості, який він давно стверджував, що FTX могла б досягти, як він

GateNews6год тому

Акції Chegg падають на 99% через те, що ШІ порушує ринок edtech

Акції Новини індустрії ШІ

Короткий огляд: Chegg різко злетіла на тлі попиту на онлайн-освіту, а потім інструменти на базі ШІ зруйнували її модель, що спричинило масові скорочення та падіння нижче $2, при цьому ширші зміни, зумовлені ШІ, вдарили по майнерах криптовалют і фінтех-компаніях. Анотація: У цій статті розглядається злет Chegg як улюблениці edtech у період пандемії та її подальше падіння на тлі стрімкого впровадження генеративного ШІ, який дає швидкі відповіді й підриває ціннісну пропозицію Chegg. Тут описано скорочення у 2025 році та падіння акцій із наближенням до делістингу, а також показано досвід Chegg у ширшому контексті збоїв через ШІ, які змінюють технології та криптоіндустрію: майнери Bitcoin переорієнтовуються на операції з ШІ, а AI-орієнтовані стратегії переозначають конкурентоспроможність у фінтеху та за його межами.

CryptoFrontier6год тому

Прокоментувати

0/400

Немає коментарів