Повідомлення Gate News, 22 квітня — аспірант Принстонського університету Юйфань Чжан розкрив повні технічні характеристики DeepSeek V4 у X після попереднього анонсу 19 квітня. V4 має загалом 1,6 трильйона параметрів і полегшений варіант V4-Lite, який містить 285 мільярдів параметрів.
Модель використовує механізм уваги DSA2, який поєднує попередню DSA (DeepSeek Sparse Attention) від V3.2 та NSA (Native Sparse Attention) із вкладеннями для голови розмірністю 512, у парі з Sparse Multi-Query Attention (MQA) та Sliding Window Attention (SWA). Рівень MoE (Mixture of Experts) містить 384 експерти, з 6 активованими під час кожного прямого проходу, із використанням Fused MoE Mega-Kernel. Від’ємні зв’язки застосовують архітектуру Hyper-Connections.
Деталі тренування, розкриті вперше, включають використання оптимізатора Muon (applying Newton-Schulz orthogonalization to momentum updates), контекстного вікна для попереднього навчання на 32K токенів, а також GRPO (Group Relative Policy Optimization) з корекцією за розбіжністю KL під час підкріплювального навчання. Кінцеве контекстне вікно розширюється до 1 мільйона токенів. Модель є лише текстовою.
Чжан не працює в DeepSeek, і компанія офіційно не коментувала розкриту інформацію.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
OpenAI досягає $1 трильйонної донаукладальної (pre-IPO) оцінки на тлі гонки з SpaceX і Anthropic
OpenAI наближається до $1T очікуваної донаукладальної (pre-IPO) оцінки через ставки на ланцюжку; SpaceX і Anthropic орієнтуються на подібні оцінки, оскільки витрати на інфраструктуру для ШІ зростають, що підштовхує дохід від підписок, тоді як Anthropic стикається з плутаниною щодо цін.
GateNews50хв. тому
Оцінка DeepSeek стрімко зростає, перевищуючи $20 мільярд, оскільки Tencent і Alibaba зважують інвестиції
DeepSeek прагне >$20B as, поки Tencent/Alibaba обговорюють інвестиції; Nvidia попереджає, що американське відставання за чипами може бути підірване Huawei; фінансування ШІ продовжує стрімко зростати разом із $1B раундом Vast Data та інвестиціями OpenAI/Anthropic/xAI.
DeepSeek націлений на оцінку понад $20 мільярд на тлі розмов із Tencent і Alibaba, тоді як Nvidia попереджає, що перенесення AI-моделей на чипи Huawei може зменшити лідерство США. У матеріалі також зазначено глобальне стрімке зростання фінансування ШІ, зокрема $1 мільярдний раунд Vast Data за оцінки $30 мільярд і масштабні інвестиції в OpenAI, Anthropic та xAI.
GateNews3год тому
OpenClaw, Hermes і SillyTavern Підтверджені як підтримувані в GLM Coding Plan
PM від Zhipu AI Лі оголошує OpenClaw, Hermes і SillyTavern як підтримувані проєкти в межах GLM Coding Plan; інші інструменти будуть оцінені в кожному конкретному випадку. Не діліться обліковими даними та не використовуйте підписки як доступ до API; зверніться в підтримку через помилку 1313.
Продуктовий менеджер Zhipu AI Лі оголосив, що OpenClaw, Hermes і SillyTavern офіційно підтримуються в межах GLM Coding Plan, а інші інструменти оцінюватимуться в кожному конкретному випадку. У примітці застерігають від поширення облікових даних або використання підписок як доступу до API та вказують користувачам із помилкою 1313 звернутися в підтримку.
GateNews6год тому
Генеральний директор Google Cloud: Gemini забезпечить запуск персоналізованого Siri від Apple у 2026 році
Підсумок: Gemini забезпечить персоналізований Apple Siri у 2026 році, створений на основі Foundation Models від Apple та співпраці Gemini; Apple тестує чатоподібний Siri в iOS 27/macOS 27, запланований до показу на WWDC 2026.
Анотація: Google Cloud's Gemini має бути задіяний для створення персоналізованого Apple Siri до 2026 року, поєднуючи Gemini з Foundation Models від Apple у межах співпраці приблизно на $1 мільярд. Apple тестує перероблену, чатоподібну версію Siri в iOS 27/macOS 27 з інтерфейсом Dynamic Island та новими функціями, напередодні офіційної презентації на WWDC 2026 8 червня.
GateNews6год тому
Угода SpaceX $60B Cursor Підживлює Наступ СБФ за Помилування, а Частка $200K FTX Тепер Варто $3B
Повідомлення Gate News, 22 квітня — сьогодні SpaceX оголосила про масштабне партнерство з AI-стартапом з програмування Cursor, з опцією викупити компанію за $60 мільярд. Угода дала нові аргументи Семові Бенкману-Фрідові (SBF), який наразі перебуває в ув’язненні та добивається президентського помилування, оскільки вона демонструє потенціал відновлення вартості, який він давно стверджував, що FTX могла б досягти, як він
GateNews6год тому
Акції Chegg падають на 99% через те, що ШІ порушує ринок edtech
Короткий огляд: Chegg різко злетіла на тлі попиту на онлайн-освіту, а потім інструменти на базі ШІ зруйнували її модель, що спричинило масові скорочення та падіння нижче $2, при цьому ширші зміни, зумовлені ШІ, вдарили по майнерах криптовалют і фінтех-компаніях.
Анотація: У цій статті розглядається злет Chegg як улюблениці edtech у період пандемії та її подальше падіння на тлі стрімкого впровадження генеративного ШІ, який дає швидкі відповіді й підриває ціннісну пропозицію Chegg. Тут описано скорочення у 2025 році та падіння акцій із наближенням до делістингу, а також показано досвід Chegg у ширшому контексті збоїв через ШІ, які змінюють технології та криптоіндустрію: майнери Bitcoin переорієнтовуються на операції з ШІ, а AI-орієнтовані стратегії переозначають конкурентоспроможність у фінтеху та за його межами.
CryptoFrontier6год тому