Повідомлення Gate News від 24 квітня — Технічний звіт DeepSeek V4 розкриває, що V4-Flash і V4-Pro були попередньо натреновані на 32T і 33T токенів відповідно, удвічі більше приблизно 15T токенів, використаних для V3. У звіті визнається, що під час тренування вони зіткнулися з “значними проблемами нестабільності”, причому сплески loss неодноразово виникали через аномалії в шарі Mixture-of-Experts (MoE); сам механізм маршрутизації загострює ці аномалії, і простий rollback не може вирішити проблему.

DeepSeek упровадив два рішення, які тепер застосовуються до реального тренування: Anticipatory Routing, що відокремлює обчислення індексу маршрутизації від оновлень backbone-мережі та автоматично запускає перемикання лише тоді, коли виявляються сплески loss (додаючи приблизно 20% накладних витрат), і SwiGLU Clamping, який безпосередньо пригнічує аномалії шляхом обмеження значень активацій фіксованим діапазоном. У звіті зазначено, що обидва підходи є ефективними, але визнається, що “базові принципи досі недостатньо вивчені”.

Сьюзан Чжан, дослідниця Google DeepMind, яка раніше працювала в Meta AI та OpenAI, прокоментувала, що нестабільність, спричинена подвоєнням даних для тренування, “пояснює затримку”. Вона описала два рішення як “тимчасові латки” та водночас визнала технічну прозорість DeepSeek.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Cursor розкриває причину тренування XAI: обчислювальні потужності були затиснуті, SpaceX додатково має 60 мільярдів доларів на опціони на придбання

Новини індустрії ШІ

Оголошення Anysphere стверджує, що Cursor буде навчати нову модель разом із xAI на основі інфраструктури Colossus, щоб подолати вузьке місце з обчислювальною потужністю; SpaceX запропонувала опціон на придбання на 60 мільярдів доларів США (можна здійснити повне придбання протягом 2026 року), а якщо ні — сплатити приблизно 10 мільярдів доларів США як компенсацію за співпрацю. Обидві угоди відбуваються одночасно, змінюючи те, хто зможе навчати Cursor і хто зможе викупити Cursor; Cursor досі дозволяє багатьом бекендам моделей, але в довгостроковій перспективі все залежить від того, чи здійснить SpaceX своє право на придбання.

ChainNewsAbmedia14хв. тому

Anthropic 二级市场估值突破 1 万亿美元：Forge Global 反超 OpenAI 的 8,800 亿

Новини індустрії ШІ

Згідно з повідомленням Decrypt, вторинна оцінка Anthropic компанії Forge Global становить приблизно 1 трлн доларів США, а OpenAI — близько 880 млрд доларів США; на вторинному ринку вперше зафіксовано лідируючий розворот. ARR Anthropic зросла приблизно з 9 млрд на кінець 2025 року до приблизно 30 млрд у березні 2026 року — за три місяці на 233%, що підштовхнуло приватні оцінки. Вторинна оцінка відрізняється від первинного фінансування: вона відображає впевненість у виході; у майбутньому й далі дивляться на чотири напрями — технології, політику, бізнес і наратив.

ChainNewsAbmedia15хв. тому

Meta Platforms планує скоротити штат на 10% 20 травня, зачепивши приблизно 8 000 посад

Новини індустрії ШІ

Повідомлення Gate News, 24 квітня — Meta Platforms планує скоротити штат приблизно на 10%, що торкнеться приблизно 8 000 посад, 20 травня. Звільнення мають на меті підвищити операційну ефективність, одночасно збільшуючи інвестиції в штучний інтелект. Запланована реструктуризація відображає

GateNews1год тому

Уряд Трампа оприлюднив план боротьби з AI-переробкою, звинувачуючи китайські компанії в систематичному викраденні можливостей моделей

Новини індустрії ШІ

Офіційний помічник президента з питань технологічної політики Білого дому (OSTP) Майкл Дж. Кратсіос (Michael J. Kratsios) 23 квітня зробив офіційну заяву, у якій зазначив, що адміністрація Трампа має інформацію, яка свідчить: іноземні суб’єкти (переважно з Китаю) навмисно націлені на великі американські компанії в галузі штучного інтелекту, системно вилучаючи можливості американських AI-моделей через «десятки тисяч» проксі-акаунтів та системи, що використовують технології джейлбрейку, і паралельно оприлюднюють чотири заходи реагування.

MarketWhisper1год тому

DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4

Новини індустрії ШІ

DeepSeek 24 квітня офіційно випустив серію прев’ю-версій V4, відкривши її як open source за ліцензією MIT; ваги моделей уже синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (найпотужніший режим інференсу) на бенчмарку Codeforces набрав 3206 балів, перевершивши GPT-5.4.

MarketWhisper1год тому

Cambricon завершує адаптацію Day 0 для DeepSeek-V4, позначаючи важливу віху для екосистеми AI-чипів Китаю

Новини індустрії ШІ

Повідомлення Gate News, 24 квітня — сьогодні Cambricon оголосила, що завершила адаптацію Day 0 для DeepSeek-V4, останньої великої мовної моделі від DeepSeek, використовуючи власну програмну екосистему NeuWare та фреймворк vLLM. Код адаптації було відкрито одночасно, що

GateNews2год тому

Прокоментувати

0/400

Немає коментарів