Повідомлення Gate News, 24 квітня — сьогодні Cambricon оголосила, що завершила адаптацію Day 0 для DeepSeek-V4, останньої великої мовної моделі від DeepSeek, використовуючи власну програмну екосистему NeuWare та фреймворк vLLM. Код адаптації було відкрито одночасно, що позначає другий поспіль випадок, коли Cambricon надала нативну підтримку чипів у день запуску нової моделі DeepSeek.

Щоб оптимізувати нову архітектуру DeepSeek-V4, Cambricon використала свою бібліотеку операторів високої продуктивності Torch-MLU-Ops для спеціалізованого прискорення модулів, зокрема Compressor та mHC. Компанія також застосувала мову програмування BangC для розробки високооптимізованих ядер для критично важливих операторів, таких як розріджена/стиснена Attention та GroupGemm, повністю використовуючи наявні можливості апаратного забезпечення. Попередні зусилля спільної оптимізації програмного й апаратного забезпечення між цими двома компаніями досягли показників використання обчислень на рівні, що лідирує в галузі.

DeepSeek-V4, який сьогодні запущено й який має відкритий вихідний код, містить розширене контекстне вікно на мільйон токенів, потужні можливості Agent і видатну продуктивність в інференсі. Cambricon заявила, що DeepSeek-V4, який нативно працює на чипах Cambricon, є значущою віхою для індустрії AI Китаю.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Meta Platforms планує скоротити штат на 10% 20 травня, зачепивши приблизно 8 000 посад

Новини індустрії ШІ

Повідомлення Gate News, 24 квітня — Meta Platforms планує скоротити штат приблизно на 10%, що торкнеться приблизно 8 000 посад, 20 травня. Звільнення мають на меті підвищити операційну ефективність, одночасно збільшуючи інвестиції в штучний інтелект. Запланована реструктуризація відображає

GateNews27хв. тому

Уряд Трампа оприлюднив план боротьби з AI-переробкою, звинувачуючи китайські компанії в систематичному викраденні можливостей моделей

Новини індустрії ШІ

Офіційний помічник президента з питань технологічної політики Білого дому (OSTP) Майкл Дж. Кратсіос (Michael J. Kratsios) 23 квітня зробив офіційну заяву, у якій зазначив, що адміністрація Трампа має інформацію, яка свідчить: іноземні суб’єкти (переважно з Китаю) навмисно націлені на великі американські компанії в галузі штучного інтелекту, системно вилучаючи можливості американських AI-моделей через «десятки тисяч» проксі-акаунтів та системи, що використовують технології джейлбрейку, і паралельно оприлюднюють чотири заходи реагування.

MarketWhisper50хв. тому

DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4

Новини індустрії ШІ

DeepSeek 24 квітня офіційно випустив серію прев’ю-версій V4, відкривши її як open source за ліцензією MIT; ваги моделей уже синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (найпотужніший режим інференсу) на бенчмарку Codeforces набрав 3206 балів, перевершивши GPT-5.4.

MarketWhisper1год тому

Tencent випустила Hy3 у прев’ю-версії з відкритим кодом, тест продуктивності коду порівняно з попередньою версією покращено на 40%

Новини індустрії ШІ

Tencent 4 травня 23 числа офіційно відкрив вихідний код попередньої версії великої мовної моделі Hy3 на платформах GitHub, Hugging Face та ModelScope, а також паралельно надає платні API-послуги через Tencent Cloud. За повідомленням Decrypt від 24 квітня, попередня версія Hy3 розпочала навчання наприкінці січня, і на момент дати публікації минуло менше ніж три місяці.

MarketWhisper1год тому

Інвестиції портфеля FTX на суму 158 трильйонів вонів, якщо б вона не збанкрутувала

Акції Новини індустрії ШІ

FTX, централізована криптовалютна біржа, яка подала на захист від банкрутства згідно з Chapter 11 у листопаді 2022 року через нестачу ліквідності та відплив капіталу, мала б утримувати інвестиції вартістю приблизно 158.796 трлн вонів, якби вона не збанкрутувала, згідно з аналізом, на який посилається Парк

CryptoFrontier1год тому

Xiaomi Reveals MiMo-V2-Pro Training Details: 1T Model Parameters, Thousands of GPUs Deployed

Новини індустрії ШІ

Gate News message, April 24 — Xiaomi's large language model team lead Luo Fuli disclosed in an in-depth interview that the MiMo-V2-Pro model has 1 trillion parameters in total and required thousands of GPUs for training. She noted that the 1T scale represents the minimum threshold to achieve

GateNews1год тому

Прокоментувати

0/400

Немає коментарів