Gate News message, April 24 — Xiaomi’s large language model team lead Luo Fuli disclosed in an in-depth interview that the MiMo-V2-Pro model has 1 trillion parameters in total and required thousands of GPUs for training. She noted that the 1T scale represents the minimum threshold to achieve performance approaching Claude Opus 4.6 level and secure a competitive entry ticket for the next phase of AI agents.

Technically, the Pro version employs an extreme sparse attention mechanism with a 7:1 ratio between global attention and sliding window attention, controlling inference costs for long-context processing. The model also retains the MTP (Multi-Token Prediction) architecture to leverage surplus compute power for faster inference.

On the management side, the 100-person MiMo team has only 30-40 people directly engaged in core iterations. The team operates without formal hierarchies or explicit sub-group divisions and delivery deadlines. When encountering unstable numerical issues such as training loss spikes, the team prioritizes halting training for investigation, even if it means stopping operations for one or two weeks and incurring millions of dollars in compute costs.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Meta Platforms планує скоротити штат на 10% 20 травня, зачепивши приблизно 8 000 посад

Новини індустрії ШІ

Повідомлення Gate News, 24 квітня — Meta Platforms планує скоротити штат приблизно на 10%, що торкнеться приблизно 8 000 посад, 20 травня. Звільнення мають на меті підвищити операційну ефективність, одночасно збільшуючи інвестиції в штучний інтелект. Запланована реструктуризація відображає

GateNews13хв. тому

Уряд Трампа оприлюднив план боротьби з AI-переробкою, звинувачуючи китайські компанії в систематичному викраденні можливостей моделей

Новини індустрії ШІ

Офіційний помічник президента з питань технологічної політики Білого дому (OSTP) Майкл Дж. Кратсіос (Michael J. Kratsios) 23 квітня зробив офіційну заяву, у якій зазначив, що адміністрація Трампа має інформацію, яка свідчить: іноземні суб’єкти (переважно з Китаю) навмисно націлені на великі американські компанії в галузі штучного інтелекту, системно вилучаючи можливості американських AI-моделей через «десятки тисяч» проксі-акаунтів та системи, що використовують технології джейлбрейку, і паралельно оприлюднюють чотири заходи реагування.

MarketWhisper35хв. тому

DeepSeek запустила V4 відкриту прев’ю-версію, технічний рейтинг 3206 перевершив GPT-5.4

Новини індустрії ШІ

DeepSeek 24 квітня офіційно випустив серію прев’ю-версій V4, відкривши її як open source за ліцензією MIT; ваги моделей уже синхронно завантажено на Hugging Face та ModelScope. Згідно з технічним звітом DeepSeek V4, V4-Pro-Max (найпотужніший режим інференсу) на бенчмарку Codeforces набрав 3206 балів, перевершивши GPT-5.4.

MarketWhisper51хв. тому

Cambricon завершує адаптацію Day 0 для DeepSeek-V4, позначаючи важливу віху для екосистеми AI-чипів Китаю

Новини індустрії ШІ

Повідомлення Gate News, 24 квітня — сьогодні Cambricon оголосила, що завершила адаптацію Day 0 для DeepSeek-V4, останньої великої мовної моделі від DeepSeek, використовуючи власну програмну екосистему NeuWare та фреймворк vLLM. Код адаптації було відкрито одночасно, що

GateNews1год тому

Tencent випустила Hy3 у прев’ю-версії з відкритим кодом, тест продуктивності коду порівняно з попередньою версією покращено на 40%

Новини індустрії ШІ

Tencent 4 травня 23 числа офіційно відкрив вихідний код попередньої версії великої мовної моделі Hy3 на платформах GitHub, Hugging Face та ModelScope, а також паралельно надає платні API-послуги через Tencent Cloud. За повідомленням Decrypt від 24 квітня, попередня версія Hy3 розпочала навчання наприкінці січня, і на момент дати публікації минуло менше ніж три місяці.

MarketWhisper1год тому

Інвестиції портфеля FTX на суму 158 трильйонів вонів, якщо б вона не збанкрутувала

Акції Новини індустрії ШІ

FTX, централізована криптовалютна біржа, яка подала на захист від банкрутства згідно з Chapter 11 у листопаді 2022 року через нестачу ліквідності та відплив капіталу, мала б утримувати інвестиції вартістю приблизно 158.796 трлн вонів, якби вона не збанкрутувала, згідно з аналізом, на який посилається Парк

CryptoFrontier1год тому

Прокоментувати

0/400

Немає коментарів