最高提速3倍且零損耗，谷歌開源Gemma4全系MTP投機解碼模型

区块律动

2026-05-06 01:20:52

據動察 Beating 監測，谷歌發布並開源了 Gemma 4 系列的多 token 預測（MTP）草稿模型。這是一個採用投機解碼（speculative decoding）架構的輕量級輔助模型，能在主模型保留最終驗證權的基礎上，實現最高 3 倍的推理提速，且完全不損耗輸出質量和邏輯推理能力。

標準的大語言模型每次只能生成一個 token，容易受到顯存帶寬瓶頸限制並造成算力閒置。MTP 方案讓輕量級的草稿模型利用閒置算力，提前一次性預測多個未來 token，再交由 31B 等重型目標模型並行驗證。若目標模型同意草稿，就會一次性接收整段序列。為進一步提效，草稿模型直接共享了目標模型的激活狀態和 KV 緩存（存儲歷史上下文以避免重複計算）；針對端側的 E2B 和 E4B 模型，團隊還在嵌入層引入了聚類技術。

目前，MTP 模型已採用與 Gemma 4 相同的 Apache 2.0 協議全面開源，並原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。這次提速優化顯著降低了應用門檻，使開發者能在普通消費級顯卡上流暢運行 26B MoE 和 31B 稠密模型，也能在移動設備上以更低的功耗支援實時 AI 交互。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

OpenAI 庭審 Brockman 作證：馬斯克曾稱不搞安全，股權會面險動粗

AI 行業動態

據《紐約郵報》於 5 月 6 日報道，OpenAI 總裁 Greg Brockman 於 5 月 5 日在加州奧克蘭聯邦地方法院出庭作證，披露馬斯克 2018 年退出 OpenAI 董事會時發表全員講話，稱他在特斯拉推進 AI 時「不會在安全上花時間」，2017 年與 OpenAI 聯合創始人就股權份額展開商議險動粗。

Market Whisper46分鐘前

印度資安公司使用 AI 將漏洞測試縮短至數小時

AI Agent AI 行業動態

根據《經濟時報》，包括 Indusface 與 Astra Security 在內的印度資安公司正在採用基於大型語言模型打造的 AI 代理，以加速軟體漏洞測試，將原本需要的天數或週數縮短為數小時。這項轉變反映了攻擊者速度的加快，以及 AI 工具新興的能力

Crypto Frontier1小時前

駁斥 AI 泡沫化！貝萊德執行長：算力短缺將催生「算力期貨市場」

大宗商品 AI 行業動態

全球對 AI 與運算需求激增，貝萊德 CEO 芬克駁斥 AI 泡沫，稱算力短缺將催生「算力期貨」新資產類別。為因應潮流，貝萊德攜手微軟、輝達與 MGX 投入數百億美元於資料中心與能源基礎建設；GIP 以約 400 億美元收購 Aligned Data Centers，並以 107 億美元聯手 EQT 收購 AES。芬克與 Brookfield 等人認為此為長期穩健的複利投資機會，報酬可持續數十年。

鏈新聞abmedia1小時前

Tether 執行長宣布本週將出現 AI 研究重大突破

USDT 新聞專案進展 AI 行業動態

根據 Cointelegraph 的說法，Tether 首席執行官 Paolo Ardoino 於 5 月 6 日宣布，該公司 AI 研究團隊本週將在在地 AI 方面發布另一項突破。

GateNews1小時前

Anthropic 推出 10 款金融 AI 代理人，整合 Microsoft 365 輕鬆處理財務作業

AI Agent AI 行業動態

Anthropic 推出 10 款金融 AI 代理人範本，整合 Microsoft 365、Moody’s、D&B 等資料夥伴，並可作為插件或自動排程使用。範本分為研究/客務與財務作業兩類，涵蓋投研、財務模型、KYC 等，並嵌入 Moody’s 評等。Claude Opus 4.7 在金融代理人基準居冠，顯示金融業人才與監管格局將受影響。

鏈新聞abmedia1小時前

留言

0/400

暫無留言