據 動察 Beating 監測,谷歌發布並開源了 Gemma 4 系列的多 token 預測(MTP)草稿模型。這是一個採用投機解碼(speculative decoding)架構的輕量級輔助模型,能在主模型保留最終驗證權的基礎上,實現最高 3 倍的推理提速,且完全不損耗輸出質量和邏輯推理能力。
標準的大語言模型每次只能生成一個 token,容易受到顯存帶寬瓶頸限制並造成算力閒置。MTP 方案讓輕量級的草稿模型利用閒置算力,提前一次性預測多個未來 token,再交由 31B 等重型目標模型並行驗證。若目標模型同意草稿,就會一次性接收整段序列。為進一步提效,草稿模型直接共享了目標模型的激活狀態和 KV 緩存(存儲歷史上下文以避免重複計算);針對端側的 E2B 和 E4B 模型,團隊還在嵌入層引入了聚類技術。
目前,MTP 模型已採用與 Gemma 4 相同的 Apache 2.0 協議全面開源,並原生支持 vLLM、SGLang 和 Ollama 等主流推理框架。這次提速優化顯著降低了應用門檻,使開發者能在普通消費級顯卡上流暢運行 26B MoE 和 31B 稠密模型,也能在移動設備上以更低的功耗支援實時 AI 交互。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
OpenAI 庭審 Brockman 作證:馬斯克曾稱不搞安全,股權會面險動粗
據《紐約郵報》於 5 月 6 日報道,OpenAI 總裁 Greg Brockman 於 5 月 5 日在加州奧克蘭聯邦地方法院出庭作證,披露馬斯克 2018 年退出 OpenAI 董事會時發表全員講話,稱他在特斯拉推進 AI 時「不會在安全上花時間」,2017 年與 OpenAI 聯合創始人就股權份額展開商議險動粗。
Market Whisper46分鐘前
印度資安公司使用 AI 將漏洞測試縮短至數小時
根據《經濟時報》,包括 Indusface 與 Astra Security 在內的印度資安公司正在採用基於大型語言模型打造的 AI 代理,以加速軟體漏洞測試,將原本需要的天數或週數縮短為數小時。這項轉變反映了攻擊者速度的加快,以及 AI 工具新興的能力
Crypto Frontier1小時前
駁斥 AI 泡沫化!貝萊德執行長:算力短缺將催生「算力期貨市場」
全球對 AI 與運算需求激增,貝萊德 CEO 芬克駁斥 AI 泡沫,稱算力短缺將催生「算力期貨」新資產類別。為因應潮流,貝萊德攜手微軟、輝達與 MGX 投入數百億美元於資料中心與能源基礎建設;GIP 以約 400 億美元收購 Aligned Data Centers,並以 107 億美元聯手 EQT 收購 AES。芬克與 Brookfield 等人認為此為長期穩健的複利投資機會,報酬可持續數十年。
鏈新聞abmedia1小時前
Tether 執行長宣布本週將出現 AI 研究重大突破
根據 Cointelegraph 的說法,Tether 首席執行官 Paolo Ardoino 於 5 月 6 日宣布,該公司 AI 研究團隊本週將在在地 AI 方面發布另一項突破。
GateNews1小時前
Anthropic 推出 10 款金融 AI 代理人,整合 Microsoft 365 輕鬆處理財務作業
Anthropic 推出 10 款金融 AI 代理人範本,整合 Microsoft 365、Moody’s、D&B 等資料夥伴,並可作為插件或自動排程使用。範本分為研究/客務與財務作業兩類,涵蓋投研、財務模型、KYC 等,並嵌入 Moody’s 評等。Claude Opus 4.7 在金融代理人基準居冠,顯示金融業人才與監管格局將受影響。
鏈新聞abmedia1小時前