ME News 報導稱 FlashKDA 是面向 NVIDIA Hopper 的推理加速開源工具，MIT 授權，聚焦 Kimi Linear 的 KDA 注意力。使用 CUTLASS 重寫，Hopper 上前向比 Triton 版快約 1.7–2.2 倍，適合變長輸入、批量場景。僅支持前向推理，訓練仍用 Triton。硬體要求 Hopper+、CUDA 12.9、PyTorch 2.4+，已並入 fla 上游（PR #852），切換僅需改一行配置。

ME News

2026-04-22 02:01:40

摘要生成中

ME News 消息，4 月 22 日（UTC+8），據動察 Beating 監測，月之暗面在 GitHub 開源 FlashKDA，一套專門給英偉達 Hopper 系列顯卡（H100、H20 等）加速模型推理的工具，MIT 協議。它服務的對象是 KDA，月之暗面去年在 Kimi Linear 論文裡提出的新注意力機制。大模型讀長文本時，老式注意力的計算量會隨長度平方級膨脹，線性注意力讓這個代價降到線性增長，KDA 是這條路線裡的一種改良版。Kimi Linear 模型的結構是 3 層 KDA 搭 1 層老式注意力輪著用。 KDA 之前已經有一份用 Triton 語言寫的版本，掛在開源庫 flash-linear-attention（簡稱 fla）裡。FlashKDA 改用英偉達的底層 GPU 庫 CUTLASS 重寫了一遍，專門榨 Hopper 顯卡的性能。官方在 H20 上實測，同一次前向計算，FlashKDA 比 Triton 版快 1.7 到 2.2 倍，輸入長度參差不齊、拼批次跑的場景加速尤其明顯。只是官方只跟自家 Triton 版做了對比，沒跟其他線性注意力方案比。這次只開源了前向計算，意思是只能「跑模型」（推理），還不能「訓模型」，訓練仍得用原來的 Triton 版。使用門檻：顯卡需 Hopper 及之後（SM90 架構起步）、CUDA 12.9 以上、PyTorch 2.4 以上。FlashKDA 同時作為新後端合併進了 fla 上游（PR #852），老用戶切過去只要改一行配置。（來源：BlockBeats）

KDA2.86%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate13週年現場直擊
92.88萬熱度
#
WCTC交易賽瓜分800萬USDT
75.79萬熱度
#
比特幣反彈
19.41萬熱度
#
美伊第二輪談判進展
56.55萬熱度
#
Arbitrum凍結KelpDAO黑客ETH
2.21萬熱度

月之暗面開源FlashKDA，Kimi Linear推理速度提升1.7到2.2倍

熱門話題

Gate13週年現場直擊

WCTC交易賽瓜分800萬USDT

比特幣反彈

美伊第二輪談判進展

Arbitrum凍結KelpDAO黑客ETH

置頂