10,000 USDT 悬賞,尋找跟單金牌星探!🕵️
挖掘頂級帶單員,贏取高額跟單體驗金!
立即參與:https://www.gate.com/campaigns/4624
🎁 三大活動,獎金疊滿:
1️⃣ 慧眼識英:發帖推薦帶單員,分享跟單體驗,抽 100 位送 30 USDT!
2️⃣ 強力應援:曬出你的跟單截圖,為大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交達人:同步至 X/Twitter,憑流量贏取 100 USDT!
📍 標籤: #跟单金牌星探 #GateCopyTrading
⏰ 限時: 4/22 16:00 - 5/10 16:00 (UTC+8)
詳情:https://www.gate.com/announcements/article/50848
月之暗面開源FlashKDA,Kimi Linear推理速度提升1.7到2.2倍
ME News 消息,4 月 22 日(UTC+8),據 動察 Beating 監測,月之暗面在 GitHub 開源 FlashKDA,一套專門給英偉達 Hopper 系列顯卡(H100、H20 等)加速模型推理的工具,MIT 協議。它服務的對象是 KDA,月之暗面去年在 Kimi Linear 論文裡提出的新注意力機制。大模型讀長文本時,老式注意力的計算量會隨長度平方級膨脹,線性注意力讓這個代價降到線性增長,KDA 是這條路線裡的一種改良版。Kimi Linear 模型的結構是 3 層 KDA 搭 1 層老式注意力輪著用。 KDA 之前已經有一份用 Triton 語言寫的版本,掛在開源庫 flash-linear-attention(簡稱 fla)裡。FlashKDA 改用英偉達的底層 GPU 庫 CUTLASS 重寫了一遍,專門榨 Hopper 顯卡的性能。官方在 H20 上實測,同一次前向計算,FlashKDA 比 Triton 版快 1.7 到 2.2 倍,輸入長度參差不齊、拼批次跑的場景加速尤其明顯。只是官方只跟自家 Triton 版做了對比,沒跟其他線性注意力方案比。 這次只開源了前向計算,意思是只能「跑模型」(推理),還不能「訓模型」,訓練仍得用原來的 Triton 版。使用門檻:顯卡需 Hopper 及之後(SM90 架構起步)、CUDA 12.9 以上、PyTorch 2.4 以上。FlashKDA 同時作為新後端合併進了 fla 上游(PR #852),老用戶切過去只要改一行配置。 (來源:BlockBeats)