阿里巴巴的 Qwen 開源 Qwen-Scope 可解釋性模組,於 4 月 30 日涵蓋 7 個模型

根據 PANews,4 月 30 日,阿里巴巴的 Qwen 宣布開源 Qwen-Scope,這是一個可解釋性模組,已在 Qwen3 與 Qwen3.5 系列模型上進行訓練。該釋出涵蓋 7 個大型語言模型,包含密集式以及混合專家(mixture-of-experts)變體,並提供 14 組稀疏自編碼器(sparse autoencoder)權重。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Forefront Tech 完成 $100M IPO 定價,並在 Nasdaq 以代碼 FTHAU 上市

根據 ChainCatcher,特殊目的收購公司 Forefront Tech 已於 4 月 30 日完成 1 億美元 IPO 定價,並將以代號 FTHAU 在那斯達克上市。該公司計劃使用募資所得以追求區塊鏈、金融科技、人工智慧方面的併購機會

GateNews1小時前

Anthropic Claude Code 因計費錯誤向用戶多收 200.98 美元,最初拒絕退款,直到完成全額賠償

根據 Beating 的監測,Anthropic 的 Claude Code 服務中的計費漏洞導致一名 Max 20x 訂閱者在額外使用費上被多收 200.98 美元,儘管該訂閱者只使用了每月配額的 13%。該漏洞在使用者的 git 儲存庫提交歷史包含大寫時觸發

GateNews1小時前

DeepSeek 於 4 月 30 日推出「視覺基元」方法,以強化多模態推理

根據 DeepSeek 的技術報告,4 月 30 日,該公司推出 Visual Primitives,這是一種將點與邊界框等基本視覺單元嵌入推理鏈的方法,以解決多模態任務中的 Reference Gap 問題。該方法可降低影像代幣消耗

GateNews1小時前

NVIDIA 發布 Cosmos-Reason2-32B 旗艦模型權重,並將上下文視窗擴展至 256K 個 Tokens

根據 Beating,NVIDIA 已發布 Cosmos-Reason2-32B 的權重,這是其物理 AI 推理視覺-語言模型(VLM)的旗艦版本,旨在協助機器人與自動駕駛系統理解空間、時間與物理原理。這款 320 億參數的模型,

GateNews2小時前

OpenAI 揭 Codex 為何禁談「哥布林」:書呆子人格獎勵失控

OpenAI 在官方部落格說明 Codex 禁談哥布林等生物,源於書呆子人格訓練中的獎勵訊號偏好生物比喻,造成跨人格污染與 RLHF 誤導。事件由 Barron Roth 爆出系統指令後,OpenAI 採取短期硬編碼與長期清除獎勵信號兩策略,警示獎勵設計的脆弱性,後訓練審計需更精細。

鏈新聞abmedia2小時前

Nvidia B300 AI 伺服器在供應緊縮下於中國達到 100 萬美元

根據路透社報導,輝達的 B300 AI 伺服器目前在中國的售價約為 700 萬人民幣(100 萬美元),原因是打擊走私網路的行動推動,以及當地科技公司持續需求。該價格已從 2025 年底約 400 萬人民幣(585,000 美元)大幅

GateNews3小時前
留言
0/400
暫無留言