Gate News 訊息,4 月 27 日——Google DeepMind 的資深產品經理、以及 Google AI Studio 的產品負責人 Logan Kilpatrick 表示,在 X 上,每一家正在打造基於 AI 的產品的公司都應建立自己的自訂基準,用以衡量 AI 模型的效能。他將其描述為一種方法,使模型改進能夠「讓貴公司獲益不成比例」,並敦促創辦人與商業領袖「從明天開始。」
多數公司目前依賴公開排行榜來選擇 AI 模型,但這些排行榜衡量的是通用能力,往往與特定商業情境不匹配。Kilpatrick 以一家合約審閱公司為例,該公司最關注的是條款抽取的準確度——而這項能力在公開基準中並不存在,導致無法評估模型在該任務上的表現。自訂基準提供兩項關鍵優勢:第一,它們讓公司能夠針對各次模型更新,評估其在自身商業任務上的表現,並選擇在其實際使用情境中表現最佳的模型,而非整體排名最高的模型;第二,它們讓公司能夠與模型供應商分享這些測試集,從而在與公司業務息息相關的領域推動持續最佳化。
Kilpatrick 指出,像 Zapier 和 Sierra 這樣的公司已在採用這種做法,他表示:「這裡可以創造出很多 alpha。」
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
IEA:AI 基建支出已超油氣生產投資,2026 年預計再增 75%
根據國際能源總署(IEA)於 4 月 26 日發布的分析及市場數據,2025 年五大科技公司的合計資本支出超過 4,000 億美元,主要投入 AI 基礎設施建設,規模已超越全球石油和天然氣生產的年度投資規模。IEA 估計,2026 年相關資本支出可能進一步增長 75%。
Market Whisper12分鐘前
參議員 Bernie Sanders 對 AI 的生存威脅發出警告
桑德斯強調,即使多數 AI 科學家都承認 AI 可能逃離控制並成為對我們生存的威脅,但迄今為止仍沒有採取任何重大措施來避免這種情況。“我們必須確保 AI 有益於人類,而不是傷害我們,”他表示。
重點整理:
伯尼·桑德斯
Coinpedia22分鐘前
小米大模型負責人:AI 競爭轉向 Agent 時代,自進化是 AGI 關鍵事件
小米大模型團隊負責人羅福莉於 4 月 24 日在嗶哩嗶哩平台接受深度訪談(影片號:BV1iVoVBgERD),訪談時長 3.5 小時,為其首次以技術負責人身份公開系統性闡述技術觀點。羅福莉稱,大模型競爭賽道已從 Chat 時代轉入 Agent 時代,並指出「自進化」將是未來一年 AGI 關鍵事件。
Market Whisper22分鐘前
xAI Grok Voice 接管 Starlink 客服熱線,70% 來電自動結案
根據 xAI 於 4 月 23 日發布官方公告,xAI 推出 Grok Voice Think Fast 1.0 語音 AI 代理人,並已部署於 Starlink 客服熱線 +1 (888) GO STARLINK。根據公告披露的實測數據,70% 的來電由 AI 自動結案,無需真人介入。
Market Whisper34分鐘前
GPT-5.5 重返編碼最前沿,但 OpenAI 在輸給 Opus 4.7 後更換了基準測試
Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude,S
GateNews38分鐘前
聯發科拿下 Google 第八代 TPU 大單!ASIC 發酵帶動三檔概念股受惠
聯發科已切入 Google 第8代 TPU 訓練晶片供應鏈,負責 I/O Die 設計,並採用台積電 N3P 與 CoWoS-S 封裝,顯示其已攀升至高階 AI ASIC 設計水準。預計今年 ASIC 營收突破 10 億美元,TPU 出貨量至 2027 年有望達千萬顆;京元電子、精測、鴻勁等台灣供應鏈也將受惠,市場逐步轉向分工合作與 chiplet、異質整合的未來。
鏈新聞abmedia1小時前