不受歡迎的觀點:AI 模型的發布越來越無聊。


不是因為模型沒有進步……它們確實在進步。
但每次發布都只是……基準測試。
@OpenAI 剛剛推出了 GPT-5.4,整個公告基本上就是這張表。
75% 在 OSWorld。57.7% 在 SWE-Bench Pro。94.4% 在 GPQA Diamond。
很酷……但這對我凌晨2點在建東西有什麼意義?
在 AI Twitter 之外沒有人在乎 MMLU 提升了 2%。沒有人。零人。
最有趣的部分?仔細看看這張表……
> Opus 4.6 在幾乎每個基準上都接近領先。
> Gemini 3.1 Pro 靜悄悄在 BrowseComp 以 85.9% 打敗所有人。
“贏家”會根據你看哪一行而改變。
你知道我真正想看到的是什麼嗎?
展示它在現實世界中處理得更好的混亂任務。展示那個讓我腦袋短路的演示。展示有人用它建造的東西,這在上個月是不可能的。
最好的基準是“這是否讓我的生活更輕鬆?”
就這樣。這就是整個評估。
公司在慶祝數學分數,而用戶只想知道它是否終於能處理一個 4K 行的代碼庫而不破壞一半的功能。
從這裡開始。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言