2026-03-07 16:32:57

不受歡迎的觀點：AI 模型的發布越來越無聊。

不是因為模型沒有進步……它們確實在進步。
但每次發布都只是……基準測試。
@OpenAI 剛剛推出了 GPT-5.4，整個公告基本上就是這張表。
75% 在 OSWorld。57.7% 在 SWE-Bench Pro。94.4% 在 GPQA Diamond。
很酷……但這對我凌晨2點在建東西有什麼意義？
在 AI Twitter 之外沒有人在乎 MMLU 提升了 2%。沒有人。零人。
最有趣的部分？仔細看看這張表……
> Opus 4.6 在幾乎每個基準上都接近領先。
> Gemini 3.1 Pro 靜悄悄在 BrowseComp 以 85.9% 打敗所有人。
“贏家”會根據你看哪一行而改變。
你知道我真正想看到的是什麼嗎？
展示它在現實世界中處理得更好的混亂任務。展示那個讓我腦袋短路的演示。展示有人用它建造的東西，這在上個月是不可能的。
最好的基準是“這是否讓我的生活更輕鬆？”
就這樣。這就是整個評估。
公司在慶祝數學分數，而用戶只想知道它是否終於能處理一個 4K 行的代碼庫而不破壞一半的功能。
從這裡開始。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人按讚了這條動態

讚賞
2
留言
轉發
分享

留言

0/400

暫無留言

熱門話題
查看更多
#
2月非農意外負增長
88.94萬熱度
#
加密市場小幅下跌
469.13萬熱度
#
原油價格飆升
47.88萬熱度
#
美伊局勢影響
23.8萬熱度
#
黃金白銀走高
17.97萬熱度

熱門 Gate Fun
查看更多

1
美国USDT银行
USDT
市值:$2443.96持有人數:2
0.06%
2
Lucky
Coin
市值:$2417.24持有人數:1
0.00%
3
$BUBU
BUBU
市值:$0.1持有人數:1
0.00%
4
DASHUAI
大帅
市值:$2420.68持有人數:1
0.00%
5
PS2
playstation 2
市值:$2417.24持有人數:1
0.00%

不受歡迎的觀點：AI 模型的發布越來越無聊。

熱門話題

2月非農意外負增長

加密市場小幅下跌

原油價格飆升

美伊局勢影響

黃金白銀走高

熱門 Gate Fun

美国USDT银行

USDT

Lucky

Coin

$BUBU

BUBU

DASHUAI

大帅

PS2

playstation 2

置頂