OpenAI Engineer Clive Chan Challenges V4 Hardware Recommendations, Citing Errors and Vagueness vs. V3

Gate News message, April 24 — OpenAI engineer Clive Chan has raised detailed objections to the hardware recommendations chapter in the V4 technical report, calling it “surprisingly mediocre and error-prone” compared to the acclaimed V3 version. V3’s hardware guidance, which included Q&A sessions that became the most popular discussion topic at the ISCA academic conference, offered specific recommendations aligned with industry interconnect standards. V4, by contrast, is far more vague.

Chan systematically challenged three key recommendations. On power consumption, the report suggests that software optimization allows chips to run compute, storage, and communication at full capacity simultaneously, and recommends that chip manufacturers reserve additional power headroom. Chan argues this is counterproductive: total chip power is constrained by physical process limitations, so reserving more power margin only reduces operating frequency, ultimately decreasing computational performance. Regarding GPU-to-GPU data transfer, the report advocates a pull model—where GPUs actively fetch data—over a push model, citing high notification overhead in push operations. Chan disputes this, contending that pull is actually slower and that improved network adapter capabilities would be preferable. However, the two may be discussing different layers of the issue: the report addresses notification mechanism overhead, while Chan refers to transmission latency itself.

On activation functions, the report recommends replacing SwiGLU with simpler functions to reduce computational burden. Chan sees no merit in this, noting that Sonic MoE has already demonstrated optimal performance using SwiGLU. Chan suspects DeepSeek may have “deliberately weakened this section.”

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

小鵬、Xiaomi 引領車載AI浪潮亮相北京車展

Gate News 訊息,4月24日——隨著中國加速其「AI Plus」策略,並努力在外國半導體方面取得更大自主性,中國汽車製造商在4月24日的北京車展上展示了先進的車載AI系統。 小鵬展示了可進行語音控制停車的功能,讓駕駛能夠「發出語音指令,而不是手動選擇停車位置。」

GateNews26分鐘前

前字节跳动 Seed 工程师:字节跳动 AI 迭代需六个月,介于谷歌的三个月之间

Gate News 消息,4月24日——字节跳动 Seed 团队的前工程师、现任北京大学助理教授张驰在播客“Into Asia”中透露,字节跳动大约需要六个月时间才能完成一次大型语言模型训练 ( 预训练的完整循环,同时还包括后训练 ,而据报道谷歌只需要三个月。张驰将速度差异视为中国公司在 AI 开发上难以追赶的核心原因。

GateNews42分鐘前

Naver 推出 AI Tab 封閉測試版,Google Gemini 進入南韓搜尋市場

Gate News 消息,4 月 24 日——Naver 宣布,其新推出的對話式搜尋功能 AI Tab 將啟動封閉測試,時間是在 Google 於南韓推出在 Chrome 中整合 Gemini 之後。 AI Tab 將與 Naver 現有的搜尋分頁並列,為用戶提供一個專用空間,用於對話式

GateNews1小時前

印度 AI 工程招聘激增 59.5%,擴展至科技樞紐之外

LinkedIn 的《AI 人才市場報告 2026》於 4 月 24 日發布,發現印度的 AI 工程師招聘年增 59.5%,在該平台所研究的市場中,創下最快的成長速度。 這一成長由需求擴散至既有科技中心以外所推動。其中包括城市,例如

Crypto Frontier1小時前

聯邦銀行(Commonwealth Bank)在擴大 AI 之際裁撤 120 個職位

澳洲聯邦銀行(Commonwealth Bank of Australia)宣布,隨著該國最大銀行檢視職缺並擴大使用人工智慧,其將裁減約120個工作機會,據彭博社報導。裁員包括在西澳的Bankwest裁減43個職位,其中有六個職位受到自動化影響。這是

Crypto Frontier1小時前

Cursor 揭選 XAI 訓練原因:算力被卡住,SpaceX 另握 600 億美元收購選擇權

Anysphere 公告稱 Cursor 將與 xAI 使用 Colossus 基礎設施訓練新模型以突破算力瓶頸;SpaceX 提出 600 億美元的收購選擇權(2026 年內可整體收購),不行就支付約 100 億美元作為合作補償。兩筆交易同時進行,重塑誰能訓練 Cursor 以及誰能買下 Cursor,Cursor 仍允許多模型後端,但長期走向取決於 SpaceX 是否行使收購權。

鏈新聞abmedia2小時前
留言
0/400
暫無留言