OpenAI 和 Anthropic 推出競爭對手 AI 模型,企業競爭升溫

Decrypt

OpenAI 和 Anthropic 在星期四相隔不到一小時內,分別推出了各自產品線中的新旗艦 AI 模型,突顯出領先開發商在企業軟體和高級編碼工具領域激烈競爭的趨勢。Anthropic 宣布了 Claude Opus 4.6,強調在長文脈推理和代理人工作流程方面的進展,而 OpenAI 則緊接著推出了 GPT-5.3 Codex,一款針對代理人編碼和軟體開發優化的模型。這些幾乎同時的發布凸顯出競爭對手迭代速度之快,企業正競相爭取與大型企業客戶簽訂長期合約。



基準測試結果顯示這兩款模型在不同的強項上各有優勢。根據兩家公司公布的數據,Claude Opus 4.6 在法律和金融推理相關任務上表現較佳,而 GPT-5.3 Codex 在代理人編碼測試和效率指標上則表現優越。這些發布正值投資者重新評估傳統軟體供應商前景之際,部分資訊和專業服務公司本週股價下跌,原因在於擔憂 AI 原生平台可能侵蝕對既有企業工具的需求。

Anthropic 表示,Claude Opus 4.6 在長文脈推理和專業任務方面取得進展,擁有 100 萬字元的上下文窗口,並在 MRCR v2(複雜資訊檢索的基準測試)中獲得 76% 的得分。該公司指出,該模型在金融和法律任務上也優於早期版本,並引入了“代理團隊”,允許多個 AI 代理同時協作進行編碼和文件撰寫。

OpenAI 緊接著推出了 GPT-5.3 Codex,將其定位為一款針對代理人編碼和研究優化的模型。OpenAI 表示,Codex 在 Terminal-Bench 2.0(代理人編碼基準測試)中得分 77.3%,而 Claude Opus 4.6 則得分 65.4%,且完成任務速度更快,使用的字元數也較少。OpenAI 亦表示,早期版本的 Codex 曾用於內部除錯訓練和部署管理,這是模型首次在加速自身開發中扮演直接角色的例子。

綜合來看,這些結果顯示兩款模型都沒有明顯的整體領先優勢,性能優勢取決於企業是否重視專業推理或自主軟體開發。預計 Google 也將在未來幾個月推出 Gemini 模型的更新,而其他 AI 開發商如 DeepSeek 也在準備新版本,進一步推動該領域的競爭速度。

然而,僅憑基準測試結果難以決定市場領導地位,因為更廣泛的採用和企業部署正逐步塑造競爭格局。隨著競爭持續施壓對手,時間將證明代理人工作流程是否會成為經濟活動的核心組成部分。OpenAI 和 Anthropic 無疑都在押注這一點。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言