OpenAI 和 Anthropic 在星期四相隔不到一小時內，分別推出了各自產品線中的新旗艦 AI 模型，突顯出領先開發商在企業軟體和高級編碼工具領域激烈競爭的趨勢。Anthropic 宣布了 Claude Opus 4.6，強調在長文脈推理和代理人工作流程方面的進展，而 OpenAI 則緊接著推出了 GPT-5.3 Codex，一款針對代理人編碼和軟體開發優化的模型。這些幾乎同時的發布凸顯出競爭對手迭代速度之快，企業正競相爭取與大型企業客戶簽訂長期合約。

基準測試結果顯示這兩款模型在不同的強項上各有優勢。根據兩家公司公布的數據，Claude Opus 4.6 在法律和金融推理相關任務上表現較佳，而 GPT-5.3 Codex 在代理人編碼測試和效率指標上則表現優越。這些發布正值投資者重新評估傳統軟體供應商前景之際，部分資訊和專業服務公司本週股價下跌，原因在於擔憂 AI 原生平台可能侵蝕對既有企業工具的需求。

Anthropic 表示，Claude Opus 4.6 在長文脈推理和專業任務方面取得進展，擁有 100 萬字元的上下文窗口，並在 MRCR v2（複雜資訊檢索的基準測試）中獲得 76% 的得分。該公司指出，該模型在金融和法律任務上也優於早期版本，並引入了“代理團隊”，允許多個 AI 代理同時協作進行編碼和文件撰寫。

OpenAI 緊接著推出了 GPT-5.3 Codex，將其定位為一款針對代理人編碼和研究優化的模型。OpenAI 表示，Codex 在 Terminal-Bench 2.0（代理人編碼基準測試）中得分 77.3%，而 Claude Opus 4.6 則得分 65.4%，且完成任務速度更快，使用的字元數也較少。OpenAI 亦表示，早期版本的 Codex 曾用於內部除錯訓練和部署管理，這是模型首次在加速自身開發中扮演直接角色的例子。

綜合來看，這些結果顯示兩款模型都沒有明顯的整體領先優勢，性能優勢取決於企業是否重視專業推理或自主軟體開發。預計 Google 也將在未來幾個月推出 Gemini 模型的更新，而其他 AI 開發商如 DeepSeek 也在準備新版本，進一步推動該領域的競爭速度。

然而，僅憑基準測試結果難以決定市場領導地位，因為更廣泛的採用和企業部署正逐步塑造競爭格局。隨著競爭持續施壓對手，時間將證明代理人工作流程是否會成為經濟活動的核心組成部分。OpenAI 和 Anthropic 無疑都在押注這一點。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言