GPT-5.5 將原生電腦使用與進階推理結合，能夠自主地導覽執行高階專業任務所需的軟體工具。該模型的 ~1.1 百萬 token 上下文視窗可讓它處理龐大的金融資料集，而這些資料過去需要手動分塊處理。OpenAI 的金融團隊使用 GPT-5.5 來審閱 24,771 份 K-1 稅務表 (71,637 頁)，並且比前一年提早兩週完成任務。

效能基準

GPT-5.5 在內部投資銀行建模任務中達到 88.5%，在 FinancialAgent v1.1 基準測試中達到 60%，表現優於 GPT-5.4，提升四個百分點。該模型在 GDPval 上達到 84.9%，該測試驗證代理人在 44 種職業中產出特定知識工作的能力。在 OSWorld-Verified（衡量模型自主的真實電腦操作）中，該模型達到 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%，該測試針對極其困難的客服工作流程。

Go-to-Market 團隊的一位員工確認，自動化每週的商業報告將使每週節省約 5-10 小時的手動工作。

程式碼生成與系統優化

OpenAI 表示，GPT-5.5 被用來協助撰寫其自身提供服務的基礎設施程式碼。透過分析生產流量模式，該模型以「系統層級優化（System-Level Optimization）」方式撰寫自訂的負載平衡啟發式方法，使其自身的 token 生成速度提升 20%。

在一項開發者測試中，該模型被要求「重新架構一個 markdown 編輯器」，並回傳一個幾乎完整的 12-diff 堆疊，且僅需要最少的人類修正。OpenAI 指出，新模型能在更少的回合內達到正確答案，並且在相同的 Codex 任務中，比 GPT-5.4 少使用 40% 的 token。

Every 的創辦人兼執行長 Dan Shipper 將 GPT-5.5 描述為第一款具備「嚴謹概念清晰度（serious conceptual clarity）」的編碼模型。Shipper 在他和他最強工程師花了數天排查一個上線後問題的背景下測試了 GPT-5.5。根據 Shipper 的說法，GPT-5.5 做到了 GPT-5.4 無法做到的事：它檢視了損壞的程式碼，並產生工程師最終採用的重寫版本。該模型能夠「記住」並交叉參照整套資訊函館而不會失去位置，從而降低困擾先前版本的「幻覺」。

自主能力與自我修正

OpenAI 聲稱，GPT-5.5 已針對「自我修正」與自主性進行最佳化。它在解讀含糊不清的指令以及使用電腦介面 (clicking, typing, browsing) 來在不需人工介入的情況下完成目標方面更強。當需要代理去操作軟體、管理以終端機為主的工作流程，或在整個程式碼庫 (500K+ tokens) 之間以高檢索準確度進行推理時，該模型特別有用。

GPT-5.5 思考功能

在 ChatGPT 中，OpenAI 推出了「GPT-5.5 Thinking」，公司表示該功能能釋放更快的協助，以解決更困難的問題。該功能提供更聰明、更精簡的答案，協助使用者更有效率地完成複雜任務。它在資訊綜整與分析、程式碼編寫，等專業工作，以及研究等偏文件密集的任務上表現出色，尤其是在使用外掛程式時。

早期的 GPT-5.5 Pro 測試者回報稱，ChatGPT 能承接的工作的品質與難度都有了大幅提升。其更低的延遲使其在高要求任務上比 GPT-5.4 Pro 更實用。GPT-5.5 Pro 的回覆結構良好、相關性高、實用且準確，在法律、資料科學、商業與教育方面尤其展現強勁表現。

定價與可近用性

雖然提供了基本版本，但最具能力的版本 (GPT-5.5 Pro) 對個人訂閱者而言每月費用為 100 美元。對企業而言，每個輸出 token 的成本大約是 GPT-5.4 的兩倍，即使 token 效率提升了 40%。大規模的代理式部署整體支出可能相當可觀。人們日益擔憂，最高階的推理能力可能會變成一種「奢侈品」，只有資金充足的公司才能取得，這可能會擴大大型企業與較小型新創之間的生產力落差。

View Source

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

APR Daydream

· 3小時前

希望官方給一個可審計的行動日誌/回放機制，不然出了問題很難追責，尤其是自動操作資產類帳戶。

查看原文回復0

PaperHandsPro

· 3小時前

現實應用中的“理解意圖”才是難點，希望別再出現你想訂機票它去改你簡歷的尷尬。

查看原文回復0

半剖多肉

· 3小時前

有點期待，也有點怕：能點鼠標就等於能做很多“人類點擊”才能做的事，風控和反作弊得升級。

查看原文回復0

柚子味的冷静

· 3小時前

這波對 Web3 也有影響吧，自動化鏈上操作、簽名流程、錢包交互要是能無縫做，產品形態會變。

查看原文回復0

玻璃穹顶里的星

· 3小時前

API 和價格先別急，先看看它在複雜桌面環境裡能不能抗彈窗、抗多窗口、抗網路抖動。

查看原文回復0

GateUser-b665e41c

· 3小時前

感覺從“能說會寫”進化到“能做能交付”，下一步就是給它更好的記憶和任務管理了。

查看原文回復0

Lint Collector

· 3小時前

如果真能跨應用串聯：瀏覽器查資料→Excel 處理→PPT 出稿→郵箱發送，那就是辦公全鏈路閉環。

查看原文回復0

DegenWithNotebook

· 3小時前

終於在桌面原生操作了？這下真要當“數字實習生”了。

查看原文回復0