OpenAI 於 2026 年 4 月 23 日正式發布 GPT-5.5,這是一款新的 AI 模型,透過原生電腦使用能力來理解使用者在真實應用中的意圖。根據 OpenAI 的公告,該模型具備通用型原生能力,讓它能夠瀏覽桌面應用程式、點擊按鈕,並輸入文字,以完成多步驟工作流程。
GPT-5.5 將原生電腦使用與進階推理結合,能夠自主地導覽執行高階專業任務所需的軟體工具。該模型的 ~1.1 百萬 token 上下文視窗可讓它處理龐大的金融資料集,而這些資料過去需要手動分塊處理。OpenAI 的金融團隊使用 GPT-5.5 來審閱 24,771 份 K-1 稅務表 (71,637 頁),並且比前一年提早兩週完成任務。
GPT-5.5 在內部投資銀行建模任務中達到 88.5%,在 FinancialAgent v1.1 基準測試中達到 60%,表現優於 GPT-5.4,提升四個百分點。該模型在 GDPval 上達到 84.9%,該測試驗證代理人在 44 種職業中產出特定知識工作的能力。在 OSWorld-Verified(衡量模型自主的真實電腦操作)中,該模型達到 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%,該測試針對極其困難的客服工作流程。
Go-to-Market 團隊的一位員工確認,自動化每週的商業報告將使每週節省約 5-10 小時的手動工作。
OpenAI 表示,GPT-5.5 被用來協助撰寫其自身提供服務的基礎設施程式碼。透過分析生產流量模式,該模型以「系統層級優化(System-Level Optimization)」方式撰寫自訂的負載平衡啟發式方法,使其自身的 token 生成速度提升 20%。
在一項開發者測試中,該模型被要求「重新架構一個 markdown 編輯器」,並回傳一個幾乎完整的 12-diff 堆疊,且僅需要最少的人類修正。OpenAI 指出,新模型能在更少的回合內達到正確答案,並且在相同的 Codex 任務中,比 GPT-5.4 少使用 40% 的 token。
Every 的創辦人兼執行長 Dan Shipper 將 GPT-5.5 描述為第一款具備「嚴謹概念清晰度(serious conceptual clarity)」的編碼模型。Shipper 在他和他最強工程師花了數天排查一個上線後問題的背景下測試了 GPT-5.5。根據 Shipper 的說法,GPT-5.5 做到了 GPT-5.4 無法做到的事:它檢視了損壞的程式碼,並產生工程師最終採用的重寫版本。該模型能夠「記住」並交叉參照整套資訊函館而不會失去位置,從而降低困擾先前版本的「幻覺」。
OpenAI 聲稱,GPT-5.5 已針對「自我修正」與自主性進行最佳化。它在解讀含糊不清的指令以及使用電腦介面 (clicking, typing, browsing) 來在不需人工介入的情況下完成目標方面更強。當需要代理去操作軟體、管理以終端機為主的工作流程,或在整個程式碼庫 (500K+ tokens) 之間以高檢索準確度進行推理時,該模型特別有用。
在 ChatGPT 中,OpenAI 推出了「GPT-5.5 Thinking」,公司表示該功能能釋放更快的協助,以解決更困難的問題。該功能提供更聰明、更精簡的答案,協助使用者更有效率地完成複雜任務。它在資訊綜整與分析、程式碼編寫,等專業工作,以及研究等偏文件密集的任務上表現出色,尤其是在使用外掛程式時。
早期的 GPT-5.5 Pro 測試者回報稱,ChatGPT 能承接的工作的品質與難度都有了大幅提升。其更低的延遲使其在高要求任務上比 GPT-5.4 Pro 更實用。GPT-5.5 Pro 的回覆結構良好、相關性高、實用且準確,在法律、資料科學、商業與教育方面尤其展現強勁表現。
雖然提供了基本版本,但最具能力的版本 (GPT-5.5 Pro) 對個人訂閱者而言每月費用為 100 美元。對企業而言,每個輸出 token 的成本大約是 GPT-5.4 的兩倍,即使 token 效率提升了 40%。大規模的代理式部署整體支出可能相當可觀。人們日益擔憂,最高階的推理能力可能會變成一種「奢侈品」,只有資金充足的公司才能取得,這可能會擴大大型企業與較小型新創之間的生產力落差。