OpenAI 發布具備原生電腦使用能力的 GPT-5.5 AI 模型

Crypto Frontier

OpenAI 於 2026 年 4 月 23 日正式發布 GPT-5.5,這是一款新的 AI 模型,透過原生電腦使用能力來理解使用者在真實應用中的意圖。根據 OpenAI 的公告,該模型具備通用型原生能力,讓它能夠瀏覽桌面應用程式、點擊按鈕,並輸入文字,以完成多步驟工作流程。

GPT-5.5 將原生電腦使用與進階推理結合,能夠自主地導覽執行高階專業任務所需的軟體工具。該模型的 ~1.1 百萬 token 上下文視窗可讓它處理龐大的金融資料集,而這些資料過去需要手動分塊處理。OpenAI 的金融團隊使用 GPT-5.5 來審閱 24,771 份 K-1 稅務表 (71,637 頁),並且比前一年提早兩週完成任務。

效能基準

GPT-5.5 在內部投資銀行建模任務中達到 88.5%,在 FinancialAgent v1.1 基準測試中達到 60%,表現優於 GPT-5.4,提升四個百分點。該模型在 GDPval 上達到 84.9%,該測試驗證代理人在 44 種職業中產出特定知識工作的能力。在 OSWorld-Verified(衡量模型自主的真實電腦操作)中,該模型達到 78.7%。GPT-5.5 在 Tau2-bench Telecom 上得分 98%,該測試針對極其困難的客服工作流程。

Go-to-Market 團隊的一位員工確認,自動化每週的商業報告將使每週節省約 5-10 小時的手動工作。

程式碼生成與系統優化

OpenAI 表示,GPT-5.5 被用來協助撰寫其自身提供服務的基礎設施程式碼。透過分析生產流量模式,該模型以「系統層級優化(System-Level Optimization)」方式撰寫自訂的負載平衡啟發式方法,使其自身的 token 生成速度提升 20%。

在一項開發者測試中,該模型被要求「重新架構一個 markdown 編輯器」,並回傳一個幾乎完整的 12-diff 堆疊,且僅需要最少的人類修正。OpenAI 指出,新模型能在更少的回合內達到正確答案,並且在相同的 Codex 任務中,比 GPT-5.4 少使用 40% 的 token。

Every 的創辦人兼執行長 Dan Shipper 將 GPT-5.5 描述為第一款具備「嚴謹概念清晰度(serious conceptual clarity)」的編碼模型。Shipper 在他和他最強工程師花了數天排查一個上線後問題的背景下測試了 GPT-5.5。根據 Shipper 的說法,GPT-5.5 做到了 GPT-5.4 無法做到的事:它檢視了損壞的程式碼,並產生工程師最終採用的重寫版本。該模型能夠「記住」並交叉參照整套資訊函館而不會失去位置,從而降低困擾先前版本的「幻覺」。

自主能力與自我修正

OpenAI 聲稱,GPT-5.5 已針對「自我修正」與自主性進行最佳化。它在解讀含糊不清的指令以及使用電腦介面 (clicking, typing, browsing) 來在不需人工介入的情況下完成目標方面更強。當需要代理去操作軟體、管理以終端機為主的工作流程,或在整個程式碼庫 (500K+ tokens) 之間以高檢索準確度進行推理時,該模型特別有用。

GPT-5.5 思考功能

在 ChatGPT 中,OpenAI 推出了「GPT-5.5 Thinking」,公司表示該功能能釋放更快的協助,以解決更困難的問題。該功能提供更聰明、更精簡的答案,協助使用者更有效率地完成複雜任務。它在資訊綜整與分析、程式碼編寫,等專業工作,以及研究等偏文件密集的任務上表現出色,尤其是在使用外掛程式時。

早期的 GPT-5.5 Pro 測試者回報稱,ChatGPT 能承接的工作的品質與難度都有了大幅提升。其更低的延遲使其在高要求任務上比 GPT-5.4 Pro 更實用。GPT-5.5 Pro 的回覆結構良好、相關性高、實用且準確,在法律、資料科學、商業與教育方面尤其展現強勁表現。

定價與可近用性

雖然提供了基本版本,但最具能力的版本 (GPT-5.5 Pro) 對個人訂閱者而言每月費用為 100 美元。對企業而言,每個輸出 token 的成本大約是 GPT-5.4 的兩倍,即使 token 效率提升了 40%。大規模的代理式部署整體支出可能相當可觀。人們日益擔憂,最高階的推理能力可能會變成一種「奢侈品」,只有資金充足的公司才能取得,這可能會擴大大型企業與較小型新創之間的生產力落差。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
APR Daydreamvip
· 3小時前
希望官方給一個可審計的行動日誌/回放機制,不然出了問題很難追責,尤其是自動操作資產類帳戶。
查看原文回復0
PaperHandsProvip
· 3小時前
現實應用中的“理解意圖”才是難點,希望別再出現你想訂機票它去改你簡歷的尷尬。
查看原文回復0
半剖多肉vip
· 3小時前
有點期待,也有點怕:能點鼠標就等於能做很多“人類點擊”才能做的事,風控和反作弊得升級。
查看原文回復0
柚子味的冷静vip
· 3小時前
這波對 Web3 也有影響吧,自動化鏈上操作、簽名流程、錢包交互要是能無縫做,產品形態會變。
查看原文回復0
玻璃穹顶里的星vip
· 3小時前
API 和價格先別急,先看看它在複雜桌面環境裡能不能抗彈窗、抗多窗口、抗網路抖動。
查看原文回復0
GateUser-b665e41cvip
· 3小時前
感覺從“能說會寫”進化到“能做能交付”,下一步就是給它更好的記憶和任務管理了。
查看原文回復0
Lint Collectorvip
· 3小時前
如果真能跨應用串聯:瀏覽器查資料→Excel 處理→PPT 出稿→郵箱發送,那就是辦公全鏈路閉環。
查看原文回復0
DegenWithNotebookvip
· 3小時前
終於在桌面原生操作了?這下真要當“數字實習生”了。
查看原文回復0