OpenAIは木曜日、これまでで最も高性能なモデルであるGPT-5.4の展開を開始しました。同社はPR危機の収拾に奔走しており、推定250万人のユーザーがサブスクリプションをキャンセルしたり、ソーシャルメディアでボイコットを共有したりして、対応に追われています。 いわゆるQuitGPT運動は、OpenAIが米国防総省との契約を発表した数時間後に爆発的に拡大しました。これに対し、Anthropicは同じ契約から手を引き、Claudeの開発者はトランプ大統領や他の政府関係者から公の非難を浴びました。 Anthropicの問題点は、米国防総省が自律兵器の展開や米国市民の大量監視を明示的に禁止する条項を含めることを拒否したことです。
OpenAIはそれでも契約を獲得しました。CEOのサム・アルトマンは、同社の安全性に関する声明と契約の実際の内容との間にある明らかなギャップについて質問を受けており、ユーザーの取り戻しが必要です。 そこでGPT-5.4の登場です… GPT-5.3の導入からわずか2日後のことです。
新モデルは、推論、コーディング、エージェント機能を一つにまとめています。また、100万トークンのコンテキスト能力を持ち、ユーザーは一度のセッションで大量の情報を扱う自由度が高まります。 表面上の数値は有望に見えます。GDPvalという44の職業にわたる知識作業のベンチマークテストでは、GPT-5.4は83.0%の比較で業界の専門家と同等かそれを上回り、GPT-5.2の70.9%から向上しています。コンピュータ操作能力を測るOSWorld-Verifiedでは、GPT-5.4は75.0%の成功率を記録し、GPT-5.2の47.3%を大きく上回り、人間の基準72.4%を超えています。 深層ウェブ調査のためのBrowseCompでは、GPT-5.2より17ポイント高い成績を示しています。100万トークンのコンテキストウィンドウと、応答中にモデルをリダイレクトできる中間誘導機能も、主要な特徴です。 この機能は、エラーが検出された際にすべての既存トークンを破棄する必要を避けることで、時間と計算資源を節約します。
GPT-5.4の恩恵を受けるのは誰か? 重要なのは、多くのベンチマークは主にGPT-5.4を比較対象とし、推論は高負荷設定(無料版やPlus版では利用できない)で行われている点です。GPT-5.3は完全にスキップされており、GPT-5.2と比較されています。 すでにGPT-5.3を使っているユーザーにとっては、いくつかの改善はグラフの示すほど大きなものではないかもしれません。
コーダーにとっては期待値を抑える必要があります。SWE-Bench Proでは、GPT-5.3-Codex(56.8%)からGPT-5.4(57.7%)への改善はほとんど誤差の範囲です。モデルはまた、GPT-5.2と比べてタスク完了に必要なトークン数が大幅に少なくなると主張しています。 「GPT‑5.4はこれまでで最もトークン効率の良い推論モデルであり、GPT‑5.2と比較して問題解決に必要なトークン数を大幅に削減しています」とOpenAIは述べています。 とはいえ、この分野での改善は、APIを通じてOpenAIモデルを利用し、トークンごとに課金される開発者にとってはプラスです。効率的な思考の連鎖を持つモデルは、同じ結果をより低コストで得られる可能性があります。過剰に考えすぎて正しい結論に到達しようとするモデルよりも、コストを抑えられるのです。 もう一つの問題は、今すぐ新モデルを使いたいと考える人にとっての障壁です。OpenAIはGPT-5.4は本日リリース予定としていますが、現時点ではまだ利用できず、徐々に展開されている可能性があります。ほとんどのユーザーにとって最適なモデルはGPT-5.3であり、これは即時の応答にのみ使用可能です。複雑なタスクの長い推論を必要とする「思考」に依存するユーザーは、引き続きGPT-5.2を使っています。つまり、モデルの限界を最も押し広げるユーザーが最後に手に入れることになるのです。
最も恩恵を受けるのは、文書中心の作業を多く行う企業ユーザーです。内部のスプレッドシートモデリングのベンチマークでは、GPT-5.4は87.3%のスコアを記録し、GPT-5.2の68.4%を上回っています。法律調査会社のHarveyは、BigLawベンチ評価で91%を獲得しました。30,000の不動産税ポータルを横断してエージェントを運用するMainstayは、最初の試行成功率95%、セッションは「約3倍高速化し、トークン使用量は約70%削減」と報告しています。 これは、企業の調達チームにとって重要な効率性のアピールかもしれませんが、アカウント削除を検討している個人ユーザーには説得力が少ないでしょう。