GPT-5.5リリース — エージェントランタイムに転換したOpenAIとClaudeの比較

GPT-5.5リリース — エージェントランタイムに転換したOpenAIとClaudeの比較

昨日リリースされたGPT-5.5。SWE-bench 88.7%、価格は2倍。エージェントランタイム専用に再設計されたという主張が開発者の選択に何をもたらすか検証した。

昨日(4月23日)、OpenAIがGPT-5.5をリリースした。公式発表で一つの文が気になった。

「チャット補助モデルではなく、エージェントランタイムとして設計された最初のGPTフラッグシップモデルです。」

これが単なるマーケティング文句なのか、それとも実際にアーキテクチャの設計哲学が変わったのか、すぐには判断しにくかった。GPT-5.1から5.4まではベースモデルの上でファインチューニングを繰り返す構造だったが、5.5はGPT-4.5以来初めてベースモデル自体を新たに学習したという。OpenAI側には「今回は違う」と主張できる根拠がある。MMLU 92.4%、SWE-bench 88.7%、Terminal-Bench 2.0 82.7% — 発表と同時に示された数値だ。

その主張はさておき、4月はAIエージェント分野で特に動きの多い月だった。AnthropicのClaude Managed Agentsが4月8日にパブリックベータとして公開され、4月9日にはClaude Advisor Toolも登場した。GitHub Copilot Agent ModeはQ1にGAとなり、Cursor 3.0 Glassが4月初めにリリースされた。この短期間に主要なAIコーディング・エージェントツールが一斉に更新されたことは、競争が本当に加速していることを意味する。この文脈でGPT-5.5をどう評価すべきか、特にClaudeとの実質的な違いは何かを直接整理した。

核心評価:転換点ではあるが、今すぐではない

結論から言えば、GPT-5.5は明らかに意味のあるアップデートだ。しかし「すべての開発者が今すぐ移行すべき」という結論は間違いだ。理由は三つある。

第一に、APIがまだ公開されていない。現在はChatGPT Plus/Pro/Business/Enterpriseユーザーのみが使用でき、APIは「追加のサイバーセキュリティガイドライン審査後」に公開するとされている。エージェント開発者が実際にコードに統合して試せる状況ではない。「使ってみたら良かった」と言う人は現時点ではChatGPTインターフェースで体験したのであり、自分たちのエージェントパイプラインに統合したわけではない。

第二に、価格が2倍になった。これに見合うだけの性能向上がコスト増加を明確に相殺する必要があるが、独立した評価が出るまでその検証は難しい。エージェント作業では出力トークンが多く生成される特性上、$30/1M outputという価格が実際の月額請求書にどう反映されるかは運用してみないとわからない。

第三に、Anthropicが同時期に打ち出したエージェントインフラのアップデート — Managed Agents、Advisor Tool — は単にモデル性能を上げたのではなく、インフラレイヤーを強化したものだ。「より賢いモデル」と「より安定したエージェントインフラ」は異なる価値を提供する。どちらが重要かは、チームが解決しようとする問題によって異なる。

それでもGPT-5.5を過小評価しているわけではない。SWE-bench 88.7%はコーディングエージェント性能の従来の限界を超えた数値で、6週間でのリリース間隔はOpenAIがこの競争を本気で捉えているシグナルだ。APIが公開され実際の事例が蓄積されれば評価は変わりうる。今は暫定的な判断だ。

GPT-5.5が以前のモデルと何が違うのか

GPT-5シリーズの文脈を理解してこそ、GPT-5.5の意味がわかる。

GPT-5.1から5.4までは、GPT-5ベースの上で強化学習とファインチューニングを繰り返し、特定の能力を引き出したバージョンだった。推論速度の改善、マルチモーダル処理の安定化、特定ドメインの精度向上といった形で。この方法は素早く改善を届けられるが、根本的な能力向上には限界がある。ファインチューニングでは、ベースモデルが最初から備えるべきパターン — 複雑なツール呼び出しシーケンス、自己修正ループ、長期コンテキスト管理 — を完全に植え付けることはできない。

GPT-5.5は違う。ベースのプリトレーニングから新たにやり直した。二つの核心的な変化がある。

エージェントタスクに最適化されたプリトレーニングデータ構成。単にテキストを予測するのではなく、マルチステップのツール呼び出しシーケンスや自己修正パターンをより多く学習した。具体的な比率は公開していないが、「エージェントワークフローデータの割合を前世代比で大幅に増加した」という表現を用いた。これが実際にどんなデータを指すのか — コード実行結果、APIレスポンス、エラー修正ループなど — は公開されていない。

速度と性能の同時改善。GPT-5.4とほぼ同等のレスポンス速度でありながら、ベンチマーク数値は向上した。これはOpenAIの発表資料に基づくものであり、実際のAPIレイテンシはリリース後に独立して測定する必要がある。単純なスケールアップでは達成が難しく、アーキテクチャの効率化や推論の最適化が伴っている可能性が高い。トランスフォーマーアーキテクチャや学習最適化の数学的な詳細まで私が深く理解しているわけではないので、「なぜ可能だったか」という問いはMLの専門家に委ねるのが正直なところだ。

リリースのタイミングも注目すべきだ。GPT-5.4から6週間しか経っていない。これまでOpenAIのメジャーモデル間隔が通常2〜4ヶ月だったことを考えると、目立って速い。AnthropicがClaude Managed AgentsとAdvisor Toolを相次いで公開した直後というタイミングも偶然とは思えない。業界全体のリリースサイクルが圧縮されているシグナルだ。

ベンチマーク数値、額面通りには受け取れない理由

SWE-bench 88.7%はかなり印象的だ。しかしこの数値から「Claudeよりコーディングが格段に優れている」と結論付けるのは早計だ。

MMLU 92.4% — 知識記憶型ベンチマークから出た数値だ。実際のコーディングやエージェントワークフローとの直接的な関連は限られている。MMLUスコアが高いからといって、実務でより優れたコードを書くわけではない。この数値は「モデルがどれだけ多くのことを記憶しているか」を測るが、エージェントで重要なのは「どれだけ正確に行動し、エラーを修正するか」だ。

SWE-bench 88.7% — コーディングエージェント性能ベンチマークとして、より直接的だ。しかし比較対象としてよく挙げられるClaude Sonnet 4.6 + Opusアドバイザー組み合わせの記録はSWE-bench Multilingual基準で74.8%だ。GPT-5.5の88.7%は標準的なSWE-benchで、Claudeの74.8%は多言語拡張版だ。この二つは異なるテストセットであり、直接比較は成立しない。リンゴとオレンジを比べるようなものだ。

公平な比較は同じ条件で行われる必要がある。今は両社の自社発表の数値しかなく、独立したサードパーティ評価が出るまで、この部分は留保して見るべきだ。

Terminal-Bench 2.0の82.7% — これが最も注目に値する。ターミナルエージェント性能 — 実際にコマンドを実行し、結果を解釈し、次のステップを決定する能力 — が優れているということは、「エージェントランタイム」というポジショニングと実際に一致する。すべてのベンチマークの中でこれが最も信頼度の高い指標だと考える。ただし、このベンチマークもOpenAIが自社で公開した数値という点は忘れてはならない。独立した再現検証はまだ行われていない。

GDPval 84.9% — OpenAIの自社ベンチマークだ。この名前を初めて聞いた開発者は多いだろう。私もそうだ。自社ベンチマークは自分たちに有利な形で設計される可能性があるため、この数値を引用する際は出典を明示するのが誠実だ。

以前にGPT-5とClaude、Gemini、DeepSeekのAPI価格比較をまとめたとき、同様の問題があった。各社が自社に有利なベンチマークを前面に出し、比較基準が異なるため「どのモデルが優れているか」を断言するのが難しい。今回はその問題がさらに深刻化している。

価格が2倍になった — これを受け入れるべきか

今回のリリースで最も不満を感じた部分だ。

GPT-5.4: $2.50/1M input tokens、$15/1M output tokens

GPT-5.5: $5/1M input tokens、$30/1M output tokens

正確に2倍だ。一見「性能も上がり価格も上がった」と聞こえるが、エージェントワークフローの特性上、この値上げが思った以上に大きく響く。

エージェント作業では出力トークンの占める割合が高い。マルチステップの推論過程、ツール呼び出し結果の処理、中間状態の記録、最終レスポンスの生成まですべて出力トークンとして課金される。実際にClaudeを使ってエージェントパイプラインを動かしたとき、予想より出力トークンが2〜3倍多く発生するケースが頻繁だった。GPT-5.5の$30/1Mで複雑なエージェントパイプラインを運用すると、コスト計算がかなり変わってくる。

GPT-5.5 Pro: $30/1M input、$180/1M output。この価格は規模のある企業でなければ接触自体が難しい。高度な推論が必要な特殊作業向けのティアだが、スタートアップや個人開発者がこのモデルで本番エージェントを運用する絵は想像しにくい。

現実的なコスト計算をしてみよう。1日500回のエージェントタスクを実行し、タスクあたり平均8,000 output tokenが発生するとすると:

  • GPT-5.4: 500 × 8,000 × $15/1M = 日$60、月約$1,800
  • GPT-5.5: 500 × 8,000 × $30/1M = 日$120、月約$3,600

月$1,800の差だ。このコスト増加を正当化するには、タスク成功率が何パーセント上がる必要があるか、エラー処理コストがどれだけ削減される必要があるかをチームが直接計算しなければならない。

ClaudeとGPT-5.5、どちらを選ぶべきか

「どちらが優れているか」という単一の答えはない。状況によって異なる。ただしその「状況」を具体的に整理すれば判断が容易になる。

GPT-5.5が有利な状況。OpenAIエコシステムにすでに深く統合されているチームの場合 — Azure OpenAI、Vercel AI SDKのOpenAIバックエンド、Copilot連携などを使っているなら — 移行コストが相対的に低い。SWE-benchスタイルの純粋なコーディング性能が核心指標のチーム、そしてChatGPTベースのプロダクトを作っている場合も、GPT-5.5が適切な選択になりうる。ChatGPT Plus/Proユーザーがすでにデフォルトで使っているため、プロダクトのリファレンスモデルに合わせやすい。

Claudeが依然として強みを発揮する状況。Claude Codeの5つのエージェンティックワークフローパターンで述べたように、Claudeはツール使用パターンが繊細でコンテキスト管理が安定している。特にClaude Managed Agents + Advisor Tool組み合わせはコスト効率面で競争力がある。Sonnet 4.6がexecutorとして、Opusがadvisorとして動作し、タスク成功率を高めながらコストを11.9%削減するというデータがある。長時間実行される複雑なエージェントパイプラインでは、チェックポインティング、認証情報管理、スコープ権限といったClaudeのインフラレイヤーサポートが実質的な差をもたらす。

より重要な違いはエコシステムとワークフローの統合だ。ベンチマーク数パーセントより、既存のコードベースがどのSDKに依存しているか、チームがすでにどちらに慣れているかが実務では大きく作用する。モデルを変えることはAPIキーを一つ変えるだけの問題ではない。プロンプト設計、エラー処理ロジック、ツールスキーマ設計、リトライ戦略まですべて連動しているため、実際の移行コストは想定より高い。

私のプロジェクトでは当面Claudeエコシステムを維持するつもりだ。最近Vercel AI SDKでClaudeストリーミングエージェントを構築する作業をしたが、ストリーミング中にツール呼び出しが混在する複雑なシナリオでClaudeがより一貫した動作を示した。GPT-5.5 APIが公開されれば同じタスクで比較する計画はある。

実際の意思決定基準

以下の質問でどちらが適切か大まかに判断できる。

  • 既存コードベースがOpenAI SDKに深く依存しているか? → GPT-5.5を検討
  • エージェントインフラ(チェックポインティング、長時間セッション、マルチエージェント調整)が核心か? → Claude Managed Agents
  • コスト予測可能性が重要か? → Claude Managed Agentsの時間ベース課金が有利
  • 独立したベンチマーク評価を待てる余裕がないか? → 現在APIアクセス可能なClaude
  • GPT-5.5 API公開後に実際に比較したいチーム → 今はClaudeで運用しながら待機
  • コーディングエージェントがメインのユースケースでコストを賄える → API公開後GPT-5.5を実験する価値あり

結局これは「どのモデルが優れているか」の問題というより、「自分のチームが今解決しようとしている問題にどのツールが最適か」の問題だ。両プラットフォームとも急速に発展しているので、3〜6ヶ月後の評価が今日の評価と異なる可能性が高い。

エージェントモデル vs エージェントインフラ — 別の問題だ

今回のGPT-5.5発表で最も残念に思う点がここだ。

OpenAIはGPT-5.5を「エージェントランタイム」と呼んだ。しかしAnthropicがClaude Managed Agentsで提示したものとは異なるレイヤーの話だ。Anthropicのアプローチはエージェントモデルではなくエージェントインフラだ — チェックポインティング、認証情報管理、スコープ権限、マルチエージェント調整、長時間セッションサポートがプラットフォームレベルで提供される。

GPT-5.5が「エージェントランタイムに最適化されたモデル」だとすれば、Managed Agentsは「エージェントを運用するインフラ」だ。より賢いエンジンと、より安定したレール。どちらが重要かはチームのニーズによるが、両者を同じレイヤーに置いて比較するのはカテゴリーエラーだ。

私の理解では、長期的にエージェントエコシステムの標準を誰が握るかは、モデル性能指標よりインフラレイヤーを先に押さえた方が有利になる可能性が高い。AIエージェントフレームワーク比較で述べたように、エージェントエコシステムはフレームワークとインフラが結合した形に収束しつつある。

まだ解決していない問い

今回のリリースで明確でない部分がいくつかある。

APIの公開時期が不透明だ。「追加のサイバーセキュリティガイドライン審査後」という表現には具体的なスケジュールが含まれていない。エージェントランタイムとしてポジショニングしながら、エージェント開発者がAPIでアクセスできない状況は矛盾している。AnthropicがClaude Managed Agentsを発表した日からAPIアクセスを提供したことと対照的だ。

エージェントランタイムというポジショニングの具体性が乏しい。AnthropicがManaged Agentsで提示したような — チェックポインティング、認証情報管理、スコープ権限、長時間セッション — インフラレベルのエージェントサポートがGPT-5.5にどう統合されるかはまだ明確でない。発表資料で「エージェントに最適化された」という主張の根拠として示されたのは主にベンチマーク数値だった。

Proティアの価格正当性が不明確だ。$180/1M outputは現在の主要LLMの中で最も高い水準だ。この価格が正当化されるためには、コスト対比の性能向上が圧倒的でなければならない。公開されたベンチマークだけではその根拠が十分でない。

最後に — GPT-5.5がエージェントランタイムに最適化されているなら、単純な対話用途ではGPT-5.4と比べて目立った差がない可能性がある。エージェントを直接構築する開発者でない一般ユーザーにとって、GPT-5.5は高価なGPT-5.4に近い体験かもしれない。


GPT-5.5が意義あるモデルであることは認める。SWE-benchの数値、エージェントランタイム宣言、6週間というリリース間隔 — この三つだけでも、業界の速度が加速していることを実感する。

しかし今すぐプロジェクトをGPT-5.5に移行する理由はまだない。APIが公開されておらず、価格が2倍になり、実際の本番事例が蓄積されるには時間が必要だ。Anthropicがエージェントインフラレイヤーまで担う方向に動き、OpenAIがエージェントランタイムを宣言するのも、結局は同じ目的地に向かっているが、そのアプローチが異なる。どのアプローチが本番開発者にとって優れているかは体験してみなければわからない。

この競争で誰が本番エージェントの標準になるかは、APIベンチマークより開発者体験と価格の現実性が決定すると思う。そしてその競争で今最も速くインフラを積み上げているのがどちらかは、数ヶ月後の実際の採用率で確認されるだろう。

GPT-5.5 APIが公開されればClaude Managed Agents + Advisor Tool組み合わせと同じタスクで実際の比較をしてみる予定だ。プロンプト設計、コスト、エラー処理、成功率まで実際のコードで動かした結果が出れば改めてまとめる。今のところ「興味深いが、まだ手をつける時期ではない」というのが私の立場だ。

他の言語で読む

この記事は役に立ちましたか?

より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください。

著者について

jw

Kim Jangwook

AI/LLM専門フルスタック開発者

10年以上のWeb開発経験を活かし、AIエージェントシステム、LLMアプリケーション、自動化ソリューションを構築しています。Claude Code、MCP、RAGシステムの実践的な知見を共有します。

ブログリストへ