GPT-5.4リリース — ネイティブコンピュータ使用と1Mコンテキストがエンジニアリングチームを変える
OpenAIがGPT-5.4をリリースしました。OSWorldベンチマークで人間(72.4%)を超えたコンピュータ使用能力(75%)、1Mトークンコンテキストウィンドウ、ツール検索による47%トークン削減まで — EMの視点で核心的な影響を分析します。
GPT-5.4が他と違う理由
2026年3月5日、OpenAIはGPT-5.4を正式にリリースした。今回のリリースは単なるバージョンアップではない。ネイティブコンピュータ使用(Computer Use)、1Mトークンコンテキストウィンドウ、ツール検索 — この3つが同時に適用された初めての汎用モデルだ。
GPT-5.2が理論物理学で科学的発見を示し、GPT-5.3がCodexロールアウト一時停止というプラットフォーム信頼性の課題を露わにしたとすれば、GPT-5.4はAIエージェントが実際に「働く」水準に到達したことを示している。
3つのコアアップグレード
1. ネイティブコンピュータ使用 — 人間のパフォーマンスを超える
GPT-5.4はOSWorld-Verifiedベンチマークで**75.0%**を達成した。比較は以下の通りだ。
| モデル / 基準 | OSWorldスコア |
|---|---|
| GPT-5.4 | 75.0% |
| 人間の基準 | 72.4% |
| Claude Opus 4.6 | 74.7% (Terminal-Bench 2.0) |
| Gemini 3.1 Pro | 78.4% (Terminal-Bench 2.0) |
| GPT-5.2 | 47.3% |
GPT-5.4はスクリーンショット、マウス操作、キーボード入力を通じて実際のコンピュータ環境を直接操作できる。Webサイト探索、ファイル管理、マルチステップワークフローをソフトウェアシステム全体にわたって自律実行する。
APIではGPT-5.4がCodexと連携し、Codexの最先端コーディング能力を統合しながら、スプレッドシート、プレゼンテーション、文書作業まで拡張された汎用エージェントとして動作する。
2. 1Mトークンコンテキストウィンドウ
OpenAI史上最大のコンテキストウィンドウだ。長文コンテキストベンチマークでのパフォーマンスは以下の通りだ。
- 0〜128K範囲: Graphwalks BFS 93.0%
- 256K〜1M範囲: 21.4%(最高難易度区間)
1Mトークンが実務で意味するものは何か?リポジトリ全体のコードベース、数百件のカスタマーサポートログ、数年分のプロジェクト文書 — これらを単一のコンテキスト内で処理できる。マルチステップエージェントが長い作業フロー全体をプランし、実行し、検証するために必要なコンテキスト容量が初めて十分になったわけだ。
3. ツール検索 — 47%トークン削減
既存のMCP設定では、アクティブなツール数が増えると毎ターンごとにツールスキーマが全て注入される。ScaleのMCP Atlasベンチマーク(36個のMCPサーバー、250タスク)でGPT-5.4のツール検索は:
- 総トークン使用量47%削減
- 精度維持
ツール検索はエージェントが必要なツールをオンデマンドで動的に探索できるようにする。大規模なエンタープライズMCP環境でのコスト削減効果が特に大きい。
GPT-5.4 Thinking vs Pro
今回のリリースは2つのバリアントに分かれる。
GPT-5.4 Thinking: 応答前にプランを先に提示する。ユーザーが中途で介入して方向を修正できる。複雑なマルチステップタスクで透明性とコントロールが高まる。
GPT-5.4 Pro: 高パフォーマンス最適化版。専門家レベルのナレッジワーク(スプレッドシートモデリング、文書解析、プレゼンテーション設計)で強みを発揮する。
EM視点:チームに何が変わるか
繰り返し作業の大規模自動化が可能に
コンピュータ使用能力が人間レベルを超えたということは、クリックが必要なレガシーワークフローも自動化が現実的だという意味だ。APIのない内部システム、GUIベースの管理パネル、スプレッドシート作業 — エージェントが直接操作できる。
コンテキストエンジニアリングパラダイムの転換
128Kを基準に設計していたエージェントアーキテクチャが1Mへと拡張される。複雑なRAGパイプラインの代わりに「必要なものを全てコンテキストに入れる」アプローチも現実的な選択肢となる。ただし、256K〜1M区間の精度(21.4%)はまだ限定的であることを認識しておく必要がある。
ツールコストの最適化
MCPサーバー数が増えるほどツール検索の価値は高まる。エンタープライズ環境で30個以上のMCPサーバーを運用中であれば、ツール検索の導入だけでAPIコストが半分近く削減できる可能性がある。
競合状況のモニタリングが必要
Terminal-Bench 2.0基準ではGemini 3.1 Pro(78.4%)がGPT-5.4を上回る区間もある。モデル選択はベンチマーク単一指標ではなく、具体的なタスクタイプとコスト構造を合わせて考慮する必要がある。
今すぐやるべきこと
まず、現在自動化できていないGUIベースの内部プロセスをリストアップしよう。コンピュータ使用エージェントの最初の候補群だ。
次に、1Mコンテキストが本当に必要なタスクを特定しよう。単にコンテキストが長いからではなく、長いコンテキストが精度とコスト面で実質的に有利なケースがどこかを識別する必要がある。
最後に、MCPサーバー数が10個を超えるならツール検索の導入を検討しよう。47%のトークン削減は無視しにくい数字だ。
まとめ
GPT-5.2が「AIが科学をする」可能性を示し、GPT-5.3が「AIプラットフォーム信頼性管理」という課題を明らかにしたとすれば、GPT-5.4は「AIエージェントが実際のコンピュータ環境で働く」段階に移行したことを告げている。
人間のパフォーマンスを超えたコンピュータ使用能力、コードベース全体を収めるコンテキストウィンドウ、大規模MCP環境のコスト削減 — 3つの軸が同時に実務に入ってくる瞬間だ。
エンジニアリングマネージャーとして今やるべきことは明確だ:自分たちのチームのどのワークフローがこの変化によって最初に変わるべきかを今把握することだ。
他の言語で読む
- 🇰🇷 한국어
- 🇯🇵 日本語(現在のページ)
- 🇺🇸 English
- 🇨🇳 中文
この記事は役に立ちましたか?
より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください!☕