LLM API料金比較2026 — GPT-5 vs Claude vs Gemini vs DeepSeek 実際のコスト計算

先月、このブログの自動化パイプラインをClaude Sonnet 4.6に切り替えたとき、初めて月々のAPI費用をきちんと計算してみた。記事作成、翻訳、推薦生成、SEOクロージングまで合算すると月$60〜$80程度。最初は「これくらいなら問題ない」と思っていたが、同じワークフローをGemini 2.5 Flashに切り替えると$8〜$12に収まる計算が出た。

その差は7倍だ。

もちろん応答品質が同じではないので単純な置き換えはできない。だが「プレミアムモデルが必要な部分」と「安価なモデルで十分な部分」を分けなければ、不必要なコストが垂れ流しになる。この記事は、その判断を助けるための2026年4月時点のLLM API料金比較だ。

2026年の市場現況 — 1,000倍の価格格差の時代

2024年にGPT-4 Turboが入力トークン$10/Mだったことを覚えているだろうか。2026年4月時点で、最も安い主要モデルは$0.02/M（Mistral Nemo）レベルで、最も高いのはo1-proの$375/Mブレンドだ。格差は約18,000倍になる。

この数字を初めて見たときは実感がわかなかった。ただの大きな数字という印象だったが、実際に同じタスクで両モデルを動かしてみて実感した。要約タスク10万件を処理するとき、どのモデルを選ぶかによってコストが$20になることも$3,750になることもある。

2024→2026の価格変化の核心トレンド：

LLM API料金が全体的に2年間で約80%下落
「推論（reasoning）機能に2〜4倍プレミアム」という慣行が崩れた — DeepSeek V4が推論機能を基本価格に含む
キャッシュヒット割引が最大90%まで拡大（入力トークンをほぼ無料に近づける）
コンテキストウィンドウ競争：1Mトークンが基本、Gemini 3.1 Proは2M提供

注意点として、価格は急速に変わる。この記事のデータは2026年4月時点であり、数ヶ月後には異なる可能性がある。必ず公式ドキュメントを直接確認してほしい。

モデル別料金表（2026年4月時点）

GPT-5ファミリー — バージョン乱立の罠

OpenAIは2025年8月のGPT-5リリース以降、急ペースで改訂版を出し続けた。現在GPT-5、GPT-5.2、GPT-5.3 Codex、GPT-5.4が同時に存在している。

モデル	入力 ($/1M)	出力 ($/1M)	コンテキスト
GPT-5 (2025年8月)	$0.625	$5.00	400K
GPT-5.2 (2025年12月)	$0.875	$7.00	400K
GPT-5.3 Codex (2026年2月)	$1.75	$14.00	400K
GPT-5.4（現行フラッグシップ）	$2.50	$15.00	400K
GPT-5.4（長文コンテキスト）	$5.00	$22.50	400K+

GPT-5.4はバッチAPIを使うと50%割引が適用され$1.25/$7.50になる。キャッシュ入力は$0.25/Mまで下がる。

私が気になる点はこのバージョン乱立だ。どのバージョンを使うべきか、最新が常に最善なのかが不明確だ。GPT-5.4がGPT-5.2よりコーディングタスクで優れているのは確かだが、$0.875と$2.50の価格差をあらゆるタスクで正当化できるほどの品質差が出るわけではない。APIを初めて選ぶチームには何を基準にすべきか混乱を招く。

Claude 4ファミリー — コンテキストウィンドウの勝者

モデル	入力 ($/1M)	出力 ($/1M)	コンテキスト
Claude Haiku 4.5	$0.25	$1.25	200K
Claude Sonnet 4.6	$3.00	$15.00	1M
Claude Opus 4.6	$5.00	$25.00	1M

Anthropicの最大の変化は1Mトークンコンテキストウィンドウに長文プレミアムをなくしたことだ。Sonnet 4.6とOpus 4.6ともに1Mトークンまで基本料金に含まれる。コードリポジトリ全体をコンテキストに入れたり、長いドキュメントを処理するワークフローではこの差は大きい。

バッチAPIを使うと同様に50%割引。Sonnetは$1.50/$7.50、Opusは$2.50/$12.50になる。

Gemini 3.1 + Flashファミリー — Googleの階層化戦略

モデル	入力 ($/1M)	出力 ($/1M)	コンテキスト
Gemini 2.5 Flash-Lite	$0.10	$0.40	1M
Gemini 2.5 Flash	$0.15	$0.60	1M
Gemini 3.1 Pro (≤200K)	$2.00	$12.00	2M
Gemini 3.1 Pro (>200K)	$4.00	$18.00	2M

Googleの戦略が興味深い。Gemini 2.5 Flashは$0.15/M入力でClaude Haiku 4.5より40%安く、1Mトークンコンテキストを提供する。キャッシュ適用時、Gemini 3.1 Proの入力は$0.20/Mまで下がる。

Gemini 3.1 Proは2Mトークンコンテキストウィンドウを提供する。市場でこれほど長いコンテキストが一般的に必要なケースはまだ少ないが、大規模コードベース分析や長い契約書処理などの特定ユースケースでは意義ある差別化点だ。

DeepSeek V4 — オープンソースが覆した価格基準

モデル	入力 ($/1M)	出力 ($/1M)	備考
DeepSeek V3.2	$0.28	$0.42	キャッシュヒット $0.028/M
DeepSeek V4	$0.30	$0.50	SWE-bench 81%
DeepSeek R1	$0.55	$2.19	推論専用

DeepSeek V4は2026年3月にリリースされ、SWE-bench Verifiedで81%を記録した（V3.2の69%から大幅改善）。価格はV3.2比で若干上がったが、それでもOpenAI・Anthropicのフラッグシップ比90%安い。

キャッシュ割引が印象的だ。V3.2基準でキャッシュヒット入力が$0.028/M — つまり同じシステムプロンプトを繰り返し送るワークフローなら入力コストがほぼ無料に近くなる。

注意点として、DeepSeekサーバーは需要急増時にレートリミットに引っかかるケースが報告されている。中国ベースのサービスであることから、データプライバシー規制が厳しい業種（医療、金融、公共）では使いにくい。この制約を無視して価格だけを見てはいけない。

キャッシュ・バッチ割引が変える実際のコスト

料金表だけを見て意思決定を誤ることがある。実際のプロダクションではキャッシュとバッチ割引が核心だ。

キャッシュ割引まとめ：

プロバイダー	キャッシュヒット割引率	条件
OpenAI (GPT-5.4)	90%	512トークン以上の繰り返し入力
Anthropic	最大90%	プロンプトキャッシングの明示的な有効化が必要
Google (Gemini 3.1)	90%	コンテキストキャッシング有効化
DeepSeek V3.2	90%	自動適用

バッチAPI割引：

OpenAI、Anthropicともに50%割引（24時間以内の非同期処理）
リアルタイム応答が不要なタスク（翻訳、分類、要約のバッチ処理）に適している

この自動化パイプラインにバッチAPIを適用してわかったのは、キャッシュヒット率が低いと割引効果が思ったより小さいということだ。システムプロンプトがタスクごとに変わる構造ではキャッシュ効率が落ちる。LLM推論コストを50%削減するDeep-Thinking Ratio指標でも同様の問題を扱ったが、コスト最適化は割引率よりタスク構造設計が先という結論は同じだ。

モデル選択前に避けるべき3つのミス

LLM APIコストの話をするとき、料金表だけ見て決めるチームをよく見かける。直接経験したか周囲で起きたパターンを3つまとめておく。

1つ目、ベンチマーク数値をそのまま信じること。 SWE-benchやMMILUのスコアが高いからといって、自分のタスクでその性能が出るわけではない。調べたところSWE-benchはPython中心のコーディングタスクに特化したベンチマークで、日本語コンテンツ生成や特定ドメインの分類では全く異なる結果になりうる。必ず実際のユースケースのサンプルデータで直接テストしなければならない。100件サンプルで$5〜10かけてテストする方が、間違ったモデルで6ヶ月を無駄にするよりはるかにいい。

2つ目、入力トークンだけを計算すること。 多くのチームが料金比較で入力トークン価格だけを見るが、実際のLLMワークフローのコストのほとんどは出力トークンから来る。GPT-5.4の入力は$2.50だが出力は$15.00だ。出力が入力の6倍高い。コード生成や長い説明を要求するタスクでは出力トークンが総コストの70〜80%を占めることがある。比較する際は必ず「予想入出力比率」で実際のコストを計算すべきだ。

3つ目、コンテキストウィンドウサイズを無視すること。 「128Kで十分」と思っていたら、実際のプロダクションでコードリポジトリ全体を入れたり長いドキュメントを処理するときに切り捨て（truncation）が必要になる場面が出てくる。切り捨てた情報が重要だった場合、そのコストはAPIコストではなく品質低下として現れる。Claude Sonnet 4.6の1Mコンテキストや Gemini 3.1 Proの2Mコンテキストは単なる数字ではなく、特定のユースケースでは決定的な要素になる。

実際のプロダクションシナリオ別コスト計算

理論的な料金表より実際のワークフローに当てはめる方がはるかに有用だ。以下の計算は2026年4月時点の価格で、バッチ割引は未適用の基本価格だ。

シナリオA：ブログ/コンテンツ自動化（月1,000件の記事処理）

前提：記事あたり平均入力4,000トークン、出力2,000トークン

# 月額コスト計算
posts_per_month = 1000
input_tokens = 4_000  # 記事あたり
output_tokens = 2_000  # 記事あたり

models = {
    "GPT-5.4": (2.50, 15.00),
    "Claude Sonnet 4.6": (3.00, 15.00),
    "Gemini 2.5 Flash": (0.15, 0.60),
    "DeepSeek V4": (0.30, 0.50),
}

for model, (input_price, output_price) in models.items():
    monthly_cost = posts_per_month * (
        (input_tokens / 1_000_000) * input_price +
        (output_tokens / 1_000_000) * output_price
    )
    print(f"{model}: ${monthly_cost:.2f}/月")

# 結果：
# GPT-5.4: $40.00/月
# Claude Sonnet 4.6: $42.00/月
# Gemini 2.5 Flash: $1.80/月
# DeepSeek V4: $2.20/月

GPT-5.4とGemini 2.5 Flashの差が22倍だ。コンテンツ自動化の品質がGPT-5.4ほど必要な理由がなければ、FlashやDeepSeekが圧倒的に有利だ。

シナリオB：コードレビューボット（1日500件のPRコメント）

前提：コードdiff平均8,000トークン入力、コメント1,500トークン出力

reviews_per_day = 500
reviews_per_month = reviews_per_day * 22  # 営業日ベース
input_tokens = 8_000
output_tokens = 1_500

for model, (input_price, output_price) in models.items():
    monthly_cost = reviews_per_month * (
        (input_tokens / 1_000_000) * input_price +
        (output_tokens / 1_000_000) * output_price
    )
    print(f"{model}: ${monthly_cost:.2f}/月")

# 結果：
# GPT-5.4: $467.50/月
# Claude Sonnet 4.6: $544.50/月
# Gemini 2.5 Flash: $29.70/月
# DeepSeek V4: $68.75/月

ここでDeepSeekはClaude Sonnetより8倍安い。ただしコードレビューならDeepSeekのデータ処理ポリシーを確認するのが先決だ。内部コードが外部サーバーを通過する構造はセキュリティポリシーに引っかかる可能性がある。

シナリオC：カスタマーサポートチャットボット（1日1万件の会話、長文コンテキスト）

前提：会話あたり10,000トークン入力（履歴含む）、500トークン出力、キャッシュヒット率40%

モデル	基本月額コスト	キャッシュ40%適用後
Claude Sonnet 4.6	$3,900	$2,574
Gemini 3.1 Pro	$2,640	$1,743
Gemini 2.5 Flash	$198	$131
DeepSeek V4	$438	$289

このシナリオではGemini 2.5 Flashがコストパフォーマンスで最も説得力がある。1Mトークンコンテキスト、マルチモーダルサポート、キャッシュ割引まで合算すれば選択肢が明確になる。

決定マトリクス — どのモデルをいつ使うべきか

AIエージェントの実際の運用コストを分析した記事で述べたように、AIエージェントの実際の運用コストは単純なトークンコスト以上だ。ただしモデル選択の基準は比較的明確に整理できる。

ユースケース	推奨モデル	理由
複雑な推論、コード生成（最高品質）	Claude Opus 4.6またはGPT-5.4	価格より品質が優先の場合
コードレビュー、技術分析（品質・コストバランス）	Claude Sonnet 4.6またはGPT-5.2	中間帯で最も検証済み
大量ドキュメント処理（2M+コンテキスト）	Gemini 3.1 Pro	唯一2Mコンテキストを提供
大量自動化（コスト最小化）	Gemini 2.5 FlashまたはDeepSeek V4	10〜22倍のコスト削減
バッチ翻訳、分類、要約	DeepSeek V4 + キャッシュ	入力コストが事実上無料水準
セキュリティ敏感な内部コード処理	ClaudeまたはGPT-5（米国データセンター）	データ処理ポリシーが安全

モデル選択よりも重要なのはタスク分離だ。同じパイプラインでも「判断が必要なステップ」はプレミアムモデル、「繰り返し処理ステップ」は低価格モデルという設計がコストを大きく削減する。ヘテロジニアスLLMエージェントフリートのコスト最適化でこのアプローチを実際のアーキテクチャレベルで扱っている。

2026年の私の選択とその理由

単刀直入に言う。私は現在Claude Sonnet 4.6をメイン、Gemini 2.5 Flashをサブとして使う二重スタックを運用している。この決断に至った理由を説明しよう。

Claude Sonnet 4.6をメインとして使う理由：このブログ記事を含むコンテンツ生成ワークフローでGPT-5.4とClaude SonnetをA/Bテストしたが、日本語品質の面でClaudeの方が自然だった。GPT-5.4がコーディングベンチマークで高いスコアを出すのは確かだが、私のユースケースでは差が$1.50/Mを正当化するほど大きくなかった。

Gemini 2.5 Flashをサブとして使う理由：記事の分類、タグ生成、ドラフト要約といったバッチ処理はFlashに回した。$0.15/M入力ならこういったタスクにSonnetを使うのは無駄だ。

DeepSeekをメインとして使わない理由：個人的に価格は魅力的だが、このブログ自動化システムの性格上、作業指示、内部コンテンツ、APIキーが行き来する構造なので中国サーバー経由に抵抗がある。価格が10分の1でも受け入れたくない部分だ。機密データがないタスクには十分使えると思うが、現在の自分の状況には合わない。

GPT-5.4は過大評価されていると思う。ベンチマーク数値は印象的だが、実際に日本語コンテンツ自動化パイプラインでClaude Sonnetと比べた体感差は$1.50/Mの価格差を正当化しなかった。ベンチマークと実際のユースケースの間のギャップはここでも大きい。

2つの例外的なケースだけ付け加える。大量ドキュメント処理がメイン業務のチームはGemini 3.1 Proの2Mコンテキストを最初に検討すべきだ。データプライバシーが最優先のチームはDeepSeekの選択肢を最初から除外し、OpenAIまたはAnthropicから選ぶべきだ。価格差が大きくても、コンプライアンスコストとリスクを考えれば正しい選択だ。

次にやる実験は、同じパイプラインでGemini 2.5 FlashとClaude Sonnet 4.6のA/B比率を調整しながら、品質差がどの時点で現れるかを測定することだ。コストが10分の1のモデルが品質も10分の1なら意味がないが、ほとんどの繰り返しタスクではそこまでの差は出ないと思っている。

料金データ出典：OpenAI API Pricing公式ドキュメント、Anthropic Claude API Pricing、Google AI Gemini API Pricing、DeepSeek API Docs（2026年4月時点）。為替レート、消費税、地域差は未含。

LLM API料金比較2026 — GPT-5 vs Claude vs Gemini vs DeepSeek 実際のコスト計算

2026年の市場現況 — 1,000倍の価格格差の時代