GPT-5.5发布 — OpenAI转向Agent Runtime，与Claude的实战对比

昨天（4月23日），OpenAI发布了GPT-5.5。官方公告中有一句话引起了我的注意。

“这是首个作为Agent Runtime而非聊天助手设计的GPT旗舰模型。”

这到底是营销话术，还是架构设计理念真的发生了变化，一时难以判断。GPT-5.1到5.4都是在基础模型上反复微调的结构，而5.5据说是GPT-4.5以来首次对基础模型本身进行了重新训练。从OpenAI的角度来看，他们有底气说”这次不一样”。MMLU 92.4%、SWE-bench 88.7%、Terminal-Bench 2.0 82.7% — 这些都是随公告一同发布的数据。

先放下这些说法，4月份在AI Agent领域确实发生了很多大事。Anthropic的Claude Managed Agents于4月8日开放公测，4月9日Claude Advisor Tool也随之推出。GitHub Copilot Agent Mode在Q1正式GA，Cursor 3.0 Glass也在4月初发布。在如此短暂的时间内，主要AI编程和Agent工具集体更新，这说明竞争真的在加速。在这个背景下，我整理了GPT-5.5应该如何看待，以及它与Claude的实质差异。

核心评估：是转折点，但还不是立刻行动的时候

结论先说：GPT-5.5确实是有意义的更新，但”所有开发者应该立刻切换”的结论是错误的。原因有三点。

第一，API还未开放。目前只有ChatGPT Plus/Pro/Business/Enterprise用户才能使用，API要”在完成额外的网络安全审查后”才会公开，没有具体时间表。说”用了GPT-5.5，感觉不错”的人，目前都是通过ChatGPT界面体验的，而不是在自己的Agent pipeline中集成过的。

第二，价格翻倍了。要消化这个成本增长，性能提升必须明显抵消价格上涨，而在独立评估出来之前，这一点很难验证。在Agent工作流中，输出token占比很高，$30/1M output这个价格在实际月度账单中会怎么体现，只有运营一段时间后才知道。

第三，Anthropic在同期推出的Agent基础设施更新 — Managed Agents、Advisor Tool — 不仅仅是提升模型性能，而是强化了基础设施层。“更聪明的模型”和”更稳定的Agent基础设施”提供的是不同的价值。哪个更重要，取决于团队需要解决的问题。

不是说低估GPT-5.5。SWE-bench 88.7%是编程Agent性能中突破了以往界限的数字，6周一个发布周期是OpenAI认真对待这场竞争的信号。API开放后，实际生产案例积累起来，评估可能会变化。目前只是暂定判断。

GPT-5.5与之前的模型有什么不同

要理解GPT-5.5，首先要理解GPT-5.1到5.4是什么。

它们是在GPT-5基础上反复进行强化学习和微调，提升特定能力的版本。比如推理速度改善、多模态处理稳定化、特定领域准确度提升等。这种方式可以快速推出改进，但在根本能力提升上有上限。微调无法完全嵌入基础模型从一开始就应该具备的模式 — 复杂的工具调用序列、自我修正循环、长期上下文管理。

GPT-5.5不同。从基础预训练重新开始。有两个核心变化。

针对Agent任务优化的预训练数据构成。不只是预测文本，而是学习了更多多步骤工具调用序列和自我修正模式。具体比例未公开，但用了”Agent工作流数据占比相较前代大幅提升”这样的表述。这实际上指的是什么数据 — 代码执行结果、API响应、错误修复循环等 — 并未公开。

速度与性能同步提升。响应速度与GPT-5.4基本相同，但基准测试数值有所提升。这是基于OpenAI公告材料的说法，实际API响应延迟需要在开放后独立测量才能确认。单纯扩大规模很难做到这一点，很可能伴随了架构效率化或推理优化。Transformer架构和学习优化的数学细节不是我的专长，“为什么可以做到”这个问题还是交给ML专家比较合适。

发布时机也值得关注。距GPT-5.4只有6周。之前OpenAI重要模型的间隔通常是2到4个月，这次明显更快。Anthropic刚刚连续公布Claude Managed Agents和Advisor Tool之后，这个时机很难说是巧合。整个行业的发布周期都在压缩。

基准测试数据，不能照单全收的理由

SWE-bench 88.7%相当令人印象深刻。但用这个数据得出”GPT-5.5比Claude编程能力强多了”的结论还为时过早。

MMLU 92.4% — 这是知识记忆型基准测试的数字。与实际编程或Agent工作流的直接关联有限。MMLU得分高不代表在实际工作中能写出更好的代码。这个数值衡量的是”模型记了多少”，而Agent中重要的是”能否准确行动并修正错误”。两者有相关性，但不能直接画等号。

SWE-bench 88.7% — 与编程Agent性能更直接相关的指标。但常被引用作比较的Claude Sonnet 4.6 + Opus Advisor组合的成绩是SWE-bench Multilingual标准下的74.8%。GPT-5.5的88.7%是标准SWE-bench，Claude的74.8%是多语言扩展版本。这两者是不同的测试集，直接比较并不成立。就像拿苹果和橙子比较一样。

公平的比较需要在相同条件下进行。目前只有两家公司各自公布的数字，在独立第三方评估出来之前，这部分还是保留意见为好。

Terminal-Bench 2.0的82.7% — 这才是最值得关注的。终端Agent性能 — 实际执行命令、解释结果、决定下一步的能力 — 表现好，这与”Agent Runtime”的定位实际上是吻合的。在所有基准测试中，这个指标的可信度最高。不过，这也是OpenAI自己公布的数字，独立验证还未进行。

GDPval 84.9% — OpenAI自家的基准测试。很多开发者可能是第一次听说这个名字，我也是。自家设计的基准测试可能倾向于对自己有利，引用时注明出处是应有的诚实。

之前整理GPT-5与Claude、Gemini、DeepSeek的API价格比较时也遇到过类似问题。每家公司都拿对自己有利的基准测试说话，比较基准不同，很难断定哪个模型”更好”。这次这个问题更加严重了。

价格翻倍了 — 该怎么消化？

这是这次发布中让我最不舒服的部分。

GPT-5.4: $2.50/1M input tokens, $15/1M output tokens

GPT-5.5: $5/1M input tokens, $30/1M output tokens

整整翻倍。乍一听似乎”性能提升了价格也提升了”，但考虑到Agent工作流的特性，这个涨价的影响比预期要大。

Agent任务中输出token占比很高。多步推理过程、工具调用结果处理、中间状态记录、最终响应生成，全部按输出token计费。我在实际用Claude跑Agent pipeline时，输出token比预期多出2到3倍的情况很常见。用GPT-5.5的$30/1M运营复杂的Agent pipeline，成本计算会有很大变化。

GPT-5.5 Pro: $30/1M input, $180/1M output。这个价格如果不是规模较大的企业，接触起来都很困难。这是为需要高智能推理的特殊任务设计的档位，初创公司或个人开发者用这个模型运营生产级Agent的场景很难想象。

做一个现实的成本计算：假设每天运行500次Agent任务，每次任务平均产生8,000个output token：

GPT-5.4: 500 × 8,000 × $15/1M = 每天$60，每月约$1,800
GPT-5.5: 500 × 8,000 × $30/1M = 每天$120，每月约$3,600

每月相差$1,800。要证明这个成本增加是合理的，需要计算任务成功率需要提升多少、错误处理成本需要减少多少，这是各团队需要自己估算的数字。

作为比较参考，Anthropic的Claude Managed Agents是每小时$0.08/session加上标准token成本的结构。在需要长时间运行的Agent任务中，基于时间的计费方式预测性更好。

Claude和GPT-5.5，该选哪个

没有通用的答案，要根据情况判断。不过把”情况”具体化，决策就容易多了。

GPT-5.5更合适的情况。已经深度整合在OpenAI生态系统中的团队 — 正在使用Azure OpenAI、Vercel AI SDK的OpenAI后端、Copilot集成等 — 切换成本相对较低。以SWE-bench风格的纯编程性能为核心指标的团队，以及正在开发基于ChatGPT的产品的团队，GPT-5.5可能是合适的选择。因为ChatGPT Plus/Pro用户已经在默认使用GPT-5.5，从产品参考模型一致性角度来说更有利。

Claude仍然保有优势的情况。正如在Claude Code的5种Agent工作流模式中介绍的，Claude的工具使用模式更加细腻，上下文管理也更稳定。特别是Claude Managed Agents + Advisor Tool的组合在成本效率方面很有竞争力。Sonnet 4.6作为executor、Opus作为advisor运作，在提高任务成功率的同时，根据Anthropic数据可降低11.9%的成本。在需要长时间运行的复杂Agent pipeline中，Claude的基础设施层支持 — 检查点、凭证管理、作用域权限 — 会带来实质性的差异。

更重要的差异在于生态系统和工作流集成。比起基准测试高几个百分点，现有代码库依赖哪个SDK、团队已经熟悉哪边，在实际工作中的影响要大得多。换模型不是换一个API密钥那么简单。提示工程设计、错误处理逻辑、工具schema设计、重试策略，都是相互关联的，实际切换成本比想象中要高。我见过”就先换个模型试试”结果导致好几天提示重新设计的案例，不止一次。

就我自己的项目而言，暂时还是会继续使用Claude生态系统。最近进行了用Vercel AI SDK构建Claude流式Agent的工作，在流式传输过程中夹杂工具调用的复杂场景下，Claude的表现更加稳定一致。GPT-5.5 API开放后，计划用相同的任务进行实际比较。

实际决策标准

通过以下问题可以大致判断哪边更合适：

现有代码库深度依赖OpenAI SDK？ → 考虑GPT-5.5
Agent基础设施（检查点、长时间会话、多Agent协调）是核心需求？ → Claude Managed Agents
成本预测性很重要？ → Claude Managed Agents的按时计费更稳定
等不了独立基准测试评估？ → 目前可用API的Claude
打算在GPT-5.5 API开放后再做比较的团队 → 现在先用Claude运营，之后再评估
编程Agent是主要用例且能承担成本？ → API开放后值得尝试GPT-5.5

归根结底，这不是”哪个模型更好”的问题，而是”我的团队现在需要解决的问题，哪个工具最合适”的问题。两个平台都在快速发展，3到6个月后的评估可能与今天大不相同。

Agent模型 vs Agent基础设施 — 是两个不同的问题

这是我对GPT-5.5发布最感遗憾的地方。

OpenAI把GPT-5.5称为”Agent Runtime”。但Anthropic在Claude Managed Agents中提供的，是完全不同层面的东西。Anthropic的做法是Agent基础设施而不只是更好的Agent模型 — 检查点、凭证管理、作用域权限、多Agent协调、长时间会话支持，这些都在平台层面提供。

如果GPT-5.5是”针对Agent Runtime优化的模型”，那么Managed Agents就是”运行Agent的基础设施”。更聪明的引擎，还是更稳定的轨道。哪个更重要取决于团队的需求，但把两者放在同一层面比较是类别错误。

我的理解是，从长期来看，谁掌握了生产级Agent的基础设施标准，可能比谁有更高的基准测试分数更有优势。正如在AI Agent框架比较中介绍的，Agent生态系统正朝着框架和基础设施相结合的形态收敛。

还没解决的问题

这次发布后还有几点不清晰的地方。

API开放时间不透明。“在额外的网络安全审查后”这个表述没有包含具体时间表。声称是Agent Runtime，却让Agent开发者无法通过API访问，这有些自相矛盾。Anthropic发布Claude Managed Agents时从当天就提供了API访问，形成鲜明对比。

Agent Runtime定位缺乏具体性。Anthropic在Managed Agents中提供的那些内容 — 检查点、凭证管理、作用域权限、长时间会话 — 基础设施级别的Agent支持在GPT-5.5中如何集成，目前还不清楚。公告材料中”针对Agent优化”这一主张的依据，主要是基准测试数字。

Pro档位价格的合理性不明确。$180/1M output是目前主流LLM中最贵的水平。要证明这个价格合理，需要性价比的提升是压倒性的。仅凭公开的基准测试，这个依据还不充分。

最后一点 — 如果GPT-5.5针对Agent Runtime进行了优化，在简单对话用途上可能与GPT-5.4没有明显差异。对于不直接构建Agent、只是把AI用作写作助手或搜索工具的普通用户来说，GPT-5.5可能只是更贵的GPT-5.4。

GPT-5.5是有意义的模型，这一点我承认。SWE-bench数字、Agent Runtime声明、6周的发布周期 — 仅这三点就足以感受到行业竞争在加速。

但眼下还没有立刻把项目切换到GPT-5.5的理由。API还没有开放，价格翻倍了，实际生产案例的积累还需要时间。Anthropic正朝着承担AI Agent基础设施层的方向推进，OpenAI宣布Agent Runtime，两者最终指向同一个目的地，但路径不同。哪条路对生产开发者更好，需要亲身体验才知道。

这场竞争中谁会成为生产Agent的标准，决定因素不是API基准测试，而是开发者体验和价格的现实性。而在那方面，目前局面还很开放。

GPT-5.5 API开放后，我打算用Claude Managed Agents + Advisor Tool组合对相同任务进行实际比较。提示工程、成本、错误处理、成功率，等实际代码跑出结果来，再做总结。现在的立场是”有意思，但还不是该动手的时候”。

GPT-5.5发布 — OpenAI转向Agent Runtime，与Claude的实战对比

核心评估：是转折点，但还不是立刻行动的时候

GPT-5.5与之前的模型有什么不同

基准测试数据，不能照单全收的理由

价格翻倍了 — 该怎么消化？

Claude和GPT-5.5，该选哪个

实际决策标准

Agent模型 vs Agent基础设施 — 是两个不同的问题

还没解决的问题

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

核心评估：是转折点，但还不是立刻行动的时候

GPT-5.5与之前的模型有什么不同

基准测试数据，不能照单全收的理由

价格翻倍了 — 该怎么消化？

Claude和GPT-5.5，该选哪个

实际决策标准

Agent模型 vs Agent基础设施 — 是两个不同的问题

还没解决的问题

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

相关文章

AGENTS.md真的有效吗？首篇实证论文揭示了意外的结果

Claude Sonnet 4.6发布 — Anthropic的中端模型战略与性能分析

FunctionGemma 270M — 超小型模型实现多轮tool calling精度90-97%