GPT-5.5发布 — OpenAI转向Agent Runtime,与Claude的实战对比
昨天发布的GPT-5.5,SWE-bench 88.7%,价格翻倍。OpenAI声称专为Agent Runtime重新设计,这对开发者选择究竟意味着什么?
昨天(4月23日),OpenAI发布了GPT-5.5。官方公告中有一句话引起了我的注意。
“这是首个作为Agent Runtime而非聊天助手设计的GPT旗舰模型。”
这到底是营销话术,还是架构设计理念真的发生了变化,一时难以判断。GPT-5.1到5.4都是在基础模型上反复微调的结构,而5.5据说是GPT-4.5以来首次对基础模型本身进行了重新训练。从OpenAI的角度来看,他们有底气说”这次不一样”。MMLU 92.4%、SWE-bench 88.7%、Terminal-Bench 2.0 82.7% — 这些都是随公告一同发布的数据。
先放下这些说法,4月份在AI Agent领域确实发生了很多大事。Anthropic的Claude Managed Agents于4月8日开放公测,4月9日Claude Advisor Tool也随之推出。GitHub Copilot Agent Mode在Q1正式GA,Cursor 3.0 Glass也在4月初发布。在如此短暂的时间内,主要AI编程和Agent工具集体更新,这说明竞争真的在加速。在这个背景下,我整理了GPT-5.5应该如何看待,以及它与Claude的实质差异。
核心评估:是转折点,但还不是立刻行动的时候
结论先说:GPT-5.5确实是有意义的更新,但”所有开发者应该立刻切换”的结论是错误的。原因有三点。
第一,API还未开放。目前只有ChatGPT Plus/Pro/Business/Enterprise用户才能使用,API要”在完成额外的网络安全审查后”才会公开,没有具体时间表。说”用了GPT-5.5,感觉不错”的人,目前都是通过ChatGPT界面体验的,而不是在自己的Agent pipeline中集成过的。
第二,价格翻倍了。要消化这个成本增长,性能提升必须明显抵消价格上涨,而在独立评估出来之前,这一点很难验证。在Agent工作流中,输出token占比很高,$30/1M output这个价格在实际月度账单中会怎么体现,只有运营一段时间后才知道。
第三,Anthropic在同期推出的Agent基础设施更新 — Managed Agents、Advisor Tool — 不仅仅是提升模型性能,而是强化了基础设施层。“更聪明的模型”和”更稳定的Agent基础设施”提供的是不同的价值。哪个更重要,取决于团队需要解决的问题。
不是说低估GPT-5.5。SWE-bench 88.7%是编程Agent性能中突破了以往界限的数字,6周一个发布周期是OpenAI认真对待这场竞争的信号。API开放后,实际生产案例积累起来,评估可能会变化。目前只是暂定判断。
GPT-5.5与之前的模型有什么不同
要理解GPT-5.5,首先要理解GPT-5.1到5.4是什么。
它们是在GPT-5基础上反复进行强化学习和微调,提升特定能力的版本。比如推理速度改善、多模态处理稳定化、特定领域准确度提升等。这种方式可以快速推出改进,但在根本能力提升上有上限。微调无法完全嵌入基础模型从一开始就应该具备的模式 — 复杂的工具调用序列、自我修正循环、长期上下文管理。
GPT-5.5不同。从基础预训练重新开始。有两个核心变化。
针对Agent任务优化的预训练数据构成。不只是预测文本,而是学习了更多多步骤工具调用序列和自我修正模式。具体比例未公开,但用了”Agent工作流数据占比相较前代大幅提升”这样的表述。这实际上指的是什么数据 — 代码执行结果、API响应、错误修复循环等 — 并未公开。
速度与性能同步提升。响应速度与GPT-5.4基本相同,但基准测试数值有所提升。这是基于OpenAI公告材料的说法,实际API响应延迟需要在开放后独立测量才能确认。单纯扩大规模很难做到这一点,很可能伴随了架构效率化或推理优化。Transformer架构和学习优化的数学细节不是我的专长,“为什么可以做到”这个问题还是交给ML专家比较合适。
发布时机也值得关注。距GPT-5.4只有6周。之前OpenAI重要模型的间隔通常是2到4个月,这次明显更快。Anthropic刚刚连续公布Claude Managed Agents和Advisor Tool之后,这个时机很难说是巧合。整个行业的发布周期都在压缩。
基准测试数据,不能照单全收的理由
SWE-bench 88.7%相当令人印象深刻。但用这个数据得出”GPT-5.5比Claude编程能力强多了”的结论还为时过早。
MMLU 92.4% — 这是知识记忆型基准测试的数字。与实际编程或Agent工作流的直接关联有限。MMLU得分高不代表在实际工作中能写出更好的代码。这个数值衡量的是”模型记了多少”,而Agent中重要的是”能否准确行动并修正错误”。两者有相关性,但不能直接画等号。
SWE-bench 88.7% — 与编程Agent性能更直接相关的指标。但常被引用作比较的Claude Sonnet 4.6 + Opus Advisor组合的成绩是SWE-bench Multilingual标准下的74.8%。GPT-5.5的88.7%是标准SWE-bench,Claude的74.8%是多语言扩展版本。这两者是不同的测试集,直接比较并不成立。就像拿苹果和橙子比较一样。
公平的比较需要在相同条件下进行。目前只有两家公司各自公布的数字,在独立第三方评估出来之前,这部分还是保留意见为好。
Terminal-Bench 2.0的82.7% — 这才是最值得关注的。终端Agent性能 — 实际执行命令、解释结果、决定下一步的能力 — 表现好,这与”Agent Runtime”的定位实际上是吻合的。在所有基准测试中,这个指标的可信度最高。不过,这也是OpenAI自己公布的数字,独立验证还未进行。
GDPval 84.9% — OpenAI自家的基准测试。很多开发者可能是第一次听说这个名字,我也是。自家设计的基准测试可能倾向于对自己有利,引用时注明出处是应有的诚实。
之前整理GPT-5与Claude、Gemini、DeepSeek的API价格比较时也遇到过类似问题。每家公司都拿对自己有利的基准测试说话,比较基准不同,很难断定哪个模型”更好”。这次这个问题更加严重了。
价格翻倍了 — 该怎么消化?
这是这次发布中让我最不舒服的部分。
GPT-5.4: $2.50/1M input tokens, $15/1M output tokens
GPT-5.5: $5/1M input tokens, $30/1M output tokens
整整翻倍。乍一听似乎”性能提升了价格也提升了”,但考虑到Agent工作流的特性,这个涨价的影响比预期要大。
Agent任务中输出token占比很高。多步推理过程、工具调用结果处理、中间状态记录、最终响应生成,全部按输出token计费。我在实际用Claude跑Agent pipeline时,输出token比预期多出2到3倍的情况很常见。用GPT-5.5的$30/1M运营复杂的Agent pipeline,成本计算会有很大变化。
GPT-5.5 Pro: $30/1M input, $180/1M output。这个价格如果不是规模较大的企业,接触起来都很困难。这是为需要高智能推理的特殊任务设计的档位,初创公司或个人开发者用这个模型运营生产级Agent的场景很难想象。
做一个现实的成本计算:假设每天运行500次Agent任务,每次任务平均产生8,000个output token:
- GPT-5.4: 500 × 8,000 × $15/1M = 每天$60,每月约$1,800
- GPT-5.5: 500 × 8,000 × $30/1M = 每天$120,每月约$3,600
每月相差$1,800。要证明这个成本增加是合理的,需要计算任务成功率需要提升多少、错误处理成本需要减少多少,这是各团队需要自己估算的数字。
作为比较参考,Anthropic的Claude Managed Agents是每小时$0.08/session加上标准token成本的结构。在需要长时间运行的Agent任务中,基于时间的计费方式预测性更好。
Claude和GPT-5.5,该选哪个
没有通用的答案,要根据情况判断。不过把”情况”具体化,决策就容易多了。
GPT-5.5更合适的情况。已经深度整合在OpenAI生态系统中的团队 — 正在使用Azure OpenAI、Vercel AI SDK的OpenAI后端、Copilot集成等 — 切换成本相对较低。以SWE-bench风格的纯编程性能为核心指标的团队,以及正在开发基于ChatGPT的产品的团队,GPT-5.5可能是合适的选择。因为ChatGPT Plus/Pro用户已经在默认使用GPT-5.5,从产品参考模型一致性角度来说更有利。
Claude仍然保有优势的情况。正如在Claude Code的5种Agent工作流模式中介绍的,Claude的工具使用模式更加细腻,上下文管理也更稳定。特别是Claude Managed Agents + Advisor Tool的组合在成本效率方面很有竞争力。Sonnet 4.6作为executor、Opus作为advisor运作,在提高任务成功率的同时,根据Anthropic数据可降低11.9%的成本。在需要长时间运行的复杂Agent pipeline中,Claude的基础设施层支持 — 检查点、凭证管理、作用域权限 — 会带来实质性的差异。
更重要的差异在于生态系统和工作流集成。比起基准测试高几个百分点,现有代码库依赖哪个SDK、团队已经熟悉哪边,在实际工作中的影响要大得多。换模型不是换一个API密钥那么简单。提示工程设计、错误处理逻辑、工具schema设计、重试策略,都是相互关联的,实际切换成本比想象中要高。我见过”就先换个模型试试”结果导致好几天提示重新设计的案例,不止一次。
就我自己的项目而言,暂时还是会继续使用Claude生态系统。最近进行了用Vercel AI SDK构建Claude流式Agent的工作,在流式传输过程中夹杂工具调用的复杂场景下,Claude的表现更加稳定一致。GPT-5.5 API开放后,计划用相同的任务进行实际比较。
实际决策标准
通过以下问题可以大致判断哪边更合适:
- 现有代码库深度依赖OpenAI SDK? → 考虑GPT-5.5
- Agent基础设施(检查点、长时间会话、多Agent协调)是核心需求? → Claude Managed Agents
- 成本预测性很重要? → Claude Managed Agents的按时计费更稳定
- 等不了独立基准测试评估? → 目前可用API的Claude
- 打算在GPT-5.5 API开放后再做比较的团队 → 现在先用Claude运营,之后再评估
- 编程Agent是主要用例且能承担成本? → API开放后值得尝试GPT-5.5
归根结底,这不是”哪个模型更好”的问题,而是”我的团队现在需要解决的问题,哪个工具最合适”的问题。两个平台都在快速发展,3到6个月后的评估可能与今天大不相同。
Agent模型 vs Agent基础设施 — 是两个不同的问题
这是我对GPT-5.5发布最感遗憾的地方。
OpenAI把GPT-5.5称为”Agent Runtime”。但Anthropic在Claude Managed Agents中提供的,是完全不同层面的东西。Anthropic的做法是Agent基础设施而不只是更好的Agent模型 — 检查点、凭证管理、作用域权限、多Agent协调、长时间会话支持,这些都在平台层面提供。
如果GPT-5.5是”针对Agent Runtime优化的模型”,那么Managed Agents就是”运行Agent的基础设施”。更聪明的引擎,还是更稳定的轨道。哪个更重要取决于团队的需求,但把两者放在同一层面比较是类别错误。
我的理解是,从长期来看,谁掌握了生产级Agent的基础设施标准,可能比谁有更高的基准测试分数更有优势。正如在AI Agent框架比较中介绍的,Agent生态系统正朝着框架和基础设施相结合的形态收敛。
还没解决的问题
这次发布后还有几点不清晰的地方。
API开放时间不透明。“在额外的网络安全审查后”这个表述没有包含具体时间表。声称是Agent Runtime,却让Agent开发者无法通过API访问,这有些自相矛盾。Anthropic发布Claude Managed Agents时从当天就提供了API访问,形成鲜明对比。
Agent Runtime定位缺乏具体性。Anthropic在Managed Agents中提供的那些内容 — 检查点、凭证管理、作用域权限、长时间会话 — 基础设施级别的Agent支持在GPT-5.5中如何集成,目前还不清楚。公告材料中”针对Agent优化”这一主张的依据,主要是基准测试数字。
Pro档位价格的合理性不明确。$180/1M output是目前主流LLM中最贵的水平。要证明这个价格合理,需要性价比的提升是压倒性的。仅凭公开的基准测试,这个依据还不充分。
最后一点 — 如果GPT-5.5针对Agent Runtime进行了优化,在简单对话用途上可能与GPT-5.4没有明显差异。对于不直接构建Agent、只是把AI用作写作助手或搜索工具的普通用户来说,GPT-5.5可能只是更贵的GPT-5.4。
GPT-5.5是有意义的模型,这一点我承认。SWE-bench数字、Agent Runtime声明、6周的发布周期 — 仅这三点就足以感受到行业竞争在加速。
但眼下还没有立刻把项目切换到GPT-5.5的理由。API还没有开放,价格翻倍了,实际生产案例的积累还需要时间。Anthropic正朝着承担AI Agent基础设施层的方向推进,OpenAI宣布Agent Runtime,两者最终指向同一个目的地,但路径不同。哪条路对生产开发者更好,需要亲身体验才知道。
这场竞争中谁会成为生产Agent的标准,决定因素不是API基准测试,而是开发者体验和价格的现实性。而在那方面,目前局面还很开放。
GPT-5.5 API开放后,我打算用Claude Managed Agents + Advisor Tool组合对相同任务进行实际比较。提示工程、成本、错误处理、成功率,等实际代码跑出结果来,再做总结。现在的立场是”有意思,但还不是该动手的时候”。
阅读其他语言版本
- 🇰🇷 한국어
- 🇯🇵 日本語
- 🇺🇸 English
- 🇨🇳 中文(当前页面)
这篇文章有帮助吗?
您的支持能帮助我创作更好的内容。请我喝杯咖啡吧。