Anthropic四月双重发布 — Opus 4.7与Managed Agents如何改变Agent开发
Claude Opus 4.7(4月16日)和Managed Agents测试版(4月8日)在同一个月发布。基准测试创历史新高,但社区反应两极分化。本文分析新分词器成本冲击、task_budget参数,以及每会话$0.08定价模式的实际意义。
四月第二周,我刷新了两次Anthropic官方博客。4月8日是Managed Agents公开测试版,4月16日是Claude Opus 4.7。同一个月,他们同时升级了”基础设施层”和”模型层”。
说实话,第一反应是兴奋。SWE-bench Pro 64.3%的数字比上一个版本提升了约10.9个百分点,而Managed Agents意味着我每月亲自管理的Agent会话基础设施,终于可以交给Anthropic来运营了。但读到社区反应之后,情况变得复杂起来。
Opus 4.7实际改变了什么
4月16日发布时公布的变更点有四项。
基准测试数字:SWE-bench Pro达到64.3%(比4.6提升+10.9个百分点),CursorBench达到70%(+12个百分点)。从编程Agent的角度来看,这是明确的改进。
高分辨率图像支持:扩展到最高2576px、3.75MP,突破了之前1568px/1.15MP的限制。对于UI测试自动化或基于截图的Agent来说,这是实质性的升级。
task_budget参数:这是我最关注的变化,尽管它以测试版发布。现在可以为整个Agent循环设置令牌预算。通过task-budgets-2026-03-13请求头激活,最小值为2万个令牌。它以advisory(建议性)方式工作,而非hard cap(硬限制)——当预算接近上限时,模型会”尽力在预算内完成任务”,而不是立即停止。
xhigh努力级别:在现有的low/medium/high基础上新增了xhigh,用于需要更深入推理的复杂任务。
task_budget的API调用示例:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
extra_headers={
"anthropic-beta": "task-budgets-2026-03-13"
},
# task_budget: 整个Agent循环的令牌预算
# 最小20000,advisory(非hard cap)
task_budget=50000,
messages=[
{
"role": "user",
"content": "找出这个仓库所有Python文件中的已弃用API调用,并替换为最新版本。"
}
]
)
没有Anthropic API密钥,我无法直接运行这段代码。以上代码基于官方文档和发布说明编写。task_budget的advisory行为是我结合Managed Agents生产部署文章探索的内容。
Managed Agents有何不同
4月8日转入公开测试版的Claude Managed Agents,概念上很简单。过去开发者需要自己管理的Agent执行环境——沙箱、会话状态、权限验证、长时间运行的容器——现在由Anthropic平台来运营。
官方文档描述的核心功能:
- 隔离沙箱:Bash命令、文件操作、网页搜索、MCP服务器执行在隔离环境中运行
- 会话状态持久化:即使是持续数分钟到数小时的任务,文件系统和对话上下文也会保留
- 凭证安全:API密钥和秘密通过权限委托方式处理,不直接暴露给Agent
- 多Agent协调:处于研究预览状态,支持多个Agent协作的工作流配置
定价结构为每会话小时$0.08 + 标准Claude API令牌费用。官方文档明确指出空闲时间不会排除。
Notion、Rakuten和Sentry已将其应用于生产环境。Notion报告成本降低90%、延迟改善85%;Rakuten在70多个业务单元中报告错误率降低97%;Sentry在”数周内”完成了补丁Agent的上线。数字令人印象深刻,但需要记住,这是与之前自管理的不稳定基础设施相比的结果。
亮点:Agent基础设施管理负担的实质性减少
我亲自运营这个博客的自动化系统,深切体会到Agent会话管理有多繁琐。防范会话意外断开、上下文丢失、长时间任务静默失败的防御代码,往往比业务逻辑本身还要多。
如果Managed Agents真的能减轻这一负担——Sentry”数周内上线”的故事是真实的——那它的价值就很清晰了。
我曾在五种Agent工作流模式中介绍过编排器-子Agent结构。将这种结构运行在Managed Agents之上,意味着平台会处理原本需要自己编写的恢复逻辑和状态同步。
task_budget的方向也是对的。让模型在预算内自行确定优先级,通常比硬截断能产生更好的完成率。
不足之处:基准测试与实务的差距,以及隐性成本
但Opus 4.7发布24小时后,社区反馈开始涌入,我发现了令人不安的模式。
根据byteiota.com整理的开发者反馈,部分高级用户将Opus 4.7描述为”legendarily bad(传奇级别的糟糕)“。具体的不满集中在三点。
安全性过拟合:检测恶意代码的标准被调得过高,以至于普通的网络调用和标准库使用也被拒绝。在受控基准测试环境中,保守的判断反而提升了准确率,但在实际工作流中却造成了摩擦。
指令解读的僵化:比上一个版本更倾向于字面解读指令,优先遵守显式指令而非灵活推理。
输出风格变化:比起散文形式,更倾向于以项目符号整理。有人认为这是改进,也有人认为在创意性任务中是缺陷。
我最关注的问题另有其物——新分词器。Opus 4.7搭载了新分词器,对相同文本会使用比之前多1〜1.35倍的令牌。公布的价格没有变化,但实际成本最多可能上涨35%。
我曾在AI Agent运营成本的现实中分析过生产Agent的运营成本,分词器更换是需要完全重新计算预算模拟的重大变量。Anthropic没有在发布时明确提示这一点,理应受到批评。
成本现实:到底涨了多少
基于现有数据,按场景比较如下:
| 场景 | Opus 4.6基准 | Opus 4.7预估(令牌+25%) |
|---|---|---|
| 简单问答(1K令牌) | $0.005 | 约$0.006 |
| 代码审查(10K令牌) | $0.05 | 约$0.063 |
| 长时间Agent(100K令牌) | $0.50 | 约$0.625 |
还需加上Managed Agents的会话成本($0.08/小时)。一小时的Agent任务意味着在令牌费用之外再加$0.08。对于短批处理任务,这个代价较高;对于需要多小时运行的复杂任务,可能比自行管理基础设施的工程成本更低。
为什么现在要学task_budget
task_budget是本次发布中被最悄然埋没的功能。媒体报道了基准测试数字和Managed Agents的亮眼案例,但对于长期运营Agent的开发者来说,这个参数可能是最具实质意义的变化。
问题是这样的:运行复杂的重构Agent时,很难预测需要多长时间、会消耗多少令牌。max_tokens限制单个响应的长度,但无法控制多轮Agent循环的总成本。task_budget试图填补这个空白。
advisory机制的设计很有意思——不是在到达限制时强制停止,而是让模型在预算接近上限时自动调整优先级,跳过优先级较低的探索,专注于核心任务。
Managed Agents改变了什么开发流程
最初听到Managed Agents时,我以为”不过就是Claude API加个沙箱”。仔细阅读文档后改变了想法。
最大的变化是状态管理。自己运营Agent会话时,会不断遇到三个问题:工具调用链中的上下文丢失;会话意外终止后的重启成本;让Agent访问GitHub、数据库或外部API时的凭证安全问题。Managed Agents在平台层面处理这三个问题。
Sentry”数周内上线”的故事也许并不夸张——有些团队自己构建这个基础设施层要花费数月时间。
值得指出的局限:只能使用Claude模型。同时运营多供应商Agent集群的团队,会在没有干净退出路径的情况下积累对Anthropic的依赖。
谁适合使用Opus 4.7,谁不适合
综合社区反馈和官方文档,使用适配性相当清晰。
Opus 4.7发挥价值的场景:复杂的多文件重构、全代码库分析Agent、遗留系统迁移、测试覆盖率自动扩展。需要长时间运行并且真正受益于深度推理的任务。高分辨率图像工作流。
应避免使用Opus 4.7的场景:日常编程辅助任务。让它”修复这个类型错误”或”重构这个函数”是浪费——Claude Sonnet 4.6更快,成本也更低。安全过滤可能导致意外拒绝的工作流。需要灵活推理而非字面解读的创意写作任务。
四月发布的更大图景
将四月Anthropic的发布作为一个整体来解读很有意思。上个月性能下降争议令社区信任动摇,Anthropic一个月后带着基准测试数字和新基础设施服务回来了。
但开发者的反应正在向”基准测试不如实际表现重要”的方向成熟。SWE-bench Pro再高,也不保证在你的具体代码库上表现良好,高级用户的”legendarily bad”反馈难以忽视。
我的结论:Opus 4.7在编程基准测试上是明确的改进,但我不会立即全面迁移,直到安全过拟合的报告更加明朗。task_budget和xhigh是我想立即实验的工具。Managed Agents是新项目从零开始时的默认基础设施选择,但不值得将现有稳定系统迁移过去。新分词器的成本影响需要每个团队自行计算。
一个月内,Anthropic在模型层和基础设施层同时回答了”如何构建Agent”这个问题。答案还不完美,但问题本身是对的。
可执行性判断(Source Review依据)
本文中的task_budget代码示例和Managed Agents功能描述,基于platform.claude.com/docs官方文档和发布说明编写。由于没有Anthropic API密钥,无法直接配置执行环境,因此task_budget的actual advisory行为和会话账单机制未经直接验证。所有内容均基于”文档设计和公开案例”作出判断,特此说明。
阅读其他语言版本
- 🇰🇷 한국어
- 🇯🇵 日本語
- 🇺🇸 English
- 🇨🇳 中文(当前页面)
这篇文章有帮助吗?
您的支持能帮助我创作更好的内容。请我喝杯咖啡吧。