Anthropic四月双重发布 — Opus 4.7与Managed Agents如何改变Agent开发

四月第二周，我刷新了两次Anthropic官方博客。4月8日是Managed Agents公开测试版，4月16日是Claude Opus 4.7。同一个月，他们同时升级了”基础设施层”和”模型层”。

说实话，第一反应是兴奋。SWE-bench Pro 64.3%的数字比上一个版本提升了约10.9个百分点，而Managed Agents意味着我每月亲自管理的Agent会话基础设施，终于可以交给Anthropic来运营了。但读到社区反应之后，情况变得复杂起来。

Opus 4.7实际改变了什么

4月16日发布时公布的变更点有四项。

基准测试数字：SWE-bench Pro达到64.3%（比4.6提升+10.9个百分点），CursorBench达到70%（+12个百分点）。从编程Agent的角度来看，这是明确的改进。

高分辨率图像支持：扩展到最高2576px、3.75MP，突破了之前1568px/1.15MP的限制。对于UI测试自动化或基于截图的Agent来说，这是实质性的升级。

task_budget参数：这是我最关注的变化，尽管它以测试版发布。现在可以为整个Agent循环设置令牌预算。通过task-budgets-2026-03-13请求头激活，最小值为2万个令牌。它以advisory（建议性）方式工作，而非hard cap（硬限制）——当预算接近上限时，模型会”尽力在预算内完成任务”，而不是立即停止。

xhigh努力级别：在现有的low/medium/high基础上新增了xhigh，用于需要更深入推理的复杂任务。

task_budget的API调用示例：

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    extra_headers={
        "anthropic-beta": "task-budgets-2026-03-13"
    },
    # task_budget: 整个Agent循环的令牌预算
    # 最小20000，advisory（非hard cap）
    task_budget=50000,
    messages=[
        {
            "role": "user",
            "content": "找出这个仓库所有Python文件中的已弃用API调用，并替换为最新版本。"
        }
    ]
)

没有Anthropic API密钥，我无法直接运行这段代码。以上代码基于官方文档和发布说明编写。task_budget的advisory行为是我结合Managed Agents生产部署文章探索的内容。

Managed Agents有何不同

4月8日转入公开测试版的Claude Managed Agents，概念上很简单。过去开发者需要自己管理的Agent执行环境——沙箱、会话状态、权限验证、长时间运行的容器——现在由Anthropic平台来运营。

官方文档描述的核心功能：

隔离沙箱：Bash命令、文件操作、网页搜索、MCP服务器执行在隔离环境中运行
会话状态持久化：即使是持续数分钟到数小时的任务，文件系统和对话上下文也会保留
凭证安全：API密钥和秘密通过权限委托方式处理，不直接暴露给Agent
多Agent协调：处于研究预览状态，支持多个Agent协作的工作流配置

定价结构为每会话小时$0.08 + 标准Claude API令牌费用。官方文档明确指出空闲时间不会排除。

Notion、Rakuten和Sentry已将其应用于生产环境。Notion报告成本降低90%、延迟改善85%；Rakuten在70多个业务单元中报告错误率降低97%；Sentry在”数周内”完成了补丁Agent的上线。数字令人印象深刻，但需要记住，这是与之前自管理的不稳定基础设施相比的结果。

亮点：Agent基础设施管理负担的实质性减少

我亲自运营这个博客的自动化系统，深切体会到Agent会话管理有多繁琐。防范会话意外断开、上下文丢失、长时间任务静默失败的防御代码，往往比业务逻辑本身还要多。

如果Managed Agents真的能减轻这一负担——Sentry”数周内上线”的故事是真实的——那它的价值就很清晰了。

我曾在五种Agent工作流模式中介绍过编排器-子Agent结构。将这种结构运行在Managed Agents之上，意味着平台会处理原本需要自己编写的恢复逻辑和状态同步。

task_budget的方向也是对的。让模型在预算内自行确定优先级，通常比硬截断能产生更好的完成率。

不足之处：基准测试与实务的差距，以及隐性成本

但Opus 4.7发布24小时后，社区反馈开始涌入，我发现了令人不安的模式。

根据byteiota.com整理的开发者反馈，部分高级用户将Opus 4.7描述为”legendarily bad（传奇级别的糟糕）“。具体的不满集中在三点。

安全性过拟合：检测恶意代码的标准被调得过高，以至于普通的网络调用和标准库使用也被拒绝。在受控基准测试环境中，保守的判断反而提升了准确率，但在实际工作流中却造成了摩擦。

指令解读的僵化：比上一个版本更倾向于字面解读指令，优先遵守显式指令而非灵活推理。

输出风格变化：比起散文形式，更倾向于以项目符号整理。有人认为这是改进，也有人认为在创意性任务中是缺陷。

我最关注的问题另有其物——新分词器。Opus 4.7搭载了新分词器，对相同文本会使用比之前多1〜1.35倍的令牌。公布的价格没有变化，但实际成本最多可能上涨35%。

我曾在AI Agent运营成本的现实中分析过生产Agent的运营成本，分词器更换是需要完全重新计算预算模拟的重大变量。Anthropic没有在发布时明确提示这一点，理应受到批评。

成本现实：到底涨了多少

基于现有数据，按场景比较如下：

场景	Opus 4.6基准	Opus 4.7预估（令牌+25%）
简单问答（1K令牌）	$0.005	约$0.006
代码审查（10K令牌）	$0.05	约$0.063
长时间Agent（100K令牌）	$0.50	约$0.625

还需加上Managed Agents的会话成本（$0.08/小时）。一小时的Agent任务意味着在令牌费用之外再加$0.08。对于短批处理任务，这个代价较高；对于需要多小时运行的复杂任务，可能比自行管理基础设施的工程成本更低。

为什么现在要学task_budget

task_budget是本次发布中被最悄然埋没的功能。媒体报道了基准测试数字和Managed Agents的亮眼案例，但对于长期运营Agent的开发者来说，这个参数可能是最具实质意义的变化。

问题是这样的：运行复杂的重构Agent时，很难预测需要多长时间、会消耗多少令牌。max_tokens限制单个响应的长度，但无法控制多轮Agent循环的总成本。task_budget试图填补这个空白。

advisory机制的设计很有意思——不是在到达限制时强制停止，而是让模型在预算接近上限时自动调整优先级，跳过优先级较低的探索，专注于核心任务。

Managed Agents改变了什么开发流程

最初听到Managed Agents时，我以为”不过就是Claude API加个沙箱”。仔细阅读文档后改变了想法。

最大的变化是状态管理。自己运营Agent会话时，会不断遇到三个问题：工具调用链中的上下文丢失；会话意外终止后的重启成本；让Agent访问GitHub、数据库或外部API时的凭证安全问题。Managed Agents在平台层面处理这三个问题。

Sentry”数周内上线”的故事也许并不夸张——有些团队自己构建这个基础设施层要花费数月时间。

值得指出的局限：只能使用Claude模型。同时运营多供应商Agent集群的团队，会在没有干净退出路径的情况下积累对Anthropic的依赖。

谁适合使用Opus 4.7，谁不适合

综合社区反馈和官方文档，使用适配性相当清晰。

Opus 4.7发挥价值的场景：复杂的多文件重构、全代码库分析Agent、遗留系统迁移、测试覆盖率自动扩展。需要长时间运行并且真正受益于深度推理的任务。高分辨率图像工作流。

应避免使用Opus 4.7的场景：日常编程辅助任务。让它”修复这个类型错误”或”重构这个函数”是浪费——Claude Sonnet 4.6更快，成本也更低。安全过滤可能导致意外拒绝的工作流。需要灵活推理而非字面解读的创意写作任务。

四月发布的更大图景

将四月Anthropic的发布作为一个整体来解读很有意思。上个月性能下降争议令社区信任动摇，Anthropic一个月后带着基准测试数字和新基础设施服务回来了。

但开发者的反应正在向”基准测试不如实际表现重要”的方向成熟。SWE-bench Pro再高，也不保证在你的具体代码库上表现良好，高级用户的”legendarily bad”反馈难以忽视。

我的结论：Opus 4.7在编程基准测试上是明确的改进，但我不会立即全面迁移，直到安全过拟合的报告更加明朗。task_budget和xhigh是我想立即实验的工具。Managed Agents是新项目从零开始时的默认基础设施选择，但不值得将现有稳定系统迁移过去。新分词器的成本影响需要每个团队自行计算。

一个月内，Anthropic在模型层和基础设施层同时回答了”如何构建Agent”这个问题。答案还不完美，但问题本身是对的。

可执行性判断（Source Review依据）

本文中的task_budget代码示例和Managed Agents功能描述，基于platform.claude.com/docs官方文档和发布说明编写。由于没有Anthropic API密钥，无法直接配置执行环境，因此task_budget的actual advisory行为和会话账单机制未经直接验证。所有内容均基于”文档设计和公开案例”作出判断，特此说明。

Anthropic四月双重发布 — Opus 4.7与Managed Agents如何改变Agent开发

Opus 4.7实际改变了什么

Managed Agents有何不同

亮点：Agent基础设施管理负担的实质性减少

不足之处：基准测试与实务的差距，以及隐性成本

成本现实：到底涨了多少

为什么现在要学task_budget

Managed Agents改变了什么开发流程

谁适合使用Opus 4.7，谁不适合

四月发布的更大图景

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

Opus 4.7实际改变了什么

Managed Agents有何不同

亮点：Agent基础设施管理负担的实质性减少

不足之处：基准测试与实务的差距，以及隐性成本

成本现实：到底涨了多少

为什么现在要学task_budget

Managed Agents改变了什么开发流程

谁适合使用Opus 4.7，谁不适合

四月发布的更大图景

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

相关文章

亲测Claude Managed Agents — 无需基础设施，30分钟部署AI智能体

Anthropic悄悄降低Claude性能的争议——权力用户反弹的真实背景

AI Agent成本 vs 人工成本的现实：8体运营者的真实分析