Claude Opus 4.8 Dynamic Workflows 深度解析

Claude Opus 4.8 Dynamic Workflows 深度解析

1000个并行子智能体与Fast Mode如何改变AI智能体开发工作流。基于官方文档与真实案例,直接梳理架构、成本与局限性。

五月中旬,Anthropic 发布了 Claude Opus 4.8。SWE-bench Pro 69.2%、百万 token 上下文窗口,以及两项新功能:Dynamic Workflows 和 Fast Mode。我从发布当天就开始读文档、跑代码,期待达到的地方和感到失望的地方都相当清晰。

这篇文章整理的是那些判断背后的依据。不是功能宣传稿,而是聚焦于”这东西到底能用吗、适合哪些场景、不适合哪些场景”。

核心评估:真正改变了什么

一句话总结:把编排逻辑从上下文窗口里拿了出来。

为什么这很重要?过去的多智能体方案里,负责协调的 Claude 要在上下文里追踪”先让这个子智能体干活,拿到结果再让下一个干”。子智能体超过 10 个,所有输出都要塞进上下文,token 成本呈爆炸式增长,中途某个环节失败就得从头再来。

Dynamic Workflows 把编排逻辑抽成 JavaScript 脚本。Claude 写好脚本,运行时在后台执行。中间结果存在脚本变量里,不堆在 Claude 的上下文窗口里。最终只有结果回到上下文。

这种结构变化带来了实质性的规模差异。按官方文档,最多支持 16 个并发智能体,单次执行最多 1000 个智能体总量。试着算一下把 1000 个智能体的结果全塞进上下文要花多少,就能立刻理解这个差距。

Dynamic Workflows 的结构与工作方式

官方文档的定义是这样的:“Dynamic Workflow 是一段大规模编排子智能体的 JavaScript 脚本。Claude 根据你描述的任务编写脚本,运行时在保持会话可响应状态的同时在后台执行。”

激活方式有三种。

第一,在提示词中包含 “workflow” 关键词。Claude Code 检测到这个词就会自动进入脚本编写模式。如果不是本意,可以用 alt+w 抑制。

第二,使用 /effort ultracode 命令。同时赋予 xhigh 推理力度和工作流自动执行权限。在这个模式下,Claude 会对每个任务自行判断”是否需要工作流”再执行。一个请求可能触发连续的多个工作流。

第三,内置的 /deep-research 命令。这是一个内置工作流,会扇出网络搜索、交叉验证来源、用投票方式汇总结果,最后返回带引用的报告。

会话生命周期有一个重要限制。恢复(resume)功能仅在同一个 Claude Code 会话内有效。关掉编辑器重新打开就要从头开始。已完成的智能体结果会被缓存复用,但状态不会跨会话保留。如果要处理长时间运行的大型工作流,这一点需要提前考虑。

沙箱限制也值得注意。工作流脚本本身无法直接访问文件系统或 shell。读写文件、执行命令是智能体的职责,脚本只负责协调智能体。这个边界比预想的要严格,在工作流脚本里直接尝试文件操作会被拦住。

Mid-Conversation System Message:被低估的 API 变更

我认为这个变更的重要性不亚于 Dynamic Workflows。

Opus 4.8 之前,系统提示固定在对话起点。对话开始后想给协调者追加”现在授权并行运行子智能体”的指令,要么开新对话,要么提前写在顶层系统提示里。

Opus 4.8 的 Messages API 允许在 messages 数组中间插入 system 类型条目。这意味着可以在对话进行中途注入新的指令或权限。

messages_with_injection = [
    {"role": "user", "content": "帮我规划14个服务的认证模块重构方案。"},
    {"role": "assistant", "content": orchestrator.content[0].text},
    {"role": "system", "content": "现在你有权限生成并行工作智能体。最多同时运行16个子智能体,将每个工作智能体的范围限定在单个服务目录。"},
    {"role": "user", "content": "按照方案扇出到各工作智能体执行。"},
]

这种方式的实用优势在于不会破坏提示词缓存。修改顶层系统提示会使缓存失效导致成本飙升,而 mid-conversation 注入可以绕开这个问题。考虑到长时间智能体执行中缓存命中率对成本影响很大,这个差异不算小。

Claude Agent SDK 子智能体编排实战指南 中介绍的现有并行处理模式对比,可以看出这个变更多自然地扩展了那些模式。

Fast Mode:数字背后的现实

Fast Mode 是一个将输出 token 每秒速度(OTPS)最高提升至标准模式 2.5 倍的选项。官方文档强调的是,这个速度提升作用于 OTPS,而非 TTFT(首 token 延迟)。响应开始的时间并不会变快,而是已经在流式传输的响应走得更快。

看价格:

输入(每百万 token)输出(每百万 token)
Opus 4.8 标准$5$25
Opus 4.8 Fast Mode$10$50
Opus 4.7 Fast Mode$30$150

从 Opus 4.7 升到 Opus 4.8,Fast Mode 的价格降到了三分之一。虽然仍是标准模式的两倍,但与上一代 Fast Mode 相比这个数字确实有意义。结合 Opus 4.7 与 Managed Agents 成本分析 里讨论过的按任务成本结构来看,判断在哪个环节接入 Fast Mode 会更直观。

使用方法很简单:

import anthropic
client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    speed="fast",
    betas=["fast-mode-2026-02-01"],
    messages=[
        {"role": "user", "content": "帮我把这个模块重构成依赖注入的方式"}
    ],
)

在响应对象中可以用 response.usage.speed 确认实际生效的速度模式。

使用环境有限制。Fast Mode 只在 Claude API(包括 Managed Agents)上可用。Amazon Bedrock、Google Vertex AI、Microsoft Foundry 均不支持。需要联系客户经理或在 claude.com/fast-mode 排队申请,Batch API 和 Priority Tier 也不可用。这对企业基础设施的选择构成限制。

可行性判断:该用在哪、不该用在哪

坦率地说,基于文档和公开示例来看,Dynamic Workflows 真正发挥效果的场景相当具体。

适合使用的情况:

代码库全量安全审计是典型案例。对于”审计 src/routes/ 下所有 API 端点是否缺少认证”这类请求,并行智能体各自独立检查每个文件,对抗性智能体交叉验证结果的模式,可以产出比单个智能体更可信的结果。

大规模迁移同样适合。Bun 的创始人 Jarred Sumner 公开了用 Dynamic Workflows 将 Bun 运行时从 Zig 迁移到 Rust 的案例,11 天写了约 75 万行 Rust 代码,原有测试套件通过率 99.8%。数百个智能体按文件并行作业,审查智能体每份文件配两名审阅者,自动循环执行构建/测试通过流程。

五种智能体工作流模式 里的分类来看,Dynamic Workflows 是把”并行模式”和”自主模式”的组合进行了代码化。

不适合使用的情况:

单个智能体就能解决的任务用 Dynamic Workflows 是过度设计。即使任务可以分解,如果并行化没有实际收益,只是在浪费 token。严格顺序依赖的任务,即每个步骤都依赖上一步结果的,也是如此,并行智能体不会带来额外价值。

对成本敏感的环境要格外注意。1000 个智能体以 Opus 4.8 标准费率(每百万 token $5/$25)运行,根据每个智能体平均消耗多少,单次执行费用可能相当可观。执行工作流前,用 /model 命令确认当前配置,把子智能体范围限得紧一些,不需要强力模型的步骤换更小的模型,这些都很重要。

不足与已知问题

坦率地说,发布文档里有几个让我不舒服的地方。

提示词注入抵抗性退步。Opus 4.7 的 Gray Swan 攻击成功率是 6.0%,Opus 4.8 是 9.6%。在智能体环境中处理外部输入时,这个数字的含义不容小觑。特别是 Dynamic Workflows 中智能体处理外部内容的场景,需要额外的沙箱防护。

两个已知 bug。工作流中途提前终止的问题,以及智能体上下文中过度删除文件的问题,在官方文档中均有明确记载。能以”已知问题”承认说明团队知情,但在投入生产流水线之前,需要确认这两项是否已修复。

Fast Mode 访问受限。不支持 Bedrock/Vertex/Foundry 与现有企业基础设施投资存在冲突。如果需要把 Fast Mode 使用场景路由到直接 API 调用,架构会变得复杂。

xhigh 默认值下调。Opus 4.8 的默认推理力度比 Opus 4.7 低一个档位。high 是默认值,xhigh 需要显式设置。Anthropic 解释称”编码场景下默认 HIGH 以相近 token 量获得比 4.7 更好的性能”,但从 4.7 迁移到 4.8 的流水线需要验证行为变化。

多语言任务。文档明确指出 Gemini 3.1 Pro 和 GPT-5.5 在这方面领先。以韩语、日语等非英语场景为主的流水线需要考虑这一点。

成本结构与实际影响

AI智能体成本的现实 中的框架来分析,Dynamic Workflows 的成本结构由”token 量 × 智能体数量”主导。

工作流运行时本身没有额外费用。只是子智能体消耗的 token 按标准 Opus 4.8 费率计费。问题在于接近 1000 个智能体上限的执行中,每个智能体的上下文规模会有多大。

官方指南给出的四条成本控制原则:

  • 保持子智能体范围紧凑
  • 简单子任务使用 mediumlow 推理力度
  • 对每个工作智能体的 max_tokens 设置上限
  • 不需要强力模型的步骤替换成更小的模型

这些原则如果不自然地落实,单次工作流执行超预算的情况就会发生。尤其是在 ultracode 模式下 Claude 自主连续触发多个工作流时更甚。

将其与 用 AWO 框架优化智能体工作流的方法 结合,即把重复工具调用编译成元工具来减少 LLM 调用的方式,有空间从结构层面降低 Dynamic Workflows 的成本。

适合哪些团队

从当前时间点来看,可以把能立刻实战使用 Dynamic Workflows 的团队和需要观望的团队分开来看:

可以立即使用的情况:

  • 针对整个代码库的一次性大型审计(安全、性能、模式检查)
  • 数百个文件以上的迁移作业,需要通过并行处理缩短时间
  • 研究或分析任务中独立来源的交叉验证直接影响可信度的场景
  • 已安装 Claude Code v2.1.154 及以上,使用 Pro/Max/Team/Enterprise 计划

需要再等等看的情况:

  • 企业基础设施基于 Bedrock/Vertex/Foundry 且 Fast Mode 很重要的情况
  • 以多语言处理为核心功能的流水线
  • 处理存在提示词注入风险的外部内容的系统(已知退步 + 等待提前终止 bug 修复)
  • 需要严格成本预测的生产环境(工作流规模带来的成本波动性较大)

最终判断

我认为 Dynamic Workflows 确实有效。但适合的问题类型有限定。Bun 的 Zig-to-Rust 移植案例最清晰地展示了这个功能在什么时候有意义:“可并行化、独立验证能提升可信度、规模超出单个智能体范围的任务”。

实际测试发现,mid-conversation system message 注入是技术层面低调的变更,但在大规模智能体流水线设计上有实质影响。充分理解并加以利用的团队与没有的团队,实现复杂度的差距会随时间拉大。

Fast Mode 的降价是个令人欢迎的变化。价格降到上一代的三分之一,在合适的使用场景,即流式传输速度直接影响用户体验的场景,可以合理化标准模式两倍的成本。

已知的 bug(提前终止、过度删除文件)是目前就投入生产需要谨慎的理由。我实际跑过,工作流中途停住,从日志里搞清楚为什么停花了不少时间。这些问题解决后,评价可能会改变。

LangGraph、CrewAI、Dapr 等第三方框架对比,Dynamic Workflows 的定位是”在 Claude 生态内部、配合 Claude Code、可重复执行的大规模编排”。把它看作替代通用框架的方案不太准确,更贴切的理解是:在特定任务类型上,Claude 原生方案能带来的效率优势。

阅读其他语言版本

这篇文章有帮助吗?

您的支持能帮助我创作更好的内容。请我喝杯咖啡吧。

关于作者

jw

Kim Jangwook

AI/LLM专业全栈开发者

凭借10年以上的Web开发经验,构建AI代理系统、LLM应用程序和自动化解决方案。分享Claude Code、MCP和RAG系统的实践经验。

返回博客列表