AI自我生成的技能毫无意义 — 颠覆LLM自我改进神话的实证研究
SkillsBench实证研究表明AI代理的技能自动生成实际上毫无帮助。在7,308条轨迹中,自我生成技能的效果为零,而人工策划技能提升了16.2个百分点。
概述
“AI创造更好的AI”——self-play、self-improvement范式是AI行业最具吸引力的叙事之一。然而,最新研究SkillsBench(arXiv:2602.12670)正面反驳了这一神话。
在11个领域、86个任务、7种代理模型配置、7,308条轨迹的大规模实验中:
- 人工策划的技能:平均+16.2pp性能提升
- AI自我生成的技能:零效果(0pp)
换言之,LLM无法可靠地编写它们消费后能受益的程序性知识。
什么是Agent Skill
研究中定义的Agent Skill是在推理时注入LLM代理的结构化程序性知识包。
Skills包结构
├── SKILL.md # 程序指南(工作流、SOP)
├── scripts/ # 可执行脚本
├── templates/ # 代码模板
└── examples/ # 参考示例
与现有方法的核心区别:
| 类型 | System Prompt | RAG | Few-shot | Skills |
|---|---|---|---|---|
| 结构化 | ✗ | ✗ | ✗ | ✓ |
| 程序性 | △ | ✗ | ✗ | ✓ |
| 可执行资源 | ✗ | ✗ | ✗ | ✓ |
| 可移植性 | ✗ | △ | △ | ✓ |
Claude Code的CLAUDE.md、Gemini CLI、Codex CLI等最新代理工具已采用此Skills概念。
实验设计:3种条件对比
SkillsBench在3种条件下评估同一任务:
graph LR
A[同一任务] --> B[No Skills<br/>基准线]
A --> C[Curated Skills<br/>人工策划]
A --> D[Self-Generated Skills<br/>AI自我生成]
B --> E[结果对比]
C --> E
D --> E
实验规模:
- 11个领域(软件工程、数据分析、医疗保健等)
- 86个任务(105位贡献者从322个候选中筛选)
- 7种代理模型配置(Claude Code、Gemini CLI、Codex CLI)
- 7,308条轨迹(全量评估)
所有评估均使用确定性验证器(deterministic verifier)判定pass/fail,消除了LLM-as-judge的偏差。
核心发现1:策划技能是有效的
人工策划的技能显示平均+16.2pp的性能提升。但领域间差异极大:
| 领域 | 性能提升 |
|---|---|
| 医疗保健 | +51.9pp |
| 数据分析 | 较高提升 |
| 软件工程 | +4.5pp |
| 部分任务(16/84) | 负值 |
84个任务中有16个任务的技能反而降低了性能,这一点至关重要。技能并非万能。
核心发现2:自我生成技能毫无意义
这是本研究最令人震惊的结果。
当让LLM”自己编写技能来更好地执行此任务”,然后使用这些技能时:
“Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming.”
自我生成技能的平均效果为0pp。某些情况下甚至有害。
graph TD
subgraph "Self-Improvement 神话"
A[LLM生成技能] --> B[应用生成的技能]
B --> C[性能提升?]
C -->|实际结果| D[无效果 ❌]
end
subgraph "实际有效的方法"
E[人工策划技能] --> F[应用策划技能]
F --> G[平均 +16.2pp ✓]
end
这是对self-play/self-improvement万能论的有力反证。模型擅长消费外部提供的程序性知识,但缺乏生产有用程序性知识的能力。
核心发现3:少即是多
另一个重要发现涉及技能的规模:
由2-3个模块组成的集中技能比综合文档更有效
小而精的技能包比庞大的手册更能提升性能。这可能与LLM的上下文窗口利用效率有关。
此外,小模型 + 技能 ≈ 大模型(无技能)的结果也值得关注。配备适当技能的小型模型可以匹敌大型模型的基准性能。
实践启示
这项研究对使用AI代理的从业者传达了明确信息:
1. 重新审视技能自动生成流程
“AI生成并改进自己的技能”这一方法在当前阶段无效。人类专家的策划仍然不可或缺。
2. 技能要小而集中
2-3个模块的核心技能比庞大的文档集更有效。简洁地编写CLAUDE.md聚焦核心工作流比写数百行要好。
3. 认识领域间的效果差异
医疗保健(+51.9pp)和软件工程(+4.5pp)之间的差距超过10倍。在模型已经擅长的领域,技能的边际效用较低。
4. 认识到技能可能有害
84个任务中有16个任务的技能降低了性能。错误的技能还不如没有技能。
技术分析:为什么自我生成会失败
论文未直接提供原因分析,但可以推断以下结构性原因:
元认知的局限:LLM无法准确评估”自己不知道什么”。它们缺乏诊断自身需要哪些程序性知识的能力。
通用知识 vs 程序性知识:LLM的预训练数据偏向声明性(declarative)知识。它们学习”是什么”比”怎么做”更好。
不可验证性:模型无法验证自我生成技能的质量。策划技能经过了人类专家的验证。
结论
SkillsBench作为首个AI代理技能系统性基准测试,为”AI自我改进”这一诱人叙事提供了冷静的数据。
核心信息很简单:
- ✅ 人工创建的技能有效(+16.2pp)
- ❌ AI创建的技能无效(0pp)
- ✅ 小而集中的技能优于庞大文档
- ✅ 小模型 + 好技能 ≈ 大模型
self-improvement的梦想很诱人,但当前的LLM尚未达到那个水平。人类的领域专业知识和策划仍然不可替代。
参考资料
- SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks — Xiangyi Li et al., 2026
- Anthropic Claude Code Skills Documentation
- Harbor Framework — 代理基准测试框架
阅读其他语言版本
- 🇰🇷 한국어
- 🇯🇵 日本語
- 🇺🇸 English
- 🇨🇳 中文(当前页面)
这篇文章有帮助吗?
您的支持能帮助我创作更好的内容。请我喝杯咖啡吧!☕