Claude在Firefox中发现22个CVE——AI安全审计新范式

两周、6,000个C++文件、22个CVE

2026年3月6日，Anthropic与Mozilla联合发布了利用AI模型进行浏览器安全审计的成果。Claude Opus 4.6对Firefox的C++代码库约6,000个文件进行了分析，共提交了112份独立Bug报告，其中22个被正式注册为CVE。

严重程度分类如下：

严重程度	数量	占比
High	14个	63.6%
Moderate	7个	31.8%
Low	1个	4.5%

14个高严重度漏洞约占2025年全年Firefox已修补高严重度漏洞的五分之一。所有漏洞均已在Firefox 148中完成修补。

AI发现了Fuzzing遗漏的问题

Firefox是一个经历了数十年模糊测试（Fuzzing）、静态分析（Static Analysis）以及定期安全审查的项目。然而Claude仍然能够发现新漏洞，其原因值得深入探讨。

graph TD
    subgraph 传统方法
        F[模糊测试] --> R1[随机输入生成]
        R1 --> C1[崩溃检测]
        C1 --> B1[输入边界Bug]
    end
    subgraph AI方法
        AI[Claude] --> R2[代码语义分析]
        R2 --> C2[逻辑错误检测]
        C2 --> B2[设计层面Bug]
    end
    B1 -.->|部分重叠| B2

核心差异在于检测目标的性质：

模糊测试：通过随机输入触发崩溃的方式，擅长发现输入验证缺失和缓冲区溢出等模式。
AI代码分析：理解代码的语义和上下文，检测逻辑错误。能够发现Fuzzing难以捕获的逻辑错误（Logic Errors）和Use After Free等复合型内存漏洞。

根据Mozilla官方公告，Claude”在数十年的模糊测试和静态分析之后，仍然发现了大量此前未知的Bug”。尤其值得关注的是，在开始探索JavaScript引擎仅20分钟后就发现了一个Use After Free漏洞。

112份报告的质量——Mozilla为何信任AI

比起单纯的”发现N个漏洞”，更重要的是报告的质量。Mozilla安全团队之所以能够迅速接受Anthropic的成果，有三个关键原因：

最小复现测试用例（Minimal Test Case）：每个Bug都附带了可复现的最小代码
详细的PoC（Proof of Concept）：具体说明漏洞如何被利用的场景
候选补丁（Candidate Patches）：包含修复方案的完整报告

得益于这种结构化的报告，Mozilla安全团队在收到报告后数小时内即完成验证并着手修复。安全审计中最大的瓶颈——“报告分诊（Triage）“时间被大幅缩短。

漏洞利用与检测——AI的当前定位

值得注意的是，Anthropic还单独测试了Claude的漏洞利用开发能力：

项目	结果
测试次数	数百次
API成本	$4,000
成功的Exploit	2个

漏洞检测能力与漏洞利用开发能力之间存在巨大差距。AI在阅读代码并识别潜在问题方面表现出色，但编写实际攻击代码仍然困难。这一不对称性对防御方有利，意味着安全团队拥有优先将AI用于防御而非攻击的时间窗口（Window of Opportunity）。

面向EM/CTO的实战启示

以下整理了该案例对工程管理者的关键启示。

1. AI安全审计引入路线图

graph TD
    P1["Phase 1<br/>试点"] --> P2["Phase 2<br/>自动化"]
    P2 --> P3["Phase 3<br/>集成"]

    P1 --- D1["筛选高风险模块<br/>执行AI分析<br/>验证结果"]
    P2 --- D2["集成CI/CD流水线<br/>按PR自动扫描<br/>构建告警体系"]
    P3 --- D3["集成安全仪表盘<br/>趋势分析<br/>定期审计自动化"]

Phase 1（试点，1~2周）：

从遗留代码中筛选安全敏感模块（认证、支付、数据处理）
使用LLM代码分析工具执行一次性审计
由现有安全团队验证结果，评估可信度

Phase 2（自动化，1~2个月）：

在CI/CD流水线中添加AI安全扫描步骤
针对PR级别的代码变更进行自动分析
构建Slack/邮件告警体系

Phase 3（集成，按季度）：

将AI审计结果集成到安全仪表盘
漏洞趋势分析与风险评分
按季度对整个代码库进行自动审计

2. 成本效益对比

基于Anthropic的案例进行估算：

项目	传统方式	AI审计
所需时间	数周~数月	2周
专业人员	高级安全工程师2~3名	AI + 验证人员1名
覆盖范围	基于抽样	全量代码库（6,000文件）
报告质量	专家水平	含测试用例 + PoC + 补丁

当然，AI审计并不能完全替代人类专家。最优方案是AI进行初筛，人类专家负责验证和优先级判断的混合模式。

3. 组织引入时的注意事项

代码保密性：需要审视向外部AI API传输代码的安全策略。考虑采用本地化部署模型或零数据留存API合同
误报（False Positive）管理：112份报告中22个被注册为实际CVE（约20%），其余为低严重度Bug或误报，分诊流程不可或缺
与现有工具的集成：制定与SAST（静态分析）、DAST（动态分析）、SCA（软件成分分析）等现有AppSec流水线的协同策略
合规要求：审视AI安全审计结果在SOC 2、ISO 27001等合规框架中作为证据使用的方案

更广阔的视野——AI AppSec的未来

此次案例并非孤立事件，而是AI驱动安全审计逐步成为行业标准这一趋势的一部分：

Google Project Zero已在开展基于LLM的漏洞检测研究
GitHub Copilot的安全审查功能持续增强
NIST的AI Agent安全标准也包含了将AI作为安全工具使用的指南

对EM/CTO而言，核心问题已不是”是否引入AI安全审计”，而是”何时、以何种顺序引入”。如果在Firefox这样经过数十年验证的代码库中AI都能发现新漏洞，那么你的代码库又会如何呢？

核心摘要

项目	内容
主体	Anthropic (Claude Opus 4.6) x Mozilla
周期	2周（2026年2月）
范围	Firefox C++代码库6,000个文件
成果	112份报告 → 22个CVE（高严重度14个）
核心优势	检测Fuzzing遗漏的逻辑错误
报告质量	含最小复现代码 + PoC + 候选补丁
修补状态	已在Firefox 148中全部修补

Reading Complete!

Claude在Firefox中发现22个CVE——AI安全审计新范式

两周、6,000个C++文件、22个CVE

AI发现了Fuzzing遗漏的问题

112份报告的质量——Mozilla为何信任AI

漏洞利用与检测——AI的当前定位

面向EM/CTO的实战启示

1. AI安全审计引入路线图

2. 成本效益对比

3. 组织引入时的注意事项

更广阔的视野——AI AppSec的未来

核心摘要

参考资料

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

Reading Complete!

两周、6,000个C++文件、22个CVE

AI发现了Fuzzing遗漏的问题

112份报告的质量——Mozilla为何信任AI

漏洞利用与检测——AI的当前定位

面向EM/CTO的实战启示

1. AI安全审计引入路线图

2. 成本效益对比

3. 组织引入时的注意事项

更广阔的视野——AI AppSec的未来

核心摘要

参考资料

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

相关文章

Cursor Agent Trace — 追踪AI生成代码的开放标准正式登场

RoguePilot — GitHub Copilot 提示注入漏洞与 AI 编码工具安全策略

Anthropic Agent Skills实战指南：从实现到ROI