MiniMax M2.5 — 开源权重与闭源模型的性能差距达到历史最低
MiniMax M2.5在SWE-Bench Verified上达到80.2%,超越Claude Opus 4.6。我们通过全面的基准测试数据,分析开源权重模型与闭源模型之间性能差距快速缩小的现状。
开源权重模型的反击已经开始
2026年2月,AI行业迎来了震撼消息。中国AI初创公司MiniMax发布的MiniMax M2.5在编码、智能体任务、搜索等多项基准测试中超越了闭源模型的分数。
该消息在Reddit r/LocalLLaMA上获得了362分以上的关注,“开源权重模型终于追上了闭源模型”的讨论日趋活跃。本文将详细分析M2.5的具体性能数据以及开源vs闭源模型的格局变化。
MiniMax M2.5 主要规格
MiniMax M2.5是一个229B参数的开源权重模型,可从HuggingFace自由下载。
- 参数量:229B(MoE架构)
- 训练方式:在20万+真实环境中进行强化学习(RL)
- 推理速度:100 tokens/秒(Lightning版本)
- 支持语言:Go、C、C++、TypeScript、Rust、Python、Java等10+种
- 部署支持:SGLang、vLLM、Transformers、KTransformers
基准测试对比:与闭源模型的差距几乎为零
SWE-Bench Verified(编码)
SWE-Bench Verified衡量解决真实GitHub Issue的能力。
| 模型 | 得分 | 类型 |
|---|---|---|
| MiniMax M2.5 | 80.2% | 开源权重 |
| Claude Opus 4.6 | — | 闭源 |
| MiniMax M2.1 | — | 开源权重 |
不同Agent harness下的测试结果同样引人注目:
- Droid harness:M2.5(79.7%)> Opus 4.6(78.9%)
- OpenCode harness:M2.5(76.1%)> Opus 4.6(75.9%)
在所有环境中,开源权重模型都以微弱优势领先闭源模型——这是历史性的结果。
Multi-SWE-Bench(多仓库)
在跨多个仓库的任务中达到51.3%,在更复杂的实际场景中也展现了优秀的性能。
BrowseComp(搜索与工具使用)
在衡量网页搜索和工具调用能力的BrowseComp上,M2.5以76.3%(含上下文管理)达到行业领先水平。
成本革命:不仅是性能,价格上也占据压倒性优势
M2.5的冲击不仅在于性能,性价比更是完全不同的级别。
| 项目 | M2.5 Lightning | M2.5 Standard |
|---|---|---|
| 输入价格 | $0.3/百万tokens | $0.15/百万tokens |
| 输出价格 | $2.4/百万tokens | $1.2/百万tokens |
| 推理速度 | 100 TPS | 50 TPS |
| 1小时连续运行成本 | $1.0 | $0.3 |
与Claude Opus、Gemini 3 Pro、GPT-5相比,输出token单价仅为十分之一到二十分之一。
M2.5为何能如此快速进化
大规模强化学习(RL Scaling)
MiniMax自主开发了名为Forge的Agent原生RL框架。
graph TD
A[Forge RL框架] --> B[20万+真实环境]
A --> C[CISPO算法]
A --> D[过程奖励机制]
B --> E[编码环境]
B --> F[搜索环境]
B --> G[办公环境]
C --> H[MoE模型稳定训练]
D --> I[长上下文质量监控]
E & F & G --> J[M2.5]
H & I --> J
关键技术亮点:
- 异步调度优化:平衡系统吞吐量与样本离策略程度
- 树结构合并策略:训练样本合并实现约40倍训练加速
- CISPO算法:确保MoE模型大规模训练的稳定性
- 过程奖励:解决Agent rollout长上下文中的信用分配问题
Spec-Writing能力的涌现
M2.5的一个显著特点是,在编写代码之前像架构师一样进行设计和规划的能力在训练过程中自然涌现。模型会主动分解和规划项目的功能、结构和UI设计,然后再开始编码。
开源vs闭源格局的变化
历史性转折点
此前,AI行业有一个不言自明的共识:“最强性能的模型永远是闭源的”。然而M2.5的出现正在改变这一局面。
graph LR
subgraph 2024年
A[闭源<br/>压倒性优势] --> B[开源<br/>大幅落后]
end
subgraph 2025年下半年
C[闭源<br/>略有优势] --> D[开源<br/>追赶]
end
subgraph 2026年初
E[闭源<br/>持平] --- F[开源<br/>部分反超]
end
对企业的意义
- 避免厂商锁定:如果开源权重模型能提供前沿性能,就可以减少对特定API供应商的依赖
- 定制自由:可以用自有数据进行微调和领域特化
- 成本优化:通过自托管控制成本;即使使用M2.5的API也只需1/10~1/20的成本
- 数据隐私:无需将敏感数据发送给外部供应商
M2系列的快速进化
仅3.5个月(2025年10月底至2026年2月),MiniMax就发布了M2、M2.1、M2.5三代产品。
| 版本 | 发布时间 | SWE-Bench改进 | 亮点 |
|---|---|---|---|
| M2 | 2025年10月底 | 基线 | HuggingFace 450K下载 |
| M2.1 | 2025年12月 | 大幅改进 | 86.7K下载 |
| M2.5 | 2026年2月 | 80.2% SOTA | 37%加速,成本1/10 |
内部实际应用
MiniMax在自身组织中积极使用M2.5:
- 全公司30%的任务由M2.5自主完成
- 覆盖研发、产品、销售、人力资源和财务
- 80%的新提交代码由M2.5生成
总结:三个关键要点
-
性能差距消失:开源权重模型在SWE-Bench上超越了闭源模型。这不是偶然现象,而是结构性变革的开始
-
成本革命:M2.5以Opus十分之一到二十分之一的成本提供同等甚至更优的性能。“不用担心成本的前沿模型”已经成为现实
-
选择扩大:企业不再需要默认选择闭源模型。通过开源权重模型实现自托管、定制和成本优化已成为实际可行的选项
参考资料
阅读其他语言版本
- 🇰🇷 한국어
- 🇯🇵 日本語
- 🇺🇸 English
- 🇨🇳 中文(当前页面)
这篇文章有帮助吗?
您的支持能帮助我创作更好的内容。请我喝杯咖啡吧!☕