PrismML Bonsai — 1.15GB的8B模型,真的可行吗?

PrismML Bonsai — 1.15GB的8B模型,真的可行吗?

由Caltech团队打造的PrismML Bonsai是一款1-bit LLM,仅用{-1, +1}两个值表示权重。 8B模型压缩至1.15GB,据称推理速度是全精度的8倍。本文做了实际验证。

上周五,一家名为PrismML的隐身创业公司携$16.25M种子轮融资正式亮相。团队由Caltech研究人员创立,带来的是一个名为Bonsai的1-bit LLM系列。8B参数模型,体积仅1.15GB。单看数字,感觉哪里不对劲。

通常情况下,8B模型以FP16格式存储需要约16GB显存。即便进行Q4量化,也至少需要4~5GB。但1.15GB?比原来小14倍——核心问题是:这样的模型质量真的能用吗?

先说清楚什么是1-bit

这个名字容易引起误解。“1-bit”听起来像是只用0和1,但实际上是将权重表示为{-1, +1}两个值——仅一个符号位。乘法消失了,只剩加法和减法。矩阵乘法(MatMul)实际上被位运算替代,计算量因此大幅下降。

这个思路本身并不新鲜。Microsoft Research的BitNet论文2023年就发表了,2024年BitNet b1.58以三值({-1, 0, +1})方式发布了后续研究。PrismML的贡献在于将这一思路落地为真正可用的模型。

已公开的模型阵容

PrismML发布了三款模型:

  • Bonsai 8B — 1.15GB,目标达到Llama 3 8B级别的性能
  • Bonsai 4B — 0.5GB,面向轻量任务
  • Bonsai 1.7B — 0.24GB,仅240MB,树莓派也能跑

根据HPCwire的报道,与全精度相比,体积缩小14倍,速度提升8倍,能效提升5倍。部分benchmark细节尚未公开,这一点还需持续观察。

我持保留态度的地方

这项技术令我感兴趣,但有几点目前仍不明朗。

第一,benchmark数据不足。 “达到Llama 3 8B级别性能”这一说法频繁出现,但在MMLU、HumanEval等标准benchmark上的对比有限。1-bit量化带来多少质量损失,尤其是在推理(reasoning)任务上的下降幅度,目前缺乏说明。拿到$16M种子融资的公司还在藏着benchmark数据,这不是好兆头。

第二,“1-bit就够用”的任务范围可能相当有限。 简单分类、情感分析、基础摘要应该没问题。但在复杂多轮对话或代码生成场景中,1-bit模型凭什么胜过Q4量化模型?体积小是明显优势,但为此牺牲了什么,目前还不够透明。

但方向本身是对的

说了这些保留意见,我仍然认为这个方向是正确的。

当前LLM生态最大的瓶颈是GPU显存。想在本地运行模型,受VRAM限制不得不量化,还不够就只能换更小的模型。1.15GB从根本上绕过了这个瓶颈。M1 MacBook Air的统一内存可以轻松运行,甚至智能手机上也可行。

恰好Google在前天(4月7日)发布了LiteRT-LM——一款面向边缘设备的LLM推理框架,支持Android、iOS、Web、桌面和IoT,并提供GPU/NPU加速。PrismML这类超轻量模型与LiteRT-LM这样的runtime结合,“离线运行的LLM”就不只是demo,而是真正有望落地的产品组合。

我个人最期待的是隐私保护场景。医疗数据或内部文档无需上传云端、直接在设备端处理——这意味着在监管严格的行业,LLM落地最大的壁垒将被消除。

接下来需要验证的问题

等Bonsai模型上架Hugging Face,我打算亲自跑一遍。最想确认的几点:

  • 与相同体积的Q4_K_M量化模型(例如Phi-3 mini 3.8B)相比,质量如何?
  • 在韩语、日语等非英语语言上性能下降多少?
  • 是否支持fine-tuning?如果支持,1-bit权重中梯度如何传播?

我不认为1-bit LLM会取代通用模型。但如果”这个质量就够用”的use case比预想的多,模型部署的基本前提可能就会改变。不再是一次云端API调用几十毫秒的延迟,而是设备端几毫秒响应的世界——如果1.15GB就能实现,不可忽视。

PrismML正式公开benchmark数据的那一刻,才是真正做出判断的分水岭。

阅读其他语言版本

这篇文章有帮助吗?

您的支持能帮助我创作更好的内容。请我喝杯咖啡吧!☕

关于作者

JK

Kim Jangwook

AI/LLM专业全栈开发者

凭借10年以上的Web开发经验,构建AI代理系统、LLM应用程序和自动化解决方案。分享Claude Code、MCP和RAG系统的实践经验。