PrismML Bonsai — 1.15GB的8B模型，真的可行吗？

上周五，一家名为PrismML的隐身创业公司携$16.25M种子轮融资正式亮相。团队由Caltech研究人员创立，带来的是一个名为Bonsai的1-bit LLM系列。8B参数模型，体积仅1.15GB。单看数字，感觉哪里不对劲。

通常情况下，8B模型以FP16格式存储需要约16GB显存。即便进行Q4量化，也至少需要4～5GB。但1.15GB？比原来小14倍——核心问题是：这样的模型质量真的能用吗？

先说清楚什么是1-bit

这个名字容易引起误解。“1-bit”听起来像是只用0和1，但实际上是将权重表示为{-1, +1}两个值——仅一个符号位。乘法消失了，只剩加法和减法。矩阵乘法（MatMul）实际上被位运算替代，计算量因此大幅下降。

这个思路本身并不新鲜。Microsoft Research的BitNet论文2023年就发表了，2024年BitNet b1.58以三值（{-1, 0, +1}）方式发布了后续研究。PrismML的贡献在于将这一思路落地为真正可用的模型。

已公开的模型阵容

PrismML发布了三款模型：

Bonsai 8B — 1.15GB，目标达到Llama 3 8B级别的性能
Bonsai 4B — 0.5GB，面向轻量任务
Bonsai 1.7B — 0.24GB，仅240MB，树莓派也能跑

根据HPCwire的报道，与全精度相比，体积缩小14倍，速度提升8倍，能效提升5倍。部分benchmark细节尚未公开，这一点还需持续观察。

我持保留态度的地方

这项技术令我感兴趣，但有几点目前仍不明朗。

第一，benchmark数据不足。 “达到Llama 3 8B级别性能”这一说法频繁出现，但在MMLU、HumanEval等标准benchmark上的对比有限。1-bit量化带来多少质量损失，尤其是在推理（reasoning）任务上的下降幅度，目前缺乏说明。拿到$16M种子融资的公司还在藏着benchmark数据，这不是好兆头。

第二，“1-bit就够用”的任务范围可能相当有限。 简单分类、情感分析、基础摘要应该没问题。但在复杂多轮对话或代码生成场景中，1-bit模型凭什么胜过Q4量化模型？体积小是明显优势，但为此牺牲了什么，目前还不够透明。

但方向本身是对的

说了这些保留意见，我仍然认为这个方向是正确的。

当前LLM生态最大的瓶颈是GPU显存。想在本地运行模型，受VRAM限制不得不量化，还不够就只能换更小的模型。1.15GB从根本上绕过了这个瓶颈。M1 MacBook Air的统一内存可以轻松运行，甚至智能手机上也可行。

恰好Google在前天（4月7日）发布了LiteRT-LM——一款面向边缘设备的LLM推理框架，支持Android、iOS、Web、桌面和IoT，并提供GPU/NPU加速。PrismML这类超轻量模型与LiteRT-LM这样的runtime结合，“离线运行的LLM”就不只是demo，而是真正有望落地的产品组合。

我个人最期待的是隐私保护场景。医疗数据或内部文档无需上传云端、直接在设备端处理——这意味着在监管严格的行业，LLM落地最大的壁垒将被消除。

接下来需要验证的问题

等Bonsai模型上架Hugging Face，我打算亲自跑一遍。最想确认的几点：

与相同体积的Q4_K_M量化模型（例如Phi-3 mini 3.8B）相比，质量如何？
在韩语、日语等非英语语言上性能下降多少？
是否支持fine-tuning？如果支持，1-bit权重中梯度如何传播？

我不认为1-bit LLM会取代通用模型。但如果”这个质量就够用”的use case比预想的多，模型部署的基本前提可能就会改变。不再是一次云端API调用几十毫秒的延迟，而是设备端几毫秒响应的世界——如果1.15GB就能实现，不可忽视。

PrismML正式公开benchmark数据的那一刻，才是真正做出判断的分水岭。

Reading Complete!

PrismML Bonsai — 1.15GB的8B模型，真的可行吗？

先说清楚什么是1-bit

已公开的模型阵容

我持保留态度的地方

但方向本身是对的

接下来需要验证的问题

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

Reading Complete!

先说清楚什么是1-bit

已公开的模型阵容

我持保留态度的地方

但方向本身是对的

接下来需要验证的问题

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

相关文章

2026年2月AI模型大爆发：7大模型同月发布的史上最激烈竞争

Gemini 3.1 Pro发布 — Google下一代模型性能分析与Claude对比

KaniTTS2 — 仅需3GB VRAM即可实现语音克隆的开源TTS模型