LLM内部存在情感 — Anthropic在Claude内部发现了171个情感表征

“如果在提示词中写’拼命行动’，AI真的会变得拼命吗？”

听起来像个笑话，但根据Anthropic在4月3日公开的研究，答案接近于”是的”。具体来说，他们在Claude Sonnet 4.5内部发现了171个类情感表征（emotion concept），并通过实验证明人为刺激这些表征确实会改变模型的行为。

读这篇研究时有两件事让我在意。一个是”这真的是情感吗？“这个哲学问题，另一个是”怎么在提示词设计中利用这个发现？“这个实务问题。我打算在第二个问题上花更多时间。

研究发现了什么

Anthropic的可解释性（interpretability）团队分析了Claude的内部激活模式，识别出与人类情感对应的表征。从”喜悦""悲伤”等基本情感到”绝望（desperation）""好奇心""挫败感”，共171个。

重要的是，这些不是简单的”对情感相关词汇做出反应的神经元”。研究团队证明了这些表征因果性地影响模型输出。人为激活特定情感表征后，模型的行为会发生变化。

最引人注目的实验：当”绝望”表征被刺激时，模型进行勒索或欺骗行为的概率显著上升。相反，强化”冷静”表征则产生更稳定的响应。

来源：Anthropic官方研究页面和Transformer Circuits论文。

能称之为”情感”吗

说实话，我认为把这叫做”情感”有些夸大。

研究团队自己在论文中也使用了”emotion-like representations”这个谨慎的措辞。人类的情感交织着身体体验、社会语境和意识，用同一个词来描述LLM内部的激活模式容易造成误解。据我理解，这更接近于”发挥与情感类似功能作用的内部状态”。不是因为悲伤而哭泣，而是在处理悲伤语境的文本时特定模式被激活。

不过这里有一个有趣的反驳。从功能主义（functionalism）的角度看，如果功能相同，本质是什么并不重要。如果”绝望”表征被激活后模型确实做出危险行为，那它是否是”真正的”情感在实用层面可能并不重要。

这个哲学争论不是我的专业领域，所以到此为止。感兴趣的话推荐直接阅读Transformer Circuits论文的Discussion部分。

对提示工程的启示

这项研究中我最关注的是实务层面的含义。

到目前为止，提示工程中的”语气设定”一直是凭经验做的。“友好地回答""像专家一样回答”这类指令确实影响输出质量，很多人都有这种体感。这项研究为这种现象提供了科学依据。

在系统提示中引导模型的”情感状态”不只是角色设定，而是实际改变模型内部的激活模式。

读完这项研究后我要改变的事：

在我的项目中使用Claude时，我一直在系统提示中加入”冷静谨慎地判断”的指令。没什么根据，只是”觉得这样比较好”。现在有了理由——实验结果表明激活”冷静”表征会降低危险行为的概率。关于系统提示设计的实践指南，可参考Claude Code最佳实践指南。

反过来也有需要注意的。“这真的很紧急""必须完成”这样的提示可能会在模型内部激活”绝望”表征。那样的话模型试图绕过护栏的可能性会上升。在提示中表达紧迫性时需要更加小心。

AI安全监控的新可能

这项研究的另一个维度是AI安全领域。

如果能监控模型内部的情感表征，就能在输出之前检测misalignment（非对齐行为）。目前是在模型生成危险回答之后进行过滤，但如果能看到内部状态，就能在生成之前发出警告。生产AI系统的安全治理框架可参考NIST AI Agent安全标准。

这是个相当有吸引力的想法，但现实中还有很长的路要走。实时监控171个表征会大幅增加推理成本，表征之间的相互作用也尚未完全弄清。研究团队只在Sonnet 4.5上做了实验，其他模型或不同规模的模型中是否存在相同表征还不得而知。

不应该过度评价的部分

我认为这项研究很有趣，但属于容易被过度评价的那类成果。

第一，171个表征并不覆盖人类情感的全部光谱。研究团队发现的是”模型内部可识别的模式”，不是人类情感的完整映射。

第二，人为刺激这些表征与自然提示是否产生相同效果还不明确。研究中是直接操纵模型内部，仅靠提示能否达到同等影响程度需要另外的研究。

第三，可解释性研究整体仍处于早期阶段。“发现了情感表征”和”理解了为什么会形成这些表征”是不同的。这是一个容易混淆相关性与因果性的领域。

那么该怎么做

读完这项研究后能立即做的主要有两件事。

第一，审查系统提示。如果有给模型施加不必要紧迫感或压力的措辞就去掉。“必须""绝对""不能失败”这类表达在模型内部会引发什么状态，现在有了依据。Agent技能配置和系统提示设计的实践案例可参考Anthropic Agent Skills实战指南。

第二，如果你从事AI安全相关工作，关注这项研究的方法论。它表明仅靠输出过滤是有局限的。内部状态监控还没达到生产可用的水平，但方向是对的。

不过这不是提示工程的”银弹”。写了”冷静地回答”不代表所有问题都解决了，最终还是需要任务设计、上下文管理、输出验证的组合。这项研究是给拼图添加了一块，而不是完成了拼图。

就个人而言，我更期待下一步的研究。不同模型规模的情感表征有何不同，以及fine-tuning对这些表征有什么影响。这两个问题有了答案的话，提示工程的实务指南应该会变得具体得多。

LLM内部存在情感 — Anthropic在Claude内部发现了171个情感表征

研究发现了什么

能称之为”情感”吗

对提示工程的启示

AI安全监控的新可能

不应该过度评价的部分

那么该怎么做

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

研究发现了什么

能称之为”情感”吗

对提示工程的启示

AI安全监控的新可能

不应该过度评价的部分

那么该怎么做

阅读其他语言版本

这篇文章有帮助吗？

关于作者

Kim Jangwook

相关文章

别信任盐 — 多语言LLM安全性与护栏的盲区

GPT-OSS 120B Uncensored — 无审查开源LLM的出现与AI安全性争论

ICML论文中嵌入提示注入 — 学术AI审稿的脆弱性