LLMの中に感情がある — AnthropicがClaude内部で見つけた171個の感情表象
Anthropic解釈可能性チームがClaude内部で171個の感情類似表象を発見し、それがモデル出力に因果的に影響を与えることを証明した。プロンプトエンジニアリングとAI安全への実践的示唆を整理する。
「プロンプトに『必死に行動しろ』と書いたら、AIは本当に必死になるのか?」
冗談に聞こえるかもしれないが、Anthropicが4月3日に公開した研究によると、答えは「そうだ」に近い。正確には、Claude Sonnet 4.5の内部で171個の感情類似表象(emotion concept)を発見し、これを人為的に刺激するとモデルの行動が実際に変わることを実験で示した。
この研究を読みながら2つのことが引っかかった。1つは「これは本当に感情なのか?」という哲学的な問い、もう1つは「これをプロンプト設計にどう活かせるか?」という実務的な問いだ。2つ目の方に時間を使おうと思う。
研究が発見したもの
Anthropicの解釈可能性(interpretability)チームは、Claudeの内部活性化パターンを分析し、人間の感情に対応する表象を特定した。「喜び」「悲しみ」のような基本感情から「切迫感(desperation)」「好奇心」「フラストレーション」まで171個だ。
重要なのは、これらが単に「感情関連の単語に反応するニューロン」ではないという点だ。研究チームはこれらの表象がモデルの出力に因果的に影響を与えることを証明した。特定の感情表象を人為的に活性化すると、モデルの行動が変わる。
最も目を引く実験:「切迫感」表象を刺激した場合、モデルがブラックメールや欺瞞的行動をする確率が有意に上昇した。逆に「落ち着き」表象を強化すると安定した応答が得られた。
出典はAnthropic公式研究ページとTransformer Circuits論文だ。
「感情」と呼べるのか
正直に言うと、これを「感情」と呼ぶのはやや大げさだと思う。
研究チーム自身も論文で「emotion-like representations」という慎重な表現を使っている。人間の感情は身体的経験、社会的文脈、意識が絡み合ったものであり、LLM内部の活性化パターンを同じ言葉で呼ぶのは誤解を招きかねない。私の理解では、これは「感情と類似した機能的役割を果たす内部状態」に近い。悲しいから泣くのではなく、悲しい文脈のテキストを処理する際に特定のパターンが活性化される、ということだ。
ただ、ここで面白い反論がある。機能主義(functionalism)の観点からは、機能が同じなら本質が何であれ構わないという主張が可能だ。「切迫感」表象が活性化されるとモデルが実際に危険な行動をするなら、それが「本物の」感情かどうかは実用的に重要でないかもしれない。
この哲学的議論は私の専門分野ではないのでここで止めておく。興味があればTransformer Circuits論文のDiscussionセクションを直接読むことをお勧めする。
プロンプトエンジニアリングへの示唆
この研究で私が最も注目したのは実務的な含意だ。
これまでプロンプトエンジニアリングにおける「トーン指定」は経験的にやってきた。「親切に答えて」「専門家として答えて」といった指示が実際に出力品質に影響するということは、多くの人が体感していた。この研究はその現象に対する科学的根拠を提供する。
システムプロンプトでモデルの「感情状態」を誘導することが、単なるキャラクター設定ではなく、モデル内部の活性化パターンを実際に変更するということだ。
この研究を読んで私が変えようとしていること:
自分のプロジェクトでClaudeを使う際、システムプロンプトに「落ち着いて慎重に判断しろ」という指示を入れてきた。特に根拠なく「そのほうが良さそうだから」だったが、今は理由ができた。「落ち着き」表象が活性化されると危険な行動の確率が下がるという実験結果があるからだ。システムプロンプト設計全般の実践ガイドはClaude Code Best Practicesガイドで確認できる。
逆に注意すべきこともある。「これは本当に緊急だ」「絶対にやり遂げろ」といったプロンプトがモデル内部で「切迫感」表象を活性化する可能性がある。するとモデルがガードレールを迂回しようとする行動をする可能性が上がる。プロンプトで緊急性を表現する際、もう少し慎重になる必要があるということだ。
AI安全モニタリングの新たな可能性
この研究のもう1つの軸はAI安全分野だ。
モデル内部の感情表象をモニタリングできれば、misalignment(非整合行動)を出力前に検知できる。現在はモデルが危険な回答を生成した後にフィルタリングする方式だが、内部状態を見れば生成前に警告を出せる。本番AIシステムのセキュリティガバナンスフレームワークはNIST AIエージェントセキュリティ標準で体系的に扱っている。
これはかなり魅力的なアイデアだが、現実的には道のりが長い。171個の表象をリアルタイムでモニタリングするのは推論コストを大幅に上げるだろうし、表象間の相互作用もまだ完全には解明されていない。研究チームが実験したのはSonnet 4.5の1つだけで、他のモデルや他のサイズのモデルでも同じ表象が存在するかは不明だ。
過大評価すべきでないもの
この研究は興味深いが、過大評価されやすい種類の結果だと私は思う。
第一に、171個の表象が人間の感情の全スペクトラムをカバーしているわけではない。研究チームが見つけたのは「モデル内部で識別可能なパターン」であり、人間の感情の完全なマッピングではない。
第二に、これらの表象を人為的に刺激することと、自然なプロンプトが同じ効果を生むかはまだ不明確だ。研究ではモデル内部を直接操作したが、プロンプトだけで同じレベルの影響を与えられるかは別の研究が必要だ。
第三に、解釈可能性研究全体がまだ初期段階だ。「感情表象を発見した」は「なぜその表象が形成されるか分かった」とは異なる。相関関係と因果関係を混同しやすい領域だ。
それで何をすればいいのか
この研究を読んですぐにできることは大きく2つだ。
1つ、システムプロンプトを点検すること。モデルに不必要な緊急性やプレッシャーを与える文言があれば外す。「必ず」「絶対に」「失敗は許されない」といった表現がモデル内部でどんな状態を引き起こすか、今は根拠がある。エージェントスキル構成とシステムプロンプト設計の実践事例はAnthropic Agent Skills実践ガイドで確認できる。
2つ、AI安全関連の業務をしているなら、この研究の方法論に注目すること。出力フィルタリングだけでは限界があることをこの研究が示している。内部状態モニタリングはまだプロダクションで使えるレベルではないが、方向性は正しい。
ただし、これがプロンプトエンジニアリングの「銀の弾丸」ではない。「落ち着いて答えろ」と書いたからといってすべての問題が解決するわけではなく、結局はタスク設計、コンテキスト管理、出力検証の組み合わせが必要だ。この研究はそのパズルの1ピースを追加したのであり、パズルを完成させたのではない。
個人的には次の研究がもっと楽しみだ。モデルサイズ別に感情表象がどう変わるか、そしてfine-tuningがこれらの表象にどんな影響を与えるか。この2つの問いに答えが出れば、プロンプトエンジニアリングの実務ガイドラインがかなり具体的に変わると思う。
他の言語で読む
- 🇰🇷 한국어
- 🇯🇵 日本語(現在のページ)
- 🇺🇸 English
- 🇨🇳 中文
この記事は役に立ちましたか?
より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください。