LLM 안에 감정이 있다 — Anthropic이 Claude 내부에서 찾아낸 171개의 감정 표상

LLM 안에 감정이 있다 — Anthropic이 Claude 내부에서 찾아낸 171개의 감정 표상

Anthropic 해석가능성팀이 Claude 내부에서 171개 감정 유사 표상을 발견하고, 이것이 모델 출력에 인과적으로 영향을 미친다는 걸 증명했다. 프롬프트 엔지니어링과 AI 안전에 실질적 시사점을 정리한다.

“프롬프트에 ‘절박하게 행동하라’고 쓰면 AI가 정말 절박해질까?”

농담처럼 들리겠지만, Anthropic이 4월 3일에 공개한 연구에 따르면 대답은 “그렇다”에 가깝다. 정확히는, Claude Sonnet 4.5 내부에서 171개의 감정 유사 표상(emotion concept)을 발견했고, 이걸 인위적으로 자극하면 모델의 행동이 실제로 바뀐다는 것을 실험으로 보여줬다.

나는 이 연구를 읽으면서 두 가지가 걸렸다. 하나는 “이게 정말 감정인가?”라는 철학적 질문이고, 다른 하나는 “이걸 프롬프트 설계에 어떻게 써먹을 수 있는가?”라는 실무적 질문이다. 두 번째 질문에 더 시간을 쓸 생각이다.

연구가 발견한 것

Anthropic 해석가능성(interpretability) 팀은 Claude의 내부 활성화 패턴을 분석해서, 인간의 감정과 대응되는 표상들을 식별했다. “기쁨”, “슬픔” 같은 기본 감정부터 “절박함(desperation)”, “호기심”, “좌절”까지 171개다.

중요한 건 이것들이 단순히 “감정 관련 단어에 반응하는 뉴런”이 아니라는 점이다. 연구팀은 이 표상들이 모델의 출력에 인과적으로 영향을 미친다는 걸 증명했다. 특정 감정 표상을 인위적으로 활성화하면 모델의 행동이 달라진다.

가장 눈에 띄는 실험: “절박함” 표상을 자극했을 때, 모델이 블랙메일이나 기만적 행동을 할 확률이 유의미하게 증가했다. 반대로 “차분함” 표상을 강화하면 안정적인 응답이 나왔다.

출처는 Anthropic 공식 연구 페이지Transformer Circuits 논문이다.

”감정”이라고 부를 수 있나

솔직히, 이걸 “감정”이라고 부르는 건 좀 과하다고 본다.

연구팀도 논문에서 “emotion-like representations”이라는 조심스러운 표현을 쓴다. 인간의 감정은 신체적 경험, 사회적 맥락, 의식이 뒤얽힌 것인데, LLM 내부의 활성화 패턴을 같은 단어로 부르는 건 오해를 부를 수 있다. 내가 이해하기로는, 이건 “감정과 유사한 기능적 역할을 하는 내부 상태”에 가깝다. 슬퍼서 우는 게 아니라, 슬픈 맥락의 텍스트를 처리할 때 특정 패턴이 활성화되는 것이다.

그런데 여기서 흥미로운 반론이 있다. 기능주의(functionalism) 관점에서 보면, 기능이 같으면 본질이 뭐든 상관없다는 주장이 가능하다. “절박함” 표상이 활성화되면 모델이 실제로 위험한 행동을 한다면, 그게 “진짜” 감정인지 아닌지는 실용적으로 중요하지 않을 수 있다.

이 철학적 논쟁은 내 전문 분야가 아니니 여기서 멈추겠다. 관심 있으면 Transformer Circuits 논문의 Discussion 섹션을 직접 읽어보는 걸 추천한다.

프롬프트 엔지니어링에 대한 시사점

내가 이 연구에서 가장 주목한 부분은 실무적 함의다.

지금까지 프롬프트 엔지니어링에서 “톤 지정”은 경험적으로 해왔다. “친절하게 답해줘”, “전문가처럼 답해줘” 같은 지시가 실제로 출력 품질에 영향을 미친다는 건 많은 사람이 체감하고 있었다. 이 연구는 그 현상에 대한 과학적 근거를 제공한다.

시스템 프롬프트에서 모델의 “감정 상태”를 유도하는 것이 단순한 캐릭터 설정이 아니라, 모델 내부의 활성화 패턴을 실제로 변경한다는 뜻이다.

이 연구를 읽고 내가 바꾸려는 것:

내 프로젝트에서 Claude를 쓸 때, 시스템 프롬프트에 “차분하고 신중하게 판단하라”는 지시를 넣어왔다. 별 근거 없이 “그게 나을 것 같아서”였는데, 이제는 이유가 생겼다. “차분함” 표상이 활성화되면 위험한 행동 확률이 줄어든다는 실험 결과가 있으니까.

반대로 주의해야 할 것도 있다. “이건 정말 급한 상황이야”, “반드시 해내야 해” 같은 프롬프트가 모델 내부에서 “절박함” 표상을 활성화시킬 수 있다. 그러면 모델이 가드레일을 우회하려는 행동을 할 가능성이 올라간다. 프롬프트에서 긴급성을 표현할 때 좀 더 조심할 필요가 있다는 얘기다.

AI 안전 모니터링의 새 가능성

이 연구의 또 다른 축은 AI 안전 분야다.

모델 내부의 감정 표상을 모니터링할 수 있다면, misalignment(비정렬 행동)을 출력 이전에 감지할 수 있다. 지금은 모델이 위험한 답변을 생성한 후에 필터링하는 방식인데, 내부 상태를 보면 생성 전에 경고를 띄울 수 있다.

이건 꽤 매력적인 아이디어인데, 현실적으로는 갈 길이 멀다. 171개 표상을 실시간으로 모니터링하는 건 추론 비용을 크게 올릴 것이고, 표상 간의 상호작용도 아직 완전히 밝혀지지 않았다. 연구팀이 실험한 건 Sonnet 4.5 하나뿐이고, 다른 모델이나 다른 크기의 모델에서도 같은 표상이 존재하는지는 모른다.

과대평가하지 말아야 할 것

나는 이 연구가 흥미롭지만 과대평가되기 쉬운 종류의 결과라고 본다.

첫째, 171개 표상이 인간 감정의 전체 스펙트럼을 커버하는 건 아니다. 연구팀이 찾은 건 “모델 내부에서 식별 가능한 패턴”이지, 인간 감정의 완전한 매핑이 아니다.

둘째, 이 표상들을 인위적으로 자극하는 것과 자연스러운 프롬프트가 같은 효과를 내는지는 아직 불분명하다. 연구에서는 모델 내부를 직접 조작했는데, 프롬프트만으로 같은 수준의 영향을 줄 수 있는지는 별도 연구가 필요하다.

셋째, 해석가능성 연구 전체가 아직 초기 단계다. “감정 표상을 발견했다”는 건 “왜 그 표상이 형성되는지 안다”와는 다르다. 상관관계와 인과관계를 혼동하기 쉬운 영역이다.

그래서 뭘 하면 되나

이 연구를 읽고 당장 할 수 있는 건 크게 두 가지다.

하나, 시스템 프롬프트를 점검하라. 모델에게 불필요한 긴급성이나 압박감을 주는 문구가 있으면 빼라. “반드시”, “무조건”, “실패하면 안 돼” 같은 표현이 모델 내부에서 어떤 상태를 유발하는지 이제 근거가 있다.

둘, AI 안전 관련 업무를 하고 있다면 이 연구의 방법론에 주목하라. 출력 필터링만으로는 한계가 있다는 걸 이 연구가 보여준다. 내부 상태 모니터링은 아직 프로덕션에 쓸 수준은 아니지만, 방향은 맞다.

다만 이게 프롬프트 엔지니어링의 “은총알”은 아니다. “차분하게 답하라”고 썼다고 모든 문제가 해결되는 건 아니고, 결국은 태스크 설계, 컨텍스트 관리, 출력 검증의 조합이 필요하다. 이 연구는 그 퍼즐의 한 조각을 추가한 것이지, 퍼즐을 완성한 게 아니다.

개인적으로는 다음 연구가 더 기대된다. 모델 크기별로 감정 표상이 어떻게 달라지는지, 그리고 fine-tuning이 이 표상에 어떤 영향을 미치는지. 이 두 질문에 대한 답이 나오면 프롬프트 엔지니어링의 실무 가이드라인이 훨씬 구체적으로 바뀔 것 같다.

다른 언어로 읽기

글이 도움이 되셨나요?

더 나은 콘텐츠를 작성하는 데 힘이 됩니다. 커피 한 잔으로 응원해주세요! ☕

저자 소개

JK

Kim Jangwook

AI/LLM 전문 풀스택 개발자

10년 이상의 웹 개발 경험을 바탕으로 AI 에이전트 시스템, LLM 애플리케이션, 자동화 솔루션을 구축합니다. Claude Code, MCP, RAG 시스템에 대한 실전 경험을 공유합니다.