GPT-5.5 출시 — 에이전트 런타임으로 전환한 OpenAI와 Claude 비교

GPT-5.5 출시 — 에이전트 런타임으로 전환한 OpenAI와 Claude 비교

GPT-5.5는 에이전트 런타임 전용으로 재설계된 모델입니다. SWE-bench 88.7%에 가격은 2배. 단순 벤치마크를 넘어 실제 개발 워크플로우에서 Claude Sonnet 4.6과 직접 비교하며 에이전트 시대의 모델 선택 기준을 솔직하게 따져봤습니다.

어제(4월 23일) OpenAI가 GPT-5.5를 출시했다. 공식 발표에서 한 문장이 눈에 걸렸다.

“채팅 보조 모델이 아닌, 에이전트 런타임으로 설계된 첫 번째 GPT 플래그십 모델입니다.”

이게 단순한 마케팅 문구인지, 아니면 실제로 아키텍처 설계 철학이 바뀐 건지 바로 판단하기 어려웠다. GPT-5.1부터 5.4까지는 베이스 모델 위에 파인튜닝을 반복한 구조였는데, 5.5는 GPT-4.5 이후 처음으로 베이스 모델 자체를 새로 학습했다. OpenAI 입장에서는 “이번엔 다르다”고 주장할 근거가 있는 셈이다. MMLU 92.4%, SWE-bench 88.7%, Terminal-Bench 2.0 82.7% — 발표와 함께 나온 수치들이다.

그 주장을 제쳐두고도, 지난 4월 한 달이 AI 에이전트 쪽에서 유독 사건이 많았다. Anthropic의 Claude Managed Agents가 4월 8일에 퍼블릭 베타로 공개됐고, 4월 9일엔 Claude Advisor Tool도 나왔다. GitHub Copilot Agent Mode도 Q1에 GA가 됐고, Cursor 3.0 Glass가 4월 초에 출시됐다. 이 짧은 기간에 주요 AI 코딩·에이전트 도구들이 동시에 업데이트됐다는 건, 경쟁이 정말로 가속화되고 있다는 뜻이다. 이 맥락 속에서 GPT-5.5를 어떻게 봐야 할지, 특히 Claude와의 실질적인 차이가 무엇인지 직접 정리해봤다.

핵심 평가: 전환점이 맞다, 다만 지금 당장은 아니다

결론부터 쓰자면, GPT-5.5는 분명히 의미 있는 업데이트다. 하지만 “모든 개발자가 지금 당장 전환해야 한다”는 결론은 틀렸다. 그 이유를 세 가지로 정리할 수 있다.

첫째, API가 아직 공개되지 않았다. 현재는 ChatGPT Plus/Pro/Business/Enterprise 사용자만 쓸 수 있고, API는 “추가 사이버보안 가이드라인 검토 후” 공개한다고 했다. 에이전트 개발자가 실제로 코드에 통합해볼 수 있는 상황이 아니다. “써봤는데 좋더라”고 말하는 사람은 현재로선 ChatGPT 인터페이스로 체험한 것이지, 자체 에이전트 파이프라인에 통합한 게 아니다.

둘째, 가격이 2배 올랐다. 이걸 감당하려면 성능 향상이 비용 인상을 뚜렷하게 상쇄해야 하는데, 그 검증은 독립적인 평가가 나오기 전까지 어렵다. 특히 에이전트 작업에서 출력 토큰이 많이 나오는 특성상, $30/1M output 가격이 실제 월간 청구서에 어떻게 반영될지는 운영해봐야 안다.

셋째, Anthropic이 같은 시기에 내놓은 에이전트 인프라 업데이트 — Managed Agents, Advisor Tool — 는 단순히 모델 성능을 올린 게 아니라 인프라 레이어를 강화한 것이다. “더 똑똑한 모델”과 “더 안정적인 에이전트 인프라”는 다른 가치를 제공한다. 어느 쪽이 더 중요한지는 팀이 해결하려는 문제에 달려 있다.

그렇다고 GPT-5.5를 과소평가하는 건 아니다. SWE-bench 88.7%는 코딩 에이전트 성능에서 기존 한계를 넘은 수치고, 6주 만의 릴리즈 주기는 OpenAI가 이번 경쟁에 진지하다는 신호다. API가 공개되고 실제 프로덕션 사례가 쌓이면 평가가 바뀔 수 있다. 지금은 잠정 판단이다.

GPT-5.5가 이전 모델과 무엇이 다른가

GPT-5 시리즈의 맥락을 먼저 이해해야 GPT-5.5가 어떤 의미인지 파악된다.

GPT-5.1부터 5.4까지는 GPT-5 베이스 위에서 강화학습과 파인튜닝을 반복하며 특정 능력을 끌어올린 버전이었다. 추론 속도 개선, 멀티모달 처리 안정화, 특정 도메인 정확도 향상 같은 식으로. 이 방식은 빠르게 개선을 내보낼 수 있지만, 근본적인 능력 향상에는 한계가 있다. 파인튜닝으로는 베이스 모델이 처음부터 갖춰야 할 패턴 — 복잡한 도구 호출 시퀀스, 자기 수정 루프, 장기 컨텍스트 관리 — 을 온전히 심을 수 없다.

GPT-5.5는 다르다. 베이스 프리트레이닝부터 새로 했다. 두 가지 핵심 변화가 있다.

에이전트 태스크에 최적화된 프리트레이닝 데이터 구성. 단순히 텍스트를 예측하는 것보다, 멀티스텝 도구 호출 시퀀스와 자기 수정 패턴을 더 많이 학습했다. 구체적인 비율은 공개하지 않았지만 “에이전트 워크플로우 데이터 비중을 이전 세대 대비 대폭 늘렸다”는 표현을 썼다. 이게 실제로 어떤 데이터를 뜻하는지 — 코드 실행 결과, API 응답, 에러 수정 루프 등 — 는 공개하지 않았다.

속도와 성능의 동시 개선. GPT-5.4와 응답 속도가 거의 동일하면서 벤치마크 수치는 올라갔다. 이건 OpenAI 발표 자료 기준이고, 실제 API 응답 지연은 공개 후 독립적으로 측정해봐야 알 수 있다. 이건 단순한 스케일업으로는 달성하기 어렵다. 아키텍처 효율화나 추론 최적화가 동반됐을 가능성이 높다. 트랜스포머 아키텍처나 학습 최적화의 수학적 세부까지 내가 깊이 아는 건 아니니, “왜 가능했냐”는 질문은 ML 전문가에게 맡기는 게 맞다. 다만 실무적으로 중요한 건, 더 빠른 추론이 요금 체계와 어떻게 맞물리는지다.

릴리즈 타이밍도 주목할 점이 있다. GPT-5.4가 나온 지 6주 만이다. 이전까지 OpenAI의 메이저 모델 간격이 보통 2〜4개월이었던 걸 감안하면 눈에 띄게 빠르다. Anthropic이 Claude Managed Agents와 Advisor Tool을 잇달아 공개한 직후라는 타이밍도 우연이라고 보기 어렵다. 업계 전체의 릴리즈 주기가 압축되고 있다는 신호다.

벤치마크 수치, 그대로 믿을 수 없는 이유

SWE-bench 88.7%는 꽤 인상적이다. 하지만 이 수치로 “Claude보다 코딩을 훨씬 잘한다”는 결론을 내리는 건 성급하다. 몇 가지를 짚어봐야 한다.

MMLU 92.4% — 지식 암기형 벤치마크에서 나온 숫자다. 실제 코딩이나 에이전트 워크플로우와 직접적인 연관은 제한적이다. MMLU 점수가 높다고 실무에서 더 나은 코드를 작성하는 건 아니다. 이 수치는 “모델이 얼마나 많은 걸 암기했는가”를 측정하는데, 에이전트에서 중요한 건 “얼마나 정확하게 행동하고 오류를 수정하는가”다. 두 능력이 상관관계가 있긴 하지만, 직결되지는 않는다.

SWE-bench 88.7% — 코딩 에이전트 성능 벤치마크로 더 직접적이다. 그런데 비교 대상으로 자주 거론되는 Claude Sonnet 4.6 + Opus 어드바이저 조합의 기록은 SWE-bench Multilingual 기준 74.8%다. GPT-5.5의 88.7%는 표준 SWE-bench이고, Claude의 74.8%는 다국어 확장 버전이다. 이 두 가지는 다른 테스트셋이라 직접 비교가 성립하지 않는다. 사과와 오렌지를 비교하는 것과 같다.

공정한 비교는 동일 조건에서 이뤄져야 한다. 지금은 두 회사의 자체 발표 숫자만 있고, 독립적인 서드파티 평가가 나오기 전까지 이 부분은 유보적으로 봐야 한다.

Terminal-Bench 2.0의 82.7% — 이게 가장 주목할 만하다. 터미널 에이전트 성능 — 실제로 명령어를 실행하고 결과를 해석하고 다음 단계를 결정하는 능력 — 이 잘 나왔다는 건, “에이전트 런타임”이라는 포지셔닝과 실제로 일치한다. 모든 벤치마크 중 이 부분이 가장 신뢰도 높은 지표라고 본다. 특히 CLI 기반 에이전트나 CI/CD 파이프라인 통합에서 실질적인 성능 차이로 이어질 수 있다. 다만 이 벤치마크도 OpenAI가 자체 공개한 숫자라는 점을 잊지 말아야 한다. 독립적인 재현이 아직 이뤄지지 않았다.

GDPval 84.9% — OpenAI의 자체 벤치마크다. 이 이름을 처음 들어본 개발자가 많을 것이다. 나도 그렇다. 자체 벤치마크는 자신에게 유리한 방식으로 설계될 가능성이 있어서, 이 수치를 인용할 때는 출처를 명시하는 게 맞다.

이전에 GPT-5와 Claude, Gemini, DeepSeek의 API 가격 비교를 정리할 때도 비슷한 문제가 있었다. 각 회사마다 자신에게 유리한 벤치마크를 내세우고, 비교 기준이 달라서 실제로 어떤 모델이 “더 나은가”를 단정 짓기가 어렵다. 이번엔 그 문제가 더 심화됐다.

가격이 2배로 올랐다 — 이걸 감당해야 하는가

이번 출시에서 가장 불편한 부분이다.

GPT-5.4: $2.50/1M input tokens, $15/1M output tokens

GPT-5.5: $5/1M input tokens, $30/1M output tokens

정확히 2배다. 얼핏 들으면 “성능도 오르고 가격도 오른 것”처럼 들리지만, 에이전트 워크플로우 특성상 이 인상이 생각보다 크게 체감된다.

에이전트 작업에서 출력 토큰이 차지하는 비중이 높다. 멀티스텝 추론 과정, 도구 호출 결과 처리, 중간 상태 기록, 최종 응답 생성까지 모두 출력 토큰으로 과금된다. 내가 실제로 Claude를 사용해 에이전트 파이프라인을 돌릴 때 경험한 건, 예상보다 출력 토큰이 2〜3배 많이 나오는 경우가 흔하다는 것이다. GPT-5.5의 $30/1M에서 복잡한 에이전트 파이프라인을 운영하면 비용 계산이 상당히 달라진다.

GPT-5.5 Pro: $30/1M input, $180/1M output. 이 가격은 규모 있는 기업이 아니면 접근 자체가 어렵다. 고지능 추론이 필요한 특수 작업에서 쓰라는 티어인데, 스타트업이나 개인 개발자가 이 모델로 프로덕션 에이전트를 운영하는 그림은 잘 안 그려진다.

비교 대상으로 Anthropic의 Claude Managed Agents를 보면, 세션당 $0.08/시간 + 표준 토큰 비용 구조다. 단순 비교는 어렵지만, 에이전트 작업에서 시간 기반 과금이 예측 가능성이 높다. 특히 수십 분 이상 실행되는 작업 — 코드베이스 분석, 문서 생성, 복잡한 리서치 태스크 — 에서는 토큰 합산보다 시간 기반이 더 안정적으로 계산된다.

OpenAI가 이 가격에 자신감을 보인다는 건, 성능 우위에 대한 확신이 강하다는 신호다. 틀린 판단이라고 단정할 순 없다. 하지만 API가 아직 공개되지 않은 상태에서 2배 가격을 발표한 건, 독립적인 검증 없이 수용해달라는 요청과 다름없다.

현실적인 비용 계산을 해보자. 하루에 500회의 에이전트 태스크를 실행하고, 태스크당 평균 8,000 output 토큰이 나온다고 하면:

  • GPT-5.4: 500 × 8,000 × $15/1M = 일 $60, 월 약 $1,800
  • GPT-5.5: 500 × 8,000 × $30/1M = 일 $120, 월 약 $3,600

월 $1,800 차이다. 이 비용 증가를 정당화하려면 태스크 성공률이 몇 퍼센트 올라야 하는지, 에러 처리 비용이 얼마나 줄어야 하는지를 팀이 직접 계산해봐야 한다. 일률적인 “성능이 올랐으니 비용도 올랐다”는 논리로 넘어갈 수 있는 숫자가 아니다.

Claude와 어느 쪽을 선택해야 하나

“어느 쪽이 더 낫다”는 단일 답은 없다. 상황에 따라 다르다. 다만 그 “상황”을 구체적으로 정리해보면 판단이 쉬워진다.

GPT-5.5가 유리한 상황. OpenAI 생태계에 이미 깊이 통합된 팀의 경우 — Azure OpenAI, Vercel AI SDK의 OpenAI 백엔드, Copilot 연동 등을 쓰고 있다면 — 전환 비용이 상대적으로 낮다. SWE-bench 스타일의 순수 코딩 성능이 핵심 지표인 팀, 그리고 ChatGPT 기반 제품을 만드는 경우에도 GPT-5.5가 맞는 선택일 수 있다. ChatGPT Plus/Pro 사용자가 이미 GPT-5.5를 쓰고 있기 때문에 제품의 레퍼런스 모델과 맞추는 측면에서 유리하다.

Claude가 여전히 강점을 보이는 상황. Claude Code의 5가지 에이전틱 워크플로우 패턴에서 다뤘듯이, Claude는 도구 사용 패턴이 섬세하고 컨텍스트 관리가 안정적이다. 특히 Claude Managed Agents + Advisor Tool 조합은 비용 효율 측면에서 경쟁력 있다. Sonnet 4.6이 executor로, Opus가 advisor로 동작하면서 태스크 성공률을 높이면서도 비용을 11.9% 절감한다는 데이터가 있다. 장시간 실행되는 복잡한 에이전트 파이프라인에서 Claude의 인프라 레이어 지원 — 체크포인팅, 자격증명 관리, 스코프 권한 — 이 실질적인 차이를 만든다.

더 중요한 차이는 생태계와 워크플로우 통합이다. 벤치마크 몇 퍼센트보다, 기존 코드베이스가 어느 SDK에 의존하는지, 팀이 이미 어느 쪽에 익숙한지가 실무에서 훨씬 크게 작용한다. 모델을 바꾸는 건 API 키 하나 바꾸는 문제가 아니다. 프롬프트 설계, 에러 처리 로직, 도구 스키마 설계, 재시도 전략까지 모두 연동되어 있어서, 실제 전환 비용은 생각보다 높다. 내가 본 케이스 중 “일단 모델만 바꿔보자”고 했다가 며칠 간의 프롬프트 재설계로 이어진 경우가 한두 번이 아니다.

내 프로젝트 기준으로는 당분간 Claude 생태계를 유지할 것 같다. 최근에 Vercel AI SDK로 Claude 스트리밍 에이전트를 구축하는 작업을 했는데, 스트리밍 도중 도구 호출이 섞이는 복잡한 시나리오에서 Claude가 더 일관된 동작을 보였다. GPT-5.5 API가 공개되면 같은 태스크를 돌려보고 비교할 계획은 있다.

실제 의사결정 기준

아래 질문으로 어느 쪽이 적합한지 대략 판단할 수 있다.

  • 기존 코드베이스가 OpenAI SDK에 깊이 의존하는가? → GPT-5.5 고려
  • 에이전트 인프라(체크포인팅, 장시간 세션, 멀티에이전트 조율)가 핵심인가? → Claude Managed Agents
  • 비용 예측 가능성이 중요한가? → Claude Managed Agents의 시간 기반 과금이 유리
  • 독립적인 벤치마크 평가를 기다릴 여유가 없는가? → 현재 API 접근 가능한 Claude
  • GPT-5.5 API 공개 후 실제로 비교하겠다는 팀 → 지금은 Claude로 운영하면서 대기
  • 코딩 에이전트가 메인 유스케이스이고 가격을 감당할 수 있는가? → API 공개 후 GPT-5.5 실험해볼 만함

결국 이건 “어느 모델이 더 나은가”의 문제라기보다, “내 팀이 지금 해결하려는 문제에 어떤 도구가 가장 적합한가”의 문제다. 두 플랫폼 모두 빠르게 발전하고 있어서, 3〜6개월 후의 평가가 오늘의 평가와 다를 가능성이 높다.

에이전트 모델 vs 에이전트 인프라 — 다른 문제다

이 부분이 이번 GPT-5.5 발표에서 내가 가장 아쉽게 보는 지점이다.

OpenAI는 GPT-5.5를 “에이전트 런타임”이라고 불렀다. 하지만 Anthropic이 Claude Managed Agents에서 제시한 것과는 다른 레이어의 이야기다. Anthropic의 접근은 에이전트 모델이 아니라 에이전트 인프라다 — 체크포인팅, 자격증명 관리, 스코프 권한, 멀티에이전트 조율, 장시간 세션 지원이 플랫폼 수준에서 제공된다.

GPT-5.5가 “에이전트 런타임에 최적화된 모델”이라면, Managed Agents는 “에이전트를 운영하는 인프라”다. 더 스마트한 엔진과 더 안정적인 레일. 어떤 게 더 중요한지는 팀의 필요에 따라 다르지만, 두 가지를 같은 레이어에 놓고 비교하는 건 범주 오류다.

내가 이해하기로는, 장기적으로 에이전트 에코시스템의 표준을 누가 쥐느냐는 모델 성능 지표보다 인프라 레이어를 먼저 장악하는 쪽이 유리할 가능성이 높다. AI 에이전트 프레임워크 비교에서 다뤘듯이, 에이전트 생태계는 프레임워크와 인프라가 결합된 형태로 수렴하는 중이다.

아직 풀리지 않은 질문들

이번 출시에서 명확하지 않은 부분이 몇 가지 있다.

API 공개 시점이 불투명하다. “추가 사이버보안 가이드라인 검토 후”라는 표현은 구체적인 일정을 담고 있지 않다. 에이전트 런타임이라고 포지셔닝하면서 정작 에이전트 개발자가 API로 접근할 수 없는 상황은 어색하다. Anthropic이 Claude Managed Agents를 발표하면서 당일부터 API 접근을 제공한 것과 대비된다.

에이전트 런타임이라는 포지셔닝의 구체성이 부족하다. Anthropic이 Managed Agents에서 제시한 것처럼 — 체크포인팅, 자격증명 관리, 스코프 권한, 장시간 세션 — 인프라 레벨의 에이전트 지원이 GPT-5.5에 어떻게 통합되는지는 아직 명확하지 않다. 발표 자료에서 “에이전트에 최적화됐다”는 주장의 근거로 제시된 게 주로 벤치마크 수치였다.

Pro 티어 가격 정당성이 불분명하다. $180/1M output은 현재 주요 LLM 중 가장 비싼 수준이다. 이 가격이 정당화되려면 비용 대비 성능 향상이 압도적이어야 한다. 공개된 벤치마크만으로는 그 근거가 충분하지 않다.

마지막으로 — GPT-5.5가 에이전트 런타임에 최적화됐다면, 단순 대화 용도에서는 GPT-5.4 대비 눈에 띄는 차이가 없을 수 있다. 에이전트를 직접 구축하는 개발자가 아닌 일반 사용자에게 GPT-5.5는 비싼 GPT-5.4에 가까운 경험일 것이다.


GPT-5.5가 의미 있는 모델이라는 건 인정한다. SWE-bench 수치, 에이전트 런타임 선언, 6주라는 릴리즈 주기 — 이 세 가지만으로도 업계 속도가 빨라지고 있다는 걸 실감한다.

하지만 당장 프로젝트를 GPT-5.5로 전환할 이유는 아직 없다. API가 공개되지 않았고, 가격이 2배 올랐고, 실제 프로덕션 사례가 축적되려면 시간이 필요하다. Anthropic이 AI 에이전트 인프라 레이어까지 담당하는 방향으로 움직이는 것도, OpenAI가 에이전트 런타임을 선언하는 것도 결국 같은 목적지를 향하지만, 그 경로가 다르다. 어떤 경로가 프로덕션 개발자에게 더 나은지는 체감해봐야 안다.

이 경쟁에서 누가 프로덕션 에이전트 표준이 되느냐는 API 벤치마크보다 개발자 경험과 가격 현실성이 결정할 것 같다. 그리고 그 경쟁에서 지금 가장 빠르게 인프라를 쌓고 있는 건 어느 쪽인지, 몇 달 후의 실제 채택률로 확인하게 될 것이다.

GPT-5.5 API가 공개되면 Claude Managed Agents + Advisor Tool 조합과 같은 태스크로 실제 비교를 해볼 생각이다. 프롬프트 설계, 비용, 에러 처리, 성공률까지 실제 코드로 돌려본 결과가 나오면 다시 정리할 예정이다. 지금으로선 “흥미롭지만 아직 손을 댈 때가 아니다”라는 게 내 입장이다.

다른 언어로 읽기

글이 도움이 되셨나요?

더 나은 콘텐츠를 작성하는 데 힘이 됩니다. 커피 한 잔으로 응원해주세요.

저자 소개

jw

Kim Jangwook

AI/LLM 전문 풀스택 개발자

10년 이상의 웹 개발 경험을 바탕으로 AI 에이전트 시스템, LLM 애플리케이션, 자동화 솔루션을 구축합니다. Claude Code, MCP, RAG 시스템에 대한 실전 경험을 공유합니다.

블로그 목록으로