GPT-5.4 출시 — 네이티브 컴퓨터 사용과 1M 컨텍스트가 엔지니어링 팀을 바꾼다

GPT-5.4 출시 — 네이티브 컴퓨터 사용과 1M 컨텍스트가 엔지니어링 팀을 바꾼다

OpenAI가 GPT-5.4를 출시했습니다. OSWorld 벤치마크에서 인간(72.4%)을 뛰어넘은 컴퓨터 사용 능력(75%), 1M 토큰 컨텍스트 윈도우, 툴 서치로 47% 토큰 절감까지 — EM 관점에서 핵심 임팩트를 분석합니다.

GPT-5.4가 왜 다른가

2026년 3월 5일, OpenAI는 GPT-5.4를 공식 출시했다. 이번 릴리즈는 단순한 버전 업이 아니다. 네이티브 컴퓨터 사용(Computer Use), 1M 토큰 컨텍스트 윈도우, 툴 서치 — 세 가지가 동시에 적용된 첫 번째 범용 모델이다.

GPT-5.2가 이론물리학에서 과학적 발견을 보여줬고, GPT-5.3이 Codex 롤아웃 중단이라는 플랫폼 신뢰성 이슈를 드러냈다면, GPT-5.4는 AI 에이전트가 실제로 ‘일하는’ 수준으로 도달했음을 보여준다.

3가지 핵심 업그레이드

1. 네이티브 컴퓨터 사용 — 인간 성능을 넘다

GPT-5.4는 OSWorld-Verified 벤치마크에서 **75.0%**를 달성했다. 비교군은 다음과 같다.

모델 / 기준OSWorld 점수
GPT-5.475.0%
인간 기준72.4%
Claude Opus 4.674.7% (Terminal-Bench 2.0)
Gemini 3.1 Pro78.4% (Terminal-Bench 2.0)
GPT-5.247.3%

GPT-5.4는 스크린샷, 마우스 이동, 키보드 입력을 통해 실제 컴퓨터 환경을 직접 조작할 수 있다. 웹사이트 탐색, 파일 관리, 멀티 스텝 워크플로우를 소프트웨어 시스템 전반에 걸쳐 자율 실행한다.

API에서는 GPT-5.4가 Codex와 연동되어 Codex의 최첨단 코딩 능력을 통합하면서도 스프레드시트, 프레젠테이션, 문서 작업까지 확장된 범용 에이전트로 동작한다.

2. 1M 토큰 컨텍스트 윈도우

OpenAI 역사상 최대 컨텍스트 윈도우다. 장문 컨텍스트 벤치마크에서의 성능은 다음과 같다.

  • 0〜128K 범위: Graphwalks BFS 93.0%
  • 256K〜1M 범위: 21.4% (난이도 극상 구간)

1M 토큰이 실무에서 의미하는 것은 무엇인가? 전체 레포지토리 코드베이스, 수백 건의 고객 지원 로그, 수년치 프로젝트 문서 — 이것들을 단일 컨텍스트 안에서 처리할 수 있다. 멀티 스텝 에이전트가 긴 작업 흐름 전체를 플랜하고, 실행하고, 검증하는 데 필요한 컨텍스트 용량이 처음으로 충분해진 셈이다.

3. 툴 서치 — 47% 토큰 절감

기존 MCP 구성에서는 활성화된 툴 수가 늘어날수록 매 턴마다 툴 스키마가 전부 주입된다. Scale의 MCP Atlas 벤치마크(36개 MCP 서버, 250개 태스크)에서 GPT-5.4의 툴 서치는:

  • 총 토큰 사용량 47% 절감
  • 정확도 유지

툴 서치는 에이전트가 필요한 툴을 수요에 따라 동적으로 탐색하게 해준다. 대규모 엔터프라이즈 MCP 환경에서 비용 절감 효과가 특히 크다.

GPT-5.4 Thinking vs Pro

이번 릴리즈는 두 가지 변형으로 구분된다.

GPT-5.4 Thinking: 응답 전에 플랜을 먼저 제시한다. 사용자가 중간에 개입해 방향을 수정할 수 있다. 복잡한 멀티 스텝 태스크에서 투명성과 제어권이 높아진다.

GPT-5.4 Pro: 고성능 최적화 버전. 전문가 수준의 지식 작업(스프레드시트 모델링, 문서 파싱, 프레젠테이션 설계)에서 강점을 발휘한다.

EM 관점: 우리 팀에 뭐가 달라지나

반복 작업의 대규모 자동화 가능

컴퓨터 사용 능력이 인간 수준을 넘어섰다는 것은, 이제 클릭이 필요한 레거시 워크플로우도 자동화가 현실적이라는 의미다. API가 없는 내부 시스템, GUI 기반 어드민 패널, 스프레드시트 작업 — 에이전트가 직접 조작할 수 있다.

컨텍스트 엔지니어링 패러다임 전환

128K를 기준으로 설계해왔던 에이전트 아키텍처가 1M으로 확장된다. 복잡한 RAG 파이프라인 대신 “필요한 것을 전부 컨텍스트에 넣는” 접근도 현실적 옵션이 된다. 단, 256K〜1M 구간의 정확도(21.4%)는 여전히 제한적임을 인지해야 한다.

툴 비용 최적화

MCP 서버 수가 증가할수록 툴 서치의 가치는 커진다. 엔터프라이즈 환경에서 MCP 서버를 30개 이상 운영 중이라면, 툴 서치 도입만으로 API 비용이 절반에 가깝게 줄어들 수 있다.

경쟁 구도 모니터링 필요

Terminal-Bench 2.0 기준으로 Gemini 3.1 Pro(78.4%)가 GPT-5.4를 앞서는 구간도 있다. 모델 선택은 벤치마크 단일 지표가 아니라 구체적인 태스크 유형과 비용 구조를 함께 고려해야 한다.

당장 해봐야 할 것들

첫 번째로, 현재 자동화하지 못한 GUI 기반 내부 프로세스를 목록화해보자. 컴퓨터 사용 에이전트의 첫 번째 후보군이다.

두 번째로, 1M 컨텍스트가 진짜 필요한 태스크를 파악하자. 단순히 컨텍스트가 길어서가 아니라, 긴 컨텍스트가 정확도와 비용 면에서 실질적으로 유리한 케이스가 어디인지 식별해야 한다.

세 번째로, MCP 서버 수가 10개를 넘는다면 툴 서치 도입을 검토하자. 47% 토큰 절감은 무시하기 어려운 수치다.

마치며

GPT-5.2가 “AI가 과학을 한다”는 가능성을 보여줬고, GPT-5.3이 “AI 플랫폼 신뢰성 관리”라는 과제를 드러냈다면, GPT-5.4는 “AI 에이전트가 실제 컴퓨터 환경에서 일한다”는 단계로 이동했음을 알린다.

인간 성능을 넘어선 컴퓨터 사용 능력, 전체 코드베이스를 담는 컨텍스트 윈도우, 대규모 MCP 환경의 비용 절감 — 세 축이 동시에 실무에 들어오는 순간이다.

엔지니어링 매니저로서 지금 해야 할 일은 명확하다: 우리 팀의 어느 워크플로우가 이 변화로 가장 먼저 바뀌어야 하는지 지금 파악하는 것이다.

다른 언어로 읽기

글이 도움이 되셨나요?

더 나은 콘텐츠를 작성하는 데 힘이 됩니다. 커피 한 잔으로 응원해주세요! ☕

저자 소개

JK

Kim Jangwook

AI/LLM 전문 풀스택 개발자

10년 이상의 웹 개발 경험을 바탕으로 AI 에이전트 시스템, LLM 애플리케이션, 자동화 솔루션을 구축합니다. Claude Code, MCP, RAG 시스템에 대한 실전 경험을 공유합니다.