MiniMax M2.5 — 오픈 웨이트와 상용 모델의 성능 격차가 역대 최소로

MiniMax M2.5 — 오픈 웨이트와 상용 모델의 성능 격차가 역대 최소로

MiniMax M2.5가 SWE-Bench Verified 80.2%를 달성하며 Claude Opus 4.6을 넘어섰습니다. 오픈 웨이트 모델과 프로프라이어터리 모델의 성능 격차가 급속히 좁혀지고 있는 현황을 벤치마크 데이터와 함께 분석합니다.

오픈 웨이트 모델의 역습이 시작됐다

2026년 2월, AI 업계에 충격적인 소식이 전해졌습니다. 중국 AI 스타트업 MiniMax가 공개한 MiniMax M2.5가 코딩, 에이전트 태스크, 검색 등 여러 벤치마크에서 프로프라이어터리 모델을 상회하는 점수를 기록한 것입니다.

Reddit r/LocalLLaMA에서 362포인트 이상의 주목을 받으며, “오픈 웨이트 모델이 마침내 클로즈드 모델을 따라잡았다”는 논의가 활발해지고 있습니다. 이 글에서는 M2.5의 구체적인 성능 데이터와 오픈 vs 클로즈드 모델의 구도 변화를 상세히 분석합니다.

MiniMax M2.5 주요 스펙

MiniMax M2.5는 229B 파라미터의 오픈 웨이트 모델로, HuggingFace에서 자유롭게 다운로드할 수 있습니다.

  • 파라미터 수: 229B (MoE 아키텍처)
  • 학습 방식: 20만 개 이상의 실제 환경에서 강화학습(RL)
  • 추론 속도: 100 토큰/초 (Lightning 버전)
  • 지원 언어: Go, C, C++, TypeScript, Rust, Python, Java 등 10개 이상
  • 배포 지원: SGLang, vLLM, Transformers, KTransformers

벤치마크 비교: 클로즈드 모델과의 격차가 거의 제로로

SWE-Bench Verified (코딩)

SWE-Bench Verified는 실제 GitHub 이슈를 해결하는 능력을 측정하는 벤치마크입니다.

모델점수유형
MiniMax M2.580.2%오픈 웨이트
Claude Opus 4.6프로프라이어터리
MiniMax M2.1오픈 웨이트

다양한 에이전트 하네스에서의 테스트 결과도 주목할 만합니다:

  • Droid 하네스: M2.5 (79.7%) > Opus 4.6 (78.9%)
  • OpenCode 하네스: M2.5 (76.1%) > Opus 4.6 (75.9%)

어느 환경에서든 오픈 웨이트 모델이 프로프라이어터리 모델을 근소한 차이로 앞서는 역사적인 결과입니다.

Multi-SWE-Bench (멀티 리포지토리)

여러 리포지토리에 걸치는 태스크에서 51.3%를 달성했습니다. 더 복잡한 실무 시나리오에서도 높은 성능을 보여주고 있습니다.

BrowseComp (검색·도구 사용)

웹 검색과 도구 호출 능력을 측정하는 BrowseComp에서 76.3%(컨텍스트 관리 포함)를 기록하며 업계 최고 수준에 도달했습니다.

비용 혁명: 성능뿐 아니라 가격에서도 압도

M2.5의 충격은 성능만이 아닙니다. 비용 대비 성능이 차원이 다릅니다.

항목M2.5 LightningM2.5 Standard
입력 가격$0.3/100만 토큰$0.15/100만 토큰
출력 가격$2.4/100만 토큰$1.2/100만 토큰
추론 속도100 TPS50 TPS
1시간 연속 가동 비용$1.0$0.3

Claude Opus, Gemini 3 Pro, GPT-5와 비교하면 출력 토큰 단가 기준 10분의 1에서 20분의 1 수준의 비용입니다.

M2.5가 이렇게 빠르게 진화할 수 있었던 이유

대규모 강화학습 (RL Scaling)

MiniMax는 자체 개발한 「Forge」라는 에이전트 네이티브 RL 프레임워크를 활용했습니다.

graph TD
    A[Forge RL 프레임워크] --> B[20만+ 실환경]
    A --> C[CISPO 알고리즘]
    A --> D[프로세스 보상 메커니즘]
    B --> E[코딩 환경]
    B --> F[검색 환경]
    B --> G[오피스 환경]
    C --> H[MoE 모델 안정 학습]
    D --> I[장문맥 품질 감시]
    E & F & G --> J[M2.5]
    H & I --> J

주요 기술적 포인트:

  • 비동기 스케줄링 최적화: 시스템 처리량과 샘플 오프폴리시 정도의 균형 최적화
  • 트리 구조 머지 전략: 학습 샘플 결합으로 약 40배 학습 속도 향상
  • CISPO 알고리즘: MoE 모델의 대규모 학습 안정성 확보
  • 프로세스 보상: 에이전트 롤아웃의 긴 컨텍스트에서 크레딧 할당 문제 해결

Spec-Writing 능력의 창발

M2.5의 특기할 점은 코드를 작성하기 전에 아키텍트처럼 설계·계획하는 능력이 학습 중 자연스럽게 나타난 것입니다. 프로젝트의 기능, 구조, UI 디자인을 사전에 분해·계획한 후 코딩에 들어가므로, 보다 실무에 가까운 개발이 가능합니다.

오픈 vs 클로즈드 구도 변화

역사적인 전환점

지금까지 AI 업계에서는 “최고 성능의 모델은 항상 프로프라이어터리”라는 암묵적 합의가 있었습니다. 하지만 M2.5의 등장으로 상황이 크게 바뀌고 있습니다.

graph LR
    subgraph 2024년
        A[클로즈드<br/>압도적 우위] --> B[오픈<br/>크게 뒤처짐]
    end
    subgraph 2025년 후반
        C[클로즈드<br/>다소 우위] --> D[오픈<br/>추격]
    end
    subgraph 2026년 초
        E[클로즈드<br/>동등] --- F[오픈<br/>일부 역전]
    end

기업에게 의미하는 것

  1. 벤더 록인 회피: 오픈 웨이트 모델로 프론티어 성능을 얻을 수 있다면 특정 API 벤더 의존을 줄일 수 있음
  2. 커스터마이즈 자유: 자사 데이터로 파인튜닝, 도메인 특화 가능
  3. 비용 최적화: 셀프 호스팅을 통한 비용 관리, M2.5 API 이용 시에도 1/10~1/20 비용
  4. 데이터 프라이버시: 기밀 데이터를 외부에 전송할 필요 없음

M2 시리즈의 급속한 진화

불과 3.5개월(2025년 10월 말~2026년 2월) 만에 MiniMax는 M2, M2.1, M2.5 세 세대를 릴리스했습니다.

버전릴리스 시기SWE-Bench 개선특기 사항
M22025년 10월 말베이스라인HuggingFace 450K 다운로드
M2.12025년 12월대폭 개선86.7K 다운로드
M2.52026년 2월80.2% SOTA37% 고속화, 비용 1/10

사내 실전 도입

MiniMax는 자사에서도 M2.5를 적극 활용하고 있습니다:

  • 전사 태스크의 30%를 M2.5가 자율적으로 완료
  • R&D, 프로덕트, 영업, HR, 재무 등 전 부서에 걸친 활용
  • 신규 커밋 코드의 80%가 M2.5 생성

마무리: 알아야 할 3가지 포인트

  1. 성능 격차 소멸: 오픈 웨이트 모델이 SWE-Bench에서 클로즈드 모델을 넘어섰다. 이는 일시적 현상이 아닌 구조적 변화의 시작

  2. 비용 혁명: M2.5는 Opus 대비 1/10~1/20 비용으로 동등 이상의 성능을 제공. “비용 걱정 없는 프론티어 모델”이 현실로

  3. 선택지 확대: 기업은 더 이상 프로프라이어터리 모델 일택이 아닙니다. 오픈 웨이트 모델을 통한 셀프 호스팅, 커스터마이즈, 비용 최적화가 실용적인 선택지로

참고 자료

다른 언어로 읽기

글이 도움이 되셨나요?

더 나은 콘텐츠를 작성하는 데 힘이 됩니다. 커피 한 잔으로 응원해주세요! ☕

저자 소개

JK

Kim Jangwook

AI/LLM 전문 풀스택 개발자

10년 이상의 웹 개발 경험을 바탕으로 AI 에이전트 시스템, LLM 애플리케이션, 자동화 솔루션을 구축합니다. Claude Code, MCP, RAG 시스템에 대한 실전 경험을 공유합니다.