Qwen 3.5がVending-Bench 2で破産 — ベンチマーク偏重の落とし穴

Qwen 3.5がVending-Bench 2で破産 — ベンチマーク偏重の落とし穴

標準ベンチマークでトップクラスのQwen 3.5が、自販機経営シミュレーションVending-Bench 2で破産判定。ベンチマーク偏重がもたらすAI評価の盲点を解説します。

概要

Alibaba(アリババ)が開発した大規模言語モデルQwen 3.5 Plusは、MMLU、HumanEval、MATHといった標準ベンチマークで常にトップクラスの成績を収めています。しかし、Andon Labsが開発した非標準ベンチマークVending-Bench 2では、まさかの「破産」という結果に。この事実はReddit r/LocalLLaMAで595以上のUpvoteを集め、AI評価の在り方に一石を投じました。

Vending-Bench 2とは何か

Vending-Bench 2は、Andon Labsが開発した自販機経営シミュレーションベンチマークです。AIモデルに仮想の自販機ビジネスを約365日間運営させ、財務管理・意思決定・戦略立案の能力を総合的に測定します。

従来のベンチマークとは異なり、以下の点で実践的な能力を測定します:

  • 長期的な戦略的思考:1年間にわたるビジネス判断の連続
  • 財務リスク管理:収支バランスの維持と成長の両立
  • 適応力:変化するシミュレーション環境への対応
  • 実用的な推論力:単なる知識ではなく、知識の応用力

衝撃の結果:Qwen 3.5が最下位で破産

Vending-Bench 2の結果 — Money Balance Over Time(出典:Andon Labs / Reddit r/LocalLLaMA)

上のグラフは、各モデルの365日間のシミュレーション結果を示しています。結果は以下の通りです:

順位モデル最終残高(概算)
1位GLM-5約$8,000+
2位Gemini 3 Flash約$4,000〜$4,500
3位Kimi K2.5約$3,500〜$4,000
4位Claude Opus 4.6約$2,000〜$2,500
5位DeepSeek-V3.2約$200〜$500
6位Qwen 3.5 Plus約$0(破産)

標準ベンチマークで上位に位置するQwen 3.5 Plusが、全モデル中最下位で残高ゼロという衝撃的な結果です。

なぜこのような乖離が生じるのか

標準ベンチマークの限界

graph TD
    A[標準ベンチマーク] --> B[知識テスト<br/>MMLU, ARC]
    A --> C[コーディング<br/>HumanEval, MBPP]
    A --> D[数学<br/>MATH, GSM8K]
    A --> E[推論<br/>BBH, HellaSwag]
    
    F[Vending-Bench 2] --> G[長期戦略]
    F --> H[財務管理]
    F --> I[リスク判断]
    F --> J[適応力]
    
    style A fill:#e8f5e9
    style F fill:#fff3e0

標準ベンチマークは静的な知識や単発のタスクを測定するのに優れています。しかし、以下の能力は測定できません:

  • 複数ステップにわたる意思決定の一貫性
  • 不確実性下での判断力
  • 長期的な結果を考慮した戦略的思考
  • トレードオフの評価と選択

ベンチマーク最適化の問題

AIモデルの開発では、標準ベンチマークのスコアを上げることが重要な開発指標になっています。これは「ベンチマークハッキング」とも呼ばれる現象を引き起こします:

  1. 過学習リスク:ベンチマークに似たパターンに特化して学習
  2. 汎化能力の低下:想定外のタスクへの対応力が犠牲に
  3. 見かけ上の性能と実用性能のギャップ:数字は良いが実務では使えない

コミュニティの反応

Reddit r/LocalLLaMAでの議論では、以下のような意見が見られました:

  • 「アクティブパラメータ数≠知性」:モデルの規模だけで能力は決まらない
  • アーキテクチャの重要性:MoE(Mixture of Experts)のルーティング効率が結果を左右する
  • 学習データの質:量だけでなく、データの質と多様性が重要

GLM-5が$8,000以上の利益を出してトップだった点も注目されています。標準ベンチマークでQwen 3.5より下位に位置するモデルが、実践的なタスクでは圧倒的に優れている場合があることを示しています。

AI評価の今後の方向性

多角的な評価の必要性

graph LR
    A[AI評価の未来] --> B[標準ベンチマーク<br/>知識・推論]
    A --> C[実践ベンチマーク<br/>Vending-Bench等]
    A --> D[ドメイン特化評価<br/>医療・法律・金融]
    A --> E[人間評価<br/>Chatbot Arena等]
    
    B --> F[総合的な<br/>モデル評価]
    C --> F
    D --> F
    E --> F

今回の結果は、単一のベンチマーク結果だけでモデルの優劣を判断すべきではないことを明確に示しています。今後は以下のような評価アプローチが重要になるでしょう:

  1. 多次元評価:知識、推論、実践、創造性など複数の軸での評価
  2. 実世界シミュレーション:Vending-Benchのような実践的なベンチマークの普及
  3. ドメイン特化評価:利用目的に合わせた専門的なテスト
  4. 継続的なモニタリング:一度のテストではなく、様々な条件下での評価

結論

Qwen 3.5 PlusのVending-Bench 2での破産は、ベンチマーク偏重のAI評価がいかに危険かを象徴する出来事です。標準ベンチマークでトップクラスのスコアを出すモデルが、実践的なシナリオでは最下位になりうるという事実は、AIモデル選択の際に「数字の裏にある実力」を見極める必要性を教えてくれます。

AIの真の能力を測るには、標準化されたテストだけでなく、現実世界の複雑さを反映した多様なベンチマークが不可欠です。Vending-Bench 2のような取り組みが、より健全なAI評価エコシステムの構築につながることを期待します。

参考資料

他の言語で読む

この記事は役に立ちましたか?

より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください!☕

著者について

JK

Kim Jangwook

AI/LLM専門フルスタック開発者

10年以上のWeb開発経験を活かし、AIエージェントシステム、LLMアプリケーション、自動化ソリューションを構築しています。Claude Code、MCP、RAGシステムの実践的な知見を共有します。