FunctionGemma 270M — 超小型モデルでマルチターンtool calling精度90-97%達成
270Mパラメータの超小型モデルFunctionGemmaをファインチューニングし、10-39%から90-97%のtool calling精度を達成した事例を分析します。スケーリング法則だけが答えではない証拠です。
概要
Googleが発表したFunctionGemma 270Mは、function callingに特化した270Mパラメータの超小型モデルです。スマートフォンのCPUで125 tok/sで動作できるほど軽量ですが、マルチターンtool callingでは基本精度が10-39%に留まっていました。
Distil Labsチームがこのモデルをknowledge distillationでファインチューニングした結果、120Bの教師モデルに匹敵、あるいはそれを上回る90-97%の精度を達成しました。モデルサイズが445倍小さいにもかかわらずです。
これは「大きなモデルだけが答え」というスケーリング法則の神話に挑戦する強力な追加証拠です。
なぜマルチターンは難しいのか
シングルターンのfunction callingは比較的単純です。しかしマルチターンでは以下の問題が複合的に作用します:
- 会話履歴の追跡:前回のfunction call結果を記憶する必要がある
- 意図変更への対応:会話中にユーザーの意図が変わるケース
- 累積エラー:シングルターン80%精度でも5ターンでは33%に急落(0.8⁵)
基本FunctionGemmaの5ターン精度を計算すると、事実上使用不可能な水準です:
| タスク | シングルターン | 5ターン予測 |
|---|---|---|
| スマートホーム制御 | 38.8% | ~0.9% |
| バンキング音声アシスタント | 23.4% | ~0.07% |
| シェルコマンド実行 | 9.9% | ~0.001% |
ファインチューニング結果
Distil Labsは120B GPT-oss教師モデルからknowledge distillationを実施しました。結果は驚くべきものでした:
graph LR
A[基本FunctionGemma<br/>10-39%] -->|ファインチューニング| B[チューニング済み<br/>90-97%]
C[120B教師モデル<br/>92-97%] -.->|知識蒸留| B
style A fill:#ff6b6b,color:#fff
style B fill:#51cf66,color:#fff
style C fill:#339af0,color:#fff
タスク別詳細結果
| タスク | 基本 | チューニング後 | 教師(120B) |
|---|---|---|---|
| スマートホーム制御 | 38.8% | 96.7% | 92.1% |
| バンキング音声アシスタント | 23.4% | 90.9% | 97.0% |
| シェルコマンド実行 | 9.9% | 96.0% | 97.0% |
スマートホーム制御とシェルコマンド実行では120B教師モデルを超える成果を示しました。バンキングタスクのみ教師に及びませんでしたが、14個の複雑な関数とASRノイズを含む最も難度の高いタスクでした。
核心インサイト
1. データ品質 > モデルサイズ
同一の高品質データセットでQwen3-0.6BとFunctionGemma 270Mの両方が優秀な性能を達成しました。核心はモデルサイズではなく、タスクに特化した高品質な学習データです。
2. 445倍小さいモデルの実用的意味
| 項目 | 120B教師 | 270Mチューニング済み |
|---|---|---|
| パラメータ | 120,000M | 270M |
| 量子化サイズ | ~60GB+ | ~288MB |
| 実行環境 | GPUサーバー | スマートフォンCPU |
| 推論速度 | - | 125 tok/s |
エッジデバイス、モバイルアプリ、ブラウザ内推論など、GPUなしでもproduction-ready tool callingが実現可能になります。
3. スケーリング法則への反論
最近のDeepSeek、Qwenなどオープンソースモデルの躍進と合わせて、今回の結果は「パラメータを増やすことだけが性能向上の道」という仮定への追加反論です。特化したタスクにおいて適切なファインチューニングはモデルサイズの限界を克服できます。
オープンソースリソース
すべてのモデルとデータセットが公開されており、直接再現可能です:
- スマートホームモデル:distil-labs/distil-home-assistant-functiongemma
- スマートホームデータ:distil-labs/distil-smart-home
- バンキングアシスタントデータ:distil-labs/distil-voice-assistant-banking
- シェルコマンドデータ:distil-labs/distil-SHELLper
結論
FunctionGemma 270Mのファインチューニング事例は、AI業界に重要なメッセージを投げかけます。270Mパラメータでも120Bモデルに勝てるということは、すべての問題に巨大モデルが必要ではないことを意味します。
エッジAI、モバイルデプロイ、IoTデバイスなど制約のある環境でのtool calling需要が増加する中、このような超小型特化モデルの可能性はさらに注目されるでしょう。
参考資料
- Making FunctionGemma Work: Multi-Turn Tool Calling at 270M Parameters — Distil Labs公式ブログ
- Redditディスカッション — r/LocalLLaMA
- FunctionGemmaモデルカード — HuggingFace
他の言語で読む
- 🇰🇷 한국어
- 🇯🇵 日本語(現在のページ)
- 🇺🇸 English
- 🇨🇳 中文
この記事は役に立ちましたか?
より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください!☕