FunctionGemma 270M — 超小型モデルでマルチターンtool calling精度90-97%達成

FunctionGemma 270M — 超小型モデルでマルチターンtool calling精度90-97%達成

270Mパラメータの超小型モデルFunctionGemmaをファインチューニングし、10-39%から90-97%のtool calling精度を達成した事例を分析します。スケーリング法則だけが答えではない証拠です。

概要

Googleが発表したFunctionGemma 270Mは、function callingに特化した270Mパラメータの超小型モデルです。スマートフォンのCPUで125 tok/sで動作できるほど軽量ですが、マルチターンtool callingでは基本精度が10-39%に留まっていました。

Distil Labsチームがこのモデルをknowledge distillationでファインチューニングした結果、120Bの教師モデルに匹敵、あるいはそれを上回る90-97%の精度を達成しました。モデルサイズが445倍小さいにもかかわらずです。

これは「大きなモデルだけが答え」というスケーリング法則の神話に挑戦する強力な追加証拠です。

なぜマルチターンは難しいのか

シングルターンのfunction callingは比較的単純です。しかしマルチターンでは以下の問題が複合的に作用します:

  • 会話履歴の追跡:前回のfunction call結果を記憶する必要がある
  • 意図変更への対応:会話中にユーザーの意図が変わるケース
  • 累積エラー:シングルターン80%精度でも5ターンでは33%に急落(0.8⁵)

基本FunctionGemmaの5ターン精度を計算すると、事実上使用不可能な水準です:

タスクシングルターン5ターン予測
スマートホーム制御38.8%~0.9%
バンキング音声アシスタント23.4%~0.07%
シェルコマンド実行9.9%~0.001%

ファインチューニング結果

Distil Labsは120B GPT-oss教師モデルからknowledge distillationを実施しました。結果は驚くべきものでした:

graph LR
    A[基本FunctionGemma<br/>10-39%] -->|ファインチューニング| B[チューニング済み<br/>90-97%]
    C[120B教師モデル<br/>92-97%] -.->|知識蒸留| B
    style A fill:#ff6b6b,color:#fff
    style B fill:#51cf66,color:#fff
    style C fill:#339af0,color:#fff

タスク別詳細結果

タスク基本チューニング後教師(120B)
スマートホーム制御38.8%96.7%92.1%
バンキング音声アシスタント23.4%90.9%97.0%
シェルコマンド実行9.9%96.0%97.0%

スマートホーム制御とシェルコマンド実行では120B教師モデルを超える成果を示しました。バンキングタスクのみ教師に及びませんでしたが、14個の複雑な関数とASRノイズを含む最も難度の高いタスクでした。

核心インサイト

1. データ品質 > モデルサイズ

同一の高品質データセットでQwen3-0.6BとFunctionGemma 270Mの両方が優秀な性能を達成しました。核心はモデルサイズではなく、タスクに特化した高品質な学習データです。

2. 445倍小さいモデルの実用的意味

項目120B教師270Mチューニング済み
パラメータ120,000M270M
量子化サイズ~60GB+~288MB
実行環境GPUサーバースマートフォンCPU
推論速度-125 tok/s

エッジデバイス、モバイルアプリ、ブラウザ内推論など、GPUなしでもproduction-ready tool callingが実現可能になります。

3. スケーリング法則への反論

最近のDeepSeek、Qwenなどオープンソースモデルの躍進と合わせて、今回の結果は「パラメータを増やすことだけが性能向上の道」という仮定への追加反論です。特化したタスクにおいて適切なファインチューニングはモデルサイズの限界を克服できます。

オープンソースリソース

すべてのモデルとデータセットが公開されており、直接再現可能です:

結論

FunctionGemma 270Mのファインチューニング事例は、AI業界に重要なメッセージを投げかけます。270Mパラメータでも120Bモデルに勝てるということは、すべての問題に巨大モデルが必要ではないことを意味します。

エッジAI、モバイルデプロイ、IoTデバイスなど制約のある環境でのtool calling需要が増加する中、このような超小型特化モデルの可能性はさらに注目されるでしょう。

参考資料

他の言語で読む

この記事は役に立ちましたか?

より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください!☕

著者について

JK

Kim Jangwook

AI/LLM専門フルスタック開発者

10年以上のWeb開発経験を活かし、AIエージェントシステム、LLMアプリケーション、自動化ソリューションを構築しています。Claude Code、MCP、RAGシステムの実践的な知見を共有します。