Heretic 1.2 — 量子化でVRAM 70%削減とMPOA技術の全貌

Heretic 1.2 — 量子化でVRAM 70%削減とMPOA技術の全貌

Heretic 1.2がリリース。4bit量子化でVRAM使用量を最大70%削減し、MPOAで高品質なアブリテレーションを実現。ローカルLLM運用コスト削減の最新手法を解説します。

概要

ローカルLLMを運用する上で、VRAM不足は最大のボトルネックです。大規模モデルのアブリテレーション(制限解除)処理には通常、フルプレシジョンでのモデルロードが必要で、数十GBのVRAMを消費します。

2026年2月、Heretic 1.2がリリースされました。Reddit r/LocalLLaMAで268ポイントを獲得し、コミュニティから高い評価を受けています。本バージョンでは、4bit量子化によるVRAM使用量最大70%削減と、Magnitude-Preserving Orthogonal Ablation(MPOA)という新しいアブリテレーション手法が導入されました。

Hereticとは何か

Hereticは、トランスフォーマーベースの言語モデルからセンサーシップ(安全性アライメント)を自動的に除去するツールです。初回リリースから3ヶ月で、コミュニティによって1,300以上のモデルがHereticを使って公開されています。

Hereticの核心技術は以下の2つです:

  • 方向性アブレーション(Directional Ablation):モデルの特定方向のベクトルを除去することで、制限を解除
  • TPEベースパラメータ最適化Optunaを活用し、拒否回数とKLダイバージェンスを同時最小化
graph TD
    A[元のモデル] --> B[制限方向ベクトルの特定]
    B --> C[方向性アブレーション]
    C --> D[Optunaによるパラメータ最適化]
    D --> E{品質チェック}
    E -->|拒否率低下 + KL低| F[高品質な制限解除モデル]
    E -->|品質不足| D

VRAM 70%削減:LoRAベース量子化エンジン

従来の課題

従来のアブリテレーション処理では、モデル全体をフルプレシジョン(FP16/BF16)でVRAMにロードする必要がありました。例えば、70Bパラメータのモデルでは約140GBのVRAMが必要です。

新しいアプローチ

Heretic 1.2では、コントリビューターのaccemlccが実装したLoRAベースのアブリテレーションエンジンが導入されました。

# Heretic設定例
quantization: bnb_4bit    # 4bit量子化を有効化
orthogonalize_direction: true  # MPOAを有効化
row_normalization: full        # 行正規化

このアプローチの仕組みは以下の通りです:

  1. 4bit量子化ロード:bitsandbytesを使用してモデルを4bitで読み込み、VRAM使用量を最大70%削減
  2. LoRAアダプター最適化:PEFTベースで、量子化された状態でアブリテレーションパラメータを最適化
  3. フルプレシジョンエクスポート:元のモデルをシステムRAMに再ロードし、最適化されたLoRAアダプターを適用
graph LR
    A[モデル<br/>FP16 140GB] -->|4bit量子化| B[量子化モデル<br/>4bit 約35GB]
    B -->|LoRA最適化| C[LoRAアダプター<br/>数MB]
    D[元モデル<br/>システムRAM] -->|LoRA適用| E[制限解除モデル<br/>FP16 フル精度]
    C --> E

実際のVRAM比較

モデルサイズ従来の方式Heretic 1.2(4bit)削減率
7B~14GB~4.2GB70%
13B~26GB~7.8GB70%
70B~140GB~42GB70%

消費者向けGPU(RTX 4090、24GB VRAM)でも13Bクラスのモデルを処理できるようになりました。

MPOA:高品質アブリテレーションの新手法

Magnitude-Preserving Orthogonal Ablationとは

MPOAは、Jim Laiが開発したアブリテレーション手法で、従来の方法と比較してモデルの品質劣化を最小限に抑えることができます。

従来のアブリテレーションでは、制限方向のベクトルを除去する際に重みの大きさ(ノルム)が変化してしまい、モデルの能力が低下する問題がありました。MPOAは以下のアプローチでこれを解決します:

  1. 直交射影:制限方向に直交する部分空間にベクトルを射影
  2. ノルム保存:射影後のベクトルのノルムを元の大きさに復元
  3. Optuna最適化:重みパラメータをOptunaで最適化し、層選択を自動化

ベンチマーク比較

Hereticの公式例として、gpt-oss-20bモデルでの比較結果があります:

モデルUGIスコアW/10NatIntWriting
Heretic版(MPOA)39.05勝利勝利勝利
従来のDerestricted版34.22

Heretic版はすべてのカテゴリで従来版を上回り、UGIスコアで約14%の改善を達成しています。

設定方法

# MPOA有効化設定
orthogonalize_direction: true
row_normalization: full

たった2行の設定追加で、MPOAの恩恵を受けることができます。

その他の注目機能

ビジョン言語モデル(VLM)対応

Heretic 1.2では、コントリビューターのanrpによってVLMのサポートが追加されました。テキストデコーダー部分のみをアブリテレートし、画像エンコーダーはそのまま保持されます。

セッション自動保存・再開

長時間の最適化実行中にクラッシュしても、Hereticは自動的に進捗を保存します。再起動すると中断した箇所から再開できます。Ctrl+Cで手動中断してから後で再開することも可能です。

実践ガイド:Heretic 1.2の使い方

前提条件

  • Python 3.10以上
  • CUDA対応GPU(4bit量子化にはNVIDIA GPUが必要)
  • 十分なシステムRAM(フルプレシジョンエクスポート用)

インストールと実行

# Hereticのインストール
pip install heretic

# 基本的な実行(4bit量子化 + MPOA)
heretic --model meta-llama/Llama-3.1-8B-Instruct \
  --quantization bnb_4bit \
  --orthogonalize-direction true \
  --row-normalization full

推奨ハードウェア構成

graph TD
    subgraph コンシューマー向け
        A[RTX 4090<br/>24GB VRAM] -->|4bit量子化| B[最大13Bモデル]
    end
    subgraph プロシューマー向け
        C[RTX 5090<br/>32GB VRAM] -->|4bit量子化| D[最大20Bモデル]
    end
    subgraph サーバー向け
        E[A100 80GB] -->|4bit量子化| F[最大70Bモデル]
    end

コミュニティの反応

Reddit r/LocalLLaMAでの投稿は268ポイントを獲得し、コミュニティから高い評価を受けています。HuggingFaceでは、Hereticを使用して作成されたモデルが1,300以上公開されており、これは全アブリテレーションモデルの3分の1以上を占めています。

特に注目されているポイント:

  • コスト効率:消費者向けGPUでの大規模モデル処理が可能に
  • 品質向上:MPOAによる従来手法を超える品質
  • 使いやすさ:完全自動化されたワークフロー

まとめ

Heretic 1.2は、ローカルLLM運用において2つの大きな課題を同時に解決しました:

  1. VRAM使用量の大幅削減:4bit量子化により、これまで高価なGPUが必要だった処理が消費者向けハードウェアで実行可能に
  2. アブリテレーション品質の向上:MPOAにより、モデルの能力を維持しながら制限を解除

ローカルLLMの民主化が加速する中、Hereticのようなツールは誰もが高品質なモデルを利用できる環境を構築する重要な役割を果たしています。

参考資料

他の言語で読む

この記事は役に立ちましたか?

より良いコンテンツを作成するための力になります。コーヒー一杯で応援してください!☕

著者について

JK

Kim Jangwook

AI/LLM専門フルスタック開発者

10年以上のWeb開発経験を活かし、AIエージェントシステム、LLMアプリケーション、自動化ソリューションを構築しています。Claude Code、MCP、RAGシステムの実践的な知見を共有します。