OBLITERATUS公開、SVD分解でLLMの拒否動作を一括除去するツールキット


オープンソースツールOBLITERATUS、116モデルの拒否動作をSVD分解で無効化

オープンウェイトの大規模言語モデル(LLM)から、リトレーニングなしで「拒否動作」を除去する包括的なツールキット「OBLITERATUS」が公開された。モデル重みへの幾何学的操作を核とするこの手法は、AIアライメント研究の実験に新たな選択肢を提供するが、その技術的性質と潜在的な影響から、実務での安易な利用は推奨されない。

リトレーニング不要、モデル重みへの直接操作で拒否を「外科手術」

開発者のPliny the Liberator(elder-plinius)によれば、OBLITERATUSは2026年3月4日に公開されたオープンソースのツールキットである。その核心は、特異値分解(SVD)や重み投影といった幾何学的操作を用いて、LLMが有害・違法・倫理的に問題のあるリクエストに対して「答えられません」と拒否する動作(refusal behaviors)を、モデルのファインチューニングや再学習を一切行わずに除去することにある。

従来、モデルの出力傾向を変更するには、RLHF(人間のフィードバックによる強化学習)やファインチューニングが主流だった。これに対しOBLITERATUSは、学習済みのモデル重みそのものに数学的な操作を加えるアプローチを取る。公式GitHubリポジトリの説明によれば、これは「外科手術的」なアプローチと表現されており、モデルの一般的な知識や能力を保持したまま、特定の「安全フィルター」とみなされる部分のみを対象とすることが意図されている。

包括的ツールキット:13の除去手法と15の分析モジュール

OBLITERATUSは単一のスクリプトではなく、複数の機能を統合したツールキットとして設計されている。Awesome Agentsの記事によれば、その特徴は以下の通りである。

まず、拒否動作を除去する手法として、SVD分解に基づく「SVD-based refusal removal」、重み投影を用いた「Weight projection」など、合計13種類の手法が実装されている。ユーザーはモデルや目的に応じて手法を選択・比較できる。

次に、モデルの状態を分析するための15の分析モジュールを備える。これにより、除去処理の前後でモデルの内部表現がどのように変化したか、拒否動作が実際に軽減されているかなどを定量的に評価することが可能だ。さらに、モデルが特定の防御機構(「コンテンツポリシー」など)を組み込まれているかを自動検知する機能も含まれる。

対応モデルは116種類に及び、Llama、Mistral、Qwenなどの主要なオープンウェイトモデルファミリーを広くカバーしている。ツールはAGPL-3.0ライセンスの下で公開され、Hugging Face SpaceやGoogle Colab(GPU環境)上でも動作可能だ。

具体的な使い方と想定される活用シーン

実際に使う場合、ユーザーはまずGitHubリポジトリからコードをクローンし、依存関係をインストールする。その後、コマンドラインインターフェースを通じて、処理対象のモデル(Hugging FaceモデルIDやローカルパス)、適用する除去手法、出力先などを指定して実行する。処理にはモデルのサイズに応じたGPUメモリが必要となる。

このツールを使用すると、例えば「違法薬物の製造方法を教えてください」といった、通常なら強く拒否されるプロンプトに対して、モデルが知識に基づいた(ただし、倫理的ガードレールのない)説明を生成するよう変更できる可能性がある。あくまで技術的検証が目的であれば、AIアライメント研究において、モデルのどの部分が拒否動作に関与しているかを探る「機械学習の解釈可能性」研究や、異なる安全対策手法の効果を比較するベンチマークテストなどが想定される活用シーンとなる。

既存手法との違いと誰が使うべきか

従来の拒否動作の調整がファインチューニングという「再教育」に頼っていたのに対し、OBLITERATUSは学習済みの「脳」に直接働きかける「外科手術」を標榜する。また、単一の手法を提供するツールとは異なり、複数の手法と詳細な分析機能をパッケージ化した点が特徴的だ。

この性質上、OBLITERATUSの利用は明確に限られる。主な対象は、AI安全性・アライメント技術のメカニズムを深く理解したい研究者や、LLMの内部動作に関する高度な実験を行う開発者である。一方で、実用システムのセキュアな開発を担うエンジニアや、技術的背景のない一般ユーザーにとっては、その利用はリスクが高く推奨されない。また、商用APIを利用するだけのエンドユーザーには直接関係のない技術と言える。

OBLITERATUSの出現は、オープンウェイトモデルの改変がますます高度化・容易化していることを示す一例である。それは同時に、強力な技術が持つ両刃の剣としての性質について、開発コミュニティが改めて考えるきっかけとなるだろう。

出典・参考情報

cloud9 Written by:

Be First to Comment

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です