リニアアンサンブルがLLMウォーターマークを消去する：プロダクションAIシステムにおける分布摂動の脆弱性

マルチモデルアクセスが統計的ウォーターマーキングを破壊する理由と、エンタープライズAIガバナンス、コンプライアンス、セキュリティへの影響

要約

わずか2つのモデルによるリニアアンサンブルでウォーターマーク検出率が>99%から<5%に低下し、分布平均化により統計的シグネチャが消去される Linear Ensembles Wash Away Watermarks。
フィジカルAIシステム（ロボティクス、エッジAI、マルチエージェントワークフロー）は高リスク：冗長性、フォールバックモデル、センサーフュージョンから自然にアンサンブルが発生する。
EU AI ActおよびNIST AI RMFのコンプライアンスがリスクに：ウォーターマーキングスキームはシングルモデルアクセスを前提としているが、プロダクションシステムは本質的にマルチモデルである。
緩和策にはトレードオフが必要：暗号化ウォーターマーキングはアンサンブルに耐えるがハードウェア依存を増加させ、適応型スキームはロバスト性を向上させるがレイテンシが増加する。

はじめに：モデル普及時代におけるウォーターマーキングのパラドックス

大規模言語モデル（LLM）の急速な民主化は、緊急のガバナンス課題を生み出している。AI生成コンテンツと人間が作成したテキストを確実に区別するにはどうすればよいか？ ウォーターマーキングは、トークン分布に知覚不可能な統計的シグネチャを埋め込み、事後検出を可能にする主要な技術的ソリューションとして登場した。初期のスキームであるレッド-グリーンリスト (Kirchenbauer et al., 2023)や指数最小サンプリング (Aaronson, 2023)は、管理された条件下でほぼ完璧な検出率（>99%の真陽性率、<1%の偽陽性率）を実証した。2025年までに、ウォーターマーキングは学術的好奇心からエンタープライズの必須要件へと移行し、**EU AI Act（第52条）**では「AI生成コンテンツを識別するための技術的措置」を明示的に要求し、**NISTのAIリスク管理フレームワーク（AI RMF 1.0）**では、高リスクシステムにおける透明性メカニズムのコアとしてウォーターマーキングを推奨している (NIST AI RMF)。

しかし、このガバナンスの成功事例には重大な欠陥がある。ウォーターマーキングスキームはシングルモデルアクセスを前提としている。実際には、現代のAIシステムは単一のモデルを公開することはほとんどない。代わりに、リニアアンサンブル—複数のLLMの加重組み合わせ—を展開し、コスト、レイテンシ、冗長性、専門性を最適化している。プロダクションシステムでは、以下のようなクエリがルーティングされる場合がある：

7Bパラメータモデル：低レイテンシのエッジ推論用（例：NVIDIA Jetson Orin）
70Bパラメータモデル：高精度のクラウド推論用
ファインチューニングされた専門モデル：ドメイン固有のタスク用（例：法律や医療）
フォールバックモデル：プライマリシステムが利用できない場合

ユーザーがこれらのモデルに同時に（例：APIロードバランシング）または順次（例：エージェントワークフロー）アクセスすると、結果として得られるテキストはウォーターマークされた分布のリニアコンビネーションとなる。「Linear Ensembles Wash Away Watermarks」で発表された研究は、この些細な操作—トークンロジットの平均化—がウォーターマークをほぼ確実に消去することを示している。わずか2つのモデルによるリニアアンサンブルで、検出率は>99%から**<5%**に低下し、ウォーターマーキングスキームがパラフレージング、翻訳、敵対的攻撃に対して堅牢であっても同様である。

フィジカルAIスタック：ウォーターマークの脆弱性が安全リスクとなる場所

この脆弱性は単なる学術的な懸念ではなく、安全性、コンプライアンス、トレーサビリティのためにウォーターマーキングがますます導入されているフィジカルAIシステムに直接影響を与える。以下のフィジカルAIスタックを考えてみよう：

Loading diagram...

このスタックでは、ウォーターマーキングはREASONレイヤー（例：LLM生成のアクションプランを追跡するため）またはACTレイヤー（例：ロボットコマンドを監査するため）で適用されることが多い。しかし、フィジカルAIではリニアアンサンブルが至る所に存在する：

エッジ-クラウドハイブリッド推論（SENSE → COMPUTE → REASON）
- ロボティクスシステムは、小型のオンデバイスモデル（例：Jetson Orin上の7Bパラメータ）をリアルタイムの障害物回避に使用し、大型のクラウドモデル（例：70Bパラメータ）を高レベルのプランニングに使用する場合がある。
- 最終的なアクションプランは、両モデルの出力の加重平均となり、ウォーターマークが消去される。
マルチエージェントオーケストレーション（ORCHESTRATE → REASON）
- 製造セルでは、専門エージェントを3つ展開する場合がある：
  1. 品質検査エージェント（欠陥検出用にファインチューニング）
  2. 予知保全エージェント（設備監視用にファインチューニング）
  3. タスクプランニングエージェント（汎用LLM）
- オーケストレータ（例：ROS 2またはKubernetes）がそれらの出力を統合コマンドストリームにマージし、ウォーターマーク信号を破壊する。
フォールバックと冗長性（COMPUTE → REASON → ACT）
- プライマリモデルが失敗した場合（例：ネットワークレイテンシによる）、フォールバックモデルが引き継ぐ。
- 結果として得られるテキストは、2つのウォーターマークされた分布の混合となり、検出が不可能になる。

ウォーターマーキングのパラドックス：ガバナンスと現実のギャップ

このパラドックスの核心は次の通りである。ウォーターマーキングスキームは、ユーザーが単一のモデルと対話する世界を想定して設計されているが、プロダクションシステムは本質的にマルチモデルである。このミスマッチは、3つの重大な障害モードを生み出す：

コンプライアンス監査における偽陰性
- EU AI Actの下では、高リスクAIシステムは「AI生成コンテンツの識別を可能にする」ことが求められている (EU AI Act, 第52条)。
- 2つのウォーターマークされたモデルのリニアアンサンブルを使用する製造ロボットは、検出不可能な出力を生成し、善意の努力にもかかわらずコンプライアンス違反となる。
フィジカルAIにおける安全リスク
- ウォーターマーキングは、ロボットコマンドの起源を追跡するために使用されることが多い（例：障害のデバッグや責任の割り当て）。
- リニアアンサンブルがウォーターマークを消去すると、根本原因分析が不可能となり、自律システムにおける安全性の盲点が生じる。
敵対的な悪用
- 攻撃者は、複数のモデルにクエリを送信し、その出力を平均化することで、ウォーターマーキングを簡単に回避できる。
- これは、パラフレージングやトークン置換などの敵対的攻撃よりもはるかに安価で信頼性が高い。

タイムライン：学術的好奇心からプロダクション危機へ

LLMウォーターマーキングの進化とリニアアンサンブルとの衝突は、4つの異なるフェーズを経てきた：

Loading diagram...

コア脆弱性：リニアアンサンブルがウォーターマークを破壊する理由

リニアアンサンブルがウォーターマークを効果的に消去する理由を理解するには、ウォーターマーキングスキームがトークン分布レベルでどのように機能するかを検討する必要がある。ほとんどのスキームは、LLMの出力分布のロジットを摂動させることで動作する。例えば：

レッド-グリーンリスト (Kirchenbauer et al., 2023)：トークンは「レッド」（ウォーターマーク）と「グリーン」（非ウォーターマーク）リストに分割される。生成中に、レッドトークンのロジットは固定バイアス（例：+2.0）でブーストされ、サンプリングされる可能性が高くなる。
指数最小サンプリング (Aaronson, 2023)：疑似乱数関数が各トークン位置に「ウォーターマークキー」を選択する。ロジットはこのキーに基づいて指数加重され、検出可能な統計的バイアスを生成する。

「Linear Ensembles Wash Away Watermarks」の重要な洞察は、これらの摂動がロジット空間で加算的であることである。2つのウォーターマークされたモデルがリニアアンサンブルで組み合わされると、結果として得られるロジットは次のようになる：

\text{logits}_{\text{ensemble}} = \alpha \cdot \text{logits}_{\text{model1}} + (1 - \alpha) \cdot \text{logits}_{\text{model2}}

ここで$\alpha \in [0, 1]$はアンサンブルの重みである。ウォーターマーク信号—特定のトークンに追加された固定バイアス—は、平均化操作によって希釈される。論文はこの直感を理論的な境界で形式化している：固定バイアス$b$をトークンのサブセットに追加するウォーターマーキングスキームでは、$k$個のモデルのリニアアンサンブルに対する検出率$D$は次のようになる：

D \leq \frac{1}{2} + \frac{1}{2} \cdot \text{erf}\left(\frac{b \sqrt{k}}{2 \sigma}\right)

ここで$\sigma$は、ヌル仮説（ウォーターマークなし）の下でのロジットの標準偏差である。$k=2$および典型的な$b$と$\sigma$の値では、この境界により検出率は**<5%**に低下する Linear Ensembles Wash Away Watermarks。

現実世界への影響：リニアアンサンブルが避けられない場面

リニアアンサンブルは理論的なエッジケースではなく、現代のAIシステムにおけるデフォルトアーキテクチャである。以下は、ウォーターマークの脆弱性が重大なリスクとなる3つの高影響シナリオである：

1. エッジ-クラウドハイブリッドロボティクス

ユースケース：倉庫ロボットがオンデバイスの7Bパラメータモデル（Jetson Orin）をリアルタイムナビゲーションに使用し、クラウドの70Bパラメータモデルを高レベルのタスクプランニングに使用する。
アンサンブルメカニズム：最終的なアクションプランは、両モデルの出力の加重平均（例：クラウド70%、エッジ30%）となる。
ウォーターマークの失敗：クラウドモデルのウォーターマークがエッジモデルの出力によって希釈され、検出が不可能になる Linear Ensembles Wash Away Watermarks。
安全リスク：ロボットが事故を起こした場合、責任を割り当てることができないため、ウォーターマークが消去される。

2. マルチエージェントオーケストレーション

ユースケース：製造セルに3つの専門エージェントを展開する：
1. 品質検査エージェント（欠陥検出用にファインチューニング）
2. 予知保全エージェント（設備監視用にファインチューニング）
3. タスクプランニングエージェント（汎用LLM）
アンサンブルメカニズム：オーケストレータ（例：ROS 2）がそれらの出力を統合コマンドストリームにマージする。
ウォーターマークの失敗：各エージェントのウォーターマークが最終コマンドで平均化されて消去される Linear Ensembles Wash Away Watermarks。
コンプライアンスリスク：このシステムは**EU機械規則（EU