お問い合わせ
2m read

データポイズニング定義、攻撃タイプ、および防御

このページの内容

Cato Networks、2024年 Gartner® Magic Quadrant™ のシングルベンダーSASE部門でリーダーに選出

レポートをダウンロード

データポイズニングは、AIまたは機械学習システムが学習するデータに対する意図的な攻撃です。攻撃者は、ライブアプリケーションを直接攻撃するのではなく、データセット、ラベルセット、リトリーバルコーパス、またはトレーニングパイプラインを破損させ、モデルが誤ったパターンを学習し、後に攻撃者の目標に沿った方法で振る舞うようにします。

これがデータポイズニングがセキュリティおよびAIチームにとって困難である理由です。損害は、誰もモデルの出力を見る前に植え付けられる可能性があります。汚染されたモデルは、標準テストでは正常に見え、広範な精度チェックを通過し、攻撃者が気にする特定のケースでは失敗することがあります。

短い定義:データポイズニングは、AIシステムが汚染された行動を学習するように、トレーニング、ファインチューニング、ラベリング、またはリトリーバルデータを意図的に操作することです。

データポイズニングの仕組み

ほとんどのポイズニング攻撃は、技術的な詳細がモデルタイプやデータソースによって異なる場合でも、同じ基本的なパターンに従います。

  1. 攻撃者はデータパイプラインへの道を見つけます。その道は、公開データセット、スクレイピングされたウェブソース、クラウドラベリングプロセス、ベンダー提供のモデル、注釈ツール、またはRAGシステムによって使用されるリトリーバルコーパスである可能性があります。
  2. 攻撃者はデータを追加、変更、または削除します。彼らはラベルを反転させたり、トリガーパターンを挿入したり、例の分布を歪めたり、重要な反例を削除したり、後のリトリーバルに影響を与えるように設計された指示を持つ文書を埋め込んだりすることがあります。
  3. モデルは汚染されたデータから学習します。トレーニングまたはファインチューニング中、システムは攻撃者が制御するパターンを正当な証拠として扱います。
  4. 損害は後に表面化します。モデルは、正確性が低下したり、偏りが増したり、特定の条件下でのみ発動する隠れたトリガーに対して脆弱になる可能性があります。

攻撃者は、最終的に展開されたアプリケーションへのアクセスを必要としないことが多いです。彼らが上流のデータに影響を与えることができれば、実際の生産環境に触れることなく完成したモデルに影響を与えることができるかもしれません。

それが偶発的なデータ破損とどのように異なるか

不正確なデータは一般的です。ファイルが壊れたり、ラベルが間違っていたり、ソースがずれたり、重複が紛れ込んだり、エッジケースが見逃されたりします。それらはデータ品質の問題です。データポイズニングは異なります。なぜなら、腐敗が意図的で敵対的だからです。

その区別は対応を変えます。偶発的な腐敗は通常、品質チェック、検証、クリーンアップで対処されます。データポイズニングにはセキュリティの考え方が必要です:出所、アクセス制御、脅威モデリング、監査トレイル、異常検出、そして一部の入力が敵対的である可能性があるという仮定です。

データポイズニング攻撃の種類

ポイズニング攻撃は通常、攻撃者の目標によってグループ化されます。いくつかはモデルを広く劣化させます。他ははるかに正確であるため、気づきにくいのです。

ラベル反転攻撃

ラベル反転攻撃では、攻撃者が選択したトレーニング例のラベルを変更します。スパムが正当なものとしてマークされます。詐欺が通常のものとしてマークされます。悪意のあるサンプルが安全なものとしてマークされます。その後、モデルは入力と結果の間の誤った関係を学習します。

バックドアまたはトロイの木馬攻撃

バックドア攻撃は、モデルがほとんどの時間正常に動作するように教えますが、トリガーが現れると失敗します。トリガーは、画像内の視覚的マーク、テキスト内のフレーズ、ファイル内のパターン、または攻撃者が制御する他の信号である可能性があります。BadNetsは、モデルが隠れたバックドアを持ちながらも強力なクリーンパフォーマンスを維持できることを示すことで、この攻撃のクラスを広く知らしめました。

ターゲットポイズニング

ターゲットポイズニングは、特定の入力に対するモデルの挙動を変更しながら、一般的なパフォーマンスは大きく損なわないようにします。これは、防御者が最も懸念するバージョンです。なぜなら、普通のダッシュボードは全体的な精度が健康的に見える一方で、モデルが狭い高価値のケースで静かに間違っている可能性があるからです。

可用性攻撃

可用性攻撃は、より微妙ではありません。目標は、モデルのパフォーマンスを広く低下させて、システムが信頼できなくなるか、使用できなくなることです。これらの攻撃は、失敗が多くのケースで目に見えるため、ターゲットポイズニングよりも検出が容易です。

RAGシステムにおけるリトリーバルポイズニング

現代のLLMアプリケーションは、モデルが回答する前に外部の知識ベースを参照するリトリーバル拡張生成(RAG)を使用することがよくあります。それは別のポイズニングの表面を作り出します。悪意のある文書がリトリーバルコーパスに入ると、モデルは後でそれを取得し、信頼できるコンテキストとして扱う可能性があります。

最近のSilentRetrievalのような攻撃に関する研究は、これがなぜ重要であるかを示しています:毒された文書は流暢で関連性があるように書かれることができ、単純な品質チェックは弱い防御となります。RAGシステムにとって、データセットは元のトレーニングセットだけではありません。推論時にモデルが読む知識ベースでもあります。

ポイズニングがAIライフサイクルに入る場所

一般的な誤解は、ポイズニングがモデルのトレーニング中にのみ発生するものだと考えることです。実際には、汚染はデータが収集、ラベル付け、移動、変換、または取得されるほぼどこにでも入る可能性があります。

  • 収集:ソースデータ、スクレイピングデータ、公開データセット、ユーザー提出の記録、またはセンサーフィードを汚染すること。
  • 注釈:人間のラベル、クラウドソーシングされたラベル、またはベンダーのラベリングワークフローを操作すること。
  • 集約:複数のソースからデータを結合する際の改ざん。
  • 前処理:クリーニング、変換、重複排除、または特徴エンジニアリング中にデータを変更すること。
  • トレーニングとファインチューニング:モデルをトレーニングするために使用されるデータや既存のモデルを適応させるためのデータを汚染すること。
  • 取得:RAGシステムが使用中にクエリを実行するコーパスに敵対的な文書を追加すること。

このライフサイクルの視点は重要です。なぜなら、トレーニングステップのみに防御を置くと、早期に侵入した攻撃を見逃すからです。RAGは別のギャップを生み出します:攻撃は、モデルが展開後に取得する資料を通じて後から侵入する可能性があります。

データ汚染が検出しにくい理由

最も困難な汚染攻撃は、モデルが健康に見えるように設計されています。全体的な精度は低下しないかもしれません。検証テストは合格するかもしれません。汚染された挙動は、トリガー、ターゲットクラス、または狭い入力パターンが存在する場合にのみ現れることがあります。

これが、研究の例が有用である理由ですが、慎重な解釈が必要な理由でもあります。バックドア研究は、モデルがクリーンな入力に対しては良好に機能し、トリガーされた入力に対しては失敗する可能性があることを示しています。RAGの汚染作業は、悪意のある取得文書が単純な流暢さや困惑度のチェックでフラグを立てるのが難しいことを示しています。実際の教訓は、検出が不可能であるということではなく、検出だけでは不十分であるということです。

警告サインには以下が含まれる可能性があります:

  • 既知のデータ、モデル、またはコードの変更によって説明できない突然の精度の低下。
  • グループ、クラス、または入力タイプ間での予期しないバイアスや一貫性のないパフォーマンス。
  • 特定のクラス、フレーズ、特徴、ソース、または文書ファミリーに集中した誤分類。
  • 広範なテストでは正常に機能するが、狭いトリガー条件下で繰り返し失敗するモデル。

データポイズニングは、同様の用語がしばしば緩やかに使用される敵対的AIの広い分野に位置しています。最も明確な区別はタイミングです:データポイズニングはシステムが学習する内容を腐敗させますが、他の多くの攻撃はシステムの使用中の挙動を操作します。

脅威 データポイズニングとどのように異なるか
プロンプトインジェクション LLMの指示やコンテキストに対するランタイム攻撃。データポイズニングは学習データまたは取得データを変更します。
敵対的な例 入力は推論時に訓練されたモデルを欺くために作成されます。ポイズニングは学習の前または最中にデータを変更します。
モデルポイズニング。 攻撃者はモデルのパラメータ、勾配、または更新を直接変更します。データポイズニングはモデルが学習するデータを通じて機能します。
• モデルの盗難 攻撃者はモデルを抽出または模倣します。ポイズニングはモデルの挙動を腐敗させます。
データの腐敗 データは偶然に間違っている可能性があります。ポイズニングは意図的で敵対的です。

短いバージョン:データポイズニングは学習の前または最中に発生し、プロンプトインジェクションや敵対的な例は使用中に発生します。

データポイズニングを防止し、軽減する方法

モデルが汚染されたデータから学習した後のクリーンアップは困難であるため、最良の防御はトレーニングの前に始まり、展開を通じて続きます。目標は、データの影響を可視化し、制御可能にし、可能な限り可逆的にすることです。

トレーニングの前

  • データの出所を追跡し、チームが記録の出所と信頼できるソースを把握できるようにします。
  • 特に公開データセット、スクレイピングされたコンテンツ、ユーザーの提出物、第三者のデータフィードに対して、データを取り込む際に検証とサニタイズを行います。
  • オープンソースのデータセット、事前学習済みモデル、ベンダー提供のモデルをレビューが必要なサプライチェーンの入力として扱います。
  • トレーニングデータを追加、再ラベル付け、削除、または承認できる人を制限します。
  • データセットの変更、ラベリングの決定、パイプラインの更新に関する監査ログを保持します。

トレーニングと評価の際

  • 全体の精度だけでなく、スライスごとのパフォーマンスをテストします。
  • 疑わしいクラスター、重複パターン、ラベルの異常、ソース特有の挙動を探します。
  • 新しいデータソースを本番トレーニングに昇格させる前に、シャドートレーニングまたはステージングを行います。
  • モデルが敏感な決定をサポートする場合、バックドアおよびトリガーテストを使用します。

RAGおよびLLMシステムの場合

  • 隠れたプロンプトや不正なコンテンツを含む文書が検索コーパスに入る前にスクリーニングします。
  • すべての取得したパッセージを平等に扱うのではなく、ソースのランキング、アクセス制御、文書の信頼レベルを使用します。
  • 適切な場合には、単一の検索方法が影響を与える唯一の道にならないように、語彙検索とベクトル検索を組み合わせます。
  • パッセージを隔離し、複数のソースを比較し、単一の取得した文書が高影響の回答を導かないようにします。

実用的な原則はシンプルです:データポイズニングは、モデルのセキュリティ問題であると同時に、データガバナンスとサプライチェーンの問題でもあります。それは、エキゾチックなモデルアーキテクチャの欠陥よりも、弱い出所、緩いアクセス、貧弱なレビュー、信頼できない入力をより頻繁に悪用します。

データポイズニングと法律

データポイズニングの法的地位は、事実に依存します:意図、承認、管轄権、影響を受けるシステム、及び引き起こされた損害。システムまたはデータセットへの無許可の干渉は、コンピュータの不正使用、詐欺、契約、知的財産、または特定の業界の規則に基づいて、刑事または民事の責任を生じる可能性があります。

人々が自分の公開コンテンツを意図的に変更し、無断でそれをスクレイピングするモデルが劣化したパターンを学習することについて、別の議論もあります。これを無断スクレイピングに対する自己防衛と表現する人もいれば、依然として法的および運用上のリスクを生む可能性があると主張する人もいます。その問題は未解決であるため、組織はそれを純粋な技術的戦術ではなく、法的レビューの問題として扱うべきです。

よくあるご質問(FAQ)

データポイズニングの例は何ですか?

簡単な例は、いくつかのスパムメッセージが意図的に正当なものとしてラベル付けされた、メールに基づいて訓練されたスパムフィルターです。より高度な例は、特定のトリガーが現れたとき以外は通常通りに動作するバックドア付きの画像分類器です。

データポイズニングの症状は何ですか?

症状には、説明のつかない精度の低下、予期しないバイアス、異常な誤分類パターン、または特定のトリガーに関連する失敗が含まれる場合があります。標的型およびバックドア攻撃は、広範なパフォーマンスチェックではほとんど症状を示さないことがあります。

データポイズニングは、プロンプトインジェクションとどのように異なりますか?

データポイズニングは、モデルがデータから学ぶ内容を変更します。プロンプトインジェクションは、使用中のLLMの指示やコンテキストを操作します。一方は学習プロセスを攻撃し、もう一方は実行時の動作を攻撃します。

データポイズニングは、大規模言語モデルに影響を与える可能性がありますか?

できます。LLMシステムは、事前学習データ、ファインチューニングデータセット、検索コーパス、接続されたツール、および外部知識源を通じて影響を受ける可能性があります。RAGシステムは、文書の信頼性が低いときに特に脆弱です。

結論

データポイズニングは、学習プロセスへの攻撃です。その強さはレバレッジから来ます:少量の悪いデータが、後に大規模な決定を下すモデルに影響を与える可能性があります。その危険性はタイミングから来ます:妥協は上流で植え付けられ、モデルがすでに使用されている後にのみ発見される可能性があります。

最良の防御は、単一の検出器ではありません。それは規律あるデータガバナンスです:信頼できるソース、制御されたアクセス、データセットの監査トレイル、スライスレベルのテスト、RAGコーパスレビュー、そして展開後の継続的な監視。AIシステムを構築または購入するチームにとって、データポイズニングはモデルのセキュリティがモデルが答えを出す前から始まることを思い出させるものです。

Cato Networks、2024年 Gartner® Magic Quadrant™ のシングルベンダーSASE部門でリーダーに選出

レポートをダウンロード

This page was machine-translated. If you notice any inaccuracies or have feedback, please feel free to send it to us here.