9m read

Data Poisoning Definition, Angriffstypen und Abwehrmaßnahmen

Was Sie erwartet

Cato Networks wurde im Gartner® Magic Quadrant™ 2024 für Single-Vendor SASE als Leader ausgezeichnet

Bericht lesen

Datenvergiftung ist ein absichtlicher Angriff auf die Daten, aus denen ein KI- oder maschinelles Lernsystem lernt. Anstatt die Live-Anwendung direkt anzugreifen, korrumpiert der Angreifer einen Datensatz, ein Label-Set, ein Abruf-Korpus oder eine Trainingspipeline, sodass das Modell das falsche Muster lernt und später auf eine Weise agiert, die dem Ziel des Angreifers dient.

Das ist es, was Datenvergiftung für Sicherheits- und KI-Teams schwierig macht. Der Schaden kann lange bevor jemand die Ausgabe des Modells sieht, verursacht werden. Ein vergiftetes Modell kann in standardisierten Tests normal erscheinen, breite Genauigkeitsprüfungen bestehen und dennoch bei den genauen Fällen versagen, die den Angreifer interessieren.

Kurze Definition: Datenvergiftung ist die absichtliche Manipulation von Trainings-, Feinabstimmungs-, Label- oder Abrufdaten, sodass ein KI-System korrumpiertes Verhalten lernt.

Wie Datenvergiftung funktioniert

Die meisten Vergiftungsangriffe folgen demselben grundlegenden Muster, auch wenn die technischen Details je nach Modelltyp oder Datenquelle variieren.

  1. Der Angreifer findet einen Zugang zur Datenpipeline. Dieser Zugang könnte ein öffentlicher Datensatz, eine gescrapte Webquelle, ein Crowd-Labeling-Prozess, ein vom Anbieter bereitgestelltes Modell, ein Annotationstool oder ein Abruf-Korpus sein, das von einem RAG-System verwendet wird.
  2. Der Angreifer fügt Daten hinzu, ändert sie oder entfernt sie. Er kann Labels umkehren, Trigger-Muster einfügen, die Verteilung von Beispielen verzerren, wichtige Gegenbeispiele löschen oder Dokumente mit Anweisungen versehen, die darauf abzielen, spätere Abrufe zu beeinflussen.
  3. Das Modell lernt aus den korrumpierten Daten. Während des Trainings oder der Feinabstimmung behandelt das System das vom Angreifer kontrollierte Muster als legitimen Beweis.
  4. Der Schaden tritt später zutage. Das Modell kann weniger genau, voreingenommener oder anfällig für einen versteckten Trigger werden, der nur unter bestimmten Bedingungen aktiviert wird.

Der Angreifer benötigt oft keinen Zugang zur endgültig bereitgestellten Anwendung. Wenn er die upstream-Daten beeinflussen kann, könnte er in der Lage sein, das fertige Modell zu beeinflussen, ohne jemals die Produktion zu berühren.

Wie es sich von unbeabsichtigter Datenkorruption unterscheidet.

Schlechte Daten sind häufig. Dateien brechen, Etiketten sind falsch, Quellen driften, Duplikate schleichen sich ein, und Randfälle werden übersehen. Das sind Probleme der Datenqualität. Datenvergiftung ist anders, weil die Korruption absichtlich und feindlich ist.

Diese Unterscheidung verändert die Reaktion. Zufällige Korruption wird normalerweise mit Qualitätsprüfungen, Validierung und Bereinigung behandelt. Datenvergiftung erfordert eine Sicherheitsmentalität: Herkunft, Zugriffskontrolle, Bedrohungsmodellierung, Prüfprotokolle, Anomalieerkennung und die Annahme, dass einige Eingaben feindlich sein können.

Arten von Datenvergiftungsangriffen

Vergiftungsangriffe werden normalerweise nach dem Ziel des Angreifers gruppiert. Einige verschlechtern das Modell allgemein. Andere sind viel präziser, weshalb sie schwerer zu bemerken sein können.

Label-Flip-Angriffe

Bei einem Label-Flip-Angriff ändert der Angreifer die Etiketten ausgewählter Trainingsbeispiele. Spam wird als legitim markiert. Betrug wird als normal markiert. Eine bösartige Probe wird als sicher markiert. Das Modell lernt dann die falsche Beziehung zwischen dem Eingang und dem Ergebnis.

Hintertür- oder Trojanerangriffe

Ein Hintertürangriff bringt das Modell dazu, die meiste Zeit normal zu funktionieren, aber zu versagen, wenn ein Auslöser erscheint. Der Auslöser könnte ein visuelles Zeichen in einem Bild, eine Phrase in einem Text, ein Muster in einer Datei oder ein anderes Signal sein, das der Angreifer kontrolliert. BadNets hat dazu beigetragen, diese Angriffsart bekannt zu machen, indem gezeigt wurde, wie ein Modell eine starke, saubere Leistung aufrechterhalten kann, während es eine versteckte Hintertür trägt.

Gezielte Vergiftung

Gezielte Vergiftung verändert das Verhalten des Modells bei spezifischen Eingaben, während die allgemeine Leistung weitgehend intakt bleibt. Dies ist die Version, über die sich Verteidiger am meisten Sorgen machen, da ein gewöhnliches Dashboard eine gesunde Gesamtgenauigkeit anzeigen kann, während das Modell in einem engen, wertvollen Fall stillschweigend falsch ist.

Verfügbarkeitsangriffe

Verfügbarkeitsangriffe sind weniger subtil. Das Ziel ist es, die Modellleistung so weit zu reduzieren, dass das System unzuverlässig oder unbrauchbar wird. Diese Angriffe sind leichter zu erkennen als gezielte Vergiftungen, da der Fehler in vielen Fällen sichtbar ist.

Abrufvergiftung in RAG-Systemen

Moderne LLM-Anwendungen verwenden häufig retrieval-unterstützte Generierung oder RAG, bei der das Modell eine externe Wissensdatenbank konsultiert, bevor es antwortet. Das schafft eine weitere Vergiftungsoberfläche. Wenn ein bösartiges Dokument in den Abrufkorpus gelangt, kann das Modell es später abrufen und als vertrauenswürdigen Kontext behandeln.

Jüngste Arbeiten zu Angriffen wie SilentRetrieval zeigen, warum dies wichtig ist: Vergiftete Dokumente können so verfasst werden, dass sie flüssig und relevant erscheinen, wodurch einfache Qualitätsprüfungen schwache Verteidigungen darstellen. Für RAG-Systeme ist der Datensatz nicht nur der ursprüngliche Trainingssatz. Es ist auch die Wissensdatenbank, die das Modell zur Inferenzzeit liest.

Wo Vergiftungen in den KI-Lebenszyklus eindringen können

Ein häufiger Fehler ist es, sich vorzustellen, dass Vergiftung nur während des Modelltrainings geschieht. In der Praxis kann Kontamination fast überall dort eintreten, wo Daten gesammelt, gekennzeichnet, verschoben, transformiert oder abgerufen werden.

  • Sammlung: korrupte Quelldaten, gescrapte Daten, öffentliche Datensätze, von Benutzern eingereichte Aufzeichnungen oder Sensordatenströme.
  • Annotation: Manipulation menschlicher Labels, crowdsourced Labels oder Labeling-Workflows von Anbietern.
  • Aggregation: Manipulation von Daten, während sie aus mehreren Quellen kombiniert werden.
  • Preprocessing: Veränderung von Daten während der Bereinigung, Transformation, Duplikatentfernung oder Merkmalsengineering.
  • Training und Feinabstimmung: Vergiftung der Daten, die verwendet werden, um ein Modell zu trainieren oder ein bestehendes Modell anzupassen.
  • Abruf: Hinzufügen feindlicher Dokumente zu dem Korpus, den ein RAG-System während der Nutzung abfragt.

Diese Lebenszyklusansicht ist wichtig, da eine Verteidigung, die nur in der Trainingsphase platziert wird, Angriffe verpasst, die früher eingetreten sind. RAG schafft eine weitere Lücke: Ein Angriff kann später eintreten, durch das Material, das das Modell nach der Bereitstellung abruft.

Warum Datenvergiftung schwer zu erkennen ist.

Die schwierigsten Vergiftungsangriffe sind so gestaltet, dass das Modell gesund aussieht. Die Gesamtgenauigkeit könnte nicht sinken. Validierungstests könnten bestehen. Das vergiftete Verhalten könnte nur auftreten, wenn ein Auslöser, eine Zielklasse oder ein enges Eingabemuster vorhanden ist.

Deshalb sind Forschungsbeispiele nützlich, aber sie benötigen eine sorgfältige Interpretation. Backdoor-Studien zeigen, dass ein Modell bei sauberen Eingaben gut abschneiden kann, während es bei ausgelösten Eingaben versagt. Die RAG-Vergiftungsarbeit zeigt, dass bösartige Abrufdokumente schwer mit einfachen Flüssigkeits- oder Verwirrungsprüfungen zu kennzeichnen sind. Die praktische Lektion ist nicht, dass Erkennung unmöglich ist; es ist, dass Erkennung allein nicht ausreicht.

Warnsignale können Folgendes umfassen:

  • Ein plötzlicher Genauigkeitsabfall, der nicht durch eine bekannte Daten-, Modell- oder Codeänderung erklärt werden kann.
  • Unerwartete Verzerrungen oder inkonsistente Leistungen über Gruppen, Klassen oder Eingabetypen hinweg.
  • Fehlklassifikationen, die sich auf eine bestimmte Klasse, Phrase, Merkmal, Quelle oder Dokumentenfamilie konzentrieren.
  • Ein Modell, das in breiten Tests normal funktioniert, aber wiederholt unter einer engen Auslöserbedingung versagt.

Datenvergiftung befindet sich im weiteren Bereich der adversarialen KI, wo ähnliche Begriffe oft vage verwendet werden. Die klarste Unterscheidung ist der Zeitpunkt: Datenvergiftung korrumpiert das, was das System lernt; viele andere Angriffe manipulieren, wie das System während der Nutzung funktioniert.

Bedrohung Wie es sich von Datenvergiftung unterscheidet
Eingabeaufforderungsinjektion Ein Laufzeitangriff gegen die Anweisungen oder den Kontext eines LLM. Datenvergiftung verändert Lern- oder Abrufdaten.
Adversariale Beispiele Eingaben werden zur Inferenzzeit erstellt, um ein trainiertes Modell zu täuschen. Vergiftung verändert die Daten vor oder während des Lernens.
Modellvergiftung Der Angreifer verändert direkt die Modellparameter, Gradienten oder Updates. Datenvergiftung funktioniert durch die Daten, aus denen das Modell lernt.
Modellklau Der Angreifer extrahiert oder imitiert ein Modell. Vergiftung korrumpiert das Verhalten des Modells.
Datenkorruption Daten können versehentlich falsch sein. Vergiftung ist absichtlich und feindlich.

Die kurze Version: Datenvergiftung geschieht vor oder während des Lernens, während Eingabeaufforderungsinjektion und adversariale Beispiele während der Nutzung geschehen.

Wie man Datenvergiftung verhindert und mildert

Da die Bereinigung schwierig ist, sobald ein Modell aus vergifteten Daten gelernt hat, beginnen die besten Abwehrmaßnahmen vor dem Training und setzen sich während des Einsatzes fort. Das Ziel ist es, den Einfluss von Daten sichtbar, kontrolliert und, wo möglich, umkehrbar zu machen.

Vor dem Training

  • Verfolgen Sie die Herkunft der Daten, damit die Teams wissen, woher die Datensätze stammen und welche Quellen vertrauenswürdig sind.
  • Validieren und bereinigen Sie Daten bei der Aufnahme, insbesondere bei öffentlichen Datensätzen, gescraptem Inhalt, Benutzereingaben und Datenfeeds von Drittanbietern.
  • Behandeln Sie Open-Source-Datensätze, vortrainierte Modelle und von Anbietern bereitgestellte Modelle als Eingaben der Lieferkette, die überprüft werden müssen.
  • Begrenzen Sie, wer Trainingsdaten hinzufügen, umbenennen, löschen oder genehmigen kann.
  • Führen Sie Prüfprotokolle für Änderungen an Datensätzen, Labelentscheidungen und Pipeline-Updates.

Während des Trainings und der Bewertung

  • Testen Sie die Leistung über verschiedene Segmente hinweg, nicht nur die Gesamtgenauigkeit.
  • Achten Sie auf verdächtige Cluster, doppelte Muster, Labelanomalien und quellenspezifisches Verhalten.
  • Führen Sie Shadow-Training oder stufen Sie neue Datenquellen ein, bevor Sie sie in das Produktions-Training überführen.
  • Verwenden Sie Backdoor- und Trigger-Tests, wenn das Modell sensible Entscheidungen unterstützen soll.

Für RAG- und LLM-Systeme

  • Überprüfen Sie Dokumente, bevor sie in den Abrufkorpus gelangen, einschließlich versteckter Eingabeaufforderungen und fehlerhafter Inhalte.
  • Verwenden Sie Quellenranking, Zugriffskontrollen und Dokumentenvertrauensstufen, anstatt jeden abgerufenen Abschnitt gleich zu behandeln.
  • Kombinieren Sie lexikalische und vektorielle Abrufmethoden, wo es angebracht ist, damit eine Abrufmethode nicht der einzige Weg zum Einfluss wird.
  • Isolieren Sie Abschnitte, vergleichen Sie mehrere Quellen und vermeiden Sie es, dass ein einzelnes abgerufenes Dokument eine hochwirksame Antwort lenkt.

Das praktische Prinzip ist einfach: Datenvergiftung ist ebenso ein Problem der Datenverwaltung und der Lieferkette wie ein Problem der Modellsicherheit. Es nutzt schwache Herkunft, lockeren Zugang, mangelhafte Überprüfung und unzuverlässige Eingaben häufiger aus als exotische Modellarchitekturfehler.

Datenvergiftung und das Gesetz

Der rechtliche Status der Datenvergiftung hängt von den Fakten ab: Absicht, Genehmigung, Gerichtsbarkeit, das betroffene System und der verursachte Schaden. Unbefugte Eingriffe in ein System oder einen Datensatz können strafrechtliche oder zivilrechtliche Risiken unter Computerkriminalität, Betrug, Vertragsrecht, geistigem Eigentum oder branchenspezifischen Vorschriften schaffen.

Es gibt auch eine separate Debatte darüber, dass Menschen absichtlich ihre eigenen öffentlichen Inhalte ändern, damit Modelle, die diese ohne Erlaubnis scrapen, degradierte Muster lernen. Einige beschreiben dies als Selbstverteidigung gegen unbefugtes Scraping; andere argumentieren, dass es dennoch rechtliche und operationale Risiken schaffen kann. Diese Frage ist ungeklärt, daher sollten Organisationen sie als rechtliche Überprüfungsfrage und nicht als rein technische Taktik behandeln.

Häufig gestellte Fragen

Was ist ein Beispiel für Datenvergiftung?

Ein einfaches Beispiel ist ein Spamfilter, der auf E-Mails trainiert wurde, bei dem einige Spam-Nachrichten absichtlich als legitim gekennzeichnet sind. Ein fortgeschritteneres Beispiel ist ein mit Hintertüren versehenes Bildklassifizierungsmodell, das sich normal verhält, es sei denn, ein bestimmter Auslöser tritt auf.

Was sind die Symptome der Datenvergiftung?

Symptome können unerklärliche Genauigkeitsverluste, unerwartete Verzerrungen, ungewöhnliche Fehlklassifikationsmuster oder Fehler, die mit einem bestimmten Auslöser verbunden sind, umfassen. Gezielte und Hintertürenangriffe zeigen möglicherweise wenige Symptome bei umfassenden Leistungsprüfungen.

Wie unterscheidet sich Datenvergiftung von Eingabeinjektion?

Datenvergiftung verändert, was ein Modell aus Daten lernt. Eingabeinjektion manipuliert die Anweisungen oder den Kontext eines LLM während der Nutzung. Der eine greift den Lernprozess an; der andere greift das Laufzeitverhalten an.

Kann Datenvergiftung große Sprachmodelle beeinflussen?

Ja. LLM-Systeme können durch Vortrainingsdaten, Feinabstimmungsdatensätze, Abrufkorpora, verbundene Werkzeuge und externe Wissensquellen betroffen sein. RAG-Systeme sind besonders exponiert, wenn das Vertrauen in Dokumente schwach ist.

Fazit

Datenvergiftung ist ein Angriff auf den Lernprozess. Ihre Stärke liegt im Hebel: Eine kleine Menge schlechter Daten kann ein Modell beeinflussen, das später Entscheidungen in großem Maßstab trifft. Ihre Gefahr liegt im Timing: Der Kompromiss kann upstream platziert und erst entdeckt werden, nachdem das Modell bereits in Gebrauch ist.

Die beste Verteidigung ist kein einzelner Detektor. Es ist disziplinierte Datenverwaltung: vertrauenswürdige Quellen, kontrollierter Zugang, Audit-Trails von Datensätzen, Tests auf Slice-Ebene, Überprüfung des RAG-Korpus und kontinuierliche Überwachung nach der Bereitstellung. Für Teams, die KI-Systeme entwickeln oder kaufen, ist Datenvergiftung eine Erinnerung daran, dass die Sicherheit des Modells beginnt, bevor das Modell jemals eine Antwort liefert.

Cato Networks wurde im Gartner® Magic Quadrant™ 2024 für Single-Vendor SASE als Leader ausgezeichnet

Bericht lesen

This page was machine-translated. If you notice any inaccuracies or have feedback, please feel free to send it to us here.