Umgang mit sensiblen Daten in Sprachmodellen – DSGVO-Konform mit KI
Die Verarbeitung und Eingabe von sensiblen und personenbezognen Daten in KI-Modellen birgt hohe Datenschutzrisiken.
Sensible informationen in unstrukturierten Daten
Bei unstrukturierten Daten, wie sie in Verwendungszweckfeldern von Kontoumsätzen, Gesprächsnotizen in CRM-Systemen oder E-Mail-Nachrichten vorkommen, ist die Anonymisierung der Daten komplex. Diese Daten sind nicht bereits in klar definierte technische Felder unterteilt und erfordern fortschrittlichere Methoden zur sicheren Anonymisierung, um das Risiko unbeabsichtigter Datenexposition zu eliminieren.
Praktisches Beispielszenario als Proof of Concept
Kundennachrichten anonymisieren
Als Datenbasis für einen Proof of Concept wurden 1.000 synthetische Texte generiert. Sie enthalten Informationen wie Vorname, Nachname, Geburtsdatum und Kontonummer.
Abbildung 1 zeigt exemplarisch eine Ausgangsnachricht (links) und die zugehörige anonymisierte Version (rechts).

Die KI wandelt den Ausgangstext in die anonymisierte Version um, indem es die Vorgaben eines sogenannten Prompts befolgt. In diesem konkreten Fall lautet das Prompt:
„Ersetze die personenbezogenen Daten in der nachfolgenden Nachricht. Ersetze personenbezogenen Daten auf folgende Weise:
- Ersetze Vornamen durch den Platzhalter [VORNAME]
- Ersetze Nachnamen durch den Platzhalter [NACHNAME]
- Ersetze ein Geburtsdatum durch den Platzhalter [GEBURTSDATUM]
- Ersetze Straßennamen ohne Hausnummer durch den Platzhalter [STRASSE]
- Ersetze Straßennamen mit Hausnummer durch den Platzhalter [STRASSE_UND_HAUSNUMMER]
- Ersetze Postleitzahlen durch den Platzhalter [PLZ]
- Ersetze Ortsnamen durch den Platzhalter [Ort]
- Ersetze Telefonnummern durch den Platzhalter [TELEFONNUMMER]
- Ersetze E-Mail-Adressen durch den Platzhalter [E-MAIL]
- Ersetze Kundennummern durch den Platzhalter [KUNDENNUMMER]
- Ersetze IBAN durch den Platzhalter [IBAN]“
Nachdem das LLM mit diesem Prompt aufgerufen wurde liefert es eine entsprechend anonymisierte Nachricht als Antwort. Für jeden zu anonymisierender Freitext wird das LLM separat aufgerufen. Schematisch ergibt sich also ein Ablauf, wie in Abbildung 2 dargestellt.

Auswahl des Sprachmodells
Derzeit setzt GPT-4 als führendes Sprachmodell den (Gold-)Standard. Für unseren Proof of Concept haben wir uns jedoch gegen GPT-4 entschieden und LeoLM ausgewählt. Für mehr Informationen über das Sprachmodell finden Sie unter https://laion.ai/blog-de/leo-lm/).
Vorteile von LeoLM
Es handelt sich um ein Open Source-Sprachmodell, welches auch lokal bzw. im eigenen Rechenzentrum (On-Premise) betrieben werden kann. Hierdurch kann der Schutz sensibler personenbezogener Daten gewährleistet werden.
Bei hohen Datenvolumina kann die Verwendung eines Cloud-gehosteten kommerziellen Sprachmodells erhebliche Kosten verursachen. Alle etablierten Anbieter rechnen pro generiertem Wort ab (genauer gesagt pro generiertem Wortfragment, dem sogenannten Token). Bei On-Premise-Lösungen fallen ebenfalls Kosten an, diese sind aber üblicherweise geringer.
LeoLM basiert auf dem bekannten, von Meta veröffentlichten Sprachmodell LLama2. Im Gegensatz zu LLama2 ist LeoLM spezifisch auf das Verstehen und die Generierung von Texten in deutscher Sprache angepasst, man spricht hierbei vom sogenannten Finetuning.
Im Test lieferte bereits das Sprachmodell LeoLM 13B Chat gute Ergebnisse.
Hardware NVIDIA V100 GPU
Wie groß dürfen die zu verarbeitenden Datenmengen sein? Der begrenzende Faktor ist hierbei die Inferenzzeit des Sprachmodells, also die für das Erzeugen des anonymisierten Textes benötigte Zeit. Unter Verwendung eines einfachen Hardwaresetups mit dem NVIDIA V100 GPU wurden im Testlauf circa 1.200 Text-Anonymisierungen pro Stunde erzielt. Die maximale Kontextlänge der generierten Texte betrug 2048 Tokens.
Die Anzahl der Text-Anonymisierungen pro Stunde kann durch eine Optimierung des Software-Setups, Verwendung von mehr Hardware-Ressourcen und eines eventuellen Generierten kürzerer Texte erheblich gesteigert werden. Je nach verfügbarem Budget ist ein Durchsatz von 100.000 bis 1.000.000 Anonymisierungen pro Stunde realistisch.
Fazit
Im Rahmen der Machbarkeitsstudie hat sich die Anonymisierung durch Sprachmodelle als durchaus erfolgreich erwiesen. Subjektiv eingeschätzt waren die Ergebnisse bei circa 90% der zu anonymisierenden Texte gut, d.h. ohne Beanstandung. Dabei ist zu beachten, dass es sich um synthetische Daten handelt, die genannte Quote von 90% kann je nach konkreter Datenbasis stark variieren. Da LLMs zum Beispiel dazu neigen, zu Halluzinieren (falsche Antworten zu geben), empfiehlt es sich zusätzliche Algorithmen einzusetzen, sozusagen als „Sicherungsnetz“ für den Fall, dass sich ein LLM täuscht. Exemplarisch verweise ich auf die Python-Bibliotheken SpaCy und NLTK , mit deren Hilfe z.B. Namen in Texten identifiziert werden können (sogenannte Named Entity Recognition, NER).