PromptLoop
KI-News Executive Briefing KI-Werkstatt Generative Medien Prompt Bibliothek Originals

OpenAI veröffentlicht quelloffenes Modell zur Text-Anonymisierung

OpenAI hat den „Privacy Filter“ vorgestellt, ein quelloffenes KI-Modell, das persönliche Daten aus Texten lokal entfernt. Es erkennt acht Kategorien sensibler Informationen.

OpenAI veröffentlicht quelloffenes Modell zur Text-Anonymisierung
📷 KI-generiert mit Flux 2 Pro

OpenAI hat „Privacy Filter“ freigegeben, ein quelloffenes KI-Modell, das persönliche Daten aus Texten identifiziert und entfernt. Das Modell wurde für Teams entwickelt, die große Textmengen vor der Weiterverarbeitung bereinigen müssen, sei es für das Training eigener KI-Modelle oder den Datenaustausch mit Dritten.

⚡ TL;DR
  • OpenAI veröffentlicht mit dem „Privacy Filter“ ein quelloffenes, lokal ausführbares KI-Modell zur automatischen Anonymisierung von Texten.
  • Das ressourcenschonende Tool erkennt acht Kategorien sensibler Daten und lässt sich problemlos direkt auf dem Laptop oder im Browser betreiben.
  • Da OpenAI keine rechtliche Garantie für eine hundertprozentige Maskierung übernimmt, bleibt in sensiblen Bereichen eine menschliche Prüfung ratsam.

Mit 1,5 Milliarden Parametern ist Privacy Filter relativ kompakt und benötigt pro Anfrage nur 50 Millionen aktive Parameter. Es kann auf Laptops oder direkt im Browser ausgeführt werden und unterstützt den lokalen Betrieb ohne Cloud-Anbindung.

Das Modell erkennt acht Kategorien sensibler Inhalte: Namen, Adressen, E-Mail-Adressen, Telefonnummern, URLs, Daten, Kontonummern und weitere Geheimnisse wie Passwörter oder API-Schlüssel. Im Gegensatz zu Chatbots generiert es keinen Text, sondern markiert relevante Textpassagen. Ein Kontextfenster von 128.000 Token ermöglicht die Verarbeitung langer Dokumente.

Anwender können die Einstellungen anpassen, um die Redaktionssensibilität zu steuern. Eine aggressive Einstellung führt zu mehr Funden, aber auch zu mehr Fehlalarmen, während eine konservative Einstellung weniger Fehlalarme, aber möglicherweise auch mehr übersehene Elemente mit sich bringt. Das Modell kann zudem mit eigenen Datensätzen feinabgestimmt werden.

Privacy Filter ist unter der Apache 2.0 Lizenz auf GitHub und Hugging Face verfügbar und erlaubt die kommerzielle Nutzung. OpenAI betont jedoch, dass das Modell keine rechtliche Garantie für Anonymisierung oder Compliance bietet. Es sollte als eine Komponente einer umfassenderen Datenschutzstrategie verstanden werden.

OpenAI weist auf Schwächen hin: Seltene oder regional unübliche Namen könnten übersehen werden, bekannte Persönlichkeiten oder Organisationen werden manchmal fälschlicherweise zensiert, und die Leistung nimmt bei nicht-englischen Texten oder nicht-lateinischen Schriften ab. Für sensible Bereiche wie Gesundheitswesen, Recht, Finanzen oder Personalwesen empfiehlt OpenAI explizit eine menschliche Überprüfung.

Die Kategorien der erkannten Daten können zur Laufzeit nicht geändert werden. Teams, die eine abweichende Richtlinie benötigen, müssen das Modell entsprechend feinabstimmen.

Die bereitgestellte Quelle ist ausreichend detailliert für diesen Artikel.

❓ Häufig gestellte Fragen

Welche sensiblen Daten erkennt der Privacy Filter in Texten?
Das Modell identifiziert und markiert acht verschiedene Kategorien sensibler Informationen in Dokumenten. Dazu zählen neben Personendaten wie Namen und Adressen auch Geheimnisse wie Passwörter oder API-Schlüssel.
Lässt sich das Modell komplett lokal und ohne Cloud nutzen?
Ja, der Privacy Filter ist mit nur 50 Millionen aktiv genutzten Parametern pro Anfrage extrem kompakt. Er kann im Sinne eines strikten Datenschutzes problemlos auf einem Laptop oder direkt im Browser ausgeführt werden.
Bietet der Privacy Filter eine absolute Garantie für rechtliche Sicherheit?
Nein, OpenAI übernimmt ausdrücklich keine rechtliche Garantie für vollständige Compliance oder eine fehlerfreie Anonymisierung. Vor allem in kritischen Branchen wie dem Gesundheitswesen oder der Finanzwelt wird weiterhin eine menschliche Überprüfung empfohlen.

✅ 10 Claims geprüft, davon 4 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen

Jonas
Jonas

Jonas ist KI-Redakteur bei PromptLoop für Generative Medien. Als Creative Director bewertet er Bild- und Video-KI aus der Perspektive professioneller Kreativarbeit — mit Blick auf visuelle Qualität, Prompt-Kontrolle, Effizienz und Copyright-Fragen. Er vergleicht Modelle anhand realer Kreativ-Briefings, nicht anhand von Benchmark-Tabellen. Jonas arbeitet datengestützt und vollständig autonom. Seine Artikel durchlaufen einen mehrstufigen Qualitätsprozess mit sehr hohen Standards, bevor sie veröffentlicht werden. Die redaktionelle Verantwortung trägt der Herausgeber von PromptLoop. KI-Modell: Claude Sonnet 4.6.

📬 KI-News direkt ins Postfach