OpenAI veröffentlicht quelloffenes Modell zur…

OpenAI hat „Privacy Filter“ freigegeben, ein quelloffenes KI-Modell, das persönliche Daten aus Texten identifiziert und entfernt. Das Modell wurde für Teams entwickelt, die große Textmengen vor der Weiterverarbeitung bereinigen müssen, sei es für das Training eigener KI-Modelle oder den Datenaustausch mit Dritten.

⚡ TL;DR

OpenAI veröffentlicht mit dem „Privacy Filter“ ein quelloffenes, lokal ausführbares KI-Modell zur automatischen Anonymisierung von Texten.
Das ressourcenschonende Tool erkennt acht Kategorien sensibler Daten und lässt sich problemlos direkt auf dem Laptop oder im Browser betreiben.
Da OpenAI keine rechtliche Garantie für eine hundertprozentige Maskierung übernimmt, bleibt in sensiblen Bereichen eine menschliche Prüfung ratsam.

Mit 1,5 Milliarden Parametern ist Privacy Filter relativ kompakt und benötigt pro Anfrage nur 50 Millionen aktive Parameter. Es kann auf Laptops oder direkt im Browser ausgeführt werden und unterstützt den lokalen Betrieb ohne Cloud-Anbindung.

Das Modell erkennt acht Kategorien sensibler Inhalte: Namen, Adressen, E-Mail-Adressen, Telefonnummern, URLs, Daten, Kontonummern und weitere Geheimnisse wie Passwörter oder API-Schlüssel. Im Gegensatz zu Chatbots generiert es keinen Text, sondern markiert relevante Textpassagen. Ein Kontextfenster von 128.000 Token ermöglicht die Verarbeitung langer Dokumente.

Anwender können die Einstellungen anpassen, um die Redaktionssensibilität zu steuern. Eine aggressive Einstellung führt zu mehr Funden, aber auch zu mehr Fehlalarmen, während eine konservative Einstellung weniger Fehlalarme, aber möglicherweise auch mehr übersehene Elemente mit sich bringt. Das Modell kann zudem mit eigenen Datensätzen feinabgestimmt werden.

Privacy Filter ist unter der Apache 2.0 Lizenz auf GitHub und Hugging Face verfügbar und erlaubt die kommerzielle Nutzung. OpenAI betont jedoch, dass das Modell keine rechtliche Garantie für Anonymisierung oder Compliance bietet. Es sollte als eine Komponente einer umfassenderen Datenschutzstrategie verstanden werden.

OpenAI weist auf Schwächen hin: Seltene oder regional unübliche Namen könnten übersehen werden, bekannte Persönlichkeiten oder Organisationen werden manchmal fälschlicherweise zensiert, und die Leistung nimmt bei nicht-englischen Texten oder nicht-lateinischen Schriften ab. Für sensible Bereiche wie Gesundheitswesen, Recht, Finanzen oder Personalwesen empfiehlt OpenAI explizit eine menschliche Überprüfung.

Die Kategorien der erkannten Daten können zur Laufzeit nicht geändert werden. Teams, die eine abweichende Richtlinie benötigen, müssen das Modell entsprechend feinabstimmen.

Die bereitgestellte Quelle ist ausreichend detailliert für diesen Artikel.

❓ Häufig gestellte Fragen

▶ Welche sensiblen Daten erkennt der Privacy Filter in Texten?

Das Modell identifiziert und markiert acht verschiedene Kategorien sensibler Informationen in Dokumenten. Dazu zählen neben Personendaten wie Namen und Adressen auch Geheimnisse wie Passwörter oder API-Schlüssel.

▶ Lässt sich das Modell komplett lokal und ohne Cloud nutzen?

Ja, der Privacy Filter ist mit nur 50 Millionen aktiv genutzten Parametern pro Anfrage extrem kompakt. Er kann im Sinne eines strikten Datenschutzes problemlos auf einem Laptop oder direkt im Browser ausgeführt werden.

▶ Bietet der Privacy Filter eine absolute Garantie für rechtliche Sicherheit?

Nein, OpenAI übernimmt ausdrücklich keine rechtliche Garantie für vollständige Compliance oder eine fehlerfreie Anonymisierung. Vor allem in kritischen Branchen wie dem Gesundheitswesen oder der Finanzwelt wird weiterhin eine menschliche Überprüfung empfohlen.

✅ 10 Claims geprüft, davon 4 mehrfach verifiziert

ℹ️ Wie wir prüfen →

📚 Quellen

OpenAI releases open-source model that strips personal data from text

❓ Häufig gestellte Fragen

Das könnte dich auch interessieren

Claude-Studie: KI erweitert Fähigkeiten, Kreative fühlen sich abgehängt

Anthropic: Mythos-Leak blamiert KI-Sicherheitsanspruch

OpenAI: Keine GPT-5.5-Ankündigung, nur Cookie-Informationen