Gate-News-Mitteilung, 22. April — OpenAI hat Privacy Filter veröffentlicht, ein Open-Source-Sprachmodell, das dazu entwickelt wurde, personenbezogene Daten (PII) in Text zu erkennen und zu redigieren. Das Modell läuft lokal und verarbeitet lange Dokumente in einem einzigen Forward-Pass und unterstützt bis zu 128.000 Tokens Kontext. Mit insgesamt 1,5 Milliarden Parametern und 50 Millionen aktiven Parametern identifiziert Privacy Filter private Namen, Adressen, E-Mail-Adressen, Telefonnummern, URLs, Daten, Kontonummern, Passwörter, API-Keys und andere sensible Informationen.
Das Modell ist unter der Apache-2.0-Lizenz auf Hugging Face und GitHub verfügbar. Es kann eine Vielzahl von PII-Kategorien identifizieren, darunter persönliche Kontaktdaten, Finanzinformationen und Authentifizierungs-Credentials.
OpenAI erklärte, Privacy Filter sei für den Einsatz in datenschutzfreundlichen Workflows vorgesehen, etwa bei der Aufbereitung von Trainingsdaten, dem Indexing, Logging und der Content-Moderation.