Google, Microsoft und xAI haben zugesagt, der US-Regierung frühzeitig Zugriff auf ihre KI-Modelle zu gewähren, bevor diese öffentlich zugänglich gemacht werden. Damit schließen sich die drei Technologieriesen OpenAI und Anthropic an, die bereits ähnliche Vereinbarungen mit dem Center for AI Standards and Innovation (CASI) des US Commerce Department getroffen haben. Sowohl OpenAI als auch Anthropic haben ihre bestehenden Partnerschaften kürzlich neu verhandelt, um sie mit den Prioritäten des AI Action Plans von Präsident Biden in Einklang zu bringen, was die wachsende Bedeutung staatlicher Aufsicht in der KI-Entwicklung unterstreicht.
- Google, Microsoft und xAI gewähren der US-Behörde CASI ab sofort freiwilligen Vorab-Zugriff auf ihre neuen KI-Modelle.
- Ziel dieser Abkommen ist es, die Sicherheit und Fähigkeiten der KI-Systeme noch vor ihrer Veröffentlichung zu prüfen.
- Ein zentraler Kritikpunkt an diesem potenziellen Industriestandard bleibt jedoch die fehlende Transparenz der Testergebnisse.
Das CASI, das im US Commerce Department angesiedelt ist, wird nun prä-Release-Zugang zu den Modellen aller fünf genannten Unternehmen erhalten. Ziel ist es, deren Fähigkeiten zu bewerten und die Sicherheit der KI-Systeme vor ihrem öffentlichen Start zu verbessern. Obwohl diese Vereinbarungen auf freiwilliger Basis beruhen, senden sie ein klares Signal an die Branche: Führende KI-Entwickler akzeptieren zunehmend staatliche Evaluierung als integralen Bestandteil ihres Release-Prozesses. Die Neubverhandlung bestehender Abkommen durch OpenAI und Anthropic verdeutlicht zudem den starken Einfluss des politischen Kontexts der aktuellen US-Regierung auf die Gestaltung dieser Partnerschaften.
Die aktuellen Entwicklungen bauen auf früheren Initiativen auf: Bereits im Sommer 2024 sagte OpenAI-CEO Sam Altman zu, dem damaligen U.S. AI Safety Institute (AISI) frühen Zugang zu künftigen Modellen zu gewähren. Im August 2024 wurden formale Testabkommen mit OpenAI und Anthropic unterzeichnet, die den Behörden Zugang zu neuen Modellen vor und nach der Veröffentlichung ermöglichten. Im November 2024 erfolgte die erste gemeinsame Evaluierung durch das US-Institut und sein britisches Pendant, wobei Anthropic’s Claude 3.5 Sonnet getestet wurde. Das CASI ist die Nachfolgestruktur dieser Initiative und ist heute im National Institute of Standards and Technology (NIST) verankert.
Dass pre-Release-Reviews durch Behörden im KI-Sektor nun breiter akzeptiert werden, deutet darauf hin, dass staatliche Vorab-Prüfungen sich möglicherweise als Industriestandard etablieren könnten, insbesondere für große Akteure. Für europäische Unternehmen und Regulatoren ist dies von Bedeutung: Der EU AI Act schreibt bereits Konformitätsbewertungen für Hochrisiko-KI-Systeme vor, die ab August 2026 vollständig greifen. Die US-amerikanische Praxis könnte hierbei als Vorbild oder Kontrast dienen, da das europäische Modell stärker auf unabhängige Dritte statt auf reine Regulierungsbehörden setzt. Ein entscheidender Kritikpunkt bleibt jedoch die fehlende Transparenz: Weder die genauen Testparameter noch die Ergebnisse der CASI-Reviews sind öffentlich zugänglich, was eine unabhängige Überprüfung der Bewertungsqualität erschwert.
Das CASI nutzt bereits eine wachsende Evaluierungsinfrastruktur, darunter die Zusammenarbeit mit Scale AI als erstem autorisierten unabhängigen Drittanbieter-Evaluator. Scale AI’s SEAL-Labor (Safety, Evaluation, and Alignment Lab) entwickelt Methoden zur Verbesserung der Prüfung von großen Sprachmodellen. Dies zeigt, dass der Staat parallel zu den freiwilligen Unternehmensvereinbarungen eigene Prüfkapazitäten aufbaut, auch unter Einbeziehung privater Dienstleister, die oft enge Verbindungen zur KI-Industrie unterhalten. Durch die Einbindung von fünf der größten KI-Entwickler, darunter Google, Microsoft und xAI, wird voraussichtlich der Druck auf weitere Unternehmen steigen, sich ähnlichen Vereinbarungen anzuschließen. Ob dies die tatsächliche Modellsicherheit grundlegend verbessert oder primär politische Signalwirkung hat, lässt sich ohne transparente Evaluierungsberichte kaum beurteilen; dies bleibt der zentrale blinde Fleck dieser umfassenden Partnerschaften.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 6 mehrfach verifiziert
📚 Quellen