Open Source AI
Was ist Open Source AI?
Open Source AI bezeichnet KI-Modelle, deren Kernkomponenten – Modellarchitektur, trainierte Gewichte (Weights), Trainingscode und teils auch Trainingsdaten – öffentlich zugänglich sind und unter OSI-konformen Lizenzen wie Apache 2.0 oder MIT stehen. Das erlaubt jedem, die Modelle herunterzuladen, lokal auszuführen, anzupassen (Fine-Tuning) und kommerziell einzusetzen – ohne Vendor-Lock-in, ohne API-Kosten, ohne Datenschutzrisiken durch Cloud-Übertragung. Der entscheidende Unterschied zu proprietären Ansätzen: volle Auditierbarkeit und Reproduzierbarkeit des gesamten Stacks. Dabei ist Open Source AI kein binäres Konzept, sondern ein Spektrum. Am strikten Ende steht echtes Open Source mit vollständig offengelegten Trainingsdaten (OSI-konform), darunter rangieren Open-Weights-Modelle, bei denen nur die Gewichte verfügbar sind, und schließlich sogenannte Source-Available-Modelle mit Nutzungsbeschränkungen – etwa Metas Llama oder Googles Gemma-Lizenzbedingungen.
Wie funktioniert Open Source AI?
Der technische Kern eines Open-Source-AI-Modells sind die Modellgewichte: Milliarden von Fließkommazahlen, die das Ergebnis des Trainingsprozesses kodieren. Wer diese Gewichte hat, kann das Modell lokal auf eigener Hardware ausführen – von einem Consumer-GPU bis zum Unternehmens-Cluster. Moderne Open-Source-LLMs setzen dabei zunehmend auf Mixture-of-Experts-Architekturen (MoE): Statt alle Parameter bei jedem Token zu aktivieren, schaltet ein Router nur eine Teilmenge ein. OpenAIs gpt-oss-20b etwa hat 21 Milliarden Parameter, aktiviert pro Token aber nur 3,6 Milliarden – ein erheblicher Effizienzgewinn bei gleichzeitig hoher Modellkapazität. Für den Einsatz im Unternehmen greifen Entwickler häufig auf Tools wie BentoML für das Deployment oder Hugging Face als zentrale Plattform für Model Cards, Lizenzen und Community-Evaluationen zurück. Fine-Tuning-Workflows erlauben es, ein Basismodell auf domänenspezifische Daten anzupassen, ohne das Training von Grund auf zu wiederholen – was Kosten und Rechenaufwand drastisch reduziert.
Open Source AI in der Praxis
Ein konkretes Beispiel ist das Projekt MiroFish: eine Open-Source-Predictions-Engine auf Python-Basis, die mithilfe von GraphRAG, Zep Cloud und Open-Weights-LLMs wie Qwen-plus Welten aus realen Datensätzen – News, Romane, Berichte – simuliert. Die zugrundeliegende OASIS-Simulationsengine von CAMEL-AI ermöglicht bis zu einer Million Agenten-Interaktionen gleichzeitig, um Zukunftsszenarien zu modellieren. Ein zweiter relevanter Anwendungsfall sind selbst gehostete Unternehmensmodelle: Vor allem in regulierten Branchen wie Finanz oder Healthcare setzen Teams auf lokal ausgeführte Open-Weights-Modelle, weil sensible Daten das eigene Rechenzentrum nicht verlassen dürfen. DeepSeek-V3.2 unter MIT-Lizenz ist dafür ein aktuelles Beispiel – vollständig frei nutzbar, auch kommerziell. Drittens ermöglicht Open Source AI unabhängige Bias-Audits: Forscher können Gewichte, Evaluierungsrezepte und Architekturentscheidungen direkt inspizieren, was bei Closed-Source-Modellen schlicht nicht möglich ist.
Vorteile und Grenzen
Die Stärken liegen auf der Hand: Datensouveränität, Kostenkontrolle, Anpassbarkeit und Transparenz. Wer ein Modell lokal betreibt, zahlt keine Token-Gebühren und gibt keine Nutzerdaten an Dritte weiter. Bias-Audits und Sicherheitsüberprüfungen sind direkt am Modell möglich. Auf der anderen Seite ist der Betrieb eigener Modelle kein Selbstläufer: Infrastruktur, GPU-Ressourcen und ML-Expertise müssen vorhanden sein. Hinzu kommt ein Qualitätsproblem im Community-Feedback – die Open Source Security Foundation (OpenSSF) berichtet, dass nur rund 5 % der eingereichten AI-Bug-Reports tatsächlich verwertbar sind. Und die Begrifflichkeit selbst bleibt unscharf: Viele als „Open Source" vermarktete Modelle sind faktisch nur Open Weights, ohne offengelegte Trainingsdaten oder vollständig reproduzierbaren Trainingscode. Wer auf echte OSI-Konformität angewiesen ist – etwa aus Compliance-Gründen – muss die Lizenzbedingungen sehr genau prüfen.