Die Frage, wo Ihre KI-Workloads laufen, ist 2026 keine technische Detailfrage mehr. Sie ist eine Vorstandsentscheidung. Regulatorische Verschärfungen, geopolitische Unsicherheiten und konkrete Vorfälle — vom CLOUD Act bis zum abrupten Shutdown von OpenAIs SORA-Modell — haben die Debatte um Datensouveränität auf die Tagesordnung jeder CIO-Agenda gesetzt.
Wer heute eine KI-Plattform evaluiert, ohne Deployment-Flexibilität einzufordern, baut die Vendor-Abhängigkeit von morgen.
Warum KI-Souveränität jetzt auf der Agenda steht
Drei Entwicklungen haben das Thema von der IT-Abteilung in den Vorstand verlagert:
1. Der CLOUD Act und extraterritoriale Zugriffe
Der US CLOUD Act von 2018 ermöglicht US-Behörden den Zugriff auf Daten, die von US-Unternehmen gespeichert werden — unabhängig vom physischen Standort der Server. Für europäische Organisationen, die personenbezogene Daten oder Geschäftsgeheimnisse über US-Cloud-Dienste verarbeiten, entsteht ein struktureller Konflikt mit der DSGVO.
2. Vendor Lock-in bei KI-Plattformen
Unternehmen, die KI-Workloads auf proprietären APIs aufbauen, sind operativ abhängig von Preisentscheidungen, Modellverfügbarkeit und Nutzungsbedingungen eines einzelnen Anbieters. Preiserhöhungen von 30-50 % zwischen Modellgenerationen sind keine Ausnahme, sondern die Regel.
3. Das SORA-Shutdown als Warnsignal
Die abrupte Abschaltung von OpenAIs SORA-Videomodell im Februar 2025 hat gezeigt, dass Cloud-basierte KI-Dienste ohne Vorwarnung eingestellt werden können. Unternehmen, die ihre Workflows auf solchen Diensten aufgebaut hatten, standen über Nacht ohne Alternativlösung da.
ChatFlow: Drei Deployment-Modelle, eine Codebasis
ChatFlow adressiert diese Herausforderung mit einem architektonischen Grundprinzip: Modell-Agnostik auf einer identischen Codebasis, die in drei Deployment-Varianten betrieben werden kann.
| Eigenschaft | SaaS | Self-Hosted | Hybrid |
|---|---|---|---|
| Setup-Zeit | Stunden | 1-2 Wochen | 3-5 Tage |
| Rechenzentrum | EU (Frankfurt/Amsterdam) | Eigenes RZ / Private Cloud | Kern lokal, Inferenz konfigurierbar |
| Datensouveränität | EU-konform | 100 % unter eigener Kontrolle | Sensitiv lokal, Rest Cloud |
| Air-Gap-fähig | Nein | Ja | Teilweise |
| Infrastruktur | Managed | Docker/K8s + GPU | Docker/K8s + optional GPU |
| Modellwahl | Kommerzielle + Open Source | Open Source (lokal) | Frei konfigurierbar pro Workflow |
Der entscheidende Punkt: Der Wechsel zwischen den Modellen erfordert keine Codeänderungen. Eine Organisation kann mit SaaS starten und bei steigenden Anforderungen auf Self-Hosted migrieren, ohne ihre Workflows, Integrationen oder Nutzerschulungen zu verlieren.
Souveränität ist kein binärer Zustand, sondern ein Spektrum. ChatFlow ermöglicht es, sich auf diesem Spektrum frei zu bewegen — ohne Migrationskosten.
Open-Source-LLMs für On-Premise-Betrieb
Die Qualität von Open-Source-Modellen hat 2025/2026 ein Niveau erreicht, das den Einsatz in produktiven Enterprise-Umgebungen rechtfertigt. ChatFlow unterstützt nativ die folgenden Modelle für den Self-Hosted-Betrieb:
| Modell | Typ | Parameter | Lizenz | Einsatzbereich |
|---|---|---|---|---|
| Mistral Small 4 | MoE LLM | 119B (24B aktiv) | Apache 2.0 | Textgenerierung, Analyse, Zusammenfassung |
| Llama 4 Maverick | MoE LLM | 400B (17B aktiv pro Expert) | Llama License | Komplexe Reasoning-Aufgaben, Multimodal |
| BGE-M3 | Embedding | 568M | MIT | Semantische Suche, RAG, Dokumentenvergleich |
| Whisper v3 | Speech-to-Text | 1.5B | MIT | Transkription, Meeting-Protokolle |
Alle Modelle laufen über eine einheitliche vLLM-Inference-Schicht, die PagedAttention für effiziente GPU-Speicherverwaltung, Continuous Batching für maximalen Durchsatz und eine OpenAI-kompatible API für nahtlose Integration bietet.
Kostenvergleich: On-Premise vs. Cloud-Tokens
Der häufigste Einwand gegen On-Premise ist der initiale Investitionsaufwand. Die Gesamtbetrachtung zeichnet ein anderes Bild:
| Kostenfaktor | Cloud (API-Tokens) | On-Premise (Self-Hosted) |
|---|---|---|
| Kosten pro 1M Tokens (Input) | ~3,00-15,00 USD | ~0,40-2,00 USD |
| Kosten pro 1M Tokens (Output) | ~15,00-60,00 USD | ~2,00-8,00 USD |
| Faktor günstiger | Baseline | ca. 7x günstiger |
| Break-even (GPU-Hardware) | — | 3-6 Monate bei >50 Nutzern |
| Daten-Residenz | Abhängig vom Anbieter | Garantiert unter eigener Kontrolle |
Bei einer Organisation mit 100+ Nutzern und regelmäßiger KI-Nutzung amortisiert sich die GPU-Infrastruktur typischerweise innerhalb von drei bis sechs Monaten. Danach liegt der Kostenvorteil bei Faktor 5 bis 7 gegenüber Cloud-Token-Abrechnung.
NIS2 und DORA: Regulatorischer Kontext
Die europäische Regulierungslandschaft verschärft die Anforderungen an IT-Infrastruktur und Datenverarbeitung erheblich:
- NIS2 (seit Oktober 2024 in nationales Recht umzusetzen) erweitert den Kreis der betroffenen Unternehmen massiv und führt persönliche Geschäftsführerhaftung für IT-Sicherheitsvorfälle ein.
- DORA (seit Januar 2025 in Kraft) verpflichtet Finanzunternehmen zu umfassendem IT-Risikomanagement, einschließlich der Steuerung von IKT-Drittanbieterrisiken.
- EU AI Act klassifiziert KI-Systeme nach Risikostufen und stellt Transparenz- und Dokumentationspflichten auf, die bei On-Premise-Betrieb einfacher nachweisbar sind.
Alle drei Regulierungen begünstigen Deployment-Modelle, die volle Kontrolle über Datenflüsse, Zugriffsrechte und Audit-Trails ermöglichen. ChatFlow implementiert durchgängig TLS 1.3-Verschlüsselung und liefert vollständige Audit-Logs für alle Nutzeraktionen.
Das 5-stufige Souveränitätsmodell
Nicht jede Organisation benötigt maximale Souveränität. Wir empfehlen ein gestuftes Modell, das Aufwand und Kontrolle in Relation setzt:
| Stufe | Bezeichnung | Beschreibung | ChatFlow-Modell |
|---|---|---|---|
| 1 | Cloud-konform | EU-Rechenzentrum, DPA mit Anbieter | SaaS |
| 2 | Daten-souverän | Personenbezogene Daten verlassen die eigene Infrastruktur nicht | Hybrid |
| 3 | Modell-souverän | Kein proprietäres Modell; ausschließlich Open Source | Hybrid / Self-Hosted |
| 4 | Infrastruktur-souverän | Gesamte Plattform in eigener Infrastruktur | Self-Hosted |
| 5 | Air-Gap-souverän | Keinerlei Internetverbindung; vollständig isoliert | Self-Hosted (Air-Gap) |
Beginnen Sie dort, wo Ihre regulatorischen Anforderungen es verlangen. Planen Sie so, dass Sie ohne Plattformwechsel auf die nächste Stufe eskalieren können.
Migration zwischen Stufen: Kein Big Bang erforderlich
Ein häufiges Missverständnis: Die Wahl des Deployment-Modells sei eine einmalige, irreversible Entscheidung. ChatFlow widerlegt dieses Paradigma durch architektonische Separation of Concerns:
Von SaaS zu Self-Hosted
Der typische Migrationspfad für Organisationen, die mit SaaS starten und später höhere Souveränität benötigen:
- Woche 1-2: Bereitstellung der Self-Hosted-Infrastruktur (Docker/K8s-Cluster, GPU-Nodes, Netzwerkkonfiguration).
- Woche 3: Parallelbetrieb — die Self-Hosted-Instanz läuft parallel zur SaaS-Instanz. Nutzer arbeiten noch auf SaaS.
- Woche 4: Datenmigration — Workflows, Konfigurationen und Chatverlauf werden über eine verschlüsselte Export/Import-Schnittstelle übertragen.
- Woche 5: Cutover — DNS-Umstellung, Nutzer werden auf die Self-Hosted-Instanz umgeleitet. SaaS-Instanz bleibt als Fallback aktiv.
Gesamtdauer: 4 bis 6 Wochen, ohne Unterbrechung des laufenden Betriebs. Die Nutzer bemerken den Wechsel bestenfalls an der veränderten Latenz — die bei On-Premise typischerweise niedriger ist.
Hybrid als Dauerlösung
Für viele Organisationen ist Hybrid kein Übergangszustand, sondern das Zielmodell. Typische Konfiguration:
- Lokal: Dokumentenverarbeitung, RAG-Pipeline, Embedding-Generierung, Audit-Logging — alles, was sensible Daten berührt.
- Cloud: Inferenz mit großen Sprachmodellen für nicht-sensible Anwendungsfälle (allgemeine Textgenerierung, Übersetzung, Zusammenfassung öffentlicher Dokumente).
- Konfigurierbar pro Workflow: Der Administrator definiert für jeden Workflow, welche Komponenten lokal und welche in der Cloud laufen.
Die beste Architektur ist nicht die puristischste, sondern die, die regulatorische Anforderungen erfüllt und gleichzeitig wirtschaftlich tragbar ist.
Praxisbeispiel: Stadtwerk mit 800 Mitarbeitenden
Ein kommunales Stadtwerk im süddeutschen Raum stand 2025 vor der Entscheidung, wie es KI für die interne Wissensarbeit und den Kundenservice einführen sollte. Die Rahmenbedingungen:
- NIS2-Pflicht als Betreiber kritischer Infrastruktur (Energieversorgung).
- Betriebsrat mit klarer Position gegen Cloud-basierte KI-Systeme, die Mitarbeiterdaten verarbeiten.
- Begrenztes IT-Budget ohne Spielraum für dedizierte GPU-Infrastruktur im sechsstelligen Bereich.
Die Lösung: ChatFlow im Hybrid-Modell. Dokumentenverarbeitung und RAG-Pipeline laufen auf einem bestehenden VMware-Cluster. Inferenz nutzt Mistral Small 4 auf einer einzelnen NVIDIA A100, die als Leasing-Modell beschafft wurde. Für Spitzenlast-Szenarien (Monatsabschluss, Jahresabrechnung) werden temporär Cloud-Inferenz-Kapazitäten zugeschaltet — ausschließlich für anonymisierte, nicht-personenbezogene Anfragen.
Ergebnis nach 6 Monaten: 340 aktive Nutzer, 12.000 Anfragen pro Monat, Gesamtkosten 40 % unter dem ursprünglich kalkulierten SaaS-Budget — bei voller NIS2-Konformität und Betriebsratszustimmung.
Fazit: Souveränität als strategische Option, nicht als Dogma
KI-Souveränität bedeutet nicht, reflexhaft alles On-Premise zu betreiben. Es bedeutet, die Wahlfreiheit zu haben und zu behalten. Die richtige Plattformentscheidung stellt sicher, dass Sie heute schnell starten und morgen ohne Migrationskosten skalieren können — in die Richtung, die Ihre regulatorischen, wirtschaftlichen und strategischen Anforderungen vorgeben.
ChatFlow ist die einzige Enterprise-KI-Plattform im DACH-Raum, die alle fünf Souveränitätsstufen auf einer einzigen Codebasis abbildet. Von der SaaS-Instanz in Frankfurt bis zur Air-Gap-Installation in einem gesicherten Rechenzentrum — ohne Codeänderungen, ohne Vendor Lock-in.
Die Frage ist nicht mehr, ob Sie KI-Souveränität brauchen. Die Frage ist, auf welcher Stufe Sie heute starten und wie schnell Sie eskalieren können, wenn sich die Anforderungen ändern. Planen Sie Ihre Architektur so, dass beide Antworten in Ihrer Hand liegen.
Glossar: Begriffe in diesem Artikel