AI Deployment: Cloud vs. On-Prem vs. Hybrid
Wo soll Ihr LLM laufen? Cloud-API, eigene GPUs oder Hybrid? Kostenvergleich, Hardware-Guide und Entscheidungshilfe für 2025.
Sie haben einen AI Use Case identifiziert. Jetzt die entscheidende Frage: Wo läuft das Modell?
Die Antwort ist 2025 weniger eindeutig als noch vor einem Jahr. Qwen3-8B läuft auf einem Laptop und übertrifft Modelle, die 2024 noch Serverfarmen brauchten. Llama 3.3 70B liefert nahezu GPT-4-Qualität – auf einer einzelnen GPU. Gleichzeitig bleiben Cloud-APIs für viele Use Cases die bessere Wahl.
Dieser Artikel gibt Ihnen eine klare Entscheidungsgrundlage: Wann Cloud, wann Self-Hosting, wann Hybrid? Mit aktuellen Benchmarks, Hardware-Empfehlungen und realistischen Kostenrechnungen.
Die drei Deployment-Optionen im Überblick
- Sofort einsatzbereit
- Frontier-Modelle (GPT-5.1, Claude Opus 4.5)
- Keine Infrastruktur
- Automatische Updates
- Daten verlassen Kontrolle
- Kosten pro Token
- Provider-Abhängigkeit
Prototypen, unkritische Daten, < 30M Tokens/Monat
- Volle Datenkontrolle
- Keine Token-Kosten
- DSGVO-konform (EU)
- Latenz < 50ms möglich
- GPU-Kosten upfront
- Expertise erforderlich
- Modelle < GPT-5.1 Level
Vertrauliche Daten, > 30M Tokens/Monat, Compliance
- Best of both worlds
- Kostenoptimierung
- Compliance + Qualität
- Komplexere Architektur
- Routing-Logik nötig
- Zwei Systeme warten
Enterprise mit gemischten Use Cases
Option 1: Cloud API
Sie nutzen die APIs von OpenAI, Anthropic, Google oder Azure. Das Modell läuft auf deren Infrastruktur.
Aktuelle Frontier-Modelle (Dezember 2025):
- OpenAI – GPT-5.1 (State of the Art), GPT-5 mini (günstig)
- Anthropic – Claude Opus 4.5 (beste Coding-Performance), Sonnet 4.5, Haiku 4.5
- Google – Gemini 3 Pro (1M Context, multimodal)
- Azure OpenAI – GPT-5.1 mit Enterprise-Features (EU-Region)
- AWS Bedrock – Multi-Model-Zugang (Claude, Llama, Mistral)
Wann Cloud?
- Schneller Start ist wichtiger als Kosten
- Sie brauchen Frontier-Qualität (GPT-5.1/Claude Opus 4.5-Level)
- Keine hochsensiblen Daten
- Volumen unter 15-20M Tokens/Monat
- Kein Infra-Team vorhanden
Option 2: Self-Hosted (On-Premises)
Sie betreiben LLMs auf eigener Hardware oder dedizierten Cloud-GPUs. Das Modell und die Daten bleiben unter Ihrer Kontrolle.
Die besten Open-Source-Modelle (Dezember 2025):
- Qwen3-8B – Best-in-class für kleine Modelle, übertrifft Qwen2.5-14B
- Llama 3.3 70B – Frontier-Performance, 128K Context, nahe GPT-4o
- Mistral Nemo 12B – EU-Anbieter, Apache 2.0 Lizenz
- DeepSeek-R1 8B – Exzellent für Reasoning/Math
Wann Self-Hosted?
- Vertrauliche oder personenbezogene Daten
- Strenge Compliance (Gesundheit, Finanzen, DSGVO)
- Volumen über 20M Tokens/Monat
- Latenz kritisch (<50ms)
- Infra-Expertise vorhanden
Option 3: Hybrid
Die meisten Enterprises landen hier: Cloud für State-of-the-Art-Qualität bei unkritischen Daten, Self-Hosting für sensible Use Cases.
Wann Hybrid?
- Mix aus sensiblen und unkritischen Use Cases
- Manche Tasks brauchen Frontier-Qualität (GPT-5.1, Claude Opus)
- Kostenoptimierung wichtig
- Maximale Flexibilität gewünscht
Die Revolution 2025: Lokale LLMs sind erwachsen geworden
Vor einem Jahr war Self-Hosting ein Kompromiss: Deutlich schlechtere Qualität, teure Hardware, kompliziertes Setup. Das hat sich fundamental geändert.
Top Local LLMs (Dezember 2025)
| Modell | VRAM | Speed |
|---|---|---|
Qwen3-8B Alibaba · 8B | ~8 GB | 25+ tok/s |
Llama 3.3 70B Meta · 70B | ~35 GB (Q4) | 3-8 tok/s |
Mistral Nemo 12B Mistral AI · 12B | ~12 GB | 15-20 tok/s |
Qwen3-4B Alibaba · 4B | ~4 GB | 40+ tok/s |
DeepSeek-R1 8B DeepSeek · 8B | ~8 GB | 20+ tok/s |
Hardware-Empfehlungen
Was hat sich geändert?
1. Modell-Qualität explodiert: Qwen3-8B erreicht auf Benchmarks (MMLU-Pro, LiveCodeBench, AIME) Werte, die 2024 noch 14B-Modellen vorbehalten waren. Llama 3.3 70B schlägt in manchen Benchmarks das ursprüngliche GPT-4.
2. Hardware wird erschwinglich: Eine RTX 4090 ($1.800) liefert 128 Tokens/Sekunde für 8B-Modelle. Mit Quantisierung (Q4) laufen selbst 70B-Modelle auf Consumer-Hardware.
3. Tooling ist Production-Ready: Ollama macht den Einstieg trivial. vLLM liefert 793 TPS für Production-Workloads. Beide bieten OpenAI-kompatible APIs – Ihr Code bleibt identisch.
Quantisierung: Der Game-Changer
Quantisierung reduziert den Speicherbedarf drastisch bei minimalem Qualitätsverlust:
| Quantisierung | VRAM-Reduktion | Qualitätsverlust |
|---|---|---|
| FP16 (Standard) | 0% | 0% |
| INT8 | ~50% | ~1-2% |
| Q4_K_M (GGUF) | ~75% | ~3-5% |
Beispiel Llama 3.3 70B:
- FP16: 140 GB → Nur auf Server-GPUs (2× A100)
- Q4: 35 GB → Passt auf eine RTX 4090 (24 GB) + RAM-Offloading
Kostenvergleich: Cloud vs. Self-Hosted
Die Kosten sind oft das entscheidende Argument. Hier eine realistische Rechnung:
Die vollständige Rechnung für Self-Hosting
Option A: GPU-Lease (z.B. Lambda Labs, RunPod)
A100 80GB: ~$1,50/h
Monatlich (24/7): ~$1.100
Pro: Keine Upfront-Kosten, flexibel skalierbar
Contra: Höhere laufende Kosten als Eigenkauf
Option B: Hardware kaufen (Empfohlen ab klarem Use Case)
RTX 4090: ~$1.800
Server/Workstation: ~$2.000
Setup/Integration: ~$1.000
────────────────────────────
Initial: ~$4.800
Laufend:
- Strom (~450W): ~$75/Monat
- Wartung: ~$50/Monat
────────────────────────────
Monatlich: ~$125
Amortisation: Nach ~6-8 Monaten bei 20M+ Tokens/Monat
Option C: Apple Silicon (für Entwicklung/Experimente)
M3 Ultra Mac Studio (96GB): ab $4.000
Pro: Bis 512GB unified RAM, alle Modelle möglich
Contra: Langsamere Inference (5-15 tok/s vs. 30-50 auf RTX 4090)
Ideal für: Experimente mit sehr großen Modellen, Development
Tool-Stack für Self-Hosting
Inference-Server im Vergleich (2025)
| Tool | Use Case | Performance | Einstieg |
|---|---|---|---|
| Ollama | Development, POC | Gut | 5 Minuten |
| vLLM | Production | Exzellent (793 TPS) | 30 Minuten |
| TensorRT-LLM | Max Performance | Beste | Komplex |
| LM Studio | Desktop-GUI | Gut | 2 Minuten |
Ollama: Der schnellste Einstieg
# Installation (Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Modell laden und starten
ollama run qwen3:8b
# Oder mit API
ollama serve # Startet Server auf localhost:11434
# API-Aufruf (OpenAI-kompatibel!)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3:8b",
"messages": [{"role": "user", "content": "Hello!"}]
}'
vLLM: Für Production-Workloads
# Installation
pip install vllm
# Server starten
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-8B \
--port 8000
# Für 70B-Modelle mit Tensor-Parallelism (2 GPUs)
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 2 \
--port 8000
vLLM-Vorteile:
- PagedAttention: Optimiert GPU-Memory-Nutzung
- Continuous Batching: Mehrere Requests parallel
- OpenAI-kompatible API: Drop-in-Replacement
Hybrid-Architektur: Das Beste aus beiden Welten
Die meisten Unternehmen landen bei Hybrid: Ein Router entscheidet basierend auf Datenklassifizierung und Qualitätsanforderung, welches Backend den Request bearbeitet.
- PUBLIC → Cloud
- INTERNAL → EU-Cloud
- CONFIDENTIAL → On-Prem
- RESTRICTED → Reject
- GPT-4o-Level nötig? → Cloud
- Latenz <50ms? → On-Prem
- Cost-sensitive? → On-Prem
Implementierung mit LiteLLM
LiteLLM ist ein Proxy, der verschiedene LLM-Backends unter einer einheitlichen API zusammenfasst:
from litellm import Router
router = Router(
model_list=[
# Cloud für Public/Internal + High Quality
{
"model_name": "gpt-5.1",
"litellm_params": {
"model": "gpt-5.1",
"api_key": os.getenv("OPENAI_API_KEY")
}
},
# EU-Cloud für DSGVO-sensible Daten
{
"model_name": "azure-gpt5",
"litellm_params": {
"model": "azure/gpt-5.1",
"api_base": "https://your-resource.openai.azure.com",
"api_key": os.getenv("AZURE_API_KEY")
}
},
# On-Prem für Confidential
{
"model_name": "llama-local",
"litellm_params": {
"model": "openai/llama-3.3-70b",
"api_base": "http://localhost:8000/v1"
}
}
]
)
# Routing-Logik
async def route_request(messages: list, data_class: str, quality: str):
if data_class == "CONFIDENTIAL":
model = "llama-local"
elif data_class == "INTERNAL" and quality != "high":
model = "llama-local"
elif data_class == "INTERNAL":
model = "azure-gpt5" # EU-Cloud
else:
model = "gpt-5.1"
return await router.acompletion(model=model, messages=messages)
DSGVO & Compliance
Daten-Residenz
| Aspekt | US-Cloud | EU-Cloud | On-Prem (EU) |
|---|---|---|---|
| Drittland-Transfer | ⚠️ SCCs nötig | ✅ OK | ✅ OK |
| Datenkontrolle | ❌ Begrenzt | ⚠️ Begrenzt | ✅ Voll |
| Löschung | ⚠️ Eingeschränkt | ⚠️ Eingeschränkt | ✅ Voll |
| AVV verfügbar | ✅ Ja | ✅ Ja | N/A |
EU AI Act
Wichtig: On-Prem-Deployment ändert NICHTS an EU AI Act-Anforderungen. High-Risk bleibt High-Risk, egal wo das Modell läuft. Die Deployment-Entscheidung ist primär eine Datenschutz- und Kostenfrage.
Empfehlung für DACH
- Personenbezogene Daten: On-Prem oder Azure OpenAI (EU-Region)
- Geschäftsgeheimnisse: On-Prem
- Unkritische Daten: Cloud (günstigste Option)
Entscheidungshilfe: Der Schnelltest
Beantworten Sie diese drei Fragen:
1. Datenklassifizierung
| Ihre Daten | Empfehlung |
|---|---|
| Öffentlich | Cloud |
| Intern, nicht personenbezogen | Cloud oder EU-Cloud |
| Personenbezogen (DSGVO) | EU-Cloud oder On-Prem |
| Vertraulich/Geschäftsgeheimnisse | On-Prem |
2. Volumen
| Monatliches Token-Volumen | Empfehlung |
|---|---|
| < 5M Tokens | Cloud (definitiv) |
| 5-20M Tokens | Cloud (wahrscheinlich) |
| 20-50M Tokens | Break-Even-Zone |
| > 50M Tokens | On-Prem (wahrscheinlich) |
3. Qualitätsanforderung
| Anforderung | Empfehlung |
|---|---|
| Frontier-Qualität (beste verfügbare) | Cloud (GPT-5.1, Claude Opus 4.5) |
| Sehr gut, aber nicht Frontier | On-Prem (Llama 3.3 70B) |
| Gut genug für Standard-Tasks | On-Prem (Qwen3-8B, Mistral) |
Fazit: Die pragmatische Empfehlung
Für die meisten Unternehmen in 2025:
- Starten Sie mit Cloud – GPT-5 mini oder Claude Haiku 4.5 für erste Use Cases
- Messen Sie Ihr Volumen – Ab 20M Tokens/Monat lohnt sich die Rechnung
- Evaluieren Sie Self-Hosting bei:
- Sensiblen Daten (Pflicht)
- Hohem Volumen (Kosten)
- Latenz-Anforderungen (<50ms)
- Hybrid ist der Enterprise-Standard – Routing nach Datenklasse + Qualität
Die lokale LLM-Revolution ist real. Qwen3-8B auf einem Laptop liefert heute, was vor einem Jahr noch undenkbar war. Aber Cloud-APIs bleiben für viele Use Cases die pragmatischere Wahl – zumindest bis Ihr Volumen den Break-Even-Point erreicht.
Weiterführend
- Sichere LLM-Integration – Die 5 Integration-Patterns
- Data Flow & Privacy Architecture – Privacy by Design
- API Security für AI-Systeme – Security-Layer für alle Deployment-Optionen
- Enterprise AI Architektur – Zurück zur Übersicht
AI Security Insights
Einmal im Monat. Kein Spam.
Was passiert in der Welt der KI-Security? Welche Risiken sollten Sie kennen? Ich fasse das Wichtigste zusammen - verständlich, pragmatisch, ohne Buzzwords.