AI Deployment: Cloud vs. On-Prem vs. Hybrid

Wo soll Ihr LLM laufen? Cloud-API, eigene GPUs oder Hybrid? Kostenvergleich, Hardware-Guide und Entscheidungshilfe für 2025.

Sie haben einen AI Use Case identifiziert. Jetzt die entscheidende Frage: Wo läuft das Modell?

Die Antwort ist 2025 weniger eindeutig als noch vor einem Jahr. Qwen3-8B läuft auf einem Laptop und übertrifft Modelle, die 2024 noch Serverfarmen brauchten. Llama 3.3 70B liefert nahezu GPT-4-Qualität – auf einer einzelnen GPU. Gleichzeitig bleiben Cloud-APIs für viele Use Cases die bessere Wahl.

Dieser Artikel gibt Ihnen eine klare Entscheidungsgrundlage: Wann Cloud, wann Self-Hosting, wann Hybrid? Mit aktuellen Benchmarks, Hardware-Empfehlungen und realistischen Kostenrechnungen.

Die drei Deployment-Optionen im Überblick

Cloud API

OpenAI, Anthropic, Google

Vorteile

Sofort einsatzbereit
Frontier-Modelle (GPT-5.1, Claude Opus 4.5)
Keine Infrastruktur
Automatische Updates

Trade-offs

Daten verlassen Kontrolle
Kosten pro Token
Provider-Abhängigkeit

Ideal für

Prototypen, unkritische Daten, < 30M Tokens/Monat

Self-Hosted

Eigene GPU-Infrastruktur

Vorteile

Volle Datenkontrolle
Keine Token-Kosten
DSGVO-konform (EU)
Latenz < 50ms möglich

Trade-offs

GPU-Kosten upfront
Expertise erforderlich
Modelle < GPT-5.1 Level

Ideal für

Vertrauliche Daten, > 30M Tokens/Monat, Compliance

Hybrid

Routing nach Datenklasse

Vorteile

Best of both worlds
Kostenoptimierung
Compliance + Qualität

Trade-offs

Komplexere Architektur
Routing-Logik nötig
Zwei Systeme warten

Ideal für

Enterprise mit gemischten Use Cases

Option 1: Cloud API

Sie nutzen die APIs von OpenAI, Anthropic, Google oder Azure. Das Modell läuft auf deren Infrastruktur.

Aktuelle Frontier-Modelle (Dezember 2025):

OpenAI – GPT-5.1 (State of the Art), GPT-5 mini (günstig)
Anthropic – Claude Opus 4.5 (beste Coding-Performance), Sonnet 4.5, Haiku 4.5
Google – Gemini 3 Pro (1M Context, multimodal)
Azure OpenAI – GPT-5.1 mit Enterprise-Features (EU-Region)
AWS Bedrock – Multi-Model-Zugang (Claude, Llama, Mistral)

Wann Cloud?

Schneller Start ist wichtiger als Kosten
Sie brauchen Frontier-Qualität (GPT-5.1/Claude Opus 4.5-Level)
Keine hochsensiblen Daten
Volumen unter 15-20M Tokens/Monat
Kein Infra-Team vorhanden

Option 2: Self-Hosted (On-Premises)

Sie betreiben LLMs auf eigener Hardware oder dedizierten Cloud-GPUs. Das Modell und die Daten bleiben unter Ihrer Kontrolle.

Die besten Open-Source-Modelle (Dezember 2025):

Qwen3-8B – Best-in-class für kleine Modelle, übertrifft Qwen2.5-14B
Llama 3.3 70B – Frontier-Performance, 128K Context, nahe GPT-4o
Mistral Nemo 12B – EU-Anbieter, Apache 2.0 Lizenz
DeepSeek-R1 8B – Exzellent für Reasoning/Math

Wann Self-Hosted?

Vertrauliche oder personenbezogene Daten
Strenge Compliance (Gesundheit, Finanzen, DSGVO)
Volumen über 20M Tokens/Monat
Latenz kritisch (<50ms)
Infra-Expertise vorhanden

Option 3: Hybrid

Die meisten Enterprises landen hier: Cloud für State-of-the-Art-Qualität bei unkritischen Daten, Self-Hosting für sensible Use Cases.

Wann Hybrid?

Mix aus sensiblen und unkritischen Use Cases
Manche Tasks brauchen Frontier-Qualität (GPT-5.1, Claude Opus)
Kostenoptimierung wichtig
Maximale Flexibilität gewünscht

Die Revolution 2025: Lokale LLMs sind erwachsen geworden

Vor einem Jahr war Self-Hosting ein Kompromiss: Deutlich schlechtere Qualität, teure Hardware, kompliziertes Setup. Das hat sich fundamental geändert.

Top Local LLMs (Dezember 2025)

Modell	VRAM	Speed	Qualität	Highlight
Qwen3-8B Alibaba · 8B	~8 GB	25+ tok/s	Übertrifft Qwen2.5-14B	Best-in-class für 8B, läuft auf Laptops
Llama 3.3 70B Meta · 70B	~35 GB (Q4)	3-8 tok/s	Nahe GPT-4o	Frontier-Performance, 128K Context
Mistral Nemo 12B Mistral AI · 12B	~12 GB	15-20 tok/s	Sehr gut	EU-Anbieter, Apache 2.0
Qwen3-4B Alibaba · 4B	~4 GB	40+ tok/s	Gut	Edge-Devices, Smartphones
DeepSeek-R1 8B DeepSeek · 8B	~8 GB	20+ tok/s	Exzellent für Reasoning	Thinking-Mode, beste Math/Logic

Hardware-Empfehlungen

RTX 4090

24 GB VRAM

$1.600-2.000

Performance: 128 tok/s (8B)

Bis 30B optimal, 70B mit Q4

Was hat sich geändert?

1. Modell-Qualität explodiert: Qwen3-8B erreicht auf Benchmarks (MMLU-Pro, LiveCodeBench, AIME) Werte, die 2024 noch 14B-Modellen vorbehalten waren. Llama 3.3 70B schlägt in manchen Benchmarks das ursprüngliche GPT-4.

2. Hardware wird erschwinglich: Eine RTX 4090 ($1.800) liefert 128 Tokens/Sekunde für 8B-Modelle. Mit Quantisierung (Q4) laufen selbst 70B-Modelle auf Consumer-Hardware.

3. Tooling ist Production-Ready: Ollama macht den Einstieg trivial. vLLM liefert 793 TPS für Production-Workloads. Beide bieten OpenAI-kompatible APIs – Ihr Code bleibt identisch.

Quantisierung: Der Game-Changer

Quantisierung reduziert den Speicherbedarf drastisch bei minimalem Qualitätsverlust:

Quantisierung	VRAM-Reduktion	Qualitätsverlust
FP16 (Standard)	0%	0%
INT8	~50%	~1-2%
Q4_K_M (GGUF)	~75%	~3-5%

Beispiel Llama 3.3 70B:

FP16: 140 GB → Nur auf Server-GPUs (2× A100)
Q4: 35 GB → Passt auf eine RTX 4090 (24 GB) + RAM-Offloading

Kostenvergleich: Cloud vs. Self-Hosted

Die Kosten sind oft das entscheidende Argument. Hier eine realistische Rechnung:

Cloud (GPT-5.1)

Input$1,25 / 1M Tokens

Output$10,00 / 1M Tokens

Durchschnitt~$5,60 / 1M Tokens

30M Tokens/Monat

Input (15M)$18,75

Output (15M)$150,00

Gesamt$168,75

Self-Hosted (Llama 3.3 70B)

HardwareRTX 4090 (~$1.800)

Oder Cloud-GPU~$1,50/h (A100)

Token-Kosten$0

Monatliche Kosten

GPU-Lease (24/7)~$1.100

Bei Eigenkauf~$75 Strom

Token$0

Break-Even: ~15-20M Tokens/Monat

Ab diesem Volumen wird Self-Hosting günstiger (bei GPU-Lease)

Die vollständige Rechnung für Self-Hosting

Option A: GPU-Lease (z.B. Lambda Labs, RunPod)

A100 80GB: ~$1,50/h
Monatlich (24/7): ~$1.100

Pro: Keine Upfront-Kosten, flexibel skalierbar
Contra: Höhere laufende Kosten als Eigenkauf

Option B: Hardware kaufen (Empfohlen ab klarem Use Case)

RTX 4090:           ~$1.800
Server/Workstation: ~$2.000
Setup/Integration:  ~$1.000
────────────────────────────
Initial:            ~$4.800

Laufend:
- Strom (~450W):    ~$75/Monat
- Wartung:          ~$50/Monat
────────────────────────────
Monatlich:          ~$125

Amortisation: Nach ~6-8 Monaten bei 20M+ Tokens/Monat

Option C: Apple Silicon (für Entwicklung/Experimente)

M3 Ultra Mac Studio (96GB): ab $4.000

Pro: Bis 512GB unified RAM, alle Modelle möglich
Contra: Langsamere Inference (5-15 tok/s vs. 30-50 auf RTX 4090)
Ideal für: Experimente mit sehr großen Modellen, Development

Tool-Stack für Self-Hosting

Inference-Server im Vergleich (2025)

Tool	Use Case	Performance	Einstieg
Ollama	Development, POC	Gut	5 Minuten
vLLM	Production	Exzellent (793 TPS)	30 Minuten
TensorRT-LLM	Max Performance	Beste	Komplex
LM Studio	Desktop-GUI	Gut	2 Minuten

Ollama: Der schnellste Einstieg

# Installation (Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Modell laden und starten
ollama run qwen3:8b

# Oder mit API
ollama serve  # Startet Server auf localhost:11434

# API-Aufruf (OpenAI-kompatibel!)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:8b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

vLLM: Für Production-Workloads

# Installation
pip install vllm

# Server starten
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3-8B \
    --port 8000

# Für 70B-Modelle mit Tensor-Parallelism (2 GPUs)
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.3-70B-Instruct \
    --tensor-parallel-size 2 \
    --port 8000

vLLM-Vorteile:

PagedAttention: Optimiert GPU-Memory-Nutzung
Continuous Batching: Mehrere Requests parallel
OpenAI-kompatible API: Drop-in-Replacement

Hybrid-Architektur: Das Beste aus beiden Welten

Die meisten Unternehmen landen bei Hybrid: Ein Router entscheidet basierend auf Datenklassifizierung und Qualitätsanforderung, welches Backend den Request bearbeitet.

Request

Router / Classifier

Datenklassifizierung

PUBLIC → Cloud
INTERNAL → EU-Cloud
CONFIDENTIAL → On-Prem
RESTRICTED → Reject

Weitere Kriterien

GPT-4o-Level nötig? → Cloud
Latenz <50ms? → On-Prem
Cost-sensitive? → On-Prem

Cloud

GPT-5.1, Claude Opus

EU-Cloud

Azure GPT-5.1 EU

On-Prem

Llama 3.3, Qwen3

Implementierung: Ein API-Gateway (z.B. LiteLLM, Portkey) übernimmt das Routing. Alle Backends bieten OpenAI-kompatible APIs – Ihr Anwendungscode bleibt identisch.

Implementierung mit LiteLLM

LiteLLM ist ein Proxy, der verschiedene LLM-Backends unter einer einheitlichen API zusammenfasst:

from litellm import Router

router = Router(
    model_list=[
        # Cloud für Public/Internal + High Quality
        {
            "model_name": "gpt-5.1",
            "litellm_params": {
                "model": "gpt-5.1",
                "api_key": os.getenv("OPENAI_API_KEY")
            }
        },
        # EU-Cloud für DSGVO-sensible Daten
        {
            "model_name": "azure-gpt5",
            "litellm_params": {
                "model": "azure/gpt-5.1",
                "api_base": "https://your-resource.openai.azure.com",
                "api_key": os.getenv("AZURE_API_KEY")
            }
        },
        # On-Prem für Confidential
        {
            "model_name": "llama-local",
            "litellm_params": {
                "model": "openai/llama-3.3-70b",
                "api_base": "http://localhost:8000/v1"
            }
        }
    ]
)

# Routing-Logik
async def route_request(messages: list, data_class: str, quality: str):
    if data_class == "CONFIDENTIAL":
        model = "llama-local"
    elif data_class == "INTERNAL" and quality != "high":
        model = "llama-local"
    elif data_class == "INTERNAL":
        model = "azure-gpt5"  # EU-Cloud
    else:
        model = "gpt-5.1"

    return await router.acompletion(model=model, messages=messages)

DSGVO & Compliance

Daten-Residenz

Aspekt	US-Cloud	EU-Cloud	On-Prem (EU)
Drittland-Transfer	⚠️ SCCs nötig	✅ OK	✅ OK
Datenkontrolle	❌ Begrenzt	⚠️ Begrenzt	✅ Voll
Löschung	⚠️ Eingeschränkt	⚠️ Eingeschränkt	✅ Voll
AVV verfügbar	✅ Ja	✅ Ja	N/A

EU AI Act

Wichtig: On-Prem-Deployment ändert NICHTS an EU AI Act-Anforderungen. High-Risk bleibt High-Risk, egal wo das Modell läuft. Die Deployment-Entscheidung ist primär eine Datenschutz- und Kostenfrage.

Empfehlung für DACH

Personenbezogene Daten: On-Prem oder Azure OpenAI (EU-Region)
Geschäftsgeheimnisse: On-Prem
Unkritische Daten: Cloud (günstigste Option)

Entscheidungshilfe: Der Schnelltest

Beantworten Sie diese drei Fragen:

1. Datenklassifizierung

Ihre Daten	Empfehlung
Öffentlich	Cloud
Intern, nicht personenbezogen	Cloud oder EU-Cloud
Personenbezogen (DSGVO)	EU-Cloud oder On-Prem
Vertraulich/Geschäftsgeheimnisse	On-Prem

2. Volumen

Monatliches Token-Volumen	Empfehlung
< 5M Tokens	Cloud (definitiv)
5-20M Tokens	Cloud (wahrscheinlich)
20-50M Tokens	Break-Even-Zone
> 50M Tokens	On-Prem (wahrscheinlich)

3. Qualitätsanforderung

Anforderung	Empfehlung
Frontier-Qualität (beste verfügbare)	Cloud (GPT-5.1, Claude Opus 4.5)
Sehr gut, aber nicht Frontier	On-Prem (Llama 3.3 70B)
Gut genug für Standard-Tasks	On-Prem (Qwen3-8B, Mistral)

Fazit: Die pragmatische Empfehlung

Für die meisten Unternehmen in 2025:

Starten Sie mit Cloud – GPT-5 mini oder Claude Haiku 4.5 für erste Use Cases
Messen Sie Ihr Volumen – Ab 20M Tokens/Monat lohnt sich die Rechnung
Evaluieren Sie Self-Hosting bei:
- Sensiblen Daten (Pflicht)
- Hohem Volumen (Kosten)
- Latenz-Anforderungen (<50ms)
Hybrid ist der Enterprise-Standard – Routing nach Datenklasse + Qualität

Die lokale LLM-Revolution ist real. Qwen3-8B auf einem Laptop liefert heute, was vor einem Jahr noch undenkbar war. Aber Cloud-APIs bleiben für viele Use Cases die pragmatischere Wahl – zumindest bis Ihr Volumen den Break-Even-Point erreicht.

Weiterführend

Sichere LLM-Integration – Die 5 Integration-Patterns
Data Flow & Privacy Architecture – Privacy by Design
API Security für AI-Systeme – Security-Layer für alle Deployment-Optionen
Enterprise AI Architektur – Zurück zur Übersicht

AI Deployment: Cloud vs. On-Prem vs. Hybrid

Die drei Deployment-Optionen im Überblick

Option 1: Cloud API

Option 2: Self-Hosted (On-Premises)

Option 3: Hybrid

Die Revolution 2025: Lokale LLMs sind erwachsen geworden

Top Local LLMs (Dezember 2025)

Hardware-Empfehlungen

Was hat sich geändert?

Quantisierung: Der Game-Changer

Kostenvergleich: Cloud vs. Self-Hosted

Die vollständige Rechnung für Self-Hosting

Tool-Stack für Self-Hosting

Inference-Server im Vergleich (2025)

Ollama: Der schnellste Einstieg

vLLM: Für Production-Workloads

Hybrid-Architektur: Das Beste aus beiden Welten

Implementierung mit LiteLLM

DSGVO & Compliance

Daten-Residenz

EU AI Act

Empfehlung für DACH

Entscheidungshilfe: Der Schnelltest

1. Datenklassifizierung

2. Volumen

3. Qualitätsanforderung

Fazit: Die pragmatische Empfehlung

Weiterführend

Weitere Artikel

AI-Angriffe 2025: Die neue Bedrohungslandschaft

AI Policy erstellen: Von der Vorlage zur gelebten Richtlinie

API Security für AI-Systeme

Data Privacy Architecture für KI-Systeme

AI Security Insights