Alle Artikel
30. November 202514 Min. Lesezeit • Aktualisiert 4. Dez.

AI Deployment: Cloud vs. On-Prem vs. Hybrid

Wo soll Ihr LLM laufen? Cloud-API, eigene GPUs oder Hybrid? Kostenvergleich, Hardware-Guide und Entscheidungshilfe für 2025.

Sie haben einen AI Use Case identifiziert. Jetzt die entscheidende Frage: Wo läuft das Modell?

Die Antwort ist 2025 weniger eindeutig als noch vor einem Jahr. Qwen3-8B läuft auf einem Laptop und übertrifft Modelle, die 2024 noch Serverfarmen brauchten. Llama 3.3 70B liefert nahezu GPT-4-Qualität – auf einer einzelnen GPU. Gleichzeitig bleiben Cloud-APIs für viele Use Cases die bessere Wahl.

Dieser Artikel gibt Ihnen eine klare Entscheidungsgrundlage: Wann Cloud, wann Self-Hosting, wann Hybrid? Mit aktuellen Benchmarks, Hardware-Empfehlungen und realistischen Kostenrechnungen.


Die drei Deployment-Optionen im Überblick

Cloud API
OpenAI, Anthropic, Google
Vorteile
  • Sofort einsatzbereit
  • Frontier-Modelle (GPT-5.1, Claude Opus 4.5)
  • Keine Infrastruktur
  • Automatische Updates
Trade-offs
  • Daten verlassen Kontrolle
  • Kosten pro Token
  • Provider-Abhängigkeit
Ideal für

Prototypen, unkritische Daten, < 30M Tokens/Monat

Self-Hosted
Eigene GPU-Infrastruktur
Vorteile
  • Volle Datenkontrolle
  • Keine Token-Kosten
  • DSGVO-konform (EU)
  • Latenz < 50ms möglich
Trade-offs
  • GPU-Kosten upfront
  • Expertise erforderlich
  • Modelle < GPT-5.1 Level
Ideal für

Vertrauliche Daten, > 30M Tokens/Monat, Compliance

Hybrid
Routing nach Datenklasse
Vorteile
  • Best of both worlds
  • Kostenoptimierung
  • Compliance + Qualität
Trade-offs
  • Komplexere Architektur
  • Routing-Logik nötig
  • Zwei Systeme warten
Ideal für

Enterprise mit gemischten Use Cases

Option 1: Cloud API

Sie nutzen die APIs von OpenAI, Anthropic, Google oder Azure. Das Modell läuft auf deren Infrastruktur.

Aktuelle Frontier-Modelle (Dezember 2025):

  • OpenAI – GPT-5.1 (State of the Art), GPT-5 mini (günstig)
  • Anthropic – Claude Opus 4.5 (beste Coding-Performance), Sonnet 4.5, Haiku 4.5
  • Google – Gemini 3 Pro (1M Context, multimodal)
  • Azure OpenAI – GPT-5.1 mit Enterprise-Features (EU-Region)
  • AWS Bedrock – Multi-Model-Zugang (Claude, Llama, Mistral)

Wann Cloud?

  • Schneller Start ist wichtiger als Kosten
  • Sie brauchen Frontier-Qualität (GPT-5.1/Claude Opus 4.5-Level)
  • Keine hochsensiblen Daten
  • Volumen unter 15-20M Tokens/Monat
  • Kein Infra-Team vorhanden

Option 2: Self-Hosted (On-Premises)

Sie betreiben LLMs auf eigener Hardware oder dedizierten Cloud-GPUs. Das Modell und die Daten bleiben unter Ihrer Kontrolle.

Die besten Open-Source-Modelle (Dezember 2025):

  • Qwen3-8B – Best-in-class für kleine Modelle, übertrifft Qwen2.5-14B
  • Llama 3.3 70B – Frontier-Performance, 128K Context, nahe GPT-4o
  • Mistral Nemo 12B – EU-Anbieter, Apache 2.0 Lizenz
  • DeepSeek-R1 8B – Exzellent für Reasoning/Math

Wann Self-Hosted?

  • Vertrauliche oder personenbezogene Daten
  • Strenge Compliance (Gesundheit, Finanzen, DSGVO)
  • Volumen über 20M Tokens/Monat
  • Latenz kritisch (<50ms)
  • Infra-Expertise vorhanden

Option 3: Hybrid

Die meisten Enterprises landen hier: Cloud für State-of-the-Art-Qualität bei unkritischen Daten, Self-Hosting für sensible Use Cases.

Wann Hybrid?

  • Mix aus sensiblen und unkritischen Use Cases
  • Manche Tasks brauchen Frontier-Qualität (GPT-5.1, Claude Opus)
  • Kostenoptimierung wichtig
  • Maximale Flexibilität gewünscht

Die Revolution 2025: Lokale LLMs sind erwachsen geworden

Vor einem Jahr war Self-Hosting ein Kompromiss: Deutlich schlechtere Qualität, teure Hardware, kompliziertes Setup. Das hat sich fundamental geändert.

Top Local LLMs (Dezember 2025)

ModellVRAMSpeed
Qwen3-8B
Alibaba · 8B
~8 GB25+ tok/s
Llama 3.3 70B
Meta · 70B
~35 GB (Q4)3-8 tok/s
Mistral Nemo 12B
Mistral AI · 12B
~12 GB15-20 tok/s
Qwen3-4B
Alibaba · 4B
~4 GB40+ tok/s
DeepSeek-R1 8B
DeepSeek · 8B
~8 GB20+ tok/s

Hardware-Empfehlungen

RTX 4090
24 GB VRAM
$1.600-2.000
Performance: 128 tok/s (8B)
Bis 30B optimal, 70B mit Q4
Empfohlen
RTX 5090
32 GB VRAM
$2.000-3.800
Performance: ~170 tok/s (8B)
Bis 32B optimal, 70B komfortabel
M3 Ultra Mac
Bis 512 GB unified VRAM
ab $4.000
Performance: ~76 tok/s (8B)
Selbst 405B möglich
Empfohlen
RTX 3090 (gebraucht)
24 GB VRAM
$800-900
Performance: 112 tok/s (8B)
Wie 4090, etwas langsamer
Die Revolution 2025: Qwen3-8B läuft auf einem Laptop mit 8 GB VRAM und übertrifft Modelle, die vor einem Jahr noch 14B+ Parameter brauchten. Mit Quantisierung (Q4) passen selbst 70B-Modelle auf eine RTX 4090.

Was hat sich geändert?

1. Modell-Qualität explodiert: Qwen3-8B erreicht auf Benchmarks (MMLU-Pro, LiveCodeBench, AIME) Werte, die 2024 noch 14B-Modellen vorbehalten waren. Llama 3.3 70B schlägt in manchen Benchmarks das ursprüngliche GPT-4.

2. Hardware wird erschwinglich: Eine RTX 4090 ($1.800) liefert 128 Tokens/Sekunde für 8B-Modelle. Mit Quantisierung (Q4) laufen selbst 70B-Modelle auf Consumer-Hardware.

3. Tooling ist Production-Ready: Ollama macht den Einstieg trivial. vLLM liefert 793 TPS für Production-Workloads. Beide bieten OpenAI-kompatible APIs – Ihr Code bleibt identisch.

Quantisierung: Der Game-Changer

Quantisierung reduziert den Speicherbedarf drastisch bei minimalem Qualitätsverlust:

QuantisierungVRAM-ReduktionQualitätsverlust
FP16 (Standard)0%0%
INT8~50%~1-2%
Q4_K_M (GGUF)~75%~3-5%

Beispiel Llama 3.3 70B:

  • FP16: 140 GB → Nur auf Server-GPUs (2× A100)
  • Q4: 35 GB → Passt auf eine RTX 4090 (24 GB) + RAM-Offloading

Kostenvergleich: Cloud vs. Self-Hosted

Die Kosten sind oft das entscheidende Argument. Hier eine realistische Rechnung:

Cloud (GPT-5.1)
Input$1,25 / 1M Tokens
Output$10,00 / 1M Tokens
Durchschnitt~$5,60 / 1M Tokens
30M Tokens/Monat
Input (15M)$18,75
Output (15M)$150,00
Gesamt$168,75
Self-Hosted (Llama 3.3 70B)
HardwareRTX 4090 (~$1.800)
Oder Cloud-GPU~$1,50/h (A100)
Token-Kosten$0
Monatliche Kosten
GPU-Lease (24/7)~$1.100
Bei Eigenkauf~$75 Strom
Token$0
Break-Even: ~15-20M Tokens/Monat
Ab diesem Volumen wird Self-Hosting günstiger (bei GPU-Lease)

Die vollständige Rechnung für Self-Hosting

Option A: GPU-Lease (z.B. Lambda Labs, RunPod)

A100 80GB: ~$1,50/h
Monatlich (24/7): ~$1.100

Pro: Keine Upfront-Kosten, flexibel skalierbar
Contra: Höhere laufende Kosten als Eigenkauf

Option B: Hardware kaufen (Empfohlen ab klarem Use Case)

RTX 4090:           ~$1.800
Server/Workstation: ~$2.000
Setup/Integration:  ~$1.000
────────────────────────────
Initial:            ~$4.800

Laufend:
- Strom (~450W):    ~$75/Monat
- Wartung:          ~$50/Monat
────────────────────────────
Monatlich:          ~$125

Amortisation: Nach ~6-8 Monaten bei 20M+ Tokens/Monat

Option C: Apple Silicon (für Entwicklung/Experimente)

M3 Ultra Mac Studio (96GB): ab $4.000

Pro: Bis 512GB unified RAM, alle Modelle möglich
Contra: Langsamere Inference (5-15 tok/s vs. 30-50 auf RTX 4090)
Ideal für: Experimente mit sehr großen Modellen, Development

Tool-Stack für Self-Hosting

Inference-Server im Vergleich (2025)

ToolUse CasePerformanceEinstieg
OllamaDevelopment, POCGut5 Minuten
vLLMProductionExzellent (793 TPS)30 Minuten
TensorRT-LLMMax PerformanceBesteKomplex
LM StudioDesktop-GUIGut2 Minuten

Ollama: Der schnellste Einstieg

# Installation (Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Modell laden und starten
ollama run qwen3:8b

# Oder mit API
ollama serve  # Startet Server auf localhost:11434

# API-Aufruf (OpenAI-kompatibel!)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3:8b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

vLLM: Für Production-Workloads

# Installation
pip install vllm

# Server starten
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3-8B \
    --port 8000

# Für 70B-Modelle mit Tensor-Parallelism (2 GPUs)
python -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Llama-3.3-70B-Instruct \
    --tensor-parallel-size 2 \
    --port 8000

vLLM-Vorteile:

  • PagedAttention: Optimiert GPU-Memory-Nutzung
  • Continuous Batching: Mehrere Requests parallel
  • OpenAI-kompatible API: Drop-in-Replacement

Hybrid-Architektur: Das Beste aus beiden Welten

Die meisten Unternehmen landen bei Hybrid: Ein Router entscheidet basierend auf Datenklassifizierung und Qualitätsanforderung, welches Backend den Request bearbeitet.

Request
Router / Classifier
Datenklassifizierung
  • PUBLIC → Cloud
  • INTERNAL → EU-Cloud
  • CONFIDENTIAL → On-Prem
  • RESTRICTED → Reject
Weitere Kriterien
  • GPT-4o-Level nötig? → Cloud
  • Latenz <50ms? → On-Prem
  • Cost-sensitive? → On-Prem
Cloud
GPT-5.1, Claude Opus
EU-Cloud
Azure GPT-5.1 EU
On-Prem
Llama 3.3, Qwen3
Implementierung: Ein API-Gateway (z.B. LiteLLM, Portkey) übernimmt das Routing. Alle Backends bieten OpenAI-kompatible APIs – Ihr Anwendungscode bleibt identisch.

Implementierung mit LiteLLM

LiteLLM ist ein Proxy, der verschiedene LLM-Backends unter einer einheitlichen API zusammenfasst:

from litellm import Router

router = Router(
    model_list=[
        # Cloud für Public/Internal + High Quality
        {
            "model_name": "gpt-5.1",
            "litellm_params": {
                "model": "gpt-5.1",
                "api_key": os.getenv("OPENAI_API_KEY")
            }
        },
        # EU-Cloud für DSGVO-sensible Daten
        {
            "model_name": "azure-gpt5",
            "litellm_params": {
                "model": "azure/gpt-5.1",
                "api_base": "https://your-resource.openai.azure.com",
                "api_key": os.getenv("AZURE_API_KEY")
            }
        },
        # On-Prem für Confidential
        {
            "model_name": "llama-local",
            "litellm_params": {
                "model": "openai/llama-3.3-70b",
                "api_base": "http://localhost:8000/v1"
            }
        }
    ]
)

# Routing-Logik
async def route_request(messages: list, data_class: str, quality: str):
    if data_class == "CONFIDENTIAL":
        model = "llama-local"
    elif data_class == "INTERNAL" and quality != "high":
        model = "llama-local"
    elif data_class == "INTERNAL":
        model = "azure-gpt5"  # EU-Cloud
    else:
        model = "gpt-5.1"

    return await router.acompletion(model=model, messages=messages)

DSGVO & Compliance

Daten-Residenz

AspektUS-CloudEU-CloudOn-Prem (EU)
Drittland-Transfer⚠️ SCCs nötig✅ OK✅ OK
Datenkontrolle❌ Begrenzt⚠️ Begrenzt✅ Voll
Löschung⚠️ Eingeschränkt⚠️ Eingeschränkt✅ Voll
AVV verfügbar✅ Ja✅ JaN/A

EU AI Act

Wichtig: On-Prem-Deployment ändert NICHTS an EU AI Act-Anforderungen. High-Risk bleibt High-Risk, egal wo das Modell läuft. Die Deployment-Entscheidung ist primär eine Datenschutz- und Kostenfrage.

Empfehlung für DACH

  1. Personenbezogene Daten: On-Prem oder Azure OpenAI (EU-Region)
  2. Geschäftsgeheimnisse: On-Prem
  3. Unkritische Daten: Cloud (günstigste Option)

Entscheidungshilfe: Der Schnelltest

Beantworten Sie diese drei Fragen:

1. Datenklassifizierung

Ihre DatenEmpfehlung
ÖffentlichCloud
Intern, nicht personenbezogenCloud oder EU-Cloud
Personenbezogen (DSGVO)EU-Cloud oder On-Prem
Vertraulich/GeschäftsgeheimnisseOn-Prem

2. Volumen

Monatliches Token-VolumenEmpfehlung
< 5M TokensCloud (definitiv)
5-20M TokensCloud (wahrscheinlich)
20-50M TokensBreak-Even-Zone
> 50M TokensOn-Prem (wahrscheinlich)

3. Qualitätsanforderung

AnforderungEmpfehlung
Frontier-Qualität (beste verfügbare)Cloud (GPT-5.1, Claude Opus 4.5)
Sehr gut, aber nicht FrontierOn-Prem (Llama 3.3 70B)
Gut genug für Standard-TasksOn-Prem (Qwen3-8B, Mistral)

Fazit: Die pragmatische Empfehlung

Für die meisten Unternehmen in 2025:

  1. Starten Sie mit Cloud – GPT-5 mini oder Claude Haiku 4.5 für erste Use Cases
  2. Messen Sie Ihr Volumen – Ab 20M Tokens/Monat lohnt sich die Rechnung
  3. Evaluieren Sie Self-Hosting bei:
    • Sensiblen Daten (Pflicht)
    • Hohem Volumen (Kosten)
    • Latenz-Anforderungen (<50ms)
  4. Hybrid ist der Enterprise-Standard – Routing nach Datenklasse + Qualität

Die lokale LLM-Revolution ist real. Qwen3-8B auf einem Laptop liefert heute, was vor einem Jahr noch undenkbar war. Aber Cloud-APIs bleiben für viele Use Cases die pragmatischere Wahl – zumindest bis Ihr Volumen den Break-Even-Point erreicht.


Weiterführend

AI Security Insights

Einmal im Monat. Kein Spam.

Was passiert in der Welt der KI-Security? Welche Risiken sollten Sie kennen? Ich fasse das Wichtigste zusammen - verständlich, pragmatisch, ohne Buzzwords.

Einmal pro Monat Jederzeit abbestellbar Kein Spam, versprochen