Kubernetes

CNCF Graduated, Open Source

Container-Orchestrierung für KI-Infrastruktur

Kubernetes für produktive KI-Workloads

Kubernetes (K8s) ist der De-facto-Standard für produktive KI-Infrastruktur. Wir bauen und betreiben Ihren Cluster für LLM-Serving, MLOps-Pipelines und GPU-Workloads: hochverfügbar, auto-skalierend und DSGVO-konform auf EU-Servern.

Kostenloses Erstgespräch Kubernetes vs. Docker

DSGVO-konform EU-Hosting Made in Austria

k8s-prod-cluster

Healthy, region eu-central

v1.30

Control Plane3 Master, HA

api-serveretcdscheduler

gpu-node-01

GPU

worker-02

CPU

worker-03

CPU

Deployed Workloads

Ollama

Qdrant

Postgres

Redis

FastAPI

n8n

18 Pods, 3 Nodes, Auto-Scaling aktiv, DSGVO EU

99,9 %

Uptime mit Multi-Master-Cluster

Control-Plane-Nodes für echte HA

GPU

Scheduling mit MIG & Time-Slicing

DSGVO-konform gehostet

Kurz erklärt

Was ist Kubernetes? Die Plattform für produktive KI

Kubernetes (kurz K8s) ist ein Open-Source-System zur Container-Orchestrierung, ursprünglich von Google entwickelt und heute der weltweite Standard für containerisierte Anwendungen. Im Kern beantwortet es eine Frage: Wie betreibt man hunderte Container auf dutzenden Servern, zuverlässig und automatisch, ohne dass jemand rund um die Uhr manuell eingreift.

Für KI-Workloads ist das besonders relevant. LLM-Inferenz braucht dedizierte GPU-Ressourcen, Trainings-Jobs verbrauchen massive Rechenleistung in kurzen Zeitfenstern, und mehrere Modelle wie Llama oder Mistral müssen gleichzeitig laufen, versioniert und aktualisiert werden. Kubernetes löst das mit automatischem GPU-Scheduling, KEDA für Scale-to-Zero und GitOps-basierten Deployments über ArgoCD oder Flux.

Im DACH-Raum verbinden wir Kubernetes mit DSGVO-konformer EU-Infrastruktur. Statt US-Hyperscalern betreiben wir Ihre Cluster bei Hetzner, OVH oder STACKIT, Ihre Daten verlassen die EU nie, und die Anforderungen des EU AI Acts sind von Anfang an berücksichtigt.

Auto-Scaling

Self-Healing

Rolling Updates

GPU-Scheduling

GitOps

DSGVO-konform

Kubernetes auf einen Blick

Die wichtigsten Eckdaten im Überblick.

AbkürzungK8s, Container-Orchestrierung

UrsprungGoogle, heute CNCF Graduated

BausteinePods, Deployments, Services, Nodes

Skalierunghorizontal, vertikal, Scale-to-Zero

GPUNVIDIA Operator, MIG, Time-Slicing

BetriebManaged, Self-Hosted oder Hybrid

HostingHetzner, OVH, STACKIT, On-Premise

Anatomie eines Clusters

Control Plane und Worker Nodes

Ein Kubernetes Cluster teilt sich klar in zwei Welten: den steuernden Control Plane und die Worker Nodes, auf denen Ihre KI tatsächlich rechnet.

Das Gehirn

Control Plane

API Server: Die einzige Schnittstelle zum Cluster, jede Operation läuft darüber

etcd: Verteilte Key-Value-Datenbank, hält den gesamten Cluster-Zustand

Scheduler: Weist Pods anhand von Ressourcen, GPU-Bedarf und Affinität den richtigen Nodes zu

Controller Manager: Gleicht laufend Ist- und Soll-Zustand ab und korrigiert Abweichungen

Die Muskeln

Worker Node

Kubelet: Agent auf jedem Node, startet und überwacht die Container der Pods

Container Runtime: containerd oder CRI-O führt die Container tatsächlich aus

kube-proxy: Regelt Netzwerk und Service-Routing zwischen den Pods

GPU Operator: Stellt Treiber, CUDA und Device-Plugin auf GPU-Nodes bereit

Pods & Deployments

Die kleinste deploybare Einheit, mit automatischem Restart bei Ausfällen und definierter Replica-Zahl.

Namespaces

Isolierte Bereiche für Teams, Projekte oder Umgebungen, sauber getrennt mit eigenen Quotas.

Services & Ingress

Stabile Endpunkte und Load Balancing, die Anfragen zuverlässig an die richtigen Pods verteilen.

Unsere Leistungen

Was wir rund um Ihren Cluster übernehmen

Von der ersten Architekturentscheidung bis zum laufenden Betrieb, alles aus einer Hand und auf KI-Workloads zugeschnitten.

Architektur

Cluster-Setup & Architektur

Multi-Master-Architektur, GPU-Node-Pools, Netzwerk und Storage auf EU-Infrastruktur, sauber von Grund auf aufgebaut. Wir treffen die Architekturentscheidungen mit Blick auf Ihr Wachstum, statt eine Standardvorlage überzustülpen.

GPU

GPU-Scheduling

NVIDIA GPU Operator, MIG und Time-Slicing für maximale Auslastung teurer GPU-Hardware statt teurer Leerlaufzeit.

Effizienz

Auto-Scaling & KEDA

HPA, VPA, Cluster Autoscaler und KEDA für event-driven Scale-to-Zero. GPU-Ressourcen kosten nur, wenn sie wirklich gebraucht werden.

Automatisierung

GitOps & CI/CD

ArgoCD und Flux für automatisierte, reproduzierbare Deployments. Modell-Updates rollen kontrolliert aus, jederzeit nachvollziehbar und ohne manuellen Eingriff.

Security

Security & DSGVO

RBAC, Network Policies, Vault für Secrets und Audit-Logging. DSGVO-konforme Konfiguration für regulierte Branchen.

Flexibilität

Multi-Cloud & Hybrid

Cluster über mehrere EU-Provider und On-Premise hinweg, zentral verwaltet mit Rancher und sauberer Workload-Migration.

GPU & KI-Infrastruktur

Kubernetes für GPU-Workloads und LLM-Serving

GPU-Zeit ist teuer. Ein schlecht konfigurierter Cluster bedeutet, dass Ihre A100 acht Stunden am Tag auf Anfragen wartet, ohne zu rechnen. Wir konfigurieren Ihre Infrastruktur so, dass GPUs produktiv ausgelastet und trotzdem kosteneffizient betrieben werden.

Zentral ist dabei KEDA (Kubernetes Event-Driven Autoscaling): Es skaliert Ihre LLM-Dienste auf null, wenn keine Anfragen kommen, und fährt sie innerhalb von Sekunden wieder hoch, sobald Bedarf besteht. So zahlen Sie GPU-Ressourcen nur, wenn sie tatsächlich genutzt werden.

Für den Inference-Layer setzen wir auf vLLM oder KServe, die über den cluster-internen Load Balancer eingehende Anfragen auf mehrere Modell-Instanzen verteilen. Das Ergebnis: stabile Latenz auch bei Lastspitzen, ohne manuelle Eingriffe.

vLLM

Hochperformantes LLM-Serving im Cluster

KEDA

Event-driven Scale-to-Zero

GPU-Scheduling im Detail

So holen wir das Maximum aus teurer GPU-Hardware.

NVIDIA GPU Operator

Automatische Konfiguration von Treibern, CUDA und Container-Runtime auf allen GPU-Nodes

MIG (Multi-Instance GPU)

Eine A100 oder H100 in mehrere isolierte GPU-Instanzen aufteilen, ideal für parallele Modell-Anfragen

Time-Slicing

Zeitliche Aufteilung von GPU-Ressourcen zwischen mehreren Workloads für maximale Auslastung

DCGM Exporter

Prometheus-Metriken für GPU-Auslastung, Temperatur und Speicher, sichtbar in Grafana

Vergleich

Kubernetes vs. Docker: Was ist der Unterschied?

Beide Technologien arbeiten zusammen, lösen aber sehr unterschiedliche Probleme. Hier der direkte Vergleich.

Kriterium	Docker (Compose)	Kubernetes (K8s) KI-Scale
Einsatzbereich	Einzelner Server, Entwicklung	Multi-Server, Produktion
Skalierung	manuell, begrenzt	automatisch, horizontal & vertikal
Hochverfügbarkeit	kein automatischer Failover	Multi-Master, Self-Healing
GPU-Support	NVIDIA Container Toolkit	GPU Operator, MIG, Scheduling
KI-Serving	für einfache Setups ausreichend	Standard für produktives LLM-Serving
Updates	manuell, mit Downtime	Rolling Updates ohne Downtime
Self-Healing	nicht vorhanden	Pods werden automatisch neu gestartet
DSGVO-Hosting	je nach Hosting-Entscheidung	EU-Cluster: Hetzner, OVH, STACKIT
Empfehlung	Prototyp, kleines Team	Produktion, Enterprise, KI-Scale

Unsicher, ob Docker Compose oder Kubernetes das Richtige für Sie ist? Sprechen Sie uns an, kostenlose Ersteinschätzung.

Betriebsmodelle

Managed, Self-Hosted oder Hybrid?

Wir empfehlen das Modell, das zu Ihren Anforderungen passt, statt einer Standardlösung. Alle drei laufen DSGVO-konform auf EU-Infrastruktur.

Managed Kubernetes

Control Plane, Updates und Backups laufen beim EU-Provider. Sie konzentrieren sich auf Ihre KI-Workloads, wir auf den Betrieb.

Hetzner HKE, OVH, STACKIT

Geringer Betriebsaufwand

Schneller Start

Maximale Kontrolle

Self-Hosted

RKE2 oder k3s auf eigener Hardware oder im eigenen Rechenzentrum. Volle Souveränität über jede Schicht des Stacks.

RKE2, k3s, kubeadm

On-Premise möglich

Eigene Hardware & GPUs

Das Beste aus beidem

Hybrid & Multi-Cloud

Sensible Workloads on-premise, elastische Last in der EU-Cloud. Zentral gemanagt über Rancher, mit konsistenter Sicherheit.

Rancher Management

Burst in die Cloud

Konsistente Policies

Tech Stack

Unser Kubernetes & KI Tech Stack

Bewährte Open-Source-Tools, die wir täglich in Produktionsumgebungen einsetzen.

Kubernetes

Docker

Terraform

GitHub Actions

Prometheus

Grafana

Redis

PostgreSQL

Elasticsearch

Python

FastAPI

Ollama

Distribution

RKE2, k3s, kubeadm, Hetzner HKE, OVH Managed K8s, STACKIT

GPU-Orchestrierung

NVIDIA GPU Operator, Device Plugin, MIG, Time-Slicing, DCGM

KI-Serving

vLLM, Ollama, Triton Inference Server, KServe, Ray Serve

GitOps & CI/CD

ArgoCD, Flux, Helm, Kustomize, GitHub Actions, Tekton

Autoscaling

HPA, VPA, Cluster Autoscaler, KEDA (Scale-to-Zero), Karpenter

Monitoring

Prometheus, Grafana, Loki, DCGM Exporter, OpenTelemetry

Service Mesh & Netzwerk

Istio, Cilium, Linkerd, Traefik, ingress-nginx

Storage

Longhorn, Rook-Ceph, OpenEBS, NFS, MinIO (S3-kompatibel)

Security & Secrets

RBAC, Network Policies, Falco, OPA/Gatekeeper, Vault, cert-manager

Anwendungsfälle

Wer braucht Kubernetes für KI?

Sobald KI-Workloads produktiv und skalierbar laufen müssen, lohnt sich Kubernetes. Wählen Sie Ihr Profil.

Multi-Tenant-KI-Features skalierbar betreiben

SaaS-Anbieter mit KI-Funktionen betreiben ihre Modelle Multi-Tenant: isolierte Namespaces pro Kunde, Resource Quotas gegen laute Nachbarn und automatische Skalierung bei Lastspitzen. Kubernetes sorgt dafür, dass ein einzelner Kunde nie die Plattform für alle anderen ausbremst.

Isolierte Namespaces je Mandant

Resource Quotas & Limits

Autoscaling pro Kunde

Rolling Updates ohne Downtime

Der Ablauf

Von der Erstanalyse zum produktiven Cluster

Vier Schritte, transparent und ohne Überraschungen.

SCHRITT 01

30 Minuten

Kostenlose Erstanalyse

Wir sichten Ihre bestehende Infrastruktur, Workloads und Compliance-Anforderungen und identifizieren den Engpass, den Kubernetes beseitigen soll. Ohne Verpflichtung und ohne Vorbereitung Ihrerseits.

SCHRITT 02

Woche 1

Assessment & Architektur

Wir entwerfen die Zielarchitektur, wählen Distribution, GPU-Setup, Storage und Netzwerk, kalkulieren Kosten und ROI und legen das Sicherheitskonzept fest. Sie erhalten einen klaren Plan, bevor gebaut wird.

SCHRITT 03

Woche 2 bis 4

Aufbau, Migration & Pilot

Wir bauen den Cluster auf, containerisieren bei Bedarf Ihre Anwendungen und migrieren Workload für Workload, meist parallel zum Altsystem. Sie testen einen produktiven Cluster mit echten Daten.

SCHRITT 04

ab Woche 4

Go-Live & Betrieb

Go-Live auf EU-Infrastruktur, Monitoring mit Prometheus und Grafana, Schulung Ihres Teams und laufende Optimierung. Auf Wunsch mit Betriebsvertrag, auf Wunsch in Ihre Hand übergeben.

Ihr Kubernetes-Partner

Warum KI Kanzlei im DACH-Raum?

Tiefe Kubernetes-Expertise, KI-Fokus und kompromisslose EU-Compliance, aus einer Hand.

Erfahrung

Kubernetes aus echten KI-Projekten

Wir haben Cluster für LLM-Serving, MLOps-Pipelines und Multi-Tenant-Plattformen aufgebaut und produktiv betrieben, von Startups bis Enterprise. Wir kennen die Best Practices und die Fallstricke.

GPU-Fokus

KI-spezifische Infrastruktur

Wir sind auf GPU-Workloads spezialisiert: NVIDIA GPU Operator, MIG, vLLM-Serving und optimiertes Scheduling für maximale Auslastung bei minimalen Kosten.

EU-Hosting

DSGVO & EU AI Act by Design

Alle Cluster laufen auf EU-Infrastruktur. Wir beraten zu Datenschutz, EU AI Act und souveräner Cloud-Strategie für Österreich, Deutschland und die Schweiz.

FAQ

Häufige Fragen zu Kubernetes

Mehr Leistungen

Passt gut zu Kubernetes

n8n Automatisierung

Workflows und Integrationen, die auf Ihrem Cluster zuverlässig und skalierbar laufen.

MLOps

ML-Pipelines, Model-Registry und automatisierte Deployments. Kubernetes als Infrastruktur, MLOps als Prozessschicht.

Private AI

Lokale LLMs ohne Datenweitergabe, betrieben in Ihrem Kubernetes-Cluster auf EU-Servern.

LangChain

RAG-Systeme und KI-Agenten, produktionsreif containerisiert und auf Kubernetes deployt.

KI Wissensdatenbank

RAG-Wissensbasis mit Vektordatenbank, hochverfügbar im Cluster betrieben.

EU AI Act

Compliance-Beratung für KI-Systeme, technisch sauber auf souveräner Infrastruktur umgesetzt.

Bereit für Ihr kostenloses Erstgespräch?

In einem kostenlosen, unverbindlichen Erstgespräch klären wir Ihre Ausgangslage und zeigen, wo KI bei Ihnen am schnellsten wirkt. Für die volle Analyse gibt es das KI Assessment Center, voll auf die Umsetzung anrechenbar.

Kubernetes für produktive KI-Workloads

Was ist Kubernetes? Die Plattform für produktive KI

Kubernetes auf einen Blick

Control Plane und Worker Nodes

Control Plane

Worker Node

Was wir rund um Ihren Cluster übernehmen

Cluster-Setup & Architektur

GPU-Scheduling

Auto-Scaling & KEDA

GitOps & CI/CD

Security & DSGVO

Multi-Cloud & Hybrid

Kubernetes für GPU-Workloads und LLM-Serving

GPU-Scheduling im Detail

Kubernetes vs. Docker: Was ist der Unterschied?

Managed, Self-Hosted oder Hybrid?

Managed Kubernetes

Self-Hosted

Hybrid & Multi-Cloud

Unser Kubernetes & KI Tech Stack

Wer braucht Kubernetes für KI?

Multi-Tenant-KI-Features skalierbar betreiben

Von der Erstanalyse zum produktiven Cluster

Kostenlose Erstanalyse

Assessment & Architektur

Aufbau, Migration & Pilot

Go-Live & Betrieb

Warum KI Kanzlei im DACH-Raum?

Kubernetes aus echten KI-Projekten

KI-spezifische Infrastruktur

DSGVO & EU AI Act by Design

Häufige Fragen zu Kubernetes

Was ist Kubernetes und wofür wird es eingesetzt?

Was ist ein Kubernetes Cluster und wie funktioniert er?

Was ist der Unterschied zwischen Kubernetes und Docker?

Wie funktioniert GPU-Scheduling in Kubernetes?

Wann lohnt sich Kubernetes und wann reicht Docker Compose?

Managed oder Self-Hosted Kubernetes: Was ist besser für KI-Workloads?

Wie stelle ich die Hochverfügbarkeit meiner KI-Dienste auf Kubernetes sicher?

Wie läuft eine Migration zu Kubernetes ab und wie lange dauert sie?

Ist Kubernetes für KI im DACH-Raum DSGVO-konform betreibbar?

Passt gut zu Kubernetes

n8n Automatisierung

MLOps

Private AI

LangChain

KI Wissensdatenbank

EU AI Act

Bereit für Ihr kostenloses Erstgespräch?