OpenShift 4.21: Die wichtigsten Neuerungen für KI-Workloads und Virtualisierung

Red Hat hat mit OpenShift 4.21 ein Release veröffentlicht, das besonders für Organisationen interessant ist, die KI-Workloads produktiv betreiben möchten – und das betrifft zunehmend auch den öffentlichen Sektor. Als jemand, der OpenShift-Umgebungen im Behördenumfeld für KI-Workloads mit OpenShift AI aufgebaut hat, freue ich mich über einige der Neuerungen besonders.

Die technische Basis

OpenShift 4.21 basiert auf Kubernetes 1.34 und CRI-O 1.34. Das Release verfolgt einen klaren Ansatz: KI-Training, containerisierte Microservices und virtualisierte Anwendungen sollen auf derselben Infrastruktur mit einem einheitlichen Betriebsmodell laufen.

KI-Workloads: Was sich ändert

Kueue v1.2 mit KubeFlow Trainer v2

Für Teams, die Machine-Learning-Modelle trainieren, bringt Kueue v1.2 zwei wesentliche Verbesserungen:

Die Integration von KubeFlow Trainer v2 in OpenShift AI 3.2 ermöglicht es Data Scientists, über eine einheitliche TrainJob-API zu arbeiten – unabhängig vom verwendeten ML-Framework. Die Infrastruktur-Details bleiben bei den Platform-Teams.

Die neue Visibility API macht Warteschlangen transparent. Nutzer sehen geschätzte Startzeiten, Administratoren erkennen Engpässe bei bestimmten Ressourcen wie GPU-Typen. Das ist ein echter Gewinn für größere Umgebungen mit mehreren Teams.

JobSet Operator erreicht GA

Der JobSet Operator ist jetzt allgemein verfügbar. Für verteilte Workloads bedeutet das: GitOps-Workflows, RBAC-Policies und Monitoring-Tools funktionieren wie gewohnt. Flexible Scheduling- und Fault-Tolerance-Mechanismen ermöglichen den Betrieb anspruchsvoller ML-Workloads.

Dynamic Resource Allocation für GPUs

Hier wird es für KI-Projekte richtig interessant. Drei neue DRA-Funktionen ändern die GPU-Zuweisung grundlegend:

Attributbasierte GPU-Allokation: Statt „gib mir eine GPU” kann man jetzt spezifizieren: „eine GPU mit mindestens 40 GB VRAM”. Der Scheduler fragt Hardware-Attribute direkt per CEL ab. Das manuelle Labeling von Nodes (gpu-type=h100) entfällt.

Namespace-kontrollierter Admin-Zugriff: Monitoring-Tools und Debugger können auf zugewiesene GPUs zugreifen, ohne User-Allocations zu stören.

Priorisierte Alternativen: Fallback-Strategien direkt in Resource Requests definieren – erst H100, dann A100, dann V100. Der Scheduler arbeitet die Liste ab, bis Kapazität verfügbar ist.

Control Plane: Kostenoptimierung

Zwei Neuerungen bei Hosted Control Planes verdienen Beachtung:

VPA-Integration: Control-Plane-Komponenten skalieren automatisch basierend auf tatsächlichem Memory-Verbrauch, nicht auf statischen Schätzungen.

Scale to Zero: Control Planes können während Inaktivität herunterfahren und bei Bedarf automatisch wieder starten. Für Entwicklungs- und Testumgebungen ein erheblicher Kostenfaktor.

Virtualisierung: Praxisrelevante Verbesserungen

Cross-Cluster Live Migration

VMs können jetzt zwischen verschiedenen OpenShift-Clustern ohne Downtime migriert werden. Für Organisationen mit strikten SLAs und Multi-Cluster-Umgebungen ist das ein wichtiges Feature für Wartungsfenster und Ressourcen-Rebalancing.

IPv6-only Support erreicht GA

IPv6-only für Control Plane und Secondary Networks ist jetzt allgemein verfügbar. Für Organisationen, die IPv4-Adressen ausgehen oder Compliance-Anforderungen erfüllen müssen, entfällt die Notwendigkeit komplexer NAT-Workarounds.

OpenShift Virtualization auf Google Cloud

VMs können direkt auf Bare-Metal-Hardware in Google Cloud laufen – ohne Nested-Virtualization-Overhead. Relevant für performancekritische Workloads wie Datenbanken oder Telekommunikationsanwendungen.

OpenShift Lightspeed für VM-Troubleshooting

Die Integration des KI-Assistenten in die Virtualisierungs-UI ermöglicht kontextbezogene Unterstützung bei VM-Fehlern direkt in der Oberfläche.

Weitere Plattform-Neuerungen

VMware Cloud Foundation 9: Support ab OpenShift 4.18, inkl. VMware NSX für Infrastruktur-Networking
Oracle Database Appliance: OpenShift lässt sich jetzt auf der vorkonfigurierten Oracle-Hardware deployen
Confidential Containers auf Azure: Hardware-basierte Sicherheitsschicht für regulierte Branchen, auch als Managed Service mit Azure Red Hat OpenShift

Fazit

OpenShift 4.21 zeigt klar die Richtung: KI-Workloads und klassische Virtualisierung auf einer Plattform konsolidieren. Die DRA-Verbesserungen für GPUs und die Kueue-Integration sind für produktive KI-Umgebungen relevant. Die Virtualisierungsfunktionen – besonders Cross-Cluster Live Migration – adressieren reale Anforderungen in Enterprise-Umgebungen.

Für Organisationen im öffentlichen Sektor, die mit OpenShift AI arbeiten oder dies planen, lohnt sich ein genauer Blick auf die neuen GPU-Management-Funktionen und die Confidential-Containers-Option für Azure.

Die vollständigen Release Notes finden sich in der Red Hat Dokumentation.