OpenShift 4.21: Die wichtigsten Neuerungen für KI-Workloads und Virtualisierung
Weiterentwicklung in AI und Virtualisierung
Red Hat hat mit OpenShift 4.21 ein Release veröffentlicht, das besonders für Organisationen interessant ist, die KI-Workloads produktiv betreiben möchten – und das betrifft zunehmend auch den öffentlichen Sektor. Als jemand, der OpenShift-Umgebungen im Behördenumfeld für KI-Workloads mit OpenShift AI aufgebaut hat, freue ich mich über einige der Neuerungen besonders.
Die technische Basis
OpenShift 4.21 basiert auf Kubernetes 1.34 und CRI-O 1.34. Das Release verfolgt einen klaren Ansatz: KI-Training, containerisierte Microservices und virtualisierte Anwendungen sollen auf derselben Infrastruktur mit einem einheitlichen Betriebsmodell laufen.
KI-Workloads: Was sich ändert
Kueue v1.2 mit KubeFlow Trainer v2
Für Teams, die Machine-Learning-Modelle trainieren, bringt Kueue v1.2 zwei wesentliche Verbesserungen:
Die Integration von KubeFlow Trainer v2 in OpenShift AI 3.2 ermöglicht es Data Scientists, über eine einheitliche TrainJob-API zu arbeiten – unabhängig vom verwendeten ML-Framework. Die Infrastruktur-Details bleiben bei den Platform-Teams.
Die neue Visibility API macht Warteschlangen transparent. Nutzer sehen geschätzte Startzeiten, Administratoren erkennen Engpässe bei bestimmten Ressourcen wie GPU-Typen. Das ist ein echter Gewinn für größere Umgebungen mit mehreren Teams.
JobSet Operator erreicht GA
Der JobSet Operator ist jetzt allgemein verfügbar. Für verteilte Workloads bedeutet das: GitOps-Workflows, RBAC-Policies und Monitoring-Tools funktionieren wie gewohnt. Flexible Scheduling- und Fault-Tolerance-Mechanismen ermöglichen den Betrieb anspruchsvoller ML-Workloads.
Dynamic Resource Allocation für GPUs
Hier wird es für KI-Projekte richtig interessant. Drei neue DRA-Funktionen ändern die GPU-Zuweisung grundlegend:
Attributbasierte GPU-Allokation: Statt „gib mir eine GPU” kann man jetzt spezifizieren: „eine GPU mit mindestens 40 GB VRAM”. Der Scheduler fragt Hardware-Attribute direkt per CEL ab. Das manuelle Labeling von Nodes (gpu-type=h100) entfällt.
Namespace-kontrollierter Admin-Zugriff: Monitoring-Tools und Debugger können auf zugewiesene GPUs zugreifen, ohne User-Allocations zu stören.
Priorisierte Alternativen: Fallback-Strategien direkt in Resource Requests definieren – erst H100, dann A100, dann V100. Der Scheduler arbeitet die Liste ab, bis Kapazität verfügbar ist.
Control Plane: Kostenoptimierung
Zwei Neuerungen bei Hosted Control Planes verdienen Beachtung:
VPA-Integration: Control-Plane-Komponenten skalieren automatisch basierend auf tatsächlichem Memory-Verbrauch, nicht auf statischen Schätzungen.
Scale to Zero: Control Planes können während Inaktivität herunterfahren und bei Bedarf automatisch wieder starten. Für Entwicklungs- und Testumgebungen ein erheblicher Kostenfaktor.
Virtualisierung: Praxisrelevante Verbesserungen
Cross-Cluster Live Migration
VMs können jetzt zwischen verschiedenen OpenShift-Clustern ohne Downtime migriert werden. Für Organisationen mit strikten SLAs und Multi-Cluster-Umgebungen ist das ein wichtiges Feature für Wartungsfenster und Ressourcen-Rebalancing.
IPv6-only Support erreicht GA
IPv6-only für Control Plane und Secondary Networks ist jetzt allgemein verfügbar. Für Organisationen, die IPv4-Adressen ausgehen oder Compliance-Anforderungen erfüllen müssen, entfällt die Notwendigkeit komplexer NAT-Workarounds.
OpenShift Virtualization auf Google Cloud
VMs können direkt auf Bare-Metal-Hardware in Google Cloud laufen – ohne Nested-Virtualization-Overhead. Relevant für performancekritische Workloads wie Datenbanken oder Telekommunikationsanwendungen.
OpenShift Lightspeed für VM-Troubleshooting
Die Integration des KI-Assistenten in die Virtualisierungs-UI ermöglicht kontextbezogene Unterstützung bei VM-Fehlern direkt in der Oberfläche.
Weitere Plattform-Neuerungen
- VMware Cloud Foundation 9: Support ab OpenShift 4.18, inkl. VMware NSX für Infrastruktur-Networking
- Oracle Database Appliance: OpenShift lässt sich jetzt auf der vorkonfigurierten Oracle-Hardware deployen
- Confidential Containers auf Azure: Hardware-basierte Sicherheitsschicht für regulierte Branchen, auch als Managed Service mit Azure Red Hat OpenShift
Fazit
OpenShift 4.21 zeigt klar die Richtung: KI-Workloads und klassische Virtualisierung auf einer Plattform konsolidieren. Die DRA-Verbesserungen für GPUs und die Kueue-Integration sind für produktive KI-Umgebungen relevant. Die Virtualisierungsfunktionen – besonders Cross-Cluster Live Migration – adressieren reale Anforderungen in Enterprise-Umgebungen.
Für Organisationen im öffentlichen Sektor, die mit OpenShift AI arbeiten oder dies planen, lohnt sich ein genauer Blick auf die neuen GPU-Management-Funktionen und die Confidential-Containers-Option für Azure.
Die vollständigen Release Notes finden sich in der Red Hat Dokumentation.
Björn Ohlrich
Cloud & Kubernetes Consultant