Das CSCS mit Sitz in Lugano entwickelt und betreibt modernste HPC-Systeme als wesentlichen Service für die Forschung in der Schweiz. Wissenschaftlerinnen und Wissenschaftler nutzen diese Ressourcen für eine Vielzahl von Zwecken: von hochauflösenden Simulationen bis hin zur Analyse komplexer Daten in Bereichen wie Klimawissenschaft, Materialtechnik und Biowissenschaften. Die zentralen HPC-Systeme werden mit einer HPE-Steuerungsebene verwaltet, wobei alle Rechenknoten SUSE Linux Enterprise Server (SLES) für maximale Stabilität und Performance nutzen.
Auf einen Blick
Das Swiss National Supercomputing Centre (CSCS) stellt der Forschungsgemeinschaft erstklassige High-Performance-Computing-Ressourcen (HPC) zur Verfügung. Um die hochkomplexe HPC- und Kubernetes-Infrastruktur mit einem Team von nur zwei Ingenieuren effizient zu skalieren, setzt das CSCS auf SUSE Rancher Prime und SUSE Virtualization. Die Lösung dient als zentrale Steuerungsebene und ermöglicht eine konsequente Automatisierung mittels „Infrastructure as Code“. Dadurch konnte der Zeitaufwand für die Infrastrukturverwaltung um 80 % reduziert und die Anwendungsbereitstellung um 70 % beschleunigt werden. So können sich Forschende voll auf die Wissenschaft konzentrieren, statt auf die Systemadministration.
Unterstützung von HPC-Workloads mit einem kleinen Team
Neben Theorie und Experimenten sind Computersimulationen zu einem wesentlichen Bestandteil der modernen Wissenschaft geworden. Sie ermöglichen Forschenden, neue Erkenntnisse zu gewinnen und wegweisende Hypothesen zu entwickeln. Am CSCS spielen HPC-Ressourcen eine Schlüsselrolle bei der Unterstützung von Projekten in den Biowissenschaften, der Medizin, der Klimaforschung, der Astronomie und der künstlichen Intelligenz (KI).
Das Ziel des IT-Teams ist es, sicherzustellen, dass diese Ressourcen jederzeit schnell für die Forschung verfügbar sind. Um dies zu erreichen, nutzt das CSCS eine containerisierte Kubernetes-Infrastruktur zur Optimierung und Automatisierung der Verwaltungsprozesse. Dino Conciatore, Systems Engineer am CSCS, betont die Effizienz:
„Ein Team von nur zwei Plattform-Ingenieuren unterstützt rund 80 bis 90 Ingenieure, die die Kubernetes-Plattform nutzen. Aus diesem Grund wollen wir die Bereitstellung und Verwaltung unserer virtuellen Maschinen (VMs) und Kubernetes-Cluster so einfach wie möglich gestalten.”
„SUSE Rancher Prime ist der Schlüssel zur Vereinfachung unserer Bereitstellungs- und Verwaltungsprozesse. Wir erhalten eine zentrale Ansicht aller unserer Cluster, was es einfach macht, Probleme zu identifizieren und zu lösen."
Dino Conciatore,
Senior Systems Engineer,
CSCS
SUSE-Lösungen im Einsatz
SUSE Rancher Prime
Um die Komplexität der Container-Verwaltung in seiner HPC-Infrastruktur zu reduzieren, nutzt das CSCS SUSE Rancher Prime für das Management seiner umfangreichen Kubernetes-Umgebung. Als Management-Plattform der Enterprise-Klasse bietet sie dem CSCS eine zentrale Steuerungsebene für alle Deployments.
SUSE Rancher Prime vereinheitlicht die Verwaltung von mehr als 50 Kubernetes-Clustern, die sich über 20 Virtual LANs erstrecken. Das schlanke Team kann so die Sicherheit und Skalierbarkeit sowohl in der HPC- als auch in der Service-Umgebung gewährleisten.
„SUSE Rancher Prime ist der Schlüssel zur Vereinfachung unserer Bereitstellungs- und Verwaltungsprozesse“, sagt Dino Conciatore. „Wir erhalten eine zentrale Ansicht aller unserer Cluster, was es einfach macht, Probleme zu identifizieren und zu lösen. Wir verwenden einen DevOps-‚Infrastructure-as-Code‘-Ansatz, um die Bereitstellung neuer Cluster zu automatisieren, und SUSE Rancher Prime hilft uns, diese Aktivitäten zu verwalten.“
SUSE Virtualization
Um die Verwaltung seiner sicheren Multi-VLAN-Netzwerkumgebung zu vereinfachen, setzt das CSCS auf SUSE Virtualization. Aufbauend auf der führenden Position von SUSE bei Open-Source-Innovationen, bietet SUSE Virtualization einen hyper konvergenten Infrastruktur-Stack (HCI), der die VM- und Container-Verwaltung vereinheitlicht.
Das Gesamtsystem umfasst rund 500 Knoten, darunter etwa 300 VMs, die über SUSE Virtualization provisioniert wurden, und weitere 200 Bare-Metal-Server. Die meisten dieser Bare-Metal-Server sind für HPC-Workloads vorgesehen, während andere den Supercomputer über Service-Cluster unterstützen.
„Wir haben 16 SUSE Virtualization-Knoten, die meisten mit 768 GB RAM und 128 Kernen, auf denen rund 300 VMs laufen, die über SUSE Virtualization provisioniert wurden“, sagt Dino Conciatore. „Die SUSE-Lösung vereinfacht die Verwaltung unserer sicheren Multi-VLAN-Netzwerke, sodass wir interne und externe Services effektiv segmentieren können.“
Die Mehrwerte von SUSE Rancher Prime
Steigert die Management-Effizienz um 80 %
SUSE Rancher Prime bietet dem CSCS eine zentrale Steuerungsebene für die Verwaltung mehrerer Cluster. Neben Sicherheits- und Observability-Funktionen unterstützt die Plattform das Ingenieurteam bei der Automatisierung als „Infrastructure-as-Code“.
„Wir haben alles automatisiert, von der Cluster-Erstellung bis zur Anwendungsbereitstellung“, erklärt Dino Conciatore. „Wir verwenden Argo CD, um unsere GitOps-Prozesse zu unterstützen, und Open Tofu für unsere ‚Infrastructure-as-Code‘-Deployments. Wenn ein neuer Cluster benötigt wird, können wir ihn schnell hochfahren und unseren Entwicklern alle notwendigen Informationen zur Verfügung stellen. Dieser Ansatz verringert den Zeit- und Arbeitsaufwand für die Wartung unserer Infrastruktur insgesamt um rund 80 %.“
Beschleunigt die Anwendungsbereitstellung um 70 %
SUSE Rancher Prime schafft eine zentrale Management-Ebene für Kubernetes-Cluster und ermöglicht dadurch strukturierte GitOps-Workflows in Kombination mit Tools wie Argo CD. Dies führt zu einer deutlich effizienteren und konsistenteren Anwendungsbereitstellung.
„Wir verlassen uns auf SUSE Rancher Prime, um sicherzustellen, dass unsere Cluster immer richtig konfiguriert und verfügbar sind, was es unserem GitOps-Tool, Argo CD, ermöglicht, den Deployment-Lebenszyklus effizient zu verwalten“, sagt Dino Conciatore. „Wir nutzen diesen integrierten Ansatz, um rund 800 Anwendungen zu unterstützen. Durch die Nutzung der zentralen Verwaltung von SUSE Rancher Prime und den Automatisierungsfähigkeiten von Argo CD müssen unsere Teams die Services nicht mehr manuell hochfahren, was die Anwendungsbereitstellung um rund 70 % beschleunigt.“
Rund-um-die-Uhr Support
Anfangs betrieb das CSCS Rancher ohne offiziellen Support, aber nachdem es einen Support-Vertrag mit SUSE Rancher Prime abgeschlossen hatte, bemerkte es einen deutlichen Unterschied.
„Nachdem wir unseren SUSE Rancher Prime-Supportvertrag abgeschlossen hatten, konnten wir eine deutliche Verbesserung unserer Abläufe feststellen, da wir täglich wertvolle neue Erkenntnisse gewonnen haben“, sagt Dino Conciatore. „Die Einhaltung der SUSE Support Matrix ist für einen reibungslosen Betrieb entscheidend. Wann immer ein Problem auftritt, wissen wir, dass die Support-Teams von SUSE uns rund um die Uhr helfen.“
Die Mehrwerte von SUSE Virtualization
Liefert hohe Zuverlässigkeit und Verfügbarkeit
Mit einem ‚Infrastructure-as-Code‘-Ansatz, der durch SUSE Rancher Prime und SUSE Virtualization untermauert wird, kann das CSCS ein hohes Maß an Zuverlässigkeit und Verfügbarkeit für seine wichtigen HPC-Ressourcen gewährleisten.
„In all den Jahren, in denen wir SUSE-Lösungen nutzen, hatten wir nie nennenswerte Ausfallzeiten“, kommentiert Dino Conciatore. „Da wir eine GitOps-Methodik eingeführt haben, könnten wir unsere gesamte Infrastruktur bei Bedarf in weniger als einem Tag wiederherstellen. SUSE hilft uns sicherzustellen, dass unsere Forschenden immer auf den Cluster zugreifen können, um ihre Arbeit zu erledigen.“
Wie geht es beim CSCS weiter?
zur Automatisierung und Standardisierung zu finden. Ziel ist es, den Anwendern mehr Autonomie und Effizienz zu ermöglichen, während gleichzeitig eine starke Governance- und Sicherheitskontrolle gewährleistet wird.
Dino Conciatore fasst zusammen: "Wenn unsere Nutzer glücklich sind, sind wir es auch. Und wir freuen uns darauf, weiterhin mit SUSE zusammenzuarbeiten, um noch effektivere Wege zu finden, unsere virtualisierte und containerisierte Infrastruktur für die Spitzenforschung bereitzustellen, zu verwalten und zu aktualisieren."