Stellenbeschreibung
Wir suchen eine/n engagierte/n Systemadministrator/in (m/w/d), der/die unser IT-Team bei der Betreuung, Skalierung und Optimierung unserer hochmodernen GPU-Rechenzentrumsinfrastruktur unterstützt. In dieser Position sind Sie direkt für die Hardware-nahe Betreuung von High-Performance-Computing-Systemen (HPC) und KI-Clustern verantwortlich. Sie stellen den reibungslosen Betrieb von massiv parallelen Rechenkapazitäten sicher, implementieren modernste Hardware-Architekturen und tragen maßgeblich dazu bei, die Rechenpower für unsere Kunden zu maximieren.
Ihre Aufgaben
- GPU- & Hardware-Management: Installation, Konfiguration, Monitoring und Wartung von High-End-GPU-Servern (z. B. NVIDIA H100/A100-Cluster) sowie Überwachung der physischen Infrastruktur (Stromversorgung, Kühlung).
- Infrastruktur & Orchestrierung: Administration und Skalierung von containerisierten Umgebungen mittels Kubernetes sowie Verwaltung von Virtualisierungsumgebungen (VMware ESXi, vSphere) mit direktem GPU-Passthrough (vGPU).
- High-Performance Networking: Konfiguration und Optimierung von dedizierten Clusternetzwerken (z. B. InfiniBand, RoCE, 100/400 GbE) zur Gewährleistung minimaler Latenzen beim GPU-Interconnect.
- Automatisierung & Scripting: Automatisierung von Deployment-Prozessen, Bare-Metal-Provisionierung und Betriebsabläufen mittels Python, Bash und Configuration-Management-Tools (z. B. Ansible).
- Monitoring & Optimierung: Sicherstellung der maximalen Systemverfügbarkeit und Performance-Optimierung (Thermal- und Power-Monitoring, GPU-Auslastung) mittels Tools wie Prometheus, Grafana oder NVIDIA DCGM.
- Sicherheit & Konnektivität: Verwaltung von VPN-Verbindungen zur sicheren Anbindung von Standorten sowie Absicherung der sensiblen Compute-Infrastruktur.
Ihr Profil
- Ausbildung: Abgeschlossene Ausbildung als Fachinformatiker/in für Systemintegration, ein Studium der Informatik/Rechenzentrumstechnik oder eine vergleichbare Qualifikation mit tiefem Hardware-Bezug.
- GPU- & HPC-Know-how: Fundierte Kenntnisse im Bereich moderner GPU-Architekturen (bevorzugt NVIDIA-Ökosystem) sowie Erfahrung im Umgang mit GPU-Treibern (CUDA, NVIDIA Container Toolkit).
- System- & Netzwerkkenntnisse: Sicherer Umgang mit Linux-Distributionen (Ubuntu, RHEL/Rocky Linux), Kubernetes und Virtualisierung (VMware ESXi). Verständnis von schnellen Netzwerkarchitekturen (InfiniBand/RoCE) ist ein großes Plus.
- Skripting-Skills: Solide Erfahrung im Umgang mit Bash (Unix Shell) und Python zur Automatisierung von Systemprozessen.
- Arbeitsweise: Analytisches Denkvermögen bei der Fehlersuche (Troubleshooting von Hardware- und Performance-Engpässen) sowie Teamfähigkeit und eine eigenverantwortliche Arbeitsweise.
- Agilität: Vertrautheit mit agilen Arbeitsmethoden (z. B. Scrum/Kanban) ist von Vorteil.
Gehalt: 556,00€ - 1.500,00€ pro Monat
Arbeitsort: Vor Ort