Du bist die zentrale Ansprechperson für NEURAs GPU‑Cluster-Infrastruktur – ein großskaliges AWS‑HyperPod‑Setup mit topmodernen GPU‑Instanzen für Foundation‑Model‑Training und kundenspezifische Fine‑Tuning‑Workloads.
Du entwickelst das Betriebsframework, baust Self‑Service‑Tools für die ML‑Teams und arbeitest direkt mit AWS zusammen, um die Plattform auf Hyperscaler‑Ebene mitzugestalten.
Dein Fokus liegt voll auf Cluster Engineering & Operations — nicht auf ML‑Forschung selbst, sondern darauf, dass die Leute, die forschen, eine extrem stabile, effiziente und leicht zugängliche Infrastruktur haben.
Aufsetzen, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod‑Cluster von NEURA, inkl. HyperPod/Slurm und HyperPod/EKS‑Orchestrierungsmodellen.
Design und Umsetzung von Strategien für Cluster-Stabilität: Node‑Failure‑Detection, automatische Job‑Recovery, Checkpoint‑Koordination und fehlertolerante Multi‑Node‑Training‑Workflows.
Aufbau eines Workload‑Priority‑Frameworks, das mehreren Teams und Use Cases – Pretraining, Fine‑Tuning, Kundenjobs – erlaubt, Clusterkapazität fair und effizient zu teilen.
Optimierung der End‑to‑End‑GPU‑Auslastung: Erkennen und Lösen von Bottlenecks in Compute, GPU‑Speicher, EFA‑Netzwerk und Storage‑Durchsatz.
Enge Zusammenarbeit mit den AWS HyperPod‑Produkt‑ und Engineering‑Teams: Issues eskalieren, Learnings aus einer der größten Deployments teilen und Anforderungen für die Roadmap platzieren.
Bereitstellung von Self‑Service‑Tools, damit ML‑Researchers und Engineers Trainingsjobs eigenständig starten, monitoren und managen können – ohne ständige Infrastrukturunterstützung.
Erstellung von Onboarding‑Dokus, Trainingsmaterial und internen Workshops, damit User effizient arbeiten, Best Practices einhalten und Kosten ihrer Workloads verstehen.
Infrastructure as Code ist für dich Standard. Jede Cluster‑Konfiguration, jede Änderung, jede Umgebung ist Code‑first.
Verantwortung für Kosten- und Kapazitätsstrategie: Spot‑Management, Reserved‑Instance‑Planung, Savings Plans und laufende AWS‑Commitment‑Verhandlungen.
5+ Jahre Erfahrung im Infrastructure‑ oder Systems‑Engineering, idealerweise mit Fokus auf GPU‑Cluster oder HPC‑Umgebungen.
Tiefe praktische Erfahrung mit AWS HyperPod und AWS‑Instanzen; direkte Erfahrung mit HyperPod ist ein starker Vorteil.
Solides Verständnis von Slurm und Kubernetes als Orchestrierungsschichten – und die Fähigkeit, ihre Trade‑offs für große GPU‑Workloads zu bewerten.
Praktisches Wissen über Distributed Training – du weißt, was Durchsatz beeinflusst und wie man Probleme debuggt.
Erfahrung in der Entwicklung von Self‑Service‑Tools und technischer Dokumentation für anspruchsvolle Endnutzer: Du machst komplexe Infrastruktur zugänglich, nicht nur funktionsfähig.
Starkes Verständnis für Cloud‑Kostenmanagement im großen Maßstab: Spot‑Interruptions, Kapazitätsreservierungen, Kostenverteilung über Teams und Workloads.
Wohlfühlen in der Zusammenarbeit über Teamgrenzen hinweg – deine Hauptpartner sind ML‑Forschende, aber auch Product, Finance und Cloud‑Vendors.
Sehr gute Englischkenntnisse; Deutsch ist ein Plus.