Deine Mission
Als „DevOps/Platform Engineer (m/w/d)“ stellst du für unseren KI-Plattform Alan eine sichere, skalierbare, beobachtbare Plattform bereit und etablierst das Prinzip „You build it, you run it“ im Team. Du unterstützt die produktiven Teams auf „paved paths“ (Self-Service, Guardrails) und sorgst für vorhersehbare Performance und Kosten.
Deine Aufgaben
-
Du übernimmst Ownership für zentrale Plattform-/Serving-Komponenten
-
Du betreibst K8s-Cluster, Networking (Ingress), Storage (Datenbanken, Snapshots) und OS/Kernel-Patching und stellst deren sicheren und stabilen Betrieb sicher
-
Du modellierst Multi-Cloud-Ressourcen (insb. Open Telekom Cloud) per Konsole und IaC (Terraform)
-
Du baust CI/CD-Pipelines und Release-/Versionierungs-/Rollback-Strategien auf
-
Im Bereich Observability & Site Reliability Engineering implementierst du OpenTelemetry-basiertes Tracing, Metrics und Logs, definierst SLIs/SLOs, Alerting und Error Budgets
-
Gemeinsam mit unseren AI Engineers stellst du die Plattform für Model Serving bereit: GPU-Scheduling, Autoscaling, Inference-Gateways, Observability (Latency/QPS/Token-Kosten)
-
Du hast dein Masterstudium oder deine Promotion in einem der MINT-Fächer oder einem geisteswissenschaftlichen Fach mit MINT-Vertiefung erfolgreich abgeschlossen
-
Du verfügst über mindestens 2 Jahre relevante Berufserfahrung in den Bereichen DevOps, Site Reliability Engineering oder Platform Engineering und hast nachweisliche Verantwortung für Kubernetes, IaC, CI/CD, Observability sowie den produktiven Betrieb übernommen – idealerweise im SaaS-Umfeld
-
Du besitzt Praxis-Know-how in Git-basierten Deployments, modularer IaC, Secret-/Config-Management sowie Incident-Erfahrung
-
Du hast Security-Fachwissen in Netzwerksicherheit, Secrets, Härtung (CIS), Software-Supply-Chain und Zugriffsprinzipien (Least Privilege)
-
Idealerweise bringst du erste Praxiserfahrung im Betrieb von Inferenz-Workloads (vLLM o. ä.), GPU-Capacity-Management, Autoscaling und Observability, mit
-
Dich zeichnen Neugier und Wissbegierde sowie eine ausgeprägte Problemlösungs- und Kommunikationsfähigkeit aus
-
Du kommunizierst überzeugend und effizient in deutscher und englischer Sprache
-
Du arbeitest an einer hochmodernen, skalierbaren AI-Plattform mit viel Gestaltungsspielraum und übernimmst früh Verantwortung für zentrale Infrastruktur- und Architekturentscheidungen
-
Mit deinen zukünftigen Kolleg:innen tauschst du dich fachlich auf Augenhöhe aus und erhältst Budget und Zeit für eure eigenen Innovationsprojekte
-
Du wächst bei uns fachlich und persönlich durch speziell auf dich abgestimmte Weiterbildungen, Zertifizierungen und Laufbahnprogramme
-
In deinen Spezialgebieten kannst du deinen Schwerpunkt setzen und ausbauen
-
Neben einem attraktiven Fixgehalt zzgl. Umsatz- und Ergebnisbeteiligung kannst du Überstunden ausgleichen und Reisezeiten als Arbeitszeit buchen
-
Durch freie Wahl des Arbeitsorts und flexible Arbeitszeit gestaltest du deinen Arbeitsalltag passend zu deinem Lebensstil
-
Dich erwarten außerdem ein top ausgestatteter Arbeitsplatz, JobRad, Body & Mind Workout, GamesNights, Grillen auf unserer Dachterrasse, Team-Aktionen mit unternehmungslustigen Kolleg:innen, Sommerfeste mit deinen Familienmitgliedern und viele weitere Benefits
Unser Familienunternehmen