Pathway IT Services und IT Consulting

senior-ml-infrastruktur-devops-engineer bei Pathway

📍 Remote - EU, USA, Kanada 🏠 Volle Remote-Arbeit von überall möglich.optionales Büro in Palo Alto, Paris oder Wroclaw 💼 Vollzeit 📋 Unbefristet 💰 120.000–125.000 € pro Jahr/Jahr

Pathway, ein innovatives KI-Startup mit Sitz in Palo Alto, sucht einen erfahrenen AWS DevOps Engineer für die Skalierung von ML-Infrastrukturen. Die Position bietet die Möglichkeit, GPU-Cluster zu verwalten und ML-Pipelines zu automatisieren - mit Bezug zu führenden Forschungsgruppen.

Gefordert

Linux System AdminKubernetes und DockerTerraformPython ProgrammierungAWS/GCP/Azure CloudSlurm Workload ManagementCI/CD PipelinesMonitoring mit Prometheus/Grafana

Wünschenswert

MLflow oder Kubeflow ErfahrungPyTorch oder TensorFlow KenntnisseVertex AI oder SageMakerAirflow oder MetaflowGPU Cluster Erfahrung

Deine Aufgaben als ML Infrastructure DevOps Engineer bei Pathway

Diese Position konzentriert sich auf die Skalierung und den Betrieb von GPU- und CPU-Clustern für maschinelles Lernen im Produktionsumfeld. Du wirst als Kernmitglied der Infrastruktur-Gruppe arbeiten und direkt Einfluss auf die Geschwindigkeit von ML-Entwicklungen nehmen.

GPU-Cluster-Betrieb — Skalierung von High-Performance Clustern für Training und Inferenz mit Slurm, Kubernetes und Autoscaling-Mechanismen
Infrastruktur als Code — Automatisierung der Ressourcenbereitstellung durch Terraform und CloudFormation mit Fokus auf Reproduzierbarkeit
ML-Pipeline-Entwicklung — Aufbau robuster Datenpipelines mit Daten ingestation, Training, Evaluation und Deployment unter Berücksichtigung von Traceability
Observability-Systeme — Implementierung von Monitoring, Logging und Alerting über Grafana, Prometheus und CloudWatch für GPU/CPU-Nutzung und Modell-Drift
CI/CD-Automatisierung — Entwicklung von Deployment-Pipelines für ML-Modelle und Services mit Testing und Rollback-Fähigkeiten
Incident Response — Teilnahme an On-Call-Rotation und Führung von Post-Mortems bei kritischen Infrastrukturausfällen

Die Arbeit erfordert enge Zusammenarbeit mit ML-Ingenieuren und Forschern, um experimentelle Setups in produktionsreife Systeme zu überführen.

Was du als AWS DevOps Engineer mitbringst

Pathway sucht nach einem Spezialisten mit 5+ Jahren Erfahrung in DevOps/SRE-Rollen, der tief in Linux und Cloud-Infrastrukturen verwurzelt ist. Die Position erfordert sowohl technische Expertise als auch die Fähigkeit, komplexe ML-Workloads zu verstehen.

Linux-Expertise — Tiefes Verständnis von Systemd, Dateisystemen, iptables, DNS, TLS und Routing für OS- und Netzwerkschicht-Debugging
Container-Orchestration — Praktische Erfahrung mit Kubernetes, Docker und Slurm in Produktionsumgebungen
Cloud-Kompetenz — Hands-on Erfahrung mit AWS, GCP oder Azure, insbesondere bei GPU-Instances und Managed ML Services
Infrastructure as Code — Beherrschung von Terraform oder CloudFormation mit Automatisierungs-Orientierung
Monitoring-Stack — Erfahrung mit Grafana, Prometheus, Loki oder CloudWatch für umfassende Observability
ML-Tooling — Vertrautheit mit MLflow, Kubeflow, Airflow oder Metaflow für Experiment-Orchestration
Programming Skills — Python-Programmierung mit Fähigkeit, ML-Bibliotheken wie PyTorch und TensorFlow zu verstehen

Zusätzlich wird eine hohe Eigenverantwortung und Lernbereitschaft für neue Technologien erwartet.

Warum Pathway ein spannender Arbeitgeber für DevOps Engineers ist

Pathway bietet eine einzigartige Gelegenheit, an der Spitze der KI-Entwicklung zu arbeiten. Das Unternehmen arbeitet mit exklusiven Partnern wie NATO, La Poste und Formel-1-Teams zusammen und bringt echte Innovationen in die Praxis.

Innovative Technologie — Arbeit mit dem weltweit ersten Post-Transformer-Modell, das menschliches Denken und Lernen imitiert
Exklusive Partnerschaften — Zusammenarbeit mit Organisationen wie NATO, La Poste und führenden Forschungsgruppen
Starke Führung — CEO Zuzanna Stamirowska, CTO Jan Chorowski (Google Brain) und CSO Adrian Kosowski (Quantum-Physiker)
Investor-Backing — Unterstützung durch TQ Ventures und Lukasz Kaiser, Co-Autor des Transformer-Modells
Verteiltes Team — Globales Team mit Locations in Palo Alto, Paris und Wroclaw
Karriereperspektiven — Arbeit in einem der heißesten AI-Startups mit aufstiegsorientierten Möglichkeiten
Inklusive Kultur — Fokussierung auf Diversität und Inklusion im Arbeitsumfeld

Referrals erhöhen die Chancen auf ein Vorstellungsgespräch um das Zweifache.

Deine Benefits im Überblick

✓ Intellektuell anregende Arbeitsumgebung

✓ Arbeiten an KI- und ML-Innovationen

✓ Inklusive Arbeitskultur

✓ Verteiltes globales Team

✓ Möglichkeit zur Zusammenarbeit in Büros

Häufige Fragen zu dieser Stelle

Wie genau wird das Gehalt ermittelt und worauf basiert es?

▼

Das Gehalt wird individuell basierend auf Profil und Standort ermittelt. Die angegebene Spanne von 120.000-125.000 € dient als Richtwert. Das tatsächliche Angebot hängt von deinen Skills, Erfahrung und dem genauen Standort ab. Ein Gespräch mit dem Recruiter klärt alle Details.

Ist eine Visum für EU-Länder erforderlich?

▼

Kandidaten aus EU, USA und Kanada werden grundsätzlich berücksichtigt. Für EU-Bürger gibt es keine speziellen Visumsanforderungen. Für Nicht-EU-Kandidaten wird der jeweilige Aufenthaltsstatus berücksichtigt. Bei Fragen zu Arbeitsgenehmigungen empfiehlt sich eine direkte Anfrage an die HR-Abteilung.

Wie sieht die Zusammenarbeit zwischen DevOps und ML-Teams aus?

▼

Du wirst eng mit ML-Ingenieuren und Forschern zusammenarbeiten, um deren experimentelle Setups in produktionsreife Systeme zu überführen. Deine Infrastruktur-Expertise bestimmt direkt, wie schnell Modelle trainiert, deployed und iteriert werden können. Die Rolle positioniert dich als Brücke zwischen Forschung und Produktion.

Gibt es Möglichkeiten für Bürobesuche?

▼

Ja, obwohl die Rolle remote ist, besteht die Möglichkeit, mit anderen Teammitgliedern in den Büros in Palo Alto (Kalifornien), Paris (Frankreich) oder Wroclaw (Polen) zusammenzuarbeiten. Die primäre Arbeitsweise ist jedoch voll remote, um maximale Flexibilität zu gewährleisten.