senior-ml-infrastruktur-devops-engineer bei Pathway
Pathway, ein innovatives KI-Startup mit Sitz in Palo Alto, sucht einen erfahrenen AWS DevOps Engineer für die Skalierung von ML-Infrastrukturen. Die Position bietet die Möglichkeit, GPU-Cluster zu verwalten und ML-Pipelines zu automatisieren - mit Bezug zu führenden Forschungsgruppen.
Deine Aufgaben als ML Infrastructure DevOps Engineer bei Pathway
Diese Position konzentriert sich auf die Skalierung und den Betrieb von GPU- und CPU-Clustern für maschinelles Lernen im Produktionsumfeld. Du wirst als Kernmitglied der Infrastruktur-Gruppe arbeiten und direkt Einfluss auf die Geschwindigkeit von ML-Entwicklungen nehmen.
- GPU-Cluster-Betrieb — Skalierung von High-Performance Clustern für Training und Inferenz mit Slurm, Kubernetes und Autoscaling-Mechanismen
- Infrastruktur als Code — Automatisierung der Ressourcenbereitstellung durch Terraform und CloudFormation mit Fokus auf Reproduzierbarkeit
- ML-Pipeline-Entwicklung — Aufbau robuster Datenpipelines mit Daten ingestation, Training, Evaluation und Deployment unter Berücksichtigung von Traceability
- Observability-Systeme — Implementierung von Monitoring, Logging und Alerting über Grafana, Prometheus und CloudWatch für GPU/CPU-Nutzung und Modell-Drift
- CI/CD-Automatisierung — Entwicklung von Deployment-Pipelines für ML-Modelle und Services mit Testing und Rollback-Fähigkeiten
- Incident Response — Teilnahme an On-Call-Rotation und Führung von Post-Mortems bei kritischen Infrastrukturausfällen
Die Arbeit erfordert enge Zusammenarbeit mit ML-Ingenieuren und Forschern, um experimentelle Setups in produktionsreife Systeme zu überführen.
Was du als AWS DevOps Engineer mitbringst
Pathway sucht nach einem Spezialisten mit 5+ Jahren Erfahrung in DevOps/SRE-Rollen, der tief in Linux und Cloud-Infrastrukturen verwurzelt ist. Die Position erfordert sowohl technische Expertise als auch die Fähigkeit, komplexe ML-Workloads zu verstehen.
- Linux-Expertise — Tiefes Verständnis von Systemd, Dateisystemen, iptables, DNS, TLS und Routing für OS- und Netzwerkschicht-Debugging
- Container-Orchestration — Praktische Erfahrung mit Kubernetes, Docker und Slurm in Produktionsumgebungen
- Cloud-Kompetenz — Hands-on Erfahrung mit AWS, GCP oder Azure, insbesondere bei GPU-Instances und Managed ML Services
- Infrastructure as Code — Beherrschung von Terraform oder CloudFormation mit Automatisierungs-Orientierung
- Monitoring-Stack — Erfahrung mit Grafana, Prometheus, Loki oder CloudWatch für umfassende Observability
- ML-Tooling — Vertrautheit mit MLflow, Kubeflow, Airflow oder Metaflow für Experiment-Orchestration
- Programming Skills — Python-Programmierung mit Fähigkeit, ML-Bibliotheken wie PyTorch und TensorFlow zu verstehen
Zusätzlich wird eine hohe Eigenverantwortung und Lernbereitschaft für neue Technologien erwartet.
Warum Pathway ein spannender Arbeitgeber für DevOps Engineers ist
Pathway bietet eine einzigartige Gelegenheit, an der Spitze der KI-Entwicklung zu arbeiten. Das Unternehmen arbeitet mit exklusiven Partnern wie NATO, La Poste und Formel-1-Teams zusammen und bringt echte Innovationen in die Praxis.
- Innovative Technologie — Arbeit mit dem weltweit ersten Post-Transformer-Modell, das menschliches Denken und Lernen imitiert
- Exklusive Partnerschaften — Zusammenarbeit mit Organisationen wie NATO, La Poste und führenden Forschungsgruppen
- Starke Führung — CEO Zuzanna Stamirowska, CTO Jan Chorowski (Google Brain) und CSO Adrian Kosowski (Quantum-Physiker)
- Investor-Backing — Unterstützung durch TQ Ventures und Lukasz Kaiser, Co-Autor des Transformer-Modells
- Verteiltes Team — Globales Team mit Locations in Palo Alto, Paris und Wroclaw
- Karriereperspektiven — Arbeit in einem der heißesten AI-Startups mit aufstiegsorientierten Möglichkeiten
- Inklusive Kultur — Fokussierung auf Diversität und Inklusion im Arbeitsumfeld
Referrals erhöhen die Chancen auf ein Vorstellungsgespräch um das Zweifache.
Deine Benefits im Überblick
Häufige Fragen zu dieser Stelle
Wie genau wird das Gehalt ermittelt und worauf basiert es?
▼
Das Gehalt wird individuell basierend auf Profil und Standort ermittelt. Die angegebene Spanne von 120.000-125.000 € dient als Richtwert. Das tatsächliche Angebot hängt von deinen Skills, Erfahrung und dem genauen Standort ab. Ein Gespräch mit dem Recruiter klärt alle Details.
Ist eine Visum für EU-Länder erforderlich?
▼
Kandidaten aus EU, USA und Kanada werden grundsätzlich berücksichtigt. Für EU-Bürger gibt es keine speziellen Visumsanforderungen. Für Nicht-EU-Kandidaten wird der jeweilige Aufenthaltsstatus berücksichtigt. Bei Fragen zu Arbeitsgenehmigungen empfiehlt sich eine direkte Anfrage an die HR-Abteilung.
Wie sieht die Zusammenarbeit zwischen DevOps und ML-Teams aus?
▼
Du wirst eng mit ML-Ingenieuren und Forschern zusammenarbeiten, um deren experimentelle Setups in produktionsreife Systeme zu überführen. Deine Infrastruktur-Expertise bestimmt direkt, wie schnell Modelle trainiert, deployed und iteriert werden können. Die Rolle positioniert dich als Brücke zwischen Forschung und Produktion.
Gibt es Möglichkeiten für Bürobesuche?
▼
Ja, obwohl die Rolle remote ist, besteht die Möglichkeit, mit anderen Teammitgliedern in den Büros in Palo Alto (Kalifornien), Paris (Frankreich) oder Wroclaw (Polen) zusammenzuarbeiten. Die primäre Arbeitsweise ist jedoch voll remote, um maximale Flexibilität zu gewährleisten.