platform-engineer-disaster-recovery-aws bei Free-Work
Diese Stelle als Plattform-Ingenieur für Disaster Recovery AWS bietet die Gelegenheit, Ihre Expertise in Multi-Region-Architekturen und IaC im Homeoffice einzubringen. Als Freelance-Mitarbeiter gestalten Sie robuste Fallback-Strategien und automatisierte Failover-Prozesse auf AWS. Die Position erfordert fundierte Kenntnisse in AWS DR-Strategien, Terraform und GitOps sowie die Fähigkeit, komplexe Systemabhängigkeiten zu analysieren und zu dokumentieren.
Was erwartet dich als AWS Disaster Recovery Specialist
Als Plattform-Ingenieur im Bereich Disaster Recovery bei Free-Work hast du die Verantwortung für die Architektur und Implementierung robuster Fallback-Strategien auf AWS. Deine Arbeit zielt darauf ab, Geschäftskontinuität in kritischen Systemen sicherzustellen und Betriebsunterbrechungen vorzubeugen.
- Architektur-Review — Du analysierst existierende Warm-Pilot-Architekturen auf Schwachstellen, versteckte Abhängigkeiten und Single Points of Failure, die in offiziellen Diagrammen nicht sichtbar sind
- Implementierung IaC — Mit Terragrunt erstellst du skalierbare Multi-Account-Konfigurationen und orchestrierst Dependencies zwischen verschiedenen Stack-Komponenten
- Failover-Prozesse — Du designst und implementierst automatisierte Failover/Failback-Mechanismen mit definierten RPO/RTO-Kriterien pro Anwendung
- Test-Automatisierung — Build-to-und-kontrollierbare DR-Testszenarien mit Chaos-Engineering für resiliente Systeme
Diese Rolle verbindet strategische Architekturplanung mit praktischer Umsetzung und verlangt nach visionärem Systemdenken in Verbindung mit detaillierter Dokumentation.
Dein technischer Arbeitsalltag mit AWS und GitOps
Der tägliche Arbeitsalltag als Plattform-Ingenieur fokussiert sich auf die technische Umsetzung und Validierung von Disaster-Recovery-Strategien. Du arbeitest hauptsächlich mit AWS-Diensten und Infrastructure-as-Code Tools in einer vollständig Remote-Umgebung.
- AWS DR Services — Routinige Anwendung von Route 53 Failover Routing, Aurora Global Database, RDS Cross-Region, S3 Cross-Region Replication und EKS Multi-Cluster für redundante Systemarchitekturen
- IaC mit Terraform — Entwicklung DRY-Module für Multi-Account-Konfigurationen mit sauberer Abhängigkeitsorchestrierung zwischen verschiedenen Stacks
- GitOps Pipeline — Einrichtung von ArgoCD für Multi-Cluster-Umgebungen mit ApplicationSets und synchronisierten Deployments
- CI/CD Integration — GitLab CI/CD-Pipelines für IaC-Validierung und automatisierte DR-Tests mit messbaren Erfolgskriterien
Die technische Arbeit erfordert ständige Abstimmung zwischen Architekturtheorie und praktischer Implementierung, wobei keine Lücke zwischen Design und Ausführung toleriert wird.
Notwendige Kompetenzen für AWS Disaster Recovery
Diese Position erfordert fundierte praktische Erfahrung mit AWS-Disaster-Recovery-Architekturen und moderne IaC-Praktiken. Die genannten Anforderungen sind Voraussetzung für die erfolgreiche Bewältigung der Aufgaben auf diesem Niveau.
- Must-Have AWS — Bewiesene Erfahrung mit Route 53 Failover, Aurora Global Database, RDS Multi-AZ und Cross-Region-Strategien in Produktionsumgebungen
- IaC & GitOps — Terragrunt für Multi-Account-Konfigurationen, ArgoCD für Multi-Cluster-Management und GitLab CI/CD für IaC-Validierung
- DR Design Patterns — Verständnis von Cold, Warm-Pilot, Warm Standby und Hot-Strategien mit fundiertem Arbitrage-Kalkül zwischen Kosten, RTO und RPO
- Fallback-Automatisierung — Implementierung orchestrierter Failover/Failback-Prozesse mit automatisierten Test-Szenarien
Zusätzlich wünschenswert: Chaos-Engineering mit AWS Fault Injection Simulator und fortgeschrittene Observability-Muster mit CloudWatch, Prometheus und Grafana für proaktive Failover-Alerting.
Freelance Benefits und Arbeitsumgebung
Free-Work bietet eine flexible Arbeitsumgebung mit voller Remote-Freiheit und Freelance-Vertrag. Die Position ist ideal für erfahrene Spezialisten, die Wert auf Autonomie und technische Herausforderungen legen.
- 100% Homeoffice — Volle Remote-Arbeit ohne Präsenzverpflichtung, du bestimmst deinen Arbeitsort flexibel
- Flexible Arbeitszeiten — Kein Mikromanagement, du organisierst deine Arbeitszeiten entsprechend deinen Bedürfnissen
- Freelance Vertrag — Klassischer Freelance-Vertrag mit transparenter Vergütung und Projektabwicklung
- Remote-First Kultur — Digitale Arbeitsumgebung mit Fokus auf Ergebnisse statt Anwesenheit
Pflichtmäßige Soft Skills wie konstruktives Hinterfragen, präzise Dokumentation und systemisches Denken sind ebenso wichtig wie technische Expertise.
Deine Benefits im Überblick
Häufige Fragen zu dieser Stelle
Was ist die Unterschied zwischen Warm Standby und Hot Standby bei Disaster Recovery?
▼
Bei Hot Standby läuft das System im Standby immer aktiv mit minimalem Latenz-Ausfall. Warm Standby hat ein reduziertes Ressourcen-Niveau mit höherem RTO. Die Wahl hängt von Kosten vs. Verfügbarkeit ab. Hot Standby kostet mehr, bietet aber bessere Resilienz bei kritischen Systemen.
Wie wird das Terragrunt-Setup für Multi-Account-Architekturen strukturiert?
▼
Terragrunt ermöglicht modulare Code-Organisation mit DRY-Prinzipien. Du erstellst separate Terragrunt-Module für verschiedene Stacks, definiest Abhängigkeiten über input und output-Parameter und nutzt remote_state für geteilte State-Dateien. So vermeidest du Duplikation und gewährst Konsistenz.
Welche DR-Test-Szenarien sind notwendig für die Zertifizierung?
▼
Notwendig sind nicht-destruktive Failover-Tests, RTO/RPO-Validierung und Chaos-Engineering-Tests. Jeder Test muss dokumentierte Erfolgskriterien haben. Die Testszenarien müssen wiederholbar sein und können automatisiert über GitLab CI/CD-Pipelines durchgeführt werden.
Ist Erfahrung mit Cross-Region-Replication zwingend erforderlich?
▼
Ja, die Erfahrung mit Cross-Region-Replication ist eine Kernanforderung. Ohne dieses Wissen ist es unmöglich, robuste DR-Strategien zu implementieren, die Datenkonsistenz und minimale Ausfallzeiten garantieren. Die Position ist für Senior-Spezialisten mit bewiesener Praxis.