Free-Work IT & Software

platform-engineer-disaster-recovery-aws bei Free-Work

📍 Anywhere, Frankreich 🏠 100% Remote - Arbeiten von überall 💼 Freelance 📋 Freelance

Diese Stelle als Plattform-Ingenieur für Disaster Recovery AWS bietet die Gelegenheit, Ihre Expertise in Multi-Region-Architekturen und IaC im Homeoffice einzubringen. Als Freelance-Mitarbeiter gestalten Sie robuste Fallback-Strategien und automatisierte Failover-Prozesse auf AWS. Die Position erfordert fundierte Kenntnisse in AWS DR-Strategien, Terraform und GitOps sowie die Fähigkeit, komplexe Systemabhängigkeiten zu analysieren und zu dokumentieren.

Gefordert
AWS Disaster RecoveryRoute 53 FailoverAurora Global DatabaseRDS Multi-AZS3 Cross-Region ReplicationEKS Multi-ClusterAWS BackupIAM Cross-AccountKMS Multi-RegionVPC PeeringTransit GatewayMulti-Account AWS ArchitectureTerragruntArgoCDGitOpsGitLab CI/CDDR Testing AutomationChaos EngineeringRunbook ErstellungArchitecture Decision Records
Wünschenswert
AWS Fault Injection SimulatorCloudWatch AdvancedPrometheusGrafanaData Sovereignty Compliance

Was erwartet dich als AWS Disaster Recovery Specialist

Als Plattform-Ingenieur im Bereich Disaster Recovery bei Free-Work hast du die Verantwortung für die Architektur und Implementierung robuster Fallback-Strategien auf AWS. Deine Arbeit zielt darauf ab, Geschäftskontinuität in kritischen Systemen sicherzustellen und Betriebsunterbrechungen vorzubeugen.

  • Architektur-Review — Du analysierst existierende Warm-Pilot-Architekturen auf Schwachstellen, versteckte Abhängigkeiten und Single Points of Failure, die in offiziellen Diagrammen nicht sichtbar sind
  • Implementierung IaC — Mit Terragrunt erstellst du skalierbare Multi-Account-Konfigurationen und orchestrierst Dependencies zwischen verschiedenen Stack-Komponenten
  • Failover-Prozesse — Du designst und implementierst automatisierte Failover/Failback-Mechanismen mit definierten RPO/RTO-Kriterien pro Anwendung
  • Test-Automatisierung — Build-to-und-kontrollierbare DR-Testszenarien mit Chaos-Engineering für resiliente Systeme

Diese Rolle verbindet strategische Architekturplanung mit praktischer Umsetzung und verlangt nach visionärem Systemdenken in Verbindung mit detaillierter Dokumentation.

Dein technischer Arbeitsalltag mit AWS und GitOps

Der tägliche Arbeitsalltag als Plattform-Ingenieur fokussiert sich auf die technische Umsetzung und Validierung von Disaster-Recovery-Strategien. Du arbeitest hauptsächlich mit AWS-Diensten und Infrastructure-as-Code Tools in einer vollständig Remote-Umgebung.

  • AWS DR Services — Routinige Anwendung von Route 53 Failover Routing, Aurora Global Database, RDS Cross-Region, S3 Cross-Region Replication und EKS Multi-Cluster für redundante Systemarchitekturen
  • IaC mit Terraform — Entwicklung DRY-Module für Multi-Account-Konfigurationen mit sauberer Abhängigkeitsorchestrierung zwischen verschiedenen Stacks
  • GitOps Pipeline — Einrichtung von ArgoCD für Multi-Cluster-Umgebungen mit ApplicationSets und synchronisierten Deployments
  • CI/CD Integration — GitLab CI/CD-Pipelines für IaC-Validierung und automatisierte DR-Tests mit messbaren Erfolgskriterien

Die technische Arbeit erfordert ständige Abstimmung zwischen Architekturtheorie und praktischer Implementierung, wobei keine Lücke zwischen Design und Ausführung toleriert wird.

Notwendige Kompetenzen für AWS Disaster Recovery

Diese Position erfordert fundierte praktische Erfahrung mit AWS-Disaster-Recovery-Architekturen und moderne IaC-Praktiken. Die genannten Anforderungen sind Voraussetzung für die erfolgreiche Bewältigung der Aufgaben auf diesem Niveau.

  • Must-Have AWS — Bewiesene Erfahrung mit Route 53 Failover, Aurora Global Database, RDS Multi-AZ und Cross-Region-Strategien in Produktionsumgebungen
  • IaC & GitOps — Terragrunt für Multi-Account-Konfigurationen, ArgoCD für Multi-Cluster-Management und GitLab CI/CD für IaC-Validierung
  • DR Design Patterns — Verständnis von Cold, Warm-Pilot, Warm Standby und Hot-Strategien mit fundiertem Arbitrage-Kalkül zwischen Kosten, RTO und RPO
  • Fallback-Automatisierung — Implementierung orchestrierter Failover/Failback-Prozesse mit automatisierten Test-Szenarien

Zusätzlich wünschenswert: Chaos-Engineering mit AWS Fault Injection Simulator und fortgeschrittene Observability-Muster mit CloudWatch, Prometheus und Grafana für proaktive Failover-Alerting.

Freelance Benefits und Arbeitsumgebung

Free-Work bietet eine flexible Arbeitsumgebung mit voller Remote-Freiheit und Freelance-Vertrag. Die Position ist ideal für erfahrene Spezialisten, die Wert auf Autonomie und technische Herausforderungen legen.

  • 100% Homeoffice — Volle Remote-Arbeit ohne Präsenzverpflichtung, du bestimmst deinen Arbeitsort flexibel
  • Flexible Arbeitszeiten — Kein Mikromanagement, du organisierst deine Arbeitszeiten entsprechend deinen Bedürfnissen
  • Freelance Vertrag — Klassischer Freelance-Vertrag mit transparenter Vergütung und Projektabwicklung
  • Remote-First Kultur — Digitale Arbeitsumgebung mit Fokus auf Ergebnisse statt Anwesenheit

Pflichtmäßige Soft Skills wie konstruktives Hinterfragen, präzise Dokumentation und systemisches Denken sind ebenso wichtig wie technische Expertise.

Deine Benefits im Überblick

100% Homeoffice
Flexible Arbeitszeiten
Freelance Vertrag
Remote-first Kultur

Häufige Fragen zu dieser Stelle

Was ist die Unterschied zwischen Warm Standby und Hot Standby bei Disaster Recovery?

Bei Hot Standby läuft das System im Standby immer aktiv mit minimalem Latenz-Ausfall. Warm Standby hat ein reduziertes Ressourcen-Niveau mit höherem RTO. Die Wahl hängt von Kosten vs. Verfügbarkeit ab. Hot Standby kostet mehr, bietet aber bessere Resilienz bei kritischen Systemen.

Wie wird das Terragrunt-Setup für Multi-Account-Architekturen strukturiert?

Terragrunt ermöglicht modulare Code-Organisation mit DRY-Prinzipien. Du erstellst separate Terragrunt-Module für verschiedene Stacks, definiest Abhängigkeiten über input und output-Parameter und nutzt remote_state für geteilte State-Dateien. So vermeidest du Duplikation und gewährst Konsistenz.

Welche DR-Test-Szenarien sind notwendig für die Zertifizierung?

Notwendig sind nicht-destruktive Failover-Tests, RTO/RPO-Validierung und Chaos-Engineering-Tests. Jeder Test muss dokumentierte Erfolgskriterien haben. Die Testszenarien müssen wiederholbar sein und können automatisiert über GitLab CI/CD-Pipelines durchgeführt werden.

Ist Erfahrung mit Cross-Region-Replication zwingend erforderlich?

Ja, die Erfahrung mit Cross-Region-Replication ist eine Kernanforderung. Ohne dieses Wissen ist es unmöglich, robuste DR-Strategien zu implementieren, die Datenkonsistenz und minimale Ausfallzeiten garantieren. Die Position ist für Senior-Spezialisten mit bewiesener Praxis.