Einführung
Einen Plan zu haben in einem Notfall der IT/OT ist schon mal ein erster Schritt, doch der zweite Schritt, welcher genauso wichtig ist, ist die Überprüfung dieses Plans. Dieser zweite Schritt wird oft vernachlässigt, denn Menschen sind bequem und haben nicht immer das Bedürfnis, einen Extraufwand zu tätigen. Doch gerade in der heutigen Zeit, in der Technologie so schnelllebig ist, können diese Notfallpläne schnell veralten, und das merkt man dann erst, wenn es zu spät ist. Disaster Recovery Testing (DiRT) bietet eine effektive Lösung, um solche Probleme zu vermeiden.
Dieser Blog zeigt zuerst einige Disaster-Recovery-Strategien auf, um den Kontext besser zu verstehen. Anschliessend werden verschiedene Arten von DiRT erläutert und am Schluss noch einige Best-Practices aufgezeigt.
Disaster-Recovery-Strategien
Disaster Recovery ist eine Strategie, seine Systeme und Daten nach einem Vorfall schnell wiederherzustellen. Um das zu erreichen, muss die Strategie klare Richtlinien haben. Jede Strategie muss individuell sein und sich an jedes Unternehmen anpassen. Dafür gibt es verschiedene Ansätze.
1. Backup-Strategie
Die Backup-Strategie beinhaltet das regelmässige Sichern von Daten. Dies kann entweder On-Site oder Off-Site durchgeführt werden. Bei Off-Site ist der Vorteil, dass diese durch physische Schäden vor Ort geschützt sind, dafür ist der Zugriff auf On-Site-Backups schneller.
2. Hot, Warm und Cold Sites
Hot, Warm und Cold Sites unterscheiden sich durch den Zugriff auf die Backups. Hot Site ist die teuerste, aber auch schnellste Option, um in einem Notfall auf Daten zuzugreifen. Applikationen, die eine hohe RTO (Recovery Time Objective)-Anforderung haben, sind am besten für die Hot-Site-Strategie geeignet. Warm Site ist ein teilausgestatteter Standort, der mit Vorlaufzeit aktiviert werden kann. Cold Site ist die kostengünstigste, aber auch langsamste Option. Diese eignet sich für Systeme, Anwendungen und Daten, die nicht innert kürzester Zeit abrufbar sein müssen.
3. Cloud-basierte Recovery
Unternehmen können natürlich auch ihre Applikationen und Daten in die Cloud verlagern. Die Cloud bringt viele Vorteile mit sich, wie die Skalierbarkeit, die schnelle Wiederherstellung und die Standortunabhängigkeit des Unternehmens gegenüber der Cloud.
4. RTO, RPO und Ressourcen
Grundsätzlich hängt die Wahl der Strategie von diesen drei Punkten ab.
– RTO (Recovery Time Objective): Wie schnell müssen Systeme wiederhergestellt werden?
– RPO Recovery Point Objective: Wie viele Datenverluste sind akzeptabel?
– Ressourcen: Was ist finanziell und organisatorisch realisierbar?
Disaster Recovery Testing
Ein Disaster-Recovery-Plan ist nur brauchbar, wenn er auf dem neusten Stand ist und sich konstant an Veränderungen anpasst. Genau für die Optimierung des Plans wird DiRT genutzt. Zuerst stellt sich die Frage, wieso DiRT so wichtig ist.
- Schwachstellen erkennen
- Veraltete Pläne aktualisieren
- Reaktionsfähigkeit verbessern
- Regulatorische Anforderungen erfüllen
DiRT umfasst verschiedene Arten von Recovery-Tests:
- Tabletop-Test: Dies ist eine theoretische Übung, bei der man mit einem Team das Katastrophenszenario durchgeht und prüft, ob der Plan vollständig und umsetzbar ist.
- Simulationstest: Hier sollen die Wiederherstellungsverfahren getestet werden, ohne Produktionssysteme zu beeinträchtigen.
- Failover-Test: Bei diesem Test wird die Produktion absichtlich auf ein Backup-System umgeleitet, um zu prüfen, ob die Failover-Prozesse funktionieren.
- Full-Scale-Test: Dies ist ein umfassender Test, bei dem der gesamte Disaster-Recovery-Plan in einem realistischen Szenario umgesetzt wird.
Es gibt aber auch einige Herausforderungen beim DiRT. Je nach Grösse des Unternehmens kann die Komplexität sehr hoch sein, was es unmöglich macht, alle Szenarien zu planen. Ein weiterer Punkt ist die Akzeptanz und der Ressourcenaufwand: Diese Tests erfordern Zeit, Personal und in einigen Fällen auch zusätzliche Infrastruktur. Solche Investitionen müssen zuerst von Vorgesetzten genehmigt werden. Es ist also umso wichtiger, dass Vorgesetzte die Notwendigkeit von DiRT verstehen.
Best-Practices
Hier sind die Best-Practices, um die Disaster-Recovery-Strategie zu optimieren.
- Regelmässiges Testing: Je nach Grösse des Unternehmens und der Komplexität muss mehr oder weniger getestet werden, doch einmal jährlich sollte Standard sein. Dazu sollte man eine Kombination der erwähnten Tests anwenden.
- Dokumentation: Bei jeder Änderung von Systemen und Anwendungen die Dokumentation anpassen. Es braucht klare Anweisungen in der Dokumentation, um Missverständnisse zu verhindern.
- Team-Schulungen: Das involvierte Team schulen, um Fehler zu vermeiden und ein vorbereitetes Team zu haben.
- Automatisierungen: Backups-Wiederherstellungen oder Failover-Simulationen zu automatisieren, um die Effizienz zu steigern. Mit einem Monitoring-Tool sollte man den Testfortschritt verfolgen.
- Szenarienbasiertes Planen: Mit realistischen Szenarien, die spezifisch auf das Unternehmen angepasst sind, lernt man am besten. Dabei ist es auch wichtig, die gelernten Sachen nach dem Test anzusprechen und über die Fehler zu diskutieren. Dies bringt den höchsten Lerneffekt.
- Rollen und Verantwortlichkeiten definieren: Jeder Mitarbeiter muss seine Rolle im Katastrophenfall kennen. Eine klare Kommunikation führt dazu, dass jeder seiner Verantwortlichkeit bewusst ist. Das ist essenziell, um Chaos zu vermeiden und die Reaktionszeit zu verkürzen.
Fazit
Ein Disaster-Recovery-Plan ist der erste Schritt für Unternehmen, um sich gegen IT/OT-Ausfälle zu schützen. Doch um sicherzustellen, dass dieser Plan funktioniert, ist das Disaster-Recovery-Testing zuständig. Indem Unternehmen Best-Practices wie Dokumentation, Schulungen, Automatisierung und realistisches Szenarioplanen nutzen, können sie ihre Resilienz steigern.
DiRT ist keine Belastung, sondern eine Investition in die Zukunftssicherheit eines Unternehmens. Es stärkt nicht nur die IT-Infrastruktur, sondern auch das Vertrauen von Mitarbeitern, Kunden und Partnern in die Fähigkeit des Unternehmens, auf unerwartete Ereignisse vorbereitet zu sein. Denn letztlich gilt: Wer vorbereitet ist, bleibt handlungsfähig – selbst in der Krise.