Disaster Recovery, Dutch, Technology

Disaster Recovery met Nutanix – Deel 2

In het eerste deel van deze blog serie zijn de onderwerpen Resiliency en Auto Healing en Snapshots en Backup aan het licht gekomen. In dit tweede deel zoomen we verder in op de Replicatie mogelijkheden binnen de Nutanix oplossing.

Replicatie en Metro Availability

De Nutanix oplossing beschikt over meerdere replicatie methoden. A-Sync, Near-Sync en Metro Availability. Waar A-Sync replicatie een minimale RPO* garandeert vanaf één uur, garandeert Near-Sync replicatie een RPO vanaf één minuut en Metro Availability een RPO van nul.

Welke vorm van replicatie is ideaal voor mijn organisatie?

Bij het beantwoorden van deze vraag is de oplossing met de laagste RPO niet altijd het juiste antwoord. Waar Metro Availability de best mogelijke RPO en de tevens de laagste RTO** biedt, heeft deze oplossing een heel aantal vereisten. Daarom is ons advies eerst te kijken naar de RPO en RTO eisen vanuit de organisatie. Daarna naar de bestaande situatie en het beschikbare budget.

A-Synchrone replicatie

A-Synchrone replicatie werkt op basis van de Nutanix snapshot technologie. Snapshots worden gerepliceerd naar een ander datacenter. Initieël wordt er een basis snapshot gerepliceerd, deze wordt vervolgens beschermd tegen overschrijven of wijzigingen. Elke volgende replicatie verstuurd alleen een delta bestand. De replicatie frequentie is instelbaar vanaf eens per uur. Een groot voordeel van deze vorm van replicatie is dat dit een achtergrond proces betreft. A-Sync replicatie heeft geen impact op de primaire schrijf snelheid. Hierdoor is de afstand, snelheid en latency tussen beide datacenters veel minder van belang. Ook biedt A-Sync replicatie de mogelijkheid om naar meerdere datacenters te repliceren, of van meerdere remote datacenters naar één hoofd datacenter. Ideaal voor Remote Office/Branch Office (ROBO) oplossingen. Ook kan middels A-Sync replicatie een Active/Active scenario worden geconfigureerd. Daarbij worden alle virtuele machines van datacenter A gerepliceerd naar B en van B naar A. De verdeling van virtuele machines over de beide datacenters dient handmatig te worden gedaan.

NearSync replicatie

NearSync maakt gebruik van de Nutanix light-weight snapshot technologie. Deze vorm van snapshots zijn enkel bedoeld en geoptimaliseerd voor replicatie. Net als A-Sync replicatie is Near-Sync een achtergrond proces waarbij zovaak als mogelijk wordt gerepliceerd met een garantie van eens per minuut, tenzij de voorkeurs frequentie minder is. Hierdoor biedt de Near-Sync oplossing dezelfde voordelen als A-Sync maar dan met een RPO van vanaf 20 seconden (near zero) tot 15 minuten. Ten opzichte van A-Sync replicatie stelt Near-Sync replicatie hogere eisen als het gaat om de hoeveelheid flash opslag per node.

Metro Availability

Metro Availability biedt vanuit Nutanix de hoogste vorm van beschikbaarheid. Tussen beide datacenters wordt synchrone replicatie toegepast. Vanuit de Hypervisor gezien vormen beide datacenters één cluster. Hierdoor kan functionaliteit als Live Migration/vMotion gebruikt worden om een virtuele machine online te migreren naar het andere datacenter. Bij een geplande failover kunnen dus simpelweg alle virtuele machines middels Live Migration verplaatst worden. In geval één van beide datacenters spontaan uitvalt zal de High Availability functionaliteit binnen de Hypervisor zorgdragen voor het opstarten van de virtuele machines op de overgebleven locatie. De eenvoud en de RPO van nul zijn een groot voordeel van de Metro oplossing.

Aandachtspunten zijn de performance impact van de netwerkverbinding tussen beide datacenters op de primaire schrijf performance en de risico’s op een split-brain situatie. Doordat elk datablock gelijktijdig wordt weggeschreven naar beide datacenters is de schrijf snelheid gelijk aan de netwerk latency tussen de beide datacenters. Dit geldt voor elke vorm van synchrone replicatie in de markt. De maximale ondersteunde round trip latency is vijf milliseconden. Dat vertaalt zich naar grofweg 140 Kilometer afstand.

Binnen een Metro oplossing is het zeer belangrijk het risico op een split-brain te voorkomen. Een split-brain treedt op wanneer virtuele machines tegelijkertijd op beide datacenters beschikbaar komen, bijvoorbeeld doordat de netwerkverbinding tussen beide datacenters uitvalt en beide datacenters een DR uitvoeren. Om dit te voorkomen is de Nutanix Metro Availability Witness beschikbaar. Deze virtuele machine dient op een derde datacenter te draaien en monitort de beide datacenters en de netwerkverbindingen tussen de drie datacenters. Enkel in het geval één van beide datacenters uitvalt zal de Witness een geautomatiseerde failover uitvoeren, waarna HA de virtuele machines automatisch zal opstarten binnen het overgebleven datacenter. Ook zonder de Witness kan er gebruik gemaakt worden van Metro Availability, echter zal de failover een handmatige actie zijn om het risico op split-brain te voorkomen.

Combineren van replicatie methoden

De Nutanix oplossing ondersteund het gelijktijdig gebruik maken van A-Syn, Near-Sync en Metro Availability tussen twee of meerdere clusters. In de praktijk biedt dit heel veel voordelen. Zo zijn er steeds meer applicaties die vanuit de applicatie reeds hoog beschikbaar zijn. Voorbeelden hiervan zijn Microsoft Exchange DAG, SQL AlwaysOn en Oracle Data Guard. Replicatie op applicatie niveau biedt de hoogst mogelijke consistentie en beschikbaarheid. Aangezien de data binnen deze virtuele machines reeds vanuit de applicatie gerepliceerd worden is het veelal niet nodig deze ook nog op Nutanix niveau te repliceren. Daarnaast heeft niet elke applicatie dezelfde RPO/RTO eisen. Het combineren van verschillende replicatie mogelijkheden geeft daardoor vaak de optimale configuratie.

In deel 3 van deze blog serie gaan we kijken naar de voordelen van de Nutanix Runbook Automation functionaliteit.

* RPO is de Recovery Point Objective en staat voor de maximale hoeveelheid data dat verloren mag gaan.
** RTO is de Recovery Time Objective en staat voor de tijd dat de applicatie onbereikbaar mag zijn.