Einführung in Recovery

Drei grundlegende Fehlerszenarien sind zu unterscheiden, deren Behandlung z.T. davon abhängt, ob Volume-Redundanz vorliegt oder nicht.

1. Subdisk-Fehler, ggf. mit I/O-Verlust, Public Region noch zugänglich

VxVM markiert eine solche Disk als FAILING (sichtbar z.B. im Output von vxdisk list oder vxprint).
Dieses Flag hat Informationsfunktion, verhindert neue VxVM-Objekte auf dieser Disk und bereinigt sich nicht automatisch.

Die Disk soll ersetzt werden.

Wo möglich, intakte Subdisks zuerst von der Disk evakuieren:
# vxevac –g diskgroup disk [target-disk]
Disk zwangsweise logisch entfernen, physisch ersetzen, wieder der Disk-Gruppe hinzufügen:
# vxdg –g diskgroup –k rmdisk disk
Disk ersetzen
# vxdisksetup –i c#t#d# [format=…]
# vxdg –g diskgroup –k adddisk disk=c#t#d#
Nicht evakuierte Subdisks wieder über ihre Plexes synchronisieren bzw. bei fehlender Redundanz zwangsweise starten:
# vxrecover [-b] –g diskgroup
# vxvol –g diskgroup –f start volume
Durch Hot Relocation bewegte Subdisks evtl. wieder zurückbringen:
# vxunreloc –g diskgroup disk
Evakuierte Subdisks evtl. wieder auf die Ersatz-Disk zurückschieben:
# vxassist –g diskgroup move volume \!targetdisk disk

Die Disk soll weiter benutzt werden (z.B. Kabel-Fehler).

Das FAILING-Flag löschen:
# vxedit –g diskgroup set failing=off disk
Ggf. durch Hot Relocation bewegte Subdisks wieder zurückbringen:
# vxunreloc –g diskgroup disk
Ggf. redundante Volumes synchronisieren:
# vxrecover [-b] –g diskgroup
Ggf. nicht-redundante Volumes zwangsweise starten (Daten wieder zugänglich):
# vxvol –g diskgroup –f start volume

2. Temporärer Fehler mit I/O-Verlust (z.B. Stromausfall des Disk-Arrays)

Redundante Volumes bleiben ENABLED/ACTIVE, betroffene Plexes und Subdisks sind im Zustand DISABLED/NODEVICE. Ohne Volume-Redundanz steht das Volume auf DISABLED/ACTIVE.

Da VxVM in der Regel nicht bemerkt, daß die temporär ausgefallene Disk wieder verfügbar ist, muß ein Scan der Disks abgesetzt werden:
# vxdisk scandisks
In jedem Fall muß die als FAILED bzw. NODEVICE markierte VxVM-Disk zwangsweise mit der wieder intakten Disk identifiziert werden:
# vxdg –g diskgroup –k adddisk disk=c#t#d# (oder vxreattach c#t#d#)
Redundante Volumes ohne Hot Relocation synchronisieren (schnell dank DCO-Log Version 20!):
# vxrecover [-b] –g diskgroup
Durch Hot Relocation bewegte Subdisks evtl. wieder zurückbringen:
# vxunreloc –g diskgroup disk
Ohne Redundanz kann das Volume nur zwangsweise gestartet werden, wobei die Daten wieder zugänglich sind:
# vxvol –g diskgroup –f start volume

3. Dauerhafter Fehler (z.B. Disk defekt)

Volume-, Plex- und Subdisk-Zustände wie unter Punkt 2.

Statt einer wieder intakten Disk (Punkt 2) wird jedoch hier eine neue Disk initialisiert:
# vxdisksetup –i c#t#d# [format=…]
Sodann wird diese neue Disk wie oben zwangsweise mit der ausgefallenen identifiziert (vxreattach funktioniert dabei nicht, da eine abweichende Disk-ID vorliegt).
Schließlich wird wie oben die Synchronisierung, Unrelocation bzw. das Volume gestartet. Ohne vorherige Volume-Redundanz fallen natürlich alle Applikationsdaten aus.