Einführung in Recovery
Drei grundlegende Fehlerszenarien sind zu unterscheiden, deren
Behandlung z.T. davon abhängt, ob Volume-Redundanz vorliegt oder
nicht.
1. Subdisk-Fehler, ggf. mit I/O-Verlust, Public Region noch zugänglich
VxVM markiert eine solche Disk als FAILING (sichtbar z.B. im Output von vxdisk list oder vxprint).
Dieses Flag hat Informationsfunktion, verhindert neue VxVM-Objekte auf dieser Disk und bereinigt sich nicht automatisch.
- Die Disk soll ersetzt werden.
- Wo möglich, intakte Subdisks zuerst von der Disk evakuieren:
# vxevac –g diskgroup disk [target-disk]
- Disk zwangsweise logisch entfernen, physisch ersetzen, wieder der Disk-Gruppe hinzufügen:
# vxdg –g diskgroup –k rmdisk disk
Disk ersetzen
# vxdisksetup –i c#t#d# [format=…]
# vxdg –g diskgroup –k adddisk disk=c#t#d#
- Nicht evakuierte Subdisks wieder über ihre Plexes synchronisieren bzw. bei fehlender Redundanz zwangsweise starten:
# vxrecover [-b] –g diskgroup
# vxvol –g diskgroup –f start volume
- Durch Hot Relocation bewegte Subdisks evtl. wieder zurückbringen:
# vxunreloc –g diskgroup disk
- Evakuierte Subdisks evtl. wieder auf die Ersatz-Disk zurückschieben:
# vxassist –g diskgroup move volume \!targetdisk disk
- Die Disk soll weiter benutzt werden (z.B. Kabel-Fehler).
- Das FAILING-Flag löschen:
# vxedit –g diskgroup set failing=off disk
- Ggf. durch Hot Relocation bewegte Subdisks wieder zurückbringen:
# vxunreloc –g diskgroup disk
- Ggf. redundante Volumes synchronisieren:
# vxrecover [-b] –g diskgroup
- Ggf. nicht-redundante Volumes zwangsweise starten (Daten wieder zugänglich):
# vxvol –g diskgroup –f start volume
2. Temporärer Fehler mit I/O-Verlust (z.B. Stromausfall des Disk-Arrays)
Redundante Volumes bleiben ENABLED/ACTIVE, betroffene Plexes und
Subdisks sind im Zustand DISABLED/NODEVICE. Ohne Volume-Redundanz steht
das Volume auf DISABLED/ACTIVE.
- Da VxVM in der Regel nicht bemerkt, daß die temporär ausgefallene Disk wieder verfügbar ist, muß ein Scan der Disks abgesetzt werden:
# vxdisk scandisks
- In jedem Fall muß die als FAILED bzw. NODEVICE markierte VxVM-Disk zwangsweise mit der wieder intakten Disk identifiziert werden:
# vxdg –g diskgroup –k adddisk disk=c#t#d# (oder vxreattach c#t#d#)
- Redundante Volumes ohne Hot Relocation synchronisieren (schnell dank DCO-Log Version 20!):
# vxrecover [-b] –g diskgroup
- Durch Hot Relocation bewegte Subdisks evtl. wieder zurückbringen:
# vxunreloc –g diskgroup disk
- Ohne Redundanz kann das Volume nur zwangsweise gestartet werden, wobei die Daten wieder zugänglich sind:
# vxvol –g diskgroup –f start volume
3. Dauerhafter Fehler (z.B. Disk defekt)
Volume-, Plex- und Subdisk-Zustände wie unter Punkt 2.
- Statt einer wieder intakten Disk (Punkt 2) wird jedoch hier eine neue Disk initialisiert:
# vxdisksetup –i c#t#d# [format=…]
- Sodann wird diese neue Disk wie oben zwangsweise mit der ausgefallenen identifiziert (vxreattach funktioniert dabei nicht, da eine abweichende Disk-ID vorliegt).
- Schließlich wird wie oben die Synchronisierung, Unrelocation bzw. das Volume gestartet. Ohne vorherige Volume-Redundanz fallen natürlich alle Applikationsdaten aus.