Skip to content

Sun Cluster im Ausnahmezustand

Es ist unglaublich über was für Müll man manchmal stolpert... insbesondere dann wenn man meint alles richtig gemacht zu haben und trotzdem staendig ueber Probleme stolpert und sich diese irgend wann kaum noch erklären kann.

Die erfahrenen Solaris Klempner.... ziehen Explorer, checken ihren Patchstand, beziehungsweise bei bestehendem Supportvertrag, lassen sich das von SUN verifizieren. Schliesslich bezahlt man ja auch dafür. laugh

Allerdings geschieht es auch zu weilen das hartgesottene Unixer verschiedener Seiten manchmal die einfachsten Dinge übersehen.

Darüber sind wir uns glaub alle einig, oder?

Nuja wie auch immer. Wir sind über einen Cluster gestolpert der seit Wochen kränkelt, nach einer ganzen Zeit Ursachenforschung stellte sich raus, das die Kiste schon unsynchron in die Produktion ging, also nur auf einer Node gepatcht, d.h. es ist fast ein Wunder das die Kiste seit einem Dreiviertel Jahr lief. Der nächste Patchlauf im Juli wurde auf beiden Nodes durchgeführt, so wie es sein soll. Allerdings hat auch damals niemand die Paketdatenbanken verglichen. Dies wurde jetzt nachgeholt. Jeder Unix Klempner der mit Sun Cluster zu tun hat, weiss das das ungleiche Paketdatenbanken und ungleiche Patchstände tödlich sein können und meist auch sind.

Die "Notwendigkeit" hat uns am letzten Wochenende eine größere Aufräumaktion ermöglicht, mit Patching, Paketabgleich, Austausch des Quorumdevices usw.

Nach dem wir Knoten nach allen Regeln der Kunst gepatcht und Paketdatenbank gerade gezogen haben damit die Kiste(n) synchron laufen glaubt man ja vorerst  durch zu sein.

1.Kiste runterfahren

2. Firmware hochziehen auf 1090

3. Kiste hochfahren... um zu testen ob die Firmware tut.

4. metadettach der Metadevices /SVM Spiegel auftrennen

/etc/system /etc/vfstab umkopieren/umschreiben.

5. boot -sx in Single User Mode booten. Patch Cluster einspielen

6. mit boot -x IN NON Cluster Mode rebooten, Metadevices zusammenkleben.

7 in Cluster Mode booten und Ressourcegruppen anstarten switchen usw.

Als wir die Funktionstest durchgeführt hatten, war es schon relativ spät, da uns das patchen der Firmware auf einer etwas bockigen M5000 etwas zurück warf, wie wir alle wissen läuft nie etwas nach Plan, auch wenn es sauber vorbereitet wurde. Murphy's Law gilt überall.

By the way im nachhinein bin ich wieder froh UFS als Bootvolumes laufen zu haben. laugh

Kuriose Dinge gab es mehr als genug....

Das Quorum Device wurde auf
Node haumichblaunod01 als offline gekennzeichnet, trotzdem stimmen die Quorum Votes überein, kurios oder?

=== Cluster Quorum ===

--- Quorum Votes Summary from latest node reconfiguration ---

            Needed   Present   Possible
            ------   -------   --------
            2        3         3


--- Quorum Votes by Node (current status) ---

Node Name        Present       Possible      Status
---------        -------       --------      ------
haumichblaunod01       1             1             Online
haumichblaunod02       1             1             Online


--- Quorum Votes by Device (current status) ---

Device Name       Present      Possible      Status
-----------       -------      --------      ------
d68               0            1             Offline


Auf haumichblaunod02 als online

== Cluster Quorum ===

--- Quorum Votes Summary from latest node reconfiguration ---

            Needed   Present   Possible
            ------   -------   --------
            2        3         3


--- Quorum Votes by Node (current status) ---

Node Name        Present       Possible      Status
---------        -------       --------      ------
haumichblaunod01       1             1             Online
haumichblaunod02       1             1             Online


--- Quorum Votes by Device (current status) ---

Device Name       Present      Possible      Status
-----------       -------      --------      ------
d68               1            1             Online

Nach ewigem Rumgesuche kam meine Mitstreiterin auf die Idee zu prüfen ob die did.conf in /kernel/drv/ überhaupt vorhanden sind.

Nach Überprüfung kam raus das auf einer Seite die did.conf nicht vorhanden war. laugh

root@haumicblaunod02>

root@haumichblaunod01> ls -alt /kernel/drv/did.conf
/kernel/drv/did.conf: No such file or directory
root@haumichblaunod01>


root@haumichblaunod02> ls -alt /kernel/drv/did.conf
-rw-r--r--   1 root     sys        18167 Nov  7 21:13 /kernel/drv/did.conf
root@haumichblaunod02>

O welch wunder, nach manuellem anlegen der Config Datei hat auch der Abgleich der Clusterdevices wieder anstandslos funktioniert.

Die cldev Commands refresh, populate gingen auf einmal wie durch "wundersame Heilung" komplett durch...  auch ein clq add und clq delete war moeglich. smile

Im  nachinein frage ich mich nur ob der "Heilige Geist", "Prometheus", "Ozzy Osbourne" oder die Mainzelmännchen das "File" entführt haben.

Das letzte was wir systemseitig noch zu drehen hatten, war das fixen des globalen Metasets.

Das metaset ids musste der haumichblaunod01 auch noch mal bekannt gemacht werden, da
 im allgemeinen Chaos aus der Config geflogen ist. Ein

metaset -s ids -a -h haumichblaunod02 haumichblaunod01
metaset -s ids -a -m haumichblaunod02 haumichblaunod01

Hat dieses Problem auch erst mal aus der Welt geschafft
root@haumichblaunod02> metadb -s ids
        flags           first blk       block count
     a m     luo   r    16              8192            /dev/did/dsk/d35s7
     a       luo   r    16              8192            /dev/did/dsk/d34s7


Ebenfalls kurios finde ich  das mehrere hochbezahlte Admins, dieses im Nachhinein wirklich triviale Problem einfach übersehen haben. Aber was einfach wieder beweisst, nobody's perfect und oft übersieht man die einfachsten Dinge wenn die Zeit fehlt Systempflege zu betreiben.

Eigentlich hätte ich schon viel früher drauf kommen müssen als ich von der angeschlagenen Node auf dem Quorum Device keinen Reservation Key gefunden habe.

Nun ja am Ende haben wir noch das Quorum Device getauscht und jetzt schauen wir mal, ich hoffe das die Kiste jetzt endlich mal stabil ihren  Dienst verrichtet. So langsam hätten wir mal genug von dem Käse, wofür stellt man sich einen HA-Cluster hin. wink

Zwei Clusterpäärchen stehen jedenfalls noch aus die noch mit KO Patchen versorgt werden müssen. Wenn ich die Wochen mal Lust habe werde ich mal über Erlebnisse mit ZFS im Cluster berichten. Aber das ist eine andere Geschichte. smile

Trackbacks

Keine Trackbacks

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Noch keine Kommentare

Kommentar schreiben

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.
Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.
BBCode-Formatierung erlaubt
Pavatar, Gravatar, Favatar, MyBlogLog Autoren-Bilder werden unterstützt.
:'(  :-)  :-|  :-O  :-(  8-)  :-D  :-P  ;-) 
Formular-Optionen