Red Hat Training

A Red Hat training course is available for Red Hat Enterprise Linux

9.12. Il processo di fencing si verifica randomicamente

Se un nodo è stato isolato randomicamente controllate quanto di seguito riportato.
  • Questo tipo di comportamento si verifica sempre a causa di una perdita del token da parte di un nodo con una conseguente perdita di qualsiasi contatto con il resto del cluster e di una assenza di qualsiasi heartbeat.
  • Qualsiasi situazione in cui si verifica una assenza di heartbeat da parte del sistema all'interno di un intervallo specificato dal token può causare un processo di fencing. Per impostazione predefinita l'intervallo specificato è di 10 secondi. Esso può essere variato aggiungendo il valore desiderato (in millisecondi) nel parametro del token del tag relativo al totem nel file di configurazione cluster.conf (per esempio impostando totem token="30000" su 30 secondi).
  • Assicuratevi che la rete stia funzionando come previsto.
  • Assicuratevi che le interfacce usate dal cluster per le comunicazioni tra i nodi, non utilizzino modalità di bonding diverse da 0, 1 o 2. (Con Red Hat Enterprise Linux 6.4. le modalità 0 e 2 sono ora supportate).
  • Cercate di determinare se il sistema è "freezing" 'sospeso' o se in presenza di un kernel panic. Impostate l'utilità kdump e controllate se riuscite ad ottenere un core durante una di queste fasi.
  • Assicuratevi che non vi siano altri motivi a causa dei quali attribuire erroneamente un fencing, per esempio se si verifica una espulsione da parte del quorum disk di un nodo a causa di un fallimento dello storage oppure in presenza di un prodotto di terzi, come Oracle RAC, il quale esegue il riavvio del nodo a causa di condizioni esterne. I log dei messaggi sono spesso molto utili nel determinare questo tipo di problemi. Ogni qualvolta si verifica l'isolamento di un nodo o un suo riavvio, consultare sempre i log dei messaggi di tutti i nodi presenti nel cluster.
  • Controllate l'intero sistema per la presenza di errori hardware che possono causare l'impossibilità da parte di un sistema di rispondere agli heartbeat come previsto.