Red Hat Training

A Red Hat training course is available for Red Hat JBoss Enterprise Application Platform

13.7.2. Les causes

Parfois, un membre est considéré suspect par FD parce qu'un « heartbeat ack » n'a pas été reçu depuis un moment T (défini par timeout et max_tries). Cela peut avoir plusieurs raisons, par ex., dans un cluster de A,B,C,D; C peut être suspecté si (notez que A ping B, B ping C, C ping D et D ping A) :
  • B et C exécutent à 100% de CPU pendant plus de T secondes. Donc, même quand C envoie un accusé de réception de pulsation à B, B n'est sans doute pas à même de pouvoir le traiter car il est déjà à 100%.
  • B ou C nettoient la mémoire, tout comme ci-dessus.
  • Une combinaison des 2 cas ci-dessus
  • Le réseau perd des packages. Cela a généralement lieu quand il y a beaucoup de trafic sur le réseau, et que le commutateur commence à lâcher des packages (diffusions tout d'abord, puis les IP multidiffusions, et enfin les paquets TCP).
  • B ou C sont entrain de traiter un rappel. Disons que C a reçu un appel de méthode distant sur son canal et prend T + 1 secondes afin de la traiter. Pendant ce temps, C ne traitera plus aucun message, ni les pulsations, et donc B ne recevra pas l'accusé de réception de pulsation et suspectera C.