CFS スケジューラーによってプロセスが枯渇するためシステムがハングアップする
Issue
- 2 つのプロダクションモジュールでシステムが突然再起動します。
- RHEL6U5 を実行しているクリティカルなプロダクションサイトにある 2 つのシステムが 1 時間内に複数回、突然再起動しました。
- プロダクションシステムは、いずれも 3 ヶ月間安定した状態で実行していました。
- 問題が発生する 15 分前まで、通常のロードパターンで実行していたようです。
- 突然、アプリケーション関連のすべての java プロセスによってロードが急激に上昇し、ロードアベレージが 1+ から 200+ になりました。
- BMC Watchdog タイマーは、120 秒間、OS から定期的なハードビートを取得しなかったため、BMC から Host OS に NMI が送られました。
- 現在、異常なネットワークトラフィックやアプリケーションの問題がロードの急激な上昇の原因になっているかどうかの確認を行っています。
Environment
- Red Hat Enterprise Linux 6.5
- CFS スケジューラー
mdraid1 を使用したソフトウェアの RAID ストレージ設定
Subscriber exclusive content
A Red Hat subscription provides unlimited access to our knowledgebase, tools, and much more.