最近、HP製Proliantを複数台導入してみたわけだが、これまたなんだか調子がよろしくない。ちなみに、使っているOSは「CentOS5.5のX86_64」で、RAIDカードは、HP製SmartArray(/dev/cciss/c0d0…みたいな。)

発生した事象としては、以下のような感じ。

  • いきなり平均負荷率が急上昇(Gangliaのレポートによると)
  • CPUのiowaitが100%。(これまた、Gangliaのレポート)
  • SSHでログイン不可。
  • Pingには応答あり。
  • トリガー不明。

なんとなくだけど、OSとかアプリケーションは起動状態だけど、Diskにアクセスしようとしてアクセスできなくて、そのまま、プロセスが待っている(待っているプロセス分、平均負荷率が上昇するような感じ)SSHでログインしようとするけれど、応答がない(おそらく、パスワード認証のためにファイルを参照しようとするがファイルが見られないんだろうなぁ)

そんなわけで、現地まで赴いてみたが、コンソールからもログインできない。ま、出来ることといえば、電源の長押しくらいなので、素直にぽちっと押して強制再起動してきた。(現地に到着してから、ProliantにはiLOがあったことを思い出すが、マネジメントポートにLANケーブルを刺すことから忘れてるわけで。orz)

…とまぁ、そんなことがあったけれど、トリガーが何だったのかがよくわかんない。思い出したようにサーバのサーバの負荷が上がり出すしたようにしか見えないので、とりあえず原因不明。まぁ、でも、ディスクにアクセスできない感じなので、CCISSドライバとか、RAIDカードのファームウェアとか、ext3とか…なんかその辺が怪しそうな気がする。

んで、RedHatのBugzillaを覗いていたら、治ってるのも含めて、ccissドライバ関連のバグをいくつか見つけた。RHEL4の頃から、ccissドライバ関連でバグがちらほら見られるようだ。ま、もうちょっと調べてみるか、と。