さくらのクラウドで動いているインスタンスの1台がCPU使用率のディスクI/Oが徐々に増えていって、サーバのレスポンスが徐々に遅くなっていった。最終的には、ちょっとしたコマンド(例えば、lsとか)を実行しても、結果かが帰ってくるのに一呼吸かかるようになってしまっていた。まぁまぁな性能劣化だなぁ…と。
仕方ないので、ロードバランサの振り分け対象から切り離して様子を見てみることにしたが、改善する様子もない。試しにということで、さくらのクラウドのコントロールパネルから該当インスタンスを停止させようとしたが、なかなか止まらない…ので、仕方なく強制停止をかけた。
さくらのクラウドは、インスタンスを停止させて起動すると、違う物理サーバの上で起動する(仕様としてそうなっているのか、たまたまそうなのかはわからないけど…とりあえず物理サーバが変わることは多いような気がする)ので、それを試して、別の物理サーバの上で動き始めたらあっさりと性能は元に戻った。ということは、ストレージサーバが輻輳していたわけではなさそうなので、物理サーバのNICの障害とか、NICから先、ストレージまでのネットワークの輻輳とか、その辺が原因ってところだろうか。
ただ、そのあたりの監視は、クラウドベンダーのお仕事のような気もするんだけど、今のところ障害の報告は出ていなかった。物理ホストを変えて元に戻ったことだし、一件落着ではあるんだけど…。