週末、はてなのサービス各種が「データベースサーバのハードウェア障害」を理由に、サービス停止に陥っていた。とはいえ、いくつものサービスがどーんと落ちるデータベースサーバのハードウェア障害ってのは、簡単には想像しづらい(簡単に思いつくような障害点は、既にそれなりに対策がなされているはずだろうし)
で、はてなCTOの田中さんのこのTweet。
[oEmbedTweet 163155954404298752]
SSDが通電5000時間で軒並み死んでいく…これはなんとも恐ろしい障害だ。おそらくは、ソフマップがファームウェアの更新情報を出していた「Crucial m4」の新ファームウェアを導入できていなかったんだろう。それで、各サーバが決められた時間を超えて死んでいく…南無南無。
というか、通電時間が一定時間を超えると死ぬってファームウェアのバグはなんとも痛いなぁ。しかも、再現率100%。いつかのSeagateのHDDのファームウェアのバグは、再現率100%ではなかった気がする(えーと、リブートして運が悪かったら…ってな感じだったかな、と)ま、こういう事象を聞くと、SSDってどうなんだろうと思わないでもないが、速いものは仕方なく、結局のところ、こんなバグが見つかったとしても使わないって選択肢はないんだろうけれど。
こういうリスクは、使うSSDのベンダーを分散するとかって方法論で連鎖的なサーバダウンは回避できそうだけど、普段のオペレーションに影響はないんだろうか。例えば、いろんなSSD混ぜてRAID組むとか。ま、この手のことはやってみないとわかんないことが多くて困るなぁ。