NTTデータ、「Doblog」の障害要因を説明。一部記事は復旧見込み

NTTデータのblogサービス「Doblog」がシステム障害で1週間以上アクセス不能になっている問題で、NTTデータが状況を明らかにしたらしい。上記の記事によると、

  • データベースサーバーとバックアップサーバーのほか、Webサーバー2台とアプリケーションサーバー2台の計6台のサーバーを使用している。
  • RAID 5を構成するデータベースサーバーで、6台のうち2台のHDDに発生したディスク障害。
  • バックアップサーバーにも障害が波及。

ということのようだ。また、NTTデータのWebサイト(no title)によれば、

サービス開始時点から2008年8月4日の未明時点までのデータについては、復旧の見込みがあることを確認できております。

と言っているものの、

2008年8月4日から2009年2月8日朝までのデータに関しましては、完全な状態ではないものの、できる限り復旧させるよう取り組んでおります。

とも言っていて、データがロストした可能性を示唆している。

ま、RAID5でディスク2本が故障するというのはレアなケースだと思うが、絶対に起こりえないことではないと思う(RAID5って、HDDが1本壊れたら、新しいディスクを指して、rebuildかけてるときって、他のHDDにもかなりのアクセスが発生しそうだし)そういうリスクに備えて、dailyとまではいかないにしても、せめてweeklyくらいでデータのバックアップを取得しておく必要性がある…が、それを取得していたバックアップサーバでもディスク障害が起こったってことだろうか。

バックアップサーバの障害まで考えると、なんかとんでもない確率でアタリを引いちゃってるような印象を受けるなぁ…。