AWSの東京リージョンの1つのAvailablity ZoneのEC2がバタバタとダウンした…。特になにも出来ることもなく、ただ静観するしかなかったけれど、AWSのステータスページを眺めていたら、少々、目を疑うようなことが書かれていた。

The overheating was caused by a control system failure that caused multiple, redundant cooling systems to fail in parts of the affected Availability Zone. The chillers were restored at 11:21 PM PDT and temperatures in the affected areas began to return to normal. As temperatures returned to normal, power was restored to the affected instances.

雑に訳すと、こんな感じだろうか。「冷却システムの管理システムがダウンした結果、影響があったAZでの加熱が発生した。 11:21 PM PDTに、冷却システムは復旧し、気温は通常の温度に戻り始めた。温度が戻った際に影響があったインスタンスへの電源供給が元に戻った」

まぁ、その原因までは書かれてはいないけれど、冷却システム(たぶん、エアコン)の管理システムがダウンし、その結果としてデータセンターでうなりをあげるサーバを冷却するためのエアコンが止まってしまった、と。その結果としてデータセンター内の気温が上昇したわけだ。ここれかは想像だが、物理サーバの保護システムが作動して物理サーバの自動シャットダウンが行われてしまったのではないか(ただ、loss of powerって表現があるので、物理サーバの他に、気温の上昇に伴ってサーバへの電源供給を絶つ仕組みがあるのかもしれないけれど)

この度の障害で様々なサービスがダウンしたことでAWSがいろんなサービスを支えていたことを多くの人達が知ることになったと思う。当然ながら、AWSはいろんなサービスを支えていた基盤であるので、堅牢なサービスであって欲しいと暗に期待されていたサービスにも関わらず、エアコンの故障という古風な原因であっさりと止まってしまったのはなかなか興味深いところではある。

まぁ、オンプレミスで運用している皆さんも、さすがにデータセンターの電源や冷却システムまで自前で面倒をみている(きっと、データセンターを所有している)皆さんは少ないだろうから、この障害でクラウドはアレだよねって議論にはならない可能性が高いけれど、世の中一般に「…大丈夫か」って印象を与えてしまったインシデントではあると思う。

追記:実はEC2だけでなくRDSでも障害が起きてたんだけど。EC2の障害との関係性が触れられてなかったものの、無関係でもなかったんだろうな。

追記2:…しかし、AWS的には対応完了になっているだけど、うちで使っているEC2インスタンスの一部が動かない状況は変わってないんだけどなぁ。まぁ、「多くは…」ってことなんだろうなぁ(遠い目)

追記3:調べてみたら、データセンターの冷却システムのダウンが原因でクラウドがダウンするのは、2017年3月にMicrosoft Azureの東日本リージョンでも起きていた。クラウドというと、高度なレベルで管理されているもので、電源や冷却システムなどの物理的な何かによる障害というのはなんとなく拍子抜けしてしまうような気がするが、実は物理的な何かというのは単にソフトウェアだけでは制御できず、多様なノウハウが必要な難しい領域なのかもしれない。AWSはグローバルに展開しているEquinixのデータセンターを借りているようだし、Azureの東日本リージョンは(確か)富士通のデータセンターを借りていたはず。老舗や大手だからといって楽勝ではないことは確かなようだ。