先日、2020年2月11日にmineoのユーザーが通信を使えなくなった原因は、オプテージ側の設備であるPGW(Packet Data Network Gateway)で異常が発生したことにより、ユーザーのコネクションが切断。その結果、数多くの再接続要求が発生したため、認証サーバーが輻輳したってことのようで。

【A・D・S・AP・DP】2020年2月11日 全域エリアでのmineo障害発生および復旧のお知らせとお詫び(2020年2月26日更新)

まぁ、端的には認証サーバー(radiusあたりかな)のキャパ不足ってことになるんだろうけど、大量のコネクションダウンの発生頻度を考えると、コスト環境が厳しいMVNOが膨大なキャパの認証インフラを整備するってのも現実じゃないし…。

ということで、なんとなく再発防止策を想像してみると、認証サーバーとしては山のように飛んでくる認証要求の全てに一度に応える必要もなく、落ちない処理速度で処理できればいい(その結果、徐々にでも復旧していく訳で、今回のように落ちっぱなしに比べればマシ)認証要求をあらかじめ決まった規模に絞るようなアクセスシェイパみたいな装置でも入れるんじゃないかなぁ。

しかし、そう考えると、今回の障害はどうやって復旧したんだろうか。認証サーバーを復帰させても、また落ちて、落ちては復帰を繰り返して徐々に正常なコネクションを増やしていった(から、時間かかった)のかな。