Azure 第2回『Azureが止まった!その時どうする?』

社内業務やユーザーへのサービスをAzure上で展開されている方は、そのサービスが止まってしまったら大変な業務上の影響がでてしまうと思われます。できることなら止まってほしくない、でも止まってしまうということは十分あり得ます。今回は、もしAzure が止まってしまった場合に取るべきアクションについて説明していきたいと思います。

〇まずは発生したインシデントを把握、切り分ける

オンプレミスで構成していた際は、オンサイト保守や定期メンテナンス等がありましたが、Azureなどのパブリッククラウドは、明確に運用責任の範疇が定められており、お客様の運用責任部分に関するインシデントなのか、それともAzure側のインシデントなのかを切り分ける必要があります。別のリソースやサービスは動いているかどうか、不具合が起こっているリソースをできるだけ把握しましょう。もしそれがお客様の運用責任部分に関するエラーや設定ミスを起因としたものであった場合は、ご自身で対処していただく必要があります。

責任共有モデル図

〇Azure側の障害だった!その後の行動について

調査が進められると同時にAzure側の障害情報に関する収集も行いましょう。
まずはAzure Portalのサービス正常性をチェックいただくことを最初に行います。
「ヘルプとサポート」→「サービス正常性」より現在Microsoftが把握している、そのテナントが保有するリソースが関係する問題の情報が掲載されます。

管理センター:サービス正常性 https://aka.ms/azureservicehealth

Azure Portalは基本的に管理者しか入るべきではないですし、インシデント時にアカウントを持っている方がいない場合もあります。また、そもそもAzure Portalに入れないという事態の場合の情報収集ツールとしては下記がございます。

Microsoft 一般サイト
こちらのサイトでは、世界各地のリージョンでサービスに影響を与える諸問題について掲載しております。保有するリソースのリージョンを確認し、インシデントが発生しているかどうかをチェックします。

Twitter
実はDISのサポート運用側もまず最初に見るのがこのTwitterになります。英語ベースになりますが、最新情報が一番早く情報掲載されますし、ユーザーによるリプライで障害が発生しているのがどの地域なのかどうかも確認できます。AzureとMicrosoft 365系両方フォローしておきましょう。

Downdetector
こちらはユーザーサイドでAzure障害を報告するサイトです。タイムライン毎に障害報告件数が表示されますので、いつから起きている障害なのかどうかを把握することが出来ます。

〇障害情報が上がっていたら・・・

上記ツールにて情報収集を行い、どうやら該当する障害があった際はそこからどうすればいいでしょうか。

答えは「障害復旧情報を収集する」ことしかありません。
障害復旧情報についてはTwitterが一番早い為、定期的にチェックするようにしましょう。
サポート窓口にご連絡をいただいても、既にMicrosoft側では障害を把握して対処作業に入っていることでしょう。そのような障害時には個別テナントを優先して復旧する、ということもありませんので、申し訳ございませんがサポート窓口へのお問い合わせはお控え頂くようお願いいたします。

〇上記すべてでインシデント情報が無い!

リソースの設定やアクセス負荷なども問題なし、情報サイトでのインシデント報告も無いといった場合、個別のリソースに障害が発生している可能性がございます。
データセンターではバックグラウンドで定期的なメンテナンスが行われます。その際に起こった障害についてはデータセンターのサーバー単位などで発生する為、広く障害情報が通知されていない可能性があり、Microsoft側も障害について見逃している可能性があります。
その際は、DISのCSP契約されているお客様には専用問い合わせフォームまたは障害専用電話窓口が用意されておりますので、ご遠慮なくお電話にてご連絡ください。

〇障害対策は自己責任で

残念ながら、パブリッククラウドで障害をゼロにすることは実現できません。いかにインシデントに備えた対策をしていくのかということになります。リソース同士を疎結合させる設計にしたり、他のクラウドへ冗長化、分散化させたりといった対策は必要になってきます。
それほど業務に重大な影響を与えるものでない限りは、ある程度障害を容認して諦める、というのも一つの手かとは思います。

〇DISなら標準でサイバーリスクサポート付帯

DISではCSP契約のAzureには「サイバーリスクサポート」が標準無償付帯しております。Azure側の障害に起因した損害・情報漏洩発生によってユーザーに損害が発生し、損害賠償請求をされてしまった場合、最大3,000万円、争訟・対策費用など最大600万円の補償を受けられる形になります。

詳細につきましてはDIS Azure ビジネスセンターにお問い合わせください。

マルチクラウドの記事