なぜ起きた? 総務省が検証報告「グーグル発大規模ネット障害」のメカニズム

サーバー群

Shutterstock

2017年8月15日、日本国内で大規模なインターネット接続障害が発生した。LINEやモバイルSuica、楽天証券などのサービスが一時アクセス困難な状況になり、国内外に大きな混乱が広がった。

当時より米グーグルによる経路情報の誤配信が主な原因と伝えられていたが、昨年12月、総務省の電気通信事故検証会議が障害の原因と対策を綴った検証報告書をまとめた。内容は関係する各通信会社などのヒアリング結果に基づいており、生々しく詳細だ。

グーグルの人為的ミスからの障害発生メカニズム

障害概要図

8月25日に発生したインターネット障害の概要

総務省

グーグルへのヒアリングによると、同社は8月25日12時22分、誤った経路情報をネットワークプロバイダー各社に配信。その原因は、トラフィックエンジニアリングの作業で、つまり人為的ミスだった。その後、グーグルの検知システムにより誤った経路情報が配信されたことが判明し、結果的に配信後約8分で修正された。

同障害の影響を受けた企業で注目されたサービス事業者は2社ある。NTTコミュニケーションズとKDDIだ。同じ通信障害と言っても、それぞれの原因が全く異なるものであったことが、報告書では明らかにされている。

まず、NTTコミュニケーションズはグーグルから直接、経路情報を受け取っていなかった。それにも関わらず影響が出たのは、グーグルの配信した経路情報の多くがNTTコミュニケーションズ下への経路を含んでいたためだという。

ネットワークは事業者間がそれぞれ正しい接続先を持つことで、最適なパフォーマンスを実現している。NTTコミュニケーションズにとっては自社設備などが原因ではなく、発生当時に自社内で原因と思われていた事象もネットワーク技術者間の非公式な情報のやりとりが根拠となっていため、利用者への正確な告知に時間がかかったと語っている。

KDDIは大量誤配信を受け不安定に

一方のKDDIは、グーグルが誤配信した経路情報を海外のプロバイダー経由で受信。その経路情報が約10万件を超える膨大なものだったため、ルーターが高負荷状態に陥った。KDDIによると受信している経路情報は毎月5000件ペースで増えているが、障害時には約10万件まで増えた。1度に約2年間分もの大量の経路情報が配信されたことになる。

グラフ

日々増え続けている経路情報だが、障害発生時は1度に約2年分の情報が配信された。

総務省、KDDI

しかし、KDDI管理下のすべてのルーターがこの影響を受けたわけではない。影響に差異が生まれた主な原因は、法人によって異なるルーターの仕様によるものだったと、KDDIは答えている。

影響を受けなかった事業者に設置してあるルーターは、大量の経路情報を受け取る際、フィルタリングを行うよう設定されていた。ヒアリングを受けた楽天証券(KDDIの法人向けゲートウェイサービスの顧客企業)に割り当てられたルーターにはこのフィルタリング機能がなく、そのため通信障害の影響を受けたと、報告に書かれている。なお、楽天証券は障害発生を受け、冗長化している回線を複数の通信事業者に改めるなど複数の対策を講じたほか、KDDIについても必要に応じて影響を最小化できるルーターへの置換などを行なっている。

人為的ミスへの対処、各事業者ごとに「備え」が必要

電気通信事故検証会議は、各社へのヒアリングの結果から、以下の対策を提示している。

・経路情報の設定における人為的ミスの未然防止

・誤送信された経路情報の受信防止及び不要な経路情報の送信防止

・インターネット障害に関する情報の電気通信事業者間での共有

・利用者周知

もちろん、発端はグーグルの人為的ミスによる経路情報の誤配信だ。とはいえ、経路情報誤配信による障害は、大小含めればさまざまなところで発生しており、今回のケースのように国外の事業者が原因で、国内のネットワークに影響が出るものもあるという。

総務省は「様々な作業工程においても人為的ミスを完全に防ぐことはできない」としていて、各企業はその前提に立つ必要がある。

検証報告書は「利用者への周知の観点からも、電気通信事業者間の連携、そして、電気通信事業者間と総務省の連携強化により、障害への対応とともに迅速な情報収集ができる体制を整備することが必要であると考えられる」と締めくくられている。

(文・小林優多郎)

ソーシャルメディアでも最新のビジネス情報をいち早く配信中