
今朝、ニュースやTwitterをご覧になった方(あるいはインターネットの不調でご覧になれなかった方もいらっしゃるかもしれませんが)は、タイム・ワーナーのインターネットサービスが東部時間午前4時30分頃に大規模な障害に見舞われたというニュースを耳にしたかもしれません。ロイター通信によると、この障害は米国の大部分に影響を与え、2時間続きました。障害追跡サイト「DownDetector」が作成した地図では、全米各地で障害が発生していることが示されています。一体どのようにしてこのような事態が発生したのでしょうか?
ポピュラーサイエンス誌は、ネットワークパフォーマンスを研究しているパデュー大学のコンピューター科学者ソニア・ファミー氏に話を聞いて、犯人についての推測を得た。
彼女は、タイム・ワーナーがルーター同士が通信し情報をルーティングするために使用するソフトウェアをアップデートしていたのではないかと推測している。「通常、こうした障害はルーティングプロトコルが原因です」と彼女は言う。これは基盤となる機能であり、もしバグがあれば広範囲にわたる問題を引き起こす可能性がある。
「ルーターのソフトウェアをアップグレードした際に何らかのバグが発生したか、あるいは人為的なミスによる場合がほとんどです」と彼女は言います。ルーターのソフトウェアアップデート設定は複雑な作業なので、ミスが起きてしまうのです。
インターネット最大のコアネットワーク、いわゆるインターネットバックボーンを構成するルーターは、ボーダーゲートウェイプロトコルと呼ばれるプロトコルを用いて、情報を適切な宛先に送信するためにどの経路を利用するかを相互に指示します。ファミー氏は、タイム・ワーナーがBGPの実装に使用しているソフトウェアをアップデートしていた可能性があると考えています。BGPはしばしば大規模な障害を引き起こします。
「ルーターの一部のソフトウェアをアップグレードしたために何らかのバグが発生したか、あるいは人為的なミスであることもある」とファハミ氏は言う。
ファミー氏が障害の規模から判断すると、問題はハードウェアではなくソフトウェアに起因するものだった。タイム・ワーナーのようなサービスプロバイダーは、ハードウェアに十分な冗長性を備えているため、このような広範囲にわたる問題の発生は防げる。ルーターやケーブルの故障は通常、小規模で地域的な障害を引き起こすだけだとファミー氏は言う。
目に見えるほど長時間にわたる障害が、より頻繁に発生している可能性がある。ファミー氏によると、タイム・ワーナーのような障害が1~2ヶ月に1回発生しているという。ソフトウェアの問題に加え、各社のルーターの老朽化とメモリ不足も問題となっているようだ。これはハードウェアの問題であると同時に、システム的な問題でもある。
研究者たちは、ルーティングプロトコルの障害発生率を低減する研究に取り組んでいます。有望な解決策の一つとして、ソフトウェア定義ネットワーク(SDN)が挙げられます。これは、企業がコントローラーと呼ばれる1台のマシンを使って複数のルーターを一括設定できるようにするものです。これにより、専門家がルーターを設定する際にミスを犯す可能性が低くなります。