ニューヨーク証券取引所やユナイテッド航空のようなネットワーク障害は新たな自然災害である ニューヨーク証券取引所やユナイテッド航空のようなネットワーク障害は新たな自然災害である

ニューヨーク証券取引所やユナイテッド航空のようなネットワーク障害は新たな自然災害である

ニューヨーク証券取引所やユナイテッド航空のようなネットワーク障害は新たな自然災害である

今週は、金融と運輸という2つの主要産業でほぼ同時にインフラ障害が発生した。

7月8日水曜日、ニューヨーク証券取引所は取引の大部分において突然ダウンしました。取引所がダウンした直後からサイバー攻撃の疑いが浮上しましたが、NYSEはこれを否定し、その後、問題はゲートウェイソフトウェアの互換性に起因すると説明しました。

同日、ユナイテッド航空はルーターの接続不良によりネットワーク接続が悪化し、ネットワーククラッシュに見舞われました。59便の欠航後、ネットワークはほぼ復旧しました。

両ネットワークとも数時間で復旧し、多少の被害はあったものの、大多数の人々は問題なく日常生活を続けました。しかし、ネットワークが複雑化し、日常生活でネットワークへの依存度が高まるにつれて、このような事象の発生頻度は増加しています。

新しいタイプの自然災害?

ネットワーク障害は世界で最も頻繁に発生する自然災害になりつつあるという議論があります。その結果、破壊よりも不便が生じることが多く、修復が複雑で、通信、サービス プロバイダー、輸送、金融、時には医療機器にまで影響を及ぼします。

それで、何が問題を引き起こしているのでしょうか?

ネットワークにコンピュータサイエンスの手法を取り入れることに注力するスタートアップ企業、Forward NetworksのDavid Erickson氏は、問題は単なる人為的ミスにとどまらないと述べています。ハードウェアと言語の複雑化と連携のなさが、ますます深刻化しているのです。「今では、ルーター、スイッチャー、ファイアウォールなど、パケットを移動するデバイスが数千台、数万台も存在します」とErickson氏はPopular Science誌に語っています。 「そして、これらのデバイスにはそれぞれ、1,000から1,000,000、あるいはそれ以上のルールがあり、パケットの送受信における動作を実際に定義しています。」

これらの要素はうまく連携するように教えることはできるが、エリクソン氏によると、学習曲線は急峻だという。「根本的な問題は、これらの要素をインストールし、展開し、修正し、進化させ、すべてを人間が行わなければならないということです。そして、たった一つの設定ミスが主要な重要システムを簡単にダウンさせてしまうのも全く不思議ではありません。まさにユナイテッド航空の事例がまさにそれです。」

この問題は年々深刻化しています。エリクソン氏によると、これらのデバイスは「時とともにますます複雑になり、数も増え、個々のデバイスもますます複雑になり、常に新たなソフトウェアの要求が課せられています」。

エリクソン氏は、多くの企業が自社のシステムやOSの主要部分が「ソフトウェアの設定ミスで停止したり利用できなくなったりする」ことに気づいていないと説明する。そして、システムダウンは時間と費用の問題だけの問題ではない。彼はネットワーク問題に関するあるサブレディットで、あるユーザーが、機能していないネットワーク上に新生児用心拍モニターが設定されているという逸話を披露していたことを指摘した。

複雑さが増すほど、問題も増える

問題の一部は、ネットワークが比較的新しいインフラであるという事実に起因しています。電力や水道といった公共設備には多くの安全対策が講じられていますが、ネットワークにはそのような対策が存在しません。

そして、新たな複雑さだけでなく、古い問題が突然現れるため、年齢とともに状況は悪化します。

株式市場情報ソフトウェアを開発するNanex LLCのエリック・ハンセイダー氏。ハンセイダー氏は1986年から金融業界向けのソフトウェア開発に携わっており、Nanexは米国および世界中で取引される株式、オプション、先物など、あらゆる市場のデータを処理しています。ハンセイダー氏は、当初から存在する問題が顕在化するまでに時間がかかる場合があると説明します。「製品が成熟するにつれて、しばらくすると残るのは誰も予見できなかったバグだけになり、それらは解決するのが非常に難しいものになりがちです。ですから、テクノロジーがより複雑になり、エラーが少なくなると、そのわずかなエラーも重大なものになります。」

NYSEにとって、システム停止は必ずしも問題ではないが、タイミングが悪ければ悪夢のような事態になりかねない。「悪夢なのは、取引終了の1秒前に起こることです」とハンセイダー氏は言う。「トラブルが発生するのに最適な時間は15時59分59秒です。問題は、システムの大部分が終値に依存していることです。すべてをバックアップする必要があるのです」と彼は言う。取引やオプションはロールバックする必要があり、1日の最後の数分でエラーが発生すると、翌朝市場が開かない事態になりかねない。

幸いなことに、パニックに陥りやすい株式市場などは、ネットワークの問題による影響はほとんどの場合受けない。ハンサダー氏は、市場に心理的な影響は与えないと述べている。もし攻撃だったら、「状況は大きく違っていたでしょう。サーバーをダウンさせられたら、また同じことができるかもしれない、と皆が考えるでしょうから。あるいは、もっとひどいことに、検知されずにダウンさせられたら…賢明なのはシステムから金を巻き上げることだったでしょう」

航空会社はもう少し神経質です。ネットワークがダウンすれば飛行機も止まり、誰もが休暇の週末を台無しにし、数時間で数百万ドルの損害を被る可能性があります。しかし、こうした問題は、誰かがNetgear製品の背面から電源コードを蹴り飛ばすほど単純なものではありません。

テスト、テスト…

現時点では、ネットワーク専門家が構成を独立してテストできるような技術は実際には存在しません。エリクソン氏によると、変更は事前に計画されており、何が起こるかの唯一の信頼できる予測はグループの合意に基づいているとのことです。一旦運用が開始されると、新しいシステム構成(ニューヨーク証券取引所やユナイテッド・シティー証券取引所など)のテストは時間との戦いになります。「その時点でたまたまコアデバイスとなっているデバイスの設定を間違えると、どれだけ冗長性があっても意味がありません。」

標準化された言語や実践方法が存在しないため、専門家の需要が高まっています。Erickson氏は、ネットワークの完璧な管理者になるには、「ネットワーク内にあるすべてのデバイスを理解できなければなりません。ベンダーは無数に存在し、デバイスは数百、いや数千にも及ぶのです」と述べています。

これらのツールを標準化しようとしている人はいるでしょうか?実際にはそうではありません。競合他社は、イノベーションで互いに競い合うことでより多くの利益を得られるため、協力する動機がありません。しかし、市場の現実として、企業はアップグレードのたびにすべてのユニットを交換するわけではないため、レガシーシステムとレガシーソフトウェアは常に問題となります。

エリックソン氏は、「ネットワークが常に期待通りに動作していると確信できるような、何らかの統一基準が必​​要だ」という顧客がいなければ、それは実現しないだろうと語る。

たとえ実現したいという願望があったとしても、それは途方もない仕事です。「企業がこれを解決するには」とエリクソン氏は説明します。「まずは、あらゆるデバイスと対話し、それらを徹底的に理解しなければなりません。そして、それは本当に大変なことです。」