
世界最速スーパーコンピュータのTOP500ランキングの発表まであと数週間という中、オークリッジ国立研究所(ORNL)は今週、20ペタフロップスのマシン「Titan」を正式に導入しました。Titanは、ローレンス・リバモア国立研究所に設置されているエネルギー省の別のマシン「Sequoia」を僅差で追い抜くと予想されており、ここ数年中国と日本を追い上げてきた米国が、スーパーコンピューティングのピラミッドの頂点に堂々と返り咲くことになります(Sequoiaは2位を維持する見込みです)。
しかし、自慢できる権利だけにとどまらず、Titan はそれ以上の価値があります。紛れもなく世界最速のオープンサイエンスマシンとなり、気候変動、天体物理学、材料科学、バイオ燃料、燃焼、原子力エネルギーシステムという6つの主要分野における複雑なデータセットを解析するために膨大な計算能力を必要とする、全国の産業界、学界、そして政府機関の研究所の科学者たちに時間を提供します。そして重要なのは、この種のスーパーコンピュータに通常搭載されている従来の中央処理装置 (CPU) コアに加えて、グラフィックス処理装置 (GPU) も搭載されていることです。CPU と GPU のこの融合は、科学者たちが次世代のエクサスケール科学マシンの開発に取り組む中で、スーパーコンピューティングの未来に広範な影響を与える可能性があります。
「私たちはこのハイブリッドコンピューティング環境に全力を注ぎ込み、そして成功したのです。」TitanのGPU供給を担当するNVIDIA傘下の事業部門、Teslaの最高技術責任者、スティーブ・スコット氏はこう語る。「Titanは現在、最大かつ最速のオープンサイエンス向けコンピューターになるでしょう。Sequoiaを上回るかどうかは分かりませんが、そうしたタイトルを獲得するのは素晴らしいことですが、マシン上で行われている科学研究ほど重要なものではありません。」
Titanを開発した共同研究チームにとって、そのコンピューターがローレンス・リバモア大学の現チャンピオンコンピューターよりも速いかどうかは、後付けの問題です。IBM BlueGene/QシステムであるSequoiaは、エネルギー省の機密研究を実行するために設計されているため、まもなくレーダーから消え、国家機密のカーテンの向こう側に戻り、一般の研究者がアクセスするのは困難になるでしょう。一方、Titanはオープンな研究を念頭に置いて設計されており、既に研究科学コミュニティがかつて見たことのないレベルの計算能力を備えています。
Titanは1秒間に2万兆回の演算処理能力を備えています。この計算能力がどれほど進化し、どれほど高速化したかを知るには、2009年にORNLが世界最速のスーパーコンピュータ「Jaguar」を擁していたことを思い出してください(Titanは実際にはJaguarのアップグレード版であり、ゼロから開発されたシステムではありませんが、アーキテクチャは大きく異なります)。Jaguarは2.3ペタフロップスのシステムで、当時世界最速コンピュータのトップに君臨していました(「フロップス」は1秒間に実行できる浮動小数点演算回数を表し、スーパーコンピュータの性能を表す単位です)。わずか3年で、TitanはJaguarの性能を10倍も上回りました。
この飛躍的な進歩は、主にORNLにおけるスーパーコンピュータの構築方法の見直しによって可能になった。10倍の大きさのコンピュータを10倍のCPU数で構築すれば、計算能力を10倍に高めることは可能だが、多くの点で現実的ではない。これほど大型のマシンに固有のハードウェア上の課題に加え、2.3ペタフロップスのJaguarに必要な電力は、アメリカの家庭7,000世帯分に相当する。20ペタフロップスのJaguarの動作には、約60メガワット、つまり6万世帯分の電力が必要となる。莫大な電力を消費することなくTitanを現在のレベルにまで引き上げるには、多くの協力体制、新しいタイプのハードウェアシステムへの依存度の高まり、そして相当な勇気が必要だった。

「2009年、ハイブリッドマルチコアという概念を発明しました。当時はまだ「ハイブリッドマルチコア」という言葉さえありませんでした」とジェフリー・ニコルズは語ります。「そこから3年間、私たちは信念を持って突き進み、その成果はパフォーマンスで10倍、効率で5倍という驚異的な飛躍をもたらしました。」
ニコルズ氏が言及しているのは、グラフィックス チップである GPU を従来の CPU アーキテクチャに統合することです。GPU は特定のタスクに特化しており、1 秒あたり複数、数十、数百の計算を処理するのが特に得意です。CPU はこの種のコンピューティングは得意ではありませんが、コード行の基本的な実行など、従来のコンピューティング タスクには非常に適しています。Titan を構築するために、ORNL はスーパーコンピュータ メーカーの Cray と GPU メーカーの NVIDIA を統合し、18,688 個の Advanced Micro Devices 16 コア CPU と 18,688 個の NVIDIA Tesla GPU を含むハイブリッド システムを作り上げ、これらが連携してタスクをより高速かつはるかに効率的に実行します。中核となる研究はすでにありましたが、課題はすべてのピース、つまり 40,000 個すべてを整列させて動作させることでした。
Titanの開発に関わった全員が、ある程度の信念を持って作業を進めていたとニコルズ氏は説明する。そして、誰もが失敗の可能性に直面していた。Crayは、CPUとGPUの間で通信できる新しい種類のハードウェアとインターフェースに取り組む必要があった。これは同社にとって初めての経験だった。NVIDIAは、自社のGPUがゲーム機やPCの域をはるかに超える重要な機能を備えていると長年主張してきたが、今こそ、この種のハイブリッドコンピューティングがスーパーコンピューティング規模で実際に実現可能であることを証明する時だった。そして、ORNLはおそらく最も危うい立場に立たされていた。世界のスーパーコンピューティングにおけるリーダーシップの座が危うい状況だったのだ。もしTitanが予定通りに(あるいは全く)稼働していなかったら、それは大きな後退となり、おそらく数年にわたる後退となっただろう。急速に発展するスーパーコンピューティング分野において、その後退を取り戻すのは非常に困難だろう。「達成しなければならない使命を持ち、奇策を講じる余裕のない組織にとって、私たちはこのハイブリッドコンピューティング環境にすべてを賭け、そして成功したのです」とスコット氏は語る。
この賭けは今、見事に報われている。Jaguarの10倍の大きさのコンピュータを作る代わりに、16コアCPUとパフォーマンスを加速させるGPUへのアップグレードによって、TitanはJaguarと同じ200台のサーバーキャビネットに収まるようになった。消費電力は前世代機よりも増加しているものの、Titanの消費電力は約9メガワットにとどまる。これは、同じ速度で動作するオールCPUアーキテクチャの場合に必要な電力のほんの一部に過ぎない。
それでも年間1,000万ドルのエネルギーコストがかかりますが、世界中の現在のマシンの状況や、競争相手(特に太平洋を越えたある競合相手)に遅れを取らないという必要性と比較すると、タイタンはアメリカのスーパーコンピューティングにとって大きな前進です。中国、日本、インド、そしてヨーロッパや世界中の多くの国々が米国に先んじてエクサスケールのスーパーコンピューティング能力の構築を目指しており(できれば2020年までに)、これはまさにその目標達成を目指しています(エクサフロップス性能は、1,000ペタフロップスに相当します)。これらの競合国とは異なり、DOEは厳しい財政予算と厳しいエネルギー予算の両方でこれを実現しようとしています。
「米国と他の国との違いは、20メガワットの電力でエクサスケールを実現しようとしていることです」とニコルズ氏は言う。これは現在の価格で年間約2000万ドル相当の電力に相当する。中国には現在、そのような財政的・エネルギー的制約がないため、Titanの性能と効率における飛躍的な進歩は、研究開発と国家安全保障の両面から、さらに大きな意義を持つ。とはいえ、前述の予算でエクサフロップスの性能を達成するには、同じ量のエネルギーで約50倍の性能向上が必要となる。確かに困難だが、ニコルズ氏とORNL、Cray、nVidiaなどの同僚たちは、すでに解決策の探求に取り組んでいる。
「2009年に最大のマシンを所有し、すでに2012年のマシンのことを考えていました」とニコルズ氏は語る。「そして、2016年のマシンについても既に考えています。」