ビッグデータの栄光 ビッグデータの栄光

ビッグデータの栄光

ビッグデータの栄光

今年のTEDカンファレンス初日の終盤、控えめなキュレーター、クリス・アンダーソン氏がステージに上がり、宣言した。「私たちが目にしているもののコンピューティングパワーは実に驚くべきものです」と彼は言った。「まるで物事が予期せぬ形で突然、一段とレベルアップしたように感じます。私たちはムーアの法則に慣れています。物事がどんどん良くなっていくことに慣れています。しかし、何年か経つと、突然、まるで…カポッ!と、段階的な変化が起こったように感じるのです。」

かつてTEDは、天才オタクとベンチャーキャピタリストのための限定カンファレンスだった頃、テクノロジー(Technology)、エンターテインメント(Entertainment)、デザイン(Design)の頭文字をとっていました。今では1,000本以上のTEDトークがオンラインで無料で公開され、3億回も視聴されています。この頭文字は、カンファレンスのモットーである「広める価値のあるアイデア」に込められた精神ほど意味を持ちません。いずれにせよ、TEDは、事前に消化された「トレンド」を支持するために講演者を集めることを目的としたイベントではありません。

2011 年には、利用可能なデータの量は指数関数的な成長曲線をたどり、1.8 ゼタバイトに達すると予測されています (1 ゼタバイトは 1 兆ギガバイトで、1 の後に 0 が 21 個続く)。おそらく、クリスが自分の発言にとても驚き、喜んでいるように聞こえたのはそのためでしょう。私たちはちょうど、世界中の都市とそこにあるすべての建物を忠実に再現した 3 次元レンダリングでデジタル マップを作成する会社を経営する Mattias Astrom 氏から話を聞いたところでした。その後、デジタル アーティストの Aaron Koblin 氏が、膨大なデータ セットをどのように視覚化しているか (たとえば、北米のすべてのフライトを追跡し、そのデータを時間、飛行機の種類、高度などで分類し、すべてを順番にスプール可能な、啓示的で美しいレンダリングで提示する) を説明しました。Koblin 氏は、何千人もの見知らぬ人がフレームごとに描く Johnny Cash のミュージック ビデオなどのクラウドソーシング プロジェクトを専門としています。その詳細度は息を呑むほどです。あるファンが、たった一つのフレームに31,000もの筆遣いを注ぎ込みました。これはデジタル空間であり、各フレームの作品は記録・カタログ化されてオンラインで公開されているため、各アーティストが描いた通りの、すべての筆遣いを鑑賞することができます。

しかし、クリスが何を言おうとしていたのかを真に理解したのは翌朝になってからだった。MITメディアラボの認知マシングループを率いるデブ・ロイ氏がステージに上がり、究極のホームムービーを紹介してくれたのだ。それは、息子が病院から帰宅した瞬間からロイ氏の家庭内のほぼすべてのやり取りを網羅した24万時間分の映像と音声だった。これは、息子がどのように学習したか、特に抽象化、言語、データの世界をナビゲートするためにどのように話すことを学習したかを示す、完全な1:1スケールのマップを提供している。200テラバイトを超える生データセット(2000年の議会図書館の完全な印刷コレクションの20倍以上)を使用して、ロイ氏は息子が最終的に発したそれぞれの単語をどのように経験したかを正確に追跡し、言語習得に関する興味深い洞察を引き出した。

ロイ氏はまた、一人の子どものスピーチレッスンを保存・分析するために開発した手法がより広範囲に応用できることを示し、実際にその研究に着手した。特に、彼はその広範な計算力をソーシャルメディア分野に向け、例えば大統領の発言とその波紋、ツイート、リツイート、省略、歪曲、反論などをリアルタイムで観察し、大規模なソーシャルネットワークとその進化の詳細な地図を描いている。

私たちが利用できるデータの量はますます膨大になっています。2010年には、1.2ゼタバイトものデータの中で遊び、泳ぎ、溺れ、溺れました。そして2011年には、その量は指数関数的な成長を続け、1.8ゼタバイトに達すると予測されています。(1ゼタバイトは1兆ギガバイトで、1の後に21個のゼロが続く数字です。)私がこれらの数字を引用したIDC Digital Universeの調査によると、もしこれだけのデータを32ギガバイトのiPadのハードドライブに保存しようとすると、575億台のデバイスが必要になるとのことです。これは、マイアミからアンカレッジまで、全長4,005マイル、高さ61フィートの壁を建てるのに十分な台数です。

その巨大な壁のほんの一部に、1500年以降に出版された単語の可能な限り完全な国勢調査を作ろうとするGoogleの取り組みが収められることになる。同社はすでに、500万冊以上の書籍から約5000億語という十分なデータを集めており、カルチュロミクスという新しい科学の出現を主張するのに十分である。最終的には、あらゆる単語とフレーズの造語、進化、衰退を何世紀にもわたって追跡できるようになるだろう。Googleの便利なNgram Viewerを使えば、1960年以降に「sex」という単語が爆発的に増加したのをすでに見ることができる。あるいは、レンブラントの引用が徐々に増え、1940年にはセザンヌの引用を上回り、それから10年も経たないうちにピカソが二人を抜き去るのを目撃するのを見ることもできる。これらは、数冊の名著から苦労して引き出した学術的なサンプルや推論ではなく、単語やフレーズのスペルや使用法が実際に年々どのように変化してきたかを厳密に調査したものである。

ジェシー・レンツ

これが、TEDでのプレゼンテーションで次々と目にしてきたパラダイムシフトの成果です。データのサンプリングと外挿の世界から、特定の領域内のすべてのデータを収集・分析できる世界への移行です。これがビッグデータです。

そして、デジタルデータが生物学と融合する時代に突入するにつれ、ビッグデータははるかに巨大化しようとしています。このコードの合成は、数字という抽象的な世界を物理世界に戻します。もちろん私たちは、生命がどのように表現されるかについて、DNAの4文字、20種類以上のアミノ酸、何千ものタンパク質など、かなりのことを知っています。クローン技術によって生命を複製することができます。今や私たちは、遺伝子ごとにではなく、ゲノム全体を一度に生命を書き換えることができるようになり始めています。これは、トルストイの小説に1つの単語や段落を挿入すること(バイオテクノロジーが行うこと)と、本全体をゼロから書くこと(合成生物学が行うこと)の違いです。小説、種子、動物、または人間の臓器の意味と結果を根本的に変えるのは、全体を書き直したほうがはるかに簡単です。

コンピューターをどのように作ったりプログラムしたりしても、翌朝階下に降りたら1000台の新しいコンピューターが見つかる、なんてことはありません。生命コードは違います。私たちはこの地点に到達するまでに、長い道のりを、非常に急速に歩んできました。10年前、単一の生物の生命コード全体を読み取ること自体が、膨大な量のデータ処理における画期的な成果でした。1999年当時、遺伝子シーケンサーは一度に数百塩基対のDNAしか読み取れなかったため、クレイグ・ベンターのヒトゲノムプロジェクトはショットガンシーケンシングに頼りました。つまり、ゲノムの一部を何度もコピーし、ランダムに断片に分割します。これらを遺伝子シーケンサーに入力します。出力を読み取り、コンピューターを使って全ての配列を他の全ての配列と比較し、重複部分を探します。重複部分を見つけたら、レンガの壁を建てるように、レンガを一枚ずつ重ねてゲノム全体を作り上げていきます。これは巧妙な手法ですが、膨大な計算量を要するため、それまでほとんどの人は不可能だと考えていました。しかし、ベンター氏と彼のチームは、世界で最も強力な個人用コンピューターの一つを開発し(その過程でメリーランド州で最大の電力消費量を誇るコンピューターの一つとなった)、この問題を解決しました。彼らの手法は現在、ゲノム解読の標準的なアプローチとなっています。

しかし、ゲノムの配列解読は、今日試みられているタンパク質間相互作用のモデリングと比べれば、取るに足らない計算作業でした。そもそも、DNA塩基対4つではなく、20個のアミノ酸を比較する必要がありました。また、タンパク質はDNA鎖よりもはるかに多くの形状をとることができるため、それらのあらゆる組み合わせの形状をマッピングするのははるかに複雑です。今日のコンピューターは、これらの変数のいくつかをほとんど処理できません。ムーアの法則がもたらした成果にもかかわらず、生命科学のデータは、現在のあらゆるコンピューターの能力とストレージの範囲とパワーを超えています。

言い換えれば、デジタルコードからデジタル+ライフコードへの移行期であるこの新しい時代において、データ生成能力は、それを保存・処理する能力を上回っているのです。実際、ライフコードはムーアの法則の50%以上の速度で蓄積されており、少なくとも12ヶ月ごとに倍増しています。データの保存、伝送、分析における驚異的な進歩がなければ、今後5年以内に私たちは追いつけなくなるかもしれません。

とはいえ、必要な技術革新が達成されると期待する十分な理由があります。なぜなら、ビッグデータの世界では、もう一つ、極めて根本的な変化が起こっているからです。生命コードとデジタルコードを融合させたとき、出現するアプリケーションは、単なるデジタルのものと革命的な点で異なります。このソフトウェアは、自らハードウェアを構築します。コンピューターをどのように作成またはプログラムしたとしても、翌朝階下に降りてみれば、新しいコンピューターが1000台もある、ということはありません。生命コードは違います。2008年、ベンター、ハミルトン・スミス、ジョン・グラスという3人の科学者とその同僚たちは、コンピューターから基本的な遺伝子配列を取得し、瓶からDNAを構成する4つの化学物質を取り出すようロボットをプログラムし、世界最大の有機分子を組み立てました。そして、この新しい分子を細胞に挿入する技術を開発しました。つまり、彼らは細胞を別の種になるようにプログラムしたのです。これを世界初の合成生命体と呼ぶ人もいます。これはまさに、完全にプログラム可能な最初の生命体です。そして、それは繁殖します。

プログラム可能な細胞プラットフォームは、コンピューターチップのようなものです。作りたいものに合った適切なコードを見つけ出せば、最終的にはあらゆるものの作成や実行を支援するように設計できる可能性があります。私は、ベンターのスピンアウト企業であるSynthetic Genomicsの共同創業者兼投資家です。同社は、藻類をプログラムしてガソリンを生成(エクソンと共同)、石炭からガスを抽出(BPと共同)、そして急速な…
ノバルティスと共同でワクチンの試作を行い、プレナスと共同で成長の速い植物を育種する。ライフプログラミングは、膨大なデータセットをどのように保存するかという問題も解決する可能性がある。あらゆるデジタルデータは生命体にコード化でき、あらゆる生命体はデジタルデータとしてコード化できる。理論的には、最終的にはニューヨーク・タイムズ紙の全号に掲載されているすべての文章と画像を、少数のバクテリアの遺伝子コードに保存し、コピーできるようになる可能性がある。

私は TED 2011 のビッグデータ パレードに衝撃を受けました。しかし、デジタル ライフ コードの新時代は、今日の最も輝かしいデータ成果をはるかに凌駕するものとなるでしょう。