
インターネットにアップロードされる動画の数はますます増えており(YouTubeだけでも毎秒1時間分の新しい動画がアップロードされている)、専門家たちは動画を掘り出す新たな方法を見つけている。例えば、ノキア研究所のイゴール・クルシオ氏が率いるチームは、コンサート参加者の携帯電話の映像をつなぎ合わせ、1本の同期したマルチアングル映像を作成するアルゴリズムを開発した。そのコンセプトは比較的シンプルだ。音声トラックをガイドとして映像を同期させ、ソフトウェアがベストショットを選択する。クルシオ氏にはまだ具体的なビジネスモデルはない(ほとんどのコンサートでは写真撮影が禁止されている)。しかし、複数の動画に共通する要素を識別し、一貫性を持って繋げる能力を提供することは、それでも重要な一歩となるだろう。
例えば、米墨国境を巡回するドローンや都市の防犯カメラは、すでに人間の監視では到底確認できないほどの映像を記録しています。もし機関がコンピューターを駆使して個人、集団、出来事を独自に追跡できるようになれば、捜査官ははるかに多くの情報を、それも分かりやすく活用できるようになるでしょう。
この新しい機能は、さらに多くの生データへの需要を促進するだろう。米国国家情報長官が監督する情報高等研究計画活動(IARPA)機関は、YouTube、Vimeoなどのソースから民間のビデオを分析担当者が利用できるようにする2つのプロジェクトを立ち上げた。Finderプログラムの研究者たちは、画像自体だけに基づいてビデオが撮影された場所と時間を特定する方法を研究している。それだけでも十分難しいが、IARPAのアラジンの研究者たちは、さらに難しい課題に取り組んでいる。それは、「特定の関心対象のイベント」を検索する方法だ。これが成功すれば、分析担当者は名前、簡単なテキストによる説明、または探しているイベントのサンプルビデオ数本(例えば「ピックアップトラックの横でバックパックを背負った5人の人物」)を入力すれば、検索条件に一致するクリップがいくつでも返ってくる。
カテゴリーの先には、単なる出来事や物体のグループではなく、単一の物体を見つけるという、より大きなハードルがあります。行方不明の子供、置き忘れた財布、群衆の中の自爆テロ犯などです。「顔や人、そしてある程度は車両など、一部の物体のクラスについては、その能力は成熟しています」と、米国の様々な政府機関のために研究を行っているSRIインターナショナルの視覚・学習システム担当テクニカルディレクター、ハープリート・ソーニー氏は言います。「しかし、無数の角度から撮影された任意のビデオからそれらを見つけるのは、依然として難しい問題です。」
IARPAのシステムは、結婚式の乾杯、誕生日のディナー、あるいはテールゲート・バーベキューの背景を移動する爆弾犯を発見するための第一歩となるかもしれない。しかし、政府が私たちがオンラインに投稿する動画を諜報活動の手段として利用するようになれば、既に過度に繋がりすぎているこの世界に残されたわずかなプライバシーさえも破壊されてしまう可能性がある。これは私たち皆が直面する選択だ。映像を非公開にすることで、その重要性は自分の目で見たものだけに限定される。しかし、公開することで、誰かが私たちが撮影していることに気づいていない何かに気づくことになるだろう。