
フェンスの横に自転車が停まっているのを想像しています。ヨーロッパのどこかの街で、狭い石畳の道があり、フェンスの向こうには古めかしいレンガ造りの建物があります。自転車はピカピカの青い自転車で、カゴも付いていて、ちょっと古風な感じです。空は見えませんが、なんとなく晴れているのが分かります。
このような風景の写真をインターネットで見つけるのは到底無理だ。「ヨーロッパのフェンスの横にある青い自転車」といったキーワードを入力すれば、運が良ければ関連する検索結果がいくつか表示されるだろう。もし既にそのような画像があれば、その可能性は多少高くなる。そうすれば、逆画像検索を使って英語以外のサイトもクロールできるからだ。しかし、検索結果は奇妙なものが多く、私の頭の中にある風景の感覚と違ったり、重要な要素が欠けていたりする。
コンピューターはまだ私たちの心を読むことができません。しかし、ストックフォトサイトShutterstockは、画像を分類する全く新しい方法を開発しました。本日ウェブサイトで公開された同社の新ツールは、近年急速に成長しているコンピュータービジョンという分野における数々のイノベーションの一つです。Shutterstockは、このツールが、頭の中のイメージと画面上のイメージを一致させるという、イライラさせられる作業を、実際に楽しいものに変えることを期待しています。
一枚の写真は千の言葉に値する
ほとんどの検索エンジンはキーワードに依存しているため、オンラインで適切な画像を見つけるのは困難です。例えば、ユーザーがShutterstockのウェブサイトに自転車の画像をアップロードする場合、すべてのキーワードを入力します。しかし、類似した画像をまとめてアップロードする場合、それらのキーワードの一部は個々の画像に関連しない可能性があります。
「これらのキーワードをすべて組み合わせると奇妙な結果になることがあります。これは、メディアを言葉の塊のように扱う場合に固有の問題のひとつです」と、新しいコンピューター ビジョン ツールを開発したエンジニアのひとり、Shutterstock の検索および発見エンジニアリング担当副社長、ケビン レスター氏は言う。
そのため、多くの画像データベースは、ユーザーの行動に基づいてこれらのギャップを埋めています。「自転車」と「フェンス」という単語を検索した人が特定の画像をより頻繁にダウンロードする場合、その画像にはおそらくその2つの要素が含まれていると考えられます。これはシンプルな概念ですが、まだ不完全だとレスター氏は言います。
コンピュータービジョンは、キーワードをそもそも必要としないことで、このすべてを変えることができます。一連のアルゴリズムを用いて、モデルは画像内の各ピクセルを段階的に調査し、色、形状、角度の鋭さといった様々な特徴を抽出します。それぞれの計算はディープラーニングネットワークの層です。このプロセスの最後に、プログラムは単一の数値、つまりベクトルを生成します。モデルが優れている場合、数値が類似しているほど、数値化された画像の類似性が高いことを意味します。モデルはこれらの特徴を認識するように自己学習するため、より多くの画像を入力すればするほど、モデルの精度は向上します。

コンピューター ビジョンという分野が登場したのは、トロント大学の 3 人の研究者が、この分野にとって画期的な論文を発表した 2012 年以降のことです。
しかし、わずか4年で、コンピュータービジョンは多くのテクノロジー企業にとって不可欠な存在となりました。Facebookのモデルは、写真に写った顔を97%以上の精度で識別でき、Googleのモデルは、ユーザーが人間であることを確認するためにロボットを排除するために設計されたCAPTCHAパズルを99%の精度で解読できます。
コンピュータービジョンのモデルは様々な用途に使用できますが、通常は特定のタスク向けにトレーニングされます。Shutterstockは、視覚的に類似した画像を検出し、逆画像検索を行うためにこのモデルを使用しています。
コンピューターのように見る
Shutterstockのウェブサイトで画像を見つける主な方法の一つは、「視覚的に類似」というカテゴリーです。これは、画像をクリックすると下部に表示されるものです。例えば、以下のようになります。

システムがキーワードに頼っている場合、返される画像は関連性がある場合もあれば、そうでない場合もあります。一貫性がなく、ムラがあります。Shutterstockの最初のコンピュータービジョンモデルでは、エンジニアたちは2012年の論文で初めて概説された図式を用い、同サイトが保有する7000万点のストック画像で学習させました。それでも、あまり良い結果ではありませんでした。

「色の配色がある程度一貫しているように見える以外、これらが非常に似ていると考える人はいないと思います」とレスター氏は言う。
エンジニアたちはモデルを微調整し、数週間かけてデータを再学習させ、画像の特定の特徴を学習させました。そして、モデルは少し改善されました。

さらに数回の反復作業が行われました。ツールの最終バージョンで得られた結果は次のとおりです。

Shutterstockは社内テストの結果、新しい視覚的に類似した画像検索ツールが、キーワードに依存していた従来のツールよりも大幅に優れていると発表しました。現在、サイト上の画像がクリックされるたびに(これは頻繁に発生し、同社は1秒あたり4.7枚の画像を販売しています)、アルゴリズムが7,000万枚の写真を検索し、最も類似していると判断した画像を表示します。また、Shutterstockは400万枚の動画クリップにもこのツールを利用しており、これは同社の成長分野となっています。
重要なのは、この検索がわずか200ミリ秒で完了することです。これは、同社の旧モデルの半分の時間です。200ミリ秒の違いは大したことないように思えるかもしれませんが、レスター氏によると、せっかちな顧客にとっては非常に大きな違いになります。「検索速度を速めると、人々はより多く検索するようになりました。これは、検索にかかるコストを削減したためです。つまり、彼らはより多くのサイト内を探索するようになったのです。そして、その結果、顧客として登録する可能性が高まりました」と彼は言います。
Shutterstockのコンピュータービジョンツールでは、画像の種類によっては他の種類よりも扱いが難しい場合があります。レスター氏によると、抽象的な画像ではシステムのトレーニングに少し時間がかかり、透かしを画像の重要な要素として解釈できる場合もあるとのことです。
「このシステムの賢さは、何で訓練したかによって決まります」とレスター氏は言う。「自分の得意分野ではないものがあれば、理解できる範囲に無理やり押し込もうとするため、うまく機能しないでしょう」。しかし、投稿者が画像を追加するたびに常に変化する大規模なデータベースがあれば、同社の優れたモデルはさらに進化するだろう。
カーネギーメロン大学のコンピュータービジョン教授、サイモン・ルーシー氏は、Shutterstockのウェブサイトを利用した結果に感銘を受けた。「彼らの取り組みは、コンピュータービジョンの分野で現在起こっていること、つまりディープラーニングの大きな進歩を象徴しています」とルーシー氏は語る。「多くのタスクにおいて、これらのモデルは人間のようなパフォーマンスを達成しています。」
ルーシー氏によると、コンピューターに画像を単にキャプチャするだけでなく、理解させることは、長年コンピューターサイエンスの聖杯であり、ハードウェアとソフトウェアの改良によってその技術は実現可能になったという。Shutterstockのツールは、まさにその進歩の波に乗っていると彼は付け加えた。
限界は存在しない
Shutterstockのようなモデルが改良されるにつれ、エンジニアたちは意味論的あるいは哲学的な問題に直面する。レスター氏によると、ある時点に達すると、人々は似たような画像であってもその定義が異なるため、チームはその時点でモデルの改良を止められると判断する。さらに、昨年Googleのツールが女性をゴリラと誤認したように、誰かを不快にさせてしまう可能性も避けられない。
「コンピューターが、この画像は実際にはこれであり、それが潜在的に不快な関係だと誤った仮定を下すとき、コンピュータービジョンの厄介な領域に入り始めるのです」とレスター氏は言う。Googleが直面したような問題を回避するため、Shutterstockのチームは潜在的に問題となる可能性のある区別を特定し、それらの画像でモデルを再学習させた。レスター氏によると、モデルがそれらの領域で十分に賢ければ、もはや不快な関連付けを行わなくなるという。
将来的には、Shutterstockのようなサイトがコンピュータービジョンを活用して、新しいタイプの検索や画像とのインタラクションを実現できるようになるでしょう。有名人が履いている靴を写真のその部分にドラッグするだけで、その靴を検索できるようになる日が来るかもしれません。靴の説明をしたり、履いている人の名前を知ったりする必要さえなくなるでしょう。
「検索体験をピクセルベースに変えていくと、業界ではこれまで見られなかったような方法で検索に影響を与えることができます」とレスター氏は言う。
コンピュータービジョン全般の応用範囲は無限に広がります。ロボット工学や人工知能といった他の技術と組み合わせることで、コンピュータービジョンは自動運転車が歩行者を認識したり、ロボットが物体を適切に掴んだり、視覚障害者の視覚を補助したりすることを可能にします。
ルーシー氏は、プライバシーや、産業の変革に伴う失業など、今後さらにいくつかの問題に直面するだろうと予想しているものの、コンピューター ビジョンは世界をより良くするために活用できる力であると信じています。
「ビデオ圧縮と同じように、コンピュータービジョンも最終的には目立たなくなると思います。私たちはそれを当たり前のこととして受け入れるでしょう。ただ機能するだけです」と彼は言う。「テクノロジー自体が目立たなくなるのは、優れたテクノロジーの証だと思います。」
Shutterstockの新ツールが本日リリースされ、その実現に一歩近づきました。レスター氏と彼の同僚たちは、顧客がこのツールをどのように活用してくれるのか、今からとても楽しみです。「このツールを市場に投入する上で一番嬉しいのは、人々がこのツールに何を求め、どのように活用してくれるのかを知ることです」と、Shutterstockの検索・発見担当プロダクトディレクター、ローレンス・ラザール氏は言います。「時には、人々が私たちの予想通りに使わないこともあるのです。」