
GIPHY経由
「取り除く」という動詞を考えてみましょう。人間であれば、この言葉が様々な使い方をすることを理解していますし、視覚的にも、何が何から取り除かれるかによって風景の見え方が変わることも知っています。大きな塊から蜂の巣の一部を引き抜くのと、畑から防水シートを引き剥がすのとでは、あるいはスマートフォンからスクリーンプロテクターを剥がすのとでは、見た目が異なります。しかし、これらの例はすべて、何かが取り除かれているのです。
しかし、コンピューターや人工知能システムには、このような動作がどのようなものかを教える必要があります。それを実現するために、IBMは最近、研究者が機械学習システムのトレーニングに役立てるために使用できる、3秒間のビデオクリップの大規模な新しいデータセットを公開しました。これには、「狙う」「飛び込む」「草むしり」などの動作動詞の視覚的な例が含まれています。このデータセットを詳しく見ていくと(上の車のビデオと下のハチのビデオはデータセットから取得したもので、「取り除く」を示しています)、機械学習に組み込まれるソーセージの製造プロセスの奇妙なツアーが提供されます。「ウィンク」の項目では、ジョン・ハムが演じるドン・ドレイパーがウィンクしているクリップや、シンプソンズのワンシーンを見ることができます。他にもたくさんの動画があります。データセットの一部は、こちらで確認できます。合計で300を超える動詞と100万本のビデオがあります。
GIPHY経由
コンピューターに動画内の動作を理解させるのは、画像を理解するよりも難しい。「動画の方が難しいのは、物体認識と比べて、私たちが扱っている問題が複雑さの点で一歩上だからです」と、IBMとMITの共同研究所の研究者であるダン・ガットフロイント氏は言う。「物体は物体であり、ホットドッグはホットドッグですから」。一方、「開く」という動詞を理解するのは難しいと彼は言う。犬が口を開けるのと、人がドアを開けるのとでは、見た目が違うからだ。
このデータセットは、機械が画像や動画を理解するのを支援するために研究者が作成した最初のデータセットではありません。ImageNetと呼ばれるデータセットは、コンピューターに画像識別を学習させる上で重要な役割を果たしており、他にも動画データセットは既に存在しています。例えば、「Kinetics」と呼ばれるデータセットや、スポーツに特化したデータセット、そしてセントラルフロリダ大学が作成した「バスケットボールのダンク」などの動作を収録したデータセットなどがあります。
しかし、ガットフロイント氏によると、新しいデータセットの強みの一つは、彼が「アトミックアクション」と呼ぶものに焦点を当てている点だという。これには、「攻撃」から「あくび」まで、基本的な動作が含まれる。そして、タイヤ交換やネクタイ結びといった複雑な動作に焦点を当てるよりも、アトミックアクションに分解する方が機械学習に適しているとガットフロイント氏は言う。
最終的には、このデータセットがコンピューター モデルが人間と同じくらい簡単に単純な動作を理解できるようになるのに役立つことを期待していると彼は言います。