
幼稚園の卒業式のようなものだと考えてみてください。3年間かけて機械学習ソフトウェアを開発してきた企業が、本日、そのソフトウェアが最初のテストであるCAPTCHAに合格したことを発表しました。
サンフランシスコに拠点を置くVicarious社は、視覚を発達させるためのソフトウェアの開発に取り組んでいる。最終的には、この視覚システムは文字がどこに表示されていても認識でき、写真に写っている物体を識別し、健全な視力を持つ子供なら誰でもできるようなことをすべてできるようになるはずだ。ウェブサイトがスパムボットから人間ユーザーを選別するためによく使う歪んだ文字パターン、CAPTCHAの解読が、Vicarious社の最初の進捗報告となっている。Vicarious社の創業者によると、同社のソフトウェアは平均90%の確率でCAPTCHAを解読できるという。(ただし、10月25日に発表されたGoogleの最新ソフトウェア「reCAPTCHA」では、Googleストリートビューの数字には対応できていない。)
「CAPTCHAは、一般的な知覚における多くの問題を代表しているため、優れたテストです」と、Vicariousの創設者の一人であるディリープ・ジョージ氏はPopular Science誌に語っています。「例えば、文字のばらつき、つまり文字のばらつき具合です。文字が乱雑に重なり合った状態から文字を認識することの難しさもそうです。これらはすべて、一般的な視覚においても解決しなければならない問題です。」
このソフトウェアは機械学習を利用している。機械学習は1980年代に開発された技術で、プログラマーがプログラムに文字「A」の例を何千も与えることで、文字「A」の形などの概念を「教える」ものである。数行のコードでコンピューターに「A」が何であるかを説明するのは難しいかもしれないが、それでもコンピューターは十分なトレーニングデータがあれば自分で理解できる、というのがその考え方だ。ジョージ氏と彼の同僚は、例によって学習するプログラムを作ることでこの分野を前進させたと述べているが、何千もの例ではなく、文字ごとに10の例だけで済むという。ジョージ氏の共同設立者であるスコット・フェニックス氏は、「人間は鹿や蛇が何であるかを知るために、それらの例を1万個も得ることはない」と述べている。さらに、このソフトウェアはラップトップで動作するため、実行に特別な計算能力は必要なく、商用化可能である。
「もし彼らが任意の写真を提示し、その写真に何が写っているかを教えてくれたなら、それは素晴らしいことでしょう。」
「彼らの成果は非常に素晴らしいと思います」と、カナダのウォータールー大学でSpaunという脳モデルを研究しているクリス・エリアスミス氏は言う。彼はVicariousには参加していない。「彼らは機械学習の基本的な問題、つまりこの分野で長らく定番となってきた問題において進歩を遂げたと思います」
しかし、Vicariousの社外のエンジニアにとって、同社の人工知能開発が実際にどの程度進んでいるのかを判断するのは難しい。エリアスミス氏は、たった10個の例から文字を学習させるというのは素晴らしいように聞こえるが、プログラムがどんな種類の例でも10個だけで済むのか、それとも異なるフォントを認識するためにもっと多くの例が必要なのかによって、結果は異なると指摘する。ジョージ氏とフェニックス氏は、本記事の掲載までに説明を求めるメールに回答しなかった。
さらに、CAPTCHAの正式名称は「Complete Automated Public Turing test to tell Computers and Humans Apart(コンピュータと人間を区別するための完全な自動公開チューリングテスト)」と魅力的ですが、プログラムが人間の知能に近いことを示すものではありません。結局のところ、CAPTCHAを破る人間と会話することはできません。
「CAPTCHAを破れるという事実は、それが人間のように思考できることを意味するわけではありません」と、CAPTCHAのオリジナルの開発者であるルイス・フォン・アン氏は言う。「彼らのやり方が間違っていると言っているわけではありません。もしかしたら正しい方向に進んでいるかもしれません。ただ、私には分かりません。」
CAPTCHAを破るプログラムを開発しているグループは他にもいるので、今回の偉業は目新しいものではありません。「これは、破り手の中では比較的精度の高い方だと思います」とフォン・アン氏は言います。このような進歩はCAPTCHAの終焉を意味するものではありませんが、いずれCAPTCHAの破り方は進化し、企業は別のスパムボットのゲートキーパーに頼らざるを得なくなるでしょう。フォン・アン氏によると、次のステップは人々に写真に写っている物体を識別してもらうことです。
Vicariousは自社のプログラムが人間の脳のように動作すると主張しているが、フォン・アン氏とエリアスミス氏は両者とも、このソフトウェアが他の機械学習ソフトウェアよりも本当に脳に似ているかどうかを判断するのは難しいと述べている。問題の一因は、Vicariousがプログラムの背後にある数学的な説明を完全に公開していないことにあるのかもしれない。これは営利企業であれば当然のことだ。しかし、 Popular Scienceが取材した外部の研究者たちは、同社が作成した短い動画に頼らざるを得なかった。
フォン・アン氏は、人工知能(AI)ビジョンソフトウェアに感銘を受ける点が一つあると語る。「任意の画像を提示して、そこに何が写っているかを教えてくれるなら、それは素晴らしいでしょう。それでも、それが人間のように思考しているかどうかは分かりませんが、少なくともコンピューターがそんなことをするのを見たことはありません。」
Vicariousは写真に写った動物を認識するソフトウェアの開発に取り組んでいるが、フェニックス氏によると、その精度はまだ発表できないとのことだ。エリアスミス氏によると、多くのグループがこの問題に取り組んでいるため、Vicariousが最初または最高の結果を出す保証はないという。Vicariousがその実力を発揮するには、開発がもう少し進むまで待たなければならないだろう。