
人工知能の潜在的な脅威について考え続けるのは簡単ですが、この分野は人間の生活をより良くすることを約束することが多いのです。AIアルゴリズムは、私たちが友人とつながったり、情報を探したり、さらには現実世界を移動したりするのを助けることを目指しています。
Facebook は本日から、全盲または視覚障害者にとって非常に必要なアクセシビリティを提供するために、人工知能を使用して Facebook 上のすべての写真にテキスト キャプションを自動的に生成します。
開発者たちは、AIが生成するテキストの精度を極めて高めたいと考え、わずか100種類の物体の画像で集中的にトレーニングを行いました。そのため、現時点では人間、ピザ、野球などの識別に限られていますが、研究が進むにつれて、キャプションはますます多様で複雑になるでしょう。
視覚障害者はインターネットを閲覧する際に、画面上の文字を読み上げるスクリーンリーダーに頼ることがよくあります。しかし、スクリーンリーダーの性能は、読み取れるコンテンツによって左右されます。テキストが欠けていると、読み取ることができません。Web標準では、画像には画像が何を表しているかを説明する「altテキスト」という欄を設けることが義務付けられています。しかし、ほとんどのFacebook画像では、スクリーンリーダーが利用できるテキストは、写真と一緒に投稿されたステータスだけです。
Facebookは人工知能アルゴリズムを適用することで、各画像をスキャンし、そこに写っているものに関する情報を抽出することができます。例えば、誰かがピザの写真を投稿した場合、アルゴリズムは自動的に画像の代替テキストに「ピザ」という単語を追加し、スクリーンリーダーがユーザーにその単語を読み上げられるようにします。このキャプションは、Facebookの15億人のユーザーの大部分には表示されませんが、ますます視覚的な要素が増すプラットフォーム上で写真を見ることができない人々にとって、大きな変化となります。
Facebookはこの機会を利用して、研究手法を民主化しようとしています。同社のアクセシビリティチームとAIチームは、ユーザーからのフィードバックを活用し、さらなる研究の方向性を決定します。3月には、コーネル大学と共同で、視覚障碍者によるFacebookの利用状況を調査し、コミュニティのニーズに応える製品の開発を目指した研究を発表しました。
「研究結果が利用率を左右するのではなく、人々が何を求めているかが研究の原動力となるべきです」とパルリ氏は述べた。「フィードバックがあれば、より深く調査を進めることができます。」
画像の認識と記述は、人工知能分野における重要な研究分野です。新たな技術とハードウェアの登場により、人工ニューラルネットワーク(脳のニューロンを模倣した数式の小さな集合体)の層を用いたディープラーニング(深層学習)が可能になり、データを分類してパターンを見つけ出すことができます。これらの技術は、画像、音声、テキストなど、ほぼあらゆる種類のデータに適用できます。例えば、画像では、猫の写真のパターンとイルカの写真のパターンは異なります。
しかし、個々の物体は単純です。物体同士が相互作用したり、ある動作に文脈が伴ったりするとなると、それははるかに難しくなります。なぜなら、機械は物理世界について実際に何かを理解し、物体間の関係性を知る必要があるからです。単純な機械には、重力も家族関係も愛情もありません。あるのはデータだけです。
したがって、父と娘がハイキングコースを歩いていることや、猫がベッドの上にいることを理解するには、機械はまず物理的な世界について学習する必要があります。
Facebookのアクセシビリティチームもまさにそれを必要としています。現在、彼らは「タグ」と呼ばれる認識オブジェクトを持っています。タグは猫、タグはベッド、タグは人です。この情報があれば、写真にアイスクリームコーンを持った人が4人写っている、あるいはピザパイがあるなどと判断できます。
「私たちの目標は、タグよりもはるかに多くのことを説明できるようになることです。タグはどのように相互作用するのか? タグ同士の関係性はどうなっているのか?」とパルリ氏は言います。「単に『猫』と『ベッド』と言うだけではありません。『ベッドの上の猫』とか『ベッドを飛び越える猫』とも言いたいはずです。ですから、これは出発点なのです。」
これは多くの点で出発点です。チームは、よりコンテキストに基づいた物体認識を実現するだけでなく、認識をよりインタラクティブなものにすることを夢見ています。パルリ氏は、ユーザーが画像のさまざまな部分をタップすることで、特定の情報を音声で聞くことができる機能の可能性を示唆しています。
しかし、Facebookが事業を展開する規模では、精度は最優先事項となる。Facebook、Instagram、Messenger、WhatsAppでは毎日20億枚の画像が共有されるため、1%の誤差でさえ数百万の間違いを意味する可能性がある。エンジニアは、物体を正しく分類することの重要性に基づき、アルゴリズムが検出できる約100の概念をそれぞれ手作業で調整した。例えば、物体がピザかどうかよりも、性別などについてはアルゴリズムははるかに確信が持てなければならない。Facebookは、100個のライブラリから物体を80%から99%の信頼度で認識できる。Facebookによると、Facebook上の写真の50%以上で、少なくとも1つの物体を認識できるという。
この機械が理解できる概念のほとんどは、人や物体に関するものです。眼鏡、野球ボール、さらには自撮り写真までも認識します。しかし、パルリ氏によると、チームが意図的に含めなかった概念もいくつかあるそうです。その中には、特定の動物も含まれています。
AIシステム、特に画像の分類におけるミスは、文化的な問題を引き起こす可能性があります。例えば、昨年Googleフォトアプリが黒人をゴリラと誤認識したケースがそうです。こうした事態を避けるため、「私たちは、非常に自信があり、多くの肯定的なフィードバックが得られるところから始めたいと思っています」とパルリ氏は言います。
自信はもっと無害なこともあります。パルリは猫の手について言及しています。
「隅に猫の足跡があるかもしれない。写真の中にまだ猫がいるのだろうか?これはまだ分からない」と彼は言った。「もしかしたら、この写真は足跡をモチーフにしているのかもしれない。それが面白いところなんだ」
研究の方向性は様々で、ユーモアの検出もその一つです。しかし、いずれにせよ、改善は現実の人々のニーズに基づいた、より優れたアルゴリズムの開発にかかっています。人工知能の未来は、人間の生活をより便利にすることです。私たちは、機械が代替できる脳の部分をアウトソーシングしています。ソフトウェアを使って自分自身を拡張することで、世界はよりアクセスしやすい場所になります。
この機能は現在FacebookのiOSアプリで利用可能で、近々他のプラットフォームや英語以外の言語にも展開される予定だ。