

Googleは今週、アート分野に力を入れました。同社は、絵を描くのが苦手な人が視覚的にコミュニケーションをとるのを支援するプラットフォームを立ち上げました。また、棒人間を描くのが苦手な人に絵を描くことを教える研究、ニューラルネットワークについても発表しました。
同社は火曜日、絵を描く才能に乏しいユーザー向けのウェブベースサービス「AutoDraw」を発表した。このプログラムは基本的に、指(パソコンの場合はマウス)を使ってリンゴやシマウマなどの基本的な絵を描くことができる。すると、ユーザーが描いた下手な絵を分析し、プロが描いたような絵を提案してくれる。気に入った絵をクリックすると、ユーザーが描いた絵がプロが描いたものへと置き換えられる。まるで絵用のオートコレクト機能のようだ。
Googleクリエイティブラボのチームリーダー、ヌーカ・ジョーンズ氏は、AutoDrawは人々の自己表現を支援するツールだと述べています。「絵を描くのが苦手な人はたくさんいますが、だからといって視覚的なコミュニケーションが阻害されるわけではありません」と彼は言います。「機械学習というアイデアを活かし、視覚的なコミュニケーションを通して、アイデアをスケッチしたり、実現したりできるようになったらどうでしょうか?」
Googleのクリエイティブテクノロジスト、ダン・モッツェンベッカー氏によると、このシステムの基盤技術は意外なところにルーツがあるという。「これはもともと手書き文字を認識するために考案されたニューラルネットワークなんです」と彼は言う。その手書き文字はラテン文字、中国語、漢字などの日本語の文字かもしれない。そこから「落書きまで、それほど大きな飛躍はありません」。
人々が線画を描くと、ネットワークはそれが何なのかを理解しようとします。「アルファベットの文字や漢字の読み方と同じように、トースターの落書きにも使えます」とモッツェンベッカー氏は言います。
ニューラル ネットワークはデータから学習することで改善されますが、システムが人間の描いた絵から学習しているのか、またどのように学習しているのかを尋ねられると、ジョーンズ氏は次のように答えます。「理論的には、学習できます。ただし、アルゴリズムへの入力として実際に何を使用しているかは、あまり明らかにしていません。」
文字の描き方が複数あるように、象や馬にも複数の表現方法があります。「AIがより多くの多様性を見るほど、新しいスケッチ方法への適応力が高まります」とモッツェンベッカー氏は言います。また、ユーザーは新しい絵を選ぶ際にAIの推測を検証しており、これはAIの将来の判断に役立つ可能性があります。
「業界全体で見られる現象の一つで、Googleは他のほとんどのテクノロジー企業よりもずっと早くその可能性を認識していました」と、カリフォルニア州マウンテンビューのShape Securityの最高技術責任者で元Google社員のシュマン・ゴセマジュンダー氏は語る。「機械学習を活用することで、これまでは人間の直接的な介入が必要と考えられていたことが可能になります。」そして、機械学習モデルにはデータが必要です。
「この場合、何百万人もの人がさまざまな図形を描こうとするために使用する可能性のあるアプリがあれば、たとえ現時点でテクノロジーが完璧でなくても、時間の経過とともにこれらのモデルを改善するために使用できる素晴らしい入力データのトレーニング セットを作成していることになります」と彼は付け加えます。
AutoDrawは、落書きをより認識しやすい画像に変換することを目指していますが、Googleはコンピューターの描画方法にも関心を持っています。木曜日、Google Researchは、リカレントニューラルネットワークに猫や豚などのオブジェクトを描画させる方法についてのブログ記事と論文を発表しました。
Google Brainレジデントであるデイビッド・ハ氏のブログ記事によると、研究チームの目標は「人間と同じように抽象的な概念を描き、一般化できる機械」を訓練することだった。このシステムは、Googleの広報担当者によると、例えば猫の絵や「猫」という単語など、人間の入力を受け取り、それを元に独自の絵を描くという仕組みだ。
結果は興味深く、かつ奇妙なものでした。ある例では、研究者たちはシステムに3つ目を持つ猫のスケッチを提示しました。コンピューターは独自の猫を描きましたが、その猫の目の数は正しく、これは「猫は通常2つしか目を持たないことをモデルが学習したことを示唆しています」。
別の例では、歯ブラシの写真を見せると、Google ニューラル ネットワークの猫モデルは、歯ブラシにインスピレーションを得た感じを残しつつ、ピカソ風の猫を作成した。
Google の広報担当者は、AutoDraw とその他の研究を動かしているのが別のニューラル ネットワークであることを確認したが、類似点は顕著である。どちらの場合も、システムは機械学習を利用して入力の一部を受け取り、プロが描いた画像を提案するか、完全に独自に何か新しいものを作成する。