このニューラルネットワークビジュアライザーで人工知能の思考を覗いてみよう このニューラルネットワークビジュアライザーで人工知能の思考を覗いてみよう

このニューラルネットワークビジュアライザーで人工知能の思考を覗いてみよう

このニューラルネットワークビジュアライザーで人工知能の思考を覗いてみよう
httpswww.popsci.comサイトpopsci.comファイルスクリーンショット_2016-01-22_at_10.05.08_am.png
アダム・ハーレー氏による畳み込みニューラルネットワークの3D可視化では、人工知能の内部の仕組みを垣間見ることができます。スクリーンショット/アダム・ハーレー

悪のAIが世界を支配するのではないかという恐怖はさておき、人工知能(AI)の分野は、外部の人間にとってはとっつきにくいものになりかねません。Facebookの人工知能担当ディレクター、ヤン・ルカン氏は、AIは無数のノブを備えたブラックボックスであり、その内部の仕組みはほとんどの人にとって謎に包まれていると例えています。しかし今、私たちはその内部を垣間見ることができるのです。

ライアソン大学の修士課程の学生アダム・ハーレーは、画像分析に使用される人工知能プログラムの一種である畳み込みニューラル ネットが内部でどのように動作するかを説明するインタラクティブな視覚化を構築しました。

インタラクティブな視覚化でわかるように、ニューラルネットワークは連続した層で動作します。一番下には入力、つまりコンピューターが解釈しようとしている元の情報(この場合はユーザーが描いた数字)があり、一番上には出力、つまりコンピューターの最終的な結論があります。中間には数学関数の層があり、各層は最も重要な識別情報を凝縮して次の層に渡します。

httpswww.popsci.comサイトpopsci.comファイルスクリーンショット_2016-01-25_at_10.58.14_am.png
畳み込みニューラルネットワークが画像を読み取って数値を決定する様子を視覚化した図。スクリーンショット/アダム・ハーレー

入力(下段)の緑色のピクセルは描画した画像に対応し、黒色のピクセルは数字を区別する必要がある背景です。もし顔検出を試みるなら、3が顔、黒色が写真の背景になります。各段階では、ステップそのものではなく、各ステップ後の画像の状態を確認しています。

ニューラル ネットワークでは、最初の数層は主にエッジや形状などに関係し、全体的な視覚的アイデアを引き出し、周囲の形状と異なる特徴を強調するために引き出せるさまざまな識別特徴を探します。

これらの各レイヤーは、トレーニングと呼ばれるプロセスによって、このデータを認識できるように事前に調整されています。トレーニングとは通常、数十万、場合によっては数百万の例を機械に実行させ、様々な種類の「3」がどのように見えるかを示すことを意味します。あらゆる種類の機械学習と人工知能において、同じプロセスが様々なソースデータに用いられています。Googleは、自社のサービスを利用する人々のランダムな音声サンプルを使って音声認識ソフトウェアをトレーニングしており、Facebookは、様々な角度から撮影された人物画像を使って顔認識アルゴリズムをトレーニングしています。

トレーニングでは、何百万もの例をマシンで実行する必要があります。

第一層から渡されたデータは、第二層(データの複雑さを軽減するため、ダウンサンプリング層と呼ばれます)によって簡略化されます。その後、第一層と同様に畳み込み層である第三層で再び形状が分析されます。このニューラルネットワークは2つの畳み込み層で構成されていますが、より複雑なネットワークでは10層を超える畳み込み層を持つこともあります。

この図形とエッジのセットは処理され、事前に決定された出力セットと照合されます。最終的に、ユーザーが3(あるいは8)を引いた可能性が非常に高いという結論が下されます。これは、データがレイヤーごとに処理されるにつれて、データの色で確認できます。最終的に引いた緑色の数字は、(おそらく)正しい出力を示す緑色の情報ビットです。

ハーレーのモデルでは、コンピューターはATMで小切手入金を読み取るために使われていた初期の畳み込みニューラルネットワークのように、単に数字を判別するだけです。最先端のAIははるかに複雑で、97%の精度で顔を認識できます。

でも、百聞は一見に如かず。ぜひご自身で人工知能をお試しください!

[サミム・ウィニガー経由]