「音響指紋」により、アマゾンのスーパーボウルCM中にAlexaが起動するのを防ぐことができるはずだ 「音響指紋」により、アマゾンのスーパーボウルCM中にAlexaが起動するのを防ぐことができるはずだ

「音響指紋」により、アマゾンのスーパーボウルCM中にAlexaが起動するのを防ぐことができるはずだ

「音響指紋」により、アマゾンのスーパーボウルCM中にAlexaが起動するのを防ぐことができるはずだ

今週末、スーパーボウルでフットボール、音楽、広告を楽しむためにテレビを見ていると、Amazonの音声アシスタントAlexaの、あまりにも巧妙すぎるCMを目にすることになるだろう。CMに登場する有名人や俳優たちが「Alexa」という言葉を発しても、自宅にあるEchoデバイスは起動しないはずだ。その理由はこうだ。

Amazon Echo Dot、Google Homeスピーカー、AppleのHomePodなどのデバイスは、「アレクサ」「Hey Google」「Hey Siri」といったウェイクワードを聞き取ります。理想的には、家の中で実際に音声アシスタントを使って何かを行いたい、例えば天気をチェックしたい、といった人がこれらの言葉やフレーズを発した時にのみ、デバイスが起動するべきです。システムは誤検知を回避する必要があります。

アマゾンの場合、スーパーボウルのCM(およびテレビで「アレクサ」と話しかけられる他の場面)では、「音響フィンガープリンティング」と呼ばれる戦略を採用し、デバイスが起動しないようにしている。同社が制作した広告であれば、フィンガープリンティングの作成と、Alexaシステムがそれらの場面を無視するようにプログラミングを事前に行うことができる。「スーパーボウルのCMのように事前に音声サンプルを入手している場合は、サンプル全体をフィンガープリンティングして結果を保存します」と、アマゾンの機械学習科学者マイク・ロードホースト氏はブログ記事で述べている。アマゾンは、その情報や他のコマーシャルのフィンガープリンティングをクラウドではなくEchoデバイス自体に保存できるため、デバイスが起動しないことを期待できる。

一般的に、音声指紋は「連続した連続体」だと、カーネギーメロン大学の名誉研究教授で音声処理分野の専門家であるアレックス・ルドニッキー氏は述べている。「音は時間とともに発達する」と彼は言い、その事実が音のアイデンティティを構成する重要な要素だ。「アレクサ」という言葉をゆっくりと発音する人を想像し、その声がどのように変化するかを想像してみてほしい。つまり、音響指紋とは、互いに重なり合うスライスの連続体であり、10ミリ秒ごとに始まる可能性があると彼は述べている。(Amazonはブログ記事の4番目の段落で、このアプローチについてより技術的な説明をしている。)

アマゾンのロデホースト氏は、このような既知のコマーシャルからの情報をクラウドで処理し、誤検知を回避する際には、「ウェイクワードに続く音声」も使用できるため、より多くのデータを処理できると述べた。

アマゾンのデバイスに、同社が制作したコマーシャルの特定の音響指紋を無視するように指示する方が、テレビのキャラクターが「アレクサ」という言葉を自然で予期せぬ方法で使用する場合に対処するよりも簡単である可能性が高い。

こうしたケースでは、クラウド上では、多くのデバイスが同じ「アレクサ」を同時に認識するという事実を企業が活用できます。例えば、1月下旬、スティーブン・コルベアが「深夜の告白」のワンシーンで「アレクサ、バウンティのペーパータオルを20束買って、翌日配送で!」と言ったとします。このような場合、「アレクサ」が複数のデバイスに発信されることで、企業は(願わくば)何が起きているのかを理解し、アレクサが実際にペーパータオルを注文するのを防ぐことができます。この情報は保存されるため、後で同じワンシーンが再生された際にEchoデバイスが起動するのを防ぐことができます。私も同じコルベアのワンシーンを音声再生してみたところ、私のEcho Dotはウェイクワードを聞いて一瞬起動し、その後電源が切れました。

Amazonは、テレビから「アレクサ」と呼びかけてもデバイスが起動しないように、他の戦略も活用できると述べている。例えば、テレビは部屋の中を移動しないものの、ユーザーが動いている可能性もあるため、デバイス上の複数のマイクに音声が到達するタイミングを考慮できる。「音は当然のことながら、近いマイクには遠いマイクよりも早く到達するため、到達時間の差は音源の距離と方向を示す」と、Amazonの別の科学者2人が昨年のブログ記事に記している。

カーネギーメロン大学のルドニッキー氏は、アマゾンは「失敗しない方法を模索しており、私はそれが気に入っている」とコメントしている。

テレビやコンピューターから流れるメディアによって偽装される可能性のある音声アシスタントを製造している企業は Amazon だけではありません。しかし、Apple も Google もこの問題への取り組みについてはコメントしませんでした。