
例えば、企業と電話で話している時に、自動音声アシスタントがあなたの情報を「検索」するのに数秒かかるとします。そして、その音が聞こえてきます。その音は紛れもなく、どこかで聞いたことのある音です。キーボードを打つカチカチという音です。ただの効果音だとは分かっていますが、保留音や企業情報の流れる流れとは違い、耳障りではありません。むしろ、心地よいと感じるほどです。
ハーバード・ビジネス・スクールのマイケル・ノートンとライアン・ビューエルは、この考え方を研究しました。顧客は、たとえ「働いている」のがアルゴリズムだけであっても、自分の代わりに仕事が行われていると知ることに感謝するという考え方です。彼らはこれを「労働錯覚」と呼んでいます。
対話型音声認識(IVR)システムがカスタマーサポートラインの新たな標準となり、ますます複雑な取引に対応できるようになるにつれ、発信者はかつて人間のオペレーターから受けていたのと同等、あるいはそれ以上のサービスを期待するようになりました。しかし同時に、顧客は依然として、対面でのやり取りのメリット、つまり人間味を求めています。たとえ電話口に人間がいないと分かっていても、私たちは自分の話がきちんと聞いてもらえていると感じ、最善の結果を得られていると信頼したいのです。
「ウェブサイトがその作業内容を表示するかどうかは、技術的にはそれほど重要ではないはずですが、私たちにとっては非常に共感できるのです」とノートンは説明します。「ウェブサイトに人間味を感じ、まるで私たちのために作業が行われているかのように感じ、結果として製品やサービスへの愛着が増すのです。」
サウンドデザイン
優れた IVR システムは、言語的および非言語的な音声キューを通じて、プロセス全体を通じて発信者に情報を提供しながら、発信者のニーズに明確に応答する仮想アシスタントを顧客に提供します。
では、成功する IVR システムを設計するには何が必要でしょうか?
端的に言うと、たくさんあります。おそらくあなたが思っている以上に。
なぜなら、効率的に機能するナビゲーションシステムを作るだけでは不十分だからです。オーディオを作曲し、ブランドを反映する声優を見つけ、自然な人間同士のやり取りを模倣した体験を創造することも重要です。
デルタ航空を例に挙げましょう。同社は2013年にNuance Communicationsと提携し、カスタムIVRシステムを導入しました。
IVRの設計プロセスは、デルタ航空の「主要なブランド特性」を特定することから始まりました。今回の場合は「楽観性、決意、リーダーシップ、革新性、そして情熱」だと、Nuanceのディレクター兼グローバル分野リーダー/ユーザーインターフェースデザインのゴーム・アマンド氏は語ります。「私たちが目指したのは、カスタマーサービスホットラインをご利用のお客様に、これらの特性を反映し、促進する(非言語的な合図のための)音声を考案することでした」
「決意」という言葉を具体的にどのように歌に表現するのでしょうか?
その責任は、Nuanceのシニアオーディオエンジニア、ダン・カステラーニに委ねられました。彼はまず、デルタが広告キャンペーンで使用した音楽とサウンドを研究し、「音楽的な観点からデルタが自社ブランドに何を求めていたのか」を理解することから始めました。そこからカステラーニはピアノの前に座り、約30種類のフィラーサウンドの候補を作曲し、最終的に既存の素材と最も調和し、顧客にとって最も邪魔にならない4~5種類に絞り込みました。最終的な結果は、彼らが「パーコレーション」と呼ぶ、音楽と基本的な効果音の中間のような、トランスのようなサウンドです。
「これは、こうしたシステムの声優を選ぶプロセスと非常に似ています」とアマンドは言う。「声はシステムを体現し、ブランドを自動的に伝えます。そして、ほとんどの人はそこからすぐに結論を導き出します。」
デルタ航空に電話すると、男性の声で応答がありました。テノール声で、親しみやすく、信頼感を抱かせてくれました。少なくとも私にとっては。この印象は、スコットランドのグラスゴー大学が2014年に実施した、声の違いがどのように認識されるかを調べた研究結果と一致しています。2つの男性の声サンプルのうち、高い声のサンプルの方が威圧感が少ないと感じられたそうです。考えてみてください。旅行の計画を立てるのを手伝ってくれるバーチャルアシスタントと、ポール・ラッドの声のバーチャルアシスタント、どちらを選びますか?個人的には、クレジットカード情報ならラッドボットに渡したいくらいです。
ブランドは、声自体のピッチや性別への関連性に加え、ペースにも配慮する必要があります。バーチャルアシスタントの話し方が速すぎると、定型文を暗唱しているように聞こえます。遅すぎると、人々はイライラしてしまいます。「多くの場合、テクノロジーは人間よりも速く話せますが、信頼関係を築くには必ずしも適切ではありません」と、マサチューセッツ州に拠点を置く音声認識およびバーチャルアシスタント技術企業Interactionsのジェーン・プライス氏は説明します。少しスピードを落とすことで、「(顧客の)通常の期待や、彼らが好むコミュニケーション方法に沿うようになります」。
自動タイピング音の話に戻りますが、Interactionsのデザインサービスディレクターであるマイケル・ペル氏は、同社の特徴的な補填音としてキーボードのカタカタ音を採用することを決定しました。同社はこの音声を、ハイアット、ヒューマナ、ライフロックといった他社にライセンス供与しています。
「フィラーには2つの役割を持たせたいんです」とペル氏は説明する。「相手に、あなたがまだそこにいること、そして相手のために何かをしていることを理解してもらいたい。コンピューター時代では、タイピングで仕事が行われていると言える。『あなたのために何かをしている』という、すぐに自然に理解できる意味合いを持つんです。」
永遠にフィラー?
適切に設計されたIVRは、まさに2つの世界の良いところを融合させています。人間らしいやりとりでありながら、態度の問題が生じる可能性がありません。ロボットは機嫌が悪くなることもなく、空腹でイライラすることもありません。さらに、コールセンターのアシスタントの数を減らすことで、企業は大幅なコスト削減を実現できます。
しかし、ここで疑問が湧きます。コンピューターが複雑で状況依存のタスクを1秒かそれ以下で処理できるようになったら、フィラー音はどうなるのでしょうか? Google初の音声認識プログラムであるGoog-411で「フェッチオーディオ」と呼ぶ機能を初めて発明したビル・バーン氏は、フィラー音はまもなく過去のものになると考えています。Goog-411をはじめとする初期の音声認識プログラムは、顧客のリクエストを実行するために余分な時間を必要としていたため、フィラー音は必須でした。しかし、処理速度が速くなるにつれて、フィラー音の使用頻度は既に減少しています。
それでも、NuanceとInteractionsのチームは、フィラーが時代遅れになることは決してないと信じています。コンピューターの速度が上がらないからではなく、音声認識分野におけるイノベーションが今後も続くからです。アルゴリズムの能力が進化するにつれて、コンピューターはより複雑な要求に対応するよう求められ、そのためには再び追加の時間が必要になるでしょう。
さらに、ノートン氏が言うように、「私たちは他の人が自分の指示通りにやってくれるのを本当に嬉しく思います」。特に、それが面白くもなく、時間の無駄で、労力のかかる作業である時はなおさらです。ですから、誰かのタイピングをただ座って聞けるのは、どんな時でも満足感を与えてくれる体験となるでしょう。たとえそれがボットであっても。