
ご存知ですか?iPhoneから話しかけてくれるバーチャルアシスタント、Siriの声が変わりました。新しい音声は、Appleの最新モバイルOS「iOS 11」の一部として本日正式にリリースされます。新しい声のおかげで、声のトーンが高くなり、若々しくなりました。より元気で親しみやすくなりました。そして何より、より人間味あふれる声になりました。
彼女の最新の声が生まれた経緯はこうです。誰かが本を朗読し、Appleがそれを録音しました。彼女のアメリカ英語アクセントは特定の人物によって発音され、例えばイギリス英語アクセントも同様です。Appleがこれらの録音で目指したのは、自然な響きの単語と音素、つまり言葉を構成する音を集めることでした。そこからAppleは機械学習を用いてこれらの音素を組み合わせ、彼女の話し声を可能な限り自然に聞こえるようにしています。単語の音を正しく組み合わせることに重点を置くことで、Appleは音節を正しく強調し、人工的に聞こえすぎない声を作り出すことを目指しています。
Siriの新しい声の特徴をより深く理解するため、私は彼女がアメリカ英語で話している動画を、ブリティッシュコロンビア大学言語学部の助教授、モリー・バベル氏に送りました。(そう、彼女は言語の専門家で、姓はBabel、綴りは「Tower of」と全く同じです。)バベル氏は私に、Siriが特定の単語(パスタ、プール、ブーツなど)を話す様子と、言語学ではよく知られている、様々な音を含む一節を録音するよう依頼しました。その一節は「ステラに電話してください」という一節で始まります。
彼女の反応は?「彼女の母音をいくつか聞いたとき、ちょっと笑ってしまいました」とバベルは言う。「彼女はまさにカリフォルニア人そのものですね」。バベルは、Siriが「pool」と「boot」の「oo」の発音や他の母音の発音から、その違いが分かった。言語学的な計算で言えば、バベルはSiriの声をアクセントアーカイブにある似た発音者と比較し、Siriの発音が最もカリフォルニア人に似ていることを確認した。
さらに、彼女の声は甲高く、息が詰まった感じで、この二つの要素が相まって若々しい雰囲気を醸し出しているとバベル氏は指摘する。「彼女は本当に若く聞こえる」と彼女は言い、彼女の声は10代後半から20代のアメリカ人女性に最もよく合うと付け加えた。
その息づかしさ、つまり声帯を通過する空気の量を指す言葉が、彼女の声を健康的にしているとバベル氏は言う。
私は彼女に、人々がデバイスから発せられる仮想ペルソナからどのような声を聞きたいのか、つまり天気や予定に関する情報を提供してくれる声を聞きたいのかを尋ねました。
「彼女は喜んで人を喜ばせようとしてくれるように作られていると思います」とバベル氏は言う。「正直に言うと、もしかしたらそれが若い女性に対する私たちの不当なステレオタイプの一部なのかもしれません」iPhoneの設定で、2013年から利用可能な男性の声に簡単に切り替えられる。
「デバイスで聞こえるアクセントには、親しみやすさ、どこか自分らしい響きがあるという魅力があります」と彼女は付け加える。「それが、見下されているような気持ちと戦う助けになるんです」
しかし、それはうまく機能するのでしょうか?
結局のところ、バーチャルアシスタントは、聞きやすく楽しい音声を持つだけでなく、ユーザーの意図を明確に理解する必要があるとバベル氏は考えています。iOS 11では、Siriは英語のフレーズを5つの言語に翻訳できます。
翻訳機能は確かに便利ですが、バーチャルアシスタントの最大の目的は、ユーザーの要求を理解し、適切な応答を返すことです。SiriにUberを呼んでほしいと頼んだのに、「Uber」という言葉が理解できず、スマートフォンのUberアプリとLyftアプリのどちらかを選ぶように促されたら、Siriの実際の声がどんなに聞こえようとも、イライラしてしまうでしょう。(Siriの単語認識におけるエラー率は、Appleが2011年にこの音声アシスタントを初めてリリースして以来、大幅に減少しています。)
これは、Siriのような音声コンピュータシステムを研究するカーネギーメロン大学のシステム科学者、ティモ・バウマン氏も指摘している点だ。彼もバベル氏の音声を聞いたことがある。(バベル氏もバウマン氏も、iOS 11が本日正式リリースされる前のベータ版の頃にバベル氏の音声を聞いたことがある。)
「新しい声は、以前の声よりもずっと個性が際立っているように感じます」とバウマン氏は言う。「以前の声は、もっと遠慮がちでした」。例えば、今年初めにAppleがデジタルアシスタントの新しい音域を初めて発表した際、彼女は「sunny」という単語を3つの異なるイントネーションで発音するデモを行った。これも、彼女がより人間的で自然な発音を目指した例だ。
音声メッセージには自信と個性があり、能力を伝達します。つまり、デジタル アシスタントが、他のどのアシスタントにも起こるように、必然的に失敗した場合、トーンとパフォーマンスの不一致がさらに顕著になる可能性があります。
「この声は、自分が言っていることを本当に自信を持っているようだ」とバウマン氏は言う。「つまり、Appleは実際にそれを実現できるかどうかに気を配らなければならないということだ。この声で何か馬鹿げたことを言ったら、二重に馬鹿げたように聞こえるだろう。」
それから、バベルがSiriの発音がカリフォルニア訛りだと言っていた件ですが、彼女に出身地を聞いてみるのもいいかもしれません。そうすれば、きっとこう教えてくれるでしょう。「箱に書いてある通り…Appleがカリフォルニアで設計したんです。」