アマゾンは音声AIとの「会話」を本気で研究している —— 驚きの最新機能、アレクサ担当幹部が日本講演で語る

Amazon Echo

アマゾンのAI「アレクサ」が人間のように対話できる日も近い?

アマゾンのAI「アレクサ」は、現状では“人間の代わり”になれるほどの性能はない。だが、“人間ふうの対話”ができるようになるまでには、そう時間はかからないかもしれない。

アマゾンのAlexa担当のバイス・プレジデントであるラヴィ・ジェイン(Ravi Jain)氏は4月4日、東京ビッグサイトで行われた「第2回AI・人工知能 EXPO」内の特別講演に登壇し、「AmazonによるAIの民主化」という題目で話した。

なお、主催社によると、同プログラムの事前申込数は3000人を超え、当日用意された2100席はすべて埋まっていた。スマートスピーカーとアレクサへの注目度の高さは相当なものだ。

第2回AI・人工知能 EXPOの行列

特別講演は東京ビッグサイトの東8ホールで実施されたが、開始30分前には東7・8ホールのある建物からはみ出るぐらいの行列になっていた。

日本での普及に向け「略語」などの国別ローカライズを進めるアマゾン

Amazon VP ラヴィ氏

Amazon.comのAlexa マシンラーニングプラットフォーム バイス・プレジデントであるラヴィ・ジェイン氏。

ラヴィ氏が挙げたAmazonが取り組むAIの民主化=大衆化に関する要素は以下の3つだ。

  • AIをローカライズすること
  • 先進的な機能を常に開発し続けること
  • テクニカルコミュニティーの支援をすること

まず、AIのローカライズとは、アレクサを展開する国や地域の文化に適応させることだ。

たとえば、同社のスマートスピーカー「Echo」に「アレクサ、“ドリカムの曲”を再生」と話すと、きちんと“DREAMS COME TRUEの曲”が再生される。

ラヴィ氏が言うローカライズとは、こういった単語や言い回しの学習のことを指している。実際、アレクサは日本上陸に際して、こういったローカルな単語を複数学習している。

アマゾン特別講演のスライド

アレクサは「ドリカム」のような日本特有の略語も理解できる。

すでに各スマートアシスタントの操作に慣れている人は、アレクサにどのように命令すれば、自分の目的に合った回答をするかを体得しているはず。だが、多くの一般ユーザーは日常で人間と話すような口語に近い表現で、アレクサに話しかけている。そんなユーザーにもストレスのない体験を提供するには、このような国・地域毎のカスタマイズは重要な要素だ。

こうしたローカライズは、アレクサの追加機能「スキル」の開発者にとっても無視できないメリットがある。話者の意図をくんだアレクサ認識能力は、そのままをスキルを操作する際の言葉の認識能力として利用できる。これが、ラヴィ氏が言う「音声解析や言語のプロフェッショナルではなくても、高品質なスキルを開発できる」との説明の意味だ。

開発中の「アレクサと対話」機能ではすでに10分以上の会話ができる

次に、ラヴィ氏はアレクサの基盤技術の進化点として、自動音声認識(ASR)や自然言語理解(NLU)の性能向上、学習の高速化などを挙げている。

こうした性能向上の結果は、一般配布の前に大学を始めとする研究機関に、独自の開発コンテスト「Amazon Alexa Prize」を通じて提供し、精度をさらに高めるといったエコシステムも持っている。

ラヴィ氏は「Alexa PrizeがAIの民主化のひとつを担っている」と話しており、学生や研究者の関心を高めて、コミュニケーションをしていくことの重要性を語っていた。

Amazon Alexa Prizeのスライド

Amazon Alexa PrizeはAlexa開発における大学対抗の賞金付きコンテストだ。

2017年のAlexa Prizeではワシントン大学のチームが優勝した。Alexa Prizeでは高い精度のソーシャルボットの作成が求められ、優勝賞金は50万ドルにものぼる。

ワシントン大学のチームのソーシャルボットは、当然英語の会話にはなるものの、平均10分22秒もの「自然な対話」が可能だったという。なお、同社はAlexa Prizeで20分間の対話に成功すれば、100万ドルの賞金を追加するとしている。

日本未実装の「対話のための機能」もいくつか紹介

最後に、ラヴィ氏は日本市場では未実装となっているアレクサの新しい特徴について触れた。

会話に連続性を持たせる「Context Across Turns」

Alexa Context Across Turnsのスライド

会話の流れを理解する。

直前までに聞いた内容を理解し、連続した会話を実現する。

例)
ユーザー「アレクサ、ベガスにあるモブミュージアムの場所を教えて」
アレクサ「モブミュージアムは(住所)にあります」
ユーザー「どうやって行けばいい?」※
アレクサ「(現在地からの推奨ルートを案内)」

※ウェイクワード(例:アレクサ)の発話を数秒間省略できるFollow-upモードも日本未提供。

声以外の要素を取り込む「Multimodal Context」

Alexa Multimodal Context

さまざまな情報の関係を理解する。

そのデバイスが画面に表示している内容などを理解する。(画面付きスマートスピーカーである「Echo Show」「Echo Spot」は日本未発売)

例)
ディスプレーに新着ニュースとして「セルフィーを開発したと、パリス・ヒルトンが主張」と表示される。
→画面上に「『アレクサ、パリス・ヒルトンについて何か教えて』と話してみよう」と追加でオススメ。

デバイス毎に最適なコンテンツを提案する「Evolving Device Context」

Alexa Evolving Device Context

使っている端末を理解する。

ユーザーがそのとき使っているデバイスを理解し、それに応じた挙動をする。

例)
Echoに向かって「アレクサ、『The Lost City of Z』を再生」
→Amazon Audibleとして再生される。

Fire TVと接続されたEchoに向かって「アレクサ、『The Lost City of Z』を再生」
→Amazon Prime Videoで映画を再生する。

話している個人を判別する「Personal Context」

Alexa Personal Context

しゃべっている人が誰かを理解する。

誰が話しているのかを理解し、提示する情報を制御する。

例)
洋楽のプレイリストを持つAさん「アレクサ、洋楽のプレイリストを再生して」
→Aさんの洋楽のプレイリストが再生される。

プレイリストを持っていないBさん「アレクサ、洋楽のプレイリストを再生して」
アレクサ「プレイリストがありません」

なお、アマゾンジャパン広報は、これらの特徴や機能が日本に提供される時期について「詳細はお話しできない」としているが、ラヴィ氏は講演の中で「Alexaは日々進化している。楽しみに待っていて欲しい」と語った。

これらの機能は、人間同士が無意識で行うようなことだが、自然な対話には必要なものだ。

アレクサを搭載しているスマートスピーカー「Echoシリーズ」は、2018年3月30日に招待なしの一般販売を開始したばかりだ。

多くの人が日本語でアレクサを使うようになれば、より早く日本を学習した“人間らしい”アレクサに出会える日が来るかもしれない。

(文、撮影・小林優多郎)

ソーシャルメディアでも最新のビジネス情報をいち早く配信中