発表会は、2023年5月にオープンした新拠点「Amazon HQ2」で開催された。
撮影:西田宗千佳
「我々は『アンビエント・インテリジェンス』を実現する試みを、もう10年以上も続けている。生成AIによって、その夢は手の届くところまで来た」
バージニア州・アーリントンにある「Amazon HQ2」で、アマゾンは秋の新製品発表会を9月20日(現地時間)に開催した。
Alexaへの生成AI導入を発表する、アマゾン ハードウエア部門責任者のデイブ・リンプ氏。
撮影:西田宗千佳
その壇上で、アマゾンで個人向けハードウエア事業を統括する部門の責任者であるDave Limp(デイブ・リンプ)氏は、「Alexa(アレクサ)への生成AI導入」を発表した。
アマゾンの施策はどんな形になるのか、発表内容とキーパーソンへの取材からまとめてみよう。
生成AIでAlexaの理想が実現
アマゾンが音声アシスタント「Alexa」を搭載したスマートスピーカー「Echo」シリーズを最初に発売したのは2014年11月のこと。すでに9年近くが経過している。
リンプ氏は、AlexaとEchoについて、スタートからずっと責任者として関わり続けてきた。彼は近々アマゾンを去ることを公表しており、現在の職責として公的な場でスピーチをするのは、これが最後になると見られている。
「個人としてはほろ苦い思いもある」とリンプ氏はプレゼンテーションの中で語る。
そんな、リンプ氏が長く時間をかけて成長させてきたAlexaが、生成AIの力を使い、ようやく、多くの人が思い浮かべるような「対話型コンピューター」になった。
Alexaに生成AIを導入し、ようやくAlexaが人々の理想に近づいた。
撮影:西田宗千佳
今回アマゾンがAlexaに搭載したのは「Alexa Chat」という機能だ。「Alexa, Let’s Chat」と話しかけると、チャットモードに変わり、連続的に話題を維持しながらAlexaと対話できる。
生成AIを導入した機能である「Alexa Chat」。
撮影:西田宗千佳
「贔屓のチームの試合はどう?」
「あの選手は活躍した?」
「友人と一緒に試合を見るけど、ホームパーティーのグリル料理にはなにを付け合わせればいい?」
「ところで、当日の天気は?」
そんな風にAlexaに話しかけると、ちゃんと文脈を踏まえながら回答してくれる。
Alexa Chatのデモより。人と自然に対話を繰り返しながら、いろいろな情報を提示してくれる。
撮影:西田宗千佳
今までのAlexaは「単発で命令していくいもの」という印象が強かっただろう。
話をつなげつつ利用者の希望に応えていく、という技術の開発は進められていたが、なかなかうまく実装されてこなかった。日本語では機能していないし、英語でもかなり不完全だ。
しかしAlexa Chatでは、「チャットモードに入る」という手順を踏む必要はあるが、より自然な対話になってきている。多くの人がAlexaに望んでいたのは、こういう機能であるはずだ。
アマゾンは自社独自開発の生成AIを採用
Alexa Chatの裏にあるのはもちろん、大規模言語モデル(LLM)を使った生成AIである。
では、アマゾンはどんな生成AIを使ってAlexa Chatを作ったのだろうか? マイクロソフトがOpenAIをパートナーとしたように、アマゾンにもパートナーはいるのだろうか?
Amazon Devices・インターナショナル担当のEric Saarnio(エリック・サーリーノ)氏は、日本記者団との取材に応え、次のように説明している。
「私たちはAlexaを動かすために、さまざまな機械学習技術を利用している。LLMもその一つ。
使っているのは、我々独自の生成AIであり、LLMだ。私たちの生成AIと他のLLMは異なっている」(サーリーノ氏)
具体的にどんなロジックなのか? また、パラメータ数はどのくらいなのか? そのあたりに関する回答はなく、詳細は不明だ。
だが、どこかのパートナーと組んでその生成AIをエンジンとしているのではなく、自ら学習させたLLMをベースにした生成AIを使っているのは間違いないようだ。
実のところ、アマゾンは以前より、今の生成AI技術の基盤となる「Transformer技術」を使ってはいる。
ただそれはいわゆるチャットサービスにではなく、英語のために作り上げたAlexaの学習データを他の言語へと「教師データなし」で効率的に変換するためだ。これは「Alexa Teacher Model」と呼ばれるもので、200億パラメータのLLMであるという。
あくまで裏で動くものであり表には見えなかったわけだが、Alexa Chatはまた別に、表に見える形で生成AIを導入してきたことになる。
利用者の対話履歴で「自分に合った対話」を実現
Alexa Chatにはもう1つ秘密がある。
「我々の技術は、生成AIに加え、知識について、データベースやナレッジグラフを活用している。
つまり、最も正確で信頼できるAIを提供するために、古いものと新しいものをブレンドしているようなものだ」(サーリーノ氏)
これは簡単に言えば、Alexa Chatは「利用者のことをわかって対話する」ということだ。
Alexaは現在も、利用者がどんな人で、どこに住んでいて、これまでにどんな対話をしたのかという情報を知っている。
それに合わせて返答しているのだが、人間のように続けて会話しているわけではないので、そのことを強く意識することは少ないかもしれない。
だが、現在は家族を声や顔で見分けて、それぞれに合った会話をする機能がちゃんとある。個人のプロファイルをちゃんと記録し、それを使って対話しているわけだ。
Alexaは現在も、過去の履歴を含めたパーソナルな情報や、Alexa自体のパーソナリティを活かして会話している。
撮影:西田宗千佳
Alexa Chatでは、これまでに蓄積したプロファイルを生かし、パーソナライズされた会話ができる。
人が会話する時でも、その人がどんな人でこれまでどんな会話をしたのか、という情報を元に話すはず。Alexaがパーソナルプロファイルを使った対話を行うのも、そのことを考えるとよくわかる。
奇遇なことに、アマゾンが発表を行った翌日、マイクロソフトも検索サービス「Bing」のチャット機能において「対話履歴を活かしたパーソナライズ機能」を導入すると発表している。
今後個人向けのサービスで、対話履歴を活かしたパーソナライズは必須のものになるだろう。当然その分、プライバシーを守る必要性はさらに強くなる。
スムーズな対話のためにさまざまな工夫
壇上でリンプ氏は、実際に新しい「Echo Show 8」を使ってAlexa Chatと対話した。
撮影:西田宗千佳
もう1つ、Alexa Chatにとって重要なことがある。それは「対話が素早い」という点だ。
生成AIとチャットすると、反応に一定の時間がかかるのが気になることが多い。今は物珍しいので我慢できるが、本来は「スムーズな対話である」ことが求められる。
Echo Shows 8(第3世代)の実機。日本での発売予定は未公表だが、アメリカでは予約が開始された。
撮影:西田宗千佳
アマゾンのHead ScientistであるRohit Prasad(ローヒット・プラサード)氏は「対話は快適であることが重要」と説明する。
アマゾンのHead Scientistであるローヒット・プラサード氏。Alexaの開発を当初から率いてきた。実は過去、日本企業で働いていたこともある。
撮影:西田宗千佳
現在のAlexaでは、音声のトーンを認識し、Alexaへの反応に反映するようになっている。楽しそうな会話には楽しそうなイントネーションを加える、ことができる。
そうした音声対応の工夫に加え、生成AI自体も素早く反応できるものを選び、バランスをとった処理されていると想定される。
なお英語の場合、現在の音声認識はデバイスの中で実行され、クラウドを介していない。一方で、Alexa Chat自体はクラウドで処理されている。当面はこのコンビネーションが続くことになるだろう。
Alexa Chatはいつ日本に来るのか
Alexa Chatの日本語版の登場にはまだかなり時間がかかりそうだ。
撮影:西田宗千佳
最後に残る問題は、「Alexa Chatはいつ日本で使えるようになるのか?」という点だ。
現状、Alexa Chatは「数カ月以内にアメリカでテストが始まる」という状況。おそらく、テストの開始は2024年に入ってからだろう。
英語で当面テストが行われた後に、日本を含む他の言語への対応が進むことになると思われるので、日本語版の登場にはまだかなり時間がかかることになるだろう。
だが前述のように、アマゾンは多言語化のための技術を持っており、Alexa Chatでもフルに活用するだろう。そうなると、2年も3年も先のことになる……とは考えづらい。
結局のところ、英語でのテストでどこまで消費者が満足するものが作れるのか、それまでにどのくらいの時間がかかるのか、それが鍵となるだろう。