生成AI版アレクサが「日本上陸」するのはいつか? アマゾンが導入する独自生成AIの秘密【現地取材】

Amazon HQ2

発表会は、2023年5月にオープンした新拠点「Amazon HQ2」で開催された。

撮影:西田宗千佳

「我々は『アンビエント・インテリジェンス』を実現する試みを、もう10年以上も続けている。生成AIによって、その夢は手の届くところまで来た」

バージニア州・アーリントンにある「Amazon HQ2」で、アマゾンは秋の新製品発表会を9月20日(現地時間)に開催した

デイブ・リンプ氏

Alexaへの生成AI導入を発表する、アマゾン ハードウエア部門責任者のデイブ・リンプ氏。

撮影:西田宗千佳

その壇上で、アマゾンで個人向けハードウエア事業を統括する部門の責任者であるDave Limp(デイブ・リンプ)氏は、「Alexa(アレクサ)への生成AI導入」を発表した。

アマゾンの施策はどんな形になるのか、発表内容とキーパーソンへの取材からまとめてみよう。

生成AIでAlexaの理想が実現

アマゾンが音声アシスタント「Alexa」を搭載したスマートスピーカー「Echo」シリーズを最初に発売したのは2014年11月のこと。すでに9年近くが経過している。

リンプ氏は、AlexaとEchoについて、スタートからずっと責任者として関わり続けてきた。彼は近々アマゾンを去ることを公表しており、現在の職責として公的な場でスピーチをするのは、これが最後になると見られている。

「個人としてはほろ苦い思いもある」とリンプ氏はプレゼンテーションの中で語る。

そんな、リンプ氏が長く時間をかけて成長させてきたAlexaが、生成AIの力を使い、ようやく、多くの人が思い浮かべるような「対話型コンピューター」になった。

理想のAlexa

Alexaに生成AIを導入し、ようやくAlexaが人々の理想に近づいた。

撮影:西田宗千佳

今回アマゾンがAlexaに搭載したのは「Alexa Chat」という機能だ。「Alexa, Let’s Chat」と話しかけると、チャットモードに変わり、連続的に話題を維持しながらAlexaと対話できる。

Alexa Chat

生成AIを導入した機能である「Alexa Chat」。

撮影:西田宗千佳

「贔屓のチームの試合はどう?」

「あの選手は活躍した?」

「友人と一緒に試合を見るけど、ホームパーティーのグリル料理にはなにを付け合わせればいい?」

「ところで、当日の天気は?」

そんな風にAlexaに話しかけると、ちゃんと文脈を踏まえながら回答してくれる。

Alexa Chatのデモ

Alexa Chatのデモより。人と自然に対話を繰り返しながら、いろいろな情報を提示してくれる。

撮影:西田宗千佳

今までのAlexaは「単発で命令していくいもの」という印象が強かっただろう。

話をつなげつつ利用者の希望に応えていく、という技術の開発は進められていたが、なかなかうまく実装されてこなかった。日本語では機能していないし、英語でもかなり不完全だ。

しかしAlexa Chatでは、「チャットモードに入る」という手順を踏む必要はあるが、より自然な対話になってきている。多くの人がAlexaに望んでいたのは、こういう機能であるはずだ。

アマゾンは自社独自開発の生成AIを採用

Alexa Chatの裏にあるのはもちろん、大規模言語モデル(LLM)を使った生成AIである。

では、アマゾンはどんな生成AIを使ってAlexa Chatを作ったのだろうか? マイクロソフトがOpenAIをパートナーとしたように、アマゾンにもパートナーはいるのだろうか?

Amazon Devices・インターナショナル担当のEric Saarnio(エリック・サーリーノ)氏は、日本記者団との取材に応え、次のように説明している。

「私たちはAlexaを動かすために、さまざまな機械学習技術を利用している。LLMもその一つ。

使っているのは、我々独自の生成AIであり、LLMだ。私たちの生成AIと他のLLMは異なっている」(サーリーノ氏)

具体的にどんなロジックなのか? また、パラメータ数はどのくらいなのか? そのあたりに関する回答はなく、詳細は不明だ。

だが、どこかのパートナーと組んでその生成AIをエンジンとしているのではなく、自ら学習させたLLMをベースにした生成AIを使っているのは間違いないようだ。

実のところ、アマゾンは以前より、今の生成AI技術の基盤となる「Transformer技術」を使ってはいる。

ただそれはいわゆるチャットサービスにではなく、英語のために作り上げたAlexaの学習データを他の言語へと「教師データなし」で効率的に変換するためだ。これは「Alexa Teacher Model」と呼ばれるもので、200億パラメータのLLMであるという。

あくまで裏で動くものであり表には見えなかったわけだが、Alexa Chatはまた別に、表に見える形で生成AIを導入してきたことになる。

利用者の対話履歴で「自分に合った対話」を実現

Alexa Chatにはもう1つ秘密がある。

「我々の技術は、生成AIに加え、知識について、データベースやナレッジグラフを活用している。

つまり、最も正確で信頼できるAIを提供するために、古いものと新しいものをブレンドしているようなものだ」(サーリーノ氏)

これは簡単に言えば、Alexa Chatは「利用者のことをわかって対話する」ということだ。

Alexaは現在も、利用者がどんな人で、どこに住んでいて、これまでにどんな対話をしたのかという情報を知っている。

それに合わせて返答しているのだが、人間のように続けて会話しているわけではないので、そのことを強く意識することは少ないかもしれない。

だが、現在は家族を声や顔で見分けて、それぞれに合った会話をする機能がちゃんとある。個人のプロファイルをちゃんと記録し、それを使って対話しているわけだ。

パーソナライズ

Alexaは現在も、過去の履歴を含めたパーソナルな情報や、Alexa自体のパーソナリティを活かして会話している。

撮影:西田宗千佳

Alexa Chatでは、これまでに蓄積したプロファイルを生かし、パーソナライズされた会話ができる。

人が会話する時でも、その人がどんな人でこれまでどんな会話をしたのか、という情報を元に話すはず。Alexaがパーソナルプロファイルを使った対話を行うのも、そのことを考えるとよくわかる。

奇遇なことに、アマゾンが発表を行った翌日、マイクロソフトも検索サービス「Bing」のチャット機能において「対話履歴を活かしたパーソナライズ機能」を導入すると発表している。

今後個人向けのサービスで、対話履歴を活かしたパーソナライズは必須のものになるだろう。当然その分、プライバシーを守る必要性はさらに強くなる。

スムーズな対話のためにさまざまな工夫

リンプ氏とEcho Show 8

壇上でリンプ氏は、実際に新しい「Echo Show 8」を使ってAlexa Chatと対話した。

撮影:西田宗千佳

もう1つ、Alexa Chatにとって重要なことがある。それは「対話が素早い」という点だ。

生成AIとチャットすると、反応に一定の時間がかかるのが気になることが多い。今は物珍しいので我慢できるが、本来は「スムーズな対話である」ことが求められる。

Echo Shows 8(第3世代)

Echo Shows 8(第3世代)の実機。日本での発売予定は未公表だが、アメリカでは予約が開始された。

撮影:西田宗千佳

アマゾンのHead ScientistであるRohit Prasad(ローヒット・プラサード)氏は「対話は快適であることが重要」と説明する。

ローヒット・プラサード氏

アマゾンのHead Scientistであるローヒット・プラサード氏。Alexaの開発を当初から率いてきた。実は過去、日本企業で働いていたこともある。

撮影:西田宗千佳

現在のAlexaでは、音声のトーンを認識し、Alexaへの反応に反映するようになっている。楽しそうな会話には楽しそうなイントネーションを加える、ことができる。

そうした音声対応の工夫に加え、生成AI自体も素早く反応できるものを選び、バランスをとった処理されていると想定される。

Popular

あわせて読みたい

BUSINESS INSIDER JAPAN PRESS RELEASE - 取材の依頼などはこちらから送付して下さい

広告のお問い合わせ・媒体資料のお申し込み