アマゾン(Amazon)はスマートアシスタント「アレクサ(Alexa)」に生成AI機能の実装を計画している模様だ(画像は2021年10月撮影のアレクサ搭載デバイス)。
REUTERS/Mike Blake/Illustration
Insiderが独自に確認した社内文書によれば、アマゾン(Amazon)は2022年末に音声アシスタント「アレクサ(Alexa)」部門およびデバイス部門で2000人弱の従業員を解雇したにもかかわらず、アレクサに対話型人工知能(AI)「ChatGPT(チャットジーピーティー)」的な生成AI機能を実装して再度のブームを起こそうと計画している模様だ。
この社内文書では、アレクサスマート化計画の到達点が次のように表現されている。
「ユーザーは、アレクサがデータベースから情報を取得しているのではなく、自分で考えているのだと感じるようになるでしょう」
社内文書には「アレクサ大規模言語モデル エンターテインメントユースケース(Alexa LLM Entertainment Use Cases)」とのタイトルが付され、自然な会話に近い形の動画検索、ユーザー個人に最適化されたレコメンド、ニュース要約や子供向け物語の創作など、エンターテインメント分野に関連した新機能の例が具体的に挙げられている。
アマゾンの広報担当はInsiderの取材に対し、アレクサを動かす基盤となるAI技術は「アレクサ・ティーチャー・モデル(Alexa Teacher Model)」と呼ばれる同社独自の大規模言語モデルと生成AIであるとを明かした。
「(既存のものより)はるかに規模が大きく、汎用性と能力が高い新たな大規模言語モデルの開発に当社は取り組んでいます。
現時点ですでに世界最高のパーソナルアシスタントであるアレクサが、さらに能動的で自然な会話が可能なパートナーへと進化していくプロセスを加速することになります」
曖昧なリクエストにも的確な検索結果
ほんの数年前、アレクサは新たなチャット技術としてシリコンバレーを席巻し、多くのメーカーからこの音声アシスタントを組み込んだデバイスが発売された。
しかし、テクノロジーは引き続き加速度的な進化を遂げ、すでにアレクサの音声チャットは新鮮味が薄れている。
今日では米OpenAI(オープンエーアイ)が開発したChatGPTが対話型AIの主役となり、アマゾンと競合するマイクロソフト(Microsoft)はChatGPTの基盤技術である大規模言語モデル「GPT-4」を活用し、検索エンジン「Bing(ビング)」にAIチャット機能を実装した。
グーグル(Google)も自社開発の対話型AI「Bard(バード)」の社内テストを急ピッチで進め、マイクロソフトの背中を追う。
一方、苦戦を強いられたアマゾンのアレクサ部門は冒頭で触れた通り、大規模なレイオフ(一時解雇)とコスト削減を実施。これで苦境に終止符が打たれるかどうかは現時点では何とも言えない。
ジャシーCEOは2023会計年度第1四半期(1〜3月)の決算説明会で、不振が続くアレクサのアップグレードが進行中であることを公にした。
今回確認できた社内文書が示唆するのは、生成AI技術に関して競合他社に遅れを取っているように見えるアマゾンが、アレクサを絡めた「逆転の秘策」を準備しているのかもしれないということだ。
社内文書には次のような記載がある。
「アレクサは大規模言語モデルを使って、エンターテインメント作品に関するユーザーの複雑な要求を理解し、コンテンツに関する文脈を把握して、動画と音楽の両方でより正確にパーソナライズされた検索結果を提供します」
アマゾンがここで想定しているのは、ユーザーのリクエストがたとえ曖昧(あいまい)な場合でも的確な検索結果を提供できる、進化したアレクサの対話能力だ。
同社は以下のような具体例を示す。
ユーザーから「ネットフリックス作品の『エミリー・イン・パリ(Emily in Paris)』に似ているけど、ファッションにあまり力を入れていないドラマを教えて」と話しかけられたアレクサは、プライムビデオの『マーベラス・ミセス・メイゼル(Marvelous Mrs. Maisel)』を提案する。
アレクサ搭載のディスプレイ付きアマゾン・エコー(Echo)端末なら、そのドラマのおすすめポイントを視覚的に表示することもできる。
さらに、ユーザーが「似たようなドラマで、主人公の女性が夢のある仕事に就くような作品はない?」と追加質問すれば、アレクサはそのリクエストに基づいた番組リストを提示する。
提示されたリストのいずれかの番組(社内文書ではパラマウント+(プラス)のオリジナルドラマ『ヤンガー(Younger)』が例として使われている)について、ユーザーがその内容を尋ねると、アレクサは番組の見どころを1行に要約して回答する。
ディスプレイ付きのデバイスなら予告編が自動再生されるし、もちろんリビングルームのスマートテレビで即時に再生することも可能だ。
世界最高のパーソナルアシスタントへ
アマゾンの社内文書には、動画のセマンティック検索(自然言語の意味を理解して、それに沿った検索結果を提供する技術)やパーソナル・レコメンデーションの具体例として、以下のようなアレクサとの対話イメージが記載されている。
ユーザー:アレクサ、お金持ちがシチリアやハワイに旅行に行くHBOかネットフリックスの番組を見つけて。
アレクサ:ハワイの高級リゾートを舞台に、裕福な特権階級のバケーション体験を描くHBOのドラマ『ホワイト・ロータス(The White Lotus)』みたいな番組ですね。
ユーザー:そう、それ!出演者は誰?
アレクサ:ジェニファー・クーリッジ、オーブリー・プラザ、テオ・ジェームズなどです。主なキャストの一覧はこちらです。
(ストリーミングプレーヤー「FireTV」のユーザーなら、テレビ画面に『ホワイト・ロータス』の詳細ページとHBO Maxの無料視聴体験の案内が表示される)
ユーザー:無料体験終了後の料金はいくら?
アレクサ:HBO Maxは、7日間の無料体験後、月額料金15.99ドルで視聴できます。あなたはアマゾンプライム会員なので、いますぐ契約して見始めることができます。契約しますか?
ユーザー:はい。
アレクサ: 分かりました。プライムビデオのチャンネルにHBO Maxが追加登録されました。無料体験の期限が切れる1日前になったら、お知らせします。これから、『ホワイト・ロータス』シーズン1の第1話を再生します。
社内資料に記載のある別の具体例では、「今夜は何を見ようかな」というユーザーからの問いかけに対して、アレクサが過去の検索結果をもとに回答する様子を紹介している。
ユーザーは検索結果を見ながら、「あまりロマンチックではないもの」や「アカデミー賞を受賞した映画」といった条件を追加して、観たい作品を絞り込んでいくことができる。
ユーザーが作品を見終わると、アレクサは視聴者のレビューや作品の予告編、俳優のインタビュー映像などをおすすめとして案内する。
また、ニュースの要約機能として、次のような具体例が示されている。
野生動物に関心のあるユーザーに対して、アレクサはオオカミの個体数が増加したことを報じるニュースのハイライトを読み上げ、それに関連するニュースや情報も集め、より理解を深める手助けをする。
ユーザーがワシントン州のオオカミの個体数について質問したら、それに答えた後で、関連するおすすめのポッドキャスト番組を紹介する。
さらに、ファミリー層をターゲットとした子供向けの物語創作機能も例示されている。
8歳の子供が「猫と月のお話がいい」とリクエストすると、アレクサは『月に行った最初の猫 ミトン』という物語を創作し、ベッドに入ったその子供に読み聞かせる。
その子が普段、ディズニーキャラクターの「オラフ(Olaf)」のおもちゃで遊んでいるとしたら、カメラ付きのエコー・ショー(Echo Show)がそれを認識し、『月に行った最初の猫 ミトン』の物語にオラフを登場させることもできる。
子供本人や両親がストーリーを追加したり、エコー・ショーのディスプレイに物語に関連する絵を表示したりできるようにすることも検討しており、よりインタラクティブ(双方向)な体験を提供することをアマゾンは計画している。
社内文書には、こうした子供向けの機能に関して、ディズニー(Disney)やレゴ(LEGO)などとパートナーシップを組む可能性についても言及がある。
アレクサを搭載した最初のデバイスであるアマゾン・エコーが2014年に北米で発売されてから、もうすぐ10年になる。その間、アマゾン以外のメーカーもアレクサを搭載した数多くのデバイスを世界中で販売してきた。
アレクサが生成AI機能を実装して進化することにより、アレクサ搭載デバイスが大きな収益機会を生むようになるとアマゾンは算段する。
ジャシーCEOは、先述の第1四半期決算説明会でこう発言した。
「アマゾンは世界中で1億台以上のアレクサ搭載デバイスを販売してきました。新たな大規模言語モデルの開発は『世界最高のパーソナルアシスタントになる』という当社のビジョンの実現を急速に加速させるでしょう。そして、当社は画期的なビジネスモデルを構築することになると思います」