グーグルのプロダクトマネージメント担当ディレクターであるオースティン・チャン氏。
「AI for Everyone」(AIを全ての人に)
5月7日から9日まで開発者向けイベント「Google I/O 2019」を開催したグーグルは、そんなスローガンを掲げて次世代のGoogleアシスタントについて発表した。
Googleアシスタントは、今後クラウド(インターネット側)からエッジ(端末などのデバイス側)へと住み処を移し、1人1人のパーソナリティーをより深く理解してサポートしてくれる、その名の通りの有能な「アシスタント」へと成長を遂げるようだ。
世界が注目するAI予約代行サービス「Duplex」から拡張
グーグルによると、すでに膨大な数の“Googleアシスタント入りデバイス”が稼働しているという。
現在、Googleアシスタントが利用可能なデバイスの数は、スマートフォンも含めて10億台以上。日本も含め、80カ国以上30以上の言語で利用されている。日本ではまだ使ったことがないという人も多いかもしれないが、Androidスマホのほか、スマートスピーカーやスマートディスプレイのような専用デバイスも含めてユーザーは広がっている。全世界のアクティブユーザー数は昨年比で4倍に増えているという。
グーグルのプロダクトマネージメント担当ディレクター、オースティン・チャン氏によると、今後もたらされるGoogleアシスタントの進化の1つは、2018年のGoogle I/Oで注目を集めた人工音声による店舗予約機能「Duplex(デュプレックス)」の拡張だ。
2018年に“通話上の機能”として披露されたDuplexが、ウェブにも進出する(米国限定)。
Duplexのデモでは、AIによる人工音声が電話で流ちょうに会話し、レストランを予約する様子が大きな話題を呼んだが、今後は電話だけでなくWebサイトでもGoogleアシスタントが利用できるようになる。
例えば、レンタカーを予約しようとサイトにアクセスすると、普通はユーザー登録に始まって、借りる期間や場所、車種など多くの情報を入力しなければならない。だが、ユーザーの旅程やよく利用する車種などを把握しているGoogleアシスタントならば、より少ない手間で予約が完了できる、というわけだ。
現在、Duplexは米国の一部Pixelのユーザーのみが利用可能となっているが、Web版は今年後半に米国と英国のAndroidユーザー向けに提供されるという。
AIはクラウドからユーザーの端末内へ
Googleアシスタントは、よりユーザーについて理解を深める。
Googleアシスタントはこれまでにも、GoogleカレンダーやGmailなどと連携し、ユーザーの行動を把握してきた。今後はよりパーソナルな情報、「身近な人物や場所、時間といった情報について理解を深めることになる」とチャン氏は語る。
例えば、「OK, Google、ママの家の週末の天気は?」と問えば、Googleアシスタントはあなたのママが誰かやその家がどこにあるかといった情報を把握した上で、レスポンスを返してくれる。相手の名前や場所、日時をその都度細かく指定しなくても良くなり、より自然に問いかけられるように問いかけられるようになるという。
Googleアシスタントが知っている情報を管理できるYou(あなた)タブ。
この機能はまず、米国のユーザーに向けて提供される。もちろんGoogleアシスタントにプライバシー情報を提供したくない場合は、パーソナルな情報を集約した専用の設定画面でそれを拒否することもできる。
また、グーグルにあまり情報を渡したくないという人もいるだろうが、「アシスタント」がクラウドではなく、スマートフォンの中にいるとしたらどうだろう? 話すことへの抵抗感は、グッと低くなるのではないだろうか。
Googleアシスタントの音声認識、言語認識機能は今年の後半には、クラウドではなくエッジ側、つまりスマホ内でローカル処理できるようになることが発表されている。
最新の音声認識モデルは従来の200分の1程度の容量に
グーグルは、次世代のGoogleアシスタントについて、次のPixelスマートフォンに搭載予定としている。
グーグルのサンダー・ピチャイCEOは、Google I/O 2019の基調講演で、グーグルが音声と言語の認識モデルを新たに開発したことを明かした。新しい認識モデルは、従来では100GB程度必要だったデータ量を、200分の1程度にあたる「約0.5GB」まで縮小することに成功したという。
これによってスマホ内での処理が可能となり、ネットワークにつながっていなくても、遅延なしでリアルタイムの音声から文字への変換が可能になるほか、音声に対してこれまでの10倍の速さでレスポンスできるようになる。
さらに、このスピードアップによって、マルチタスクも可能に。いちいち「OK, Google」というトリガー(ウェイクワード)を言わなくても、連続した素早い操作ができる。アプリを次々と起動したり、メッセージからアルバムを開いて写真を添付するといった一連の操作もスムーズにこなせる。
Google I/Oで披露されたデモ。
出典:グーグル
基調講演のデモでは、メールを起動するところから、音声によるメッセージの入力、タイトルの入力、送信まで、一気に実行する様子が紹介された。Googleアシスタントが言葉を正確に理解した上で、「これは操作に関する指示」「これはメッセージの中身」「これはタイトル」と、素早く判断する様子には、会場から歓声も上がっていた。
この次世代のGoogleアシスタントは、今年後半にリリースされる次の「Pixel」シリーズ(おそらく「Pixel 4」)から導入予定。グーグルは新たに開発した認識モデルの詳細を明らかにしていないが、チャン氏によればローカルでの音声認識の実現のためには、ソフトウェアとハードウェアの密接な連携が必要で、そのために新機種での対応となるようだ。
AIがスマホと日常の生活を変える
今はカメラなどに使われているエッジAIだが、今後の展開次第ではスマホを変えるかもしれない。
撮影:今村拓馬
今や多くのハイエンドスマートフォンで、AIに特化したチップである、いわゆる「NPU※」を搭載している。クラウドではなくエッジ、つまりスマホ内でAIの処理を行うのはここ最近の大きな流れと言っていい。
※NPUとは:
Neural network Processing Unitの略。人工知能、ニューラルネットワークに特化した演算用のチップのこと。
ただ、そのAIを使ってできることは、今のところカメラで自動的にシーンを認識するといった程度で、正直なところスマホの使い方が大きく変わるとか、それによって生活がより便利になるといった恩恵はあまり感じることができなかった。
Googleアシスタントの音声認識がスマホ内で処理できるようになり、自分のことをよくわかっている「アシスタント」と自然に話すだけでいろいろなことができるようになれば、スマホの操作はいよいよタッチから音声へと歩みを進めることになるかもしれない。
もしそうなれば、スマホが必ずしも今のような板状の形である必要もなくなるだろう。スマホの次なる進化のときは、AIによって案外早くもたらされるかもしれない。
(文、撮影・太田百合子)
太田百合子:フリーライター。パソコン、タブレット、スマートフォンからウェアラブルデバイスやスマートホームを実現するIoT機器まで、身近なデジタルガジェット、およびそれらを使って利用できるサービスを中心に取材・執筆活動を続けている。