Pixel 3シリーズを含めて、スマートフォンのカメラ性能は各デバイスメーカー間で激しい競争が繰り広げられている。
11月1日に日本でも販売を開始したグーグル製新型スマートフォン「Pixel 3」と「Pixel 3 XL」。Business Insider Japanでもプロカメラマンのレビューや11月15日から順次配信されている新機能「夜景モード」のレビューなどで解説した通り、強力なカメラ機能が最大の特徴だ。
もちろん、グーグルだけではなくアップルやファーウェイなど、昨今の高性能スマートフォンのほとんどは「誰でも簡単にキレイに撮れるカメラ」がウリのひとつとなっている。
ビデオチャットでの参加となったブレイス・アグエラ・イ・アルカス氏。
その実装方法や画質に対するこだわりは三者三様だが、グーグルでは同社独自のAIモデルによって、シングルレンズ(背面。正面は広角と標準のデュアルレンズ)にも関わらず競合機種に劣らない高品質な撮影体験を提供している。
その詳しい内容を、米グーグルの特別名誉科学者で、AI部門を担当するブレイス・アグエラ・イ・アルカス(Blaise Agüera y Arcas)氏が、日本の報道陣向けに公開した。
Pixel 3の目玉機能のほとんどは「オンデバイスAI」によるもの
Pixel 3シリーズに搭載されたAR機能「Playground」も、独自のAIあってこその機能だ。
Pixel 3シリーズで提供されている代表的なAIを使った機能は以下の通り。現状、Now Playing以外はカメラ機能がメインだ。
- Now Playing(端末の周囲で流れる音楽を聴いて、曲目をロック画面などに表示する)
- フォトブースモード(笑顔の度合いを検知し、最高のタイミングでシャッターをきる)
- トップショット(動きのある被写体を認識し、最高の構図を推薦する)
- 夜景モード(暗い場所でもブレずに明るい写真が撮れる)
- Playgroud(周囲の環境に合わせて3Dキャラクターを表示するAR機能)
- Googleレンズ(被写体そのものや写っている文字などを認識し、検索などに次のアクションにつなげる)
アルカス氏によると、これらの機能は同社の「オンデバイスAI」で実行されているという。オンデバイスAIとは、Pixelのカメラやマイク、各種センサーで得られる情報を元に、クラウドにデータを送ることなく、端末内で処理し、学習するAIのことだ。
グーグルが提示した一般的なCPU、GPUと深層学習用プロセッサー(TPU)の性能を相対比較したグラフ。
当然、クラウドにデータを送らないということは、すべて端末内の半導体の処理能力で計算を済ませるということだ。これは、グーグル自身も開発しているニューラルネットワークに最適化されたチップ(Pixel 3シリーズの場合は「Pixel Visual Core」)を用いることで実現しているという。最適化されたチップでは、計算を並列で処理し高速化、さらには消費電力も従来のチップに比べて劇的に抑えられる。
オンデバイスAIが搭載された初代デバイスとして紹介された自動撮影カメラ「Google Clip」(米国限定発売)。
このようなオンデバイスAIの研究開発は、Pixel 3の開発以前から続いているものだ。Now Playingは日本未発売のPixel 2シリーズから実装された機能であり、さらにさかのぼればアメリカのみで発売した自動撮影カメラ「Clips」から培ってきたノウハウが生きている。
「オンデバイスAI」は情報漏洩リスクからグーグルをも守る
周囲の音楽を自動で検知するNow Playing。周囲の環境音から音楽をAIが認識し抽出するまでは、すべて端末内で行われている(抽出したデータを用いて曲目を探す手順にはオンライン環境が必要)。
記者説明会を通して印象的だったのは「グーグルは個人情報の利用に関して、今まで以上に慎重になっている」ということだ。
近年、大手IT企業の個人情報の独占や取り扱い方法が取り沙汰されており、とくにGAFA(Google、Apple、Facebook、Amazon)の4社に対する風当たりは強い。グーグル自身については、10月に同社のSNS「Google+」の終了の発表と同時に、過去最大50万人の個人情報が流出した可能性があったことを公表し、激しい批判を受けてもいる。
特にスマートフォンは、すでに多くの人にとって生活必需品のデバイスであり、まさに個人情報の塊だ。そんなスマートフォンから得られる情報で学習をするPixelの機能について語るとき、アルカス氏は複数回にわたって「仮にニューラルネットワークの処理がデータセンターで実行されるなら、(Pixelに搭載している機能の)開発を始めなかっただろう」と強調した。
オンデバイスAIの特徴であるオフライン性(ネットにプライバシーにかかわるデータを送信せず、端末内だけで処理が完結すること)は、ユーザー自身の利便性やプライバシーを担保するだけではなく、グーグル自身を個人情報(またはそれに近い情報)の漏洩リスクから遠ざける意味もあるようにも思える。
学習データの差分をクラウドで共有する技術も試験中
端末内で学習モデルをアップデートし、その学習差分データを生成するフェデレーションラーニング。実際の学習タイミングは、人間で言う睡眠時間、つまり充電時間が充てられる。
また、同社はオンデバイスAIをさらに活用した学習手法の実用化も目指している。
その手法とは、同社が2017年4月に公表した「フェデレーションラーニング」と呼ばれるものだ。フェデレーションラーニングは、まずはオンデバイスAIの考え方と同様、あらかじめ端末にダウンロードしている機械学習モデルに対し、端末上で処理されたフィードバックを入力し、学習モデルをトレーニングする。続いて、その際に生まれる元のモデルと再トレーニング後のモデルの差分(=改善情報)を暗号化通信でクラウドに送信。他の端末からも集めた改善情報と合わせて平均化し、学習モデルの改善に役立てるというものだ。
個人情報を含まない差分データはクラウドアップロードされ平均化。そのデータを用いて学習モデルをさらによりよいものにする。
結局はクラウドにアップロードするなら本末転倒では、と感じるかも知れないが、改善情報は単なる学習モデルの差分であるため、個人情報を含む端末個々の入力データは含まれない。すなわち、オンデバイスAIと同じくユーザーの個人情報はあくまでもそれぞれの端末内の外に出ることはない、ということだ。
あるAI活用に詳しい技術コンサルタントは、「個人情報を判別も再現も不可能な形(ベクトル化するなど)して学習データを取り扱うことは、いまや画像解析をはじめとするシリコンバレーの最新のAI活用サービスでは常識になりはじめている」とも言う。フェデレーションラーニングも、そういったトレンドの中で生まれた技術なのだろう。
フェデレーションラーニングは、Android版Gboardアプリで試験的に運用されている。
このフェデレーションラーニングは、Pixel 3シリーズでは標準搭載の文字入力アプリ「Gboard」のAndroid版でのみ試験運用を開始している。Gboardは漢字変換はもちろん、音声入力や翻訳、そしてキーワードの検索などが一挙にできる文字入力アプリだが、フェデレーションラーニングにより、さらに精度の高い入力単語予測やウェブ検索機能が提供できるという。
今後カメラはさらに“個人に最適化”される?
AIで変わるカメラの未来。
グーグルは「フェデレーションラーニングは犬などの見分け方といったモデルの学習には不向き」と説明するが、アルカス氏は個人の意見として「私自身は、犬の見分け方などにも適していると考えている」と話したのは興味深かった。将来的にはカメラ機能などの改善にもフェデレーションラーニングが利用できると期待しているという。
アルカス氏によると、カメラの分野にフェデレーションラーニングが導入されれば、写真の美的感覚や色の基準が、現在の”写真専門家などが判断している正しい色”ではなく、それぞれの”個人に応じた的確な色”に変わっていくという。
AIを賢くするためには、「莫大なデータ」というエサが欠かせない。その点で、スマホを適切に学習に使うフェデレーションラーニングのような手法の開発は、まさに「イノベーションの種まき」であり、非常に重要な技術開発といえる。
(文、撮影・小林優多郎)