Google I/O 2023の会場。リアル会場にも多数のプレスが詰めかけた。
撮影:西田宗千佳
Google I/O 2023における新発表の中でも、多くの日本人にとって最も大きなインパクトがあるのは、「対話型AI・Bardの日本語対応」だろう。OpenAIの「ChatGPT」や、マイクロソフトの「Bing Chat」との直接対決であり、生成系AIが日常的な道具になっていくための大きな節目となる。
グーグルはBardを「創造性・生産性を高めるあなたのパートナー」と定義している。その核になるのが、グーグルの新しい大規模言語モデル(LLM)「PaLM 2」だ。Bardはアメリカなどで先行展開されてきたが、今回、PaLM 2をベースとしたものに移行する。
では、PaLM 2+Bardは我々の生活にどのような影響を与えるのだろうか? 発表内容からその点を考察してみたい。
新AIは多言語と多要素への対応を強化
Google I/Oの基調講演に登壇するグーグルのスンダー・ピチャイCEO。
撮影:西田宗千佳
BardはOpenAIの「ChatGPT」やマイクロソフトの「Bing Chat」の対抗サービスと言われる。2023年3月からアメリカ・イギリスで試験的に利用が始まり、4月には日本からもアクセスが可能になっていた。ただし、これまでサービスは「英語のみ」であり、他の言語での利用は「閉じられている」状況だった。
今回Google I/Oでは、Bardを40以上の言語に対応させ、なかでも日本語と韓国語を先行して展開する。
Bardでなにができるのか?
前述のように、グーグルはBardをユーザーの「パートナー」と位置付けている。
ちょっとしたストーリーを書いたり、知らないことを訊ねたりするのはもちろんだが、グーグルが特に強みとしてアピールしたのが「マルチモーダル性」だ。
マルチモーダルとは、文字だけでなく画像や音声など、複数の種別のコンテンツを同時に扱えること。回答はテキストだけでなく画像も含まれるし、画像を質問に加えることもできる。
基調講演では、二匹の犬の写真を示して、「この写真にユニークなキャプションを作ってもらう」というデモも披露した。画像の内容を認識した上で、その内容に合わせて回答を生み出すことができていた。
犬の写真から文章を生成することも。文字ですべてを説明しなくていい。
撮影:西田宗千佳
さらに、質問の回答にはGoogleマップの情報も含まれるようになった。表示はまさに「複数の情報を含んだレポート」のようだ。
Googleマップとも連携し、解答の結果を地図の形で示すこともできる。
撮影:西田宗千佳
メールもプレゼンもBardで省力化、実験的に「検索」まで
では、Bardの登場で、我々の仕事がどう変わるのか?
もっとも基本的な部分としては、メールや文書作成が変わる。
グーグルは3月14日に、GoogleドキュメントやGmailなどを含む「Google Workspace」に生成系AIを組み込むと発表済みで、今回その流れがさらに詳しく解説された。
GmailやGoogleドキュメントでBardを使って文書を簡単に要約したり、作ったりできるようになるほか、Google Slideでは文章からプレゼン資料を一発生成したり、各スライドで話す内容の原稿(スピーカーノート)を自動生成したりもできる。
プレゼン資料の中身をBardが理解し、スピーカーノートを自動生成している様子。
撮影:西田宗千佳
もちろん検索にも組み込む。
「Search Labs」というテスト機能の一環としてだが、「GSE(Generative Search Experience、生成サーチ体験)」が提供されることになった。
「試験的機能」としてだが、生成系AIであるBardを使った検索も。
撮影:西田宗千佳
文章や音声でBardに問いかけると、ネットを実際に検索して答えを出す。通常のBardはChatGPTと同じく「学習したデータから答えを出す」ものだが、GSEはあくまで検索。特にショッピング情報などでの連携・活用を目指している。
GSEの例。ショッピングなどでの活用が考えられる。
撮影:西田宗千佳
スマホ画面でのデモでは「カリフォルニアでクジラは見られるか」という質問に、GSEが回答している。
撮影:西田宗千佳
Adobeの生成系AIもBardで強化
サードパーティーとの連携も強化される。
その第一弾となるのがAdobeの画像生成AI「Firefly」だ。こちらは3月にAdobeが発表した画像生成AIで、デジタルマーケティングなどで増大する「素材不足」緩和という狙いがあった。
さらにBardと連携することで、Fireflyによるテキストからの画像生成機能は強化されることになる。
Bardから、Fireflyの機能をつかって画像を生成する様子。文字部分は編集部による加工。
出典:Adobe
今後さまざまなウェブツールがBardの能力を生かし、機能や効率をアップしていく……ということになるだろう。そう考えると当然、これらの機能は、「クラウドインフラとしてのグーグル対マイクロソフト」の戦いそのものということになる。
グーグルは、Bardからサードパーティーの機能を使ったり、また逆にサードパーティー側からBardの機能を使うこともできると説明している。
撮影:西田宗千佳
Bardはプログラム作成(コーディング)の強化も謳っている。20以上のプログラミング言語を学習し、対話しながらコード生成の効率アップを狙える。ここも、機能や性質に違いはあるものの、マイクロソフトの「GitHub Copilot」と競合する部分ではある。
Bardは20以上のプログラミング言語を学習、プログラミングのコード作成を省力化する。
撮影:西田宗千佳
PaLMから「PaLM 2」へ。そして「Gemini」。生成系AI加速に開発チームを統合
今回のGoogle I/Oで、グーグルは自社のAIを強く押し出している。冒頭のとおり、Bardの核になっているのは「PaLM 2」だ。グーグルは25もの製品とサービスに搭載し、一気に発表した。
他方、BardとPaLM 2自体はまだ開発中であることに変わりはない。信頼性・精度の問題は残っている。多数のフィードバックを求めており、課題の解決には時間がかかる。
2022年以降、グーグルのLLMを使ったAIといえば「PaLM」だった。Bardもアメリカで先行公開された際にはPaLMがベースであり、今回、PaLM 2へ切り替えられたことになる。
BardがPaLM 2へ移行したと発表された。
撮影:西田宗千佳
PaLM 2は、グーグル子会社で、囲碁プログラムである「AlphaGo」を開発したことでも知られるDeepMindと、グーグル内で機械学習を研究していた「Brain Team」が合流して開発したものだ。
PaLM 2の開発にはDeepMindも合流した。
撮影:西田宗千佳
基調講演後、PaLM 2についてより詳しい情報を得ることができた。
PaLM 2はグーグルの中で非常に広範な技術として活用されるが、1つの特徴は「多言語対応」を積極的に推し進めたことだ。
PaLMは英語を軸に学習されていたが、PaLM 2では英語「以外」のデータを大量に学習しているという。その結果、英語での精度が落ちるリスクはあったそうだが、あえて多言語対応が進められた。
だが、結果的にではあるものの、英語での精度が向上しているのだという。翻訳能力については、一部でGoogle Translate(Google翻訳)の精度を超えているそうだ。
筆者も短時間使ってみたが、日本語の解釈能力は高いし、反応速度も、ChatGPTやBing Chatより優れていると感じた。
そして基調講演では、さらに次のAI開発プロジェクトとして「Gemini」が控えていることも公表された。開発には、PaLM 2を開発している人々の多くが、そのままスライドして取り組んでいるという。
次のAI基盤である「Gemini」の存在も公開された。
撮影:西田宗千佳
「Geminiはまだ学習中だが、PaLM 2のスーパーセット(上位技術)になる」と、グーグルのPaLM 2開発担当者は話す。
前述のように、生成系AIの信頼性はまだまだ開発途上の部分がある。
だからこそ、ここであえてGeminiも発表したのだろう。AIのコアな部分について、グーグルはブレーキを踏むことなく進化を進めていくつもりのようだ。