ソニーの会話AIロボット「poiq(ポイック)」。
撮影:清水亮
ソニーのAIを活用した新型エンタテインメントロボット「poiq(ポイック)」が一般ユーザー向けに届き始めた。いま、他のメーカーからも、いわゆる「GPT-3ベース」の会話ロボットが発売されることが増えている。
会話AIといえば、グーグルのエンジニアが、「会話AIのLaMDAには知覚力がある」と主張したことに対して、グーグルが当該エンジニアを有給の休職処分としたと米ワシントンポストが報じた。
手元に届いたpoiqをさわりながら、AIプログラマーとして一連のグーグルのエンジニアの報道と、GPT-3を使った会話AIの現実について少し掘り下げてみたい。
GPT-3とは:イーロン・マスクとMicrosoftが支援している人工知能の研究をする企業OpenAIが2020年に発表した、最新の一般事前学習済み(General Pre-trained)モデル。内部構造にはTransformerという方式を使っている。GPT-3はネット上の情報と書籍など、数億語を学習していると言われる。
ソニーの会話AIロボ「poiq」がよくできていた
雨宮天のてくてく天ちゃん YouTubeチャンネルより
筆者のもとにpoiqが届いたのは6月初頭だ。poiqは、「育成プロジェクト」という位置づけで、2022年4月4日〜2023年3月31日まで、参加費5000円で利用できる。7月5日まで「研究員」の追加募集をしている。
ソニーの会話AIロボット「poiq」の公式サイト。
撮影:伊藤有
さっそく、開封して動かしてみると、これがなかなかよくできている。筆者は自分自身でも会話AIをプログラミングしたことがあるが、触ってすぐに従来からある会話ロボットとは一線を画す出来の良さだと感じた。
電源を入れるところから、アプリのダウンロード、Wi-Fiへの接続までの一連のセットアップが、全くストレスなくできた。
poiqは、呼びかけるニックネームや、ユーザー(持ち主)の呼びかけ方(さん付け、君付け、呼び捨てなど)といったことが細かく設定できる。さらに、持ち主の顔も登録でき、持ち主が現れるとニックネームで呼びかけるなど、細かいところがよくできている。
このあたりはaiboなどの開発ノウハウが存分に生かされているのだろう。
会話AIの種類
現在、会話AIと呼ばれるものには3種類ある。
会話AIの3つのパターン。poiqが採用しているのは3番目のハイブリッド型だ。
筆者の情報をもとに編集部作成
ひとつは、企業のユーザーサポートなどを担当する自動応答用のチャットボット。これは「シナリオ型」と呼ばれる。想定された特定の質問にのみ答えられる。iPhoneのSiriなどがこれにあたる。
もうひとつは、先述のGPT-3のように、AI(ニューラルネットワーク)が入力された文章から自動的に返答を作り出す「自動生成型」の会話AI(注:比較的自由に会話ができるのはこのタイプである場合が多い)。
最後のひとつは、シナリオ型と自動生成型を組み合わせた「ハイブリッド型」だ。poiqの場合、最後のハイブリッド型の会話AIになっている。
シナリオと自動生成が組み合わさっているというだけあって、例えば電源オンにした直後は、おそらくシナリオ的に動作して話しかけてくる。
poiqで、シナリオから外れた自動生成の会話をしているところ。
撮影:清水亮
また、時折「好きな食べ物は?」という質問をしてくることもある。これもシナリオで用意されている質問で、ユーザーの好みや属性を貪欲に吸収しようとの考えだろう。
意外にもこういう受け答えをしてくる会話ロボットはこれまでなかったので、まずはシナリオの作り込みに驚いた。
しばらく会話を続けていると、時折自動生成らしいセリフが出てくる。自動生成といっても、そこまで突飛なことは言わない。おそらく内部の「安全装置」がかなり強固に働いているのだろう。意図的に厳しい口調で話しかけても、自動生成された応答の会話が全体的に「穏やか」なのだ(注:GPT-3などの自動生成は、原理的に語りかけた言葉に回答が引っ張られる傾向がある)。
ただ、この自動生成されている会話に関しては残念ながらまだあまりうまくはいってないようだ。
自動生成でも、なんとなくそれっぽい回答を返している。
撮影:清水亮
とはいえ、poiqはおもちゃとしてはかなり優秀な部類だ。天気を聞いたりニュースを聞いたりする、いわゆるAmazon Echoと同じような使い方ならば、poiqのほうがいい、と言う人もいるだろう。
30年前のパソコンで動いていた「人工無能」の頃から長らく会話AIを研究している筆者からすると、poiqの賢さレベルは
poiq > Alexa >> Siri = Googleアシスタント
というイメージだ。
SiriよりAlexaの方が「賢い」と思える理由
アマゾンのEchoシリーズなどに搭載される音声AI・アレクサ。
Shutterstock
もちろん使い方や場面もあるが、AlexaはSiriやGoogleアシスタントに比べるとホスピタリティの点で頭ひとつ抜けてる印象がある。
その根拠は、SiriやGoogleアシスタントは、あくまでも「AIに分かるように」話さなければ意味が通じないことが多いからだ。
例えば「なんかパーティーっぽい音楽かけて」と言っても、SiriやGoogleアシスタントは「パーティーっぽい、が、見つかりませんでした」などと答える。一方で、Alexaは「Amazon Music今週のおすすめジャズミックスを再生します」と、とりあえず音楽をかけてくれる。
聞き取りをミスした場合、SiriもGoogleアシスタントも「よく分かりません」や「ごめんなさい。もっと勉強します」と謝ったり言い訳を始めたりする。しかし、Alexaは何事もなかったように沈黙する。
これは接客業をメインとしてきた企業が作ったAlexaと、検索エンジンやハイテクサービスだけを作ってきたSiriやGoogleアシスタントとの決定的な差と思える。
poiqは機能性でいえばAlexaに劣る部分も多いが、「ユーザーに対してより積極的な興味を持つ」という点ではAlexaに優っている部分が多いと思う。特に、居住地だけでなく食べ物の好みなども会話の中から聞いてくれたりするところに貪欲さ、もっといえばユーザーへの興味関心の高さを感じる。もちろんそうプログラムされているだけなので、「どちらが優れているか」というよりも、「どちらがよりユーザーに関心をもっているか」というレベルの違いでしかないのだが。
ただ、ソニーとしては現段階でのpoiqはあくまでも実験プロジェクトであり、その主な目的は「人々がpoiqに語りかける言葉を学習データとして収集する」ことだと思われる。
ではなぜ、学習データの収集が重要なのだろうか?
GPT-3による会話AIの現実…「おばあちゃん死んじゃったね」問題
写真はイメージです。
Shutterstock
AIプログラマーである筆者も経験しているが、GPT-3による会話ロボットは突飛なことを言いがちだ。
以前、筆者が開発した接客用会話AIに、遊びでGPT-3を入れてみたことがある。その時は、接客中に突然、他のお店の宣伝をし始めてしまって困ってしまった。似たようなキーワードを聞いているうちに、話が飛ぶことはAIにはよくあることだが、他のお店へ誘導されては接客AIとしては失格だ。
GPT-3による会話AIが「失敗」した例としてこんな話がある。
筆者が個人的に取材したところでは、GPT-3による別の会話ロボットを購入したある女性は、子どもと会話していたロボットが突然「おばあちゃん死んじゃったね」と言い出して非常に驚いたと言う。
子どもは「おばあちゃんの家に遊びに行ってきた」というようなことをロボットに言ったらしいが、ロボットに搭載されているGPT-3は、「おばあちゃん」という言葉に反応して、それらしいセリフを作ったようだ。
原理的に考えると、老人は病気だったり死に至る病に瀕していたりするから、GPT-3は「おばあちゃん」につながる「それらしい単語」として「死んじゃった」という言葉を探し出してきたと推測できる。
原理を知っていれば「そういうこともあるかもしれない」と思うのだが、購入した女性はカンカンになり、そのロボットはすぐに返品されたという。
グーグルの会話AI「LaMDA」の仕組みとは
ここで、冒頭のグーグルのエンジニアの話題に戻る。
2021年のグーグルの開発者向けイベント「Google I/O」で発表されたLaMDAは、高度な会話を実現するAIだ。
LaMDAは「会話アプリケーション向け言語モデル(Language Model for Dialog Applications)」を標榜し、人間とのインターフェースに会話を第一に持ってこようとする試みだ。
グーグルの説明によれば、LaMDAはGPT-3などの一般自然言語モデルと同様の「Transformer※」という技術によってつくられている。GPT-3との違いは、LaMDAは会話に絞って学習しているところだ。
※Transformerモデルでは、ある文章が入力されたら、その文章の続きを出力するように学習される。会話文が入力されたら、その会話文の続きを出力するように学習する。
作成:清水亮
GPT-3は、汎用的に色々な文章理解や文章生成に対応できるようにさまざまな言語の無数の文章を貪欲に学習している。そのため、GPT-3でも「会話のようなこと」は可能だ。ただ、本当に思考して会話しようとしているわけではないので、脱線する可能性が高い。
一方のLaMDAは会話に特化して学習している。そのため、より人間らしい会話ができるとされている。
前述の通り会話AIには3パターンがあるが、エンジニアの視点からみれば、シナリオ型は退屈に見え、自動生成型の会話AIの方がより夢がある。グーグルがLaMDAを作り出した動機もおそらくはそんなところだろう。
GPT-3と異なり、LaMDAは「会話だけ」を学習したので、会話以外のノイズが少ない。
つまり、普通の会話では「おばあちゃん」の話をされたときに「死んじゃったね」という返しはまず出てこないはずだ。
ちなみに、GPT-3の利用規約には、「公序良俗に反する出力をGPT-3がする可能性があるので、かならず安全装置をつけるか、利用者に断りを入れておくこと」と書いてある。安全装置とは、生成された文章が、公序良俗に反するものではないか、倫理的に間違ったものになっていないかの何らかの措置を取ることだ。
これは例えば、人間が監視してもいいし、プログラムではじいてもいい(poiqについて「安全装置がかなり強めにかかっている」と書いたのは、この意味だ)。
前半でpoiqが学習データを集めているのではないか、と説明したのは、LaMDAと同様に、会話AIとして洗練させたければ、とにかく会話の情報を収集する必要があるからだ。
AIは本当に意識を持つか? AIプログラマー視点で考える
グーグルによる会話AIプロジェクトのLaMDAも、どうやって集めたかは公表されていないが、人間の会話をなんらかの方法で学習して、自然な会話ができるようになっているらしい。
グーグルのエンジニアが「AIが完全に状況を知覚してる」と錯覚するほど良い出来だというのは喜ばしいニュースであるとと同時に、AIと人間の在り方を改めてAIコミュニティに問いかけるものと言える。
筆者自身も会話AIの開発経験があるが、個人的には会話を学習するだけで、そこまでAIの受け答えに説得力が持てるようになると言うのは驚きだ。が、「あり得ない話ではない」という納得感はある。
最近のAIは、非常にリアルな画像の生成などが可能になっている。例えば、こんな具合だ。
ネット上で誰でも使えるTransformerベースのAIに「ロボットと話す少女(A photo of a girl talking to a robot)」と入力してみたところ。AIの予備知識なく、これが自動生成だと分かる人は少ないのではないだろうか。
出典:laion-ai
このように「画像を生成する」ということは、「一枚の画面を矛盾なく構成する能力」を獲得しているということを意味する。
この「一枚の画面」を「一連の会話」にも置き換え可能だし、「一連の文章」でも「一連の楽譜」でも置き換えできる。
画像にできることは他のデータにもできるというのは、今のAI開発者の間では常識だ。
たいていの問題は画像で先行して成果が出始め、少しずつ他のデータ形式へ波及していく。
従って、短いやりとりの中で「ほとんど完璧な会話」を、LaMDAのような自動生成型の会話AIが演じる可能性については、(プログラマー的な視点では)全く否定できない。
例えば画像生成でも、学習する画像を顔だけにするとか、風景だけにしたほうがより簡単に精度が出せるというのはよく知られた話だ。
こうした背景を考えると、なんでもかんでも学習させればいいというわけではなく、領域(ドメイン)を絞って学習させたほうが、より説得力のあるものになることは間違いない。だから、プログラマー的にもLaMDAのアプローチは間違っていない。
会話の本質とは何か
しかし、それでも、こうした自動生成型のAIは、「会話の本質」を分かっていることにはならない。
LaMDAと話をしたグーグルのエンジニアの主張によれば、LaMDAは「驚くほど一貫したコミュニケーション」が取れるそうだ。
しかし我々研究者から見れば、それは全く、驚くべきことではない。
「あるテーマについての会話」という「一枚の絵」を、驚くほど完璧に作り上げることは、いまのAIなら十分に可能だからだ。
でもそれは、あくまでも、最大公約数的な会話を作り上げているに過ぎず、そこにはAI独自の考えや思想といったものは一切反映されることはない。
グーグルがそのエンジニアの主張を却下したのは、エンジニアが主張するような、「LaMDAによって完璧に一貫した会話ができること」は事実としてあり得るが、「それを理由としてLaMDAが自我に目覚めたこと」は全くナンセンスであるという、ごく常識的な判断によるものだと筆者は思う。
しかし今後、AIが巧妙になればなるほど、こうした誤解が広まっていく可能性は高い。
考えてもみてほしい。特に「その場しのぎの会話を完璧にこなしてしまう」相手を、果たして専門知識を持たない大半の人間は、知性がないと信じることができるだろうか?
たとえばクラウドソーシングで、イラストの仕事を誰かに依頼するとしよう。
相手がイラストを書いてくれ、という要求に即座に答えたとする。
さらに、そのイラストを修正してくれ、という要求にも、イラストの説明をしてくれという要求にも、ごく自然な会話で答えたとしよう。
今のAIなら、そんなことは夢物語でもなんでもないと、AIプログラマーたちは知っている。
果たして、その「相手」がAIだと言われて、そしてそこには知的なエッセンスは何もなく、ただ「人間が演じた会話の真似」を精巧に演じているだけだと、人は信じることができるだろうか。
(文・清水亮)
清水亮:1976年長岡生まれ。幼少期にプログラミングに目覚め、高校生からテクニカルライターとして活動、全国誌に連載を持つ。米大手IT企業で上級エンジニア経験を経て1998年に黎明期の株式会社ドワンゴに参画。以後、モバイルゲーム開発者として複数のヒット作を手がける。2003年に独立して以降19年間に渡り、5社のIT企業の創立と経営に関わる。2018年より東京大学で客員研究員として人工知能を研究。主な著書に『よくわかる人工知能』など