ゲームAI開発者の三宅陽一郎氏(右)とゲームクリエイターの斎藤由多加氏(左)
写真:香川博人
音声アシスタントを搭載したスマートスピーカーが注目を集めています。
一声かければ、天気予報や料理のレシピ、言葉の意味を調べたり、家電製品をコントロールしたり、リマインダーとして活用できるので、実用性があるのは事実です。しかし、現時点でやっていることは、スマホやパソコンを使ったネット検索やリモコンの操作を音声に代替しただけ。では、人工知能による音声会話は今後、どのような進化を遂げるべきなのでしょうか。
そこで、「会話する人工知能たちの未来」をテーマに、ゲームAI開発者の三宅陽一郎氏とゲームクリエイターの斎藤由多加氏が登壇したトークイベントから、気になるキーワードを抽出。ゲームの視点から、会話する人工知能と私たち日本人との新しい関係について探ってみました。
※このトークイベントは、三宅陽一郎氏の著書『なぜ人工知能は人と会話できるのか』の刊行記念として、青山ブックセンター本店にて開催されました。
言葉の外側にあるメカニズムが言語の源泉
三宅 陽一郎(みやけ・よういちろう)。ゲームAI 開発者。京都大学で数学を専攻、大阪大学(物理学修士)、東京大学工学系研究科博士課程(単位取得満期退学)。2004 年よりデジタルゲームにおける人工知能の開発・研究に従事。IGDA 日本ゲームAI 専門部会設立(チェア)、日本デジタルゲーム学会理事、芸術科学会理事、人工知能学会編集委員。著書『なぜ人工知能は人と会話できるのか』(マイナビ出版)ほかがある。
写真:香川博人
三宅氏:今の言語研究は、言語しか見ていない場合が多い。Twitterのツイートを学習してしゃべらせようとしていますが、うまくいかない。言語とはファンクショナル(機能的)なもので、たとえば、鬼ごっこで人にタッチするのと、まったく違う状況で人にタッチするのでは意味が違うことと同じです。
言語自体に意味があるのではなく、言葉にしたときの状況や環境など、言語の外にあるさまざまなメカニズムが言葉に意味をもたらす源泉だからです。
なぜ、ゲームの世界では会話が成立するのか?
斎藤氏:ゲームは現実社会から多くのものをそぎ落とし、特定の要素のみを浮き彫りにすることで、ゲーム性を強めることができます。
ではなぜ、そうしても、ゲームではプレイヤー同士のコミュニケーションが成り立つのか?それは、ゲームが言語化するからです。プレイヤーが同じ利得を共有するので、そこで交わされるアイテムやコマンドが限定的となり、言語化していくことができるのです。
逆にいえば、チェスや将棋のように、言葉が通じなくてもお互いの意図が伝わり、性格をうかがい知ることができる。それがゲームだと思います。私は人工知能の会話システムをつくるにも、最初は発話の話題を限定して、目的を持った会話として、会話をゲーム化することでより自然な会話を探求しやすくなると思っています。
省略と強調がつくりだす言葉のメロディーが会話を成立させる
斎藤氏:おもしろい話は、聞いているだけで楽しく、心地よい時間が過ごせます。しかし、その話を文字に書き起こしてみると、何を言っているのかがわからないことがあります。
一方、国会答弁のように書かれた文字をそのまま読み上げても、聞いている人は退屈で頭に入ってこない。
では、なぜ退屈になるのか? それは、会話の中に省略がないからです。
省略は強調の裏返しで、たとえば「うるせぇよ!」と、誰に対して、その理由を語らなくても、一言で「静かにしろ!」という意味が相手に伝わります。
もっと言えば、「おまえ、昨日キスしたの? 〇〇さんと」と聞いたとします。
「おまえ」を強調すると「俺じゃないよ、〇〇だよ」と、「昨日」を強調すると「昨日じゃないよ、先週だよ」と答えるかもしれない。
言葉を1文字も変えずに、アクセントを変えるだけで、伝わる中身、返ってくる言葉がまったく違ってくる。
省略と強調が会話のリズムを生み出してメロディーになる。そして、そのメロディーが情報を持つ言葉になるわけです。
斎藤 由多加(さいとう・ゆたか)。早稲田大学理工学部建築学科卒業後、株式会社リクルートを経て1994年オープンブック株式会社を創業。『The Tower』『シーマン ~禁断のペット~』などの作品を開発したことで知られる。2014年大手住宅メーカーの『喋る家』開発など先端技術分野に関与。2017年シーマン人工知能研究所設立(所長)。日本語口語の会話エンジンの開発を行なっている。アップル日本上陸の軌跡を綴ったノンフィクション「林檎の樹の下で」(復刊、光文社)ほか著書多数。
写真:香川博人
人工知能は、自分からルールをつくることができない
三宅氏:私たちゲーム開発者は、いろいろな世界観を抽象化して、ルール化して、言語化してゲームをつくっています。なぜなら、人間にとって言語が一番わかりやすいコミュニケーションであり、言語は同じ環境、同じ生物であれば了解を得やすい便利なツールだからです。
しかし、人工知能は自分でルールをつくることも、問題をつくることも、言語構造をつくることもできません。なぜなら、人工知能がそこまで1つの世界に深く入り込み、言語やルールの構造を抜き出すだけの能力がまだないからです。
日本語の会話には、文法が存在しなかった?
斎藤氏:書き言葉による文法はあるかもしれませんが、日本語の会話には、明確な文法が存在しているのか。存在しなくても、なにかの規則性があるのではないか?
わかりにくいたとえかもしれませんが、レッド・ツェッペリンのかっこいい曲、『Rock and Roll』 のイントロは、変則的なドラムではじまります。どうやって覚えればよいのか、プロミュージシャンに聞くと「あのまんま、覚えるしかない」と教えてくれました。そのドラムの音には何拍子などの規則性がないんです。
このときの「あのまんま」という言葉がずっと心に響いて、日本語口語の会話エンジンを開発しているシーマン人工知能研究所では、日本語の会話における活用形を探っています。
「食べ過ぎてんじゃねぇよ」というのは、「食べる」の活用形なので、“このまんま”活用形にしてみると、「食べる・食べるとき・食べるから・食べ過ぎてんじゃねぇよ」みたいな。
そう考えると、1つの動詞だけでも活用形の数がものすごく多くなる。でも日本人は、それを理解しているから日常会話が成立しているわけです。
Windows 95の日本語パートが、日本人にしかつくれなかった理由
斎藤氏:人工知能の分野では、外国勢の勢いが凄まじく、日本は劣勢と言われています。しかし、MicrosoftのWindows 95を開発する際、日本語パートは日本人にしかできなかったわけです。ラストワンマイルは日本人にしかできない。先ほどの「食べ過ぎてんじゃねぇよ」を私なりに文法化すると、食べるの命令形+否定形のレベル4なんですが、こうした表現がいろいろな国々にあるので、日本人にしかわからないわけですよ。だから私は、人工知能における日本語会話を突き詰めてみたいわけです。
キャラクター文化と人工知能の文化は融合していない
「日本語の会話には、相手を敬ったり、忖度したり、“ここまで言っては失礼かも”といった距離感が存在します。繊細な言語にはグラデーションが多い」(斎藤氏)
写真:香川博人
三宅氏:日本では、キャラクター文化が根強く、自治体のキャラから初音ミク、斎藤さんが開発したゲーム「シーマン」など、時と場所を問わずキャラクターがそこらじゅうに溢れています。
そして、私たち日本人は、キャラクターと自分たちを同列においています。すぐに上下関係をつけたがる海外の価値観とはまった違うわけです。
これは海外発の人工知能も同じで、簡単に言えば、人間のサーヴァント(召使い)。「これやって」「あれやって」と命令が多く、キャラクター文化と人工知能文化が融合していない。
この、海外と日本との違いを考えてみると、日本語の会話は、言語自体にフレンドリーな意味合いが内在している、特有の言語ではないかと思っています。
斎藤氏:それは、日本人が一番気づくべきことなんです。日本映画の「お控えなすって」のセリフが、海外の英語字幕では「How do you do?」になってしまう。日本語の会話には、相手を敬ったり、忖度したり、“ここまで言っては失礼かも”といった距離感が存在します。繊細な言語にはグラデーションが多いわけです。
私たち自身がこの点をもっと認識して、活用していく時代になったのではないかと思っています。音声アシスタントに「明日、ロサンゼルス行きのチケットを取ってください」なんて言わなくてもいいわけです。「取れよ、早く」「そんなに強く言わないでくださいよ」と、会話が成立するものをつくりたいですね。
「食べる」の活用形についての話は、納得しつつもおもわず笑ってしまいましたが、確かに私たちが話す言葉にはメロディーがあります。そして、日本人がロボットでも、スマートスピーカーでも、同列に感じているということは、私たちが話す言葉のメロディーと同じように返してくれないと会話は成立しづらいのかもしれせん。
人工知能が日本語による会話のやりとりをどこまで理解して、相手の感情や忖度までも踏まえて、言葉や使い方を選ぶことができるのか。ハードウェアは海外製であっても、日本語会話エンジンは、日本人にしかつくれないので、その日がやってくるのを待ちたいと思います。
取材協力: 青山ブックセンター本店
ライフハッカー[日本版]より転載(2018年12月6日公開の記事)