1000台超のPS4で強化学習。ソニーのAI「Sophy」は何がすごいのか…グランツーリスモの未来

race03

グランツーリスモでeスポーツトップドライバーと、AIドライバーである「Sophy」が対戦する様子。

オンライン会見を筆者キャプチャー

ソニーが開発した「AI」が、プロのeスポーツ・レーサーに勝利した。

その名は「Grand Turismo Sophy(ソフィー、以下Sophy)」。

2020年にソニーが設立したAIの基礎研究機関である「ソニーAI」と「グランツーリスモ」シリーズを開発するポリフォニー・デジタル、ソニー・インタラクティブエンタテインメント(SIE)との共同開発だ。3月4日より発売される最新作「グランツーリスモ7」にも、アップデートでの追加搭載が決まっている。

囲碁や将棋でAIが人間に勝つ時代、ゲームでAIが人間に勝つのは当たり前……。

そう思う人がいるかもしれない。

だが、ソニーAI・COO(最高執行責任者)のミカエル・ シュプランガー氏はSophyの成果が「人工知能における画期的な進化だ」と説明する。

ソニーAI・COO(最高執行責任者)のミカエル・ シュプランガー氏

ソニーAI・COO(最高執行責任者)のミカエル・ シュプランガー氏。

オンライン会見を筆者キャプチャー

nature

Sophyの開発については、イギリスの科学誌「ネイチャー」2月10日号にも掲載された。

出典:nature

SophyはゲームのAIをどう変化させるものなのだろうか? なにより、ソニーはなぜ、グループの力を結集し「ゲームのAI」を作ったのだろうか?

速いだけでなく「人とライバルになれる」AI

山中智瑛氏

Sophyと対戦した山中智瑛氏。グランツーリスモの世界大会で優勝経験を持つ、eスポーツ・トップドライバーの一人。

オンライン会見を筆者キャプチャー

「今までAIと戦って『勝ちたい』と思ったことは一度もないんですが、今回は『絶対に抜かれたくない』という気持ちが湧いてきました。良いライバルが生まれた」(山中氏)

グランツーリスモを中心に活躍するeスポーツ選手で、「FIAグランツーリスモ・チャンピオンシップ2019」ワールドチャンピオンでもある山中智瑛氏は、プレスイベント内でSophyとのレースを終え、そう感想を述べた。

過去、レースゲームの「敵車」は、邪魔者のような存在だった。決まったラインの上をあまりずれずに走ることが多く、一緒に走るドライバーへの「配慮」もない。車のぶつけ合いになってしまうこともあり、トップレーサーでなくても「レースを楽しむ相手」とは言えない。

だが、筆者が見る限り、Sophyが操る敵車の動きはそうではなかった。

プレスイベントでは、厳しく攻め合うレースらしい軽い接触はあるものの、それ以上の接触はなし。非常に見応えのあるレースが展開された。見ていた筆者も、一瞬「人間とAIのレース」であることを忘れたくらいだ。

race02

山中智瑛氏がSophyと対戦する様子

オンライン会見を筆者キャプチャー

「人と同じ条件で、人と協調しつつ、人よりも速く車を走らせる」

これが、今までのレースゲームAIとSophyとの大きな違いと言っていい。

グランツーリスモを開発する、ポリフォニー・デジタル 代表の山内一典氏は、「グランツーリスモのAIは、人間と同等か、それ以上に速いことが求められる」としつつも、「AIが人に勝つことを目標に開発したのではない。それではつまらない」と話す。

ポリフォニー・デジタル代表の山内一典氏

ポリフォニー・デジタル代表の山内一典氏。グランツーリスモ・シリーズの生みの親でもある。

オンライン会見を筆者キャプチャー

「レース中はシチュエーションが刻一刻と変化します。そんな中で常に妥当な振る舞いを見せること、人間から見てその振る舞いが自然に見えること、これがすごく重要。そうしたことは、これまでのAIでは難しかった」(山内氏)

人とフェアな戦いをして勝つAIであることこそ、Sophyがもたらしたブレイクスルーだ。

ゲームAIが「ドライビングの教科書を書き換える」可能性

さらに山内氏は「Sophyのあとは、レースドライビングの教科書が変わるかもしれない」と話す。Sophyの走り方が、いわゆる「教科書的」ではなかったからだ。

「ドライビング入門では、『コーナーはスローイン・ファストアウト(減速してゆっくりコーナーに入り、加速して素早く抜ける)にしましょう』と学びます。しかし、Sophyはそういう走り方をしません」(山内氏)

調べてみると、Sophyは前のタイヤ2本と後ろのタイヤ1本を同時にうまく使い、「曲がりながら減速する」。結果として、スローイン・ファストアウトではなく「ファストイン・ファストアウト(速く入って速く出る)」を実現している。

人間には難しいコントロールなのだが、それでも、実際にやっている人々もいることが見えてきた。それは、F1のトップドライバーたちだ。

「Sophyの走りを分析できた目でみると、(F1ドライバーの)ルイス・ハミルトンやマックス・フェルスタッペンも、同じようにうまくリアタイヤを使っている」(山内氏)

このAIをゲームの中に組み込むことで、「プレイヤーのドライビングテクニック向上を助けられるのではないか」と山内氏は話す。

強化学習で30万キロ相当の走り込み。「フェア精神」も学ぶ

このような特性を持つSophyは、テクノロジー的にも先端技術を使っている。用いられたのはディープラーニング技術の1つ「深層強化学習」だ。

従来のゲームAIは、一般に「ルールベース」と呼ばれる、人の手で作られたアルゴリズムだった。コースのどこでどのようなことが起きたらどう操作するのか……という運転の流れを、人間がルールを作ってプログラミングしていた。

開発は比較的容易だが、その場その場で無限の選択肢を選ばなければならない「敵車」AIで使うには挙動の自然さには限界がある。だからレースゲームでは、敵車は「障害物」だと言われ続けてきた。

「深層強化学習」を使うことで何が変わるのか。

深層強化学習では、よく画像認識や音声認識を実現するために行われている、正解が分かっているデータ(教師データ)を学ぶわけではない。実際にAIにコースを走らせ、運転の仕方が「良いドライビング」で「速いタイム」につながると、AIに対して「報酬」を与える。AIは試行錯誤しながら、より多くの報酬を得られるように、良いドラビングを学んでいく。

この手法はゲームだけでなく、実車を使った自動運転の開発にも使われている手法だ。

reinforcement_leannig

Sophy開発に使われた「深層強化学習」の概念図。Rewardと描かれているのが文中の「報酬」にあたるもの。人間に例えれば「褒められる」あるいは「利益を得る」ことにあたる。

オンライン会見を筆者キャプチャー

ポイントは、大量の機器を使い、効率的に学習を繰り返すところにある。

学習用には1000台以上のプレイステーション4が使われた。それぞれでSophyが1台ずつ、もしくはSophy同士のレースという形で、決められたコースをひたすら走る。その様子は全て記録され、学習に使われていく。

そうした学習環境の上で、Sophyがちゃんとコースを走れるようになるまでに、(1000台で学習して)1日かかる。そこからさらに2日走り続けると、「全プレイヤーの上位10%」(シュプランガーCOO)まで達する。さらに10日から14日間、ひたすら走り込みによる学習を繰り返す。結果として総走行距離は30万kmにもおよび、今回のテストレースで人間のトップドライバーと競えるようなAIへと成長する。

面白いのは、初期と今とでは、レースの「公正さ」が変わっていることだ。

初期のSophyは、他のレーサーにラインを譲らず、ぶつかることも辞さない「荒れた」走りだった。だが、AIに学ばせるための「報酬」設計をするなかで、「レースをする上でのフェアさ」を加味した結果、人間と協調し、参加するドライバーが「楽しい」と思えるAIへと、Sophyは成長していったという。

Popular

あわせて読みたい

BUSINESS INSIDER JAPAN PRESS RELEASE - 取材の依頼などはこちらから送付して下さい

広告のお問い合わせ・媒体資料のお申し込み