グランツーリスモでeスポーツトップドライバーと、AIドライバーである「Sophy」が対戦する様子。
オンライン会見を筆者キャプチャー
ソニーが開発した「AI」が、プロのeスポーツ・レーサーに勝利した。
その名は「Grand Turismo Sophy(ソフィー、以下Sophy)」。
2020年にソニーが設立したAIの基礎研究機関である「ソニーAI」と「グランツーリスモ」シリーズを開発するポリフォニー・デジタル、ソニー・インタラクティブエンタテインメント(SIE)との共同開発だ。3月4日より発売される最新作「グランツーリスモ7」にも、アップデートでの追加搭載が決まっている。
囲碁や将棋でAIが人間に勝つ時代、ゲームでAIが人間に勝つのは当たり前……。
そう思う人がいるかもしれない。
だが、ソニーAI・COO(最高執行責任者)のミカエル・ シュプランガー氏はSophyの成果が「人工知能における画期的な進化だ」と説明する。
ソニーAI・COO(最高執行責任者)のミカエル・ シュプランガー氏。
オンライン会見を筆者キャプチャー
Sophyの開発については、イギリスの科学誌「ネイチャー」2月10日号にも掲載された。
出典:nature
SophyはゲームのAIをどう変化させるものなのだろうか? なにより、ソニーはなぜ、グループの力を結集し「ゲームのAI」を作ったのだろうか?
速いだけでなく「人とライバルになれる」AI
Sophyと対戦した山中智瑛氏。グランツーリスモの世界大会で優勝経験を持つ、eスポーツ・トップドライバーの一人。
オンライン会見を筆者キャプチャー
「今までAIと戦って『勝ちたい』と思ったことは一度もないんですが、今回は『絶対に抜かれたくない』という気持ちが湧いてきました。良いライバルが生まれた」(山中氏)
グランツーリスモを中心に活躍するeスポーツ選手で、「FIAグランツーリスモ・チャンピオンシップ2019」ワールドチャンピオンでもある山中智瑛氏は、プレスイベント内でSophyとのレースを終え、そう感想を述べた。
過去、レースゲームの「敵車」は、邪魔者のような存在だった。決まったラインの上をあまりずれずに走ることが多く、一緒に走るドライバーへの「配慮」もない。車のぶつけ合いになってしまうこともあり、トップレーサーでなくても「レースを楽しむ相手」とは言えない。
だが、筆者が見る限り、Sophyが操る敵車の動きはそうではなかった。
プレスイベントでは、厳しく攻め合うレースらしい軽い接触はあるものの、それ以上の接触はなし。非常に見応えのあるレースが展開された。見ていた筆者も、一瞬「人間とAIのレース」であることを忘れたくらいだ。
山中智瑛氏がSophyと対戦する様子
オンライン会見を筆者キャプチャー
「人と同じ条件で、人と協調しつつ、人よりも速く車を走らせる」
これが、今までのレースゲームAIとSophyとの大きな違いと言っていい。
グランツーリスモを開発する、ポリフォニー・デジタル 代表の山内一典氏は、「グランツーリスモのAIは、人間と同等か、それ以上に速いことが求められる」としつつも、「AIが人に勝つことを目標に開発したのではない。それではつまらない」と話す。
ポリフォニー・デジタル代表の山内一典氏。グランツーリスモ・シリーズの生みの親でもある。
オンライン会見を筆者キャプチャー
「レース中はシチュエーションが刻一刻と変化します。そんな中で常に妥当な振る舞いを見せること、人間から見てその振る舞いが自然に見えること、これがすごく重要。そうしたことは、これまでのAIでは難しかった」(山内氏)
人とフェアな戦いをして勝つAIであることこそ、Sophyがもたらしたブレイクスルーだ。
ゲームAIが「ドライビングの教科書を書き換える」可能性
さらに山内氏は「Sophyのあとは、レースドライビングの教科書が変わるかもしれない」と話す。Sophyの走り方が、いわゆる「教科書的」ではなかったからだ。
「ドライビング入門では、『コーナーはスローイン・ファストアウト(減速してゆっくりコーナーに入り、加速して素早く抜ける)にしましょう』と学びます。しかし、Sophyはそういう走り方をしません」(山内氏)
調べてみると、Sophyは前のタイヤ2本と後ろのタイヤ1本を同時にうまく使い、「曲がりながら減速する」。結果として、スローイン・ファストアウトではなく「ファストイン・ファストアウト(速く入って速く出る)」を実現している。
人間には難しいコントロールなのだが、それでも、実際にやっている人々もいることが見えてきた。それは、F1のトップドライバーたちだ。
「Sophyの走りを分析できた目でみると、(F1ドライバーの)ルイス・ハミルトンやマックス・フェルスタッペンも、同じようにうまくリアタイヤを使っている」(山内氏)
このAIをゲームの中に組み込むことで、「プレイヤーのドライビングテクニック向上を助けられるのではないか」と山内氏は話す。
強化学習で30万キロ相当の走り込み。「フェア精神」も学ぶ
このような特性を持つSophyは、テクノロジー的にも先端技術を使っている。用いられたのはディープラーニング技術の1つ「深層強化学習」だ。
従来のゲームAIは、一般に「ルールベース」と呼ばれる、人の手で作られたアルゴリズムだった。コースのどこでどのようなことが起きたらどう操作するのか……という運転の流れを、人間がルールを作ってプログラミングしていた。
開発は比較的容易だが、その場その場で無限の選択肢を選ばなければならない「敵車」AIで使うには挙動の自然さには限界がある。だからレースゲームでは、敵車は「障害物」だと言われ続けてきた。
「深層強化学習」を使うことで何が変わるのか。
深層強化学習では、よく画像認識や音声認識を実現するために行われている、正解が分かっているデータ(教師データ)を学ぶわけではない。実際にAIにコースを走らせ、運転の仕方が「良いドライビング」で「速いタイム」につながると、AIに対して「報酬」を与える。AIは試行錯誤しながら、より多くの報酬を得られるように、良いドラビングを学んでいく。
この手法はゲームだけでなく、実車を使った自動運転の開発にも使われている手法だ。
Sophy開発に使われた「深層強化学習」の概念図。Rewardと描かれているのが文中の「報酬」にあたるもの。人間に例えれば「褒められる」あるいは「利益を得る」ことにあたる。
オンライン会見を筆者キャプチャー
ポイントは、大量の機器を使い、効率的に学習を繰り返すところにある。
学習用には1000台以上のプレイステーション4が使われた。それぞれでSophyが1台ずつ、もしくはSophy同士のレースという形で、決められたコースをひたすら走る。その様子は全て記録され、学習に使われていく。
そうした学習環境の上で、Sophyがちゃんとコースを走れるようになるまでに、(1000台で学習して)1日かかる。そこからさらに2日走り続けると、「全プレイヤーの上位10%」(シュプランガーCOO)まで達する。さらに10日から14日間、ひたすら走り込みによる学習を繰り返す。結果として総走行距離は30万kmにもおよび、今回のテストレースで人間のトップドライバーと競えるようなAIへと成長する。
面白いのは、初期と今とでは、レースの「公正さ」が変わっていることだ。
初期のSophyは、他のレーサーにラインを譲らず、ぶつかることも辞さない「荒れた」走りだった。だが、AIに学ばせるための「報酬」設計をするなかで、「レースをする上でのフェアさ」を加味した結果、人間と協調し、参加するドライバーが「楽しい」と思えるAIへと、Sophyは成長していったという。
ゲームAI開発環境がソニーの差別化要因に
Sophyの学習にはSIEのクラウドゲーミング・サービス「PlayStation Now」のインフラが活用された。
オンライン会見を筆者キャプチャー
こうした学習を効率的に行うための1000台以上のプレイステーション4をどうやって調達したのか。
ここで使われたのが、SIEのクラウドゲーミング・サービス「PlayStation Now(PS Now)」のインフラだ。このインフラがあったからこそ1000台以上によるAIの学習ということが効率よく進められた。
「このプロジェクトは、ゲーム向けの大規模なAIトレーニングに、PlayStationのクラウドインフラが効果的に活用できる可能性を示している」(ソニーグループ吉田憲一郎氏)
ソニーグループ・吉田憲一郎会長兼社長はそう説明する。
ソニーグループ・吉田憲一郎会長兼社長。
オンライン会見を筆者キャプチャー
ゲームを高度化していくには、人を楽しませるAIの存在も必要になる。レース以外のゲームAI開発にも、Sophyで培ったノウハウとアプローチを活用できる可能性は高い。PS Nowを使ったAI開発は、ゲームプラットフォーマーとしてのソニーの強みとなる可能性につながるわけだ。
もちろん、強化学習の開発は、ゲームに限らず、ソニーのAI開発にとって重要な基礎研究でもある。
Sophyによってドライビングの教科書が変わるような影響が出るなら、Sophyそのものを自動運転に使うことはできないのだろうか? ちょうどソニーは、電気自動車への参入検討を発表したばかりでもある。
この問いに、シュプランガーCOOは「Sophyは実車を想定した開発を行なっていないので、どうなるかわからない」と答える。
グランツーリスモは「ドライビング・シミュレータ」を標榜するリアルなゲームだが、現実を完全に模したものではない。現実との違いがどう影響するか分からない……と保守的に答える理由もよく分かる。
一方で、こうも付け加えた。
「でも、いくらテストしても自動車が壊れることがない、というのは、この手法のメリットですよね。なにしろ、シミュレーションですから」(ソニーAIシュプランガーCOO)
(文・西田宗千佳)