ヤフーのスパコン「kukai」。スーパーコンピューターのシステムを丸ごと非導電性の特殊な冷却液(フロリナート)に浸して冷却する液浸冷却を採用している。
Yahoo! JAPAN
Yahoo! JAPAN(以下、ヤフー)は6月19日、独自のスーパーコンピューター「kukai(空海)」でスーパーコンピュータの省エネ性能を競う世界的ベンチマークの1つ「Green500」で世界2位になったことを発表した。
このkukai、あまり詳細に語られていない部分も多く、謎が多いスパコンだ。たとえば、日本の産業界ではまだ実用化の例が少ない、スパコンを丸ごと特殊な冷却液(フロリナート)に浸す技術"液浸冷却"を使っており、さらに技術実装には研究機関向けのスパコン開発で知る人ぞ知る齊藤元章氏率いるスパコンベンチャー・PEZY Computing(千代田区神田)の関連企業ExaScaler(エクサスケーラー)社が関わっている。
省エネ性能重視のスパコンをなぜヤフーが開発するのか? 予算規模は? そしてなにより、AI発展の起爆剤である深層学習に使うと公表している、その具体的な用途は何なのか? AIプログラマーの清水亮氏と、Business Insider Japanがヤフーのスパコン担当者を直撃した。
角田直行氏(左、Yahoo! JAPAN データ&サイエンスソリューション統括本部テクニカルディレクター)、宮崎崇史氏( Yahoo! JAPAN データ&サイエンスソリューション統括本部事業開発本部)
世界2位の"プライベート"スーパーコンピューター「kukai」、驚くべきその価格
—— 今回のGreen500で世界2位、というニュースは、耳の早いIT業界の中でも「え? ヤフーがスパコン?」という反応だったと思います。
清水 ヤフーさんが「液浸冷却」という特殊なスーパーコンピューターに挑戦すること、それから社内に超高速の計算資源を持つ、ということが今回のニュースの重要なポイントだと思ってます。この「kukai」ですが、そもそも導入の検討はいつごろから始まったんでしょうか。
角田 検討は数年前から調査レベルですが、小さく行なっていました。本格的にプロジェクトがスタートしたのは、2015年の年末くらいです。
—— では、まず「社内にスーパーコンピューターを設置しよう」というスパコンありきで検討が始まったんですか。
角田 当初はディープラーニングに向けた最適な環境を作ろうというところから、企画がスタートしていました。ディープラーニングに最適なプロセッサーというとGPUですから、GPUベースの環境を作ろうと。
その後具体的なシステム設計の検討に入っていくと、結果的にスパコンに近い構成になることが見えてきた。それで、「ヤフーらしい、良いスパコンを作ろう」というプロジェクトがスタートしたのが2015年末です。
ただ、当初は規模としてはかなり大きなものを想定していました。
—— その当初の大きなシステムっていうのは、どういった水準の性能をイメージしていたんでしょう?
角田 当初、想定していたのはですね、例えば東京工業大学さんの「TSUBAME2.5」のような規模のスパコンですね。
清水 え! あの規模のスパコンを民間企業が持とうとしていたということですか。
角田 そうですね。ですが、TSUBAME級のものをイチから作るとなると構築に非常に時間がかかってしまいます。世間の深層学習(ディープラーニング)や、AIの進展が加速度的に上昇してきている中で、何年後かに実働を始めるのでは遅すぎる。
我々はビジネス用途として使うという目的がありますから、どうしても費用対効果を考えた時に、スモールスタートで始める方がいいという結論になりました。そこで2016年8月ごろに、ダウンサイジングの方向転換を決め、そこから半年かけて、2017年の3月末に完成しました。
省電力性を競うGreen500へのチャレンジは、"ヤフーのスパコンの性能を客観的に示す指標になる"という意味でのチャレンジでした。
TSUBAMEシリーズは、2006年から東京工業大学が東工大のシンボルとしてバージョンアップを続けているスーパーコンピューター。2013年に登場したTSUBAME2.5は、当時、スパコンの処理速度ランキングTOP500で世界11位、省エネランキングであるGreen500で世界6位の性能。単精度演算の性能としては日本最速(当時)のスパコン。
清水 壮絶な話ですね。当初目標のTSUBAME2.5って、ウン十億規模なんじゃないですか? せっかくなのでぜひお聞きしたいんですけど、そこからダウンサイジングした「kukai」、一体どれくらいの予算だったんですか。
角田 ざっくり言って、4億円くらいです。
清水 4億円。それって、「スパコンの社内導入」ってことで考えると意外とリーズナブルじゃないですか。
角田 はい。この金額には、設備投資やExaScalerさんの液浸冷却システムを設置するにあたって必要な、データセンター側の工事や、保守費用も丸っと含めた金額です。
世界有数の性能を「スグに使い始められる」ことにこだわった設計
—— 清水さんは、AIのプログラマーとして、「kukai」のどういう部分が気になっていますか?
清水 リリースには「225倍の性能になった」とありますが、具体的には何と比較してなんでしょう?
宮崎 そこの計算は今の社内環境に比較しての理論上の性能の差ということです。
清水 なるほど。また、一般読者には少し専門的になりますが、採用しているNVIDIAのGPUの「Tesla P100」は、"NVLINK"(※)の仕組みが重要な機能だと言われています。あれは入っているんですか。
角田 いえ、NVLINKは入れてないです。
清水 使っていない、なるほど。ということは、文字どおりサクサクとスピード感を持って最前線に導入できるところを目指しているという感じなんですね。
角田 と、いうことです。
—— 機材導入の時の議論で、そもそもNVIDIAが販売する深層学習スパコン「DGX-1」(12万9000ドル、約1433万円)を素直に買おう、という話もありえたと思うんです。でも、実際は自社でスパコンを構築することに決めた。その理由はなんでしょう。
角田 もちろんDGX-1のような空冷方式や、あるいは今回のGreen500で1位をとったTSUBAME 3.0の水冷方式、今回我々が採用した液浸冷却方式など、色々な冷却方式の模索をしました。しかし、せっかくヤフージャパンがスパコンに取り組むのだから、チャレンジングな取り組みをしようと。
液浸冷却のスパコンというのは、実用的なビジネスの世界で使われた例はほぼないと認識してます。これがうまく実現できたら、ヤフーにとっても大きな武器になります。
清水 液浸冷却のメリットって実用的に考えた場合どのようなことがありますか。
角田 液浸冷却の大きなメリットである"電力効率の良さ"ですね。電力コストが大幅に削減できます。
清水 システム丸ごとをフロリナートに浸けて冷却するわけですから、空調費が大幅にカットできると。
—— 消費電力って液浸にすることで空冷の場合に比べて現実的な試算としていくらくらい電力コストが浮くんでしょう?
角田 kukaiと同等のGPUサーバーと比べて、だいたい15%くらい電力効率が上がると試算しています。産業として割に合うコストなのか? という点は、今後の実用次第ですが。ただ、スパコンの規模が大きくなればなるほど、この電力効率の良さはコストメリットとして効いてきますから。
清水 15%の電気代削減ができたら、相当に画期的だと思うんですよ。だって、仕入原価ですからね。ウェブサービスをやっているネット企業は、ある種経営全体に効いてくるとも言える。ただ、液侵冷却システム自体の維持コストもあるから、コストとベネフィットがバランスするのかという難しさもありますが。
ついでにお聞きしますが、機材が故障した場合の交換は? フロリーナートを全部抜くことなく、部品を刺したまま、ホットスワップができるんでしょうか。
角田 今回採用したExaScalerさんのシステムでは、GPUやCPUを差し込む"ブリック"という長細い実装機材があるんですけども、それを刺し替える形になります。
清水 なるほど、ホットスワップできるんですね。
宮崎 とはいえ、一般的な空冷向けのサーバーラックとは、メンテナンスだとか運用保証スキルの知識とかが全く異なるものになっています。(標準的ではないシステムという点で)液侵冷却の運用コストというものは、純粋にコストとしてプラス(負担)にはなってきますね。
「データセンターに物理的に穴をあけた」液侵スパコン設置は楽じゃない
清水 もうちょっと具体的にハードの話を聞かせてください。"液浸"というからには、水槽みたいなケースに収めるんですか?
角田 おっしゃるとおりです。
冒頭の、シルバーの金属の水槽のようなケースの内部。所狭しとCPUとGPUが並んでいる。ここにフロリナートが注がれ、循環しながら冷却をするのが「液侵冷却」だ。
Yahoo! JAPAN
Yahoo! JAPANが公開している「kukai」の動作デモ動画。フロリナートに浸かったまま、スパコンが通電して動いていることがわかる。
—— 写真を見た感じだとPEZYさんが自社のスパコンで通常使っているシステムと外観はほぼ同じですね。
清水 とはいえ冷静に考えると、あの特殊な水槽のようなシステムを既存のデータセンターに置いていること事態が、結構スゴイ話ですよね。液体の入ったサーバーですからね。「もし液漏れしたらどうする?」って話に普通なる。それに、フロリナートに浸したら終わり、ではなくて、排熱のためにデータセンターの外のラジエーターまでパイプを這わせるわけでしょう?
角田 はい。既存のデータセンターだとまず設置許可が下りないと思います。今回は、ヤフーのグループ会社であるIDCフロンティアの協力で、データセンターに置かせてもらいました。
清水 液浸って冷却液そのものを室外のラジエーターに循環させるんですよね。クルマの水冷エンジンが冷却水を循環させてラジエーターで熱を発散するように。
角田 はい、循環させます。 そのために、データセンターの壁に穴を開けたりもしました。
清水 それ、大工事じゃないですか。液浸冷却のシステムをデータセンターに設置するのは、やっぱり簡単な話じゃないんだ。
ヤフーは社内スパコンをどんなビジネスに使うのか?
清水 スパコン「kukai」ですが、ディープラーニングのために導入した、とリリースにはあります。具体的にどういうサービスや開発に使い始めるんでしょう? ディープラーニングだと、まず「学習」に使うのと、「推論」に使うのとあると思いますが。
角田 まずは、学習側がメインですね。
制作:編集部
清水 なるほど、とにかく学習に使って、仮説をどんどん回して(演算させて)いく感じなんですね。あと気になるのは、社内的にスパコンの利用環境は、どういう形で社員に解放していくんですか。
角田 その点は、まだ稼働準備をしながら設計をしているところです。 まだ本稼動の時期は決まっていないんですが、準備が整い次第、早急に使い始めたいと思ってます。
—— ヤフーの研究部門などで、kukaiを使ってこの計算をしたい!みたいな要望は既に社内で盛り上がってるんでしょうか。
角田 弊社のディープラーニングの事例の1つである、音声認識の「YJVOICE」の学習にkukaiのパワーを使えると思ってます。
—— YJVOICEは従来から深層学習を使っていて、音声認識精度に自信を持ってると聞いてます。スパコンで学習を回せば、認識効率がさらに改善される余地があるのでしょうか。
角田 はい。今、学習時間が相当かかっているという現状があります。この学習時間を短くして、学習→結果の評価→学習というサイクルを早く繰り返すことで精度の向上が見込めるはずです。
—— 2017年に、僕らの身の回りでわかる「kukaiが稼動しはじめたことによる成果」ってどんなものが出てきますか?
角田 先ほどの音声認識のYJVOICE以外にも、例えばYahoo! JAPANアプリでもすでにディープラーニングは活用されているんです。たとえば、表示するニュースの「個人別最適化」(パーソナライズ)や、ニュースの重複排除、また記事中の写真から人の顔部分だけをうまく切り取るといったことにも、すでにディープラーニングが活用されています。
こういった具合に、皆さんが目にするサービスの中に採用してより良い改善に使うなどの形で、活用事例を増やしていきたいと思ってます。
清水 kukaiのような「スパコンを社内に置こう」って試みって、日本の会社の中では相当先進的な取り組みですよ。グーグルやFacebookだけがクローズアップされる中で、国内企業も負けてないと。僕は常々日本を代表する会社が頑張って欲しいと思っているので、kukaiの成果に期待してます。
鼎談後記:「深層学習は装置産業である」ことに気づいたヤフー
Yahoo! JAPAN
ヤフーが開発したスーパーコンピューター「kukai」。その正体は液浸冷却を利用したハイエンドGPUクラスターだ。一昨年の2015年、ドワンゴが同様の深層学習用GPUクラスター「紅莉栖」(クリス)を発表したときは敢えてスーパーコンピューターという表現は用いなかった。
kukaiのCPUはXeonで、クラスター全体で80基のXeonと160基のNVIDIA「Tesla P100」を持つ。kukaiにかぎらずGPUクラスターは風化が早い。kukaiが擁するP100の次の世代、V100のリリースが今年の秋に迫っているし、この劇的な進化はしばらく継続するだろう。しかしハードの進化をグズクズ待っていてはいつまでたっても着手できない。
kukaiの場合、省電力だけでなくローコストということもひとつのポイントだ。次世代のGPUが出たら、単に部品を入れ替えれば済むのだ。最近は各種深層学習フレームワークもマルチノード学習のサポートが本格化し、手軽に大規模な計算資源のパワーを引き出せるような環境が整いつある。
機械学習の国際学会であるNIPSの論文提出の締切日前後に、アマゾン AWS、マイクロソフトAzure、Google Computing Platformなど全世界のGPUクラウドがパンクしたことなどを考えても、深層学習用の計算資源を外部に頼りきりにすることは現実的ではない。ましてや、多くの個人情報を扱い、プライバシーやセキュリティーに人一倍気を使わなければならないヤフーにおいて、ひとまず手元に強力な計算資源を持っておくことは大きな意味を持つ。
深層学習が隆盛する時代には、研究の早さ、高度さというのは、自由に使える計算資源の多寡に比例する。グーグルがあれだけ成果を出せるのは、自社に大規模なクラウドを丸抱えしているからだ。
その意味では、国内企業ではヤフーやドワンゴといったネット企業がいち早く計算資源の確保を実現した意味は決して小さくない。さらには、たった4億円の予算で世界のスーパーコンピューターランキングに載ってしまうほどのマシンが作れるという事実が示されたことも大きい。この流れは、国内の他の業界、他の企業にも波及していくことを期待したい。
1にも2にも計算資源がなければ研究も学習もおぼつかないのだ。深層学習とは、装置産業なのである。
角田直行 Yahoo! JAPAN データ&サイエンスソリューション統括本部テクニカルディレクター。2005年にヤフー入社。Yahoo!地図やYahoo!路線情報、Yahoo!検索、検索エンジン、検索プラットフォームなどの開発に関わる。現在はデータ&サイエンスソリューション統括本部のテクニカルディレクターを務める。
宮崎崇史 Yahoo! JAPAN データ&サイエンスソリューション統括本部事業開発本部。博士(工学)。大学院・ポスドクで脳の記憶を研究。2011年ヤフー入社。画像検索・認識技術の研究開発に従事。社内の深層学習用インフラ導入を推進し、現在は画像技術以外の分野の調査や研究開発も行っている。
清水亮:株式会社UEI代表取締役社長兼CEO。東京大学先端科学技術研究センター身体情報学客員研究員。深層学習を中心とした人工知能の研究開発を専門とし、自らプログラミングやコンサルティングも行う。