「えっすごい」ソニー初の“Technology Day”で公開したワクワクの未来技術

shutterstock_751789552

Shutterstock

「こんなものを開発していたのか……」

ソニーは9月18日、メディアとアナリスト向けに技術展示会「Technology Day」(テクノロジーデイ)を開催した。

同社が「Technology Day」を開催するのはこれが初めてのことだ。多くの技術系企業では、社内での情報共有を目的に、社員向けに開発中の技術を紹介するイベントを開く例も珍しくない。「Technology Day」は、そうした社内向けイベントで公開する技術の一部を社外にもお披露目した。

イベントの冒頭登壇した、同社の吉田憲一郎社長は狙いを次のように説明した。

sony_techday-1

ソニーの吉田憲一郎社長。

撮影:西田宗千佳

「弊社は『人に近づく』をキーワードにしているが、研究開発も『人に近づく』ことを目標としている」

ソニーは情報公開を進め、その技術の用途をイメージしやすくすることで、最終製品を使う消費者はもちろん、技術を導入する企業側にも「近づく」ことを狙っている。

Technology Dayでは13の技術が展示された。一部技術はすでに提供が開始されているものの、あくまで技術展示で、商品化時期などについては言及がない。

その中から、特にスゴイ6つのテクノロジーについて、詳細を解説してみたい。ポイントは「リアルタイム」。多彩な情報をリアルタイムに活用することで、今までになかった価値を生み出そうとしている。

ソニーが実用化を目指す、驚きの「未来技術」

その1:スマホCPUの数分の1の消費電力で「立体空間をリアルタイム認識」

自動運転車やロボット、ドローンでは、周囲の状況を立体として素早く判断することが求められる。人間は出っ張りがあればそれを認識して避けることができるが、ロボットに同じことをさせるには、周囲を「立体構造」として捉える必要がある。

というわけで、次の写真をご覧いただきたい。カメラからの入力映像から、周囲にいる人の形や地形がリアルタイムに「立方体の集まり」として描画されていることに注目。

sony_techday-10

カメラで目の前の風景を「立体」として認識。立方体の集まりとして凹凸を把握している。

撮影:西田宗千佳

結果として、動画のように「GPSに頼らず、周りの風景から自分が飛んできた経路を見つけ出して自分で帰るドローン」も開発できるという。

空間認識は専用のチップで。消費電力はスマホのプロセッサー以下!

重要なのは、この認識を「専用のチップ」で行っている、ということだ。今もカメラを使った空間認識はあるが、スマホやPCのCPUで処理の重い演算を行うのが基本。場合によってはクラウド側でより大規模に処理する。

しかし、ロボットやドローンではリアルタイム処理が重要だ。遅延が避けられないクラウドには頼れないし、CPUなどで大規模な演算をするのは消費電力の問題がある。 そこで開発されたのが、「Vision Sensing Unit」と呼ばれる専用のLSI。12個のセンサーの入力を同時に取得し、前述のような処理をリアルタイムで行う。処理するデータの量によっても異なるようだが、消費電力は「1W以下」と、スマホのプロセッサーの数分の1で済む。

sony_techday-11

Vision Sensing Unit。複数のカメラ映像から周囲の風景を3Dで認識する作業を、チップ1つで自動化する。

撮影:西田宗千佳


その2:ゴリ押しのマシンパワーで実現した「映画品質でリアルタイム」の超高画質CG

映画のCGはリアルになった。そういう世界で使われているのが「レイトレーシング」と呼ばれる3DCGの作成技術。光が空間の何にに反射し、何を透過しているのかをシミュレーションする。影や反射、湿度の高い霧の大気など、きわめてリアルな表現ができる。

一方で、非常に計算量が多いため映画などの、長い時間をかけて1コマを作れる分野での活用がメインだった。今回ソニーが展示したのは、「4K・毎秒30コマ」で描画される「リアルタイム・レイトレーシング」だ。

ソニー・インタラクティブエンタテインメント(SIE)のグローバルR&D部門の豊禎治氏は、「リアルタイムで現実世界のあらゆる状況を再現できるようになる。難題だが、人間の表現にも挑戦している」と話す。

sony_techday-17

SIEのリアルタイム・レイトレーシング技術で描画された映像。クリスタルガラスなどに物体を置き換えて表現することも可能。

撮影:西田宗千佳

sony_techday-14

ちなみに、すごくCG技術に詳しい人向けに補足しておくと、今回のデモは4Kで1ピクセルあたり12サンプル・6バウンスで、CGの処理としてはかなり「重い」。

撮影:西田宗千佳


GPU40枚のシステム全体の消費電力は1万ワット。

sony_techday-12

デモで使われたリアルタイム・レイトレーシングシステム。40枚のNIVIDA製高性能GPUで分散処理をして実現している。

撮影:西田宗千佳

ゲームの最新技術に詳しい人は、「ゲームではリアルタイム・レイトレーシングも登場しているのでは」と思う人もいるかもしれない。われるはず。たしかにハイエンドPC向けのゲームでは使われるようになっているし、現在開発中の次世代PlayStationでも、リアルタイム・レイトレーシングの搭載が予告されている。

だが、それらと今回のデモはまったく異なるものだ。ゲーム向けのリアルタイム・レイトレーシングでは、反射や透過など、レイトレーシングでリアルになる要素のごく一部を採り入れているに過ぎない。一方今回デモされたのは、映画向け技術と同様のものだ。

SIEは、ゲーム向けとは違うオリジナルのレイトレーシング・レンダラー(作成ソフト)を開発、40枚の高性能GPUを使って、ある意味「力業」でリアルタイム・レイトレーシングを実現した。高性能GPUはすべて「高速演算だけ」につかっていて、GPUの持つリアルタイム・レイトレーシング機能は一切使っていない。

ちなみに、40枚全体での消費電力は1万ワットを超える。PC技術を組み合わせた卓上に乗るシステムとしてはなかなかにクレイジーだが、映画制作に使うサーバー群に比べると、圧倒的にコンパクトで消費電力も低い。



カメラ映像から「質感」をCGに反映させる技術も。

sony_techday-16

ゴムならゴム、プラスチックならプラスチックの物体をカメラで撮影すると、その質感がリアルタイムに、レイトレーシングされたCGへと反映される。これには、機械学習による物体の質感認識技術が使われている。

撮影:西田宗千佳

sony_techday-15

カメラで撮影した物体の質感をそのままCGに反映。質感認識には機械学習が使われている。

撮影:西田宗千佳

SIEの技術はゲーム由来のもので、もちろんまずはゲームに使われる。それ以外にも、映像制作を含めたさまざまな分野への応用を目指して開発が進められている。

なお、レイトレーシングのような技術では、いかに物体の質感を再現するかが重要になる。エンジニアやデザイナーが手作業で設定するのが基本だが、SIEは今回、カメラからの撮影でリアルな質感を実現する技術も公開している。


その3:ミクロン単位の作業を実現する「バイラテラル・ハンド」

次の映像は、ロボットの指先(メカニカルハンド)が何か小さなものを積み上げている。実はこれ、ごく小さな半導体で、一番小さなものは1mm以下。とても指では操作できない。

sony_techday-8

0.5mm以下のチップをつまんで積み上げたり、やわらかいスポンジを崩すことなく掴んだりできる。

撮影:西田宗千佳

sony_techday-7

作業していたチップの実サイズ。小さすぎて点にしか見えない。

撮影:西田宗千佳


人の指先の動きを10分の1に「縮小」する。

この積み上げ作業に使われているのが「精密バイラテラル技術」だ。バイラテラルとは「双方向」という意味。人間が操作するロボットハンドだが、人間の指が持っている「つかんだ時に物体の硬さや抵抗を感じる」要素を、実際の物体からロボットハンドへとフィードバックすることで、実感を伴った正確な操作を実現する。

このロボットハンドの場合には、人間の動きを10分の1に縮小し、精密な作業を行う。3Dカメラとディスプレイを組み合わせることで、物体の奥行きなども再現し、作業の手助けをする。 主に医療用を目的としているが、「10分の1縮小」であるのは、医療現場で求められる精度が人間の10分の1程度の細かさであることが多いためだという。

sony_techday-6

マシンを操作中の風景。

撮影:西田宗千佳

sony_techday-9

人の動きを10分の1に縮小する「精密バイラテラル・ハンド」。つかんでいるものの感触などがフィードバックされるので精密な操作がしやすい。

撮影:西田宗千佳


その4:人がCGの中に「入る」技術

以下の画像は、一見すると最近よくある「CGの中に人が配置されたもの」に見えるかもしれない。ただひとつ、違うのは、配置されている人物は、カメラで撮影しているリアルタイムの「映像」なのだ。


奥にいる人の動きと手前のディスプレイの映像に注目。人の動きがカメラで撮影されると、それがそのままディスプレイの方へ反映されている。


sony_techday-18

CG空間に人がいる。でも、人の部分は3D CGではなく、カメラから撮影したそのままの映像だ。

撮影:西田宗千佳

sony_techday-20

映像であって3D CGではないのに、人がCGの柱の「後ろに隠れる」ところに注目。

撮影:西田宗千佳


人をCG化せずに映像の中に送り込む「2つの目」。

sony_techday-19

右の映像のように2つのカメラで人の奥行きや背景との分離を計算し、CGの中に映像を合成している。

撮影:西田宗千佳

この技術、SIEで開発が進んでいるもの。CGの中に人を配置するには、通常、人自体を3D CGにする必要がある。立体空間の中に矛盾なく配置するには、そうするのが一番簡単だからだ。

けれども、人をちゃんとCGモデルにするにはかなりの手間と時間がかかる。特殊な設備を持ったスタジオを使い、エンジニアがデータを整えて作る。俳優のCG化などならそれでもいいが、我々が自宅でやるのは難しい。

そこで登場するのがこの技術。普通のカメラを2つ並べて二眼化することで、奥行きなどを推定し、グリーンバックなどの特殊な設備を備えた部屋がなくても、人の映像をCGの中に「奥行き」とともに配置できる。柱に自分が隠れたり、椅子に座ったりすることも可能だ。なにより、「人間自体は3D CG化にしていない」ので、表示が精細かつ動きもなめらかだ。

「特別な設備なしで、自分の部屋でCGの中に入る」ことができるので、映像中継やバーチャルYouTuberとリアルの人物との共演などにも活かせるし、個人宅で使うのも難しくない。

その5:ダンスも空間も「3D」でリアルタイムキャプチャー

次の映像は、2人のダンサーが踊るCGだ。こうしたものを作るには、通常かなりの手間がかかる。

けれどもこの技術では、(先ほどの技術とは違って)なんとリアルタイムに2人のダンスをそのまま3D CG化している。表示だけでなく「3Dデータ化」もできているので、スマホアプリなどで使うことも可能だ。

グリーンバックの前で踊る2人が、動きまで3Dに。スマホで視聴も。

sony_techday-23

踊る2人の動きをそのまま3D化。いったんキャプチャすればスマホ上でも動く。

撮影:西田宗千佳

sony_techday-21

撮影:西田宗千佳

この技術は「ボリューメトリック・キャプチャ」と呼ばれるもの。その場にある物体の3D形状をデータ化する技術だ。 これは2人の踊りの動きまで含めてリアルタイムでそのまま3D化しているのが特徴。通常は「CGモデル化」して「動きをキャプチャ」してからCGに反映するものだが、それを一度に処理している。なお、処理にはクラウドサーバーが必要だが、「カメラの数が少なければ、パソコン1台でもリアルタイム処理ができる」(ソニー・担当者)という。

その6:目に見えない傷や歪みを見つける「偏光イメージセンサー」

世の中には、微細で人間の目には見えづらい傷や歪みを持つものがたくさんある。顕微鏡で見なければわかりにくい微細なものでも、製品の品質には大きな影響を与える可能性がある。

すごく簡単にいえば、偏光イメージセンサーは、それを一目でわかるようにする技術だ。

sony_techday-3

偏光イメージセンサーで捉えた映像。肉眼ではみえない傷や、透明な素材に存在する「歪み」を可視化する技術だ。

撮影:西田宗千佳


サングラスの原理を応用して、高精度な画像を1回の撮影で。

仕組みはサングラスを思い出してもらえばわかりやすい。サングラスには「偏光フィルター」が入っていて、乱反射する大量の光から、ひとつの方向の波だけを取り出す。

偏光フィルターは簡単な技術だが、問題は「1つの方向」に限られる、ということ。そのためこれまでは、フィルターを回転させて何度も撮影することで、上記のような検査を行っていた。

ソニーは、半導体技術を使って4つの方向(0度・45度・90度・135度)の偏光フィルターの役割を果たす微細構造を持つ「板」を作り、それを同社のイメージセンサーに組み込むことで、高精度な偏光画像を一回の撮影で得られるようにした。

sony_techday-4

偏光イメージセンサーの実物。仕組みとしては、従来型のイメージセンサーに、半導体技術で作った偏光フィルターを組み合わせたものだ。

撮影:西田宗千佳

そうして得られた画像を処理すれば、自動的に歪みや傷を検出できる。また、自動運転などでは、照り返しなどを除去し、道路状態や標識の判別精度を上げられる。3Dセンシング技術や立体キャプチャ技術に応用することも可能だ。

(文、写真・西田宗千佳)

Popular

あわせて読みたい

BUSINESS INSIDER JAPAN PRESS RELEASE - 取材の依頼などはこちらから送付して下さい

広告のお問い合わせ・媒体資料のお申し込み