img_profile_yoshihide_tonomura

外村喜秀(とのむら・よしひで)
NTTサービスエボリューション研究所
ナチュラルコミュニケーションプロジェクト
主任研究員

2004年、日本電信電話株式会社に入社。超高精細映像信号処理とそのメディア伝送処理技術に関する研究開発に従事し、ISO/IECのMPEG国際標準化に携わる。2011年から1年間、MITメディアラボの客員研究員として活動。
(所属部署・役職は取材当時)

img_profile_hiromu_miyashita

宮下広夢(みやした・ひろむ)
NTTサービスエボリューション研究所
ナチュラルコミュニケーションプロジェクト
研究員

2010年、日本電信電話株式会社に入社。映像インデクシング技術やインタラクティブメディア技術、被写体抽出技術の研究開発に携わる。
(所属部署・役職は取材当時)

「あたかもその場にいるような感覚を、世界中のどこにいても体感できる」。

そんなSF世界のような体験ができる技術が、NTTが取り組む「Kirari!」プロジェクトである。

イマーシブ・テレプレゼンスとも称されるこの技術は、主にテレビ会議システムなどで用いられる「telepresence」という単語に、“没入型の”を意味する「immersive」が付随した言葉で、別の空間を丸ごとリアルタイムに目の前の空間に伝送し、かつて体感したことのないような超高臨場感を提供することをめざす。

果たして、この夢のような技術はどのようにして誕生し、どこへ向かおうとしているのか。Kirari!の研究開発に携わる外村喜秀主任研究員と宮下広夢研究員に話を訊いた。

みんなが熱狂するスポーツ観戦の未来とは

— まずはNTTサービスエボリューション研究所が取り組む
「Kirari!」とは何なのか、この言葉を初めて耳にする人に向けて、
改めてその概要を教えていただけますか。

外村:私たちが研究開発を進めている「Kirari!」は「イマーシブ・テレプレゼンス」と呼ばれる技術を用いた総称で、“あたかもその場にいるような感覚を、世界中のどこにいても体感できる”というコンセプトのもと、2年ほど前から研究をスタートさせました。

昨今、4Kや8Kのような高精細な映像や、プロジェクションマッピングやVR(仮想現実=バーチャルリアリティ)のような臨場感の高い映像を利用した取り組みが盛り上がりを見せている中で、今後、NTT研究所がチャレンジしていくべき分野というところで、生まれてきたコンセプトになります。まずは2020年を目処に、パブリックビューイングやプロジェクションマッピングの次の形を模索する、そして、みんなが熱狂するスポーツ観戦の未来を実現するということをファーストステップとして取り組んでいます。

宮下:Kirari!がプロジェクトとして動き出した背景ですが、これまでNTT研究所では映像・音声等のメディア処理やメディアの伝送技術のような研究開発を進めてまいりました。例えば4Kや8K映像の伝送に必要となる映像圧縮技術や音声圧縮技術等の開発、標準化に携わってきた実績があります。これら培った技術背景に、VRの技術等をベースにまったく新しい技術の分野を開拓していきながら、2020年以降、未来に向かって夢を与えるような大きな“こと起こし”を成し遂げ、大きな技術が活躍できるステージをひとつ作り上げようという強い目的意識がありました。

— 「パブリックビューイングやプロジェクションマッピングの次の形」ということですが、Kirari!では具体的にはどんなことが可能になるのでしょうか。

外村:Kirari!が目指すのは、スポーツなどの競技空間を丸ごとリアルタイムに伝送し、まったく別の空間を創出させる、という技術の実現です。
「Advanced MMT」と呼ぶ超高臨場感メディア同期技術を用いて、映像や音などのデータに加え高臨場感を創出する情報をリアルタイムに伝送し、遠隔地において競技空間を再構成することを行っています。例えば、実空間の位置や大きさの情報などを伝送することで、「速い!」や「高い!」といった従来のメディアでは伝えることが難しかった臨場感を伝えることができます。

img_kirari_01

あたかもその場にいるような感覚を、
世界中のどこにいても体感できるというコンセプトのもと、
研究をスタートさせた。

宮下:もうひとつの特徴的な技術に、被写体抽出が挙げられます。被写体抽出は「Kirari!」のコンセプトにおいて、被写体を空中に投影することで、あたかもそこに選手がいるかのように体感させる、という超高臨場感を実現するために不可欠であろうということで始まりました。

例えば、普通のフルHDや4Kカメラで撮影した映像の中から、人物のところ、あるいはその競技において注目すべきような画像領域だけを残して、あとはすべて削除する、というような技術のことを指します。その場合にポイントになるのが、リアルタイム性、そして綺麗に、滑らかに被写体を抜くための抽出精度という2点になります。

これら2つの側面から研究を進める際のひとつのアイデアとして、複数のセンサーを用いるというアプローチがあります。例えば、「Kinect」(マイクロソフト社が販売する、ジェスチャーや音声認識による操作を可能とするデバイス)に代表されるような深度センサーを使って手前にいるものだけを抜く、あるいはサーモセンサーを使って温かいところだけを抜く、というものです。残念ながら、センサーはカメラに比べて解像度が低いため、現段階の成果としてはこれら2つを合わせてリアルタイム性と抽出精度を上げています。

前人未踏の超高臨場感を創出する被写体抽出技術

— 昨年度の「NTT R&Dフォーラム2016」では、実際の空手の演武を
被写体抽出し、別の場所にリアルタイムで再現することに成功しました。

宮下:実際に、体育館から展示会場へリアルタイムで伝送した演武をお客様に見ていただき、たいへん好評をいただきました。また、4月に行われたニコニコ超会議2016における「超歌舞伎」では、本技術を用いて中村獅童さんが分身してあたかも4人いるかのごとく敵と戦う、というチャレンジをしましたし、松竹株式会社との新たな歌舞伎鑑賞の提案を目指した共同実験の第1弾として、5月にラスベガスで行われた新作歌舞伎『KABUKI LION 獅子王』の模様を高臨場で遠隔に届けた実験において、市川染五郎さんの舞台挨拶を被写体抽出し、見学会場の羽田空港国際線旅客ターミナルにあるTIAT SKY HALLにリアルタイム伝送するということにも成功しました。

- 先ほど、リアルタイム性と抽出精度という2つの要素が
重要だという話がありましたが、超高臨場感の実現のためには
どちらのほうが重要になってきますか?

宮下:それは抽出する対象による、というような回答になります。例えば、先日の空手の演武については、どちらかと言うとリアルタイム性のほうを重視したという事実があります。というのも、空手というのは非常に動きが速いスポーツです。その速さをお客様に感じて欲しかったという狙いがあったので、できるだけスピード、言い換えればフレームレートを高くするというところを重要視しました。

— 逆に、抽出精度や解像度が高いほうが望ましい競技はありますか。

宮下:今後チャレンジすべきテーマではありますが、サッカーだとカメラ自体から抽出できる人の領域というのはかなり小さくなってしまうため、大きなカメラの中から複数人を抽出したり、小さな人をできるだけ大きく表示するということが必要です。その場合はスピードよりむしろ精度のほうが重要になってくるかもしれません。

— 伝送技術や被写体抽出技術についてのお話がありましたが、
他方、情報圧縮技術などもNTTの強みかと思います。

外村:映像圧縮技術に関しては、一番新しい動画圧縮規格の「HEVC」という規格を用いていまして、これはNTTグループが標準化から関わっているものです。このHEVCを用いて4Kの映像をリアルタイムで圧縮/伸長することで、迫力ある高精細の映像をネットワークを用いて経済的に届けるということが可能になります。先ほどの空手の演武もこれを使用しています。現在は光回線での伝送となりますが、5Gでの伝送が可能になれば、お届けする受信先も広範囲になっていくので、ユースケースがより広がると考えています。

img_kirari_02

競技会場での本番や、
実際の歌舞伎公演での利用に向けては、
今後クリアすべき課題はたくさんある。

物理的な制約とライブならではの課題

— 例えば、先日のラスベガスの舞台挨拶の際など、
現場で最も苦労されるのはどんな場面でしょうか。

外村:ラスベガスのときは、市川染五郎さんの舞台挨拶に加えて、『KABUKI LION 獅子王』の公演模様を4Kカメラ9台を用いて撮影し、リアルタイムで伝送しライブビューイングで楽しんでいただくイベントも行いました。羽田空港では、この9つの映像を用い、ラスベガスの客席と同じ視点で見ているかのような映像による空間再現を実施しました。4Kカメラを9台も設置していましたから、それらで撮影した情報をリアルタイムに処理する機材というのは、サーバー類とかも含めるとすごい量になります。ですから、まずは公演舞台挨拶の劇場や再生する羽田の会場にその機材を設置するスペースがあるのか、という問題が出てくる。当然、いきなりそんな大量の機材を置く場所なんてないですよね(笑)。運搬だって大変でした。まず直面するのは、そういった物理的な制約だったりします。

宮下:ラスベガスでの市川染五郎さんの舞台あいさつ、そしてニコニコ超会議での中村獅童さんの公演、いずれの現場でもイベントの主催の方々にはご尽力いただいて、技術的に理想に近い環境を作っていただいていたので、技術的な困難さは前提としてありつつも、できる限界の部分に収まるように努力はしました。ただ、競技会場での本番や、実際の歌舞伎公演での利用といった場合で被写体抽出をしなければならないとなると、まだまだ技術的にクリアすべき課題はたくさんあると思います。

kabukilion

— ライブならではの課題というのも多くありそうですね。
ちなみに被写体抽出をするうえで「理想的な環境」というのは、
具体的にどういったことでしょうか。

宮下:まずは背景が安定していて、なおかつ、背景と被写体にはっきりと色の差があるということです。色の差があるほど、補正の処理を滑らかにするという意味でわかりやすく境界が出るので、処理的には非常に楽になります。

例えばニコニコ超会議のときの中村獅童さんは、赤い服を着ていて、かつ肌も白塗りしていましたから、技術的にはやりやすかったという感想があります。一方で悪天候の状況下などだと、現状の技術ではまだ難しいと思います。

写真=植村忠透 Photos : Tadayuki Uemura
文=雑司が谷千一 Text : Senichi Zoshigaya