meta、cmu联手推出6-dof视频表征方法

2023-01-10 21:59:38 浅语科技

近日,Meta和CMU的研究人员提出了一种全新的6-DoF视频表征方法,单张RTX3090即可每秒18帧实现百万像素分辨率渲染,或将给VR带来革命性的高质量体验。


(资料图)

最近,由Meta和卡内基梅隆大学提出的6-DoF视频表征模型——HyperReel,可能预示着一个全新的VR「杀手级」应用即将诞生!

所谓「六自由度视频」(6-DoF),简单来说就是一个超高清的4D体验式回放。

其中,用户可以完全「置身于」动态场景里面,并且可以自由地移动。而当他们任意改变自己的头部位置(3DoF)和方向(3DoF)时,与之相应的视图也会随之生成。

论文地址:https://arxiv.org/ abs/2301.02238

与之前的工作相比,HyperReel最大的优势在于内存和计算效率,而这两点对于便携式VR头显来说都至关重要。

而且只需采用vanillaPyTorch,HyperReel就能在单张英伟达RTX3090上,以每秒18帧的速度实现百万像素分辨率的渲染。

太长不看版:

1.提出一种可在高分辨率下实现高保真度、高帧率的渲染的光线条件采样预测网络,以及一种紧凑且内存高效的动态体积表征;

2.6-DoF视频表征方法HyperReel结合了以上两个核心部分,可以在实时渲染百万像素分辨率的同时,实现速度、质量和内存之间的理想平衡;

3.HyperReel在内存需求、渲染速度等多个方面均优于其他方法。论文介绍

体积场景表征(volumetricscenerepresentation)能够为静态场景提供逼真的视图合成,并构成了现有6-DoF视频技术的基础。

然而,驱动这些表征的体积渲染程序,需要在质量、渲染速度和内存效率方面,进行仔细的权衡。

现有的方法有一个弊端——不能同时实现实时性能、小内存占用和高质量渲染,而在极具挑战性的真实场景中,这些都是极为重要的。

为了解决这些问题,研究人员提出了HyperReel——一种基于NeRF技术(神经辐射场)的6-DoF视频表征方法。

其中,HyperReel的两个核心部分是:

1.一个光线条件下的采样预测网络,能够在高分辨率下进行高保真、高帧率的渲染;

2.一个紧凑且内存高效的动态体积表征。

与其他方法相比,HyperReel的6-DoF视频管线不仅在视觉质量上表现极佳,而且内存需求也很小。

同时,HyperReel无需任何定制的CUDA代码,就能在百万像素分辨率下实现18帧/秒的渲染速度。

具体来说,HypeReel通过结合样本预测网络和基于关键帧的体积表征法,从而实现了高渲染质量、速度和内存效率之间的平衡。

其中的样本预测网络,既能加速体积渲染,又能提高渲染质量,特别是对于具有挑战性的视图依赖性的场景。

而在基于关键帧的体积表征方面,研究人员采用的是TensoRF的扩展。

这种方法可以在内存消耗与单个静态帧TensoRF大致相同的同时,凑地表征了一个完整的视频序列。

实时演示

接下来,我们就实时演示一下,HypeReel在512x512像素分辨率下动态和静态场景的渲染效果。

值得注意的是,研究人员在Technicolor和Shiny场景中使用了更小的模型,因此渲染的帧率大于40FPS。对于其余的数据集则使用完整模型,不过HypeReel仍然能够提供实时推理。

Technicolor

Shiny

Stanford

Immersive

DoNeRF实现方法

为了实现HeperReel,首先要考虑的问题,就是要优化静态视图合成的体积表征。

像NeRF这样的体积表征,就是对静态场景在3D空间中的每一个点的密度和外观,进行建模。

更具体地说,通过函数

将位置x和方向

沿着⼀条射线映射到颜色

和密度σ(x)。

此处的可训练参数θ,可以是神经网络权重、N维数组条目,或两者的组合。

然后就可以渲染静态场景的新视图

其中

上一篇 :

下一篇 :

x

相关推荐

精彩推送