Menu

Menu

2D图像输入实时学习生成3D逼真全息图的端到端方法

2D图像输入实时学习生成3D逼真全息图的端到端方法
撰稿人 |  许京浩

 

TITLE  |  #2D图像输入实时学习生成3D逼真全息图的端到端方法#

01

 

论文导读

 

在这篇文章中,作者展示了一种基于深度学习的方法,能够实时地从单个2D图像的输入中直接合成3D全息图。作者设计了一个完全自动的流程,通过将任何一组真实生活中的图像转换为2D图像和对应的3D全息图对来创建大规模数据集,并以监督学习的方式端到端地训练卷积神经网络(CNN)。本文所述的方法仅凭借2D图像内容就能高效生成3D全息图,为从日常图片中实时创建3D全息提供了新的途径。

 

02

 

研究背景

 

全息显示通过调制计算机生成的全息图(CGH)实现裸眼3D的观看体验。CGH是通过模拟从3D波前数据到全息图的物理衍射传播来进行数字生成的,但整体计算效率仍然不尽人意,这限制了其在实时显示中的应用。

 

实现全息成像的一个主要难点,是执行全息波前传播的衍射模拟所需的巨大计算成本。为解决这个问题,已经产生了许多用于数值衍射的加速算法,例如查找表、波前记录平面、多层深度离散化以及使用图形处理单元(GPU)计算。近来,基于深度学习的CG生成策略显示出了显著加快实时CGH生成的运行速度和高质量显示结果,如多深度图像或红、绿、蓝和深度(RGB-D)信息,然而这些方法仍然严重依赖大量体积式3D光波数据输入,对原始3D目标的CGH生成的预获取和表示进一步限制了其应用。

创建用于计算机生成全息图的3D数据集是解决CGH计算效率的另一个难点。常规的解决方法是采用飞行时间(TOF)相机、光场相机、立体相机或基于液体透镜的相机等3D相机来获取密集和深度的3D信息,但它们都固有一定的局限性,不能精确地描绘实时和真实的3D几何场景,需要严格的设备校准和耗时的后处理算法。一个更有吸引力的策略是从2D图像逆向转换3D波前。由于这个任务的不适定性,使用传统算法从单个图像进行深度估计的尝试在存在特定线索的情况下受到限制。尽管深度卷积神经网络(CNN)可以以更强大的方式进行更好的泛化处理,但收集用于监督式网络训练的高质量和多样化的“图像+深度”配对数据集仍然是一项具有挑战性的任务。

03

 

方法原理

 

在本文工作中,作者提出了一种数据驱动的深度卷积神经网络(CNN)框架,可以实现从单个2D图像输入端到端的全自动和实时生成的3D CGH。作者通过创建一个包含30,000对2D图像和相应的3D CGH的大规模数据集,对CNN模型进行监督训练,从而实现了这个流程。本文所述技术包括使用2D自然图像作为数据集用于3D CGH合成网络。通过高质量的全息复制结果,作者在实验中展示了所提出的3D CGH生成CNN对各种自然图像的稳健性。

 

2D图像输入实时学习生成3D逼真全息图的端到端方法
图1. 全自动生成3D全息图的网络结构示意图

 

图1显示了所提出的CNN的结构。网络接收一个灰度单通道的2D图像作为输入,并将图像映射到预测的单色3D复杂全息图作为输出。该网络基于多尺度的ResNets架构,包括七个下采样残差块和七个上采样残差块。输入图像经过滤波并通过降采样块进行分辨率降低。每个上采样块都使用从下采样块的激活输出处的跳跃连接,使其能够解决更高分辨率的细节。在网络的末端,通过输出分支计算复杂全息图的振幅和相位,作者使用1×1的卷积和sigmoid函数进行微调和归一化处理。

 

对于数据集的创建,作者通过引入一种完全自动的2D图像到3D全息图数据集合成方法来解决创建大规模训练数据集的问题,该方法只需要一系列单个图像。作者将这种方法称为“MiDaS基于衍射的方法”,它使用一种最先进的现成的单眼深度估计器,称为MiDaS ,首先对每个训练图像进行深度图预测,然后结合图像对深度预测进行进一步精细化处理,使用数值衍射算法计算出3D全息图。通过这样的方式,开辟了一种通过任何2D图像合成大量数据集的方法。

2D图像输入实时学习生成3D逼真全息图的端到端方法
图2. 从2D图像学习3D全息图的工作流程

 

图2展示了使用“MiDaS基于衍射的方法”合成训练数据集的一个示例。从任意一个自然场景的单个2D图像开始,使用MiDaS进行单目深度估计,MiDaS是一个使用ResNeXt-101网络作为主干的现成的深度估计器,用于为2D图像推断像素级深度图。MiDaS是一种最先进的单目深度估计网络,比其他所有对应方法表现更好,并且被广泛用作立体数据集合成的现成工具。MiDaS使用基于多个混合数据集的原则性多目标学习策略进行训练,并且在各种图像中非常稳健。MiDaS预测的深度与输入2D图像的灰度格式逐像素对齐,用于合成单色全息计算所需的密集3D体光波数据。

 

根据MiDaS基于衍射的方法合成的大规模训练数据集包含2D图像和相应的标注全息图数据,并将其馈入CNN进行端到端的有监督训练,使用均方误差(MSE)损失函数进行训练。为了最大化CNN学习适应不同测试领域的能力,作者通过从流行的自然图像数据集COCO2017 随机选择3万个和1000个单个图像来生成训练数据集和验证数据集。作者将所有图像大小调整为1024×512像素,并连续应用单目深度估计器来计算相应的标注复杂全息图数据。在作者的计算中,将所有图像场景的8位深度范围设置为从z=0.001 m(近平面)到z=0.005 m(远平面)并进行归一化。计算假设波长为532nm,像素间距为6.4µm。作者的CNN是在搭载NVIDIA GeForce RTX 2060 GPU的平台上使用Adam优化器进行训练,批量大小为2,迭代30个epochs。学习率从0.0001开始,每10个epochs减半。

图像的输入中直接合成3D全息图。作者设计了一个完全自动的流程,通过将任何一组真实生活中的图像转换为2D图像和对应的3D全息图对来创建大规模数据集,并以监督学习的方式端到端地训练卷积神经网络(CNN)。本文所述的方法仅凭借2D图像内容就能高效生成3D全息图,为从日常图片中实时创建3D全息提供了新的途径。

04

 

图文结果

 

2D图像输入实时学习生成3D逼真全息图的端到端方法
图3. 对比提出的CNN与现有算法的模拟结果。(a)从原始RGB-D数据生成标注3D复杂全息图以及从2D图像输入预测的CNN 3D复杂全息图。(b)和(c)从标注全息图数据的前景和后景重新构建的模拟结果。(d)和(e)从CNN预测全息图的前景和后景重新构建的模拟结果

 

首先在模拟环境中对上述的CNN进行定量评估。图3(a)展示了真实世界的RGB-D数据,从中提取灰度2D图像作为CNN的输入,用于预测复杂全息图,并从原始RGB-D数据计算出标注全息图数据。

 

图3(b)-图3(e)比较了从标注全息图数据[图3(b)和图3(c)]和CNN预测全息图[图3(d)和图3(e)]重新调焦后的景深图像。结果在前景和背景平面呈现出视觉上相似的重建图像。CNN从输入图像中推断全息图的总运行时间在GPU上为0.0175秒,在CPU上(Intel Core i9-10900)为0.7661秒,具有实时计算性能。

2D图像输入实时学习生成3D逼真全息图的端到端方法
图4. (a)全息3D显示的实验设置。(b)前景聚焦距离处的3D图像的光学记录。(c)后景聚焦距离处的3D图像的光学记录。SLM空间光调制器

 

作者还计算了CNN和基于标注全息图数据的结果之间的峰值信噪比(PSNR),如图3所示。图4展示了用于显示CNN预测全息图的光学全息3D显示的实验设置。复杂全息图使用双相方法编码为只有相位的CGH。实验使用一个反射式全息空间光调制器(SLM; UPOLabs HDSLM64R,1920×1080,像素间距6.4µm)在532nm波长下显示只有相位的CGH。全息图通过一个4f系统传输,其中傅里叶平面放置了一个光圈停止器以阻挡高频衍射。重建的3D图像由数码相机(Nikon D3100)在后焦点和远焦点深度处记录,如图4(b)和图4(c)所示,与图3(d)和图3(e)的模拟结果显示出高一致性。

 

05

 

论文总结

 

在本文中,作者开发了一种基于深度CNN的方法,可以直接快速地从2D图像输入生成精确的3D CGH。CNN模型从大规模全息数据集中进行端到端训练,该数据集通过完全自动的流水线从自然图像中合成。本文的方法使得实时将任何2D图像转换为3D CGH成为可能,从而打开了利用便携式和消费级相机即时拍摄的2D图片实现逼真3D全息的大门。

 

文章链接

 

https://doi.org/10.1364/OL.478976

免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间联系我们,我们将协调进行处理,最终解释权归旭为光电所有。