近日,LD乐动体育app信息科学与工程学院范新南教授团队在单目深度估计研究中取得重要进展,研究成果以“Recurrent Multiscale Feature Modulation for Geometry Consistent Depth Learning”为题发表在人工智能领域顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)上。论文通讯作者为范新南教授和史朋飞副教授,第一作者为周仲凯博士。
在人类感知真实世界环境的过程中,人眼视觉系统获取的外部环境信息占据了其他感知系统的主导。人眼作为一种精密的视觉图像获取系统,可以准确的获取周围环境与景物的三维结构与运动信息,从而为人类的感知决策提供精确的判断依据。随着计算机技术和人工智能的迅猛发展,如何让计算机像人类一样自主感知外部环境,并替代人眼实现外部世界的目标识别、跟踪与测量,已经成为当前相关学者研究的重要课题,在此背景下,自监督单目深度估计技术应运而生。
该技术通过利用单目相机捕捉的图像信息,借助深度学习算法,从未标注的数据中自动提取深度信息,显著降低了对标注数据的依赖。这不仅使得深度估计更加经济高效,同时也拓展了其在机器人导航、自动驾驶、增强现实等领域的应用。自监督单目深度估计技术的优势在于其能够从单一视角下推断出物体的三维结构,具备较强的泛化能力和鲁棒性,从而为计算机自主感知提供了可靠的技术支持,推动了智能系统的发展与进步。
在信息科学与工程学院范新南教授的带领下,史朋飞副教授、辛元雪副教授和周仲凯博士,研究建立了一种全新的循环细化方案,提出了一种轻量级的新型多尺度循环细化单目深度估计模型。同时,针对单目深度估计模型普遍存在的深度边缘模糊和几何一致性差的问题,提出了一种面向空间几何一致性的单目深度估计方法。该成果突显了提出的循环细化方案和面向空间几何一致性的训练策略在显著提升单目深度估计模型的精度、效率和一致性方面的有效性。
图1 多尺度循环细化单目深度估计R-MSFM模型
论文的主要贡献包括:
(1)鉴于经典的由粗到细估计方案过度依赖于深度编码器,从而导致模型参数繁多和训练过程中出现的误差传播问题,创新性地提出了一种循环细化方案。基于此方案,研发了一种轻量级的多尺度循环细化单目深度估计模型R-MSFM,改善了传统由粗到细估计方案模型的局限性。作为循环细化方案的基准模型,这一多尺度循环细化单目深度估计模型在显著降低模型参数的同时,有效提升了单目深度估计的精度。该模型以其轻量化结构、较高的运行效率及较高的深度估计能力,展现了在内存受限场景下的应用潜力。
(2)鉴于当前方法在处理视频连续帧时,深度估计结果常出现几何不一致的现象,提出了一种面向空间几何一致性的训练策略。该策略通过设计专门的空间几何一致性损失函数,有效衡量相邻图像帧在有效区域内深度估计值的一致性。此外,该策略将不一致性视为一种损失进行惩罚,确保不同图像帧中相同三维点在重投影空间中保持一致的坐标位置。通过高频对齐技术,这一策略能够更精准地表征目标细节信息。该策略为单目深度估计在视频应用领域提供了新的解决方案,有望显著提升视频深度估计的准确性与一致性。
图2 深度循环细化对比可视化结果
该研究得到国家重点研发计划-智能机器人专项(2022YFB4703400)、优秀博士基金(B220203032)、江苏省自然科学基金(BK20231186)等项目的支持。合作者包括怀俄明大学的段东亮教授,明尼苏达大学的杨柳青教授。
IEEE TPAMI为国内外公认的模式识别与人工智能顶级期刊,被中国计算机学会推荐为A类期刊,2024年度的影响因子IF=20.8。主要收录人工智能、模式识别、计算机视觉及机器学习领域的原创性科研成果。
(论文链接:https://doi.org/10.1109/TPAMI.2024.3420165)