详情

神经隐式表达的内窥镜动态定位与建图技术研究

申报人:徐璐 申报日期:2023-10-09

基本情况

第二十八期“上海交通大学大学生创新实践计划”
神经隐式表达的内窥镜动态定位与建图技术研究
创新训练项目
工学
自动化类
创新类
电子信息与电气工程学院
徐璐
学生
登录状态下查看

姚莉秀,现为上海交通大学图象处理及模式识别研究所副教授、博士。 杭州大学本科毕业,中科院冶金所博士毕业。主要研究领域:模式识别、数据挖掘及其应用,主持承担国家自然科学基金项目“面向钢铁生产的数据挖掘和数据融合信息处理平台及应用”和教育部重点实验室基金项目。作为主要完成者参与了国家863项目“用于建模、优化、故障诊断的数据挖掘技术”、福特基金项目“基于数据挖掘的汽车防腐工艺的研究”。 在SCI检索学术期刊上发表本项目相关领域的论文8篇,其中第一作者4

指导教师为本申报项目提供实验室软硬件资源支持,提供学生指导本科生科研;提供实验室自主研发的科研设备使用;且实验室在该领域有充分的前期研究基础,为本项目的顺利完成打下坚实基础。

(一) 项目简介

内窥镜被广泛用于人体各个部位的检查和治疗,随着内窥镜成像技术和计算设备的进步,基于视觉的算法可以在手术中提供更多的信息。然而,复杂的解剖结构和人体生理运动使得传统基于视觉的定位和地图构建技术无法满足医疗手术的需求。本项目针对内窥镜动态定位与建图技术进行深入研究,通过神经渲染技术赋能,借助神经隐式表达的优势,研究动态场景下精准和连续的相机跟踪与场景重建,可为医生提供更加真实的动态手术场景渲染效果。


(二) 研究目的

长期以来,刚性假设是基于视觉的SLAM系统的基本前提。但是对于医疗手术场景,由于人体的生理运动,如呼吸运动,以及手术过程中手术器械与软组织交互,很显然是无法满足刚性假设的,这也是目前的视觉SLAM系统在医疗手术场景下难以应用的重要原因之一。此外,传统的基于视觉的SLAM系统只能以稀疏点云的形式对场景进行稀疏重建,并且重建结果存在大量的孔洞和伪影,很难为下游的规划与控制提供有价值的场景信息。

基于以上的背景,本项目主要的研究内容是:

1.针对内窥镜动态定位与建图技术进行深入研究,借助神经隐式表达的优势,可以更好的理解场景的物理属性,如光照、表面反射等,为医生提供更加真实的动态手术场景渲染效果。

2.通过神经渲染技术赋能,研究动态场景下精准和连续的相机跟踪与场景重建。


(三) 研究内容

1.通过神经渲染技术赋能,研究动态场景下精准和连续的相机跟踪与场景重建:

本项目针对内窥镜动态定位与建图技术进行深入研究,借助神经隐式表达的优势,可以更好的理解场景的物理属性,如光照、表面反射等,为医生提供更加真实的动态手术场景渲染效果。

2.对内窥镜组织形变进行研究,构建框架:

对内窥镜组织形变进行研究,通过将组织形变建模成神经位移场,构建新型动态定位框架;同时对内窥镜解剖结构进行研究,通过结合内窥镜场景下的光照特点与组织形变约束,构建新型的基于神经隐式表达的场景连续重建框架。

3.动态神经渲染SLAM系统在多种实际场景中的实验验证:

将上述系统在合成数据集和真实数据集上测试,以验证性能,考虑到不同场景下的组织形变会有较大的差异,项目计划在不同的场景下进行测试。


(四) 国、内外研究现状和发展动态

        肺部场景中的SLAM算法受到肺部动态场景的严重影响。与传统SLAM算法广泛应用的静态场景相比,肺部场景由于人体的生理运动,如呼吸运动,导致场景的高度动态。如何在不满足刚性假设的肺部场景下对内窥镜进行定位是具有挑战性的。为了对内窥镜进行高精度的定位,文献[1]-[3]选择将内窥镜所处环境近似为刚性环境,组织形变可以忽略不计,并应用传统的基于刚性假设的基于滤波或者基于优化的SLAM算法对内窥镜进行定位。这些方法忽视了场景的动态性,很难为后续机器人的规划与控制提供精确的位姿。因此,更多的研究将目光锁定在非刚性环境内窥镜SLAM系统。文献[4][5]通过阈值策略将特征点区分为刚性点和非刚性点,并且将非刚性点做为外点剔除,避免其对后续的内窥镜定位和建图产生影响。文献[16]假设软组织的动态运动主要是由呼吸运动造成的,通过扩展卡尔曼滤波器分析和补偿由软组织周期性运动,同时在线估计内窥镜相机的运动。文献[7]指出通过使用期望最大化和对偶四元数 (EMDQ) 算法[8],将空间中的三维坐标点表示为静态坐标与环境形变之和,从匹配的特征点中实时生成稠密的变形场,达到有效跟踪相机运动并估计非刚性组织形变的要求。文献[9] [10]通过结合ORB-SLAM2[11]和形变模型来跟踪腹腔镜的运动和估计软组织的形变。这些方法的显著局限性在于,它们要么忽视体内场景的动态性,使用传统的SLAM算法进行定位和建图;要么通过双目内窥镜来获取深度信息,避免单目相机带来的尺度不确定的问题。但是,由于活检机器人的尺寸要求,在其末端安装双目相机变的不切实际。文献[11]使用单目相机,通过预先计算的模板,基于模板形状恢复(Shape-From-Template)技术来恢复相机的位姿估计场景的形变,但是该算法需要对预先计算场景的模板,随着内窥镜的运动,场景也会发生改变,相应的模板改变,这使得该算法很难在实际的场景中实时应用。文献[12]通过单目内窥镜视频,结合模板形状恢复(Shape-From-Template)和非刚性运动结构恢复 (Nonrigid Structure-From-Motion)两种技术,通过文献[13]中的方法来跟踪内窥镜的运动和恢复场景的形变,同时通过NRSfM来生成模板,更加贴近了实际应用的实时性。这些算法虽然使用单目相机进行定位和建图,解决了传感器的尺寸问题,但是一方面由于单目视觉SLAM存在的尺度模糊问题无法很好的解决,导致定位精度和地图重建的效果较差,几乎无法以所需的精度运行;另外一方面,得到的场景地图存在大量的伪影,很难为后续活检机器人的导航、配准等下游任务提供准确的信息。

[1]    Grasa O G, Bernal E, Casado S, et al. Visual SLAM for handheld monocular endoscope[J]. IEEE transactions on medical imaging, 2013, 33(1): 135-146.

[2]    Mahmoud N, Collins T, Hostettler A, et al. Live tracking and dense reconstruction for handheld monocular endoscopy[J]. IEEE transactions on medical imaging, 2018, 38(1): 79-89.

[3]    Qiu L, Ren H. Endoscope navigation and 3D reconstruction of oral cavity by visual SLAM with mitigated data scarcity[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018: 2197-2204.

[4]    Grasa O G, Civera J, Montiel J M M. EKF monocular SLAM with relocalization for laparoscopic sequences[C]//2011 IEEE International Conference on Robotics and Automation. IEEE, 2011: 4816-4821.

[5]    Lin B, Johnson A, Qian X, et al. Simultaneous tracking, 3D reconstruction and deforming point detection for stereoscope guided surgery[M]//Augmented Reality Environments for Medical Imaging and Computer-Assisted Interventions. Springer, Berlin, Heidelberg, 2013: 35-44.

[6] Mountney P, Yang G Z. Motion compensated SLAM for image guided surgery[C]//International conference on medical image computing and computer-assisted intervention. Springer, Berlin, Heidelberg, 2010: 496-504.

[7] Zhou H, Jayender J. EMDQ-SLAM: Real-time high-resolution reconstruction of soft tissue surface from stereo laparoscopy videos[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2021: 331-340.

[8] Zhou H, Jayender J. EMDQ: Removal of Image Feature Mismatches in Real-Time[J]. IEEE Transactions on Image Processing, 2021, 31: 706-720.

[9] Song J, Wang J, Zhao L, et al. Mis-slam: Real-time large-scale dense deformable slam system in minimal invasive surgery based on heterogeneous computing[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 4068-4075.

[10] Song J, Wang J, Zhao L, et al. Dynamic reconstruction of deformable soft-tissue with stereo scope in minimal invasive surgery[J]. IEEE Robotics and Automation Letters, 2017, 3(1): 155-162.

[11] Mur-Artal R, Tardós J D. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras[J]. IEEE transactions on robotics, 2017, 33(5): 1255-1262.

[12] Lamarca J, Montiel J M M. Camera tracking for SLAM in deformable maps[C]//Proceedings of the European Conference on Computer Vision (ECCV) Workshops. 2018: 0-0.

[13] Lamarca J, Parashar S, Bartoli A, et al. Defslam: Tracking and mapping of deforming scenes from monocular sequences[J]. IEEE Transactions on robotics, 2020, 37(1): 291-303.


(五) 创新点与项目特色

1、过程简洁,精度高。没有特征提取,直接操作原始像素值。误差回归到了像素本身,信息传递更加直接,优化过程所见即所得。

2、上限高,可对map进行细致的优化。无论是隐式还是显式的map表达都可以进行微分,即可以对map进行full-dense优化。而传统SLAM基本无法优化稠密图,通常只能优化有限数量的特征点或者对map进行覆盖更新。

3、对数据要求低,实用性强,能实时地用图像序列实现准确的辐射场构建,并且不需要位姿或深度输入。

4、技术先进,创新性强。体内环境拥有组织形变、场景动态改变等难点,难以直接应用现有SLAM系统。预期成果适用于室内手术、体内等特化环境,解决上述难点,获得较好的体内环境的三维重建效果,填补相关技术空白。

5、特化SLAM系统。针对体内的特殊光照环境和特殊运动形式,改进神经辐射场中的渲染方程,使其能够适应体内环境,获得较好的效果。


(六) 技术路线、拟解决的问题及预期成果

技术路线:

1. 调研当前已有的基于神经隐式表达的SLAM系统,获取重要信息;

2. 对内窥镜组织形变进行研究,通过将组织形变建模成神经位移场,构建新型动态定位框架;

3. 对内窥镜解剖结构进行研究,通过结合内窥镜场景下的光照特点与组织形变约束,构建新型的基于神经隐式表达的场景连续重建框架

4. 收集制作内窥镜数据集

5. 通过合成数据集和真实内窥镜数据集进行大规模测试,分析系统的整体性能;

6. 撰写结题报告和学术文章(拟发表与医学/机器人领域顶尖会议或者期刊)

拟解决问题:

1. 现有的基于视觉的SLAM系统由于存在基本前提——刚性假设,难以用于医疗手术场景。我们希望通过对内窥镜动态定位与建图技术的深入研究,研发出适用与动态手术场景的SLAM系统;

2. 传统基于视觉的SLAM系统重建结果稀疏,存在大量的孔洞和伪影,信息质量有限。我们希望通过对神经渲染技术的研究,能够使得场景重建结果更加精准和连续。

预期成果:

针对内窥镜动态定位与建图技术进行深入研究,借助神经隐式表达的优势,更好地理解场景的物理属性,如光照、表面反射等,为医生提供更加真实的动态手术场景渲染效果。通过神经渲染技术赋能,研究动态场景下精准和连续的相机跟踪与场景重建。

发表一篇高水平的期刊或会议论文。


(七) 项目研究进度安排

1、 第一阶段(202310-11月):进行PythonC++的培训,初步掌握深度学习简单实现原理方法及SLAM的基础知识。

2、 第二阶段(202312月):期间针对SLAM的经典框架和内窥镜组织结的相关医学知识进行学习与熟悉,并进行讨论完善。

3、 第三阶段(20241-5月):SLAM系统搭建,完善各个模块,不断进行测验和完善。

4、 第四阶段(20246-7月):完成论文(研究报告)的发表及成果展示。

 

(八) 已有基础

1. 与本项目有关的研究积累和已取得的成绩

1.1学术界对与SLAMNeRF技术已经有了大量的研究积累,可供项目学习与参考。

1.2实验室在神经隐式表达以及内窥镜动态定位与建图技术方面已经有了较长时间的研究积累,在静态场景下展现了良好的性能。

 

2. 已具备的条件,尚缺少的条件及解决方法

已具备的条件:

项目组成员已经对编程有了基础的掌握,通过对相关课程的学习,能较快掌握项目所需的代码语言、算法框架、环境配置等技术;具备文献查找能力且已阅读相关技术领域的综述及相关入门资料,能以此快速入门并了解SLAMNERF等领域的最新前沿发展现状。

尚缺少的条件及解决方法:

1.SLAM与神经辐射场自提升系统存在运算开销较大,所需时间较长,难以实时。解决方法:尝试在已有的基础上改进原始算法和优化NeRF网络结构,探索设计基于SLAM的神经辐射场三维场景重建模型。

2.GPU资源有限,难以支撑过多的训练测试。解决方法:在项目期间合理分配资源,提高单块GPU使用率,在合理范围内提高Batch Size。或者申请更多学校GPU资源,满足训练测试的需求。

选题成员

2

指导教师

序号 教师姓名 电子邮箱 所属学院
1 姚莉秀 登录状态下查看 自动化与感知学院 第一指导教师

选题附件

  • 上海交通大学大学生创新实践计划项目申请表.docx
    下载附件需要您先登录系统
结束