详情

自动驾驶场景下投影感知的二维三维融合场景感知学习

申报人:吕欣格 申报日期:2022-09-27

基本情况

第二十六期“上海交通大学大学生创新实践计划”项目
自动驾驶场景下投影感知的二维三维融合场景感知学习
创新训练项目
工学
自动化类
创新类
电子信息与电气工程学院
吕欣格
学生
登录状态下查看

(一) 项目简介

场景感知是自动驾驶领域一个十分重要的问题,包括对于激光雷达点云语义分割,场景流预测等。基于激光雷达扫描得到的点云信息,通过合适的学习方法,智能体能够对周围环境的几何和语义信息进行感知,从而进行更加智能的决策。课题通过一种投影感知的学习方式,运用点云的球面投影和新颖的投影感知算子来进行场景感知的学习,以到达高性能和高效率的平衡,从而使得算法能够运用于实际的自动驾驶场景之中。

(二) 研究目的

随着激光雷达技术的不断发展,目前我们可以获得大范围的点云数据并对其进行逐点信息的分析。在自动驾驶领域,对室外大规模点云数据逐点进行语义和几何信息分析的研究方向得到很高的关注度。同时,深度学习(deep learning)的迅速发展,在计算效率以及计算精度等方面都取得了长足的进步,但对大规模点云数据的实时场景感知分析仍需要更进一步的探索和研究。

基于以上背景,本次项目的主要目的是:
1.
基于点云的球面投影和新颖的投影感知算子,设计基于投影感知2D-3D融合的语义分割网络,并与当前最好基于投影方式的点云语义分割方法在效率和性能上进行比较。

2. 在语义分割网络的基础上,引入分层代价网络结构来进行三维场景流任务的学习,并实现语义分割和场景流任务的联合学习,以实现语义分割得到的语义信息对场景流预测任务的引导学习。

(三) 研究内容

针对以上提出的研究目的,本项目的研究内容主要分为以下两个部分,包括基于投影感知2D-3D融合语义分割网络设计,和基于投影感知2D-3D融合的语义分割和场景流联合学习:

第一部分:

我们将设计一种投影感知的2D-3D融合网络架构来实现激光雷达点云的逐点语义分割。针对大规模点云3D语义分割问题,我们将对基于投影的类PointNet 模块开展研究,以提升算法的效率。该种结构通过使用点云的2D数据表征和新颖的投影感知算子Stride Based SamplingProjection-aware Grouping,相对以往工作中的基于3D数据表征的类PointNet 模块,可以在更少时间内实现邻居查询(grouping),降采样(downsampling)和特征聚合(feature aggregation),从而高效地进行大规模的点云语义分割。我们还将对投影感知的2D-3D融合模块开展研究,通过一种基于注意力的融合模块来融合分别通过2D卷积和基于投影的类PointNet模块聚合得到的2D3D特征,以使得网络结构能够达到 3D 结构信息感知,从而弥补投影损失,以提高网络分割结果的精准程度。

我们将在SemanticKITTI数据集上利用类别平均交并比(mean IoU)来评估网络语义分割的性能,并与当前最好的基于投影的语义分割方法进行比较。同时,将基于在SemanticKITTI数据集上每帧点云的语义分割的运行时间评估网络的效率,和目前最好的基于3D原始点云的方法和基于投影的方法进行比较。

第二部分:

我们将基于对于点云3D语义分割问题的研究,设计点云3D场景流和语义分割多任务联合学习的网络框架。通过一种基于代价量(Cost Volume)的分层结构,从粗到细地联合输出点云的语义分割和场景流预测结果,并设计一种基于注意力机制的引导模块,通过基于语义分割特征得到的注意力权重来引导场景流的加权聚合。该模块旨在引入语义分割架构,基于语义分割架构的信息来引导场景流的预测,从而得到更加准确的场景流估计结果并同时预测得到周围环境的语义信息。在KITTI数据集上,通过类别平均交并比(mean IoU)和EPE3D对语义分割任务和场景流预测任务进行评估,并与当前最好方法进行比较。

选题成员

5

指导教师

序号 教师姓名 电子邮箱 所属学院
暂无数据

选题附件

  • 王光明_郑煜_自动驾驶场景下投影感知的二维三维融合场景感知学习.docx
    下载附件需要您先登录系统
结束