概述

在刚刚结束的CVPR 2024会议上,浪潮信息AI团队在备受瞩目的自动驾驶国际挑战赛“Occupancy & Flow”赛道中,以48.9%的出色成绩从全球90余支顶尖AI团队中脱颖而出,摘得桂冠。这是该团队继2022年、2023年在nuScenes 3D目标检测榜单上夺冠后,又一次展示其在自动驾驶领域的强大实力。

浪潮信息AI团队在CVPR 2024自动驾驶
图1-浪潮信息AI团队斩获占据栅格和运动估计赛道第一名

CVPR 2024自动驾驶国际挑战赛

CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是计算机视觉领域的顶级学术会议,而自动驾驶国际挑战赛是其中的重要组成部分,专注于自动驾驶技术的创新与应用。今年的挑战赛包含感知、预测、规划三大方向的七个赛道,吸引了全球17个国家和地区的90余支顶尖AI团队参与。

Occupancy & Flow赛道

浪潮信息AI团队在占据栅格和运动估计(Occupancy & Flow)赛道中,展示了其在感知任务上的卓越能力。比赛基于nuScenes数据集,要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以评估感知系统在高度动态及不规则驾驶场景下的表现能力。

浪潮信息AI团队在CVPR 2024自动驾驶
图2 – 针对挖车中的力臂,3D目标检测算法只能给出挖车整体的轮廓框(左),但占据栅格网络却可以更精准地描述挖车具体的几何形状这类细节信息(右)

占据栅格(Occupancy)

占据栅格网络(Occupancy Networks)是一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理未被明确标注或形状复杂的障碍物。这种方法相比传统的三维物体检测方法,具有更高的精度和分辨率,能够更准确地理解周围环境。

关键技术与创新

浪潮信息AI团队在此次挑战赛中提交的“F-OCC”算法模型,通过先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道的最强模型性能。

高效模型架构

团队选择了基于前向投影的感知架构,并采用了高效且性能良好的FlashInternImage模型。通过对整体流程进行超参调优和算子加速优化,模型在占据栅格和运动估计任务中均获得了最高分,同时提升了模型的运算效率和推理速度。

数据处理优化

比赛提供的体素标签包含大量在图像中无法观测到的点,训练过程中可能干扰基于图像数据的预测网络。浪潮信息AI团队通过模拟LiDAR光束的方法生成可视化掩码,提升了模型的预测精度;同时引入感知范围边缘的体素点参与训练,有效解决了误检问题,将模型的整体检测性能提升了11%。

3D体素编码优化

在3D体素特征编码模块中,团队将可形变卷积操作(DCN3D)应用于3D体素数据,以提升3D特征的表示能力。通过使用CUDA实现与优化DCN3D,大幅提升了模型的运算速度,并有效降低了显存消耗。最终,模型的占据预测能力提升超过5%。

其他赛道成绩

除Occupancy & Flow赛道外,浪潮信息AI团队还在“大语言模型在自动驾驶中的应用”(LLM4AD)赛道中取得了第五名的成绩,展示了其在多模态感知和理解方面的深厚实力。

总结

浪潮信息AI团队在CVPR 2024自动驾驶国际挑战赛中的出色表现,再次证明了其在自动驾驶技术领域的领先地位。通过创新的算法和优化的模型结构,他们成功应对了复杂的感知任务,为自动驾驶系统的安全性、精度和可靠性提供了新的解决方案。未来,随着技术的不断进步,我们期待看到浪潮信息AI团队在自动驾驶领域取得更多突破和成就。

Leave a Reply

Your email address will not be published. Required fields are marked *