|

引言
$ G/ \' P* u G自动驾驶车辆需要强大且实时的3D感知能力,以便在复杂环境中安全导航。由NVIDIA开发的NVAutoNet是一种专门设计的鸟瞰图(BEV)感知网络,旨在满足自动驾驶汽车的独特挑战。本文将探讨NVAutoNet的主要特点、架构和性能,展示其在推动自动驾驶技术发展方面的潜力[1]。
# \2 H- m3 | w- H" e$ P
: [& m3 b$ B& c
j0i3g3y4hch6403232733.png
' Q# h% u) R* r6 P" v1 ^# U& |图1: NVAutoNet架构概览,展示了从全景图像到3D感知输出的处理过程。
w4 k5 q \7 | }% n H: ^2 c7 _# G: J; e- T$ }
NVAutoNet以同步的相机图像作为输入,预测3D信号,如障碍物、可行驶空间和停车位。其架构在准确性和计算效率之间取得了平衡,适合部署在NVIDIA DRIVE Orin SoC等嵌入式系统上。
O6 x( H' E, W' i: x9 k+ t( F' j7 P+ W) b1 W
NVAutoNet的主要特点:多相机输入: 系统处理来自8个相机的图像,提供车辆周围360度的视图。快速推理: NVAutoNet实现了18毫秒的延迟,能够以53帧每秒的速度运行。扩展范围: 网络可以探测200米远的物体,这对高速公路驾驶场景非常重要。端到端训练: 整个系统采用端到端方式训练,优化所有组件。模块化设计: NVAutoNet的架构允许轻松适应不同的车型和传感器配置。车内测试: 系统已在各种驾驶条件下进行了广泛的实际测试验证。
! r, {. e4 i& Z[/ol]6 p; |" g- R7 e7 i q7 Y
架构概述
8 M& K5 O1 \$ D; W5 M- ]NVAutoNet的架构包含几个关键组件:基于CNN的图像特征提取器: 这些提取器通过硬件感知神经架构搜索(NAS)进行定制,以实现高精度和低延迟。多相机融合: 融合发生在BEV层面,结合了早期和晚期融合方法的优点。透视图到BEV的转换: 通过逐列多层感知器(MLP)层和BEV查找表高效执行。BEV特征提取器: CNN主干网络处理融合的BEV特征,提取高级表示。特定任务的头部: 使用多个头部进行不同的感知任务,包括3D物体检测、可行驶空间检测和停车位检测。
4 r( S% q4 U g' C% v( b[/ol]
+ ]& r* P& K4 j# N( Z n( ^( @; [! ^7 C" ? U# m
m4xagynwwtd6403232834.png
+ Z- g3 D3 }: a9 T6 c, ` Y图2: NVAutoNet中透视图到BEV视图转换过程的图示。4 _; X( @: ~8 F2 r
' b9 R7 d" g/ U2 d( R图像到BEV的转换
3 n1 ~, v$ s( R& tNVAutoNet的一个关键创新是其高效的图像到BEV转换方法。- N5 e( j) Q1 @5 a& l; f
与之前依赖计算密集型3D体素表示或注意力机制的方法不同,NVAutoNet使用了巧妙的基于MLP的方法:
" o J' E( e$ `2 I ^$ H# N每个图像列由MLP独立处理,生成"伪BEV"特征。这些特征随后通过预先计算的查找表映射到最终的BEV网格。查找表使用多项式函数生成,这些函数模拟图像坐标和BEV坐标之间的关系。
: V0 M0 a: J b1 e- p& n
6 j- W/ |4 s5 X4 j$ Y这种方法允许快速准确的转换,同时考虑相机的内部和外部参数,使其适应不同的车辆配置。* l% _6 d# ^2 U2 }. w0 S
+ ~, f& O% E" O4 t* W7 e; n6 e+ |( o, n3 g+ g; I! b' l/ c# w
感知任务. ?, D- f' f ^) u8 {' L! b% ~
NVAutoNet同时执行多个感知任务:
5 Q% V) \3 C% r! Z
/ u6 K, @+ u9 `1 V- m1. 3D物体检测:- Z5 T* j, V" D* A( g: h' p) r
检测和分类物体,如车辆、卡车、行人和骑自行车者。
; ?8 z+ O" z; a- U估计3D边界框,包括位置、尺寸和方向。; L" x5 _1 F' Y" R
使用集合预测方法,消除了对非极大值抑制的需求。" w+ A6 `3 T) a# R2 s: W; Z
$ |2 S/ G- X5 O: J* F8 v
2. 3D可行驶空间检测:
8 ^% X! ^, K# [4 F预测可行驶区域并识别边界。
5 G; l4 G, {( I! [3 L9 d m7 H使用径向距离图(RDM)表示可行驶空间,以提高效率。7 N& k4 Y7 |- a$ I& h9 Y
包括边界类型的分类(例如,车辆、易受伤害的道路使用者、其他)。 {; S k4 l2 T: ?
% R; ~% C) g# f, ~
3. 3D停车位检测:3 |+ U; k: n# V2 {# k5 H
定位和分类停车位(斜角、平行、垂直)。/ A, |9 k* K0 f7 v4 B
将停车位表示为具有中心、尺寸和方向的定向矩形。
) g# V9 U1 d; W) O# ~5 i
# y; S; o& Y6 k$ q. n% {多任务学习' c$ H% e* c+ h* j0 m% `* [ f
NVAutoNet采用新颖的多任务学习方法来平衡不同的感知任务:自适应权重调整: 根据每个任务在所有样本中的总损失动态更新特定任务的损失权重。两阶段方法: 首先使用统一权重进行初始训练,然后根据各个任务的性能进行微调。* r, c1 o) y$ Y& {, n0 Y" a
[/ol]( W/ J4 H3 y5 j0 m
这种方法使网络能够有效地学习所有任务,而不会让某一任务主导其他任务,从而实现平衡和准确的多任务感知。
1 x h& M! K6 k- K- b3 R( E3 e9 s% m0 H B
hrhrd20yder6403232934.png
) g( {5 K+ C0 e( X
图3: NVAutoNet的定性结果,显示了各种场景下的障碍物、可行驶空间和停车位检测。
; e3 _7 K2 W! c' H0 Z6 K& w
1 V% U$ x) i X5 R. y* w! u9 e( M8 C性能和结果8 P* V' r8 a, t6 Z3 Q: l
NVAutoNet在各种指标上展示了令人印象深刻的性能:/ b' d6 }5 Y8 y4 I
延迟: 在NVIDIA DRIVE Orin嵌入式GPU上实现18.72毫秒的延迟(53 FPS)。3D物体检测: 总体mAP达到0.465,对车辆的检测性能最佳(AP 0.638)。3D可行驶空间: 在可行驶空间估计中达到77.59%的成功率。3D停车位: 停车位检测的总体AP达到0.58,平均IoU为0.85。
. l4 \7 [' n; H
# @! C# h% G' n( S4 E8 O该系统表现出良好的泛化能力,在不同的距离范围和车型上保持高性能。& z* e; a( |" r$ L! |, z
* \4 A9 `" p! Z7 V5 a, H' J适应性和迁移学习; v" R. J" Z2 j# \% I$ u7 K3 G
NVAutoNet的一大优势是能够以最少的再训练适应不同的车辆平台。实验表明:在汽车数据上预训练的模型,即使没有任何微调,在卡车数据上也表现得相当好。使用少量卡车数据(50K场景)进行微调可显著提高性能。网络可以快速适应新的传感器配置和车型,使其高度适合生产使用。
+ Q5 {# L% p% \" J; a2 \8 D[/ol]
9 ^2 {; C T6 X' S9 g1 R结论
' _0 }7 y. T) m9 l% hNVAutoNet代表了自动驾驶车辆3D感知技术的进步。其准确性、效率和适应性的结合使其非常适合实际部署。高效的图像到BEV转换和有效的多任务学习等关键创新为其出色的性能做出了贡献。" W9 c5 X% Y1 Y- V! V% n+ M8 g2 u
4 S( N* T6 \0 q自动驾驶技术的不断发展,NVAutoNet系统将在实现更安全、更可靠的自动驾驶车辆方面发挥关键作用。未来的工作可能会集中在将BEV感知扩展到完整的3D体积感知、增加检测范围以及纳入更复杂的场景理解能力。, I- I: y R. u
( j( s a6 f3 L$ A M% v" u
参考文献
2 f7 i4 E8 n% T s' N[1] T. Pham et al., "NVAUTONET: FAST AND ACCURATE 360° 3D VISUAL PERCEPTION FOR SELF DRIVING," arXiv:2303.12976v4 [cs.CV], Nov. 2023.
& n+ P; C$ L) {$ b/ q/ c( v! d: G2 f: d9 H
- END -$ U) C, G7 P) S
& c( v0 `; F9 t9 E/ S
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
- l! J3 ~7 @. u! Y8 C- c2 d4 b点击左下角"阅读原文"马上申请9 s @7 `7 E) M+ m- W. G
( o& T. q$ _: x$ `1 G
欢迎转载' j) L. M5 n1 w$ u, O N/ F
- [" i' v; r' S& G: R
转载请注明出处,请勿修改内容和删除作者信息!
3 O0 T7 c$ R, `. f; m3 W
" Q9 g$ |% @ `) n, I% v1 h( K; e3 T4 n7 p C
7 R: q* ~& h9 e4 p
r4kjkbcoke36403233034.gif
1 b' n T0 ~4 w" g/ h+ w+ A0 U
2 o, x( F. p% B8 h9 {
关注我们+ v9 B7 \ ]/ t `
. J% N' i+ v9 m* o* R8 `
, `' a& U4 }+ i3 N; K4 h
4ytxomsvcel6403233134.png
/ ^- W: e3 {* |! K x% m" X4 b! c* `# [ |
) n) X7 F5 c" H" W A8 D
530l4w1lgey6403233234.png
: I" B5 u3 n7 F2 \; o5 { | Z$ x; i) ~2 {: [6 [+ K
erkltsawusi6403233334.png
, |) D2 I* s) \: c
|
3 U& O+ o( ]1 p, b% w0 D7 \$ U% ~* ]" d0 x& i- o9 g, x1 d
* }" q7 X# F( u# N: F* X5 Y2 ~* r# _6 }- A) q
关于我们:
& A" h. m8 q- ]6 B/ ]# Y4 }, F深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
" R, H7 J* r P4 H
* F! ?7 Z0 ?4 T2 x+ x' \http://www.latitudeda.com/
# r l# [8 w, z% r6 w(点击上方名片关注我们,发现更多精彩内容) |
|