|
引言& r: Z3 |5 d- z$ b5 k, x4 g
自动驾驶车辆需要强大且实时的3D感知能力,以便在复杂环境中安全导航。由NVIDIA开发的NVAutoNet是一种专门设计的鸟瞰图(BEV)感知网络,旨在满足自动驾驶汽车的独特挑战。本文将探讨NVAutoNet的主要特点、架构和性能,展示其在推动自动驾驶技术发展方面的潜力[1]。
5 i- o7 M! V, v! H' D$ I) x; V; F p
j0i3g3y4hch6403232733.png
0 }# e2 k: ^9 ` V( h( ~' i图1: NVAutoNet架构概览,展示了从全景图像到3D感知输出的处理过程。
8 i4 P6 Y: O: D/ C( E' t7 h
3 y* u* Z0 e3 U, d% K8 Z& |6 KNVAutoNet以同步的相机图像作为输入,预测3D信号,如障碍物、可行驶空间和停车位。其架构在准确性和计算效率之间取得了平衡,适合部署在NVIDIA DRIVE Orin SoC等嵌入式系统上。
8 z9 R! |4 q" ^/ n% }
: u4 m% s: A3 a; [) m, E8 NNVAutoNet的主要特点:多相机输入: 系统处理来自8个相机的图像,提供车辆周围360度的视图。快速推理: NVAutoNet实现了18毫秒的延迟,能够以53帧每秒的速度运行。扩展范围: 网络可以探测200米远的物体,这对高速公路驾驶场景非常重要。端到端训练: 整个系统采用端到端方式训练,优化所有组件。模块化设计: NVAutoNet的架构允许轻松适应不同的车型和传感器配置。车内测试: 系统已在各种驾驶条件下进行了广泛的实际测试验证。+ ?' y: H% z. ]
[/ol]
9 a2 X! \$ e; _" x8 \* P; a0 M* n/ o架构概述
( y+ L- Z j4 HNVAutoNet的架构包含几个关键组件:基于CNN的图像特征提取器: 这些提取器通过硬件感知神经架构搜索(NAS)进行定制,以实现高精度和低延迟。多相机融合: 融合发生在BEV层面,结合了早期和晚期融合方法的优点。透视图到BEV的转换: 通过逐列多层感知器(MLP)层和BEV查找表高效执行。BEV特征提取器: CNN主干网络处理融合的BEV特征,提取高级表示。特定任务的头部: 使用多个头部进行不同的感知任务,包括3D物体检测、可行驶空间检测和停车位检测。
; d6 S6 b6 V1 q: |( r* V; g[/ol]/ f0 l. e% Y% z7 }; ]/ X5 p& R
4 Y' P4 g2 e! j- {& ` ^
m4xagynwwtd6403232834.png
: _9 I; h% X S; z+ t. t图2: NVAutoNet中透视图到BEV视图转换过程的图示。
2 |2 L* S) S6 A# Y( P* _1 e8 S7 x, [% J! l1 e' E. G' {" |3 I- Z
图像到BEV的转换7 o0 ^) @6 y7 u
NVAutoNet的一个关键创新是其高效的图像到BEV转换方法。. S: v2 ]6 y: B. q! c: k. ^
与之前依赖计算密集型3D体素表示或注意力机制的方法不同,NVAutoNet使用了巧妙的基于MLP的方法:
|; r. l8 ~0 G: y/ A0 g2 ~每个图像列由MLP独立处理,生成"伪BEV"特征。这些特征随后通过预先计算的查找表映射到最终的BEV网格。查找表使用多项式函数生成,这些函数模拟图像坐标和BEV坐标之间的关系。+ T' C B7 n" P: t# P. G
! ?, p) e% [' d( ~, d% g* f
这种方法允许快速准确的转换,同时考虑相机的内部和外部参数,使其适应不同的车辆配置。
# ?0 A0 f* D" u" w0 V) j
* I8 [) e" P2 X6 p2 A3 K6 d% M, z' M7 e2 C) {* H6 A& d
感知任务) I, b: @0 ^& w0 x8 _
NVAutoNet同时执行多个感知任务:7 C' A$ l5 r8 A9 I, g& ]
2 l7 G6 g5 q6 `
1. 3D物体检测:+ P9 N) O4 j- D% S( b! g0 [
检测和分类物体,如车辆、卡车、行人和骑自行车者。$ Q& {( g2 a' i( L; o+ _
估计3D边界框,包括位置、尺寸和方向。" R! z0 X6 k% K" e) ~
使用集合预测方法,消除了对非极大值抑制的需求。
& ?# R% h y. C* v7 N' r" @/ M7 b" n0 |+ @
2. 3D可行驶空间检测:
$ g$ t8 Q( E1 V预测可行驶区域并识别边界。5 E1 x% n7 Y/ k
使用径向距离图(RDM)表示可行驶空间,以提高效率。5 m- [" v7 f% @3 x! i/ G7 K
包括边界类型的分类(例如,车辆、易受伤害的道路使用者、其他)。7 [* R$ U6 M/ E
, _- @2 p/ k+ _+ N$ S$ j8 a. e( E
3. 3D停车位检测:9 s! H1 Q+ i& ]" k! T
定位和分类停车位(斜角、平行、垂直)。5 P! q: G! _% T! [
将停车位表示为具有中心、尺寸和方向的定向矩形。
$ f4 p& ?7 D9 {& I
$ W% H4 [* r: x( t, c; H6 }多任务学习, G- P% _ J( o6 F! G* u
NVAutoNet采用新颖的多任务学习方法来平衡不同的感知任务:自适应权重调整: 根据每个任务在所有样本中的总损失动态更新特定任务的损失权重。两阶段方法: 首先使用统一权重进行初始训练,然后根据各个任务的性能进行微调。$ t) \$ [5 q) [4 o: i( m( Y/ N
[/ol]2 `& W# F; b: E! G' Y. e j; E. y
这种方法使网络能够有效地学习所有任务,而不会让某一任务主导其他任务,从而实现平衡和准确的多任务感知。
3 j. u* Q' A6 a9 d; |0 D1 @
8 T# g- q6 I9 s
hrhrd20yder6403232934.png
5 E' w& P {" u* B: b
图3: NVAutoNet的定性结果,显示了各种场景下的障碍物、可行驶空间和停车位检测。% g; z" z5 c7 ~* d5 }5 L/ I3 k
; j; _1 g: d0 i性能和结果
3 r% l9 [# d. w' e0 Y: LNVAutoNet在各种指标上展示了令人印象深刻的性能:
9 w& n, v( a) W, O' {延迟: 在NVIDIA DRIVE Orin嵌入式GPU上实现18.72毫秒的延迟(53 FPS)。3D物体检测: 总体mAP达到0.465,对车辆的检测性能最佳(AP 0.638)。3D可行驶空间: 在可行驶空间估计中达到77.59%的成功率。3D停车位: 停车位检测的总体AP达到0.58,平均IoU为0.85。1 Y# W3 N4 `! F; P. v7 M- n
' U; U# K$ W3 i" N( P1 g) V
该系统表现出良好的泛化能力,在不同的距离范围和车型上保持高性能。6 P: I+ f0 L- N3 A, w% V
5 _ \0 V3 o8 i9 B! q4 I1 i
适应性和迁移学习+ v3 V j9 V& |5 _/ ^
NVAutoNet的一大优势是能够以最少的再训练适应不同的车辆平台。实验表明:在汽车数据上预训练的模型,即使没有任何微调,在卡车数据上也表现得相当好。使用少量卡车数据(50K场景)进行微调可显著提高性能。网络可以快速适应新的传感器配置和车型,使其高度适合生产使用。
. z' |; \% f: Y% w; W[/ol]9 l5 I6 T4 v* \6 T
结论" g: R8 H' x! \5 y# Z2 o4 z8 V3 \- b
NVAutoNet代表了自动驾驶车辆3D感知技术的进步。其准确性、效率和适应性的结合使其非常适合实际部署。高效的图像到BEV转换和有效的多任务学习等关键创新为其出色的性能做出了贡献。
9 P/ Q/ h, D5 W$ ]( r. M1 M9 S4 Y- o/ E3 m
自动驾驶技术的不断发展,NVAutoNet系统将在实现更安全、更可靠的自动驾驶车辆方面发挥关键作用。未来的工作可能会集中在将BEV感知扩展到完整的3D体积感知、增加检测范围以及纳入更复杂的场景理解能力。 e% v9 Z3 L! c$ S1 s, W
3 d- v+ e8 O1 N! E8 ]4 ?/ H
参考文献7 l# ^! B" N8 J! W' `
[1] T. Pham et al., "NVAUTONET: FAST AND ACCURATE 360° 3D VISUAL PERCEPTION FOR SELF DRIVING," arXiv:2303.12976v4 [cs.CV], Nov. 2023.
9 G/ c3 C8 A2 j. K' z! I/ {2 V* D* { E! W+ S
- END -$ _6 R- h7 e, @) l
) H; I+ ~' Z$ W/ `# N+ s软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。' g" p/ n# j9 d0 c+ K* O# O
点击左下角"阅读原文"马上申请
- g ?+ J0 L! A+ X0 u3 x$ y( i5 o! Z4 G" D- ]6 J6 n
欢迎转载8 s) c) D9 B, a# `( g8 b7 h
7 A$ x4 `: ~3 A$ i! }6 ]% _
转载请注明出处,请勿修改内容和删除作者信息!
- @( M Z; K; v2 ?: |3 G
0 S9 v7 N% \' T. V, L# G. P
! [- K$ z1 {5 T7 o% b: f4 ]! e, ]8 _1 c5 }. s! M3 [7 w, {
r4kjkbcoke36403233034.gif
; `/ r( y* R. `) t& Y% @, o
* m. O+ K- l; J3 d% s8 c
关注我们
) D: O1 u7 k9 U) ~- U4 I7 }
( M. e1 B _9 E( h& j E
3 I7 c- ~% d. s
4ytxomsvcel6403233134.png
/ j7 {- ^0 r# [. i# ]+ h
|
3 Y! n1 d9 n* b+ Y% l
530l4w1lgey6403233234.png
6 ]0 ?8 u y9 w& r
| 9 g8 W4 W$ F* Y! J' v4 X. V! ]
erkltsawusi6403233334.png
9 V. X9 F: a! I7 O6 q; W! F
| ; B# u$ E/ }$ K" P
/ P* z" r' Z4 y, r$ T
8 k+ t. ?, S2 J* J& S' o7 }4 F. E4 p0 _6 ^
关于我们:( S/ i0 s$ ^4 d
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。3 V" N0 \+ M- l/ |& V8 G* z
2 b+ G- v+ d; }( R C q
http://www.latitudeda.com/
' d3 x2 ~. F4 W+ f(点击上方名片关注我们,发现更多精彩内容) |
|