|
引言
1 C5 j! y6 Z1 M @* W自动驾驶车辆需要强大且实时的3D感知能力,以便在复杂环境中安全导航。由NVIDIA开发的NVAutoNet是一种专门设计的鸟瞰图(BEV)感知网络,旨在满足自动驾驶汽车的独特挑战。本文将探讨NVAutoNet的主要特点、架构和性能,展示其在推动自动驾驶技术发展方面的潜力[1]。
/ t! G% E3 T( n3 j' C1 Y: u, R! u% P& r6 P
j0i3g3y4hch6403232733.png
7 f5 N4 [. \( B, y) c- k4 A+ c
图1: NVAutoNet架构概览,展示了从全景图像到3D感知输出的处理过程。* }& f4 r! _+ D/ R
! Q& d( j0 t3 v3 T
NVAutoNet以同步的相机图像作为输入,预测3D信号,如障碍物、可行驶空间和停车位。其架构在准确性和计算效率之间取得了平衡,适合部署在NVIDIA DRIVE Orin SoC等嵌入式系统上。! y9 j9 m) L5 ^! B/ t, ~- g
: @$ Y% X1 p0 c0 e; E" }. Y$ D- wNVAutoNet的主要特点:多相机输入: 系统处理来自8个相机的图像,提供车辆周围360度的视图。快速推理: NVAutoNet实现了18毫秒的延迟,能够以53帧每秒的速度运行。扩展范围: 网络可以探测200米远的物体,这对高速公路驾驶场景非常重要。端到端训练: 整个系统采用端到端方式训练,优化所有组件。模块化设计: NVAutoNet的架构允许轻松适应不同的车型和传感器配置。车内测试: 系统已在各种驾驶条件下进行了广泛的实际测试验证。* p" S9 K9 I4 I- W
[/ol]5 \: j2 h' w0 }# N
架构概述# v7 m: g, s _ R' N7 n
NVAutoNet的架构包含几个关键组件:基于CNN的图像特征提取器: 这些提取器通过硬件感知神经架构搜索(NAS)进行定制,以实现高精度和低延迟。多相机融合: 融合发生在BEV层面,结合了早期和晚期融合方法的优点。透视图到BEV的转换: 通过逐列多层感知器(MLP)层和BEV查找表高效执行。BEV特征提取器: CNN主干网络处理融合的BEV特征,提取高级表示。特定任务的头部: 使用多个头部进行不同的感知任务,包括3D物体检测、可行驶空间检测和停车位检测。8 R' i' r' p* ]$ c& {
[/ol]
% X4 C; \3 M7 [2 v5 R2 L
# j% g- D5 [2 ~. f$ T
m4xagynwwtd6403232834.png
: ]" F2 l& X9 j4 E' I: @3 h
图2: NVAutoNet中透视图到BEV视图转换过程的图示。! B, r: W9 k4 ^5 z% p( ^: q
: b9 Z+ A! w. N0 w: W0 E, A图像到BEV的转换
0 `1 s# \8 o8 c4 a- c& K kNVAutoNet的一个关键创新是其高效的图像到BEV转换方法。% O1 F" R8 U$ O6 z7 L+ t
与之前依赖计算密集型3D体素表示或注意力机制的方法不同,NVAutoNet使用了巧妙的基于MLP的方法:6 U: J9 i) [* O, r @* G. s
每个图像列由MLP独立处理,生成"伪BEV"特征。这些特征随后通过预先计算的查找表映射到最终的BEV网格。查找表使用多项式函数生成,这些函数模拟图像坐标和BEV坐标之间的关系。
, f& G4 J i3 J, u u
6 Y3 h' |, ^& R& F9 Y这种方法允许快速准确的转换,同时考虑相机的内部和外部参数,使其适应不同的车辆配置。2 X4 D4 \* L- s* G
: P: `4 v% v! E4 N8 V' m& m5 n
# j" O% \' B2 o. X+ {
感知任务0 F" q5 k0 I4 \5 ^8 |
NVAutoNet同时执行多个感知任务:7 i _2 t5 k8 ?
8 n7 Q2 V; w, _# ?) N8 W7 o! X1. 3D物体检测:, X$ U$ f& N+ S" \
检测和分类物体,如车辆、卡车、行人和骑自行车者。
7 t4 Z1 k5 y. i9 |. _9 q估计3D边界框,包括位置、尺寸和方向。. k0 b9 g( d2 c
使用集合预测方法,消除了对非极大值抑制的需求。$ l1 J$ j& R/ l1 C- ~
9 m- N; r: F+ @
2. 3D可行驶空间检测:) {8 u* J6 A7 h, ~4 E1 E
预测可行驶区域并识别边界。( k/ e4 |; T+ d- H2 R& O
使用径向距离图(RDM)表示可行驶空间,以提高效率。
6 z! b3 P: i8 p, B包括边界类型的分类(例如,车辆、易受伤害的道路使用者、其他)。
* p" b' x! O+ k; G9 e: K% m
* ~" S+ [1 D8 p7 q1 e, B7 z' V3. 3D停车位检测:% k* r( E2 A+ d) n
定位和分类停车位(斜角、平行、垂直)。
4 I( f& {4 K+ I- G% t# `( Q将停车位表示为具有中心、尺寸和方向的定向矩形。: v' O) V8 x; Y( W* _) ?2 _' e" |
' I3 D5 [/ ~- f$ G
多任务学习% @1 j! P! e/ }& Z$ q0 T1 x* C0 s
NVAutoNet采用新颖的多任务学习方法来平衡不同的感知任务:自适应权重调整: 根据每个任务在所有样本中的总损失动态更新特定任务的损失权重。两阶段方法: 首先使用统一权重进行初始训练,然后根据各个任务的性能进行微调。+ ~' g% q; g5 c' A1 s* Q1 _
[/ol]
0 j: Q5 m+ }8 t这种方法使网络能够有效地学习所有任务,而不会让某一任务主导其他任务,从而实现平衡和准确的多任务感知。1 y) Q) A9 @$ ` U5 s* j
0 A7 e& c, X- s9 Q( \9 T
hrhrd20yder6403232934.png
: [8 U0 g$ ?' K' H! l% s4 c2 j
图3: NVAutoNet的定性结果,显示了各种场景下的障碍物、可行驶空间和停车位检测。9 P3 l! F- ?8 `# F: W- S
h. W- V/ l: I. _+ y! v" c
性能和结果
; p/ q0 K; r0 g! O: ~$ zNVAutoNet在各种指标上展示了令人印象深刻的性能:
8 v8 H4 D9 \' A延迟: 在NVIDIA DRIVE Orin嵌入式GPU上实现18.72毫秒的延迟(53 FPS)。3D物体检测: 总体mAP达到0.465,对车辆的检测性能最佳(AP 0.638)。3D可行驶空间: 在可行驶空间估计中达到77.59%的成功率。3D停车位: 停车位检测的总体AP达到0.58,平均IoU为0.85。, [ u/ V( S- |# Z$ j5 e
2 h5 T# |" x6 }0 z
该系统表现出良好的泛化能力,在不同的距离范围和车型上保持高性能。
}$ m% S4 u# S2 Q$ I( z8 O e4 b3 t: x- D* o: r+ y4 Y- v8 J
适应性和迁移学习
7 y. |8 {5 E- V+ K+ r% V8 v; hNVAutoNet的一大优势是能够以最少的再训练适应不同的车辆平台。实验表明:在汽车数据上预训练的模型,即使没有任何微调,在卡车数据上也表现得相当好。使用少量卡车数据(50K场景)进行微调可显著提高性能。网络可以快速适应新的传感器配置和车型,使其高度适合生产使用。
: J6 X/ d5 x# J, ?# X6 V" P; F2 ^[/ol]
2 M- z3 {. |) K) I8 x" N7 n6 q+ Z7 i结论
) m% g4 ?; U' C* M+ _NVAutoNet代表了自动驾驶车辆3D感知技术的进步。其准确性、效率和适应性的结合使其非常适合实际部署。高效的图像到BEV转换和有效的多任务学习等关键创新为其出色的性能做出了贡献。' g- n' Q, A5 Y0 f# o$ K
) h9 @" `( ^- V0 [7 B自动驾驶技术的不断发展,NVAutoNet系统将在实现更安全、更可靠的自动驾驶车辆方面发挥关键作用。未来的工作可能会集中在将BEV感知扩展到完整的3D体积感知、增加检测范围以及纳入更复杂的场景理解能力。
# ?! r% w0 ~5 o2 n' g4 T& `9 q( C( l% K% U* O: u- }
参考文献
2 E% i- w! h' l, U$ h. U4 C( G[1] T. Pham et al., "NVAUTONET: FAST AND ACCURATE 360° 3D VISUAL PERCEPTION FOR SELF DRIVING," arXiv:2303.12976v4 [cs.CV], Nov. 2023.9 T5 N) b% a# c" k. t6 s; \) u2 J: _
' O7 r1 v) w- z* ]) F! }
- END -
a1 E/ r5 I# l( l
9 [( s( e& P# P& Y: T' P软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。
9 U7 m) q: v$ g% ?" b点击左下角"阅读原文"马上申请
1 K) t) F! `: D7 ?
( m' I8 \6 A9 L欢迎转载6 f$ a! f8 I" E# a( i5 B* N Y0 t
" O g( [: g+ d' h# |
转载请注明出处,请勿修改内容和删除作者信息!
$ x8 x7 x9 ^: ~( B& ~3 t7 d
' q% Z4 X0 d0 x0 ~8 c( S9 A( S# c" S2 D, y& ?
% F; n, c) h6 Q. R F
r4kjkbcoke36403233034.gif
: T! @/ @: S9 a- i: `9 @
" J! S8 }7 W6 |% M# d( t关注我们7 T9 V) Z5 F# b+ n: k9 p
- V8 p( l) k9 O" G5 z; c+ }; K o+ b$ @
4ytxomsvcel6403233134.png
) D4 ?1 s! Q2 J+ |7 T# @0 S* ~ | 4 I6 N( ]" `2 x6 w8 j/ T# S7 k
530l4w1lgey6403233234.png
, F+ C, q5 s9 ^8 T | 5 {3 S; c) ~9 `. ]4 \ u% w7 Y
erkltsawusi6403233334.png
4 H% O3 M7 R1 E/ N2 T | $ O% z! }+ v' ^0 n2 \+ k
, D" C1 g4 M" K# i8 d" p
% G* E5 `# g$ Z# ^* @/ j& ?# H; q7 x1 c& O9 g: C# C
关于我们:
v* p7 T% M% A( e2 N1 b深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
& ?% ~ G/ N0 p+ C8 h: l4 s- v% }$ f [- Q( [; g$ H4 q
http://www.latitudeda.com/
1 N. y( Z/ k3 I! g$ Q( F(点击上方名片关注我们,发现更多精彩内容) |
|