|
引言) q* V- z# f F A+ j% ?
自动驾驶车辆需要强大且实时的3D感知能力,以便在复杂环境中安全导航。由NVIDIA开发的NVAutoNet是一种专门设计的鸟瞰图(BEV)感知网络,旨在满足自动驾驶汽车的独特挑战。本文将探讨NVAutoNet的主要特点、架构和性能,展示其在推动自动驾驶技术发展方面的潜力[1]。
% P0 N3 ^7 t! r A- [# b; ~
1 K, Q) ~! a6 j! W8 L/ l( O3 Y
j0i3g3y4hch6403232733.png
: t g( m6 S; Q
图1: NVAutoNet架构概览,展示了从全景图像到3D感知输出的处理过程。9 {* C! i2 h. ^9 L9 e6 z+ s
- o' F( `, p3 JNVAutoNet以同步的相机图像作为输入,预测3D信号,如障碍物、可行驶空间和停车位。其架构在准确性和计算效率之间取得了平衡,适合部署在NVIDIA DRIVE Orin SoC等嵌入式系统上。: M# t4 y, X% o' I
. I# u6 }4 P' m! [
NVAutoNet的主要特点:多相机输入: 系统处理来自8个相机的图像,提供车辆周围360度的视图。快速推理: NVAutoNet实现了18毫秒的延迟,能够以53帧每秒的速度运行。扩展范围: 网络可以探测200米远的物体,这对高速公路驾驶场景非常重要。端到端训练: 整个系统采用端到端方式训练,优化所有组件。模块化设计: NVAutoNet的架构允许轻松适应不同的车型和传感器配置。车内测试: 系统已在各种驾驶条件下进行了广泛的实际测试验证。! F s! a0 I8 { Y) o
[/ol]( q/ K& i& A( N, G( d( E* t. m
架构概述
+ q$ b. A$ i. k6 D' gNVAutoNet的架构包含几个关键组件:基于CNN的图像特征提取器: 这些提取器通过硬件感知神经架构搜索(NAS)进行定制,以实现高精度和低延迟。多相机融合: 融合发生在BEV层面,结合了早期和晚期融合方法的优点。透视图到BEV的转换: 通过逐列多层感知器(MLP)层和BEV查找表高效执行。BEV特征提取器: CNN主干网络处理融合的BEV特征,提取高级表示。特定任务的头部: 使用多个头部进行不同的感知任务,包括3D物体检测、可行驶空间检测和停车位检测。- C7 R2 a" [! M4 F1 O. H9 L+ O
[/ol]; e. }% S+ S% d7 g
, M) G2 O% n! B
m4xagynwwtd6403232834.png
& X# u) V7 U( R9 b1 w: {" A. S图2: NVAutoNet中透视图到BEV视图转换过程的图示。
. r- d7 O! y( O4 I- V2 X& B7 T% |7 b% O& W% Y
图像到BEV的转换
1 Y* S( [ k3 c. q3 a% KNVAutoNet的一个关键创新是其高效的图像到BEV转换方法。. J, d1 n" Q6 p' ]" S6 {) p. H
与之前依赖计算密集型3D体素表示或注意力机制的方法不同,NVAutoNet使用了巧妙的基于MLP的方法:
; g6 t" O1 S' A& @/ G' \每个图像列由MLP独立处理,生成"伪BEV"特征。这些特征随后通过预先计算的查找表映射到最终的BEV网格。查找表使用多项式函数生成,这些函数模拟图像坐标和BEV坐标之间的关系。
3 j: ?! s5 Z; ^/ }6 S; P
]; X' p6 H" A; c6 C这种方法允许快速准确的转换,同时考虑相机的内部和外部参数,使其适应不同的车辆配置。
2 ?1 _( M0 t. \4 L7 ?! N, [, M6 s* T a; K2 i
7 o4 M! [% b2 n6 K, M+ X) o感知任务
$ H8 g. Z+ {2 d7 z J$ kNVAutoNet同时执行多个感知任务:
1 Q) t$ u& y" l! m2 a6 w, s9 f
8 |6 W5 v% x8 m; n( ^ }" L& y( U b4 u1. 3D物体检测:$ V: `) ?* H+ ]0 `; |2 k/ K
检测和分类物体,如车辆、卡车、行人和骑自行车者。% z7 F6 v0 d$ D8 ~- l
估计3D边界框,包括位置、尺寸和方向。
' u# r$ w( M$ w0 \# k使用集合预测方法,消除了对非极大值抑制的需求。7 |1 E( g$ x+ O3 A5 C
+ }4 `/ w0 N8 `2 ^5 c# Y
2. 3D可行驶空间检测:
4 R" ^* [0 w7 d6 e% o1 _& A预测可行驶区域并识别边界。
: G) v1 Q2 X8 {使用径向距离图(RDM)表示可行驶空间,以提高效率。) o/ W4 G1 n0 n, x# Q, l+ L5 Q( M
包括边界类型的分类(例如,车辆、易受伤害的道路使用者、其他)。9 L& C9 e" b+ g6 V
4 J) i2 ?4 ] |& ?1 d3. 3D停车位检测:
, a- m; ]. H$ o" d) I( k# V* R6 {定位和分类停车位(斜角、平行、垂直)。
4 B3 ` _8 `- C( Y# w3 e将停车位表示为具有中心、尺寸和方向的定向矩形。8 g. w% L* e+ x3 H( |$ A3 E
8 X: I0 g3 _* C; J9 X$ t6 K
多任务学习
! P) w" ~4 b- |0 \8 fNVAutoNet采用新颖的多任务学习方法来平衡不同的感知任务:自适应权重调整: 根据每个任务在所有样本中的总损失动态更新特定任务的损失权重。两阶段方法: 首先使用统一权重进行初始训练,然后根据各个任务的性能进行微调。
; _) u$ m! o) [ U+ \[/ol]
! d( o7 |7 v9 M+ j8 W6 h; w这种方法使网络能够有效地学习所有任务,而不会让某一任务主导其他任务,从而实现平衡和准确的多任务感知。. P! p" R8 y0 w! I: z
9 n3 R" `! w$ r1 t. k
hrhrd20yder6403232934.png
l* c! T( v+ X% \4 Q7 b6 \. V图3: NVAutoNet的定性结果,显示了各种场景下的障碍物、可行驶空间和停车位检测。
6 H3 K- D8 @: x3 o; d! _
+ `' N6 E, X6 b) {( q/ A; u) @性能和结果" d$ C' V8 e+ w* Z0 _( f
NVAutoNet在各种指标上展示了令人印象深刻的性能:; G2 Z( Q/ u* t, n2 Z0 u3 c9 F
延迟: 在NVIDIA DRIVE Orin嵌入式GPU上实现18.72毫秒的延迟(53 FPS)。3D物体检测: 总体mAP达到0.465,对车辆的检测性能最佳(AP 0.638)。3D可行驶空间: 在可行驶空间估计中达到77.59%的成功率。3D停车位: 停车位检测的总体AP达到0.58,平均IoU为0.85。: f+ @ D' d' h7 G5 Q
( ~. h, ~2 |! g9 i9 }* H/ H该系统表现出良好的泛化能力,在不同的距离范围和车型上保持高性能。
: b5 Y6 n/ k' U8 W, a, K5 q! r( v! w& P9 C$ Z
适应性和迁移学习
$ v" N# }3 K4 E- v; S2 U+ JNVAutoNet的一大优势是能够以最少的再训练适应不同的车辆平台。实验表明:在汽车数据上预训练的模型,即使没有任何微调,在卡车数据上也表现得相当好。使用少量卡车数据(50K场景)进行微调可显著提高性能。网络可以快速适应新的传感器配置和车型,使其高度适合生产使用。
& u; o; x5 a: z[/ol]& L$ h' p! V9 N$ j0 i
结论3 H4 G$ Q* `9 A2 D3 u
NVAutoNet代表了自动驾驶车辆3D感知技术的进步。其准确性、效率和适应性的结合使其非常适合实际部署。高效的图像到BEV转换和有效的多任务学习等关键创新为其出色的性能做出了贡献。
5 @ {9 Z* R0 \6 B! e' e1 T) L4 i8 m) w2 k
自动驾驶技术的不断发展,NVAutoNet系统将在实现更安全、更可靠的自动驾驶车辆方面发挥关键作用。未来的工作可能会集中在将BEV感知扩展到完整的3D体积感知、增加检测范围以及纳入更复杂的场景理解能力。
4 A6 T! {+ Z' G8 Q6 l
9 _ ?6 i! M! o' F( z参考文献: n b, N' L6 }3 B& o0 O! B
[1] T. Pham et al., "NVAUTONET: FAST AND ACCURATE 360° 3D VISUAL PERCEPTION FOR SELF DRIVING," arXiv:2303.12976v4 [cs.CV], Nov. 2023.
, W+ W/ @3 t4 {; a
f& D' F0 ^: _- END -
1 b, t& z% G5 ]% z0 ?) V5 N/ ~& p) }8 U6 C9 g+ w$ C: n% M
软件申请我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。: J6 F. h0 T. w, W: \9 U. F
点击左下角"阅读原文"马上申请
; t" J/ H. i! g4 V# j, M
& g- l/ Q5 F5 t4 J$ I$ I欢迎转载' g- x: [2 {, B
. j3 c2 {$ a7 y+ @" G1 P转载请注明出处,请勿修改内容和删除作者信息!& B/ R+ e3 H( K) D- e5 Y
2 j( q* M; F0 b
" M: e* v4 v& h: u% K3 a$ r. b, f3 j& E) Q* k( J
r4kjkbcoke36403233034.gif
6 a# H: P( X% H- M7 `1 u5 Z
; g- |* J3 K, U$ g0 P9 U关注我们, A# f/ `# S/ Y2 X& ]3 J$ N" O
2 [" l: n0 ]2 M* M; Z
3 y! y4 d" u0 C$ f- I2 O
4ytxomsvcel6403233134.png
4 M; r9 N+ P- Z: D' H8 f+ i7 I
|
_! c) q `; \; s
530l4w1lgey6403233234.png
" E, v. T6 v8 V! @' @
|
. K; R* O5 K' m/ z
erkltsawusi6403233334.png
" ]) i, a2 t6 q( K& d |
+ O% m5 R& Z/ m% z ?# h$ N' l; _1 |% k, h9 k1 V# v
+ |" M% T7 O8 q3 c- _ @
5 U f7 P2 g& P# | x' L. m% ^关于我们:
1 c8 a+ Q8 v4 S8 t深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。% M0 Y& d% d5 L8 g
' ~( I2 G6 @: s9 Zhttp://www.latitudeda.com/ H4 m3 q& k9 s2 e1 d9 R0 v4 ?
(点击上方名片关注我们,发现更多精彩内容) |
|