自動駕駛：ECCV2020|基于關鍵點的單目3D目標檢測

2020-09-09 11:44

論文原文：RTM3D：Real－timeMonocular3DDetectionfromObject

KeypointsforAutonomousDriving

目前已有的一些 3D 檢測器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊，僅能提供四個幾何約束，這就導致 2D 檢測器的一點小錯誤會極大的影響 3D 檢測器的效果。本文的方法通過預測圖片中物體 3D 邊界框的九個關鍵點，利用 3D 和 2D 透視圖的幾何關系恢復 3D 空間中的尺寸、位置和方向。通過這種方法，即使關鍵點的估計非常嘈雜，也可以穩定地預測對象的屬性，使我們能夠以較小的架構獲得較快的檢測速度。訓練的方法僅使用對象的 3D 屬性，而無需外部網絡或監督數據

該方法是第一個用于單眼圖像 3D 檢測的實時系統，同時達到了 KITTI 基準的最新性能。

論文背景

3D 目標檢測是自動駕駛中場景感知和運動預測的基本組件，目前的 3D 檢測器都嚴重依賴于 3D 雷達掃描得到的位置信息。但基于雷達的系統非常昂貴而且不利于編碼現在的車輛形狀。而單目相機相對便宜更容易應用在現實場景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標檢測。

單目 3D 目標檢測方法大致可以按照訓練數據類型被分為兩類，一種利用復雜的特征，例如實例分割、車輛形狀先驗甚至是深度圖在多階段融合模塊中選擇最佳方案，這些額外的特征需要額外的標注工作來訓練一些其他的獨立網絡，這會消耗大量的運算資源；另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監督數據，在這種情況下，一個直觀的想法是建立一個深度回歸網絡以直接預測對象的 3D 信息，由于搜索空間較大，這可能會導致性能瓶頸。因此最近有一些工作將 3D 盒頂點的幾何約束應用于 2D 盒邊緣以細化或直接預測對象參數。但是，2D 邊界框的四個邊緣僅對恢復 3D 邊界框提供了四個約束，而 3D 邊界框的每個頂點可能對應于 2D 框中的任何邊緣，這需要 4，096 個相同的計算才能得出一個結果。同時，當 2D 檢測器的預測甚至有輕微誤差時，強烈依賴 2D 框會導致 3D 檢測性能急劇下降。因此，大多數這些方法都利用兩階段檢測器來確保 2D 邊界框預測的準確性，這限制了檢測速度的上限。

本文提出了一個無需依賴 2D 檢測器的一階段單目 3D 檢測器。首先，通過一個單階段全卷積架構預測 9 個 2D 關鍵點，這些關鍵點包括 3D 邊界框的 8 個頂點和中心點的投影點，這 9 個關鍵點在 3D 邊界框上提供了 18 個幾何約束。此外，本文還提出了一個全新的用于關鍵點檢測的多尺度金字塔，可以通過軟加權金字塔獲得最終的關鍵點激活圖。給定 9 個投影點后，下一步是通過對象的位置、尺寸和方向等從這些 3D 點的角度上進行參數化，使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式，可以準確有效地生成檢測結果。作者討論了不同先驗信息對基于關鍵點的方法（如尺寸、方向和距離）的影響。獲取此信息的前提條件是不要增加過多的計算，以免影響最終檢測速度。本文對這些先驗模型進行建模，并提出了一個整體能量函數以進一步改善 3D 估計。

本文的主要貢獻有以下幾點：
1．將單目 3D 檢測轉化為關鍵點檢測問題，結合了幾何約束來更準確和高效的生成 3D 物體的屬性。
2．提出了一種新穎的單階段多尺度 3D 關鍵點檢測網絡，該網絡可為多尺度物體提供準確的投影點。
3．提出了一個整體能量函數，可以共同優化先驗和 3D 對象信息。
4．根據 KITTI 基準進行評估，本文是第一種僅使用圖像的實時 3D 檢測方法，與其他方法在相同的運行時間下對比，具有更高的準確性。

論文模型

關鍵點檢測網絡

本文的關鍵點檢測網絡將 RGB 圖像當作輸入，輸出 3D 檢測框的頂點及中心點，其包括三個組成部分：骨架、關鍵點特征金字塔以及檢測頭，主要架構采用了與 2D 無錨檢測器相似的一階段策略。

為了在速度和準確性之間進行平衡，本文使用兩種不同的結構作為主干：ResNet18 和 DLA－34。所有模型均拍攝單個 RGB 圖像 I∈R＾｛W×H×3｝，并以因子 S ＝ 4 對輸入進行降采樣。ResNet－18 和 DLA－34 用于圖像分類網絡，最大降采樣因子為 ×32。我們通過三個雙線性插值和 1×1 卷積層對瓶頸三次進行上采樣。在上采樣層之前連接了相應的低級特征圖，同時添加了一個 1×1 卷積層以減小通道尺寸。經過三個上采樣層后，通道分別為 256、128、64。

圖像中的關鍵點在大小上沒有差異。因此，關鍵點檢測不適合使用特征金字塔網絡（FPN）。本文提出了一種新的關鍵點特征金字塔網絡（KFPN），以檢測點空間中尺度不變的關鍵點。假設我們有F個尺度特征圖，我們首先調整每個大小f的大小，將其統一為最大的 f 的大小。然后通過 softmax 運算生成軟權重，以表示每個尺度的重要性。通過線性加權獲得最終的尺度空間得分圖：

檢測頭由三個基本組件和六個可選組件組成，可以任意選擇這些組件以提高 3D 檢測的準確性，而計算量卻很少。受 CenterNet 的啟發，本文將關鍵點作為連接所有特征的主要中心由于在截斷的情況下對象的 3D 投影點可能會超出圖像邊界，因此將更適當地選擇 2D 框的中心點。Heatmap 定義為 M，其中 C 是目標種類的數量，另一部分是由頂點和中心點投影出的 9 個點 V，對于一個對象的關鍵點，本文將回歸得到的主中心的局部偏移量 Vc 作為指標。最接近 Vc 坐標的 V 的關鍵點被作為一個對象的集合。盡管 9 個關鍵點的 18 個的約束能夠恢復物體的 3D 信息，但是越多的先驗條件能夠增加更多的約束，中心偏移 M＿OS，頂點偏移 V＿OS 是 heatmap 中對每個關鍵點的離散誤差。

3D 目標的維度 D 方差小容易預測，本文引用基于 Multi－Bin 方法對偏航角 θ 進行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個 bin 中進行分類，并使用 2 個 bin 生成方向特征圖，同時對 3D 邊框的中心深度Z進行回歸。最終的 loss 如下（各部分 loss 的定義參見原文，在此不再贅述）：

3D邊框的估計

得到 9 個特征點 kp、物體尺寸 D、偏航角 θ、中心深度 Z，目標是找出哪一個邊框中心點與 2D 關鍵點 kp 最匹配，這能夠最小化 3D 關鍵點和 2D 關鍵點的投影損失，并將它和其他先驗損失定義為一個非線性最小二乘優化問題：

其中 e＿cp、e＿d、e＿r 是相機點、維度先驗、方向先驗的損失，從 heatmap 中提取的置信度表示為：

實驗論文

本文在 KITTI 數據集上進行了實驗。

ResNet18 作為 backbone 的時候速度最快，精度已經超過大多數甚至某些雙目方法，但仍弱于 M3D－RPN（目前不利用其它訓練數據最好的網絡），當采用 DLA－34 時速度仍然比別的方法快，而且精度超過 M3D－RPN。

消融實驗

對維度、方向、距離和關鍵點偏移四個可選項進行了消融實驗，四個可選項全部使用時得到了最高的準確率。

分析了關鍵點FPN的作用，

同時發現 3D 反向投影的 2D 結果要優于直接對 2D 進行預測。

結論

本文提出了一種用于自動駕駛場景的單眼 3D 目標檢測方法。將 3D 檢測作為關鍵點檢測問題，并展示了如何通過使用關鍵點和幾何約束來恢復 3D 邊界框。本文提出的用于 3D 檢測的點檢測網絡，可以僅使用圖像輸出 3D 框的關鍵點和對象的其他先驗信息生成穩定且準確的 3D 邊界框，而無需包含獨立網絡和增加額外標注數據，同時可實現實時運行速度。