Please enable JavaScript.
Coggle requires JavaScript to display documents.
YOLO (v3 (Bounding box prediction (YOLO v3 用 logistic regression 預測每個…
YOLO
v3
Bounding box prediction
-
-
-
YOLO v3 用 logistic regression 預測每個 bounding box 的 objectness;若某個 bounding box prior 與一個 ground truth 物體交疊的 IoU 超過其他任何 bounding box prior,則 objectness 的值為 1
-
-
-
如果一個 bounding box prior 沒有負責到任一個 ground truth 物體,則它不會產生任何 bounding box 座標以及分類預測的 loss,只會產生 objectness 的 loss
-
-
Feature extractor
Darknet-53: 新的網路架構,結合 YOLOv2, Darknet-19, 新的 residual network stuff,共有 53 個卷積層;在 ImageNet 上可以達到與 ResNet-152 差不多的準確度表現,但是兩倍快;也能更有效率的利用 GPU 達到更高的 BFLOP/s
-
How we do
在 COCO 上若以 AP50 來衡量,表現超越 SSD 的幾個變化版本,雖準確度仍不如 RetinaNet,但比它快很多;此外對於比較小的物體,現在偵測得更好了;中型與大型的物體表現相比其他方法則沒那麼好;若將 AP 的 IoU threshold 提高,表現會大大打折,表示 YOLO v3 沒有辦法將 localization 做到非常非常精確
-
-
v1
摘要
可以看見整張影像,而非像 sliding window 或者 region proposal-based 的方法只能看見一部份,因此 YOLO 更能隱性地利用到 context 的資訊,產生較少的 false positive
-
-
-
Training
-
接著接上新的 4 層卷積層,以及 2 層新的 FC 層(randomly initialized),並將 input 的解析度從原來的 224224 調整至 448448,希望讓 model 可以利用到較精細的視覺資訊
-
-
-
Detection 機制
將整張圖片切割成 S*S 的 cells,每一個 cell 會預測 B 個 bounding boxes、每個 box 的 confidence,以及 C 個類別的機率(對應整個 cell 而非這個 cell 中一個個的 box)
-
-
v2
Better
-
-
-
加入 passthrough layer,讓 detector 可以在 reshape 過的較高解析度 feature map 上偵測物體(reshape 過的較高解析度 feature map 相較於低解析度的 feature map 保有更多物體細節)
-
摘要
-
novel, multi-scale 的 training 方法,可以提供多種速度和準確度的調配
-
-
Stronger
jointly training mechanism on classification and detection data(依據 input 的 data 為 detection 或 classification,只將得到的 loss back propagate 至相應的 detection 架構部分)
-
Faster
採用自行設計的 Darknet-19
-
接著把這個 network 的最後一個卷積層拔掉,接上三個 3*3, 1024 filters 的卷積層,最終再接上一個 1*1 的卷積層(outputs 數量即為 detection 所需要的數量)
VOC 為 5 boxes with 5 coordinates each and 20 classes per box so 125 filter,5 boxes 指的應該是 5 個 prior anchor boxes?
-
再於 detection dataset(COCO, VOC) 上訓練 160 epochs