Please enable JavaScript.

Coggle requires JavaScript to display documents.

YOLO (v3 (Bounding box prediction (YOLO v3 用 logistic regression 預測每個…

- - - - 這樣看起來可以直接透過程式判斷，有需要透過 logistic regression 來做嗎？
        
        若其實就是 v1 的 box confidence score，那麼只有 IoU 是要與 GT box 計算的，Pr(object) 則是用預測的
        
        就是希望 network 可以學習怎麼 regression 出一個 bounding box 的 objectness；prediction vs. label 的概念
  - - - 不過 MLC 的做法，對於手部辨識可能沒有太高的參考性
        
        除非採用的 dataset 或者我們自己標記的資料也會標上多個 label
    - - 在這個 Open Images Dataset，一個物體可能標記了多個標籤，e.g. Woman & Human
  - - - 在 base feature extractor 中加入幾層新的卷積層，它們的最末層會預測一個 3D tensor(用來 encode bounding box, objectness, class predictions)
      - feature pyramid networks 主打利用 deep neural network 本來就具有的 multi-scale, pyramidal hierarchy 架構，幾乎不需要多花費額外的計算和記憶體資源，產出 feature pyramids
      - 將往前 2 層的卷積層輸出的 feature map upsample 成兩倍大小，並與 network 中更前面層數得到的 feature map element-wise 相加，得到一個較高解析度的 feature map
        
        加上幾層卷積層來從這個更高解析度的 feature map 預測一個類似但是兩倍大小的 3D tensor
      - 再重複一次同樣的機制，得到更高解析度的 feature map
      - 待確認
- - - - 透過預測 bounding box 座標的平方根來部分緩解這個問題
- - - - 預測 anchor box 的 offsets 比直接預測 bounding box 座標更易讓 network 學習
        
        但因為 offset 的大小並未受限制，會讓 network 在剛開始訓練的 iterations 中，需要花一段時間才能比較 stable
        
        直接預測 bounding box 的中心位置
        
        所以作者參考 YOLO v1 的概念，改成預測相對於 grid cell 的座標值；這樣可以將數值範圍限制於 0~1 之間(作者採用 logistic activation 來達成)，使 network 在學習時可以更加 stable
        
        透過 K-means clustering 來從 training set 中尋找比較適合的 anchor box size prior
      - 移除 v1 網路架構中最後的 FC layers
      - 每個 anchor box 會預測其類別與「物體性」有多高
    - - 因為採用的 model 只有卷積與 pooling 層，所以可以在訓練的過程中很快地 resize
      - 將 model 對應這幾種 input 大小 resize
        {320, 352, ..., 608}
        320*320 ~ 608*608
      - 這樣的作法可以讓訓練出來的 model 在不同的 input 解析度下，都可以順利偵測物體
  - - - 可以偵測多達 9000 種類別的物體
  - - - 因為既有的 detection dataset 規模都比 classification 小太多了
      - 透過 WordTree 計算某個節點分類的機率是多少時，是把該節點一直到 root 的各節點機率乘積在一起
      - 因為 ImageNet 相比 COCO 要大得多，所以將後者 oversample 至約莫 1:4 ImageNet
      - 用來訓練 YOLO9000
        
        將 prior anchor boxes 從 5 個減到 3 個
  - - - 先在 ImageNet 1000 上訓練 160 epochs
        (input size: 224*224)
        
        再以 input size: 448*448 finetune 10 epochs
      - 接著把這個 network 的最後一個卷積層拔掉，接上三個 3*3, 1024 filters 的卷積層，最終再接上一個 1*1 的卷積層(outputs 數量即為 detection 所需要的數量)
        
        VOC 為 5 boxes with 5 coordinates each and 20 classes per box so 125 filter，5 boxes 指的應該是 5 個 prior anchor boxes?
      - 此外也在最終 3*3*512 的網路層，接上連接到第二至最後一個卷積層的 passthrough layer
      - 再於 detection dataset(COCO, VOC) 上訓練 160 epochs