CNN理論(AIA)

物件偵測

單個pix比較

機器視覺研究類型

複雜圖像不適用

多個pix比較

邊緣檢測

需要有filter

可作為圖片前處理

模糊化

左右移動

處理Noise

凸顯邊緣化

Sharpened

Gaussian Filter

物件偵測

圖像切割

CV : Object Recognition

ML: Multiple kernel learning

人臉辨識

CV: image segmentation

ML : graphical model

CV: face detection

ML : multi-task boosting

動作辨識

CV: action recognition

ML : Low-Rank reconstruction

人流偵測

ML : transfer learning

CV: multi-view people counting

物件比對

CV: image matching

ML: energy minimization

深度學習

精細偵測

手勢辨識

CV: fine-grained object recognition

ML : CNNs with co-occurrence layer

CV: patch descriptor learning

ML: CNNs with adaptive learning rate

CV: gesture recognition

ML : DNNs with adaptive hidden layer

人臉辨識

CV: face age estimation

ML: CNNs for hierarchical regression

CNN vs ML

object recognition

ML

Feature are the keys

train phase

classifier training

image collection

trained classifier

feature extraction

test phase

test image

feature extraction

trained classifier

prediction

HOG

Constellation model

SIFT

DPM

向量

取出物件輪廓

取出多個part

自動學習重要的parts

Deep learning

ML 特徵是固定

DL 特徵會變動

end to end learning

feature extraction 與 training 同時進行

Low-Level to High-Level

Learning hierarchical representations

方法突破

GoogleNet(22 layers)

ResNet(8 layers)

微軟

剩餘學習(突破深層)

可以增加至100曾甚至上千層

VggNet(19 layers)

Residual Net(152 layers)

想法

人類只需要特定的圖案就能判定

convolutional neural networks

更精準表示影像

Handling multiple output channels

深層神經網路的變形

Local connectivity

Weight sharing

影像有相關聯性

只與鄰近的資料產生關係

降低參數

降低參數

共享變數

CNN steps

AlexNet

5 convolutional layers

8 fully dense

思想

全連接層參數太多

降低解析度

缺點:喪失更多資訊

locality of spatial dependencies

相近的pix 有高度相關性

Why?

Handling multiple input channels

水平、垂直方向的區域值

深、淺的特性

多種顏色R、G、B、D

Non-linearity

input images

Convolution(bias weighting sum)

ReLU

Spatial pooling

Normalization

Max pooling

選擇一個區域裡面的最大值

Feature maps

不一定所有的CNN都會使用

變成下一層的輸入

缺點

需要大量的資料

要GPU的設備