CNN理論(AIA)
物件偵測
單個pix比較
機器視覺研究類型
複雜圖像不適用
多個pix比較
邊緣檢測
需要有filter
可作為圖片前處理
模糊化
左右移動
處理Noise
凸顯邊緣化
Sharpened
Gaussian Filter
物件偵測
圖像切割
CV : Object Recognition
ML: Multiple kernel learning
人臉辨識
CV: image segmentation
ML : graphical model
CV: face detection
ML : multi-task boosting
動作辨識
CV: action recognition
ML : Low-Rank reconstruction
人流偵測
ML : transfer learning
CV: multi-view people counting
物件比對
CV: image matching
ML: energy minimization
深度學習
精細偵測
手勢辨識
CV: fine-grained object recognition
ML : CNNs with co-occurrence layer
CV: patch descriptor learning
ML: CNNs with adaptive learning rate
CV: gesture recognition
ML : DNNs with adaptive hidden layer
人臉辨識
CV: face age estimation
ML: CNNs for hierarchical regression
CNN vs ML
object recognition
ML
Feature are the keys
train phase
classifier training
image collection
trained classifier
feature extraction
test phase
test image
feature extraction
trained classifier
prediction
HOG
Constellation model
SIFT
DPM
向量
取出物件輪廓
取出多個part
自動學習重要的parts
Deep learning
ML 特徵是固定
DL 特徵會變動
end to end learning
feature extraction 與 training 同時進行
Low-Level to High-Level
Learning hierarchical representations
方法突破
GoogleNet(22 layers)
ResNet(8 layers)
微軟
剩餘學習(突破深層)
可以增加至100曾甚至上千層
VggNet(19 layers)
Residual Net(152 layers)
想法
人類只需要特定的圖案就能判定
convolutional neural networks
更精準表示影像
Handling multiple output channels
深層神經網路的變形
Local connectivity
Weight sharing
影像有相關聯性
只與鄰近的資料產生關係
降低參數
降低參數
共享變數
CNN steps
AlexNet
5 convolutional layers
8 fully dense
思想
全連接層參數太多
降低解析度
缺點:喪失更多資訊
locality of spatial dependencies
相近的pix 有高度相關性
Why?
Handling multiple input channels
水平、垂直方向的區域值
深、淺的特性
多種顏色R、G、B、D
Non-linearity
input images
Convolution(bias weighting sum)
ReLU
Spatial pooling
Normalization
Max pooling
選擇一個區域裡面的最大值
Feature maps
不一定所有的CNN都會使用
變成下一層的輸入
缺點
需要大量的資料
要GPU的設備