Online and Offline Handwritten Chinese Character Recognition:
A Comprehensive Study and New Benchmark
摘要
通過將傳統的歸一化協同方向分解特徵圖 (directMap) 與深度卷積神經網絡 (convNet) 相結合,我們能夠在 ICDAR-2013 競賽數據庫上獲得新的在線和離線 HCCR 的最高準確度。 使用這個新框架,我們可以消除對數據增強和模型集成的需求,這些在其他系統中被廣泛使用以達到最佳效果。 這使得我們的框架對於訓練和測試都是高效和有效的。
介紹
手寫識別分
online
offline
記錄和分析筆尖運動的軌跡以識別表達的語言信息
廣泛用於筆輸入設備、個人數字助理、智能手機、計算機輔助教育等
對字符(灰度或二進制)圖像進行分析並將其分類為不同的類別
郵件分類 [4]、銀行支票閱讀、書籍和手寫筆記轉錄
領域知識包括
字符形狀歸一化
(character shape normalization)
方向分解特徵圖
(directiondecomposed feature maps)
非線性歸一化
通過將梯度(對於離線圖像)或局部筆劃(對於在線筆劃軌跡)分解為不同的方向(從 0 到 360 ),我們可以獲得多個特徵圖,每個特徵圖代表原始梯度/筆劃的一個方向。 這是漢字在書寫過程中由基本的定向筆劃產生的強大的先驗知識
雙矩歸一化
偽二維歸一化
線密度投影插值
為了提高 HCCR 的準確性,我們不是從原始數據訓練 convNet
通過歸一化合作的 [22] 方向分解特徵圖(directMap)來表示在線和離線手寫字符
d × n × n 稀疏張量(d 是量化方向的數量,n 是特徵圖的大小)
一個 11 層的 convNet
由於嵌入了特定領域的知識,我們還可以消除數據增強和模型集成的需求,這對於其他系統實現最佳性能至關重要。 這使得我們的模型在訓練和測試過程中都高效且有效
在 convNet 中添加了一個特殊的適應層,以無監督的方式匹配和消除訓練和測試數據之間的分佈偏移
相關工作
第一個成功將 convNet 用於 HCCR(離線)的報導是多列深度神經網絡 (MCDNN)
儘管這些方法在很大程度上優於傳統方法,但它們基於端到端學習,而忽略了 HCCR 中長期研究的特定領域知識
通過使用具有各種領域知識(包括變形、虛構筆劃圖、路徑簽名圖和方向圖)的 convNet 實現了最佳性能
深度學習應用於大多數圖像分類任務中,生成失真圖像來擴充訓練數據也是對領域知識的一種利用
最重要的特定領域知識應該是形狀歸一化和方向分解。 使用我們提出的 directMap+convNet,我們可以在沒有數據增強或模型集成的幫助下實現在線和離線 HCCR 的新基準
這對於 [15] 和 [43] 獲得最佳結果至關重要。
基於深度學習的方法也已應用於其他與手寫相關的問題,例如作者識別 [44]、混合模型 [45]、置信度分析 [46]、手寫合法金額識別 [47] 和文本識別 [48]
RNN 和 convNet 的組合也被 [52] 和 [53] 用於場景文本閱讀
適應深度網絡 [58] 的傳統方法是重新訓練一個分類層,該層將現有網絡之一的激活作為輸入特徵(例如 DeCAF [59])
在這項工作中,通過將 STM 視為一個新的特殊層,我們可以僅使用少量特定於作者的數據以無監督的方式使 convNet 適應特定作者的新風格。 所提出的適應層是神經網絡的一個簡單而基本的組件,因此可以很容易地與不同的網絡架構集成。
此外,雖然 directMap+convNet 可以達到最好的結果並超越人類水平的性能,但我們表明在這種情況下作者適應仍然有效。 提出了一個新的適應層來減少特定源層上訓練和測試數據之間的不匹配。 適應過程可以以無監督的方式高效有效地實施。 通過在預訓練的 convNet 中加入適應層,它可以適應特定作者的新筆跡風格,並且識別準確率可以持續且顯著地進一步提高。 本文概述和比較了最近基於深度學習的 HCCR 方法,並為在線和離線 HCCR 設定了新的基準