Please enable JavaScript.
Coggle requires JavaScript to display documents.
爬蟲 (AI爬蟲版本 (可能採用的方法 (抓HTML文字格式 ([AI方法] 用增強式學習,找出價格xpath (原理:增強式學習已知可以處理迷宮問…
爬蟲
AI爬蟲版本
可能採用的方法
抓HTML文字格式
[統計方法] 分析樹狀結構,找出價格xpath
[AI方法] 用增強式學習,找出價格xpath
原理:增強式學習已知可以處理迷宮問題,我們可以將HTML的tag樹狀路徑看成是一個迷宮,價格位置是出口,用RL可以找到出口的位置。
抓網頁畫面擷圖
[AI方法] 用影像辨識找出價格
原理:利用車牌辨識的方式,將價格區塊視為車牌,用CNN辨識出網頁畫面上價格的位置,就可以再得出價格資訊
原則
不用提供xpath,只給網站,去抓各種資料回來,再進行分析,萃取出需要的資訊
現行MIS版本
Sales 的痛點
爬蟲設定太複雜
[UI] 屬於UI設計面
要對抗防爬機制
[AI] 可用pattern變異度來檢查出價格xpath
最終的價格驗證是人工手動
[AI] 可用歷史資料來做價格失準警告
PDF價格表是人工手動辨識
[AI] PDF可能是手寫內容,辨識難度太高
DB csv 轉 Report csv 是人工手動
[SYS] 沒有技術難度