資料探勘技術(110考題)
關聯性分析
迴歸分類樹(決策樹)
隨機森林
三個主要概念
意義
信心可靠度confidence
提升度lift
支持度support
建立關聯性原則的第一指標,透過設定最小門檻值,篩選出頻繁組合
當某先決條件X發生下,對應結果Y發生的機率
信心可靠度的互補指標,評估XY同時出現與Y出現的機率,避免高估其關聯性
應用
因爲根據犯罪學原理:犯罪非隨機分布,而是高度集中在少數特定的人群、地點或標的
主旨
意義
是以樹狀結構將巨量資料庫分割為同質分類(同一性質分為一區)。分析多應用於分群,選擇影響因子與建立預測模式
T1整體族群
(以年齡、教育程度分類)
年齡大於X
年齡小於等於X
T3子節點
教育程度大於等於Y
以分類樹為基礎但較進階的方法
先利用抽樣的概念,隨機抽取樣本與變數,同時建立大量分類樹;更有效率、更準確
像是,同時向多位犯罪學家詢問問題,在整合其看法,結論較為客觀
優點
結論
適用在1.資料庫龐大、2.自變數目眾多,3.且相互作用與迴規模式皆未知的情況
大量、異質化及多元的資料庫中,快速找出資料關聯性或特性,藉由資料探勘技術,整合現有多元資料庫,並以證據導向進行方案建議
雖然資料探勘可以處理大量資料,且快速有效,仍須使用傳統統計方法為輔,雖然資料探勘的預測力佳,但解釋度不進理想的缺點
針對高犯罪風險之累犯,利用其犯罪紀錄串連刑事警察局刑案資料庫、內政部入出境資料、法務部毒品成癮資料等相關資料庫,透過1.犯罪行為分類,與2.計算不同犯罪類型之關聯,預測其未來可能發展之犯罪趨勢
最後結果需要包括所有分類樹結果
犯罪分析研究
實體萃取舉證entity extraction
從圖片、影片、文字自動辨識可疑人犯、地址、車輛或人物特徵等有效證據,進而協助鑑識犯罪
例如,網路犯罪利用軟體分析駭客病毒之程式碼,或網路詐騙之相似度,來定義犯嫌與集團;但此類分析技巧取決於資料的質與量
叢聚分析clustering analysis
將類似的犯嫌歸類在一起,原理是將組間差異最大化及組內差異最小化
例如,把犯案手法相似的案件,定為同一嫌犯所為;或是依照特性區隔不同犯罪組織,如財產犯罪執法機關,利用銀行交易資料,定義洗錢或財務詐騙等犯罪
關聯性法則associate rules
例如,分析犯嫌網路瀏覽紀錄,預測駭客攻擊風險;應用於受刑人犯案紀錄,分析未來再犯機率與期程,可用於假釋評估時使用
極端值預測outlier detection
分類樹classification
用來尋找不同案件之主要特性,並將其分類;但遺失的資料會影響建立犯罪預測分類樹的正確性
文本分析text mining
社交網絡social network
與其他資料相比,定義出變異過大的極端值
例如,偵查詐欺(轉帳金額暴增)、駭客攻擊(消費行為改變)等;但犯罪行為不夠明顯(如小額盜刷)可能無法完全偵測
例如,利用口語特性或文字架構,定義出垃圾或病毒郵件;用來預測犯罪趨勢和定義嫌疑人
用來比對文字,例如姓名、地址與身分證號碼
使用於警察筆錄或口供中用字之相似性與關聯性;或輸入法院判決書對各類犯案或特定嫌犯進行分析
定義嫌疑人之人際網路與扮演角色
可觀察到實體與虛擬的貨物流動或資訊關係,藉此偵測出隱藏的組織犯罪領導者
資料探勘之用處
協助定義犯罪手法、犯嫌特性與鎖定連續犯案者
犯罪巨量分析常使用之犯罪理論
微觀分析 :
一般化犯罪理論(赫序與高佛森)
犯罪或偏差行為會在青少年中期達到高峰,然後因為兵役(高度社會化環境)等因素急遽下降,但只有自我控制不會隨著年齡而變化,終其一生都難以改變。犯罪之所以下降是因為外在的因素所導致
兩分類犯罪人理論(莫菲)
分為一生都會持續犯罪的「生活周期持續性犯罪人」、及只會在青少年時間犯罪的「侷限於青少年時期犯罪人」
巨觀分析
無規範理論(涂爾幹)
緊張理論(莫爾頓)
社區共同規範的減弱與喪失(社會解組)是導致犯罪的主要因素(人口流動率、離婚率等)
社經地位的差異與壓力(低收入戶人口、失業率等)
探討巨量資料中變數間相互連結程度(彼此有關聯性在,發生結果有無關聯)
例如,因為不同犯罪類型彼此高度關聯(住宅竊盜犯亦是汽機車竊盜犯、毒品犯),如此可預先擬定案件偵防作為,依關聯性,鎖定轄區內可疑嫌疑人,以達到犯罪預防成效
記憶法
有支持才能讓信心提升
樹狀結構是以一筆資料從根部的節點進入決策樹,在根部應用一項決策,來決定資料進入下一層的哪一個子節點,分類過程會一直重複,直到達到葉部節點。
Classification And Regression Tree CART
適用在資料庫龐大、自變數目眾多,且相互作用與迴規模式皆未知的情況,符合本研究需求
目的
求同一子集合的資料最相似,決策樹的節點會選擇能將變異數降低最多(提高純度)的變數
提高運算效率與正確性,並具備操作容易、容易理解等特性
T2子節點
教育程度小於Y
T4子節點
T5子節點
所以節點變項若是連續數值,例如年紀就以平均值為結果
若變數為類別變數,則會以多數決定
重要資料探勘技術包括:預測、分類、視覺化、迴歸、叢集分析(clustering)與偵測極端值(outliner detection)
依序樣式法則
sequential pattern mining
分析具有時間或先後順序的資料,所需資料大、高度結構化且計算更複雜,但能得到更準確有時效之預測結果