資料探勘技術(110考題)

關聯性分析

迴歸分類樹(決策樹)

隨機森林

三個主要概念

意義

信心可靠度confidence

提升度lift

支持度support

建立關聯性原則的第一指標,透過設定最小門檻值篩選出頻繁組合

當某先決條件X發生下,對應結果Y發生的機率

信心可靠度的互補指標,評估XY同時出現與Y出現的機率,避免高估其關聯性

應用

因爲根據犯罪學原理:犯罪非隨機分布,而是高度集中少數特定的人群、地點或標的

主旨

意義

是以樹狀結構將巨量資料庫分割為同質分類(同一性質分為一區)。分析多應用於分群選擇影響因子與建立預測模式

T1整體族群
(以年齡、教育程度分類)

年齡大於X

年齡小於等於X

T3子節點

教育程度大於等於Y

以分類樹為基礎但較進階的方法

先利用抽樣的概念,隨機抽取樣本與變數,同時建立大量分類樹;更有效率、更準確

像是,同時向多位犯罪學家詢問問題,在整合其看法,結論較為客觀

優點

結論

適用在1.資料庫龐大2.自變數目眾多3.且相互作用與迴規模式皆未知的情況

大量、異質化及多元的資料庫中,快速找出資料關聯性或特性,藉由資料探勘技術,整合現有多元資料庫,並以證據導向進行方案建議

雖然資料探勘可以處理大量資料,且快速有效,仍須使用傳統統計方法為輔雖然資料探勘的預測力佳,但解釋度不進理想的缺點

針對高犯罪風險之累犯,利用其犯罪紀錄串連刑事警察局刑案資料庫、內政部入出境資料、法務部毒品成癮資料等相關資料庫透過1.犯罪行為分類,與2.計算不同犯罪類型之關聯,預測其未來可能發展之犯罪趨勢

最後結果需要包括所有分類樹結果

犯罪分析研究

實體萃取舉證entity extraction

圖片、影片、文字自動辨識可疑人犯、地址、車輛或人物特徵等有效證據進而協助鑑識犯罪

例如,網路犯罪利用軟體分析駭客病毒之程式碼,或網路詐騙之相似度,來定義犯嫌與集團;但此類分析技巧取決於資料的質與量

叢聚分析clustering analysis

將類似的犯嫌歸類在一起,原理是將組差異最大化及組差異最小化

例如,把犯案手法相似的案件,定為同一嫌犯所為;或是依照特性區隔不同犯罪組織,如財產犯罪執法機關,利用銀行交易資料,定義洗錢或財務詐騙等犯罪

關聯性法則associate rules

例如,分析犯嫌網路瀏覽紀錄,預測駭客攻擊風險;應用於受刑人犯案紀錄,分析未來再犯機率與期程,可用於假釋評估時使用

極端值預測outlier detection

分類樹classification

用來尋找不同案件之主要特性,並將其分類;但遺失的資料會影響建立犯罪預測分類樹的正確性

文本分析text mining

社交網絡social network

與其他資料相比,定義出變異過大的極端值

例如,偵查詐欺(轉帳金額暴增)、駭客攻擊(消費行為改變)等;但犯罪行為不夠明顯(如小額盜刷)可能無法完全偵測

例如,利用口語特性或文字架構,定義出垃圾或病毒郵件;用來預測犯罪趨勢和定義嫌疑人

用來比對文字,例如姓名、地址與身分證號碼

使用於警察筆錄或口供中用字之相似性與關聯性;或輸入法院判決書對各類犯案或特定嫌犯進行分析

定義嫌疑人之人際網路與扮演角色

可觀察到實體與虛擬的貨物流動或資訊關係,藉此偵測出隱藏的組織犯罪領導者

資料探勘之用處

協助定義犯罪手法犯嫌特性鎖定連續犯案

犯罪巨量分析常使用之犯罪理論

微觀分析 :

一般化犯罪理論(赫序與高佛森)

犯罪或偏差行為會在青少年中期達到高峰,然後因為兵役(高度社會化環境)等因素急遽下降,但只有自我控制不會隨著年齡而變化,終其一生都難以改變。犯罪之所以下降是因為外在的因素所導致

兩分類犯罪人理論(莫菲)

分為一生都會持續犯罪的「生活周期持續性犯罪人」、及只會在青少年時間犯罪的「侷限於青少年時期犯罪人」

巨觀分析

無規範理論(涂爾幹)

緊張理論(莫爾頓)

社區共同規範的減弱與喪失(社會解組)是導致犯罪的主要因素(人口流動率、離婚率等)

社經地位的差異與壓力(低收入戶人口、失業率等)

探討巨量資料中變數間相互連結程度(彼此有關聯性在,發生結果有無關聯)

例如,因為不同犯罪類型彼此高度關聯(住宅竊盜犯亦是汽機車竊盜犯、毒品犯),如此可預先擬定案件偵防作為,依關聯性,鎖定轄區內可疑嫌疑人,以達到犯罪預防成效

記憶法

有支持才能讓信心提升

樹狀結構是以一筆資料從根部的節點進入決策樹,在根部應用一項決策,來決定資料進入下一層的哪一個子節點,分類過程會一直重複,直到達到葉部節點。

Classification And Regression Tree CART
適用在資料庫龐大自變數目眾多,且相互作用與迴規模式皆未知的情況,符合本研究需求

目的

同一子集合的資料最相似,決策樹的節點會選擇能將變異數降低最多(提高純度)的變數

提高運算效率與正確性,並具備操作容易容易理解等特性

T2子節點

教育程度小於Y

T4子節點

T5子節點

所以節點變項若是連續數值,例如年紀就以平均值為結果
若變數為類別變數,則會以多數決定

重要資料探勘技術包括:預測、分類、視覺化、迴歸、叢集分析(clustering)與偵測極端值(outliner detection)

依序樣式法則
sequential pattern mining

分析具有時間或先後順序的資料,所需資料大、高度結構化且計算更複雜,但能得到更準確有時效之預測結果