Please enable JavaScript.
Coggle requires JavaScript to display documents.
資料探勘技術(110考題), 犯罪分析研究, T1整體族群 (以年齡、教育程度分類), 犯罪巨量分析常使用之犯罪理論 - Coggle…
資料探勘技術(110考題)
迴歸分類樹(決策樹)
主旨
Classification And Regression Tree CART
適用在
資料庫龐大
、
自變數目眾多
,且
相互作用與迴規模式皆未知的情況
,符合本研究需求
意義
是以樹狀結構將巨量資料庫分割為
同質分類(同一性質分為一區)
。分析多應用於
分群
,
選擇影響因子與建立預測模式
樹狀結構是以一筆資料從根部的節點進入決策樹,
在根部應用一項決策,來決定資料進入下一層的哪一個子節點
,分類過程會一直重複,直到達到葉部節點。
優點
提高
運算效率與正確性
,並具備
操作容易
、
容易理解
等特性
目的
求
同一子集合的資料最相似
,決策樹的節點會選擇能將變異數降低最多(提高純度)的變數
關聯性分析
三個主要概念
信心
可靠度confidence
當某
先決條件X
發生下,
對應結果Y發生
的機率
提升
度lift
信心可靠度的互補指標
,評估
XY同時出現與Y出現的機率
,避免高估其關聯性
支持
度support
建立關聯性原則的
第一指標
,透過
設定最小門檻值
,
篩選出頻繁組合
記憶法
有支持才能讓信心提升
意義
探討巨量資料中
變數間相互連結程度
(彼此有關聯性在,發生結果有無關聯)
應用
因爲根據犯罪學原理:犯罪
非隨機分布
,而是
高度集中
在
少數特定的人群、地點或標的
針對高犯罪風險之累犯,利用其
犯罪紀錄串連
刑事警察局刑案資料庫、內政部入出境資料、法務部毒品成癮資料等
相關資料庫
,
透過1.犯罪行為分類,與2.計算不同犯罪類型之關聯,預測其未來可能發展之犯罪趨勢
例如,因為不同犯罪類型彼此高度關聯(住宅竊盜犯亦是汽機車竊盜犯、毒品犯),如此可預先擬定案件偵防作為,依關聯性,鎖定轄區內可疑嫌疑人,以達到犯罪預防成效
結論
適用在
1.資料庫龐大
、
2.自變數目眾多
,
3.且相互作用與迴規模式皆未知
的情況
大量、異質化及多元的資料庫中,
快速找出資料關聯性或特性
,藉由資料探勘技術,
整合現有多元資料庫
,並以證據導向進行方案建議
雖然資料探勘可以處理大量資料,且快速有效,仍
須使用傳統統計方法為輔
,
雖然資料探勘的預測力佳,但解釋度不進理想
的缺點
隨機森林
以分類樹
為基礎但較進階
的方法
先利用
抽樣
的概念,
隨機抽取樣本與變數
,同時
建立大量分類樹
;更有效率、更準確
像是,同時
向多位
犯罪學家詢問問題,在
整合其看法
,結論較為
客觀
最後
結果
需要
包括所有分類樹結果
所以節點變項若是
連續數值
,例如年紀就
以平均值為結果
若變數為
類別變數
,則會
以多數決定
資料探勘之用處
協助
定義犯罪手法
、
犯嫌特性
與
鎖定連續犯案
者
重要資料探勘技術包括:預測、分類、視覺化、迴歸、叢集分析(clustering)與偵測極端值(outliner detection)
犯罪分析研究
實體萃取舉證entity extraction
從
圖片、影片、文字自動辨識
可疑人犯、地址、車輛或人物
特徵等有效證據
,
進而協助鑑識犯罪
例如,網路犯罪利用軟體
分析駭客病毒之程式碼
,或網路詐騙之
相似度
,來定義犯嫌與集團;但此類分析技巧取決於資料的質與量
叢聚分析clustering analysis
將類似的犯嫌歸類在一起
,原理是將組
間
差異
最大化
及組
內
差異
最小化
例如,把犯案手法相似的案件,定為同一嫌犯所為;或是依照特性區隔不同犯罪組織,如財產犯罪執法機關,利用銀行交易資料,定義洗錢或財務詐騙等犯罪
關聯性法則associate rules
例如,分析犯嫌
網路瀏覽紀錄
,預測駭客攻擊風險;應用於
受刑人犯案紀錄
,分析未來再犯機率與期程,可用於假釋評估時使用
依序樣式法則
sequential pattern mining
分析
具有時間或先後順序
的資料,所需資料大、高度結構化且計算更複雜,但能得到更準確有時效之預測結果
極端值預測outlier detection
與其他資料相比
,定義出
變異過大的極端值
例如,偵查詐欺(轉帳金額暴增)、駭客攻擊(消費行為改變)等;但
犯罪行為不夠明顯(如小額盜刷)
可能
無法完全偵測
分類樹classification
用來尋
找不同案件之主要特性
,並將
其分類
;但遺失的資料會影響建立犯罪預測分類樹的正確性
例如,利用口語特性或文字架構,定義出垃圾或病毒郵件;用來預測犯罪趨勢和定義嫌疑人
文本分析text mining
用來
比對文字
,例如姓名、地址與身分證號碼
使用於警察筆錄或口供中用字之相似性與關聯性;或輸入法院判決書對各類犯案或特定嫌犯進行分析
社交網絡social network
定義嫌疑人之
人際網路與扮演角色
可觀察到實體與虛擬
的貨物流動或資訊關係
,藉此偵測出隱藏的組織犯罪領導者
T1整體族群
(以年齡、教育程度分類)
年齡大於X
T3子節點
教育程度大於等於Y
T5子節點
教育程度小於Y
T4子節點
年齡小於等於X
T2子節點
犯罪巨量分析常使用之犯罪理論
微觀分析 :
一般化犯罪理論(赫序與高佛森)
犯罪或偏差行為會在青少年中期達到高峰,然後因為兵役(高度社會化環境)等因素急遽下降,但只有自我控制不會隨著年齡而變化,終其一生都難以改變。犯罪之所以下降是因為外在的因素所導致
兩分類犯罪人理論(莫菲)
分為一生都會持續犯罪的「生活周期持續性犯罪人」、及只會在青少年時間犯罪的「侷限於青少年時期犯罪人」
巨觀分析
無規範理論(涂爾幹)
社區共同規範的減弱與喪失
(社會解組)是導致犯罪的主要因素(人口流動率、離婚率等)
緊張理論(莫爾頓)
社經地位的差異與壓力
(低收入戶人口、失業率等)