Please enable JavaScript.
Coggle requires JavaScript to display documents.
Link Analysis - Coggle Diagram
Link Analysis
PageRank
給一Web Graph(有方向性),幫每個node(web page),給一個分數
1.有link指過去,類似投票。
2.但hyper link是有投票權重
-> 菁英型投票
v:有指向u的網頁
x(v):連向u的成績
deg(v):網頁v推薦多少網站(權重程度,爛好人成績越低)
使用矩陣transition probability matrix
P
指向別人的表格
Pt
其他點指回自己的表格
第1列:1沒指到1,2、3必指到1
eigenvalue為1的eigenvector
所需特性:
eigenvector從哪來?
Makov chain
描述發生流程一系列的time step
包含N個State
每個time step
Web Surfing
相當於Makov chain
先從隨意一個Node當起點,在隨機選一條路徑
現象
1 more item...
加總為1
x0,表示在t=0的起始點
x1 = Pt * X0
x2
= Pt
x1
= (Pt) ^ 2
x0
= (P ^ 2)t * x0
Q1:不同出發點會不會造成不同結果?(這種eteratives能不能收斂,口試請注意)
Q2:N要幾次算多?
2 more items...
是一個query-independent measure
與user輸入的query無關
是其中一個因子
HITS(Hyperlink-Induced Topic Search)
是query-dependent
認為網路上有2種類型的網頁
authorities page(內容)
hub page(像目錄)
假設網路上的子集合有一數量的authority pages:a(v)
& hub pages:h(v)
why不是等號:有正規化
用相鄰矩陣
A
At為一n
n矩陣 -> 相當於一個eigenvalue的eigenvector
iterative方法
會收斂嗎?
1.如果有個對稱矩陣,一定有eigenvector
2.if M = BBT or M = BTB(對稱矩陣), the corresponding eigenvalues must be non-negative!!
將最大的eigenvalue eigenvector稱為principal eigenvector
1.如果有對稱矩陣為非0矩陣,則其principal eigenvector唯一非0值
2.如果有個v與principal eigenvector為非正交,經過幾次(約20次)後會到principal eigenvector
let z = ((1/n)1/2, (1/n)1/2, ..., (1/n)1/2) in Rn
如何得到網頁的子集合?
設找一個query q,則Sq應要有特性
1.Sq要小
2.Sq與q相關
3.Sq包含很多authorities
1、2容易取得(以全文檢索)
3.解法Base set:
a.將指出去的page全抓進來
b.將部分指回來的page抓進來(隨機數量)
有些link是intrinsic(固有的)
For an eigenvalue, we have an infinite number of corresponding eigenvectors
if ω is an eigenvector of λ, then M(kω) = kMω = kλω = λ(kω)
以hyperlink來ranking
(很多人link到它) -> 重要的link,but
有時會失準,因結構、或$(SEO)
Anchor Text(錨文字、註解、hashtag)
因有時首頁文字不一定完整呈現實際內容 -> 用其他anchor text
有時會抓多一點anchor text附近的字
以web search來說好用(但是其中一個因子)