Link Analysis

click to edit

以hyperlink來ranking

(很多人link到它) -> 重要的link,but

有時會失準,因結構、或$(SEO)

Anchor Text(錨文字、註解、hashtag)

以web search來說好用(但是其中一個因子)

因有時首頁文字不一定完整呈現實際內容 -> 用其他anchor text

有時會抓多一點anchor text附近的字

PageRank

給一Web Graph(有方向性),幫每個node(web page),給一個分數

1.有link指過去,類似投票。
2.但hyper link是有投票權重


-> 菁英型投票

image

v:有指向u的網頁
x(v):連向u的成績
deg(v):網頁v推薦多少網站(權重程度,爛好人成績越低)

使用矩陣transition probability matrix

P
指向別人的表格
image

Pt
其他點指回自己的表格
image

image

第1列:1沒指到1,2、3必指到1

eigenvalue為1的eigenvector

所需特性:

eigenvector從哪來?

Makov chain

描述發生流程一系列的time step

包含N個State

每個time step

Web Surfing

相當於Makov chain

先從隨意一個Node當起點,在隨機選一條路徑

現象

有些點較容易走到(很多Node指向他)

可能有很多in-link

這個點比較重要

加總為1

x0,表示在t=0的起始點

x1 = Pt * X0

x2
= Pt x1
= (Pt) ^ 2
x0
= (P ^ 2)t * x0

Q1:不同出發點會不會造成不同結果?(這種eteratives能不能收斂,口試請注意)
Q2:N要幾次算多?

click to edit

Perron-Frobenius Theorem

irreducible & aperiodic Markov chain

image

n很大時,P ^ n = P ^ (n+1)...

image
image

不論怎麼逛,從哪個點出發都一樣

image

irreducible:任2個Node都互通

aperiodic

period di of state i

從node出發,繞一圈又回來

image

gcd = 1的period

makov chain是aperiodic表示:
所有Node都是aperiodic

web surfing不一定具有irreducible、aperiodic

解法-加入teleport:可以有跳到其他Node的機會(機率低)

image

image

a大約在0.1-0.2

是一個query-independent measure

與user輸入的query無關

是其中一個因子

HITS(Hyperlink-Induced Topic Search)

是query-dependent

認為網路上有2種類型的網頁

authorities page(內容)

hub page(像目錄)

假設網路上的子集合有一數量的authority pages:a(v)
& hub pages:h(v)

image

why不是等號:有正規化

image

用相鄰矩陣

image

image

AAt為一nn矩陣 -> 相當於一個eigenvalue的eigenvector

iterative方法

會收斂嗎?

let z = ((1/n)1/2, (1/n)1/2, ..., (1/n)1/2) in Rn

如何得到網頁的子集合?

For an eigenvalue, we have an infinite number of corresponding eigenvectors
if ω is an eigenvector of λ, then M(kω) = kMω = kλω = λ(kω)

1.如果有個對稱矩陣,一定有eigenvector
2.if M = BBT or M = BTB(對稱矩陣), the corresponding eigenvalues must be non-negative!!

將最大的eigenvalue eigenvector稱為principal eigenvector

1.如果有對稱矩陣為非0矩陣,則其principal eigenvector唯一非0值
2.如果有個v與principal eigenvector為非正交,經過幾次(約20次)後會到principal eigenvector

設找一個query q,則Sq應要有特性

1.Sq要小
2.Sq與q相關
3.Sq包含很多authorities

1、2容易取得(以全文檢索)

3.解法Base set:
a.將指出去的page全抓進來
b.將部分指回來的page抓進來(隨機數量)

有些link是intrinsic(固有的)