Probability Information Retrieveal

WHY 機率?

系統不確定user的真實資訊

系統要"猜"user的意思

基礎機率理論

Probability ranking principle

Binary Independence model
(BIM)
二元獨立模型

Okapi BM25 weighting

sample space(樣本空間)
event:sample space的子集
random variable
complement(補數)

image

= P(A∩B) / P(B)

Independence獨立

If P(A|B) = P(A), we say that A is independent of B.

A、B互相獨立時,P(A∩B) =P(A)P(B)

chain rule

P(A, B) = P(A∩B)
= P(A)P(B|A)
= P(B)P(A|B)

P(A, B, C, …) = P(A) P(B|A) P(C|A, B) …

Partition Rule

Let A be an event with P(A) > 0 and
image

Bayes Rule

image

1.P(A) – the prior probability of A (a certain event).蘋果的新聞是政治類別的機率


2.Bayes rule lets us derive a posterior probability P(A|B) after having seen the evidence B. 新聞中是政治類別的

Odds of an event

image

ranking of the documents越準越好

R值(文章的relevant)
R(R=1|d,q)
R = 1文章相關
R = 0文章不相關

1/0 LOSS

前提:
1.single step information先做一次
2.user依回傳結果做feedback(打勾、打叉),系統再做優化
3.query、document都被視為向量

Binary:每個文章及query是M維的2元向量,有term的為1,沒term是0
Independence:term在文件的發生是互相獨立的(但現實是不獨立的,不過結果不影響)

P(R|d,q) -> P(R|x,q)

可以用relevant of odds來算
分子大,分母小 -> 恆大

O(R|x,q) = P(R=1|x,q) / P(R=0|x,q)

Retrieval Status Value
image

image

計算每個query term的貢獻值

Pt:query term傾向於相關文章中出現
Ut:query term傾向於非相關文章出現

image

image

Pt = s / S
Ut = image

smoothing(避免log 0,在文件總數N加2基本文章數pseudocount):有文章的機率值給沒文章的機率值
image

Ut實際做法
1.將Ut視為dft / N(所有N包含非相關term)
2.N >> dft
即為IDF
image

Pt實際做法

法1
將Pt設為0.5,化簡ct = ID
image

法2透過relevence feedback,使用者回饋
V使用者標的集合,VR是相關的,VNR是不相關的
表格中填入VR、VRt

image

法3
pseudo-relevence feedback
認為系統很準
依user的回饋文件數V,分為VR、VNR

也要smoothing
image

其中可藉由relevence feedback,找出回饋的相關文章中,的共同term -> 可能對query很重要
-> 加到query中

image image

並不注意
1.term frequency
2.document length

Ld越長,懲罰tf
Ld越短,獎勵tf

k1 >= 0用來調整term frequency的參與程度
1.k1 = 0,不管tf
2.k1很大,tf影響大


若不優化,通常1.2 <= k1,k3 <= 2

b用來調整Ld的參與程度
0 <= b <= 1
若不優化,通常b = 0.75

如果query很長
用k3調整query的參與程度
image image

image

image

假設VR = V

image

image

query不需要正規化,因為用同一個query(document則有很多個)