Probability Information Retrieveal

WHY 機率？

系統不確定user的真實資訊

系統要"猜"user的意思

基礎機率理論

Probability ranking principle

Binary Independence model
(BIM)
二元獨立模型

Okapi BM25 weighting

sample space(樣本空間)
event：sample space的子集
random variable
complement(補數)

= P(A∩B) / P(B)

Independence獨立

If P(A|B) = P(A), we say that A is independent of B.

A、B互相獨立時，P(A∩B) =P(A)P(B)

chain rule

P(A, B) = P(A∩B)
= P(A)P(B|A)
= P(B)P(A|B)

P(A, B, C, …) = P(A) P(B|A) P(C|A, B) …

Partition Rule

Let A be an event with P(A) > 0 and

Bayes Rule

1.P(A) – the prior probability of A (a certain event).蘋果的新聞是政治類別的機率

2.Bayes rule lets us derive a posterior probability P(A|B) after having seen the evidence B. 新聞中是政治類別的

Odds of an event

ranking of the documents越準越好

R值(文章的relevant)
R(R=1|d,q)
R = 1文章相關
R = 0文章不相關

1/0 LOSS

前提：
1.single step information先做一次
2.user依回傳結果做feedback(打勾、打叉)，系統再做優化
3.query、document都被視為向量

Binary：每個文章及query是M維的2元向量，有term的為1，沒term是0
Independence：term在文件的發生是互相獨立的(但現實是不獨立的，不過結果不影響)

P(R|d,q) -> P(R|x,q)

可以用relevant of odds來算
分子大，分母小 -> 恆大

O(R|x,q) = P(R=1|x,q) / P(R=0|x,q)

Retrieval Status Value

計算每個query term的貢獻值

Pt：query term傾向於相關文章中出現
Ut：query term傾向於非相關文章出現

Pt = s / S
Ut =

smoothing(避免log 0，在文件總數N加2基本文章數pseudocount)：有文章的機率值給沒文章的機率值

Ut實際做法
1.將Ut視為dft / N(所有N包含非相關term)
2.N >> dft
即為IDF

Pt實際做法

法1
將Pt設為0.5，化簡ct = ID

法2透過relevence feedback，使用者回饋
V使用者標的集合，VR是相關的，VNR是不相關的
表格中填入VR、VRt

法3
pseudo-relevence feedback
認為系統很準
依user的回饋文件數V，分為VR、VNR

也要smoothing

其中可藉由relevence feedback，找出回饋的相關文章中，的共同term -> 可能對query很重要
-> 加到query中

並不注意
1.term frequency
2.document length

Ld越長，懲罰tf
Ld越短，獎勵tf

k1 >= 0用來調整term frequency的參與程度
1.k1 = 0，不管tf
2.k1很大，tf影響大

若不優化，通常1.2 <= k1,k3 <= 2

b用來調整Ld的參與程度
0 <= b <= 1
若不優化，通常b = 0.75

如果query很長
用k3調整query的參與程度

假設VR = V

query不需要正規化，因為用同一個query(document則有很多個)