Please enable JavaScript.
Coggle requires JavaScript to display documents.
Probability Information Retrieveal - Coggle Diagram
Probability Information Retrieveal
WHY 機率?
系統不確定user的真實資訊
系統要"猜"user的意思
基礎機率理論
sample space(樣本空間)
event:sample space的子集
random variable
complement(補數)
= P(A∩B) / P(B)
Independence獨立
If P(A|B) = P(A), we say that A is independent of B.
A、B互相獨立時,P(A∩B) =P(A)P(B)
chain rule
P(A, B) = P(A∩B)
= P(A)P(B|A)
= P(B)P(A|B)
P(A, B, C, …) = P(A) P(B|A) P(C|A, B) …
Partition Rule
Let A be an event with P(A) > 0 and
Bayes Rule
1.P(A) – the prior probability of A (a certain event).蘋果的新聞是政治類別的機率
2.Bayes rule lets us derive a posterior probability P(A|B) after having seen the evidence B. 新聞中是政治類別的
Odds of an event
Probability ranking principle
ranking of the documents越準越好
R值(文章的relevant)
R(R=1|d,q)
R = 1文章相關
R = 0文章不相關
1/0 LOSS
Binary Independence model
(BIM)
二元獨立模型
前提:
1.single step information先做一次
2.user依回傳結果做feedback(打勾、打叉),系統再做優化
3.query、document都被視為向量
Binary:每個文章及query是M維的2元向量,有term的為1,沒term是0
Independence:term在文件的發生是互相獨立的(但現實是不獨立的,不過結果不影響)
P(R|d,q) -> P(R|x,q)
可以用relevant of odds來算
分子大,分母小 -> 恆大
O(R|x,q) = P(R=1|x,q) / P(R=0|x,q)
Retrieval Status Value
計算每個query term的貢獻值
smoothing(避免log 0,在文件總數N加2基本文章數pseudocount):有文章的機率值給沒文章的機率值
Pt:query term傾向於相關文章中出現
Ut:query term傾向於非相關文章出現
Pt = s / S
Ut =
Ut實際做法
1.將Ut視為dft / N(所有N包含非相關term)
2.N >> dft
即為IDF
Pt實際做法
法1
將Pt設為0.5,化簡ct = ID
法2透過relevence feedback,使用者回饋
V使用者標的集合,VR是相關的,VNR是不相關的
表格中填入VR、VRt
法3
pseudo-relevence feedback
認為系統很準
依user的回饋文件數V,分為VR、VNR
也要smoothing
假設VR = V
並不注意
1.term frequency
2.document length
Okapi BM25 weighting
其中可藉由relevence feedback,找出回饋的相關文章中,的共同term -> 可能對query很重要
-> 加到query中
Ld越長,懲罰tf
Ld越短,獎勵tf
k1 >= 0用來調整term frequency的參與程度
1.k1 = 0,不管tf
2.k1很大,tf影響大
若不優化,通常1.2 <= k1,k3 <= 2
b用來調整Ld的參與程度
0 <= b <= 1
若不優化,通常b = 0.75
如果query很長
用k3調整query的參與程度
query不需要正規化,因為用同一個query(document則有很多個)