Niech:
X będzie wektorem wszystkich słów w danym języku;
A będzie wektorem wag dla poszczególnych słów w dokumencie;
Vector Space Model będzie wektorem wagi dla każdego słowa z wektora W.
Wtedy np.:
X=[a.a., Aachen,(...),żyźny]
A=[0.1,0.5,(...),0.3]
VSM=[w(1),w(2),(...),w(m)],
gdzie w(i) to waga słowa i.
Wtedy w(i) zależy od:
-częstości wystąpień termu t w dokumencie d: tf(t,d)
-częstości wystąpień w innych dokumentach: im mniej dokumentów, tym lepiej