Please enable JavaScript.
Coggle requires JavaScript to display documents.
Indexing (全文檢索 (找出 tokens (Numbers, Hyphenation 連字符, Capitalization 大寫,…
Indexing
全文檢索
文件轉換能辨識結構
正規化
Query
Document
找出等價的字
找出淺在的字
找出 tokens
Numbers
Hyphenation 連字符
Capitalization 大寫
Punctuation 標點
特殊符號 eg. email. URL...
有些語言要分割 eg. 中、日
贅字移除
Zipf's Law
建出字典
辨識關聯性
找出文件代表的意思
Inverted Index
只記DocId
DocId + Freq.
Ranking 好用
DocId + Position
接近匹配
可以找出片語
Manual Indexing
人工辨識 :silhouette:
Controlled Vocabularies
對主題更精準
更聚焦在領域上
eg. Library of Congress Subject Headings
Medical Subject Headings
有粗細之分
Automatic Indexing
Tokenization