Please enable JavaScript.
Coggle requires JavaScript to display documents.
降維 (feature selection, feature extraction), 向量化 - Coggle Diagram
降維
feature selection
Information Gain
適合 所有的類別都使用相同的特徵集合
整體信息熵-條件熵:某一特徵在文本中出現前後(有他跟沒有他)的熵之差
Chi-square
CONS
:誇大了低頻詞的作用
偏差大 > 否定獨立(相關)
詞t與類別c不相關”來做原假設
觀察實際值與理論值的偏差
TF-IDF
(term frequency–inverse document frequency)
可不移除停用字
TF*IDF low-> 區別能力強
CONS
: 如果 其中一個 特徵 在某類 出現多次,在其他類出現少次 是重要特徵卻被過濾掉
IDF 小 =在很多文本內都有出現過
TF 高+ IDF 高(沒有XX的內容多) 區別能力高
詞頻法
Zipf's Law: 排名與頻率成反比
(排除停用詞)出現頻率少->影響小
將詞頻< N刪除
DF (Document Frequency)
整個文件含有多少這個單詞 if 太多、太少沒有具代表性、沒有區分度
Pros 計算量小、快速
Cons 刪除重要判斷 精確度low
Mutual Information
特定類別出現頻率高、但在其他類別出現頻率低->mutual大
word vs. category independence?
ignore 含量大訊息
feature extraction
離散
TF-IDF
BOW
只要單個文本中單詞出現在字典中,就將其向量值加1,出現多少次就加多少次
考慮詞頻
One-Hot Representation
無法區別詞的重要性
將每個詞都表示成一個長向量,向量的維度是詞表的大小,詞的當前位置用1表示,其他位置用0表示。
向量化
離散
One-Hot Representation
將每個詞都表示成一個長向量,向量的維度是詞表的大小,詞的當前位置用1表示,其他位置用0表示。
無法區別詞的重要性
BOW
考慮詞頻
只要單個文本中單詞出現在字典中,就將其向量值加1,出現多少次就加多少次
TF-IDF
分佈式表示
Word2Vec
向量的距離代表了詞語之間的相似性,把相似的詞語放在同個維度
CBOW
利用上下文來預測中間的詞出現的機率
skip-Gram
用中間詞來訓練上下文出現詞的機率