Please enable JavaScript.
Coggle requires JavaScript to display documents.
文字探勘 (文本分析 (中英文 (英文 (資料整理步驟 (其他 (計算 Term Frequency (詞頻) (image (以上方式使用後, …
文字探勘
文本分析
中英文
英文
資料整理步驟
stop word 停用字(刪除)
大小寫(改成全大寫或小寫)
stemming(詞幹化)
0-9去除 無意義的
punctuation 標點
詞性需要
其他
計算 Term Frequency
(詞頻)
m*n DTM
計算文字重要程度的權重
每個Term在每一份D中的重要程度
TF-IDF法
TF-IDF= TF*IDF
tfidf值 大->重要 小->不重要
text前處理
處理方式
關聯規則
集群分析
分類技術
Data mining
Text Cloud
Association Rules
Clustering
Classification
以上方式使用後,
再進一步做Sentiment Analysis情緒分析
採用 正負情緒詞庫
TDM
TF-IDF土法煉鋼法
ncolumn
nrow
rowSums
colSums
分析
jiebaR
亂碼處理
Python也有jieba
tm套件
corpus函數(語料庫)
tm_map
stemming
TDM
DTM
(次數 Frequency 詞頻)
TF-IDF算出來
此處為"R"的TF-IDF值
(與正規TF-IDF定義計算的值出來會略有差異)
(R有其自己的TF-IDF修正值調整)
4 more items...
視覺化工具
1 more item...
as.matrix
1 more item...
詞幹化套件
snowballC
詞幹化有其極限
若出現有些處理後造成無法判讀
如memor無y servi無e,則採專家介入(人工修正)
punctuation(標點符號)
removePunctuation
去除不必要number
removeNumbers
preprocess整數資料
刪除stop word
stripWhitspace去空白
轉小寫 content_transformer(tolower)
參數
中文(內含英文也算)
斷詞(segmentation)
注意中文內碼問題
UTF-8
Big5
套件
CKIP斷詞
斷完後續無工具與函數可運用
中研院
jiebaR
其它套件
借用 圖書館學編碼 NLP
Information Retrieval而形成 TD-IDF
舉例:
一篇文章裡面的Term字詞
用數學Dirichlet機率分配
Topic表達文章內涵
怎麼做語意分析呢?
矩陣
2.再來就資料整理
opinion mining
找網路上opinion leader