Please enable JavaScript.
Coggle requires JavaScript to display documents.
中文分词 (难点 (歧义 (组合歧义, 交集歧义, 真歧义), 多重分词标准, 未登录词识别 OOV), 常见方法 (基于机器学习 (深度学习…
中文分词
难点
歧义
组合歧义
交集歧义
真歧义
多重分词标准
未登录词识别 OOV
常见方法
基于机器学习
HMM
CRF
最大熵ME
N-gram
SVM
深度学习
基于神经网络
TextCNN
Seq2Seq
Attention
BERT类
优点: 不仅考虑词频,还考虑上下文,可以有效消除歧义,识别未登录词
缺点:训练需要大量人工标注语料
基于词典
正向匹配FM
逆向匹配BM
N-最短路径
双向匹配
缺点:对歧义和未登录词处理不好
其它
分词工具
Hanlp
HMM,CRF