Please enable JavaScript.
Coggle requires JavaScript to display documents.
命名实体识别 - Coggle Diagram
命名实体识别
研究难点
领域命名实体识别的局限性
只在有限的领域和有限的实体类型中取得较好成绩,如针对新闻语料中的人名、机构名、地名的识别
目前无法将以上技术很好地迁移到其他特定领域中,如军事、医疗、生物、小语种语言等
原因
不同领域的数据往往具有领域独特特征,不同领域的模型并不相适
领域资源匮乏造成标注数据集缺失,导致模型训练很难直接开展
核心研究方向:采用半监督、远监督、无监督学习实现资源的自动构建和补足,以及迁移学习等技术的应用
命名实体表述多样性和歧义性
获取到的文本数据,由于知识表示粒度不同、置信度相异、缺乏规范性约束等问题,会出现命名实体表述多样、指代不明确等现象
需要充分理解上下文语义来深度挖掘实体语义进行识别
通过实体链接、融合对齐等方法,挖掘更多有效信息和证据,实现实体不同表示的对齐、消除歧义,从而克服命名实体表述多样性和歧义性
命名实体的复杂性和开放性
实际数据中实体类型复杂多样
需要识别细粒度的实体类型
将命名实体分配到更具体的实体类型中
开放性:命名实体内容和类型并非永久不变,会随着时间变化发生各种演变,甚至最终失败
研究进展
基于规则和词典的方法
最初代的命名实体识别使用的方法
由语言学家通过人工方式,依据数据集特征构建的特定规则模板或者特殊词典
规则:关键词、位置词、方位词、中心词、指示词、统计信息、标点符号等
词典:由特征词构成的词典和外部词典共同组成,外部词典指已有的常识词典
基于已经制定好的规则和词典,通常使用匹配的方式对文本进行处理以实现NER
传统机器学习方法
在基于ML的方法中,NER被当作是序列标注问题
序列标注问题中当前的预测标签不仅与当前的输入特征有关,还与之前的预测标签相关
预测标签序列之间是有强相互依赖关系的
主要的传统机器学习方法
隐马尔可夫模型(HMM)
最大熵(ME)
支持向量机(SVM)
条件随机场(CRF)
基于深度学习的方法
深层神经网络(DNN)几乎不需要特征工程和领域知识
LSTM-CNNs:可以自动检测单词和字符级别的特征
BiLSTM-CNNs-CRF:扩展以上模型体系结构,添加了CRF模块以优化输出标签序列
LM-LSTM-CRF:任务感知型神经语言模型,将字符感知型神经语言模型合并到下一个多任务框架下,以提取字符级向量话表示
将辅助信息和深度学习方法混合使用进行NER:即在基于神经网络的结构中加入注意力机制,图神经网络,迁移学习,远监督学习等热门研究技术
研究热点
匮乏资源下的NER:基于迁移学习、对抗学习、远监督学习等方法
细粒度的NER:更精确地确定非结构化文本中提到的实体类型有意义,将这些实体在知识库的类型层次结构中用类型路径,即类型层次
实现知识库中命名实体的细粒度划分,是完善知识库的重要任务之一
常用数据集和评价指标