2009.Distant supervision for relation extraction without labeled data
相关数据集
ACE
包含超过1000个文档,其中实体对被标记为5到7个主要关系类型和23到24个子关系,合计16,771个关系实例
关系提取涉及的方法
带标签文本关系提取方法
打标签代价昂贵,所以数量有限
由于关系是在特定的语料库上标记的,因此产生的分类器往往偏向于文本域。
无标签文本关系提取
无监督方法可以使用非常大量的数据并提取非常大量的关系,但是生成的关系可能不容易映射到特定知识库所需的关系。
使用非常少的种子实例或模式来进行引导学习
结果的模式常常出现精度低和语义偏移的问题。
Freebase
大型语义数据库
论文内容
目的
结论
远程监督方法
提供一种从多个句子中整合数据来决定两个实体之间是否存在关系的自然方法
是is-a关系的延伸
任何包含一对参与已知Freebase关系的实体的句子都可能以某种方式表达该关系
对于每一对实体,将它们出现在许多不同句子中的特征聚合为一个特征向量,从而为分类器提供更多信息,从而得到更准确的标签
被限制在少数关系实例和语料库少于一百万字
关系提取发展历程
字符串正则表达式匹配(DIPRE算法)
学习了类似于单词和命名实体标记的正则表达式模式反正还是类似于正则匹配(SNOWBALL算法)
探索语法依赖
通过使用来自维基百科页面信息框的监督,从维基百科页面中提取关系
从许多不同的文档和任何类型中提取关系的证据
涉及名词
relation
实体间的二元关系
relation instances
这种relation中的单个有序对
一个免费的结构化语义数据在线数据库
包括了很多关系的逆转
工作
如果两个实体参与一个关系,任何包含这两个实体的句子都可能表达这个关系。
训练部分
在训练中,将来自不同句子的相同元组(relation, entity1, entity2)的特征组合在一起,形成一个更丰富的特征向量。
测试部分
多分类逻辑回归分类器
使用命名实体识别再次标记实体
出现在一个句子中的每一对实体都被认为是一个潜在的关系实例,每当这些实体一起出现时,就从句子中提取特征并将其添加到该实体对的特征向量中。
优点
我们的体系结构的主要优点之一是它能够组合来自同一关系的许多不同提及的信息。
数据处理
在训练中使用了900000个Freebase关系实例,并且保留了900000个。这些实验在训练阶段使用了80万篇Wikipedia文章,在测试阶段使用了40万篇不同的文章。
过程描述
使用freebase提供一系列关系和参与这些关系的实体对的训练集
训练部分所有的实体都是在句子中使用命名实体标记符来标识的
词汇特征构成
两个实体间的词语顺序
这些词语的词性(veb、n…)
表示句子中哪个实体先出现的标志
实体1左边的k个单词和它们的词性标记组成的窗口
实体2右边的k个单词及其词性标记的窗口
句法特征
两个实体间的依赖路径
对于每个实体,一个“窗口”节点不是依赖路径的一部分
特征连接
每个特性由句子的几个属性的连接以及命名实体标记组成。
特征出现的次数比较少的话这个特征就会被忽视
实验
生成依存树
我们在培训阶段使用80万篇Wikipedia文章,在测试阶段使用40万篇不同的文章。