Please enable JavaScript.
Coggle requires JavaScript to display documents.
知识图谱的构建 (信息抽取 (关键技术 (实体抽取 (数据来源 (百科类的常识性数据(质量高,更新慢), 半结构化网页等抽取,…
知识图谱的构建
信息抽取
-
关键技术
实体抽取
-
面向开放域的实体识别和分类
难点:
- 不需要也不可能为每个领域或每个实体类别建立单独的语料库作为训练集
- 从给定的少量实体实例中自动发现具有区分力的模型
技术实现思路:
- 根据已知的实体实例进行特征建模,利用该模型处理海量数据集得到新的命名实体列表,然后针对新实体建模,迭代地生成实体标注语料库
- 利用搜索引擎的服务器日志,事先并不给出实体分类等信息,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类
-
-
关系抽取
-
技术实现思路
预定义实体关系类型:
- 早期的通过人工构造语法和语义规则提取
- 基于特征向量或者核函数的有监督学习方法
-
属性抽取
-
数据来源:
- 当前:百科类网站的半结构化数据
- 大量实体属性数据隐藏在非结构化的公开数据中
技术实现思路:
- 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取
- 采用数据挖掘的方法直接从文本中挖掘实体属性与属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位(基于“属性名和属性值之间在位置上有关联关系”的假设,这符合很多真实语言环境中的情况)
知识融合:
对新知识进行整合,以消除矛盾和歧义
-
关键技术
实体连接
-
实现思路:
- 通过实体抽取获取实体指称
- 实体消歧与共指消解
- 确认之后将实体指称连接到知识库中的对应实体
- 需要解决不一致性问题(通过模式层定义或者置信度高的数据)
主要方法
-
共指消解
-
技术方法:
- 基于自然语言(Hobbs算法,向心理论)
- 机器学习(C4.5决策树,术语相似度)
-
-
-
-
-