Please enable JavaScript.
Coggle requires JavaScript to display documents.
知识图谱技术框架 - Coggle Diagram
知识图谱技术框架
知识融合
Knowledge Fusion
知识融合的挑战
数据质量的挑战:如命名模糊,数据输入错误、数据丢失、数据格式不一致、缩写等。
数据规模的挑战:数据量大(并行计算)、种类多样性、不再仅仅通过名字匹配、多种关系、更多链接等
基本技术流程
数据预处理
数据正规化
用正式名字替换昵称和缩写等
输入错误类的拓扑错误
移除空格、《》、“”、-等符号
语法正规化
语法匹配:如联系电话的表示方法
综合属性:如家庭地址的表达方式
记录链接
属性相似度
集合相似度计算:Jaccard系数,Dice
基于向量的相似度计算:Cosine相似度、TFIDF相似度
编辑距离:Levenstein、Wagner and Fisher、Edit Distance with Afine Gap
实体相似度
聚合:加权平均、手动制定规则、分类器
聚类:层次聚类、相关性聚类、Canopy+Kmeans
表示学习
分块
负载均衡
需要做的工作
等价实例
等价类/子类
等价属性/子属性
典型知识融合工具
本体对齐Falcon-AO
Limes实体匹配
三角不等式过滤
实体对齐
成对实体对齐方法
基于传统概率模型的实体对齐方法
基于机器学习的实体对齐方法
实体对齐流程
将待对齐数据进行分区索引,以降低计算的复杂度
利用相似度函数或相似性算法查找匹配实例
使用实体对齐算法进行实例融合
将步骤2)与步骤3)的结果结合起来,形成最终的对其结果
面临的挑战
数据质量
先验训练数据
计算复杂度
局部集体实体对齐方法
全部集体实体对齐方法
基于相似性传播的集体实体对齐方法
基于概率模型的集体实体对齐方法
知识提取
Knowledge Extraction
属性和属性值抽取
属性值提取则为一个语义类的实体附加属性值
此处是自然语言处理的关键应用处,Reason:传统的半结构化信息抽取属性和属性值已经不再适应愈加精确的需求了
属性抽取的任务是为每一本体语义类构造属性列表(如城市的属性包括面积、人口、所在国家、地理位置)
语义类抽取
上下为关系提取
最简单的方法是解析百科类站点的分类信息(如维基百科的“分类”和百度百科的“开放分类”)
在英文数据上用Hearst模式和lsA模式进行模式匹配被认为是比较有效的上下位关系抽取方法
该模块从文档中抽取词的上下位关系信息,生成(下义词,上义词)数据对,例如(狗,动物)、(悉尼,城市)
缺点
语义类生成
聚类的结果决定了要生成哪些语义类以及每个语义类包含哪些实体
语义类标定的任务是给一个语义类附加一个或者多个上位词作为其成员的公共上位词
并列相似度计算
两个词有较高的并列相似度的条件是它们具有并列关系(即同属于一个语义类),并且有较大的关联度
分布相似度法(distributional similarity)和模式匹配法(pattern matching)
第二步,把每个词表示成一个特征向量,向量每一维代表一个不同的上下文,向量的值表示本词相对于上下文的权重
第三步,计算两个特征向量之间的相似度,将其作为它们所代表的词之间的相似度
第一步,定义上下文
计算其结果是词和词之间的相似性信息
实体抽取
基于统计机器学习的实体抽取方法
鉴于基于规则与词典实体的局限性,为具更有可扩展性,相关研究人员将机器学习中的监督学习算法用于命名实体的抽取问题上
近年来随着深度学习的兴起应用,基于深度学习的命名实体识别得到广泛应用
基于规则和字典的实体提取方法
使用已定义的规则,抽取出文本中人名、地名、组织机构名、特定时间等实体
基于规则模板的方法不仅需要依靠大量的专家来编写规则或者模板、覆盖的领域范围有限,而且很难适应数据变化的新需求
基于百科或者垂直站点提取
主要是基于爬虫技术来实现和获取
面向开放域的实体抽取方法
从少量的实体实例中自动发现具有区分力的模式,进而扩展到海量文本去给实体做
通过少量的实体实例建立特征模型,再通过该模型应用于新的数据集得到新的命名实体
基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类
关系抽取
基于信息包括参数类型、满足此关系的元组模式等,例如关系BeCapitalOf(表示一个国家得首都)得基本信息
抽取方法
开放式实体关系抽取
基于联合推理得实体关系抽取
目标是解决实体语义链接的问题
知识推理
Knowledge Reasoning
本体推理方法
基于逻辑编程改写的方法
基于一阶查询量写的方法
基于产生式规则的方法
基于Tableaux上的推理机制
本体推理工具
Drools
Jena
RDF4J
GraphDB
描述逻辑
Tbox术语集:个体的断言集合,Tbox语言有定义和包含
\[\text{包含指声明包含关系的公理,例如 Mother} \subseteq \exists \text{hasChild.Person}\]
定义为引入概念及关系的名称,如Mother、Person、has_child
Abox断言集:个体的断言集,指具体个体的信息,包含外延知识(又称为断言(Assertion)),描述论域中的特定个体。Abox语言包含概念断言和关系断言
概念断言即表示一个对象是否属于某个概念,例如Mother(Alice)、Person(Bob)
关系断言表示两个对象是否满足特定的关系,例如has_child(Alice, Bob)
最基本的元素:概念、关系、个体
个体解释为一个领域内的实例,如小明:(Ming)
关系解释为该领域上的二元关系(笛卡尔积),如<x,y>|friend(x,y)
概念即解释为一个领域的子集,如 x|student(x)
Tbox和Abox上的推理机制
方法:OWL本体语言是知识图谱中最规范(W3C制定)、最严谨(采用描述逻辑)表达能力最强的语言(是一阶谓词逻辑的子集)
知识表示
Knowledge Represention
表示方法
RFD
OWL
代表模型
单层神经网络模型
双线性模型
神经张量模型
距离模型
矩阵分解模型
翻译模型
详细可见清华大学刘知远的知识表示学习研究进展
复杂关系模型
TransD模型
TransG模型
TransR模型
KG2E模型
TransH模型
知识存储
Knowledge Storage
图数据库
Graph-based Database
Neo4j
图数据库+Lucene索引
支持图属性
支持ACID
高可用性
支持320亿节点
支持320亿的关系
640亿的属性
优点
高连通数据
推荐
路径查找
\[A^{*}~\text{算法} \]
数据优先
RDF4j
属性
概念
实体
OrientDB
gStore
Titan