Please enable JavaScript.

Coggle requires JavaScript to display documents.

知识图谱的构建 (信息抽取 (关键技术 (实体抽取 (数据来源 (百科类的常识性数据（质量高，更新慢）, 半结构化网页等抽取,…

- - - - 实体抽取质量：准召率
      - 面向开放域的实体识别和分类
        
        难点：
        
        不需要也不可能为每个领域或每个实体类别建立单独的语料库作为训练集
        
        从给定的少量实体实例中自动发现具有区分力的模型
        
        技术实现思路：
        
        根据已知的实体实例进行特征建模，利用该模型处理海量数据集得到新的命名实体列表，然后针对新实体建模，迭代地生成实体标注语料库
        
        利用搜索引擎的服务器日志，事先并不给出实体分类等信息，而是基于实体的语义特征从搜索日志中识别出命名实体，然后采用聚类算法对识别出的实体对象进行聚类
      - 概念：
        从文本数据集中自动识别出命名实体
      - 数据来源
        
        百科类的常识性数据（质量高，更新慢）
        
        半结构化网页等抽取
        
        搜索日志挖掘（对搜索公司）
        
        结构化数据（购买数据）
    - - 概念：
        从相关语料中提取实体之间的关联关系
      - 技术实现思路
        
        预定义实体关系类型：
        
        早期的通过人工构造语法和语义规则提取
        
        基于特征向量或者核函数的有监督学习方法
        
        面向开放域的信息抽取方法
        基于自监督学习方式的开放信息抽取原型（TextRunner）
    - - 概念：
        从不同信息源中采集特定实体的属性信息，以实现对实体属性的完整勾画
        由于可以将实体的属性视为实体与属性值之间的一种名词性关系，因此也可以将属性抽取问题视为关系抽取问题
      - 数据来源：
        
        当前：百科类网站的半结构化数据
        
        大量实体属性数据隐藏在非结构化的公开数据中
      - 技术实现思路：
        
        基于百科类网站的半结构化数据，通过自动抽取生成训练语料，用于训练实体属性标注模型，然后将其应用于对非结构化数据的实体属性抽取
        
        采用数据挖掘的方法直接从文本中挖掘实体属性与属性值之间的关系模式，据此实现对属性名和属性值在文本中的定位（基于“属性名和属性值之间在位置上有关联关系”的假设，这符合很多真实语言环境中的情况）
- - - - 概念：
        将信息抽取获得的实体与知识库中的实体进行对齐
      - 实现思路：
        
        通过实体抽取获取实体指称
        
        实体消歧与共指消解
        
        确认之后将实体指称连接到知识库中的对应实体
        
        需要解决不一致性问题（通过模式层定义或者置信度高的数据）
      - 主要方法
        
        实体消歧
        
        概念：
        同名但指称不同的实体需要消歧义，以建立准确的实体连接
        
        技术方法：
        聚类方法
        
        共指消解
        
        概念：
        不同名称指称同一实体，需要将这些名称关联到同一实体对象上
        
        技术方法：
        
        基于自然语言（Hobbs算法，向心理论）
        
        机器学习（C4.5决策树，术语相似度）
    - - 概念：
        从第三方知识库或者已有的数据库获取知识（区别于实体连接是从信息抽取获取的知识数据）
      - 合并外部知识库
        
        数据层融合：
        包括实体的指称、属性、关系以及所属类别等，主要的问题是如何避免实例以及关系的冲突问题，造成不必要的冗余
        
        模式层的融合：
        将新得到的本体融入已有的本体库中
      - 合并关系型数据库：
        采用RDF作为数据模型
- - - - 概念
        
        基本概念：
        概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集
        
        更复杂的约束关系：
        规则(Rules)/公理(Axioms)
      - 构建方法
        自顶向下的方法有利于抽取新的实例，保证抽取质量，而自底向上的方法则能发现新的模式。两者是互补的
        
        自顶向下：
        依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息
        
        实例：
        Freebase的模式定义了Domain(领域)，Type(类别)和Topic(主题，即实体)。每个Domain有若干Types，每个Type包含多个Topics且和多个Properties关联，这些Properties规定了属于当前Type的那些Topics需要包含的属性和关系。定义好的模式可被用于抽取属于某个Type或满足某个Property的新实体(或实体对)
        
        自底向上：
        通过各种抽取技术，特别是通过搜索日志和Web Table抽取发现的类别、属性和关系，并将这些置信度高的模式合并到知识图谱中，对于未能匹配原有知识图谱中模式的类别、属性和关系作为新的模式加入知识图谱供人工过滤
    - - 概念：
        从知识库中已有的实体关系数据出发，进行计算机推理，建立实体间的新关联，从而拓展和丰富知识网络
      - 推理对象
        
        属性：通过数值计算
        
        实体关系：通过（链式规则）
        
        本体模式：
      - 推理技术方法
        
        基于图的推理：
        
        神经网络模型
        
        Path Ranking
        
        基于逻辑的推理：
        
        一阶逻辑谓词
        
        描述逻辑
        
        基于规则的推理