当前位置:   article > 正文

UCAS - AI学院 - 知识图谱专项课 - 第4讲 - 课程笔记_ai学院 知识图谱 笔记

ai学院 知识图谱 笔记

知识表示

概述

  • 知识分类
    • 陈述性知识:描述领域内有关概念、事实、事物的属性和状态等
    • 过程性知识:如何处理于领域相关的信息用于获得问题的解
    • 元知识:关于知识的知识(使用、解释、校验、解释程序结构)
  • 四个层次介绍知识表示
    • 经典知识表示理论(产生式规则、语义网络、框架、脚本、一阶谓词逻辑)
    • 语义网和知识描述体系(描述逻辑、语义网)
    • 知识图谱中的知识表示方法
    • 数值化知识表示方法

产生式规则表示法

  • 产生式系统:因果关系——规则序列——思维以求解问题
  • 产生式规则:产生式兄同种的每一条规则
  • 基本概念:
    • 事实:断言一个语言变量的值或者断言多个变量之间关系的陈述句
    • 事实的符号化表示
      • 确定性事实(三元组,对象+属性+值,关系+对象1+对象2)
      • 不确定性事实(四元组,多了一个置信度)
    • 规则:产生式,通常用于表示事物之间的因果关系
    • 确定性规则: P → Q P \to Q PQ
      • P P P为前提或者条件
      • Q Q Q为一组结论或者操作(满足 P P P时)
    • 不确定性规则: P → Q   ( Confidence Interval ) P \to Q \ (\text{Confidence Interval}) PQ (Confidence Interval)
      • 按照置信度的要求模糊匹配
  • 产生式系统:数据库+规则库+推理机
    • 数据库:存放问题的初始状态、已知事实、推理的中间结果以及姐u论
    • 规则库:存放与求解问题有关的所有规则
    • 推理机:控制整个系统的运行,决定问题求解的路径(匹配、冲突消解、路径解释)
  • 正向推理:从已知事实出发,通过规则求得结论
    • 称之为数据驱动方式或自底向上方式
    • 过程
      1. 规则前件与数据库中事实匹配,得到匹配的规则集合
      2. 冲突消解,选择一条规则作为启用规则
      3. 执行启用规则的后件,将该规则后件送入数据库
      4. 重复上述过程,直到达到目标
  • 反向推理:从目标出发,反向使用规则,求得已知事实
    • 称之为目标驱动方式或自顶向下的方式
    • 过程
      1. 规则后件与目标事实匹配,获得匹配规则集合
      2. 冲突消解,选择一条启用规则
      3. 将启用规则的前件作为子目标
      4. 重复上述过程,直至各个子目标均为已知事实
  • 优点:
    • 有效性:启发、过程性
    • 自然性:直观自然
    • 一致性:所有规则格式相同
    • 模块化:只能通过数据库发生联系,便于添加、删除和修改
  • 缺点:
    • 表示的局限性:不能表示结构性和层次性知识
    • 效率低

语义网络表示法

  • 语义网络:有向图表示的知识系统
    • 结点:概念
    • 边:概念之间的语义关系
    • 语义基元:结点1 - 关系 - 结点2
  • 语义网络中的关系
    • is-a:具体-抽象关系,隶属关系
    • part-of:部分-整体关系
    • 属性关系
    • 事实和规则表示相同,只是边上的标志不同(事实为属性、规则即规则)
  • 关系类型
    • 一元关系
    • 二元关系
    • 多元关系:通过虚拟结点的合取,使用二元关系组合表示多元关系
  • 组成:知识库+推理机
    • 知识库:语义网络表示
    • 推理机:求解问题的程序
    • 过程
      1. 求解目标表示为一个网络子图,部分结点确实,表示求解目标
      2. 基于问题子图从知识库中搜索课匹配网络片段,从而找出目标信息(存在不确定性)
  • 优点:
    • 直观的图结构描述知识表达自然,方便存储和检索
  • 缺点:
    • 缺少形式化语义定义。不同网络难以互相操作,表示不完善
    • ad-hoc推理,比较复杂

框架表示法

  • 框架:描述所论对象属性的数据结构
    • 框架名:指代某一类或某一个对象
    • 槽:用来表示对象的某个方面的属性
    • 侧面:有时一个属性还要从不同的侧面描述
    • 值:槽、侧面的取值,可以为原子型,也可以为集合型
  • 框架类型
    • 类框架:描述一个概念或一类对象
    • 实例框架:描述一个具体的对象
  • 层次结构
    • subclass:两个类框架之间的关系
    • instance:类框架和实例框架之间的从属关系
    • 下层框架可以从上层框架继承属性和值
  • 推理机制
    • 继承推理:下层框架集成上层框架信息
    • 匹配推理:匹配缺失内容
  • 优点
    • 自然性
    • 结构化
    • 继承性
    • 模块化:框架相对独立
  • 缺点:
    • 实际情况与原型存在较大差异
    • 不能表示过程性知识
    • 缺乏明确推理机制
  • 代表性知识库:FrameNet

脚本表示法

  • 脚本:事件序列、原型事件序列的结构化表示
  • 组成
    • 进入条件:事件的前提条件
    • 角色:事件中可能出现的任务
    • 道具:事件中可能出现的相关物体
    • 场景:事件发生的真实频率
    • 结果:脚本所描述事件发生以后产生的结果
  • 推理
    • 事件的预测:给定场景——已知脚本——预测发生的事情
    • 指明事件之间的联系:事件表达的因果链
    • 鉴别特殊事件的发生
  • 优点:在狭小领域内,更细致刻画步骤和时序关系
  • 缺点:表述能力更受约束、范围更窄

一阶谓词逻辑表示法

  • 命题逻辑:通过建模命题之间的逻辑关系,将多个原子命题组合成符合命题
  • 一阶谓词逻辑:命题分解成谓词和个体的组合,谓词用于表示个体的特性或个体间的关系,使用两次可以实现个体的类化
  • 命题逻辑基本概念
    • 命题:具有真假意义的陈述句,对客观事实的描述
    • 原子命题:简单命题,不可继续分解出命题
    • 逻辑连接词
    • 复合命题:使用逻辑连接词将原子命题组合成的命题,描述原子命题之间的逻辑关联
  • 表示法
    • 由命题和逻辑关联表示客观事实的表示方法
    • 简单命题使用事实判断真假获得逻辑值
    • 复合命题使用原子命题的逻辑值及其逻辑关联共同决定逻辑值
  • 推理演算
    • 等值演算(等价)
    • 推理演算(蕴含)
  • 谓词逻辑基本概念
    • 个体词:领域内可独立存在的具体或抽象客体
      • 个体常量:特指
      • 个体变量:泛指
      • 个体域:取值范围
    • 谓词:刻画个体性质以及个体之间相互关系的词
    • n元谓词:含有 n n n个个图符号的谓词 P ( x 1 , … , x n ) P(x_1, \dots, x_n) P(x1,,xn)
  • 函数:即函词,从若干个体到特定个体的映射
  • 量词:表示个体数量属性的词
    • 全称量词
    • 存在量词
  • 表示知识的步骤
    1. 定义谓词及个体
    2. 根据索要表达的事物和概念,为其中的变量赋予特定值
    3. 根据索要表达的知识语义,使用适当的连接词连结谓词形成谓词公式
  • 等值演算:等价关系符
    • 否定型等值式
    • 量词分配等值式
    • 范式
  • 推理演算:蕴含关系符
    • 基本推理公式
    • 基于规则的推理演算
    • 归结推理法
  • 优点:
    • 精确性
    • 通用性
    • 自然性
    • 模块化
  • 缺点:
    • 表示能力差
    • 管理困难
    • 推理效率低(半可判定的,无法多项式时间判断逻辑公式的真伪)

描述逻辑表示法

  • 通过概念类别描述物理世界,又具有形式化的模型论语义
  • 舍弃变量,直接处理概念
  • 描述逻辑:直观上时为描述类发展出的逻辑系统,没有变量和谓词
    • 一阶逻辑的子集
    • 命题逻辑、霍恩逻辑都是一阶逻辑的子集
  • 可判定性:能用多项式时间判断任何逻辑公式的真伪
    • 可判定,表现力有所限制
  • 基本概念
    • 属性语言:最简单的描述逻辑,分为概念描述、属性、个体三个部分
    • 概念描述:表示一类事物而非个体
      • ⊥ \bot :表示底层概念,空集
      • ⊤ \top :表示全体概念,领域全集
    • 概念描述构造器:用两个概念描述构造一个新的概念
      • 交集 ∩ \cap 、并集 ∪ \cup 、否定 ¬ \neg ¬
    • 属性:作用于概念,以取值来限定概念范围,必须搭配量词使用
    • 个体:概念的实例,断言形式
  • 知识库:术语 + 断言
    • 术语部分称为TBox
      • 概念的定义,使用 ≡ \equiv 定义为新的概念
      • 一般包含公理(GIA):使用 ⊆ \sube 表示概念的子集关系
    • 断言部分称为ABox
      • 描述个体知识
  • 推理:
    • TBox的推理
      • 最基础:判断子类
      • 检验新加概念是否矛盾
      • 检验概念是否等价
      • 检验概念是否豪不相关
    • ABox的推理
      • 最基本:判断个体是否属于某个概念
      • 检验ABox是否与TBox相一致
  • 语法扩展:AL作为基础加入语法
  • 与语义网的关系:
    • OWL标准时语义网架构的核心之一,以描述逻辑为基础,但是使用XML或Turtle形式记录

语义网表示法

  • 来源于万维网,是其变革与延伸
  • 本质:以Web数据的内容为核心,用机器能够理解和处理的方式连接起来的海量分布式数据库
  • 特征
    • 唯一URI
    • 事物之间有链接关联
    • 事物之间链接显式存在,拥有不同类型
  • 体系结构
    • 第一层:Unicode(编码) + URI(标识)
    • 第二层:语法(表示)
    • 第三层:数据交换曾(RDF)
    • 第四层:分类(RDFS)
    • 第五层:本体和规则(OWL)
    • 第六层:统一逻辑层(推理)
    • 第七层:证明层(真实性验证、授权)
    • 第八层:信任层(信任机制)
  • XML:结构化数据
    • 元素:事物
    • 优点:结构化数据表示、良好可扩展性、文档类型声明
    • 缺点:元标记语言、不具有DB的管理功能、修改和插入比较难(有结构但没有语义)
  • RDF:资源描述框架、多种元数据标准描述各种网络资源
    • 核心思想:利用URI标识事物,通过指定的属性和相应的值描述资源的性质和资源之间的关系
    • 资源:一切能够以RDF描述的对象
    • 属性:描述资源的特征或资源之间的关系
    • 陈述:属性加上属性值
    • RDFS(RDF Schema):提供一组建模原语
      • Class、subClassOf:类别层次结构
      • property、subPropertyOf:属性层次结构
      • domain、range:资源类、属性值类
      • type:声明一个资源是一个类的实例
    • RDFS允许定义自己的词汇表
    • RDF并不是一种语言,而是一种书写规范
    • 优点:简单、易扩展、包容性、易综合
    • 缺点:不能准确描述语义、不具备推理能力
  • OWL:网络本体语言
    • 本体:共享概念模型的明确形式化规范说明
      • 概念模型:抽象客观世界概念得到的模型
      • 明确性:无歧义
      • 形式化:计算机可处理
      • 共享:共同认可的知识,反应概念集合
    • 本体结构:
      • 类或概念
      • 类的实例
      • 实例的属性值
    • 本体功能:语义层次的信息共享和交换
    • RDFS的扩展:提供更多原语支持更加丰富的语义表达并支持推理
    • 描述结构:头部 + 主体
      • 头部:命名空间预定义标签,对本体声明
      • 主体:具体内容,定义类别、个体、属性、约束和关联
      • 类别:Class、subClassOf
      • 个体:基于某个类,声明为其一员
      • 属性:二元关系,需标明定义域和值域
        • 数值类型属性(个体到数值)、对象属性(个体到个体)
      • 属性特征:对称性、传递性,type标签指定
      • 属性限制:继承方式限制,仅对该类个体有效
  • RIF:与OWL兼容,结合OWL公理进行推理
    • 一个文档,多个组,每个组是多条规则的合取
    • 统一可扩展的语言族
      • 声明类
      • 产生式类
  • SparQL:类似SQL,针对RDF的查询语言
  • 推理:Unifying Logic
    • 没有很好的实现标准
    • 分为归纳推理和演绎推理

知识图谱中的知识表示

  • 不提供推理算法——不使用OWL推理,使用图网络进行推理
  • 基于语义网络理论,基于语义网的计数框架和工程规范,对互联网数据进行知识化的一个知识工程产品
  • 推理
    • 归纳推理:规则学习
    • 演绎推理:规则应用
    • 演绎推理:链接规则

分布式知识表示(知识图谱)

  • 本体 + 知识库
  • 知识库:有向图
    • 事实三元组(Ent1,Relation,Ent2)
    • 多关系数据
    • 结点:实体 / 概念
    • 边:关系 / 属性
    • 关系事实:三元组
  • 符号主义典型代表
    • 数理演算
    • 近似推理
  • 非结构化知识的符号化表示
    • 关键词组合
    • 语义树结构
    • 逻辑表达式结构
  • 分布式表示:链接主义典型代表
    • 数值计算
    • 基于神经网络对文本和知识图谱直接编码为向量、矩阵等形式
  • 知识图谱的数值表示(向量化)
    • 实体和关系表示为低维空间的对象及其操作
    • 表示能够蕴含其在知识库中的性质
    • 具有类似上下文的对象,低维空间更加接近
  • 分布式知识表示
    • 核心思想:将符号化实体和关系在地位连续向量空间进行表示,简化计算的同时最大程度保留原始的图结构
      • 将实体和关系在向量空间进行表示
      • 定义打分函数,衡量每个三元组成立的可能性
      • 构造优化问题,学习实体和关系的低维连续向量表示
    • 方法类型
      • 位移距离模型:采用基于距离的打分函数来衡量三元组成立的可能性
      • 语义匹配模型:采用基于相似度的打分函数衡量三元组成立的可能性
  • 位移距离模型
    • TransE及其变种 P18
    • head + relation = tail
    • TransE,线性组合构造知识关系, f r ( h , t ) = − ∥ h + r − t ∥ 1 / 2 f_r(h, t) = - \| \bold h + \bold r - \bold t\|_{1 / 2} fr(h,t)=h+rt1/2
    • TransH,不同的关系,对应不同的超平面,计算转到超平面中的位移,然后计算, h ⊥ = h − w r ⊤ h w r ,   t ⊥ = t − w r ⊤ t w r ,   f r ( h , t ) = − ∥ h ⊥ + r − t ⊥ ∥ 2 2 \bold h_\bot = \bold h - \bold w_r^\top \bold h \bold w_r,\ \bold t_\bot = \bold t - \bold w_r^\top \bold t \bold w_r,\ f_r(h, t) = - \| \bold h_\bot + \bold r - \bold t_\bot\|_2^2 h=hwrhwr, t=twrtwr, fr(h,t)=h+rt22
    • TransR,根据关系映射到不同的子空间中计算, h ⊥ = M r 1 h ,   t ⊥ = M r 2 t ,   f r ( h , t ) = − ∥ h + r − t ∥ 2 2 \bold h_\bot = \bold M_r^1 \bold h,\ \bold t_\bot = \bold M_r^2 \bold t,\ f_r(h, t) = - \| \bold h + \bold r - \bold t\|_2^2 h=Mr1h, t=Mr2t, fr(h,t)=h+rt22
    • 关系使用矩阵表示(不同模型假设不同)
  • 语义匹配模型
    • RESCAL及其变种 P22
    • 头表示 × 关系定义矩阵 × 尾表示
    • 神经网络
      • SME, f r ( h , t ) = g u ( h , r ) ⊤ , g v ( t , r ) f_r(h, t) = g_u(\bold h, \bold r)^\top, g_v(\bold t, \bold r) fr(h,t)=gu(h,r),gv(t,r)
      • NTN, f r ( h , t ) = r ⊤ tanh ⁡ ( h ⊤ M r t + M r 1 h + M r 2 t + b r ) f_r(h, t) = \bold r^\top \tanh(\bold h^\top \bold M_r \bold t + \bold M_r^1 \bold h + \bold M_r^2 \bold t + \bold b_r) fr(h,t)=rtanh(hMrt+Mr1h+Mr2t+br)
  • 模型训练
    • 开放世界假设:知识图谱仅包括正确的事实,那些不在其中的要么是错误的,要么是缺失的
      • 逻辑拟合,分数更加绝对地偏向正例或负例(逻辑损失)
      • 正例比负例的分数高(成对排序损失)
    • 封闭世界假设:但凡未出现的事实都是错误的
      • 所有不存在的事实都拟合到负例(平方损失)
  • TransE
    • 表示:向量表示实体和关系,事实表示为 ( h , r , t ) (\bold h, \bold r, \bold t) (h,r,t)
    • 势能函数
      • 对真实事实三元组,要求 h + r = t \bold h + \bold r = \bold t h+r=t,否则不满足
      • f ( h , r , t ) = ∥ h + r − t ∥ 2 f(h, r, t) = \|\bold h + \bold r - \bold t\|_2 f(h,r,t)=h+rt2
    • 目标函数
      • ∑ ( h , r , t ) ∑ ( h ′ , r ′ , t ′ ) max ⁡ ( 0 , γ + f ( h , r , t ) − f ( h ′ , r ′ , t ′ ) ) \sum_{(h, r, t)} \sum_{(h^\prime, r^\prime, t^\prime)} \max (0, \gamma + f(h, r, t) - f(h^\prime, r^\prime, t^\prime)) (h,r,t)(h,r,t)max(0,γ+f(h,r,t)f(h,r,t))
      • 防止过拟合,约束条件有 ∥ h ∥ ≤ 1 ,   ∥ r ∥ ≤ 1 ,   ∥ t ∥ ≤ 1 \|\bold h\| \le 1,\ \|\bold r\| \le 1,\ \|\bold t\| \le 1 h1, r1, t1
    • 负样本生成策略(OWA)
      • 随机选择实体 h ′ h^\prime h(或 t ′ t^\prime t),替换为 ( h ′ , r , t ) (h^\prime, r, t) (h,r,t)或者 ( h , r , t ′ ) (h, r, t^\prime) (h,r,t)
      • 在适合关系 r r r的实体集合中随机选取
  • RESCAL
    • 用三维张量表示知识图谱
    • 行——头实体,列——尾实体,宽——关系
      • 0/1表示是否成立
    • 三维张量分解 Y k = A R k A ⊤ ,   k = 1 , 2 , … , m \bold Y_k = \bold A \bold R_k \bold A^\top ,\ k = 1, 2, \ldots, m Yk=ARkA, k=1,2,,m
      • 使用较小的 R k r × r \bold R_k^{r \times r} Rkr×r拟合高维 Y k n × n \bold Y_k^{n \times n} Ykn×n
    • 目标函数: min ⁡ A , R k = f ( A , R k ) + g ( A , R k ) \min_{\bold A, \bold R_k} = f(\bold A, \bold R_k) + g(\bold A, \bold R_k) minA,Rk=f(A,Rk)+g(A,Rk),其中 g g g为正则项
      • f ( A , R k ) = 1 2 ( ∑ k ∥ Y k − A R k A ⊤ ∥ F 2 ) f(\bold A, \bold R_k) = \frac 12 (\sum_k \|\bold Y_k - \bold A \bold R_k \bold A^\top\|_F^2) f(A,Rk)=21(kYkARkAF2)
      • g ( A , R k ) = 1 2 λ ( ∥ A ∥ f 2 + ∑ k ∥ R k ∥ f 2 ) g(\bold A, \bold R_k) = \frac 12 \lambda(\|\bold A\|_f^2 + \sum_k\|\bold R_k\|_f^2) g(A,Rk)=21λ(Af2+kRkf2)
      • 前者分量形式 ∑ i , j , k ( y i j k − a i ⊤ R k a j ) 2 \sum_{i,j,k} (y_{ijk} - \bold a^\top_i \bold R_k \bold a_j)^2 i,j,k(yijkaiRkaj)2
      • 后者可以视为分数,正例应趋于1,反例应趋于0
  • 应用:知识库补全
    • 存在严重的事实不完备性(封闭 / 开放)
    • 评测任务
      • 事实分类
      • 链接预测
    • 事实、文本、知识统一化学习
      • 刻画知识库的结构和性质
      • 刻画文本中的语言单元的分布信息
      • 相近含义的知识符号和语言符号更加接近
  • 词表示与知识表示的混合学习
    • 嵌入到同一个空间
    • 处理图谱中缺失的实体(无法处理未出现的关系)
    • 联合嵌入模型
      • KG: L ( h , r , t ) = log ⁡ { P ( h ∣ r , t ) ⋅ P ( t ∣ h , r ) ⋅ P ( r ∣ h , t ) } L(h, r, t) = \log \{P(h| r,t) \cdot P(t|h, r) \cdot P(r | h, t) \} L(h,r,t)=log{P(hr,t)P(th,r)P(rh,t)},条件概率依靠打分(位移模型)
      • Text: L ( T ) = ∑ w , v n w v log ⁡ { P ( w ∣ v ) } L(T) = \sum_{w, v} n_{wv}\log \{P(w| v)\} L(T)=w,vnwvlog{P(wv)}
    • 对齐
      • 锚文本对齐: L ( A A ) = ∑ w , v log ⁡ { P ( w ∣ e v ) } L(AA) = \sum_{w,v} \log\{P(w|e_v)\} L(AA)=w,vlog{P(wev)},由锚文本对应实体
      • 实体描述对齐:KaTeX parse error: Undefined control sequence: \and at position 38: … I_{[w_h \in V \̲a̲n̲d̲ ̲w_t \in V]} \cd…
        • 可以对于实体 e e e对应描述文本中的每个词,定义概率分布 P ( w ∣ e ) P(w | e) P(we)
  • 融合外部知识的预训练语言模型
    • 判断是否包含外部知识?MASK输入预测
    • 融入知识
      • 利用知识图谱实体改善语言表征
      • 微调:实体分类(标记实体)、关系分类(标记头和尾)
    • K-BERT:三元组直接嵌入训练(FINETUNE阶段)
    • K-Adapter:适配器形式融入知识于隐藏层
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/在线问答5/article/detail/751414
推荐阅读
相关标签
  

闽ICP备14008679号