# Chap 4 知识图谱融合

# 概述

# 异构问题

异构分类
- 本体异构：本体描述的内容在语义上重叠或关联，带来信息交互问题
- 实例异构：同名实例可能指代不同实体，不同名实例可能指代同一个实体
异构层次
- 语言层不匹配
- 模型层不匹配
解决办法
- 分析异构的原因，明确融合的对象，建立何种映射，以及映射的复杂程度
- 由于人类知识体系的复杂性和对世界的主观想法差异性，建议统一知识图谱并不现实
- 知识融合的核心问题在于映射生成，目前的方法可以分为几类：基于NLP进行术语比较，基于本体结构进行匹配，基于实例的机器学习等

# 本体概念层的融合方法与技术

通用方法：本体集成（n个小本体合并为一个大本体）、本体映射（建立n个小本体之间的映射规则）
本体集成缺乏自动方法支持，维护成本高，对不同应用不具有通用性，缺乏灵活性
本体映射形式灵活，适应分布动态的环境

# 本体映射分类

映射的对象角度
映射的功能角度
映射的复杂程度角度

# 本体映射方法与工具

基于术语的本体映射
- 定义：比较与本体成分相关的名称、标签或注释，寻找异构本体间的相似性
- 方法：
  - 基于字符串：先对字符串进行规范化，再度量字符串间的相似度（汉明距离、子串相似度、编辑距离、路径距离等度量方法）
  - 基于语言：内部方法利用词语形态和语法分析保证术语规范化，参考寻找词形变化的Stemming算法；外部方法利用词典等外部资源寻找映射，如WordNet
基于结构的本体映射
- 定义：考虑本体的结构能弥补只进行术语比较的不足
- 方法：
  - 内部结构：利用如属性或关系的定义域、基数、传递性或对称性来计算本体成分之间的相似度
  - 外部结构：若两个概念相似，则它们的邻居也很可能相似，相似的可能还有超类、子类、兄弟、叶子、从根节点到目标节点的路径，但此法无法解决建模观点不同带来的异构（如人分为老人和年轻人、或者分为男人和女人）
- 工具：
  - PROMPT是斯坦福搞的一套本体工具集，现已集成到Protege系统中
    - iPROMPT：交互式本体集成工具
    - AnchorPROMPT：寻找本体间相似映射的工具
    - PROMPTDiff：本体版本工具
    - PROMPTFactor：从大本体抽取语义完全的子本体工具
  - MAFRA：处理语义网上分布式本体间映射的框架，处理表示并应用异构本体间的映射
  - ONION：解决本体互操作的系统，采用半自动算法生成本体互操作的映射规则，解决本体同构
  - S-MATCH：一个本体匹配系统，能发现异构本体间的映射
  - Cupid：实现了通用模式匹配算法，综合语言和结构的匹配技术以及预定义词典
基于实例的本体映射
- 方法：
  - 共享实例的方法
    - 当来自不同本体的两概念A和B有共享实例时，寻找关系的最简单方法时测试实例集合的交
    - 对称差分相似度：
  - 无共享实例的方法
    - 根据连接聚合等数据分析方法获得实例集之间的关系
    - 常用连接聚合度量包括单连接、全连接、平均连接、Haussdorf距离
- 工具：
  - GLUE：应用机器学习技术，用半自动方法发现异构本体间的映射，经典（VLDB 2003）
  - 概念近似：通过概念近似来重写查询表达式，以获得准确结果
  - FCA：自底向上的本体合并方法FCA-Merge
  - IF-Map：基于信息流理论的自动本体映射发现系统

# 综合方法

QOM：采用综合方法发现本体映射的典型工作，兼顾质量与效率，可处理大规模本体间映射发现问题
OLA：（不介绍）
KRAFT：发现1:1的本体映射的体系结构
OntoMap：知识表示的形式化、推理和Web接口
OBSERVER：解决分布式数据库的异构问题
InfoSleuth：基于主体的系统
基于虚拟文档的本体匹配

# 实例层的融合与匹配

# 实例匹配问题分析

空间复杂度挑战：图谱读入需要存储空间，匹配的主要数据结构（如相似矩阵）空间复杂度是，对于5000实例的图谱，相似矩阵的数值取双精度，则此矩阵占用200MB存储空间
时间复杂度挑战：执行时间主要取决于匹配计算过程，早期计算异构实例相似度的方法的时间复杂度是，存在的方法牺牲精度来换效率，而不同的匹配算法的 $t$ 不同，简单的编辑距离方法比语义描述文档的方法快1000倍
匹配结果质量挑战：分治策略会破坏某些实例语义信息的完整性
大规模知识图谱匹配方法分类
- 基于快速相似度计算的方法
- 基于规则的方法
- 基于分治的方法

# 基于快速相似度计算的方法

思想：降低每次相似度计算的时间复杂度
匹配器：
- 文本匹配器
- 结构匹配器
- 基于实例的匹配器

######基于规则的方法

例子：基于EM算法的半监督学习框架自动寻找实例匹配规则
论文：An Effective Rule Miner for Instance Matching in A Web of Data （ACM 2012）
应用：用于DBpedia，GeoNames，LinkedMDB，GeoSpecies等知识图谱间的实例匹配，解决了zhishi.me等知识图谱构建中的实例匹配问题

######基于分治的方法

省略

# 基于学习的实例匹配算法

省略

# 开源工具

LIMES：德国人用Java搞的链接发现框架，基于度量空间的特征实现了大规模链接发现的高效方法
Dedupe：基于主动学习的方法，只需用户标注框架在计算过程选择的少量数据，即可有效训练出复合Blocking方法和record间相似度的计算方法，并通过聚类完成匹配
清华的RIMOM系统，南京大学的Falcon-AO系统，东南大学的Lily系统，在OAEI（知识融合评估竞赛）中获得优秀成绩

← Chap3 知识抽取和知识挖掘 Chap5 知识图谱推理 →