Chap 6 语义搜索
- 互联网从仅包含网页和网页之间超链接的文档万维网逐渐转变为描述实体和实体之间丰富关系的语义万维网
- 一个语义搜索框架包括查询构建、查询处理、结果展示、查询优化、语义模型、资源及文档等
- 如何针对多数据源进行高质量映射、理解用户的查询意图以及集成IR和DB排序以处理复杂查询,是未来设计语义数据搜索的关键
语义搜索的交互范式
基于关键词的知识图谱语义搜索
- 基于关键词直接在知识图谱上搜索答案
- 流程:
- 1、建立有效的关键词和知识图谱子索引
- 2、对于关键字查询先在索引上匹配得到候选的知识图谱子图,实现对搜索空间的剪枝
- 3、在小范围的子图上搜索
- 常见索引:关键词倒排索引、摘要索引、路径索引
- 对于复杂的语义查询无法适用,仅限于查询答案出现在单条知识图谱三元组中
- 基于关键词生成结构化查询
- 将关键词集合转化为结构化的查询方法步骤
- 关键词映射:因为用户输入的关键词和知识图谱上的实体关系有语义鸿沟,需要对知识图谱预处理,构建关键词和知识图谱实体和边的索引
- 候选结构化查询构建:基于生成的实体和关系拓展,生成局部的知识图谱子图,根据查询意图,将部分实体和关系替换为变量,进而生成结构化查询
- 候选结构化查询排序:基于关键词搜索相似度、实体的拓扑度分布等指标来计算排序评分
基于分面的知识图谱语义搜索
- 分面概念是由印度图书馆学之父提出的,在冒号分类法中,每一个大类图书由五个基本分面组成:主体、物质、动力、空间、时间。典型的分面可为一组属性体系,基于分面的语义搜索已经在工业界取得广泛应用
基于表示学习的知识图谱语义搜索
- 通过知识图谱表示学习,将其投射到低维连续空间中,对于语义搜索由两个好处,一是能直接进行高效的数值计算、二是通过机器学习得到的向量,在本质上是一种蕴含语义的表示,考虑了局部特征和全局特征,可以进行高效简单查询推理
- 即使查询目标在数据层中不存在,但可以基于查询图、利用翻译机制等计算出其向量空间中的坐标,进而通过最近邻搜索找到近似结果
- 表示学习技术为知识图谱的语义搜索提供了新思路和新挑战:最近邻搜索效率问题、链接预测的合取问题、结果可解释性问题