# Chap4 基于内容的语义感知系统
# 简介
- 新的采用语义技术的研究工作已经将用户和物品的特征表示从基于关键词的级别提升到基于概念的级别
- NLP和语义技术与推荐系统相结合,形成新的研究方向:语义推荐系统
- 语义技术分两类
- 自上而下:依赖外部知识(分类目录,词典)集成来表示用户和物品特征,主要动机是向系统提供语言知识和文化背景
- 自下而上:利用所谓的几何隐喻来表示高维向量空间中单词之间复杂的语法和范式关系,每个单词表示为向量空间中的一个点,通过分析上下文表示,并限制近义的文档或词语在向量空间中位置相近。此法能通过无监督机制从海量文本文档中学习语义
# 基于内容的推荐系统概述
# 基于关键词的向量空间模型
# 定义
向量空间模型(VSM)是一个文本文档的空间表示方法
每个文档被表示成一个n维空间中的向量,每一维对应给定文档集合词汇表示中的一个词
词典
,从标准NLP技术中获取,如分词,停用词移除,变形等 文档集合
- 每篇文档表示为 维空间向的一个向量
- 其中,
是文档 中词语 的权重
- 其中,
- 每篇文档表示为 维空间向的一个向量
# 思想
- 文档表示有两个问题:
- 为单词赋予权重
- 度量特征向量的相似度
- TF-IDF(词频-逆文档频率):
- 稀有词相关性 不小于 频繁词相关性(逆文档频率假设)
- 一篇文档中 多处出现的词的相关性 不小于 只出现一次词的相关性
- 长文档不一定好于短文档(归一化假设)
- 在一篇文档中频繁出现(TF=词频),但很少在其他文档中出现(IDF=逆文档频率)的单词,与该文档主题相关性可能很大
# 公式
:文档总数
####用户特征学习的方法
# 朴素贝叶斯——多项式事件模型
: 代表文章 的预测分类 : 词语 在文档 出现的次数 :文档 中包含的词汇表 的子集 表示文章的类别集合 为了避免在训练数据的某一类中,一个没有出现过的词概率为0,使用平滑方法,一个类中,所有的词计数加一
朴素贝叶斯的表现相比其他学习方法较差,但简单高效,适用于简单的分类任务
# 相关反馈
- 帮助用户逐步完善基于之前搜索结果的查询
- 没有任何理论基础,不保证有效或收敛
- Rocchio公式见P81
# 最近邻
- 将训练数据简单存在内存,对于新样本,通过一个相似函数比较它与内存中所有样本的相似度,从而对它分类
- 分类时效率低下,因为它缺少一个真正的训练阶段
# 基于内容过滤的优缺点
- 优点
- 用户独立性:不依赖其他用户,协同过滤则要
- 透明度:白盒子可解释
- 新物品:基于内容的推荐系统在新物品没有评分时也可以进行推荐,协同过滤不行
- 缺点
- 可分析内容有限
- 多义词同义词
- 多次表达:语义序列难以预测
- 命名实体识别和歧义消除
- 过度专业化:缺乏惊喜
- 新用户:在新用户给出足够评分前,不能提供可靠推荐
- 可分析内容有限
# 自上而下的语义方法
- 结合本体论知识
- 利用非结构化或半结构化的百科知识资源
- 利用关联开放数据云
# 自下而上的语义方法
- 隐式语义索引,P91
- 随机索引,P92