收藏 分销(赏)

《数据挖掘》课件 第8章 推荐系统.pdf

上传人:曲**** 文档编号:231500 上传时间:2023-03-21 格式:PDF 页数:84 大小:3.15MB
下载 相关 举报
《数据挖掘》课件 第8章 推荐系统.pdf_第1页
第1页 / 共84页
《数据挖掘》课件 第8章 推荐系统.pdf_第2页
第2页 / 共84页
《数据挖掘》课件 第8章 推荐系统.pdf_第3页
第3页 / 共84页
《数据挖掘》课件 第8章 推荐系统.pdf_第4页
第4页 / 共84页
《数据挖掘》课件 第8章 推荐系统.pdf_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、数据挖掘高级大数据人才培养丛书之一,大数据挖掘技术与应用第八章推荐系统推荐系统(Recommendation System,简称RS)技术,它根据用户的兴趣、行为、情景等信息,把用户最可能感兴趣的内容主动推送给用户。近年来,推荐 系统技术得到了长足的发展,不但成为学术研究的热点之一,而且在电子商务、在线广告、社交网络等重要的互联网应用中大显身手。高级大数据人才培养丛书之一,大数据挖掘技术与应用第八章推荐系统、8.1推荐系统概念基于内容的推荐8二3 同过滤8.4 其他推荐技术8.5 实战:基于协同过滤算法推荐电影 习题,8.1推荐系统概念第八章推荐系统8.1.1基本概念人们在日常工作和决策时经常

2、采用找朋 友聊聊、从可信的第三方获取信息、在互联 网上咨询、凭直觉或索性随大流等方法获得 建议。然而,上述方法带来的决策并不那么 有效,大多数情况下,花费了大量的时间和 金钱,结果总是让人半信半疑,例如:推销 员大献殷勤的建议并不那么有用;凭感觉跟 着邻居或好友投资,却没有真正给我们带来 收益;无休止地花费时间在互联网上会导致 困惑,却不能做出迅速而正确的决定。,8.1推荐系统概念第八章推荐系统8.1.1基本概念随着Web技术的发展,每天都有大量的图片、博客、视频发布到网上。一方面,内容的创建和分享变得越来越容易,另一方面,互联网信息的爆炸式增长和种类的纷繁 复杂使得人们找到他们需要的信息、作

3、出最恰当的选择是非常困难的。如何解决信息过 载问题?搜索引擎推荐系统,8.1推荐系统概念第八章推荐系统8.1.1基本概念推荐系统和搜索引擎的异同点:相同点:都是一种帮助用户快速发现有用信息的工具不同点:”搜索引擎需要用户主动提供准确的关键词来寻找信息 推荐系统不需要用户提供明确的需求,而是通过分析用户的历史 行为给用户的兴趣建模从某种意义上说,推荐系统和搜索引擎对于用户来说是两个互补的工具 搜索引擎满足了用户有明确目的时的主动查找需求 推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的 新内容8.1推荐系统概念第八章推荐系统8.1.1基本概念从根本上来讲,推荐系统是通过为用户指引该用户陌

4、生的新物品来解决信息过载 现象的,这些新物品或许与该用户当前的需求有关。针对用户每一个清晰表达的请求,根据不同的推荐方法和用户所处的环境和需求,推荐系统利用存储在自定义数据库的关 于用户、可用物品以及先前交易的数据和各种类型的其他知识产生推荐内容。然后用户 可以浏览推荐的内容,用户可能接受也可能不接受推荐,也可能马上或者过一段时间提 供隐式或者显式的反馈,所有这些用户的行为和反馈可以存储在推荐数据库,并且可用 于在下一次用户和系统相互作用时产生新的推荐。8.1推荐系统概念第八章推荐系统8.1.2发展历史相比于其他经典的信息系统的工具和技术,如数据库和搜索引擎,推荐 系统的研究是相对较新的。在2

5、0世纪90年代中期,推荐系统成为一个独立的 研究领域。回顾推荐系统发展过程,到目前为止可分为四个阶段:1.探索性阶段本阶段主要以早期的协同过滤系统为代表。如Tapestry系统,GroupLens 系统。这一阶段的标志性实践是1996年3月在伯克利举办的协同过滤专题研讨会,8.1推荐系统概念第八章推荐系统8.1.2发展历史2 商业化阶段信息大爆炸的互联网环境下,人们对精准有效信息的渴求催生了推荐系统的出现,因此,推荐系统的商业化几乎刻不容缓。MIT的Pattie Maes研究组于1995年创立了 Agents公司(后来更名为萤火虫网络,Firefly Networks)o美国明尼苏达州的 Gr

6、oupLens研究组于1996年创立了Net Perceptionso在商业化推进的过程中,推荐系统的商业化应用遇到了实验室里未曾面临的真实挑 战:必须在不降低现有Web站点速度的情况下证明能够提供有价值的推荐,这些系统 必须能够在大大超越实验室规模的情况下运行(处理上百万的用户和物品以及每秒成百 上千的交易)。,8.1推荐系统概念第八章推荐系统8.1.2发展历史3.大爆发阶段2000至2005年间,一方面,互联网泡沫逐渐破灭,另一方面,推荐系统被整合到 更全面的商业产品线的主流公司,许多专用的推荐系统公司逐渐消亡了。然而,推荐系 统作为一门技术仍然存在,并广泛应用在电子商务、大规模零售业和各

7、种知识管理应用 中。与此同时,随着各个学科研究人员的参与及方法的引入,推荐系统研究得到迅猛发 展。来自人工智能、信息检索、数据挖掘、安全与隐私以及商业与营销等各个领域的研 究,都为推荐系统提供了新的分析和方法。由于可以获取到海量数据,算法研究方面取 得了很大进步,在2006年更是被悬赏100万美元将预测精确度提高到10%的Netflix大 奖推上高峰。,8.1推荐系统概念第八章推荐系统8.1.2发展历史4.大爆发阶段2000至2005年间,一方面,互联网泡沫逐渐破灭,另一方面,推荐系统 被整合到更全面的商业产品线的主流公司,许多专用的推荐系统公司逐渐消 亡了。然而,推荐系统作为一门技术仍然存在

8、,并广泛应用在电子商务、大 规模零售业和各种知识管理应用中。与此同时,随着各个学科研究人员的参 与及方法的引入,推荐系统研究得到迅猛发展。来自人工智能、信息检索、数据挖掘、安全与隐私以及商业与营销等各个领域的研究,都为推荐系统提 供了新的分析和方法。由于可以获取到海量数据,算法研究方面取得了很大 进步,在2006年更是被悬赏100万美元将预测精确度提高到10%的Netflix大 奖推上高峰。,8.1推荐系统概念第八章推荐系统8.1.2发展历史4.再前进阶段由于推荐系统实际应用效果显著,近年来国际学术界与其相关的研究极为活跃。2006年,MyStrands组织了Recommenders06大会,

9、这是一个介绍推荐系统现状和未 来的暑期班。推荐系统研究的顶级会议是美国计算机学会(ACM)每年举办的ReeSys 年会,该会议自2007年以来每年举行一次,成为全球关于推荐系统研究的最重要的交 流渠道和把脉其最新进展的重要窗口。上述事件揭示了人们对于基于上下文的推荐越来 越感兴趣,乐于改进研究方向使其立足于理解人们如何与机构或企业互动。8.1推荐系统概念第八章推荐系统8.1.2发展历史从不同角度,推荐系统可以分为不同的类型:从用户的角度,根据是否为不同的 用户推荐不同的数据,推荐系统可以分为基于大众行为的推荐系统和个性化推荐系统;从推荐系统的数据源角度,根据不同的数据源以发现数据相关性,推荐系

10、统可以分为基 于人口统计学的推荐,基于内容的推荐,协,同过滤的推荐;根据推荐模型的建立方式,可以分为基于物品和用户本身的用户-物品评价模型,基于关联规则的推荐,基于模型 的推荐。综上所述,推荐系统的分类没有一个严格统一的标准。目前,大家比较认可的 是,根据使用一系列不同的技术,推荐系统分为基于内容的推荐系统,协祠过滤系统和 混合推荐系统。本章重点介绍基于内容的推荐和协同过滤推荐。8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标用户满意度:用户作为推荐系统的重要参与者,用户满意度是评测推荐系统的最重要指 标。但是,用户满意度无法离线计算,只能通过用户调查或者在线实验获得。用户调查获得

11、用户满意度主要是通过调查问卷的形式。在在线系统中,用户满意度主要通过一些对用户行 为的统计得到。比如在电子商务网站中,用户如果购买了推荐的商品,就表示他们在一定程 度上满意,因此,我们可以利用购买率度量用户的满意度。此外,一些网站会通过设计用户 反馈界面收集用户满意度。更一般的情况下,我们可以用点击率、用户停留时间和转化率等 指标度量用户的满意度。,8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标多样性:用户的兴趣是广泛的,在一个视频网站中,用户可能既喜欢看千与千寻一 类的动画片,也喜欢看成龙的动作片。那么,为了满足用户广泛的兴趣,推荐列表需要能够 覆盖用户不同的兴趣领域,即推荐结果

12、需要具有多样性。多样性描述了推荐列表中物品两两 之间的不相似性。因此,多样性和相似性是对应的。新颖性:新颖的推荐是指给用户推荐那些他们以前没有听说过的物品。评测新颖度的最 简单方法是利用推荐结果的平均流行度,因为越不热门的物品越可能让用户觉得新颖。因此,如果推荐结果中物品的平均热门程度较低,那么推荐结果就可能有比较高的新颖性。但是,用推荐结果的平均流行度度量新颖性比较粗略,因为不同用户不知道的东西是不同的。因此,要准确地统计新颖性需要做用户调查。,8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标惊喜度:惊喜度是最近这几年推荐系统领域最热门的话题。但什么是惊喜度,惊喜度与 新颖性有什么

13、区别是首先需要弄清楚的问题。如果推荐结果和用户的历史兴趣不相似,但却 让用户觉得满意,那么就可以说推荐结果的惊喜度很高,而推荐的新颖性仅仅取决于用户是 否听说过这个推荐结果。目前并没有什么公认的惊喜度指标定义方式。信任度:人们通常对值得信任的朋友给出的建议更重视,反而,一个经常满足跑火车满 嘴跑火车的朋友给出的建议可能不会采纳。对于基于机器学习的自动推荐系统,同样存在信 任度的问题,如果用户信任推荐系统,那就会增加用户和推荐系统的交互。特别是在电子商 务推荐系统中,让用户对推荐结果产生信任是非常重要的。度量推荐系统的信任度只能通过 问卷调查的方式,询问用户是否信任推荐系统的推荐结果。8.1推荐

14、系统概念第八章推荐系统8.1.3推荐系统评测指标实时性:在很多网站中,因为物品(新闻、微博等)具有很强的时效性,所以需要在物 品还具有时效性时就将它们推荐给用户。比如,给用户推荐昨天过时的新闻显然不如给用户 推荐今天刚刚发生的新闻。因此,在这些网站中,推荐系统的实时性就显得至关重要。健壮性:具有经济效益的算法系统常常会受人攻击,以搜索引擎为例,如果某个商品称 为热门搜索词的第一个搜索结果,将会带来极大的商业利益,因此,搜索引擎的作弊和反作 弊斗争异常激烈。目前,推荐系统也遇到了同样的作弊问题,而健壮性(即robust,鲁棒性)指标衡量了一个推荐系统抗击作弊的能力。,8.1推荐系统概念第八章推荐

15、系统8.1.3推荐系统评测指标1.预测准确度预测准确度是最重要的推荐系统离线评测指标,其度量一个推荐系统或者推荐算法预测 用户行为的能力。在计算该指标时需要有一个离线的数据集,该数据集包含用户的历史行为记录。然后,将该数据集通过时间分成训练集和测试集。最后,通过在训练集上建立用户的行为和兴趣模 型预测用户在测试集上的行为,并计算预测行为和测试集上实际行为的重合度作为预测准确 度。离线的推荐算法有不同的研究方向:(1)评分预测很多提供推荐服务的网站都有一个让用户给物品打分的功能。如果知道了用户对物品的 历史评分,就可以从中获得用户的兴趣模型,并预测该用户在将来看到一个他没有评过分的 物品时,会给

16、这个物品评多少分。预测用户对物品评分的行为称为评分预测。评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算。,8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标1.预测准确度(1)评分预测评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算。设T为用户-物品评分矩阵。对于测试集中的一个用户u和物品i,令也.是用户u对物品i的 实际评分,而九是推荐算法给出的预测评分,RMSE的定义为:RMSE=-All)2TMAE采用绝对值计算预测误差,它的定义为:MAE=匕i Azi I,8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标1

17、.预测准确度(2)TopN推荐网站在提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐叫做TopN推 荐。TopN推荐的预测准确率一般通过准确率(precision)/召回率(recall)度量。令用户集合为U,R(u)是根据用户在训练集上的行为给用户作出的推荐列表,而T(u)是 用户在测试集上的行为列表。推荐结果的召回率定义为:Recall=Zuea|/?(u)nr(u)|XueylWI推荐结果的准确率定义为:Precision=,8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标2.覆盖率覆盖率(coverage)描述一个推荐系统对物品长尾效应(Long Tail Effe

18、ct)的发掘能 力。长尾效应描述了一种物品需求现象:大多数的用户需求会集中在流行的少量物品,而个 性化的、零散的物品需求往往分散在大部分物品中,从而在需求曲线上面形成一条长长的尾 巴,长尾效应指的是将所有非流行的物品需求加起来则会形成一个比流行物品还大的需求。很多研究发现,互联网上的物品都呈现长尾分布,即热门的物品总是少数,其他物品的热门 程度呈曲线下降,有很多冷门物品。推荐系统的覆盖率即是看系统为所有用户推荐的全部物 品数量与网站中所有物品数量的差值。8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标2.覆盖率覆盖率有不同的定义方法,最简单的定义为推荐系统能够推荐出来的物品占总物品集

19、合 的比例。假设系统的用户集合为U,物品集合为I,推荐系统给每个用户推荐一个长度为N的 物品列表R(u)。那么推荐系统的覆盖率可以通过下面的公式计算:Coverage=9产从上面的定义可以看到,覆盖率是一个内容提供商会关心的指标。但是上面的定义过于 粗略。覆盖率为100%的系统可以有无数的物品流行度分布。为了更细致地描述推荐系统发掘 长尾的能力,需要统计推荐列表中不同物品出现次数的分布。,8.1推荐系统概念第八章推荐系统8.1.3推荐系统评测指标2.覆盖率在信息论和经济学中有两个著名的指标可以用来定义覆盖率。第一个是信息燧:nH=-,p(i)logp 这里p(i)是物品i的流行度除以所有物品加

20、行度之和。一般来说,覆盖率越高的推荐系统,信息嫡越大。第二个指标是基尼系数(Gini Index):n这里,丐是按照物品流行度p()从小到主备序的物品列表中第j个物品。基尼系数反映了热 门物品与冷门物品的比值,一般来说,覆盖率越高的系统,基尼系数越接近于0。高级大数据人才培养丛书之一,大数据挖掘技术与应用第八章推荐系统8.1 推荐系统概念8.2 基于内容的推荐8二3 同过滤8.4 其他推荐技术8.5 实战:基于协同过滤算法推荐电影 习题,8.2基于内容的推荐第八章推荐系统基于内容的推荐系统是在推荐系统出现之初应用最为广泛的推荐 机制,它的核心思想是挖掘用户曾经喜欢的物品,从而尝试去推荐类似 的

21、物品使用户满意。具体来说,基于内容的推荐系统通过分析一系列用 户之前已评分的文档和(或)描述,从而基于用户已评分物品的特征建 立用户个人信息。第八章推荐系统 ,8.2基于内容的推荐例如:以电影推荐系统为例,首先,物品特征描述。这里只考虑电影的类型这一个特征(当然,只根据类型特征是不够的,可能还需要考虑电影的导演,主演等)。其次,通过电影的特征发现电影间的相似度,由于类型都是爱情,浪漫,电影A和C被认为是相似的电影;接下来,基于用户A、B、C之前对已评价的电影的特征建立用户的兴趣模型(用户-物品评价模型);最后,实现推荐,对于用户A,他喜欢看电影A,那么系统就可以给他推荐类似的电影C。从上面的例

22、子中可以看出,基于内容的推荐系统需要考虑物品特征描述,也即物品表示;其次,需要计算物品之间的相似性;最后,对用户兴趣模型和物品相似性结果进行匹配,根据匹配结果进行推荐。本节下面的内容将围绕上述主题展开阐述。,8.2基于内容的推荐第八章推荐系统这种基于内容的推荐机制的好处在于它能很好的建模用户的口味,能提供 更加精确的推荐。但它也存在以下几个问题:L需要对物品进行分析和建模,推荐的质量依赖于对物品模型的完整和全 面程度。在现在的应用中我们可以观察到关键词和标签(Tag)被认为是描述 物品元数据的一种简单有效的方法。2.物品相似度的分析仅仅依赖于物品本身的特征,这里没有考虑人对物品 的态度。心宇茵

23、为需要基于用户以往的喜好历史做出推荐,所以对于新用户有冷启 动的问题。(这里的冷启动是指用户冷启动,当新用户到来时,没有他的行 为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性 化推荐。)82基于内容的推荐第八章推荐系统8.2.1物品表示 在基于内容的推荐系统中,我们必须为每个物品建立特征模型,用于代表该物品重要特征的一条或多条记录(即物品表示)。简单的情况下,物品的特征模型由一些很容易发现的特征组成,例如,在图书推荐系统的应用中,描述图书的特征有体裁、作者名、.、类型、价格、关键词等。当每个物品由一系列相同的属性表示,并且知道这些属性可能的取值时,该物品就被表示成了结构化

24、数据。但是,有一些其他类型的物品,其特征提取并非那么直观。特别是,电子邮件或新闻。此外,一直以来,基于内容的推荐系统被用来过滤并推荐有意思的文本文档,比如电子邮件、新闻消息或网页。在这一类应用中,基于内容推荐的标准方法不是去维护一列元信息特征(如图书的体裁、作者名等),而是使用一列出现在文档中的相关关键词,即,文档表示成关键词的集合。本节重点介绍文本文档类物品的表示方法。82基于内容的推荐第八章推荐系统8.2.1物品表示1.布尔向量模型一种非常简单的方法是将出现在所有文档的所有词语设为一个列表,然后用一个 布尔型向量描述每个文档:1表示在文档中出现该词,0表示该词没有出现在文档中。如果用户记录

25、用一个相似的列表描述(1表示对一个关键词感兴趣),那么计算兴趣和 文档的重合程度就可以找到匹配的文档。这种方法存在的问题很明显。首先,直观来 讲,不同的词语与文档主题的相关程度不同,出现次数多的词更适合描述一篇文档,而这种方法却假设每个词在文档中的重要程度相同。止的卜,用户记录和长文档的重叠 机率会更大,推荐系统会更倾向于推荐长文档。,8.2基于内容的推荐第八章推荐系统8.2.1物品表示2.TF4DF向量模型为了解决简单布尔方法的缺陷,一种实际有用的做法是从文档中找出能够刻画主 题的关键词。例如,有关足球(football)的文章当中往往会出现类似ball(球)、forward(前锋)、mid

26、field(中场)、back(后卫)、Corner(角球)之类的词语。如果将文档分到确实是关于足球的主题类中,上述词语在文档 中可能会十分频繁。然而,我们不能纯粹地从词语在文档中出现的频繁程度来断定该 词语刻画了文档的主题类别。例如,在英文文档中,出现最频繁的大部分词语都是类 似the或者”and的常见词(这些词通常都用于辅助表达但本身不携带任何意义,又称为停用词)。因此,英文文档在进行分类之前往往会先将上述停用词去掉。在关键词确定之后,采用TF-IDF作为度量关键词语在文档中反复出现程度的指标。TF-IDF进行文本相似性度量的知识点参见2.3.4节。82基于内容的推荐第八章推荐系统8.2.1

27、物品表示2.TF-IDF向量模型词频描述某个给定的词在一篇文档中出现的频繁程度(不考虑停用词的频率,假 设重要的词语出现得更多)。考虑到文档长度,为了阻止更长的文档得到更高的相关 度权值,必须进行文档长度的某种归一化。有几种方法都是可行的。一种相对简单的 方法是将词出现的实际次数与文档中其他关键词出现的最多次数相比较。例如,对于文档j中的关键词i,找出其归一化词频值TF(i,j)。设freq(i,j)是在j中 出现的绝对频率。给定关键词i,令OtherKeywords(iJ)表示j中其他关键词集合。最大 频率maxOthers(ij)计算为max(freq(zj),zw OtherKeywor

28、ds(iJ)e 最后,计算TF(ij)为:TF(iJ)=freq(i,j)maxOthers(i,j),8.2基于内容的推荐第八章推荐系统8.2.1物品表示2.TF/DF向量模型逆向文档频率是组合了词频后的第二个衡量值,旨在降低所有文档中几乎都会出现的 关键词的权重。其思想为:稀有词相关性不小于频繁词相关性。也即是说,常见的词语对区 分文档没有用,应该给那些仅出现在某些文档中的词更高的权值。设N为所有可推荐文档的 数量,n(i)为N中关犍词i在出现在不同文档中的数量。i的逆向文档频率计算为:IDF(i)=log 忐文档j中关键词i的组合TF-I DF权值可以计算为上述两个子量的乘积:TF-ID

29、F(iJ)=TF(iJ)*IDF(i)因此,在TFIDF模型中,文档不是表示为每个关键词的布尔值向量,而是算出的TF-IDF值向量。,8.2基于内容的推荐第八章推荐系统8.2.1物品表示2.TF-IDF向量模型例&1假定文档集中有21。=1024篇文档,假定词语i在其中的28=283篇文档中出现,则/。死=log2(詈)=2。考虑文档j,i在该文档中出现20次,同时,文档j中最大词频也为 20,则丁吃=1,于是i在文档j中的TF-IDF得分为2。假定在文档k中,词语i出现1次,而文档j 中的最大词频为20次,则有7小=1/20,i在文档k中的TF-IDF得分为0.2。82基于内容的推荐第八章推

30、荐系统8.2.1物品表示3.向量空间模型的改进及局限停用词和词干还原。一种直接的方法是删除所谓的停用词。,在英文中这些词一般是 介词和冠词,比如a、the或on,由于它们会出现在几乎所有文档中,因此可 以从文档向量中删除。另一项常用的技术是词干还原或合并,目的是将相同词语的不同变形 替换成它们共同的词干。例如,stemming可以替换成stem,went替换成 g。,诸如此类。,8.2基于内容的推荐第八章推荐系统8.2.1物品表示3.向量空间模型的改进及局限精简规模。另一种直接办法是仅用n个信息量最大的词语来减少文档描述的规模,期望 删除数据中的噪声。在Syskill&Webert系统中选择了

31、 128个信息量最大的词语(考虑 到期望信息增益)。与此类似,Fab使用了 100个词语。由于Syskill&Webert系统应用于不 同领域,所用词语的最优个数根据实验而定。结果显示,如果挑选的关键词个数太少(少于 50个),一些重要的文档特征可能就覆盖不到。另外,当包括了太多特征(比如超过300 个),文档模型中用到关键词的重要性就很有限了,而且带来的噪声实际上会使推荐精准度82基于内容的推荐第八章推荐系统8.2.1物品表示3.向量空间模型的改进及局限短语。短语比单个词语更能描述文本,用它来替换词有可能进一步提高描述的准确性。短语或组合词,比如联合国(united Nations)可以作为

32、附加的维度转换到特征向量 空间。可以通过查找人工定义的列表或采用统计分析技术来识别短语。,8.2基于内容的推荐第八章推荐系统8.2.1物品表示3.向量空间模型的改进及局限局限。从文本中抽取个别关键词并赋权的方法有另外一个重要的局限:没有考虑到关 键词的上下文,在某些情况下没有正确体现描述的含义。例如,关于西式牛排餐厅的文 字描述可能会说菜单上不会有素食者喜欢的食物。在自动生成的特征向量里,素食者这 个词最可能得到比预想更高的权值,结果会意外匹配到对素食餐厅感兴趣的用户。请注意,一般来说我们会假设出现在一篇文档中的词通常适合刻画文档,而很少在文档中出现相反82基于内容的推荐第八章推荐系统8.2.

33、2物品相似度基于内容推荐系统的一般工作原理是,评估用户还没看到的物品与当前用户过去喜欢 的物品的相似程度。这需要两类信息。首先是用户对以前物品的评分(喜欢或不喜 欢)记录,这些评分可以通过显式的用户界面或者隐式地检测用户行为来获取,用户对物 品的评分见823节。其次,需要一个标准来衡量两个物品的相似度。本小节介绍物品相似 度的计算方法。物品相似度的计算方法一般采用余弦相似性来度量。82基于内容的推荐第八章推荐系统8.2.2物品相似度1.基于TF-ID响量空间文本相似度度量基于TF-IDF向量空间文本相似度计算的处理流程是:(1)使用TF-IDF算法,找出两篇文章的关键词;(2)每篇文章各去除若

34、干个关键词,合并成一个集合,计算每篇文章对于这个集合中 的词的词频。得到两篇文章各自的词频向量。(3)计算两个向量的余弦相似性,值越大就表示两篇文章越相似。,8.2基于内容的推荐第八章推荐系统8.2.2物品相似度1.基于TF-IDF向量空间文本相似度度量例如,给定两篇文章A和B,文章A的词频向量为(1,1,2,1,1,1,0,0,0),文 章B的词频向量为(1,1,1,0,1,1,1,1,1)。采用余弦相似性计算文档相似度。计算向量A、B的点积:A-B=lxl+lxl+2xl+lx0+lxl+lxl+0 xl+0 xl+0 xl=6计算向量A、B的欧几里得范数,即|切|:_|A|=Vl2+I2

35、+22+I2+I2+I2 4-02+02 4-02=311B 11=,2+2+2+02+2+2+2+2+12-计算相似度:A-Bcs(a,B)=0,70782基于内容的推荐第八章推荐系统8.2.2物品相似度2.数值特征的缩放变换前面我们介绍了基于布尔向量的物品表示,针对文档类物品的TF-IDF向量的物品表示 模型。在现实生活中,有很多物品的数值型特征不太容易通过布尔向量来表示。比如,对于 电影,我们可以采用参演的演员、电影的类型(惊悚、喜剧、悬疑)和电影平均评分等特征 来描述。对于参演的演员、电影的类型,我们可以采用0、1向量来描述,如果某演员在电 影中有出现则对应元素设为1,如果该电影不属于

36、喜剧类型则对应元素设为0。但是,电影 的平均评分这个特征是个实数。如果直接将平均评分作为特征的数值取值,则可能该值会主 导相似性计算过程,也就是说,电影平均评分会作为一个重要的要素影响电影的相似性度量。因此,有必要对非布尔元素进行恰当的缩放变换。其方法是,对非布尔向量,加上未知的缩 放因子。82基于内容的推荐第八章推荐系统8.2.2物品相似度例8.2假定电影的特征只包括演员集合、电影类型集合和平均评级得分。考虑两部电影 A和B,分别包括4个演员(其中有两个演员分别出现在两部电影中),两种电影类型(电影 A为喜剧,B为悬疑)。另外,电影A的平均评分为3,电影B的平均评分为4。因此,如表8-1所示

37、,电影A和电影B可表示为:表8-1电影表示模型(a为缩放因子)ActorlJActor 3悬疑Movie AMovie B对平均评分加上缩放因子a,在此基础上计算向量之间的余弦夹角。向量的点积为2+12a2,而两个向量的欧几里得范数分别为J 4+9a2和,4+因此,上述两个向量的夹角余弦为7金一-o如果a取1,结果为0.795。如果a取2,结果为0.959,此时,V16+100a2+144a4两个向量比a取1时更加接近。如果a取0.5,结果为0.1,也就是说,两个向量看上去很不同。我们无法确定到底哪一个a取值更合理,但是通过本例,可以看出数值特征缩放因子的取值 会影响最后物品相似度的决定。82

38、基于内容的推荐第八章推荐系统8.2.3用户对物品的评分一般采用n x m阶用户-物品评价矩阵来表示用户对物品的评分。给定n个用户,U=5,代表用户集合,给定m个物品(产品),P=pi,.,Pm代表物品(产品)集合,则口=弓,iln,j 1m为nxm阶评分矩阵。弓的取值表示用户i对物品j的喜欢程度,即用户对物品的评分。,8.2基于内容的推荐第八章推荐系统8.2.3 用户对物品的评分例8.3表8-2给出了一个用户对电影评分矩阵。该矩阵代表用户对电影的评级(15级)结果。空白表示用户对当前电影没有评分。希望给用户user 1推荐该用户过去喜欢的电影相似 的电影。表8-2用户-物品评价矩阵Movie

39、AMovie BMovie CMovie DUser 1User 2User 3User 4从表8-2可以看出,用户1对电影A比较喜欢(其评分分值为4),那么,他/她喜不喜欢 电影B呢?给定电影A和电影B的表示模型为表8-1,前面我们讨论过,缩放因子a不同的取 值会影响电影A和B的相似性度量。在这里,如果用户1比较看重电影的平均评分,则a=2,电影A和B的相似度非常高。因此,可以给用户1推荐电影B。会影响最后物品相似度的决定。,8.2基于内容的推荐第八章推荐系统8.2.4 基于向量空间模型的推荐本节介绍依赖向量-空间文档表示模型的最为常见的衡量物品特征和用户偏好匹配度(即相似度)的方法。1.最

40、近邻评估用户对某个文档感兴趣的程度,最初的方法是简单查找用户过去是否细化相似的 文档。这需要两类信息:用户对以前物品喜欢/不喜欢的评论记录,即用户偏好;其次,需要一个标准来衡量两个文档的相似度。在大多数公布的方法中,一般采用余弦相似度方法 评估两个文档的向量是否相似。预测未见物品d基于的想法是,让k个最相似的物品给n个候选物品投票。比如,如 果k=5,当前用户喜欢其中4个最相似的物品,系统可能会猜测d也被喜欢的概率相对很高。最终结果随着近邻k的规模而变。除此之外,还有几个其他变量也会变化,比如评分的二元 化、使用相似度阈值的最小值或根据相似度级别的投票权重。,8.2基于内容的推荐第八章推荐系统

41、8.2.4基于向量空间模型的推荐2.相关性反馈-Rocchio方法另一个基于向量空间模型的方法是Rocchi。的相关性反馈方法。曾经应用于20世纪60 年代后期开创性的信息检索系统SMART。SMART的特点是,用户不能只提交给系统基于关 键词的查询词,还要反馈检索结果是否相关。有了反馈的帮助,系统能够从根本上扩展查询 词,并改进下一轮检索的查询结果。to o这种方法用到的相关性反馈循环将会帮 助系统改进并自动扩展查询词。其主要 思想是,首先将评分文档划分成两组:D+和D-,分别对应喜欢(感兴趣;相关)和不喜欢的文档;然后计算这些分类的 初始(平均)向量。这个初始向量也可 以被看做是相关和不相

42、关文档聚类的重 心,O相关文档X不相关文档重心点,8.2基于内容的推荐第八章推荐系统8.2.4基于向量空间模型的推荐2.相关性反馈-Rocchio方法另一个基于向量空间模型的方法是Rocchi。的相关性反馈方法。曾经应用于20世纪60 年代后期开创性的信息检索系统SMART。SMART的特点是,用户不能只提交给系统基于关 键词的查询词,还要反馈检索结果是否相关。有了反馈的帮助,系统能够从根本上扩展查询 词,并改进下一轮检索的查询结果。当前查询词Qi像文档一样表示 为多维单词向量,然后重复地增加 相关文档的加权初始向量,并减去 代表不相关文档的加权向量,这样 逐步优化Qi+i。最终查询词向量将

43、会移动到一组相关文档,正如右图 说明的那样,得到反馈后,初始查 询词向相关文档聚类移动。相关文档 不相关文档查询词82基于内容的推荐第八章推荐系统8.2.4基于向量空间模型的推荐2.相关性反馈Rocchio方法调整Qi到Qi+i的计算公式定义如下:Qi+i=a*Qt+6 传 d+s+小)-y 忆)(8.4)变量a,”和y用于精细调整移动到更加相关文档的过程。a描述了上一个(或最初 的)查询词是如何赋以权重的,4和y分别对应表示在每步改进中正反馈和负反馈的作用 强度。根据Buchley等的分析,合适的参数值是8,16和4(或分别为1、2和0.5)口叫这 些发现表明正反馈比负反馈更有价值,甚至仅考

44、虑正反馈会更好一些。OOOXx xxOQiJOQo所有文档O相关文档 x不相关文档*查询词高级大数据人才培养丛书之一,大数据挖掘技术与应用第八章推荐系统8.1 推荐系统概念8.2 基于内容的推荐8.3 协同过滤8.4 其他推荐技术8.5 实战:基于协同过滤算法推荐电影 习题,8.3协同过滤第八章推荐系统协祠过滤是目前研究最多也是应用最成熟的个性化推荐技术,是与基于内容的推荐 完全不同的一种推荐方法。基于内容方法是使用被用户评过分的物品内容,协同过滤方 法还取决于被其他用户评分过的物品内容。通过分析用户评价信息(评分)把有相似需 求或品味的用户联系起来,用户之间共享对物品的观点和评价,这样就可以

45、更好地做出 选择。例如,当你在网上买衣服时,基于协同过滤的推荐系统会根据你的历史购买记录 或是浏览记录,分析出你的穿衣品位,并找到与你品味相似的一些用户,将他们浏览和 购买的衣服推荐给你。Typestry是最早提出来的协同过滤推荐系统,用于过滤电子邮件,推荐电子新闻由 于其要求用户手工输入查询条件,不牵涉到用户间的相似性计算,严格来讲,它只是一 信息检索系统,只是对检索结果根据其它用户的反馈进行筛选口4,其它的协祠过滤推 荐系统有 GroupL ens/NetPerceptions,Ringo/Firefly 等。8.3协同过滤第八章推荐系统8.32协同过滤基本概念1.协同过滤分类根据文献15

46、和16,协同过滤方法分为:基于近邻方法和基于模型方法。基于近邻方 法又分为两类,一类是基于用户推荐,一类是基于物品推荐。相应地,基于近邻方法的推荐 系统也分为两类:一类是基于用户的协同过滤系统,如GroupLens,Bellcore video和 Ringo,评估用户u对某个物品i感兴趣的程度,是通过利用对该物品i已作出评价并且和该用 户有相似评价习惯的其他用户(也叫近邻);一类是基于物品的协同过滤系统,通过基于用 户u给相似于i的物品评分来预测用户u给物品i的评分,所谓相似物品是指被一些用户评价且 具有相似特点的物品。,8.3协同过滤第八章推荐系统8.3.1协同过滤基本概念2.用户-物品评价

47、模型基于内容的推荐依赖于物品特征(即物品内容),与之不同的是,协同过滤依赖于用户对 物品的评分。一般采用n x m阶用户-物品评价矩阵来表示用户对物品的评分。给定n个用户,U=5,,叫,4代表用户集合,给定m个物品(产品),P=pi,,田,Pm代表物品(产品)集合,贝!J R=%,i 6 1.n,为nxm阶用户-物品评价矩阵。句的取盾表示用户5对物品行的喜欢程度。,8.3协同过滤第八章推荐系统8.32协同过滤基本概念2.用户物品评价模型表83协同推荐的用户-物品评价模型例如,表8-3显示了当前用户Tom和其他用户的评分数据,预测Tom是否 喜欢他从未见过的物品5。如果采用基于用户的方法,则希望

48、根据其他用 户的评分来确定Tom是否喜欢他从未见过的物品5,因此,需要寻找 那些和Tom有着类似偏好的用户,然后用这组用户对物品5的评分来 预测Tom是否喜欢这个物品。采用该方法的具体描述请见8.3.2节。如果采用基于物品的方法,则希望根据Tom已经用过的物品评分来预测 Tom是否喜欢物品5。采用该方法的具体描述见833节。,8.3协同过滤第八章推荐系统8.3.1协同过滤基本概念2.用户物品评价模型继续回到用户-物品评价模型上,首先会考虑,如何得到用户对物品的评分?怎么表示评分?其次,实际的用户-物品评价模型会不会像表8-3那样几乎填满了的情况?(1)关于评分.获得评分的方法获得用户对物品的评

49、分有两种模式:显式评分方式和隐式评分方式。显式评分竞欢/不贪欢 评分i急式评分的疗法是辱W用户在某样物品上的特定行为进行相关性评分赋值,如保存、删 除、印刷、收藏等。Q8.3协同过滤第八章推荐系统8.3.1协同过滤基本概念2.用户物品评价模型(1)关于评分.评分标准化均值中心化的思想是通过与平均分的比较来决定一个评分为正或者为负。在基于用户推荐 系统中,设也为里户u对物品i的原始评分,币是他评价的所有物品的平均分,则均值中心化评 分h(6i)=rui-re例,在基于用户推荐系统中对表8-3中的评分进行均值中心化,结果如表8-4:表8-4基于用户推荐的、均值中心化后的用户物品评价模型物品1物品2

50、物品3|物品4物品5用户1(Tom)1-100null用户20.6-1.4-0.40.60.6用户30.2-0.80.2-0.81.2用户4-0.2-0.2-2.21.80.8用户5-1.82.22.2-0.8-1.8同样,基于物品来说,丸的均值中心化评分可以为h(r山)二r山-彳 其中也为用户u对物品i 的原始评分,不为用户集合对物品i的平均评分。Q8.3协同过滤第八章推荐系统8.3.1协同过滤基本概念2.用户物品评价模型(2)稀疏矩阵在前面例子用到的评分矩阵中,只有一个用户-物品组合没有评分。但在实际应用中,由于 用户一般只会评价(或购买)少部分物品,评分矩阵一般都非常稀疏。表8-5扩展激

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 应用文书 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服