资源描述
你们好第八章基于关联规则的购物篮分析2一、什么是关联规则主要是描述一组数据属性之间的密切度或关联程度。分析结果是一组指定商品之间关系模式的关联规则。关联规则是无监督的,所以无需训练算法和提前标识数据。如:美国沃尔玛超市的数据分析人员在做数据分析的时候发现,每到周末同时购买啤酒和尿不湿的人较平时增加很多。他们对数据进行了进一步挖掘并且走访了很多同时购买这两样商品的顾客,他们发现这些顾客有几个共同的特点:一般是周末出现这种情况:3购买者以已婚男士为主他们家中有孩子且不到两岁,有尿不湿的刚需他们喜欢看体育比赛节目,并且喜欢边喝啤酒边看。顾客有喝啤酒的需求周末是体育比赛扎堆的日子,所以出现这种关联销售多在周末的时候。发现这个秘密后,于是超市就大胆的将啤酒放在尿不湿旁边陈列,让这些顾客购买起来更方便。实验结果发现二者的销售量都大幅度的提升。这是一个典型的利用关联销售提升业绩的案例。4例如 花生酱,果冻面包。购买前两种就极有可能购买面包。关联规则总是由项集的子集组成,通过将规则左项(条件项)(LHS)的一个项集与规则右项(结果项)(RHS)的另一个项集联系起来。5 LHS:表示为了触发规则需要满足的条件RHS:表示满足条件后的预期结果。花生酱,果冻面包一般,关联规则可以应用的场景有:优化货架商品摆放或者优化邮寄商品的目录交叉销售或者捆绑销售搜索词推荐或者识别异常 6二、概念项:交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品,如:牛奶项集:包含若干个项的集合,一般会大于0个,如花生酱,果冻支持度:项集X在总项集中出现的概率。N:数据库中交易次数count(X):表示包含项集X的交易次数。7置信度:交易中项或者项集X的出现导致项或者项集Y出现的比例。即在先决条件X发生的条件下,由关联规则X-Y 推出Y的概率频繁项集:某个项集的支持度大于设定阈值(人为设定或者根据数据分布和经验来设定),即称这个项集为频繁项集。提升度(lift):表示含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比。8如:慰问卡,鲜花的支持度=3/5=0.6鲜花慰问卡的置信度=0.6/0.8=0.75慰问卡鲜花的置信度=0.6/0.6=19假如有一条规则:牛肉鸡肉,那么同时购买牛肉和鸡肉的顾客比例是3/7,而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4。S表示所有的顾客,而A表示买了牛肉的顾客,B表示买了鸡肉的顾客,C表示既买了牛肉又买了鸡肉的顾客。那么C.count/S.count=3/7,C.count/A.count=3/4。10提升度示例:1000名顾客,购买年货,A组有500人购买茶叶,有450人购买咖啡;B组有0人购买茶叶,有450人购买咖啡。茶叶-咖啡的支持度450/1000=45%茶叶-咖啡的置信度45%/(500/1000)=90%茶叶-咖啡的提升度90%(900/1000)111由于lift(茶叶X-咖啡Y)1,所以说明X与Y相互独立,即是否有X对于Y的出现没有影响。虽然支持度和置信度都高,但它们之间没有必然的关联关系。满足最小支持度和最小置信度的关联关系叫做强关联关系如果lift1,叫做有效的强关联关系,如果liftY)1,则称X与Y相互独立12三、Apriori算法:现实中,许多潜在的商品组合极少,不是一个一个地评估集合的每一个元素。例如:如一个商店同时销售汽车产品和化妆品,但机油,口红这两个物品的组合就可能很少,忽略类似组合,就可以限制规则的搜索范围,该算法采用一个简单的先验信念作为准则来减少关联规则的搜索空间:一个频繁项集(集合)的所有子集也是频繁的。比如,如果机油,口红是频繁的,那么当且仅当机油,口红都是频繁的。如果只要其中一个是非频繁的,那么任意一个含有这两项的集合都可以从搜索中排除。13使用关联规则的过程主要包含以下三个步骤:(1)根据支持度(support),从事务集合中找出频繁项集。(2)根据置信度(confidence),从频繁项集中找出强关联规则(置信度阈值需要根据实验或者经验而定)(3)根据提升度(lift),从强关联规则中筛选出有效的强关联规则14Apriori算法的核心思想:频繁集的子集一定是频繁的非频繁集的超集一定是非频繁的创建规则的过程:识别所有满足最小支持度阈值的项集。使用那些满足最小置信度阈值的项集来创建规则。1516Apriori算法的优缺点:优点:能够处理大量的事务型数据规则中的结果很容易理解对于数据挖掘和发现数据库中意想不到的知识很有用。缺点:对于小的数据集不是很有用需要努力地将对数据的真实洞察和常识区分开容易从随机模式得出虚假结论。17假设我们设置得最小支持度为30%,最小自信度为60%。从上面的表中,可以得到:support(买游戏光碟买影片光碟)=4000/10000=40%confidence(买游戏光碟买影片光碟)=4000/6000=66%这条规则的支持度和自信度都满足要求,事实上这条规则误导了我们,支持度和自信度并不总能成功滤掉那些我们不感兴趣的规则18Thank YouKingsoft OfficeMake Presentation much more fun
展开阅读全文