1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单
2、击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,13,章,物联网中,智能决议,第1页,内容提要,智能决议,是物联网“智慧”起源。,本章将介绍数据挖掘基本流程,基本类型和经典算法。,第2页,第,12,章介绍了搜索引擎相关知识,搜索引擎基本组成,搜索引擎体系结构(信息采集,索引技术,搜索服务),物联网中搜索引擎挑战,本章介绍,数据挖掘基本流程,(预处理,数据挖掘,知识评定与表示),重点介绍,几个经典数据挖掘算法,,最终讨论,物联网中智能决议新特点,。,内容回顾,第3页,13.1,数据挖掘
3、概述,13.2,数据挖掘基本类型和算法,*,13.3,智能决议与物联网,什么是数据挖掘?数据挖掘有哪三个步骤?,本章内容,第4页,13.1,数据挖掘概述,数据挖掘,(,Data Mining,),从大量,数据,中获取潜在有用而且能够被人们了解,模式,过程,是一个,重复迭代,人机交互和处理,过程,历经多个步骤,而且在一些步骤中需要由用户提供决议,数据挖掘过程:,数据预处理、数据挖掘和对挖掘结果评定与表示,每一个阶段输出结果成为下一个阶段输入,第5页,13.1,数据挖掘概述,数据挖掘过程,数据预处理阶段,数据准备:了解领域特点,确定用户需求,数据选取:从原始数据库中选取相关数据或样本,数据预处理:
4、检验数据完整性及一致性,消除噪声等,数据变换:经过投影或利用其它操作降低数据量,数据挖掘阶段,确定挖掘目标:确定要发觉知识类型,选择算法:依据确定目标选择适当数据挖掘算法,数据挖掘:利用所选算法,提取相关知识并以一定方式表示,知识评定与表示阶段,模式评定:对在数据挖掘步骤中发觉模式,(,知识,),进行评定,知识表示:使用可视化和知识表示相关技术,展现所挖掘知识,第6页,13.1,数据挖掘概述,数据挖掘过程,第7页,13.1,数据挖掘概述,13.2,数据挖掘基本类型和算法,*,13.3,智能决议与物联网,数据挖掘基本类型和算法有那些?,本章内容,第8页,13.2,数据挖掘基本类型和算法,数据挖掘
5、基本类型,关联分析,(Association Analysis),聚类分析,(Clustering Analysis),离群点分析,(Outlier Analysis),分类与预测,(Classification and Prediction),演化分析,(Evolution Analysis),描述性,挖掘任务:刻划数据库中数据普通特征,预测性,挖掘任务:在当前数据上进行推断和预测,第9页,关联分析,关联分析,目标是从给定数据中发觉频繁出现模式,即,关联规则,关联规则,通常表述形式是,X Y,,表示“数据库中满足条件,X,统计,(,元组,),可能也满足条件,Y”,以某电器商场销售统计为例:,
6、含义:,4%(,支持度,),用户年纪在,20,至,29,岁且月收入在,3000,至,5000,元,且这么用户中,,65%(,置信度,),人购置了笔记本电脑,第10页,关联分析,挖掘关联规则,需要,置信度,和,支持度,越高越好,基本概念,项集,:满足若干条件数据项集合,假如条件数为,k,,则称,k,-,项集,满足年纪,(,用户,“2029”),项集是,1-,项集,满足年纪,(,用户,“2029”),收入,(,用户,“30005000”),项集是,2-,项集,计算步骤,首先找到具备足够支持度项集,即,频繁项集,然后由频繁项集组成关联规则,并计算置信度,第11页,关联分析,怎样寻找频繁项集,Apri
7、ori,算法,基本思想:,利用已求出,k,-,项集来计算,(,k,+1)-,项集,首先计算频繁,1-,项集,然后依据两个频繁,k,-,项集,p,1,p,2,.,p,k,,,q,1,q,2,.,q,k,计算频繁,(k+1)-,项集,其中,p,i,=,q,i,,,1=,i=k,-1,,且该,(,k,+1)-,项集为,p,1,p,2,.,p,k,q,k,最终判定该,(,k,+1)-,项集是否频繁即可,缺点:,可能产生大量候选项集,并需要重复地扫描数据库,FP-Growth,算法,利用树状结构保留项集,从而减小了计算频繁项集所需存放空间,第12页,关联分析,怎样由频繁项集结构关联规则,并计算置信度,关
8、联规,A B,置信度,其中,count(A AND B),为满足条件,A,以及,B,数据项数目,,count(A),为满足条件,A,数据项数目,计算步骤,对于每一个频繁项集,S,,计算,S,全部非空子集,对于每个,S,非空子集,F,,若 大于给定置信度阈值,则得到一个关联规则,第13页,分类和预测,分类和预测,目标是,找出描述和区分不一样数据类或概念模型或函数,,方便能够使用模型预测数据类或标识未知对象,所取得,分类模型,能够采取各种形式加以描述输出,分类规则,判定树,数学公式,神经网络,分类与预测区分:,分类通常指预测数据对象属于哪一类,而当被预测值是数值数据时,通常称为预测,第14页,分类
9、和预测,以,判定树,方法为例,简明介绍分类基本步骤和结果表示,问题实例,:假定商场需要向潜在客户邮寄新产品资料和促销信息。客户数据库描述客户属性包含姓名、年纪、收入、职业和信用统计。,我们能够按是否会在商场购置计算机将客户分为两类,只将促销材料邮寄给那些会购置计算机客户,从而降低成本。,第15页,分类和预测,用于预测客户是否可能购置计算机,判定树,,其中,每个非树叶节点,表示一个,属性上测试,,,每个树叶节点,代表,预测结果,第16页,分类和预测,怎样结构上述判定树?,基本概念:,n,个客户中有,a,个购置了计算机,期望信息,建立树节点时,选取适当判定属性,以,最大化期望信息增益应,某种属性上
10、信息增益大小反应了该属性区分给定数据能力强弱,10,条客户统计,其中,6,人购置了计算机,,4,人没有购置。这,10,位客户中有,3,人职业是学生,其中有,2,人购置计算机,而非学生客户购置计算机有,4,人。在选择区分属性以前,数据期望信息为 ,用职业区分之后期望信息为 ,则选择职业作为区分属性,信息增益,为,第17页,聚类分析,聚类目标是,将数据对象划分为多个类或簇,,在同一个簇中对象之间含有较高相同度,而不一样簇中对象差异较大,聚类与分类区分:,要划分类是事先未知,聚类分析应用,第18页,聚类分析,聚类分析方法,划分方法,:要求事先给定聚类数目,k,。首先创建一个初始划分,然后经过对划分中
11、心点重复迭代来改进划分。经典算法包含,k,-means,算法和,k,-medoids,算法等,层次方法,:对给定数据集合进行逐层递归合并或者分裂,所以能够被分为合并或分裂方法。合并方法首先将每个对象都作为独立类,然后连续合并相近类,直到抵达终止条件为止。分裂方法首先将全部数据对象置于一个类中,然后重复迭代并判定当前类是否能够被继续分裂,直到抵达终止条件为止,基于密度方法,:只要某区域数据密度超出阈值,就将该区域数据进行聚类。其优势在于噪音数据下抗干扰能力,并能够发觉任意形状聚类,第19页,聚类分析,聚类分析方法(续),基于网格方法,:把对象空间量化为含有规则形状单元格,从而形成一个网格状结构。
12、在聚类时候,将每个单元格看成一条数据进行处理。优点是处理速度很快,因处理时间与数据对象数目无关,而只与量化空间中单元格数目相关,基于模型方法,:假如事先已知数据是依据潜在概率分布生成,基于模型方法便可为每个聚类构建相关数据模型,然后寻找数据对给定模型最正确匹配。主要分两类:统计学方法和神经网络方法,第20页,离群点分析,离群点,(Outlier),:数据集合中存在一些数据对象,它们与其余绝大多数数据特征或模型不一致,寻找离群点意义,发觉信用卡诈骗,。经过检测购物地点、商品种类或者购物金额和频率,能够发觉与绝大多数正常消费不一样统计,这种行为就有可能属于信用卡诈骗性使用,预防网络诈骗,。在网络销
13、售时候,诈骗者往往冒充商家,出售报价比正常价格低出许多商品,这么行为也是能够经过离群点分析被找到,第21页,离群点分析,寻找离群点方法,基于统计方法:,需要事先已知数据分布或概率模型,(,比如一个正态分布,),,然后依据数据点与该模型不一致性检验来确定离群点,基于距离方法:,不需要数据模型,而是将那些没有足够邻居数据对象看作是离群点,这里邻居是基于距给定对象距离来定义。现有基于距离离群点探测算法又分为基于索引算法,嵌套循环算法和基于单元算法,其目标都是为了减小计算和,I/O,开销,基于偏移方法:,不采取统计检验或基于距离度量值来确定异常对象。相反,它经过检验数据对象一组主要特征来确定离群点。偏
14、离事先给出特征描述数据对象被认为是离群点,第22页,演化分析,演化分析,目标是挖掘,随时间改变,数据对象改变规律和趋势,并对其建模,进而为相关决议提供参考,演化分析应用,对股票演化分析能够得出整个股票市场和特定企业股票改变规律,为投资者决议提供帮助,对生态和气候演化分析能够知道人类活动对自然影响程度,为环境保护提供主要依据,建模方法:,除了关联分析和分类分析,还包含与时间相关数据分析方法,主要包含趋势分析、相同搜索、序列模式挖掘和与周期分析,第23页,演化分析,与时间相关数据分析方法,趋势分析:,确定趋势常见方法是计算数据,n,阶改变平均值,或者采取最小二乘法等方法平滑数据改变曲线,相同搜索:
15、相同搜索用于找出与给定序列最靠近数据序列,序列模式挖掘:,挖掘相对时间或其它维属性出现频率高模式,周期分析:,挖掘含有周期模式或者关联规则,比如”若每七天六企业下班时间比平时晚半小时以上,则选择打车回家人数大约增加,20%”,第24页,13.1,数据挖掘概述,13.2,数据挖掘基本类型和算法,*,13.3,智能决议与物联网,数据挖掘在物联网背景下有着广泛需求,本章内容,第25页,13.3,智能决议与物联网,数据挖掘技术在物联网中需求,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,互联网用户行为分析,第26页,精准农业,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,
16、互联网用户行为分析,经过植入土壤或暴露在空气中传感器监控土壤性状和环境情况,。,数据经过物联网传输到远程控制中心,可及时查清当前农作物,生长环境现实状况和改变趋势,确定农作物生产目标,。,经过数据挖掘方法,能够知道:环境温度湿度和土壤各项参数等原因是怎样影响农作物产量,怎样调整它们才能够最大程度地提升农作物产量,第27页,市场行销,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,互联网用户行为分析,利用数据挖掘技术经过对用户数据分析,能够得到关于用户购物取向和兴趣信息,从而为商业决议提供依据,数据库行销,(Database Marketing),经过交互式查询、数据分割和模型预测等
17、方法来选择潜在用户方便向它们推销产品,预测采取何种销售渠道和优惠条件,使得用户最有可能被打动,货篮分析,(Basket Analysis),经过分析市场销售数据,(,比如,POS,数据库,),来发觉用户购置行为模式,第28页,智能家居,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,互联网用户行为分析,以获取天气信息为例:一方面,智能设备随时关注气象信息,并针对雨天发出报警提醒;其次,另外一些智能终端会随时跟踪主人行踪,并经过数据挖掘方法由主人历史行动特征数据预测他去向,一旦预测到主人要出门,那么就在合适时候由相应智能终端提醒他不要忘记带雨伞。例如,如果主人在门口,就将由安装在门上
18、智能设备向他发出提醒,如果在车内,则由车载计算机发出提醒,第29页,金融安全,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,互联网用户行为分析,因为金融投资风险很大,所以在进行投资决议时,需要经过对各种投资方向数据进行分析,以选择最正确投资方向。数据挖掘能够经过对已经有数据处理,找到数据对象之间关系,然后利用学习得到模式进行合理预测,金融欺诈识别主要是经过分析正常行为和诈骗行为数据和模式,得到诈骗行为一些特征,这么当某项业务统计符合这么特征时,识别系统能够向决议人员提出警告,第30页,产品制造和质量监控,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,互联网用户行为分
19、析,伴随科技进步,制造业已不是简单手工劳动,而是集成了各种先进科技流水作业。在产品生产制造过程中经常伴随有大量数据,如产品各种加工条件或控制参数,(,如时间、温度等,),。经过各种监控仪器搜集这些数据反应了每个生产步骤状态,对生产顺利进行起着这关主要作用。,经过数据挖掘对数据进行分析,能够得到产品质量与这些参数之间关系,从而能取得针对性很强提议以改进产品质量,而且有可能发觉新更高效节约控制模式,为厂家带来丰厚回报,第31页,互联网用户行为分析,精准农业,市场行销,智能家居,金融安全,产品制造和质量监控,互联网用户行为分析,伴随中国互联网用户数激增,用户在互联网上行为分析逐步引发了关注。比如,用
20、户在上网时候通常需要不停地从一个网页经过,HTTP,链接跳转到另一个网页,获取互联网用户访问模式带来好处很多,首先能够辅助改进分布式网络系统性能,比如在有高度相关站点间提供快速有效访问通道。其次,能够帮助更加好地组织和设计网页,以及帮助改进市场营销策略,(,比如把广告放在适当网页上,),以更加好地吸引客户注意,第32页,本章小结,内容回顾,本章介绍了数据挖掘基本流程,重点介绍了五种经典数据挖掘算法和步骤。最终讨论了物联网背景下数据挖掘技术广泛应用。,重点掌握,了解数据挖掘概念以及特点(重复迭代,人机交互)。,熟悉数据挖掘过程(数据预处理,挖掘知识,知识评定与表示)。,了解关联分析相关概念:关联规则(支持度,/,置信度),,Apriori,算法,频繁项集。,了解分类和预测相关概念:判定树,期望信息,信息增益。,第33页,本章小结,重点掌握(续),了解聚类分析与分类区分,了解,k-means,算法。,了解离群点分析三种方法(基于统计,距离偏移)。,了解演化分析基本概念。,举例说明物联网环境下数据挖掘技术广泛应用。,第34页,Thank you!,第35页,






