1、目录1. 绪论21.1项目背景21.2 提出问题22 数据库仓库和数据集概念介绍22.1数据仓库22.2数据集23 数据仓库33.1 数据仓库设计33.1.1数据仓库概念模型设计33.1.2数据仓库逻辑模型设计33.2 数据仓库建立33.2.1数据仓库数据集33.2.2建立维表44.数据挖掘操作44.1数据预处理44.1.1描述性数据汇总44.2决议树45、试验心得126、大总结121. 绪论 1.1项目背景在现在大数据时代,各行各业需要对商品及相关关节数据进行搜集处理,尤其零售行业,于企业对产品市场需求进行科学合理分析,从而估计出未来市场,制订出高效决议,给企业带来经济收益。1.2 提出问题
2、对于超市商品购置时期和购置数量怎样决定,才能够使销售量最大,不积压商品,不缺货,对不一样时期季节和不一样人群制订不一样方案,使企业收益最大,经过数据挖掘对数据进行决议树分析,关联分析,次序分析和决议分析等能够制订出最好方案。2 数据库仓库和数据集概念介绍2.1数据仓库数据仓库是为企业全部等级决议制订过程提供支持全部类型数据战略集合。它是单个数据存放,出于分析性汇报和决议支持目标而创建。 为企业提供需要业务智能来指导业务步骤改善和监视时间、成本、质量和控制。 数据仓库是决议系统支持(dss)和联机分析应用数据源结构化数据环境。数据仓库研究和处理从数据库中获取信息问题。数据仓库特征在于面向专题、集
3、成性、稳定性和时变性。2.2数据集数据集是指一个由数据所组成集合。Data set(或dataset)是一个数据集合,通常以表格形式出现。每一列代表一个特定变量。每一行全部对应于某一组员数据集问题。它列出价值观为每一个变量,如身高和体重一个物体或价值随机数。每个数值被称为数据资料。对应于行数,该数据集数据可能包含一个或多个组员。3 数据仓库3.1 数据仓库设计3.1.1数据仓库概念模型设计概念模型设计是整个概念模型开发过程三阶段。设计阶段依据概念模型分析和分析过程中搜集任何数据,完成星型模型和雪花型模型设计。假如仅依靠ERD,那只能对商品、销售、用户专题设计成图所表示概念模型。这种模型适合于传
4、统数据库设计,但不适合于数据仓库设计。3.1.2数据仓库逻辑模型设计 逻辑建模是数据仓库实施中关键一环,因为它能直接反应出各个业务需求,同时对系统物理实施有着关键指导作用,它作用在于能够经过实体和关系勾勒出企业数据蓝图,数据仓库逻辑模型设计任务关键有:分析专题域,确定要装载到数据仓库专题、确定粒度层次划分、确定数据分割策略、关系模式定义和统计系统定义、确定数据抽取模型等。逻辑模型最终设计结果包含每个专题逻辑定义,并将相关内容统计在数据仓库元数据中、粒度划分、数据分割策略、表划分和数据起源等。3.2 数据仓库建立3.2.1数据仓库数据集通常说来,一个数据集市是根据某一特定部门决议支持需求而组织起
5、来、针对一组专题应用系统。比如,财务部拥有自己数据集市,用来进行财务方面报表和分析,市场推广部、销售部等也拥有各自专用数据集市,用来为本部门决议支持提供辅助手段。数据集市大全部采取多维数据库技术,这种技术对数据分析而言可能是最优,但肯定不适合于大量数据存放,因为多维数据库数据冗余度很高。为了提升速度,对数据集市中数据通常全部建立大量索引。换言之,数据集市中往往靠对数据预处理来换取运行时高速度,当业务部门提出新问题时,假如不在原来设计范围内,则需要数据库管理员对数据库作很多调整和优化处理。3.2.2建立维表维是分析问题角度,度量是要分析问题。多维视图:用包含度量和维表数据结构能够创建一个多维视图
6、,用试题和维创建多维模型称为星型模型,星型模型生成关键表格被称为事实表。事实表属性值几乎全部有连续值。事实表是规范化。和维表不一样不是随时间推移改变,而是不停变大。维表:星型模型也含有很小表,用来装载描述信息。维表是逆规范化。假如把维表置于第二范式中,这么表称为雪花模型。维表包含主键,通常对应事实表外部键。假如维表主键不在实事表中,这个主键字便被称作退化维。创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上事实表。基础有些充当维事实表。星型模型:全部信息维全部放在同一个维表中。维表信息包含一个唯一标识符(ID)和经过这个维表建立全部维所需属性。星型模型由小维表和大事实表组
7、成,多称为“小表和大表”。事实表通常是标准表。雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据连接。雪花模型比星型模型效率低,占空间少。全部事实表全部有一个和之相关时间维表。4.数据挖掘操作4.1数据预处理4.1.1描述性数据汇总对于很多数据预处理任务,期望知道相关数据中心趋势和离中趋势特征。中心趋势度量包含均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包含四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。这些描述性统计
8、量有利于了解数据分布。4.2决议树 (1) 读取文本数据使用变量文件节点读取定界文本数据。能够从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或使用收藏夹选项卡(默认情况下,其中包含此节点)。然后,双击新添加节点以打开对应对话框。图1所表示。图1单击紧挨“导入文件”框右边以省略号“.”标识按钮,浏览到系统中 Clementine 安装目录。打开目标文件目录,然后选择名为sales.xls文件。选择从文件读取字段名,并注意已载入此对话框中字段和值。图2所表示。图2单击过滤选项,能够把用不到信息给过滤掉。图3所表示。图3类型选项卡可帮助了解数据中更多字段类型。还能够选择读取值来查看各个字
9、段实际值,具体取决于在值列中选择。此过程称为实例化。图4所表示。图4(2)添加表现在已载入数据文件,能够浏览一下一些统计值。其中一个方法就是构建一个包含表节点流。要将表节点添加到流中,可双击选项板中表节点图标或将其拖放到工作区。图5所表示。图5双击选项板中某个节点后,该节点将自动和流工作区中选定节点相连接。另外,假如还未连接节点,则能够使用鼠标中键将源节点和表节点相连接。要模拟鼠标中键操作,请在使用鼠标时按下 Alt 键。图6所表示。图6要查看表,请单击工具栏上绿色箭头按钮实施流,或右键单击表节点,然后选择实施。图7所表示。图7(3) 创建分布图将分布节点添加到流,并将其和源节点相连接,然后双
10、击该节点以编辑要显示选项。选择商品名称作为要显示其分布目标字段。然后,在对话框中单击实施。图8所表示。图8最终图表将有利于查看数据“结构”。结果表明,商品300g壶瓶枣和400g沁州黄卖最多。图9所表示。图9另外,还能够在“输出”选项卡中找到数据审核节点。图10所表示。图10添加并实施数据审核节点,同时快速浏览全部字段分布图和直方图。图11所表示。图11(4) 创建散点图现在我们来看一下有哪些原因会对商品出售(目标变量)产生影响。作为一名消费者,我们一定知道销售模式对销售数量有着关键影响。所以创建一个相关商品名称和销售模式散点图。将散点图节点放在工作区中,并将其和源节点相连接,然后双击该节点对
11、其进行编辑。图12所表示。图12在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。然后单击实施。图13所表示。图13此散点图清楚地显示商品在零售和特价模式下销售金额不一样。商品在特价销售模式下,销售金额显著高于零售模式下销售金额。图14所表示。图14(5) 创建直方图因很多数据不能够直接显示,所以我们要建立直方图,直方图能够很清楚显示数据。首先,将网络节点和您工作区中源节点相连接。图15所表示。图15在“直方图”选项卡中,选择商品序号作为X字段,选择销售数量作为交叠字段。然后单击实施。图16所表示。图16此直方图能够清楚地显示不一样商品销售数量不
12、一样。由图能够看出序号为1商品销售数量最多,序号为9商品销售数量最少。图17所表示。图175、试验心得在此次试验中,从新建工作流一直到取得最终止果,整个步骤让我对数据挖掘中数据分析处理基础方法有了深入了解,尤其是决议树模型应用了解,同时,也学会了怎样使用决议树经过建模和直观化显示发觉数据库中关系(即链接)和利用这些链接和数据中案例组相对应关系能够经过建模可具体研究这些组并描绘其特征,增强了利用决议树模型和聚类分析模型能力。经过这次学习让我意识到,对于数据我们不仅要能利用统计来分析它规律,也要能会经过数据挖掘软件来挖掘数据当中潜在信息,而且利用数据挖掘所得到有利信息愈加好服务于数据使用者。6、大
13、总结 坚持好一段时间,最终把完成了任务,经过这几次试验汇报实践操作,我收获很大,不仅学习相关数据挖掘知识,相关SPSS了解更多,操作也比原来熟练多了。即使过程中有点折磨过,但当你克服了,耐心去一步一步操作,那些烦躁心情就会慢慢消失,还得要有耐心,认真态度去操作,才能有结果。关联分析是一个很有用数据挖掘模型,能够帮助企业做很多很有用产品组合推荐、优惠促销组合,同时也能指导货架摆放是否合理,还能够找到更多潜在用户,确实真正把数据挖掘落到实处。关联分析具体能用来做什么呢?能够一句话来概括:最大程度地从你口袋里面掏出更多钱买我产品。 1.经过关联规则,推出对应促销礼包或优惠组合套装,快速帮助提升销售额
14、。如自行车针对不一样人群,来制订有效销售方案。2.零售超市或商场,能够经过产品关联程度大小,指导产品合理摆放,方便用户最购置更多其所需要产品。最常见就是超市里面购置肉和购置蔬菜水果等货架会摆放得很近,现在就是大家会同时购置肉和蔬菜,产品合理摆放也是提升销售一个关键。 3.进行相关产品推荐或挑选对应关联产品进行正确营销。最常见是你在亚马逊或京东购置产品时候,旁边会出现购置该商品人,有百分之多少还会购置以下产品,快速帮助用户找到其共同爱好产品。物以类聚,人以群分。比如,穷人通常和穷人在一起,富人也喜爱和富人在一起。还有数据挖掘人喜爱和数据挖掘人打交道,全部离不开这些鸟道理。 4.寻求更多潜在目标用
15、户。比如:100人里面,购置A有60人,购置B有40人,同时购置A和B有30人,说明A里面有二分之一用户会购置B,反推而言。假如推出类似B产品,除了向产品B用户推荐(因为新产品和B功效效果比较类似)之外,还能够向A用户进行推荐,这么就能最大程度地寻求更多目标用户。决议树分析法是常见风险分析决议方法。该方法是一个用树形图来描述各方案在未来收益计算。比较和选择方法,其决议是以期望值为标准。大家对未来可能会碰到好多个不一样情况。每种情况全部有出现可能,大家现在无法确知,不过能够依据以前资料来推断多种自然状态出现概率。在这么条件下,大家计算多种方案在未来经济效果只能是考虑到多种自然状态出现概率期望值,
16、和未来实际收益不会完全相等。决议树法是管理人员和决议分析人员常常采取一个行之有效决议工具。它含有下列优点:1.决议树列出了决议问题全部可行方案和可能出现多种自然状态,和各可行方法在多种不一样状态下期望值。2.能直观地显示整个决议问题在时间和决议次序上不一样阶段决议过程。3.在应用于复杂多阶段决议时,阶段显著,层次清楚,便于决议机构集体研究,能够周密地思索多种原因,有利于作出正确决议。当然,决议树法也不是十全十美,它也有缺点,如使用范围有限,无法适适用于部分不能用数量表示决议;对多种方案出现概率确实定有时主观性较大,可能造成决议失误;等等估计分析法是依据客观对象已知信息而对事物在未来一些特征、发
17、展情况一个估量、测算活动。利用多种定性和定量分析理论和方法,对事物未来发展趋势和水平进行判定和推测一个活动。估计实质是依据事物过去和现在估量未来,依据已知估计未知,从而降低对未来事物认识不确定性,以指导我们决议行动,降低决议盲目性。估计学出现不是孤立、它是在人类社会生产力和科学技术日益发达基础上应运而生,它和其它学科诸如经济学、数学、系统工程学、统计学、电子计算机技术等全部有亲密关系。总而言之,数据仓库和数据挖掘这门课程很有学习意思,以后用处很大,伴随市场竞争越来越猛烈,商业环境中信息越来越密集,企业必需能够深入灵活利用积累大量数据挖掘潜在规律,提升决议质量,把握和发觉市场机遇,提升企业竞争力。8.任务分配