收藏 分销(赏)

大数据仓库与大数据挖掘课程设计.doc

上传人:丰**** 文档编号:8886896 上传时间:2025-03-06 格式:DOC 页数:18 大小:399.54KB 下载积分:8 金币
下载 相关 举报
大数据仓库与大数据挖掘课程设计.doc_第1页
第1页 / 共18页
大数据仓库与大数据挖掘课程设计.doc_第2页
第2页 / 共18页


点击查看更多>>
资源描述
目录 1. 绪论 2 1.1项目背景 2 1.2 提出问题 2 2 数据库仓库与数据集概念介绍 2 2.1数据仓库 2 2.2数据集 2 3 数据仓库 3 3.1 数据仓库设计 3 3.1.1数据仓库概念模型设计 3 3.1.2数据仓库逻辑模型设计 3 3.2 数据仓库建立 3 3.2.1数据仓库数据集 3 3.2.2建立维表 4 4.数据挖掘操作 4 4.1数据预处理 4 4.1.1描述性数据汇总 4 4.2决议树 4 5、试验心得 12 6、大总结 12 1. 绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节数据进行搜集处理,尤其零售行业,于企业对产品市场需求进行科学合理分析,从而预测出未来市场,制订出高效决议,给企业带来经济收益。 1.2 提出问题 对于超市商品购置时期和购置数量怎样决定,才能够使销售量最大,不积压商品,不缺货,对不一样时期季节和不一样人群制订不一样方案,使企业收益最大,经过数据挖掘对数据进行决议树分析,关联分析,次序分析与决议分析等能够制订出最好方案。 2 数据库仓库与数据集概念介绍 2.1数据仓库 数据仓库是为企业全部级别决议制订过程提供支持全部类型数据战略集合。它是单个数据存放,出于分析性汇报和决议支持目标而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决议系统支持(dss)和联机分析应用数据源结构化数据环境。数据仓库研究和处理从数据库中获取信息问题。数据仓库特征在于面向主题、集成性、稳定性和时变性。 2.2数据集 数据集是指一个由数据所组成集合。Data set(或dataset)是一个数据集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一组员数据集问题。它列出价值观为每一个变量,如身高和体重一个物体或价值随机数。每个数值被称为数据资料。对应于行数,该数据集数据可能包含一个或多个组员。 3 数据仓库 3.1 数据仓库设计 3.1.1数据仓库概念模型设计 概念模型设计是整个概念模型开发过程三阶段。设计阶段依据概念模型分析以及分析过程中搜集任何数据,完成星型模型和雪花型模型设计。假如仅依赖ERD,那只能对商品、销售、客户主题设计成如图所表示概念模型。这种模型适合于传统数据库设计,但不适合于数据仓库设计。 3.1.2数据仓库逻辑模型设计 逻辑建模是数据仓库实施中主要一环,因为它能直接反应出各个业务需求,同时对系统物理实施有着主要指导作用,它作用在于能够经过实体和关系勾勒出企业数据蓝图,数据仓库逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库主题、确认粒度层次划分、确认数据分割策略、关系模式定义和统计系统定义、确认数据抽取模型等。逻辑模型最终设计结果包含每个主题逻辑定义,并将相关内容统计在数据仓库元数据中、粒度划分、数据分割策略、表划分和数据起源等。 3.2 数据仓库建立 3.2.1数据仓库数据集 通常说来,一个数据集市是按照某一特定部门决议支持需求而组织起来、针对一组主题应用系统。比如,财务部拥有自己数据集市,用来进行财务方面报表和分析,市场推广部、销售部等也拥有各自专用数据集市,用来为本部门决议支持提供辅助伎俩。数据集市大都采取多维数据库技术,这种技术对数据分析而言可能是最优,但必定不适合于大量数据存放,因为多维数据库数据冗余度很高。为了提升速度,对数据集市中数据通常都建立大量索引。换言之,数据集市中往往靠对数据预处理来换取运行时高速度,当业务部门提出新问题时,假如不在原来设计范围内,则需要数据库管理员对数据库作许多调整和优化处理。 3.2.2建立维表 维是分析问题角度,度量是要分析问题。 多维视图:用包含度量和维表数据结构能够创建一个多维视图,用试题和维创建多维模型称为星型模型,星型模型生成主要表格被称为事实表。事实表属性值几乎都有连续值。事实表是规范化。与维表不一样不是随时间推移改变,而是不停变大。 维表:星型模型也具备非常小表,用来装载描述信息。维表是逆规范化。假如把维表置于第二范式中,这么表称为雪花模型。 维表包含主键,通常对应事实表外部键。假如维表主键不在实事表中,这个主键字便被称作退化维。 创建维表:有3种方法:星型模型、雪花模型和星暴模型。星暴模型含有两张以上事实表。基本有些充当维事实表。 星型模型:全部信息维都放在同一个维表中。维表信息包含一个唯一标识符(ID)和经过这个维表建立全部维所需属性。星型模型由小维表与大事实表组成,多称为“小表和大表”。事实表通常是标准表。 雪花模型:把信息分为3种标准格式。产品表、类别表、子类别表。把这些信息放到一起需要一定数据连接。雪花模型比星型模型效率低,占空间少。全部事实表都有一个与之相关时间维表。 4.数据挖掘操作 4.1数据预处理 4.1.1描述性数据汇总 对于许多数据预处理任务,希望知道关于数据中心趋势和离中趋势特征。中心趋势度量包含均值(mean)、中位数(median)、众数(mode)和中列数(midrange),而数据离中趋势度量包含四分位数(quartiles)、四分位数极差(interquartile range, IQR)和方差(variance)。这些描述性统计量有利于了解数据分布。 4.2决议树 (1) 读取文本数据 使用变量文件节点读取定界文本数据。能够从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。然后,双击新添加节点以打开对应对话框。如图1所表示。 图1 单击紧挨“导入文件”框右边以省略号“...”标识按钮,浏览到系统中 Clementine 安装目录。打开目标文件目录,然后选择名为sales.xls文件。选择从文件读取字段名,并注意已载入此对话框中字段和值。如图2所表示。 图2 单击过滤选项,能够把用不到信息给过滤掉。如图3所表示。 图3 类型选项卡可帮助了解数据中更多字段类型。还能够选择读取值来查看各个字段实际值,详细取决于在值列中选择。此过程称为实例化。如图4所表示。 图4 (2)添加表 现在已载入数据文件,能够浏览一下一些统计值。其中一个方法就是构建一个包含表节点流。要将表节点添加到流中,可双击选项板中表节点图标或将其拖放到工作区。如图5所表示。 图5 双击选项板中某个节点后,该节点将自动与流工作区中选定节点相连接。另外,假如还未连接节点,则能够使用鼠标中键将源节点与表节点相连接。要模拟鼠标中键操作,请在使用鼠标时按下 Alt 键。如图6所表示。 图6 要查看表,请单击工具栏上绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。如图7所表示。 图7 (3) 创建分布图 将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示选项。选择商品名称作为要显示其分布目标字段。然后,在对话框中单击执行。如图8所表示。 图8 最终图表将有利于查看数据“结构”。结果表明,商品300g壶瓶枣和400g沁州黄卖最多。如图9所表示。 图9 另外,还能够在“输出”选项卡中找到数据审核节点。如图10所表示。 图10 添加并执行数据审核节点,同时快速浏览全部字段分布图和直方图。如图11所表示。 图11 (4) 创建散点图 现在我们来看一下有哪些原因会对商品出售(目标变量)产生影响。作为一名消费者,我们一定知道销售模式对销售数量有着主要影响。所以创建一个关于商品名称和销售模式散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。如图12所表示。 图12 在“散点图”选项卡中,选择商品名称作为X字段,选择销售模式作为Y字段,并选择销售金额作为交叠字段。然后单击执行。如图13所表示。 图13 此散点图清楚地显示商品在零售和特价模式下销售金额不一样。商品在特价销售模式下,销售金额显著高于零售模式下销售金额。如图14所表示。 图14 (5) 创建直方图 因很多数据不能够直接显示,所以我们要建立直方图,直方图能够很清楚显示数据。首先,将网络节点与您工作区中源节点相连接。如图15所表示。 图15 在“直方图”选项卡中,选择商品序号作为X字段,选择销售数量作为交叠字段。然后单击执行。如图16所表示。 图16 此直方图能够清楚地显示不一样商品销售数量不一样。由图能够看出序号为1商品销售数量最多,序号为9商品销售数量最少。如图17所表示。 图17 5、试验心得 在此次试验中,从新建工作流一直到取得最终止果,整个流程让我对数据挖掘中数据分析处理基本方法有了深入了解,尤其是决议树模型应用了解,同时,也学会了怎样使用决议树经过建模和直观化显示发觉数据库中关系(即链接)以及利用这些链接与数据中案例组相对应关系能够经过建模可详细研究这些组并描绘其特征,增强了利用决议树模型和聚类分析模型能力。 经过这次学习让我意识到,对于数据我们不但要能利用统计来分析它规律,也要能会经过数据挖掘软件来挖掘数据当中潜在信息,而且利用数据挖掘所得到有利信息愈加好服务于数据使用者。 6、大总结 坚持好一段时间,终于把完成了任务,经过这几次试验汇报实践操作,我收获很大,不但学习相关数据挖掘知识,关于SPSS了解更多,操作也比原来熟练多了。即使过程中有点折磨过,但当你克服了,耐心去一步一步操作,那些烦躁心情就会慢慢消失,还得要有耐心,认真态度去操作,才能有结果。 关联分析是一个很有用数据挖掘模型,能够帮助企业做很多很有用产品组合推荐、优惠促销组合,同时也能指导货架摆放是否合理,还能够找到更多潜在客户,确实真正把数据挖掘落到实处。 关联分析详细能用来做什么呢?能够一句话来概括:最大程度地从你口袋里面掏出更多钱买我产品。 1.经过关联规则,推出对应促销礼包或优惠组合套装,快速帮助提升销售额。如自行车针对不一样人群,来制订有效销售方案。   2.零售超市或商场,能够经过产品关联程度大小,指导产品合理摆放,方便用户最购置更多其所需要产品。最常见就是超市里面购置肉和购置蔬菜水果等货架会摆放得很近,现在就是很多人会同时购置肉与蔬菜,产品合理摆放也是提升销售一个关键。 3.进行相关产品推荐或者挑选对应关联产品进行精准营销。最常见是你在亚马逊或京东购置产品时候,旁边会出现购置该商品人,有百分之多少还会购置以下产品,快速帮助用户找到其共同兴趣产品。物以类聚,人以群分。比如,穷人通常和穷人在一起,富人也喜欢和富人在一起。还有数据挖掘人喜欢和数据挖掘人打交道,都离不开这些鸟道理。 4.寻找更多潜在目标客户。比如:100人里面,购置A有60人,购置B有40人,同时购置A和B有30人,说明A里面有二分之一用户会购置B,反推而言。假如推出类似B产品,除了向产品B用户推荐(因为新产品与B功效效果比较类似)之外,还能够向A客户进行推荐,这么就能最大程度地寻找更多目标客户。 决议树分析法是惯用风险分析决议方法。该方法是一个用树形图来描述各方案在未来收益计算。比较以及选择方法,其决议是以期望值为标准。人们对未来可能会碰到好几个不一样情况。每种情况都有出现可能,人们现在无法确知,不过能够依照以前资料来推断各种自然状态出现概率。在这么条件下,人们计算各种方案在未来经济效果只能是考虑到各种自然状态出现概率期望值,与未来实际收益不会完全相等。 决议树法是管理人员和决议分析人员经常采取一个行之有效决议工具。它具备以下优点: 1.决议树列出了决议问题全部可行方案和可能出现各种自然状态,以及各可行方法在各种不一样状态下期望值。 2.能直观地显示整个决议问题在时间和决议次序上不一样阶段决议过程。 3.在应用于复杂多阶段决议时,阶段显著,层次清楚,便于决议机构集体研究,能够周密地思索各种原因,有利于作出正确决议。 当然,决议树法也不是十全十美,它也有缺点,如使用范围有限,无法适适用于一些不能用数量表示决议;对各种方案出现概率确实定有时主观性较大,可能造成决议失误;等等 预测分析法是依照客观对象已知信息而对事物在未来一些特征、发展情况一个估量、测算活动。利用各种定性和定量分析理论与方法,对事物未来发展趋势和水平进行判断和推测一个活动。 预测实质是依照事物过去和现在估量未来,依照已知预测未知,从而降低对未来事物认识不确定性,以指导我们决议行动,降低决议盲目性。预测学出现不是孤立、它是在人类社会生产力和科学技术日益发达基础上应运而生,它与其它学科诸如经济学、数学、系统工程学、统计学、电子计算机技术等都有亲密关系。 总而言之,数据仓库与数据挖掘这门课程很有学习意思,以后用处很大,伴随市场竞争越来越激烈,商业环境中信息越来越密集,企业必须能够深入灵活利用积累大量数据挖掘潜在规律,提升决议质量,把握和发觉市场机遇,提升企业竞争力。 8.任务分配
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服