资源描述
GDOU-B-11-112
广东海洋大学学生实验报告书(学生用表)
实验名称
关于福布斯排行榜的数据挖掘
课程名称
数据仓库设计与应用
课程号
学院(系)
信息学院
专业
信息管理与信息系统
班级
信管1124
学生姓名
刘霆钧
赵小缘
学号
实验地点
科技楼
实验日期
2023年11月28日
关于福布斯排行榜的数据挖掘
一、实验目的
(1) 了解数据挖掘中的聚类分析;
(2) 充足了解IBM SPSS Modeler的数据挖掘能力;
二、实验目的
(1) 理解聚类分析的概念;
(2) 对福布斯排行榜的数据(源数据来源:福布斯中文网,通过加工整理)进行聚类分析,掌握SPSS软件进行数据挖掘的常用环节;
(3) 了解聚类分析中各个数据模型的内涵和意义。
三、实验内容及结果
1. 用自己的话概括 数据挖掘中的聚类分析 概念。
答:聚类分析是将一组对象提成若干类,想同类中的对象具有相似性,不同类中的对象相异性较大。聚类与分类不同的是后者不依赖给定的标准给对象进行分类。
2. 使用“福布斯排行榜”数据进行数据挖掘分析。
根据2023年至2023年福布斯公司排行榜50强在Excel表格中计算5年各自的平均销售额、平均利润、平均资产和平均市值,并在IBM SPSS Modeler中用“Excel”节点导入数据。
图 1 “2023-2023总汇”节点预览
图 2 “多重散点图”编辑窗口
在进行完X轴及Y轴的设立后,运营得到如图3显示的多重散点图。这一结果反映了从2023年到2023年能进入福布斯排行榜前列对其规模、赚钱能力和在资本市场影响力的规定不断提高。
图 3 2023-2023年福布斯排行榜50强(平均)金额变化趋势
此“Excel”节点的数据来自2023年福布斯排行榜100强,在图4编辑窗口中,选择过滤“排行”和“公司(名)”,以方便后面的聚类分析。
图 4 原始数据过滤
在“Excel”节点之后建立“类型”节点,如图5所示,六个字段的角色均设立为“输入”,其它参数为默认。
图 5 “类型”节点编辑窗口
图 6 “类型”节点预览
建立“K-Means”节点。如图7所示,编辑窗口中,在“使用分区数据”一栏中打钩,其他选择默认。点击运营即生成“K-Means”聚类分析。
图 7 “K-Means”模型编辑窗口
分析K-Means聚类分析。从图8中可以看到,聚类分析将源数据提成了五个聚类,每个类占总数的比例分别为45%,19%,14%,11%和11%。其中,对分类字段的依赖性依次由行业、国家、资产、销售额、市值、利润逐渐递减。
图 8 “K-Means”模型聚类分析结果
查看K-Means模型。运用“输出”选项卡中的“表”节点对模型的数据进行查看,如图9。在表中,可以看到每个公司所属的聚类,表中最后一列“$KND-K-Means”是指每一个元素距离类中心的距离,距离越小,表达效果越好。
图 9 表节点查看“K-Means”模型
图 10 “分析分布图”编辑窗口
分析分布图。如图11所示,从分布图中可以看到每个聚类所占的比例和个数,以及该类所拥有的国家。假如想查看“行业的聚类情况,可以在图10的编辑窗口中,交叠字段的“颜色”下拉栏中选择“行业”。
图 11 “分析分布图”查看聚类结果
图 12 “集合”节点编辑窗口
除了对聚类分析模型进行分析外,还可以对源数据直接分析。在这里,使用“图形”选项卡下的“集合”节点对原始数据进行分析。
运营该节点流,既可获得如图13的分布图。图中横轴表达“利润”的数额,纵轴表达在横轴上所有该“利润”数额相应的公司所具有的“市值”金额之和。
图 13 “集合”节点流分布图查看原始数据
图 14 数据挖掘“工作流”展示
四、实验总结
这次数据仓库课程的小组实验对我们组来说非常难忘,从最初的讨论实验选题,再到开始实验的通力合作,以及碰到问题后默契地寻找解决方法,最后顺利完毕答辩,过程充满着挑战,但我们都感到很满意整个过程和最后的结果。
回顾这个课程实验的细节,我们小组能充足体会到数据挖掘的不易。比如实验题目其实很多方向和备选项,但是数据源却是一个不小的问题,很多数据在网上难以搜索或者不能满足实验的格式,几经思考和讨论,决定才用“福布斯排行榜”的数据。
其实做完整个实验会发现,使用SPSS Modeler进行数据挖掘的这个流程并不复杂,并且这次实验采用的聚类分析方法和模型在之前课程作业中有比较充足的结识和实践,实验的难点除了要对聚类分析的结果进行文字形式的解释外,还在于对源数据进行筛选和整理,而我们小组在这一过程中也是边学习边实践。典型的例子是源数据的公司排行榜在2023年是有行业划分的,但之后的几年却没有这一分类,实验却需要这个关键因素,假如只是手动地一个个公司输入其所处行业,即使数据只筛选前50个,这一工作量是非常大的。负责数据编辑任务的我在网上找到了运用Excel中的VLOOKUP公式这一便捷有效的方法,通过这个公式可以不久匹配公司和行业,所以这次实验中学到的一些经验和方法不一定只合用于数据挖掘工作,在普通的办公领域也是非常有用的。
在准备最后的答辩时,原本想采用比较常见的PPT形式讲解实验,但小组总觉得就算制作华丽也不容易体现我们努力的精华部分,并且假如过多在实验运营和PPT间转换会打乱展示的节奏,因此我们选用了X-Mind思维导图做一个展示提纲,重头戏放在实验运营和嘴巴表述上。临场的效果也的确符合预期,思维导图兼具了逻辑性和简洁的效果,实验的展示和讲解也让老师和同学信服、折服,得到的高分也显得理所应当、甚至锦上添花,毕竟我们小组在实验过程中付出的努力是不可估量,收益的也远不是分数能反映的。
成绩
指导教师
日期
注:请用A4纸书写,不够另附纸。 第 页,共 页
展开阅读全文