资源描述
实训操作手册
金 MNtSMan(g)
图1-11记录抽取
由于计划给预算在3000至6000之间的“打工人”提供租房建议,将满足该 条件的房源单独提取出来,同时,房源信息须包括地铁站信息,才能给“打工人" 进行通勤时间判断提供支持。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行数据抽取操作的相关参数,如图1-12。
“数据源表名"为任务一导入的“house.学生账号"表。
裁据向导
取消
确定
图1-12数据向导
3)执行代码,执行成功后,点击【查看结果】导出数据,可知筛选后满足条件的数据只有56条。
4)导出数据,为后续的主题分析提供数据支持。
7. 任务七随机抽取
进入“任务七 随机抽取”任务,如图1-13。
U ,) ,)• ,)•ir <•» KM tatHfHXikA , ■■naasoa・・
(g)图1-13随机抽取
在数据分析中,为了查看数据的随机分布状况(如地铁、价格等),随机抽 取100条存储到新表中进行分析。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行随机记录抽取操作的相关参数,如图1-14。
“数据源表名"为任务一导入的“house—学生账号"表。
数据向导
确定
取消
图1-14数据向导
3)执行代码,执行成功后,点击【查看结果】导出数据,当数据量为100时,表示数据完成抽取。
4)导出数据,为后续的主题分析提供数据支持。
8. 任务八记录合并
进入“任务八 记录合并”任务,如图1-15。
■«- *ii«k
■«- *ii«k
■«- *ii«k
■«- *ii«k
H导航
图1-15记录合并
由于之前采集过广州越秀区的房源信息,为了方便后续的分析,将两张表合 并起来,将“链家租房房源信息(越秀区)"至MySQL数据库,表命名为: house_yuexiu_账号。将“链家租房房源信息”表与“链家租房信息(越秀区)” 表进行合并,合并数据存储到新表,表名命名为:house_gf_账号。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行记录合并操作的相关参数,如图1-160 “数据源表名"为任务一导入的“house_学生账号"表。
图1-16数据向导
3)执行代码,执行成功后,点击【查看结果】导出数据,越秀区房源信 息为47条,加上源数据的294条记录,合并后的新表记录数为341。
4)导出数据,为后续的主题分析提供数据支持。
9. 任务九字段匹配
进入“任务九字段匹配”任务,如图1-17。
图1-17字段匹配处理
将越秀区数据合并,将任务五中拆分的字段重新合并回到表中,通过字段匹 配的方式将基本信息数据拼接回“house_gf”表中,从而形成完整的数据集,为 后续数据分析与可视化提供高质量的数据。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行字段匹配操作的相关参数,如图1-18。
数据向导关键词参数确定I I取消图1-18数据向导
博八合并施 g 建的表名
A
任务五创建的基本信息存储表
/
需合并的字段01
&
需合并的字段02
需合并的字段03
需合并的字段04
3)执行代码,执行成功后,导出数据,查看数据合并成功。
10. 任务十简单计算
进入“任务十简单计算"任务,如图1-19。
I*。
I*。
(g)图1-19简单计算
通过计算,了解广佛地区的每平方米的平均租金。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行简单计算操作的相关参数,如图1-20。
数据向导
确定
取消
图1-20数据向导
3)执行代码,执行成功后,查看结果,可知每平方米租金约49元
二、“案例三单项实训-数据挖掘”
1. 任务一基于“决策树"模型的流失用户分析
“任务一基于“决策树"模型的流失用户分析",如图2-1。
在【案例选择】下拉列表中,选择“案例三单项实训-数据挖掘"默认进入图2T基于“决策树"模型的流失用户分析
在该任务中,需对电商平台中的用户行为数据进行分析,在已标记流失与非 流失标签的用户数据中,查找这两类用户的行为特征。利用决策树模型进行用户 分类,设置决策树的计算方法、预剪枝参数完成建模,最后输出树图。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行决策树建模分析操作的相关参数,如图 2-1。
通过查看数据集可知,用户数据共有1000条,在进行数据拆分时,分 裂节点时最小样本数和叶子节点最小样本数无需设置太高,分裂节点指标可选取 “信息增益”方法,由于用户类别只有两种,决策树的最大深度不需要太多层级, 控制在2-3级即可。
数据向导x确定|取消图2-2数据向导
关键词
决策树分类器
/ 1
决策树建模••分裂节点指标参数
/1
决策树建槿••树的最大深度参数
/ 1
决策树建模-•内部节,点最,J\样本数参数
决策树建模-叶子节点分裂最1度本数参数
决策树可视化
3)执行代码,执行成功后,点击查看结果,查看树图(如图2-3),并 对树图进行解析。
树图解读:第一次分流中,决策树分裂节点属性为“访问时长”,信息隔
(entropy)为0. 7,样本总量(sample)为1120个,根据属性“访问时长"是否等于50.5分为两类,小于等于50.5分钟的用户数为638个,大于50.5分钟 的用户数为482,在总样本中,非流失用户655个,流失用户465个。
在第二次分流中,删除访问时长>50.5的样本中,根据属性“访问页面数” 是否等于1.5分为两类,小于等于1.5个页面的用户数为250个,大于1.5个页 面的用户数为388,在638个样本中,非流失用户1个,流失用户637个。
以此类推,对树图所有节点进行分析,最终对结论进行分析,可知流失用户 为具有访问时长小于等于50.5分钟且访问页面数小于1.5个页面的特征,该分 类规则的信息炳为0.017,非常接近0,可靠度很高。
2. 任务二 基于“高斯贝叶斯”模型的莺尾花分类进入“任务二基于“高斯贝叶斯”模型的莺尾花分类"任务,如图2-4。
图2-4基于“高斯贝叶斯”模型的莺尾花分类
在该任务中,需对鸾尾花进行分类,查看三种不同类型的莺尾花在花萼长度 与宽度这两个维度的具体分布。通过划分测试集与训练集进行模型训练,输出数 据集评分评估训练效果,同时利用网格散点图对分类进行可视化。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行贝叶斯建模分析操作的相关参数,如图图2-5数据向导3)执行代码,执行成功后,点击查看结果,查看训练集与测试集的准确率以及网格散点图,并对图进行解析。
Gauss i anNB-输出训练集的准确率为:0. 8095238095238095
Gauss ianNB-输出测试集的准确率为:0. 7555555555555555
2.0
4.55.0
5.56.06.5
花萼长度
2-6网格散点图
7.07.5
莺尾化Gauss i anNB分类结果
0 5 0
4 3 3
查看结果可知,训练集与测试集的准确率分别为0.809与0.755,说明模型 和建模效果还是比较理想的。
通过网格散点图,我们可以发现,绿色区域的点为标记为。的setosa,红 色区域的点为标记为1的versicolor.紫色区域的点为标记为virginica0
其中,setosa这种类型的鸯尾花的花萼长度主要分布在2.0至6之间,花 萼宽度分布在2. 3至5之间,分类效果很好,没有分类错误数据;virginica这 种类型的莺尾花的花萼长度主要分布在5. 6至8之间,花萼宽度分布在2. 3至5 之间,约有10个数据分类错误;setosa这种类型的莺尾花的花萼长度主要分布 在2.0至6之间,花萼宽度分布在2.3至5之间,也是约有10个数据分类错误。
一、“案例二单项实训-数据清洗”1
1. 任务一数据导入1
2. 任务二缺失值处理2
3. 任务三重复值处理3
4. 任务四空格值处理5
5. 任务五字段抽取6
6. 任务六记录抽取7
7. 任务七随机抽取9
8. 任务八记录合并10
9. 任务九字段匹配11
10. 任务十简单计算12二、“案例三单项实训-数据挖掘” 13
1. 任务一 基于"决策树"模型的流失用户分析13
2. 任务二 基于“高斯贝叶斯"模型的鸯尾花分类15
、“案例二单项实训-数据清洗”
1. 任务一数据导入
登录进入系统后,在【案例选择】下拉列表中,选择“案例二单项实训-数据清洗”默认进入“任务一数据导入”,如图l-lo基于pytmn话言的大数据统计分析宙概仿真系境Y酮集(\图1-1任务一数据导入
在该任务中,将提供的“链家租房房源信息”数据集导入MySQL数据库中, 表名建议命名为“house.学生账号",为后续数据处理做好准备。学生可先查看 教师下发的“链家租房房源信息” excel表熟悉数据。
具体操作:
注意:操作过程与案例一的操作大体一致,在此只进行简要描述,不展开进行详细描述。
1)新建项目并修改项目名称。
2)注册存储数据表名,表名命名为“house.学生账号”。
3)在【数据向导】中,填写“设置储存导入数据的数据表名"参数(为 注册的表名:house_学生账号),如图l-2o图1-2数据向导
注意:填写参数时,如直接复制答案,不要复制多余空格,此外,字段都要加'' 号,该符号为[esc]键下方的按键,需在英文字符下输入。
4)执行代码,执行成功后,点击【查看结果】查看,数量有449条时, 表示数据全部导入。
5)数据分析,通过查看“链家租房房源信息"数据集,可以看到,数据 集中存在大量缺失值、一个字段有多个值、同一个房源重复发布等情况。例如有 很多记录没有房源标题、地铁信息、价格等信息,同时同一个房源信息在数据集 中存在多条,房源介绍字段中存在多个数据,价格以及朝向字段存在脏数据。
这些“异常"情况对会对数据的质量造成影响,因此对数据集进行清洗、集 成以及规约等操作。
2. 任务二缺失值处理
进入“任务二缺失值处理”任务,如图1-3O图1-3任务二缺失值处理
根据“任务描述”对“链家租房房源信息”表数据进行分析。可知缺失值主 要分布在“房源标题"、“地铁”这两个字段,由于房源标题的缺失,相应的房 子的房源上架时间、价格、租赁方式、房型、楼层、面积(m,)、朝向等字段数据 也会缺失,可通过删除房源标题为空的数据的方法对缺失值处理。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行缺失值处理操作的相关参数,如图1-40 “待处理数据表表名”为任务一导入的“house_学生账号"表。
数据向导x图1-4数据向导
关鞘
参教
待处理数据表表名
/ \
膘除表记录会令(SQL )
刀1
条件1 :房源标题为空值
Z 1
条件2 :房源标篷为空白字符
/1
确定
取消
3)执行代码,执行成功后,点击【查看结果】查看,数据量从449减少 到375条。
4)导出数据,导出进行缺失值处理过后的“house_学生账号”表。
5)查看表数据可知,原来的缺失值已被删除。
3. 任务三重复值处理进入“任务三重复值处理"任务,如图1-5。
进入“任务三重复值处理"任务,如图1-5。
£5 «*«•;
python •
食 MKINVMCn
(2)图1-5重复值处理
在该任务中,主要对“链家租房房源信息”表的重复值进行去重。由表可知, 页面网址是表的主键(即每一数值都是唯一的),首先需查询是否有重复值,此 外,对数据进行分析可知,在页面网址不同的情况下,房源还是存在较多的相同 数据,可能平台的不同“管家"重复上传了同一房源,所以需对房源标题进行查 重,考虑可能存在同一小区同一栋楼的情况,加上“房型"字段作为条件,判断 房源数据是否重复。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行重复值去重操作的相关参数,如图1-6。 “待处理数据表表名”为任务一导入的“house.学生账号”表。
图1-6数据向导
3)执行代码,执行成功后,点击【查看结果】查看,数据量从375减少到294条。
4)导出数据,导出进行去重处理过后的“house.学生账号”表。
5)查看表数据可知,通过高级筛选,可知每一数据都不存在重复值。
4. 任务四空格值处理进入“任务四空格值处理"任务,如图1-7。
图1-7空格值处理
在该任务中,主要对“链家租房房源信息"表的空格值进行去重。由于表中 数据存在空格,为了让数据排列整齐,同时节省空间,对字符串类型的字段删除 其首尾空格。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行空格删除操作的相关参数,如图1-8。
“待处理数据表表名"为任务一导入的“house_学生账号"表。
数据向导确定
确定
关瞄
参数
待处理数据表表名
/
去除字符率首尾空白格函数
修改数据会令
确定
取消
图1-8数据向导
3)执行代码,执行成功后,导出数据,导出进行处理的“house_学生账号"表。
5. 任务五字段抽取
进入“任务五字段抽取处理”任务,如图1-9O图1-9字段抽取
对数据进行简单处理后,可以看到,有些数据还是没办法直接使用的,例如 “价格"字段中的数据包括了 “房源介绍"中,里面包括了 “(月付价)、分享、 关注的房源请在链家APP中查看、关注”等无用数据,因此将价格中的金额单独 提出处理,新增“租金”字段储存;“朝向"字段的值包括了 “朝向:"这些数 据,为了更改直接对朝向这一字段进行分析,需删除此类脏数据。
此外,在''房源介绍"中包括“入住"、用水用电以及燃气等数据,为了更 好地对数据进行分析,需对字段拆分提出,将基本信息数据拆分到各个字段中, 存储到另外的表中待用。
具体操作:
1)新建项目并修改项目名称。
2)在【数据向导】中,填写进行字段抽取操作的相关参数,如图1-10。
“待处理数据表表名"为任务一导入的“house_学生账号"表。
图1T0数据向导
3)执行代码,执行成功后,点击【查看结果】导出数据,可知house表 和basic表都各有294条数据。
4)导出数据,查看表可知,basic存储了原来的“房源介绍"中的数据。 House表中“朝向"字段的脏数据已删除,同时新增了租金字段,值为具体的价 格数值。
6. 任务六记录抽取
进入“任务六记录抽取”任务,如图
展开阅读全文