收藏 分销(赏)

大数据基础与实务(商科版)Python软件操作手册3.docx

上传人:二*** 文档编号:4765147 上传时间:2024-10-12 格式:DOCX 页数:19 大小:325.08KB
下载 相关 举报
大数据基础与实务(商科版)Python软件操作手册3.docx_第1页
第1页 / 共19页
本文档共19页,全文阅读请下载到手机保存,查看更方便
资源描述
实训操作手册 金 MNtSMan(g) 图1-11记录抽取 由于计划给预算在3000至6000之间的“打工人”提供租房建议,将满足该 条件的房源单独提取出来,同时,房源信息须包括地铁站信息,才能给“打工人" 进行通勤时间判断提供支持。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行数据抽取操作的相关参数,如图1-12。 “数据源表名"为任务一导入的“house.学生账号"表。 裁据向导 取消 确定 图1-12数据向导 3)执行代码,执行成功后,点击【查看结果】导出数据,可知筛选后满足条件的数据只有56条。 4)导出数据,为后续的主题分析提供数据支持。 7. 任务七随机抽取 进入“任务七 随机抽取”任务,如图1-13。 U ,) ,)• ,)•ir <•» KM tatHfHXikA , ■■naasoa・・ (g)图1-13随机抽取 在数据分析中,为了查看数据的随机分布状况(如地铁、价格等),随机抽 取100条存储到新表中进行分析。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行随机记录抽取操作的相关参数,如图1-14。 “数据源表名"为任务一导入的“house—学生账号"表。 数据向导 确定 取消 图1-14数据向导 3)执行代码,执行成功后,点击【查看结果】导出数据,当数据量为100时,表示数据完成抽取。 4)导出数据,为后续的主题分析提供数据支持。 8. 任务八记录合并 进入“任务八 记录合并”任务,如图1-15。 ■«- *ii«k ■«- *ii«k ■«- *ii«k ■«- *ii«k H导航 图1-15记录合并 由于之前采集过广州越秀区的房源信息,为了方便后续的分析,将两张表合 并起来,将“链家租房房源信息(越秀区)"至MySQL数据库,表命名为: house_yuexiu_账号。将“链家租房房源信息”表与“链家租房信息(越秀区)” 表进行合并,合并数据存储到新表,表名命名为:house_gf_账号。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行记录合并操作的相关参数,如图1-160 “数据源表名"为任务一导入的“house_学生账号"表。 图1-16数据向导 3)执行代码,执行成功后,点击【查看结果】导出数据,越秀区房源信 息为47条,加上源数据的294条记录,合并后的新表记录数为341。 4)导出数据,为后续的主题分析提供数据支持。 9. 任务九字段匹配 进入“任务九字段匹配”任务,如图1-17。 图1-17字段匹配处理 将越秀区数据合并,将任务五中拆分的字段重新合并回到表中,通过字段匹 配的方式将基本信息数据拼接回“house_gf”表中,从而形成完整的数据集,为 后续数据分析与可视化提供高质量的数据。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行字段匹配操作的相关参数,如图1-18。 数据向导关键词参数确定I I取消图1-18数据向导 博八合并施 g 建的表名 A 任务五创建的基本信息存储表 / 需合并的字段01 & 需合并的字段02 需合并的字段03 需合并的字段04 3)执行代码,执行成功后,导出数据,查看数据合并成功。 10. 任务十简单计算 进入“任务十简单计算"任务,如图1-19。 I*。 I*。 (g)图1-19简单计算 通过计算,了解广佛地区的每平方米的平均租金。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行简单计算操作的相关参数,如图1-20。 数据向导 确定 取消 图1-20数据向导 3)执行代码,执行成功后,查看结果,可知每平方米租金约49元 二、“案例三单项实训-数据挖掘” 1. 任务一基于“决策树"模型的流失用户分析 “任务一基于“决策树"模型的流失用户分析",如图2-1。 在【案例选择】下拉列表中,选择“案例三单项实训-数据挖掘"默认进入图2T基于“决策树"模型的流失用户分析 在该任务中,需对电商平台中的用户行为数据进行分析,在已标记流失与非 流失标签的用户数据中,查找这两类用户的行为特征。利用决策树模型进行用户 分类,设置决策树的计算方法、预剪枝参数完成建模,最后输出树图。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行决策树建模分析操作的相关参数,如图 2-1。 通过查看数据集可知,用户数据共有1000条,在进行数据拆分时,分 裂节点时最小样本数和叶子节点最小样本数无需设置太高,分裂节点指标可选取 “信息增益”方法,由于用户类别只有两种,决策树的最大深度不需要太多层级, 控制在2-3级即可。 数据向导x确定|取消图2-2数据向导 关键词 决策树分类器 / 1 决策树建模••分裂节点指标参数 /1 决策树建槿••树的最大深度参数 / 1 决策树建模-•内部节,点最,J\样本数参数 决策树建模-叶子节点分裂最1度本数参数 决策树可视化 3)执行代码,执行成功后,点击查看结果,查看树图(如图2-3),并 对树图进行解析。 树图解读:第一次分流中,决策树分裂节点属性为“访问时长”,信息隔 (entropy)为0. 7,样本总量(sample)为1120个,根据属性“访问时长"是否等于50.5分为两类,小于等于50.5分钟的用户数为638个,大于50.5分钟 的用户数为482,在总样本中,非流失用户655个,流失用户465个。 在第二次分流中,删除访问时长>50.5的样本中,根据属性“访问页面数” 是否等于1.5分为两类,小于等于1.5个页面的用户数为250个,大于1.5个页 面的用户数为388,在638个样本中,非流失用户1个,流失用户637个。 以此类推,对树图所有节点进行分析,最终对结论进行分析,可知流失用户 为具有访问时长小于等于50.5分钟且访问页面数小于1.5个页面的特征,该分 类规则的信息炳为0.017,非常接近0,可靠度很高。 2. 任务二 基于“高斯贝叶斯”模型的莺尾花分类进入“任务二基于“高斯贝叶斯”模型的莺尾花分类"任务,如图2-4。 图2-4基于“高斯贝叶斯”模型的莺尾花分类 在该任务中,需对鸾尾花进行分类,查看三种不同类型的莺尾花在花萼长度 与宽度这两个维度的具体分布。通过划分测试集与训练集进行模型训练,输出数 据集评分评估训练效果,同时利用网格散点图对分类进行可视化。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行贝叶斯建模分析操作的相关参数,如图图2-5数据向导3)执行代码,执行成功后,点击查看结果,查看训练集与测试集的准确率以及网格散点图,并对图进行解析。 Gauss i anNB-输出训练集的准确率为:0. 8095238095238095 Gauss ianNB-输出测试集的准确率为:0. 7555555555555555 2.0 4.55.0 5.56.06.5 花萼长度 2-6网格散点图 7.07.5 莺尾化Gauss i anNB分类结果 0 5 0 4 3 3 查看结果可知,训练集与测试集的准确率分别为0.809与0.755,说明模型 和建模效果还是比较理想的。 通过网格散点图,我们可以发现,绿色区域的点为标记为。的setosa,红 色区域的点为标记为1的versicolor.紫色区域的点为标记为virginica0 其中,setosa这种类型的鸯尾花的花萼长度主要分布在2.0至6之间,花 萼宽度分布在2. 3至5之间,分类效果很好,没有分类错误数据;virginica这 种类型的莺尾花的花萼长度主要分布在5. 6至8之间,花萼宽度分布在2. 3至5 之间,约有10个数据分类错误;setosa这种类型的莺尾花的花萼长度主要分布 在2.0至6之间,花萼宽度分布在2.3至5之间,也是约有10个数据分类错误。 一、“案例二单项实训-数据清洗”1 1. 任务一数据导入1 2. 任务二缺失值处理2 3. 任务三重复值处理3 4. 任务四空格值处理5 5. 任务五字段抽取6 6. 任务六记录抽取7 7. 任务七随机抽取9 8. 任务八记录合并10 9. 任务九字段匹配11 10. 任务十简单计算12二、“案例三单项实训-数据挖掘” 13 1. 任务一 基于"决策树"模型的流失用户分析13 2. 任务二 基于“高斯贝叶斯"模型的鸯尾花分类15 、“案例二单项实训-数据清洗” 1. 任务一数据导入 登录进入系统后,在【案例选择】下拉列表中,选择“案例二单项实训-数据清洗”默认进入“任务一数据导入”,如图l-lo基于pytmn话言的大数据统计分析宙概仿真系境Y酮集(\图1-1任务一数据导入 在该任务中,将提供的“链家租房房源信息”数据集导入MySQL数据库中, 表名建议命名为“house.学生账号",为后续数据处理做好准备。学生可先查看 教师下发的“链家租房房源信息” excel表熟悉数据。 具体操作: 注意:操作过程与案例一的操作大体一致,在此只进行简要描述,不展开进行详细描述。 1)新建项目并修改项目名称。 2)注册存储数据表名,表名命名为“house.学生账号”。 3)在【数据向导】中,填写“设置储存导入数据的数据表名"参数(为 注册的表名:house_学生账号),如图l-2o图1-2数据向导 注意:填写参数时,如直接复制答案,不要复制多余空格,此外,字段都要加'' 号,该符号为[esc]键下方的按键,需在英文字符下输入。 4)执行代码,执行成功后,点击【查看结果】查看,数量有449条时, 表示数据全部导入。 5)数据分析,通过查看“链家租房房源信息"数据集,可以看到,数据 集中存在大量缺失值、一个字段有多个值、同一个房源重复发布等情况。例如有 很多记录没有房源标题、地铁信息、价格等信息,同时同一个房源信息在数据集 中存在多条,房源介绍字段中存在多个数据,价格以及朝向字段存在脏数据。 这些“异常"情况对会对数据的质量造成影响,因此对数据集进行清洗、集 成以及规约等操作。 2. 任务二缺失值处理 进入“任务二缺失值处理”任务,如图1-3O图1-3任务二缺失值处理 根据“任务描述”对“链家租房房源信息”表数据进行分析。可知缺失值主 要分布在“房源标题"、“地铁”这两个字段,由于房源标题的缺失,相应的房 子的房源上架时间、价格、租赁方式、房型、楼层、面积(m,)、朝向等字段数据 也会缺失,可通过删除房源标题为空的数据的方法对缺失值处理。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行缺失值处理操作的相关参数,如图1-40 “待处理数据表表名”为任务一导入的“house_学生账号"表。 数据向导x图1-4数据向导 关鞘 参教 待处理数据表表名 / \ 膘除表记录会令(SQL ) 刀1 条件1 :房源标题为空值 Z 1 条件2 :房源标篷为空白字符 /1 确定 取消 3)执行代码,执行成功后,点击【查看结果】查看,数据量从449减少 到375条。 4)导出数据,导出进行缺失值处理过后的“house_学生账号”表。 5)查看表数据可知,原来的缺失值已被删除。 3. 任务三重复值处理进入“任务三重复值处理"任务,如图1-5。 进入“任务三重复值处理"任务,如图1-5。 £5 «*«•; python • 食 MKINVMCn (2)图1-5重复值处理 在该任务中,主要对“链家租房房源信息”表的重复值进行去重。由表可知, 页面网址是表的主键(即每一数值都是唯一的),首先需查询是否有重复值,此 外,对数据进行分析可知,在页面网址不同的情况下,房源还是存在较多的相同 数据,可能平台的不同“管家"重复上传了同一房源,所以需对房源标题进行查 重,考虑可能存在同一小区同一栋楼的情况,加上“房型"字段作为条件,判断 房源数据是否重复。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行重复值去重操作的相关参数,如图1-6。 “待处理数据表表名”为任务一导入的“house.学生账号”表。 图1-6数据向导 3)执行代码,执行成功后,点击【查看结果】查看,数据量从375减少到294条。 4)导出数据,导出进行去重处理过后的“house.学生账号”表。 5)查看表数据可知,通过高级筛选,可知每一数据都不存在重复值。 4. 任务四空格值处理进入“任务四空格值处理"任务,如图1-7。 图1-7空格值处理 在该任务中,主要对“链家租房房源信息"表的空格值进行去重。由于表中 数据存在空格,为了让数据排列整齐,同时节省空间,对字符串类型的字段删除 其首尾空格。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行空格删除操作的相关参数,如图1-8。 “待处理数据表表名"为任务一导入的“house_学生账号"表。 数据向导确定 确定 关瞄 参数 待处理数据表表名 / 去除字符率首尾空白格函数 修改数据会令 确定 取消 图1-8数据向导 3)执行代码,执行成功后,导出数据,导出进行处理的“house_学生账号"表。 5. 任务五字段抽取 进入“任务五字段抽取处理”任务,如图1-9O图1-9字段抽取 对数据进行简单处理后,可以看到,有些数据还是没办法直接使用的,例如 “价格"字段中的数据包括了 “房源介绍"中,里面包括了 “(月付价)、分享、 关注的房源请在链家APP中查看、关注”等无用数据,因此将价格中的金额单独 提出处理,新增“租金”字段储存;“朝向"字段的值包括了 “朝向:"这些数 据,为了更改直接对朝向这一字段进行分析,需删除此类脏数据。 此外,在''房源介绍"中包括“入住"、用水用电以及燃气等数据,为了更 好地对数据进行分析,需对字段拆分提出,将基本信息数据拆分到各个字段中, 存储到另外的表中待用。 具体操作: 1)新建项目并修改项目名称。 2)在【数据向导】中,填写进行字段抽取操作的相关参数,如图1-10。 “待处理数据表表名"为任务一导入的“house_学生账号"表。 图1T0数据向导 3)执行代码,执行成功后,点击【查看结果】导出数据,可知house表 和basic表都各有294条数据。 4)导出数据,查看表可知,basic存储了原来的“房源介绍"中的数据。 House表中“朝向"字段的脏数据已删除,同时新增了租金字段,值为具体的价 格数值。 6. 任务六记录抽取 进入“任务六记录抽取”任务,如图
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 通信科技 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服