大数据基础与实务(商科版)Python软件操作手册3.docx

资源描述

实训操作手册金 MNtSMan(g) 图1-11记录抽取由于计划给预算在3000至6000之间的“打工人”提供租房建议，将满足该条件的房源单独提取出来，同时，房源信息须包括地铁站信息，才能给“打工人" 进行通勤时间判断提供支持。具体操作: 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行数据抽取操作的相关参数，如图1-12。 “数据源表名"为任务一导入的“house.学生账号"表。裁据向导取消确定图1-12数据向导 3）执行代码，执行成功后，点击【查看结果】导出数据，可知筛选后满足条件的数据只有56条。 4）导出数据，为后续的主题分析提供数据支持。 7. 任务七随机抽取进入“任务七随机抽取”任务，如图1-13。 U ，），）• ，）•ir <•» KM tatHfHXikA , ■■naasoa・・（g）图1-13随机抽取在数据分析中，为了查看数据的随机分布状况（如地铁、价格等），随机抽取100条存储到新表中进行分析。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行随机记录抽取操作的相关参数，如图1-14。 “数据源表名"为任务一导入的“house—学生账号"表。数据向导确定取消图1-14数据向导 3）执行代码，执行成功后，点击【查看结果】导出数据，当数据量为100时，表示数据完成抽取。 4）导出数据，为后续的主题分析提供数据支持。 8. 任务八记录合并进入“任务八记录合并”任务，如图1-15。 ■«- *ii«k ■«- *ii«k ■«- *ii«k ■«- *ii«k H导航图1-15记录合并由于之前采集过广州越秀区的房源信息，为了方便后续的分析，将两张表合并起来，将“链家租房房源信息（越秀区）"至MySQL数据库，表命名为： house_yuexiu_账号。将“链家租房房源信息”表与“链家租房信息（越秀区）” 表进行合并，合并数据存储到新表，表名命名为：house_gf_账号。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行记录合并操作的相关参数，如图1-160 “数据源表名"为任务一导入的“house_学生账号"表。图1-16数据向导 3）执行代码，执行成功后，点击【查看结果】导出数据，越秀区房源信息为47条，加上源数据的294条记录，合并后的新表记录数为341。 4）导出数据，为后续的主题分析提供数据支持。 9. 任务九字段匹配进入“任务九字段匹配”任务，如图1-17。图1-17字段匹配处理将越秀区数据合并，将任务五中拆分的字段重新合并回到表中，通过字段匹配的方式将基本信息数据拼接回“house_gf”表中，从而形成完整的数据集，为后续数据分析与可视化提供高质量的数据。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行字段匹配操作的相关参数，如图1-18。数据向导关键词参数确定I I取消图1-18数据向导博八合并施 g 建的表名 A 任务五创建的基本信息存储表 / 需合并的字段01 & 需合并的字段02 需合并的字段03 需合并的字段04 3）执行代码，执行成功后，导出数据，查看数据合并成功。 10. 任务十简单计算进入“任务十简单计算"任务，如图1-19。 I*。 I*。 (g)图1-19简单计算通过计算，了解广佛地区的每平方米的平均租金。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行简单计算操作的相关参数，如图1-20。数据向导确定取消图1-20数据向导 3）执行代码，执行成功后，查看结果，可知每平方米租金约49元二、“案例三单项实训-数据挖掘” 1. 任务一基于“决策树"模型的流失用户分析 “任务一基于“决策树"模型的流失用户分析"，如图2-1。在【案例选择】下拉列表中，选择“案例三单项实训-数据挖掘"默认进入图2T基于“决策树"模型的流失用户分析在该任务中，需对电商平台中的用户行为数据进行分析，在已标记流失与非流失标签的用户数据中，查找这两类用户的行为特征。利用决策树模型进行用户分类，设置决策树的计算方法、预剪枝参数完成建模，最后输出树图。具体操作: 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行决策树建模分析操作的相关参数，如图 2-1。通过查看数据集可知，用户数据共有1000条，在进行数据拆分时，分裂节点时最小样本数和叶子节点最小样本数无需设置太高，分裂节点指标可选取 “信息增益”方法，由于用户类别只有两种，决策树的最大深度不需要太多层级, 控制在2-3级即可。数据向导x确定|取消图2-2数据向导关键词决策树分类器 / 1 决策树建模••分裂节点指标参数 /1 决策树建槿••树的最大深度参数 / 1 决策树建模-•内部节,点最，J\样本数参数决策树建模-叶子节点分裂最1度本数参数决策树可视化 3）执行代码，执行成功后，点击查看结果，查看树图（如图2-3）,并对树图进行解析。树图解读：第一次分流中，决策树分裂节点属性为“访问时长”，信息隔（entropy）为0. 7,样本总量（sample）为1120个，根据属性“访问时长"是否等于50.5分为两类，小于等于50.5分钟的用户数为638个，大于50.5分钟的用户数为482,在总样本中，非流失用户655个，流失用户465个。在第二次分流中，删除访问时长＞50.5的样本中，根据属性“访问页面数” 是否等于1.5分为两类，小于等于1.5个页面的用户数为250个，大于1.5个页面的用户数为388,在638个样本中，非流失用户1个，流失用户637个。以此类推，对树图所有节点进行分析，最终对结论进行分析，可知流失用户为具有访问时长小于等于50.5分钟且访问页面数小于1.5个页面的特征，该分类规则的信息炳为0.017,非常接近0,可靠度很高。 2. 任务二基于“高斯贝叶斯”模型的莺尾花分类进入“任务二基于“高斯贝叶斯”模型的莺尾花分类"任务，如图2-4。图2-4基于“高斯贝叶斯”模型的莺尾花分类在该任务中，需对鸾尾花进行分类，查看三种不同类型的莺尾花在花萼长度与宽度这两个维度的具体分布。通过划分测试集与训练集进行模型训练，输出数据集评分评估训练效果，同时利用网格散点图对分类进行可视化。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行贝叶斯建模分析操作的相关参数，如图图2-5数据向导3）执行代码，执行成功后，点击查看结果，查看训练集与测试集的准确率以及网格散点图，并对图进行解析。 Gauss i anNB-输出训练集的准确率为：0. 8095238095238095 Gauss ianNB-输出测试集的准确率为：0. 7555555555555555 2.0 4.55.0 5.56.06.5 花萼长度 2-6网格散点图 7.07.5 莺尾化Gauss i anNB分类结果 0 5 0 4 3 3 查看结果可知，训练集与测试集的准确率分别为0.809与0.755,说明模型和建模效果还是比较理想的。通过网格散点图，我们可以发现，绿色区域的点为标记为。的setosa,红色区域的点为标记为1的versicolor.紫色区域的点为标记为virginica0 其中，setosa这种类型的鸯尾花的花萼长度主要分布在2.0至6之间，花萼宽度分布在2. 3至5之间，分类效果很好，没有分类错误数据；virginica这种类型的莺尾花的花萼长度主要分布在5. 6至8之间，花萼宽度分布在2. 3至5 之间，约有10个数据分类错误；setosa这种类型的莺尾花的花萼长度主要分布在2.0至6之间，花萼宽度分布在2.3至5之间，也是约有10个数据分类错误。一、“案例二单项实训-数据清洗”1 1. 任务一数据导入1 2. 任务二缺失值处理2 3. 任务三重复值处理3 4. 任务四空格值处理5 5. 任务五字段抽取6 6. 任务六记录抽取7 7. 任务七随机抽取9 8. 任务八记录合并10 9. 任务九字段匹配11 10. 任务十简单计算12二、“案例三单项实训-数据挖掘” 13 1. 任务一基于"决策树"模型的流失用户分析13 2. 任务二基于“高斯贝叶斯"模型的鸯尾花分类15 、“案例二单项实训-数据清洗” 1. 任务一数据导入登录进入系统后，在【案例选择】下拉列表中，选择“案例二单项实训-数据清洗”默认进入“任务一数据导入”，如图l-lo基于pytmn话言的大数据统计分析宙概仿真系境Y酮集(\图1-1任务一数据导入在该任务中，将提供的“链家租房房源信息”数据集导入MySQL数据库中，表名建议命名为“house.学生账号"，为后续数据处理做好准备。学生可先查看教师下发的“链家租房房源信息” excel表熟悉数据。具体操作：注意：操作过程与案例一的操作大体一致，在此只进行简要描述，不展开进行详细描述。 1）新建项目并修改项目名称。 2）注册存储数据表名，表名命名为“house.学生账号”。 3）在【数据向导】中，填写“设置储存导入数据的数据表名"参数（为注册的表名：house_学生账号），如图l-2o图1-2数据向导注意：填写参数时，如直接复制答案，不要复制多余空格，此外，字段都要加'' 号，该符号为［esc］键下方的按键，需在英文字符下输入。 4）执行代码，执行成功后，点击【查看结果】查看，数量有449条时，表示数据全部导入。 5）数据分析，通过查看“链家租房房源信息"数据集，可以看到，数据集中存在大量缺失值、一个字段有多个值、同一个房源重复发布等情况。例如有很多记录没有房源标题、地铁信息、价格等信息，同时同一个房源信息在数据集中存在多条，房源介绍字段中存在多个数据，价格以及朝向字段存在脏数据。这些“异常"情况对会对数据的质量造成影响，因此对数据集进行清洗、集成以及规约等操作。 2. 任务二缺失值处理进入“任务二缺失值处理”任务，如图1-3O图1-3任务二缺失值处理根据“任务描述”对“链家租房房源信息”表数据进行分析。可知缺失值主要分布在“房源标题"、“地铁”这两个字段，由于房源标题的缺失，相应的房子的房源上架时间、价格、租赁方式、房型、楼层、面积（m，）、朝向等字段数据也会缺失，可通过删除房源标题为空的数据的方法对缺失值处理。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行缺失值处理操作的相关参数，如图1-40 “待处理数据表表名”为任务一导入的“house_学生账号"表。数据向导x图1-4数据向导关鞘参教待处理数据表表名 / \ 膘除表记录会令（SQL ）刀1 条件1 ：房源标题为空值 Z 1 条件2 :房源标篷为空白字符 /1 确定取消 3）执行代码，执行成功后，点击【查看结果】查看，数据量从449减少到375条。 4）导出数据，导出进行缺失值处理过后的“house_学生账号”表。 5）查看表数据可知，原来的缺失值已被删除。 3. 任务三重复值处理进入“任务三重复值处理"任务，如图1-5。进入“任务三重复值处理"任务，如图1-5。 £5 «*«•； python • 食 MKINVMCn （2）图1-5重复值处理在该任务中，主要对“链家租房房源信息”表的重复值进行去重。由表可知, 页面网址是表的主键（即每一数值都是唯一的），首先需查询是否有重复值，此外，对数据进行分析可知，在页面网址不同的情况下，房源还是存在较多的相同数据，可能平台的不同“管家"重复上传了同一房源，所以需对房源标题进行查重，考虑可能存在同一小区同一栋楼的情况，加上“房型"字段作为条件，判断房源数据是否重复。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行重复值去重操作的相关参数，如图1-6。 “待处理数据表表名”为任务一导入的“house.学生账号”表。图1-6数据向导 3）执行代码，执行成功后，点击【查看结果】查看，数据量从375减少到294条。 4）导出数据，导出进行去重处理过后的“house.学生账号”表。 5）查看表数据可知，通过高级筛选，可知每一数据都不存在重复值。 4. 任务四空格值处理进入“任务四空格值处理"任务，如图1-7。图1-7空格值处理在该任务中，主要对“链家租房房源信息"表的空格值进行去重。由于表中数据存在空格，为了让数据排列整齐，同时节省空间，对字符串类型的字段删除其首尾空格。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行空格删除操作的相关参数，如图1-8。 “待处理数据表表名"为任务一导入的“house_学生账号"表。数据向导确定确定关瞄参数待处理数据表表名 / 去除字符率首尾空白格函数修改数据会令确定取消图1-8数据向导 3）执行代码，执行成功后，导出数据，导出进行处理的“house_学生账号"表。 5. 任务五字段抽取进入“任务五字段抽取处理”任务，如图1-9O图1-9字段抽取对数据进行简单处理后，可以看到，有些数据还是没办法直接使用的，例如 “价格"字段中的数据包括了 “房源介绍"中，里面包括了 “（月付价）、分享、关注的房源请在链家APP中查看、关注”等无用数据，因此将价格中的金额单独提出处理，新增“租金”字段储存；“朝向"字段的值包括了 “朝向："这些数据，为了更改直接对朝向这一字段进行分析，需删除此类脏数据。此外，在''房源介绍"中包括“入住"、用水用电以及燃气等数据，为了更好地对数据进行分析，需对字段拆分提出，将基本信息数据拆分到各个字段中，存储到另外的表中待用。具体操作： 1）新建项目并修改项目名称。 2）在【数据向导】中，填写进行字段抽取操作的相关参数，如图1-10。 “待处理数据表表名"为任务一导入的“house_学生账号"表。图1T0数据向导 3）执行代码，执行成功后，点击【查看结果】导出数据，可知house表和basic表都各有294条数据。 4）导出数据，查看表可知，basic存储了原来的“房源介绍"中的数据。 House表中“朝向"字段的脏数据已删除，同时新增了租金字段，值为具体的价格数值。 6. 任务六记录抽取进入“任务六记录抽取”任务，如图

展开阅读全文