1、Python数据分析教学大纲课程名称:Python数据分析课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论36学时,实验28学时)总学分:4.0学分一、课程的性质大数据时代已经到来,在商业、经济及其他领域中基于数据和分析去发现问题并做出科 学、客观的决策越来越重要。数据分析技术将帮助企业用户在合理时间内获取、管理、处理 以及整理海量数据,为企业经营决策提供积极的帮助。数据分析作为一门前沿技术,广泛应 用于物联网、云计算、移动互联网等战略新兴产业。有实践经验的数据分析人才已经成为了 各企业争夺的热门。为了推动我国大数据,云计算,人工智能行业的开展,满足日益增长的 数据分析人
2、才需求,特开设Python数据分析与应用课程。二、课程的任务通过本课程的学习,使学生学会使用Python进行科学计算、可视化绘图、数据处理, 分析与建模,并详细拆解学习聚类、回归、分类三个企业案例,将理论与实践相结合,为将 来从事数据分析挖掘研究、工作奠定基础。三、课程学时分配序号教学内容理论学时实验学时其它1第1章数据分析基础1-22第2章NumPy模块实现数值计算3433第3章Pandas模块实现统计分析34454第4章Matplotlib模块实现数据可视化23345第5章【案例1】客户价值分析23456第6章23457第7章【案例3】二手房数据分析预测系统。23568第8章【案例4】智能
3、停车场运营分析系统。2369第9章【案例5】影视作品分析124第10章【案例6】看店宝237总计3628四、教学内容及学时安排1.理论教学序 号章节名称主要内容学时1数据分析基础主要介绍什么是数据分析、常用数据分析方法和 工具、数据分析流程和Python数据分析常用模块22NumPy模块实现数值计算NumPy模块中的数组对象、数据类型对象、数组 的基本操作以及常用的运算函数等23Pandas模块实现统计分析pandas的数据结构、文本数据以及数据库的读取 或写入、常用的数据处理操作、数据的分组与聚 合以及数据的预处理工作24Matplotlib 模块实现数据可视化通过Matplotlib模块实
4、现可视化图形的绘制流程, 以及绘制条形图、折线图、散点图等可视化图形35【案例1】客户价值分析通过RFM模型和k-means聚类算法实现客户分类 和客户价值分析36【案例2】销售收入预测通过最小二乘法和线性回归模型1 inear_model.LinearRegression 实现销售收入分析 与预测67【案例3】二手房数据分析预测系统通过skleam模块中的线性回归等机器学习算法 实现二手房数据分析预测系统68【案例4】智能停车场运营分析系统主要通过时间模块与pandas模块实现智能停车 场运营数据的分析,再通过图表的方式实现数据 的可视化69【案例5】影视作品分析主要通过Python的爬虫技
5、术爬取影视作品的评 论,然后通过pandas对数据进行处理,再通过图 表的方式实现数据的可视化6【案例6】看店宝主要通过Python的爬虫技术获取京东商城商品 的相关数据,然后通过数据的分析、比拟、计算 等方式实现京东商城商品的预警62 .实验教学序号实验工程名称实验要求学时1Python数据分 析环境搭建1 .在 Windows/Linux 系统上安装 Anaconda2 .掌握Jupyter Notebook的常用功能12NumPy数值计 算基础1 .创立NumPy数组对象ndarray2 .查看ndarray的常用属性3 .花式索引ndarray4 .变换ndarray的形态5 .创立N
6、umPy矩阵并使用;使用常见ufunc6,使用NumPy读写文件23Matplotlib 数据 可视化基础1 ,掌握pyplot的基本绘图语法2 .设置pyplot的动态rc参数3 .绘制散点图4 .绘制折线图5 .绘制直方图6 .绘制饼图7 ,绘制箱线图24pandas统计分 析基础1 读写数据库数据2 .读写文本文件3 .读写Excel文件4 .查看DataFrame的常用属性5 .查改增删DataFrame数据6 .描述分析DataFrame数据7 .转换字符串时间为标准时间8 .提取时间序列数据信息9 .加减时间数据10 .使用groupby方法拆分数据11 .使用agg, apply
7、, transform方法聚合数据12 .制作透视表13 .制作交叉表45pandas数据预 处理1 .堆叠、主键、重叠合并数据2 .检测与处理重复值,缺失值,异常值3 .离差标准化、标准差标准化4,小数定标标准化数据;哑变量处理类别型数据5 .离散化连续型数据46skleam模型构 建1 .加载datasets模块自带数据集2 .划分数据集3 .使用sklearn转换器进行数据预处理与降维4 .构建与评价聚类模型5 .构建与评价分类模型6 .构建与评价回归模型47航空公司客户 价值分析1 .处理数据缺失值与异常值2 .构建航空客户价值分析的关键特征3 .标准化LRFMC 5个特征4 .构建K
8、-Means聚类模型5 .评价K-Means聚类模型48财政收入预测 分析1 .分析财政收入数据特征的相关性2 .使用Lasso回归选取财政收入预测的关键特征33 .使用灰色预测和SVR构建财政收入预测模型4 .评价SVR模型9家用热水器用 户行为分析与 事件识别1 .删除冗余特征2 .划分用水事件3 .确定单次用水事件的时长阈值4 .构建用水行为特征5 .筛选候选洗浴事件6,构建BP神经网络模型7 .评价BP神经网络模型4学时合计28五、考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业 (10%) +课堂参与(20%) +期末考核(70%),期末考试建议采用开卷形式,试题应包 括基本概念、绘图、分组聚合、数据合并、数据清洗、数据变换、模型构建等局部,题型可 采用判断题、选择、简答、应用题等方式。六、教材与参考资料1.教材王浩,袁琴,张明慧,Python数据分析案例实战M. 北京:人民邮电出版社.2020.