资源描述
«Python网络爬虫》课程标准
修订时间:2019年6月
所属系部:计算机系
学分:4
批准人:李瑞兴
一、基本信息(课程代码:) 学习领域:计算机科学 适用专业:大数据专业 参考学时:64学时
制定人:林平 二、课程性质
本课程定位于高职高专层次,是大数据专业的一门重要专业基础课程。本课程主 要是介绍网络爬虫开发的原理与Python实现。主要包括从互联网获取信息与提取信 息和对WEB信息的四内容。课程内容讲解了如何应用云计算架构开发分布式爬虫,深 入介绍WEB数据挖掘实现过程。
三、课程目标本课程采用理论授课与学生课后上机实践相结合,帮助学生更好消化吸收课程知
识。
积极践行020教学理念,努力提升教学水平,在数据挖掘,数据分析课程教学方 面积极开拓创新,实现线下教学和线上服务的巧妙结合。课程主讲教师建设了国内 高校首个大数据课程公共服务平台,提供讲义PPT、课程习题、学习指南、授课视频、 技松料等包位、一立轼免费服务,帮僻生更尊习力培养学生的综具体目标为:
(一)专业能力目标学习爬虫,可以订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理
进行更深入的理解;大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获
取更多的数据源,爬虫技术主要解决信息爬取的问题;学习SE0,完成爬虫的学习,可以更深入的理解搜索引擎爬虫的工作原理,从
而可以更好的进行搜索引擎优化;(二)方法能力目标
1 .具有有限条件下思考问题的能力、理性思维分析能力。
2 .初步具有以定性和定量相结合的方法分析和解决大数据方面问题的能力
四、学习情境设计
1 .设计思路
本课程坚持教、学、做合一的设计理念,培养学生的案例实战分析雕刻能力为 目标,以具体工作任务的学习为切入点,按照企业工程案例的工程规范要求,从简 单工程到复杂工程、从易到难、注重实践的原那么,设置7个学习情景,确保课程内 容的合理性与连续性。通过任务驱动的教学模式,以示范操作、技术讲解、实践操作的教 学方式展开教学过程。学习情境的设计主要考虑以下因素:
(1)学习情境的设计要符合工作过程系统化的教学设计思想的要求。学习情 境是在学校实训室对真实工作过程的教学化加工,以完成某个完整的工作任务为目标。
(2)按照工程驱动的教学模式编排课程内容,在教学过程中,采用工程例如, 表达工学结合,培养学生职业岗位实际工作任务所需要的知识、能力、素质,为学生可持续 的专业开展奠定良好基础。
2 .课程内容及教学要求(一)课程整体内容
序号
任务
任务
任务
任务 四
任务 五
任务 六
任务 七
任务 八
任务 九
任务 十
工作 任务 名称
全面 剖析 网络 爬虫
分布 式爬 虫
虫方面 爬的方面
处理 HTML 页面
非 HTML 正文 抽取
多媒 体数 据抽 取
去除 网页 中的 噪声
分析 WEB 图
去 除 重 复 的 文 档
分类 与聚 类的 应用
学时 分配
4
8
8
8
8
4
8
4
8
4
学时合计:64学寸(其中实践教学学时比例为25 %)
理论学时:48
实践学时:16
序号
工作任务划分
教学目标和主要内容
参考 学时
知识目标
能力目标
1
任务一:全 面剖析网络爬 虫
全面剖析网络爬虫
1.1抓取网页
1. 2宽度优先爬虫和带偏好的爬
虫
1. 3设计爬虫队列
4
2
任务二:分 布式爬虫
分布式爬虫
2.1设计分布式爬虫
2. 2分布式存储
2. 3Google的成功之道一GFS
2. 4Google网页存储秘诀
--BigTable
2. 5Google的成功之道一
MapReduce 算法
8
3
任务三:爬 虫的方方囿面
爬虫的方方囿囿
3. 1 爬虫中的〃黑洞〃
3. 2 主题爬虫和限定爬虫
3.3 有〃道德〃的爬虫
8
4
任务四:处 理HTML页面
处理HTML页面
4.1征服正那么表达式
4. 2抽取HTML正文
4. 3抽取正文
4. 4从中抽取信息
8
5
任务五:非 HTML正文抽取
非HTML正文抽取
5. 1 抽取PDF文件
5.2 抽取Office文档
5.3 抽取RTF
8
6
任务六:多 媒体数据抽取
多媒体数据抽取
6. 1视频抽取
6. 2音频抽取
4
7
任务七:去除 网页中的噪声
去除网页中的噪声
7.1 〃噪声〃对网页的影响
7.2 利用〃统计学〃消除〃噪声〃
7.3 利用〃视觉〃消除〃噪声〃
8
8
任务八:分 析WEB图
分析WEB图
8. 1存储Web 〃图〃
8.2利用Web〃图〃分析链接
8. 3 Google 的秘密一PageRank
8. 4PageRank 的兄弟 HITS
8.5PageRank J^IITS t:傲
4
9
任务九:去 除重复的文档
去除重复的文档
9.1 何为〃重复〃的文档
9.2 利用〃语义指纹〃排重
9.3 3 SimHash 1建
9. 4 分布式文档排重
8
10
任务十:分 类与聚类的应
用
分类与聚类的应用
10.1网页分类
10. 2网页聚类
4
五、考核标准
1 .考核方式
理论与实践一体化评价。本课程考核含过程考核和结果考核。过程考核重点考察 学生平时出勤、课堂表现、平时作业、小组工程作业、课堂提问。这些成绩作为学生 平时成绩一并计入考核成绩中。占学期总成绩的40%o结果考核即期末考试,占总 成绩的60%,期末考试为标准化题型。
2.考核比例及要求
学期总评成绩=平时成绩(40%) +期末成绩(60)
过程考核(平时成绩)
平时成绩(100%)=出勤(10%) +课堂表现(10%) +平时作业完成(10%) +10次 作业(40) +课堂提问(30%)
结果考评(期末成绩)(100%):卷面考试,案例分析。
六、实施建议
1 .教材编写
必须依据本课程标准选用或编写教材。教材编写或选用要反映新知识、新技术, 要充分表达工程课程设计思想,以工作任务为载体实施教学,任务选取要科学、符 合课程的工作逻辑,让学生在完成工作任务的过程中逐步提高职业能力。
2 .教学建议
在教学中,应重视现代信息技术的应用,注重教学课件、视频等网络课程资源 开发与利用,提高课程教学的趣味性、实效性,注重实训指导书的开发和应用。
在教学中,应以学生为中心,加强对学生职业能力的培养,充分调动学生学习 的主动性与积极性。
在教学中,要为学生提供良好的上机操作的机会与平台,引导学生提升职业素 养。
3 .教学条件
教师要求:热爱教育事业,具备较强的沟通能力和爱岗敬业、为人师表、锐意 进取的职业道德;本课程授课教师除了具备理论知识的讲授能力外,还应具有较强 的常用设备网络实际操作能力,能够解决学生操作过程中遇到的各种问题。
实训条件:网络实训室,并有实验器材4.
课程资源
(1)教师向学生提供实践所需要的材料,提高学习效率。教学课件、学习指 导和教学视频等可通过网络共享资源。
(2)充分利用行业资源,为学生提供阶段实训,让学生在真是的环境中磨炼 自己,提升其职业综合素质。
(3)编写实训指导手册和电子实验题目,通过完成具体的工作任务来让学生 体会学习的乐趣和成就感。
5.其他说明
1 .主教材《自己动手写网络爬虫》罗刚主编,清华大学出版社。
2 .参考书
[1]罗刚网络爬虫全解析一一技术、原理与实践.电子工业出版社.2017 年.
[2]班摩从Lucene至Klasticsearch:全文检索实战.清华大学出版社.
2017 年.
[3]韦玮.精通Python网络爬虫:核心技术、框架与工程实战.机械工业出版社;第1版(2017年4月1日)
展开阅读全文