资源描述
《现代信息检索》课程教学大纲
一、课程总述
本课程大纲是以2014年计算机科学和技术专业本科专业人才培养方案为依据编制的。
课程名称
现代信息检索
课程代码
33042
英文名称
Modern Information Retrieval
开课阶段
第一阶段,第3学期
课程性质
专业选修实务技能性课程
先修课程
计算机科学导论,程序设计基础
总学时数
32
周学时数
2
开课院系
信息管理学院
任课教师
刘德喜,钟敏娟
编 写 人
刘德喜
编写时间
2016年 9 月
课程负责人
刘德喜
大纲主审人
吴方君
使用教材
刘挺等,信息检索系统导论,机械工业出版社,2008年
背景介绍
信息检索是信息管理领域中的核心部分。随着互联网的发展以及大容量存储设备的出现,海量信息的积累要求人们必须借助于计算机方能高效、准确地查找所需要的信息。现代信息检索从计算机科学的观点出发,重点介绍信息检索中的数据模型和实现技术。本课程的主要内容包括:信息检索模型(布尔模型、代数模型、概率模型)、信息检索的评价、组织和索引、web信息检索等内容,并结合当前信息检索的发展动态,介绍最新的研究成果。
和2012年制订的《现代信息检索》课程大纲相比,本次大纲修订在介绍基本原理的基础上,更强调学生自己动手设计,弱化一些难度相对较大理论知识,例如检索模型中概率模型的推导、语言模型中平滑方法的推导、检索模型评价中的NDGC方法等。
为加强学生动手,整个课程新增设一个搜索引擎原型的设计任务,要求学生设计(或利用开源的)网络爬虫,从指定网站收集关键词相关的web页面或微博微信,经过去重、网页内容提取、分词等预处理后,构建索引并存储,设计检索系统提供关键词检索。同时,会使用开源软件搭建简单的检索系统,会使用自然语言处理工具对文本数据进行分析。
课程和人才培养目标的关系
“数据管理能力”和“知识获取能力”是计算机科学和技术(财经大数据方向)学生的主要能力之一,这要求学生“掌握数据库的基本概念、关系数据库、数据库体系结构,数据组织和存储的基本概念和基本方法,以及数据库安全性和完整性、并发控制和恢复的基本概念和基本方法,能选择或设计工具根据工作需要采集和检索相关数据,并基于Oracle、SQL Server等数据库管理系统或Hadoop等大数据管理平台对数据进行存储和管理,并编写相应的处理程序。”“掌握文献检索、资料查询及运用现代信息技术获取相关信息的基本方法,具备信息获取、吸收和利用的能力。”
《现代信息检索》主要讲授和讨论现代信息检索领域的主要思想、关键技术和最新进展。包括Web信息特别是文本信息的获取、信息的组织和索引、文本预处理的方法、检索模型等。除了解现代信息检索的原理,该课程还组织学生利用程序设计知识设计一个小型的搜索引擎,这些能力可以帮助学生将来在工作中更有效地获取、组织、管理和发布企事业信息或企事业需要的信息。
在组织学生设计小型搜索引擎时,采用了大作业的方式,从第二周开始布置任务、划分小组,将任务拆分成子任务,每个子任务对应搜索引擎的一个子模块,包括网络爬虫、文本预处理(网页内容分析、分词等)、索引、检索等。这一过程可以训练学生的程序设计能力、数据结构和算法及其应用能力、数据管理能力、沟通和团队合作。由于该项目会用到大量开源工具或源码,需要学生主动获取、理解、正确运用并改进,因此又可以培养学生创新素质和能力、知识获取能力、终身学习和发展、国际视野和跨文化交流等能力。
课程考核采用的是课程设计和答辩形式,学生要提交设计报告和源码,并在答辩现场演示、介绍系统,对学生沟通表达能力也有很好的锻炼。
教学
参考资料
1. Johnny Long 等,Google Hacking技术手册,机械工业出版社,2009年
2. W.Bruce Croft等,搜索引擎-信息检索实践,机械工业出版社, 2009年
3. Christopher D. Manning等,信息检索导论,人民邮电出版社,2010年
4. Ricardo Baeza-Yates等著,现代信息检索(Modern Information Retrieval,第1版),机械工业出版社(影印版),2007.2
5. 国际会议:SIGIR,CIKM
课程
教学目的
我校计算机科学和技术专业的培养目标中要求学生具备计算机软件和硬件、企业组织和运营、系统分析和集成等方面的专业知识和能力。了解信息检索的原理有 助于学生有效地获取、组织、管理和发布企业信息。通过课程实践,训练学生将相关专业知识(概率论和数理统计、程序设计基础)进行实际综合应用的能力。
本课程为计算机计算机科学技术专业的专业提高课,不是讲授如何利用检索工具进行情报检索,而主要讲授和讨论现代信息检索领域的主要思想、关键技术和最新进展。主要内容包括检索模型、检索评价、相关反馈、查询扩展、信息的组织和索引、文本处理、WEB检索等等。通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的科研能力;在了解检索原理的基础上,更有效地获取、组织、管理和发布企业信息。另外,通过设计一个搜索引擎的原型系统,培养学生的动手能力。
课程
教学要求
1. 计算机科学导论、程序设计基础、概率论和数理统计是该课程的先修课(由于第5、6学期选修课任务太重,加上希望通该课程强化学生程序设计和数据结构的练习,因此将《现代信息检索》提前到3学期,此时还没开设《概率论和数理统计》课,因此概率模型部分除补充一些概率知识外,也弱化模型的推导过程);
2. 尽管该课程有较强的理论性,但所涉及到的简单模型和算法学生有能力实现,因此,在讲授理论的同时,结合程序设计课程,提供适当的实践练习;
3. 基于统计的检索模型涉及到概率论和数理统计的知识,可以作为相应数学课程的一个实际应用,让学生理解数学的重要性;
4. 该课程是专业提高课,因此,需要结合信息检索的研究现状,介绍比较前沿的研究成果,培养学生的研究兴趣,练习科学研究的基本方法。
5.该课程涉及的知识面广、研究的领域比较宽泛,因此,除教材外,应给学生指定相关的参考书和课程网站,以拓宽学生的知识面。
本课程的重点和难点
重点:网络爬虫;倒排表以及其他相关索引结构;向量空间模型;概率模型、统计语言模型;链接分析算法、WEB建模;评价指标中的召回率、准确率和MAP等;
难点:动态网页的爬取、倒排索引的构建;概率模型、统计语言模型;web链接分析算法。
教学方法和教学手段
由于加强对学生动手能力的培养及灵活运用理论知识的能力的培养,本课程需从具体的理论知识点中跳出来,帮助学生建议整个检索系统的框架、帮助理解各章节内容在整个框架中的位置和作用。为达到这一目的,并考虑到本课程的重点和难点,拟采用以下几个方法和手段:
(1)弱化理论,强化实践。对于需要花更多时间精力的原理性内容,主要介绍其特点的基本的思路,不再详细分析具体的推导过程等。例如,概率模型中的BM25模型,在介绍了概率模型的基本思想后,直接拿出BM25模型,对其中的构成进行一些必要的解释,并不完整推荐其过程。
(2)大作业驱动。要求学生完成一个搜索引擎的原型系统,该系统尽管不能真正投入使用,但可以帮助学生建立整个检索系统的框架。大作业被分解成多个子任务,伴随每个章节的讲解逐渐完成。
(3)充分利用开源代码。由于建议一个完成搜索引擎的原理系统需要的工作量非常大,要求学生在完成各模型时,可以借鉴一些开源工具,使得主要注意力集中在整个框架的搭建上。另外,也鼓励学生对搜索引擎原型系统中的某一部分进行深入挖掘,鼓励学生自己设计相应的代码。
课程考试
本课程是考察课,重在平时学习,因此将考核重点放在平时学习中。考试采用考勤(10%)、课堂表现(20%)、作业(20%)、答辩(20%)、考试(30%)等形式。
一、 教学时数分配
章目
教学内容
教学时数分配
课堂讲授
实验(上机)
布置任务、学生自行安排时间上机。上课会抽查
第一章
绪论
2学时
第二章
文本处理(爬虫、内容提取、预处理)
6学时
第三章
信息的组织和索引
4学时
第四章
信息检索模型
10学时
第五章
检索性能评价
2学时
第六章
WEB检索
4学时
组织课程答辩
4学时
三、单元教学目的、教学重难点和内容设置
《现代信息检索》各部分内容之间的联系:
第一章 绪论
【教学目的】
了解信息检索的基本概念和发展历史、信息检索和其他相关学科的关系、信息检索系统的基本构架和一般流程。
【重点难点】
重点:信息检索的基本概念、对检索过程的理解。
难点:检索中各过程的作用在本章的介绍中还不具体,给理解带来一定难度。
【教学内容】
信息检索的基本概念
信息检索的历史、现在、将来
信息检索和其他学科的关系
信息检索的过程
【重难点的教学方法】
结合当前搜索引擎进行讲解。目前百度、GOOGLE等搜索引擎已经被学生熟知,因此,结合他们的实际检索体验,分析用户提交查询后搜索引擎在做什么处理、为什么需要这些处理过程等。
第二章 文本处理(爬虫、内容提取、预处理)
【教学目的】
理解文本处理的目的,了解词法分析(停用词消除、词干提取、中文分词、词性标注)的基本方法。了解网络爬虫的工作原理,学习使用开源的网络爬虫抓取数据。
【重点难点】
重点:文本处理的作用、信息检索中纷繁复杂的预处理技术。
难点:网络爬虫的使用、网页内容提取的工作原理。
【教学内容】
网络爬虫
文档预处理的目的
网页内容提取
词法分析
停用词消除
词干还原
Term选择
文档聚类
【重难点的教学方法】
网络爬虫是本课程最早接触到的子任务,学生利用现有开源工具有难度。拟采用的教学方法是基于构建的方法。教师先演示如何利用开源工具抓取静态网页,然后学生在此基础上通过查询资料,同样寻找抓取动态网页的工具并正确利用。
第三章 信息的组织和索引
【教学目的】
掌握倒排表以及其他相关索引结构。
【重点难点】
重点:倒排表的作用,倒排表的构建方法。
难点:倒排表的实现
【教学内容】
字符串匹配
前向索引
倒排索引
【重难点的教学方法】
此部分困难除了倒排索引本身的理解外,还有如果利用数据结构的知识实现倒排索引。由于数据结构课程和本课程同时开设,学生可能还不能有效利用数据结构的知识。因此,此部分就重点放在实现倒排索引的功能上,而忽略其效率。
第四章 信息检索模型
【教学目的】
掌握几种常用信息检索模型,如布尔模型、向量空间模型、概率模型、统计语言模型。使学生了解科学研究中技术路线的多样性。
【重点难点】
重点:向量空间模型、概率模型、统计语言模型的来源、基本方法、特点
难点:概率模型中的推导,统计语言模型的理解和使用
【教学内容】
模型定义及分类
基于集合论的IR模型(Set Theoretic models):布尔模型
基于代数论的IR模型(Algebraic models):向量空间模型,潜性语义索引模型
基于概率统计的IR模型(Probabilistic models):回归模型,二元独立概率模型
语言模型建模IR模型。
【重难点的教学方法】
弱化理论,强化实践。对于需要花更多时间精力的原理性内容,主要介绍其特点的基本的思路,不再详细分析具体的推导过程等。例如,概率模型中的BM25模型,在介绍了概率模型的基本思想后,直接拿出BM25模型,对其中的构成进行一些必要的解释,并不完整推荐其过程。
第五章 检索性能评价
【教学目的】
掌握信息检索效果的衡量方法,查全率和查准率、其他测度(含最新的Bpref/GMAP/NDCG),了解相关评测语料和评测会议。使学生了解科学研究中评测的重要性和基本原则,了解科学研究方法。
【重点难点】
重点:理解评测在科学研究中的地位;信息检索中常用的评测方法,如召回率、正确率等;理解评测结果的可比性;
难点:理解其它指标,如AP、MAP、ROC、Bpref,产生的原因、特点。
【教学内容】
信息检索的评价指标
基本指标:召回率、正确率
其他指标:F值、AP、MAP、ROC、Bpref
常用的评价数据集(中文和英文)及构建方法
TREC会议介绍
【重难点的教学方法】
对于其它指标,重点介绍其产生的原因和主要特点,不具体介绍其评价的方法。另外,需要解释清楚为什么需要这些个指标。通过例子说明召回率、正确率这种评价方法的不足,从而引出其它指标。
第六章 Web检索
【教学目的】
掌握链接分析算法、Web建模、元搜索及结果合并方法。结合检索模型,使学生了解为将企业信息发布在互联网上,在设计Web页面时应该考虑的因素;了解链接分析算法思想在其它问题中的推广。
【重点难点】
重点:Web检索过程;Web链接分析方法:PageRank和HITs算法;Spam页面手段。
难点:Web链接分析算法
【教学内容】
WEB IR的基本概念
搜索引擎的组成
信息采集,信息分析及索引
链接分析算法
Spam页面的作弊段
【重难点的教学方法】
对于Web链接分析算法PageRank,用打比喻的方法。将网页视为学生(或教授),将网页之间的链接视为出国留学时的推荐,通过几个简单的推荐关系由学生自己得出网页权重和其它网页权重的关系。对基于迭代的PageRank算法如何收敛的问题不易证明,可以设计一个程序演示收敛过程。
13 / 14
展开阅读全文