北京邮电大学开题报告.doc

资源描述

1、北京邮电大学硕士研究生学位论文开题报告学号： 2014111557姓名：陈子豪学院：网络技术研究院专业(领域)：计算机科学与技术研究方向：导师姓名：张晓冬攻读学位：硕士2015年12月9日论文题目在线教育中个性化推荐课程算法的研究与实现选题来源其他论文类型基础研究开题日期2015-12-09开题地点北京邮电大学一、立题依据（包括研究目的、意义、国内外研究现状和发展趋势，需结合科学研究发展趋势来论述科学意义；或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。附主要参考文献目录）（不少于800字）现代的在线教育的兴起与发展，使得现有的教学资源数字化、网

2、络化、信息资源的膨胀化。现代远程教育个性化推荐系统正是解决这一问题的途径之一。目前，已有很多高校搭建了自己的在线教育系统，并且应用于学生的教学活动中，随着在线教育系统的实践和应用以及系统中存在的日益增多的教学资源，学生往往需要花费很多的时间和精力在在线教育系统中查找自己所需的资源，甚至花费很多时间和精力以后却发现找不到自己所需的教学资源，这就使得学生的学习效率严重下降甚至使得学生放弃该在线教育系统。通过对当前在线教育系统的分析，我们发现，现有的关于学习资源的推送有以下几方面：关键字查询、新资源推荐、TOP-N推荐。近年来也出现了在个性化推荐算法的基础上进行学习资源推荐的系统，然而其重点却放在了

3、如何解决“信息过载”和“情感缺失”的问题。以上的方法在一定程度上解决了学习资源推荐的问题，但是却没有在根本上解决个性化学习资源推荐问题，所以怎样在在线教育系统中进行具有个性化的学习资源推荐成为了本文中需要研究的一个主要问题。目前对于在线教育的定义，其实不仅仅是线上职业教育这一小部分，而是包括了青少年、早教、远程文凭培训、应试教育、就业培训等等O2O的项目也位列其中。在线教育是当前最热门的方向之一，仅仅是今年下半年，在线教育行业里的热点就层出不穷：注重K12应试的猿题库宣布获得C轮融资，新东方和腾讯联手开发了问答和题库机制的优答，做学生家教辅导的爱辅导宣布获得天使投资，然后是奥巴马猛推IT职业教

4、育，还有就是这一周发生的，号称“双十二到了买买买”的YY连续收购：3亿收购郑仁强团队，1.2亿收购环球网校。YY旗下的100教育也仅仅成立于今年年初的2月份，如此频繁的并购和融资，侧面证明了在线教育在国内外市场的重要性。国内的在线教育市场，基本分为三大领域：1. 以K12为主要受众的青少年教育；2. 以在校大学生留学外语考试和公务员考试为主的应试教育；3. 以IT、金融、会计等等职业技能为主的职业教育。在大数据时代，三大在线教育领域中并不缺乏学习资源，海量数据库支撑起来的教育平台，总是能够满足各个学生的需求。但是在课程查询方面，各个平台使用的推荐算法各不相同，导致学生不一定能够在短时间内找到自

5、己最喜欢的课程进行学习，变相地降低了学生的学习效率。本课题意在对个性化课程推荐算法进行改进，不仅仅使用组合推荐算法，而且引入了专业老师的人工推荐，将人与机器推荐的课进行权重排序之后，推荐给学生进行选择学习。通过这种算法推荐的课程，不仅能够覆盖近期热门课程、相似学生最喜欢课程，还能改通过老师的人工推荐，将一些冷门知识从海量课程中挖掘出来，开发学生新的兴趣点，从而丰富学生的知识面，实现学生的全面发展。主要参考文献：1 王荣.教育网站资源个性化推荐系统的研究 D.北方工业大学，2012.2 宋瑞平.混合推荐算法的研究 D.兰州大学，2014.3 鲁丹.个性化教育资源推荐系统的设计与实现 D.华东师范

6、大学，2014.4 刘荣橙.中小学教育资源个性化推荐系统研究与实现 D.东北师范大学，2014.5 王娜.现代远程教育系统个性化推荐算法研究 D.电子科技大学，2011.6 王凯.支持个性化学习资源推荐的在线辅助学习系统的研究与设计 D.陕西师范大学，2014.7 SchaferJ B,Konstan J A, Riedl J. E-merce remendation applicationsM/Applications of Data Mining to Electronic merce. Springer US, 2001: 115-153.8 AdomaviciusG Tuzhilin

7、A. Toward the next generation of remender systems: A survey of the state-of-the-art and possible extensions J, Knowledge and Data Engineering, IEEE Transactions on, 2005,17(6): 734-749. 9 DasA S,Datar M, Garg A,et al. Google news personalization: scalable online collaborative filteringC/Proceedings

8、of the 16th international conference on World Wide Web. ACM, 2007:271-280.10 SaidA, Tikk D,Hotho A. The challenge of remender systems challengesC/Proceedings of the sixth ACM conference on Remender systems. ACM, 2012: 9-10.二、研究内容和目标（说明课题的具体研究内容，研究目标和效果，以及拟解决的关键科学问题。此部分为重点阐述内容）（不少于2500字）课题的研究内容主要分为三部

9、分，第一部分是现有算法研究，第二部分是找出现有算法在在线教育平台上可改进的方向，第三部分是改进算法实现与测试。基于内容的推荐算法：充分利用信息的内容（如文本文档）和用户对某一信息兴趣的相似性来过滤是该推荐系统的特点。它被信息检索领域（Information Retrieve）所提出来，所以又被称之为基于信息过滤，因而使用了许多信息检索领域的技术。把每个用户都看作成用户的感兴趣的模型，根据模型构成数据结构来描述其兴趣度是基于内容推荐的基本思想；提取每一个项目的内容的基本特征，组合成特征向量；当需要向某一个用户进行推荐时，系统通过相似度推荐文档，即系统就会把所有项目的特征矩阵同该用户的兴趣模型进行

10、相关转化比较，从而得到二者之间的相似度。基于内容的推荐算法的主要优点有如下几项：1.可解释性好。推荐给用户的项目的内容特征和用户以前喜欢的项目的内容特征相似，用户容易接受。2.新的项目可以得到推荐。一个新的项目加入到推荐算法中，马上就可以利用它的内容特征去和用户偏好做匹配，其被推荐的可能性和老项目是相同的。它的侧重点不是用户，忽略用户行为的，只考虑了信息之间相似性的关系，从而没有考虑到用户，由于没有考虑用户，所以在解决协同式过滤中出现的稀疏性、特殊用户问题和第一评价的问题等缺陷。如：1.过度特征化问题。信息特征是它所依赖的，这种技术实现的模型下信息与信息之间关联性并不能很好的表达。比如一些试试

11、从表面特征上看来他们并不具有相关的信息，但是他们有非常大的关联，这样就有可能得不到有效的推荐。2.较差的自我学习能力。建立的商品特征向量是基于内容的推荐依赖项，这种空间向量并不能快速自动地反映数据环境的变化，某种程度上会影响其推荐质量，例如大量新增商品或顾客购买行为的不断积累变化的情况。3.遇到的内容具有相同主题时，系统很难区分两者的质量高与低。例如：在对专业技术领域文章资源的推荐中，多篇文章具有相同科目的水平，但是两者相差很大，但是往往内容相近似。基于协同过滤推荐算法：它的基本出发点是：1.按自己的兴趣分类；2.对于一个未知信息的评价将和其相似兴趣用户的评价相似。3.当前用户的兴趣信息包含了

12、对不同的信息评价；这三点构成了基础。通过比较对其感兴趣文件的相似程度，预测并计算出用户与用户之间的相似成度，产生了与当前用户行为兴趣相接近的用户结果集，将用户结果集作为最感兴趣的信息项的结果推荐给当前用户，所以也被称之为面向用户（user-based）的技术。其实用户所看到的信息项只是一个唯一性的标示符而己，与项的内容无关。相对于基于内容的推荐算法，协同过滤主要的优点主要有一下几点：1.适用于复杂的非结构化数据，例如：电影、音乐等数据。不像基于内容的推荐需要利用信息提取手段进行内容的提取，协同过滤利用的数据易于提取和表示，例如：用户评分、购买记录、浏览记录等。2.不需要专业领域知识。计算机专业

13、技术人员不需要去了解需要做推荐的领域的专业知识就可以构建出推荐算法，使得推荐算法的研究变的更为容易。协同过滤可以推荐和用户以往喜欢的项目完全不同的事物，即可以发现用户可能喜欢但自己尚未发现的事物。3.智能性。不需要用户自己寻找适合自己兴趣点的内容，例如去填写调查问卷等。系统自动根据用户历史评分信息等显式信息或浏览信息等隐式信息为用户做出相应推荐。它可以推荐从表面的特征上看上去不同但是事实上有很大相关性的信息项，因为它不依赖于项目特征。而且更重要的是它可以通过不断积累顾客购买行为数据，从而更新和增加自己的知识。但是它也有着不同程度的缺陷，如：1.稀疏性的问题：大量的用户兴趣的评估数据是基于协同过

14、滤技术的推荐系统所依赖的，整个项目用户评估的矩阵非常稀疏，原因是由于每个用户都只对很少的项目做出评价而导致的。2.最初评价问题。一个新的信息项首次加入的时候，没有被用户作过喜好的评价，在早前的协同过滤是基于邻居用户资料推荐给目标用户，因此单纯的协同过滤无法对其进行预测和推荐。3.灰羊问题。一些用户由于他们的偏好比较特殊的缘故，所以导致找不到与其相类似的用户，因此在系统中就会很难获得正确的预测，无法为他们提供感兴趣的结果集。基于上下文推荐：上下文推荐算法的产生是随着移动智能终端的发展而出现的，从中国互联网络发展状况统计报告中显示，中国的手机网民数规模达到5亿，且年增长率为19.1%，这是一个庞大

15、的数字，该具体的数字说明了越来越多的用户使用移动手机上网。移动用户数据的增加，也会对电脑上网用户有影响，会相对的减少用电脑上网的用户数据。这个时候对传统的推荐方法就提出了挑战，此时用户所处的上下文环境也对推荐结果产生影响，上下文成为影响用户对推荐结果满意度的一个重要因素。用户所处的位置不同，需要推荐结果的时间不同，兴趣就可能不同。因此，在推荐算法中融入上下文信息，可以为用户推荐更符合其兴趣的项目。社交网络推荐：目前，随着在线社交服务的流行，大量的互联网用户通过社交联系构成了一个庞大的社会网络。通常情况下，当我们面临很多种选择方式时，我们更愿意相信自己的亲人朋友给我们提出的建议，比如我们在选择看

16、什么电影的时候，我们会询问亲人朋友等哪部电影好看，这些建议我们一般都会采纳。所以，在推荐系统中充分利用用户的社交信息对提高推荐质量有很大的帮助。由于社交网络平台的飞速发展，将一个用户与其它用户的关系关联了起来，这些信息在推荐系统中是非常有利的。因此，已经有很多研究者投入到了社交网络推荐系统的研究中。但是该算法的缺点是只是充分使用了人与人之间的关系，而没有用户自己一些兴趣偏好信息。混合推荐：由于协同过滤中基于内存的和基于模型的推荐算法各自都存在一定的缺陷，为了解决这些问题，研究学者们提出了混合推荐算法。混合推荐算法并不是一种新的推荐方法，而是将上述的各种推荐方法利用一定的手段组合到一起，充分发挥

17、各个推荐方法的优势，避免各自的缺点，在一定程度上提高了协同过滤推荐算法的推荐质量。混合推荐算法目前已成为新的发展趋势。经过算法调研，本文拟定使用混合推荐算法，在在线教育平台进行推荐。其中混合推荐算法包括基于内容的推荐算法、基于邻居的协同过滤推荐算法，并加入教师指定课程推荐，实现最终的个性化推荐。混合算法中，预计实现人工推荐和智能推荐的结合。通过实验与调研，确定合适的权重配比以及排序，将教师指定学生学习的课程与机器算法得出的推荐课程进行混合，最终给出满意度最高的推荐课程排序列表，以供学生选择学习。这样既解决了基于内容的推荐算法中，与用户联系不紧密、没考虑用户主观兴趣偏好，无法产生个性化推荐的问题

18、，又弥补了基于邻居的协同过滤推荐算法中，稀疏性问题与最初评价问题。在这两点基础上又进一步引入针对性更强的人工推荐，从老师的角度出发，考虑每个学生的特点进行针对性课程推荐，帮助学生们挖掘出新的兴趣点。由于机器推荐算法得出的结果，都是基于学生的特征进行匹配推荐的，没有考虑到开发学生们新的兴趣点，因此老师进行的课程推荐将填补这一空白，实现学生在在线教育平台的全方面知识获取，让学生们获得最大程度上的提高。三、研究方案设计及可行性分析（包括：研究方法，技术路线，理论分析、计算、实验方法和步骤及其可行性等）（不少于800字）本课题将利用实验室现有合作伙伴的资源，以技术创新为出发点，充分借鉴国内外已有研究成

19、果和技术，优势互补，开展相关研究，保证项目成果的先进性。本课题将争取在算法上做出创新性工作。本课题的主要工作包括问题调研、关键技术攻关和实验方案等部分。问题调研海量学习资料是研究教育资源个性化推荐算法的主要驱动性因素。例如，在一些MOOC门户网站上进行学习，其庞大的课程库会使用户在选择时产生许多困惑，并且有很大概率，在用户点击进入课程开始学习之后，短时间内并没有吸引用户的知识，导致用户学习效率低下。因此，针对在线教育平台的特点对现有个性化推荐算法的改进，以及引入教师进行人工推荐后，人工推荐与机器推荐课程的权重配比、推荐列表顺序是问题调研的主要内容。而作者与现在已经上线的部分在线教育平台有合作关

20、系，在数据分析以及算法实现上有可以实验的平台，这为本课题的问题调研以及可行性奠定了基础。关键技术攻关对于在线教育平台的特点，由于现有的个性化推荐算法在本质上都是为用户推荐产品，吸引用户进行点击，在这方面在线教育平台和电商平台有很大的相似性（引导用户进行点击操作），可以借鉴发展成熟的大型电商平台中使用的个性化推荐算法。相比较人工推荐与机器推荐课程的权重配比、推荐列表顺序，推荐算法相对非常成熟。在过去的几十年中，许多杰出的科学家在推荐算法领域做出了重大贡献，通过改进基于内容的推荐算法、协同过滤算法等，并提出了基于上下文推荐、社交网络推荐、混合推荐算法。然而，大部分的推荐算法一般只是通过现有的数据进

21、行推算，最终得到推荐列表，其推荐的内容对于新用户并不能够达到与老用户同级别的准确率，从而容易导致用户流失。而引入了教师推荐机制之后，通过人工交流后进行定制课程推荐，有效地增强了新用户推荐算法的准确率，并且可以进一步增强用户粘性，增加其成为长期用户的可能性。此外，人工推荐与机器推荐的权重配比存在着丰富的关联关系，在一定时间范围内的用户点击推荐行为，会动态调整推荐权重比，这形成了课题研究的基本思路。实验方案利用已上线的在线教育平台，调查现行使用的推荐算法与推荐满意度，采集不同年龄段的推荐资源点击率，推荐资源列表点击位置。采集数据的同时，进行个性化推荐算法的开发，并联系线上教师资源，获得教师对不同年

22、龄段特定用户的推荐课程列表。最终将推荐算法部署至小范围用户中，统计其推荐满意度，通过数据分析进一步改进推荐算法，达到推荐满意度提高的效果。可行性分析1.对现有推荐算法有一定的了解，并且找到了混合推荐算法中可以改进的部分；2.通过已经上线的在线教育平台进行小范围测试，可以保证实验结果和数据的真实性，并通过对比修改算法具体参数，进一步优化本算法；3.线上教师资源丰富，可以与教师们交流，了解教师角度的课程推荐概念，并尝试将其应用到机器推荐算法中。通过这种方式，调整人工推荐与机器推荐的权重配比，进而增加个性化推荐算法的满意度。四、本研究课题可能的创新之处（不少于500字）针对在线教育平台对推荐算法的改

23、进从学生的角度出发，通过调研，对比每种推荐算法所得出的结果，哪种被学生接纳的更多。针对与在线教育平台用户是学生的特点，我们需要考虑到学生自主学习能力不足的特点，当用户需要查找某些课程而去搜索时，说明用户在此方面遇到了问题需要补习。而在没有特定需求的条件下，学生自主搜索课程的目标性下降，此时是推荐算法发挥作用的最佳时间。同时考虑用户之前查找过的课程方向、用户可能感性去的课程方向，与教师针对学生特点进行推荐的课程方向，经过推荐算法的计算得出推荐课程列表将更加符合用户需求，提高用户的推荐满意度与点击率。引入人工和机器权重比推荐引入针对性更强的人工推荐，从老师的角度出发，考虑每个学生的特点进行针对性课

24、程推荐，帮助学生们挖掘出新的兴趣点。由于机器推荐算法得出的结果，都是基于学生的特征进行匹配推荐的，没有考虑到开发学生们新的兴趣点，因此老师进行的课程推荐将填补这一空白，实现学生在在线教育平台的全方面知识获取，让学生们获得最大程度上的提高。在人工推荐课程列表获取之后，将其与机器推荐列表进行混合重组，通过实验测定最佳权重与顺序配比，实现人工推荐与机器推荐的结合。五、研究基础与工作条件（1.与本项目相关的研究工作积累基础 2.包括已具备的实验条件，尚缺少的实验条件和拟解决途径）（不少于500字）与本课题相关的研究工作积累基础作者研究该课题前一直在负责在线教育项目，主要负责安卓客户端和后台的开发，对在

25、线教育平台有着较为深入的了解。同时作者通过与已经上线的在线教育平台的技术人员进行交流探讨，对于推荐算法在平台上的开发与应用有较大帮助。已具备的实验条件作者学习过算法导论，对算法实现与算法基本原理有一定的了解，并在阅读过一定量的相关论文之后，对推荐算法有了进一步的认识。目前正在大量阅读推荐算法文献，增加自己对推荐算法的认知，以此为之后的算法研究打下坚实的基础，并能够从中再挖掘出推荐算法在在线教育平台中可针对性修改的部分。尚缺少的实验条件和拟解决途径课题的目标是在线教育中个性化推荐课程算法的研究与实现，针对现在的研究进度，暂时缺少的实验条件有以下三点：1.如何调查并量化现有推荐算法的满意度2.如何

26、验证改进的个性化推荐算法相较于原有推荐算法做出了优化3.如何将算法部署在服务器中，让线上部分用户进行测试并获取测试结果对于以上三点，拟解决途径为：1.衡量点击和打开率，这说明用户是否对内容感兴趣；通过推荐系统替代用户主动搜索或者主动浏览的次数，可以通过横向与使用其他产品对比较，比如使用推荐系统提供内容的用户搜索次数和点击浏览目录次数明显下降。推荐系统的满意度口碑，刨除因为页面位置效果等因素，衡量推荐系统一个重要的就是满意度的口碑问题，这个可以通过单个用户是否有重复使用的行为，曲线是否是一直上升的来衡量，如果一直有新用户访问，但一直没有老用户重复使用，就还是满意度有问题。2.统计点击率与推荐代替

27、搜索次数这两个参数的变化，来衡量是否做出了优化，若数值增加则表明优化有效果，反之则效果不如之前的推荐算法，还应该调整参数设置对现行算法做出进一步改动。3.与上线的在线教育平台技术人员联系，共同研究部署方式，并在其协助下将优化后的推荐算法部署在服务器上，对各个年龄段抽取部分活跃用户进行测试，并将两个数据分别存储至服务器的新表单中，以便于日后进行数据分析使用。学位论文工作计划时间研究内容预期效果评定小组成员姓名职称单位名称职务成员成员成员组长导师意见：导师（签名）：日期：年月日开题报告小组意见：组长（签名）：日期：年月日学院意见（签章）：负责人：日期：年月日1.Donnet，

28、 B. and T. Friedman， Internet topology discovery： a survey. munications Surveys & Tutorials， IEEE， 2007. 9(4)： p. 56-69.2.Faloutsos， M.， P. Faloutsos， and C. Faloutsos. On power-law relationships of the internet topology. in ACM SIGM puter munication review. 1999. ACM.3.Chang， H.， S. Jamin， and W. W

29、illinger. Inferring AS-level Internet topology from router-level path traces. in IT 2001： International Symposium on the Convergence of IT and munications. 2001. International Society for Optics and Photonics.4.Mahadevan， P.， et al.， The Internet AS-level topology： three data sources and one definit

30、ive metric. ACM SIGM puter munication Review， 2006. 36(1)： p. 17-26.5.Edwards， B.， et al.， Internet topology over time. arXiv preprint arXiv：1202.3993， 2012.6.周漩， et al.，利用重要度评价矩阵确定复杂网络关键节点. 物理学报， 2012(05)： p. 1-7.7.张琨， et al.，基于PageRank的有向加权复杂网络节点重要性评估方法. 南京航空航天大学学报， 2013(03)： p. 429-434.8.郑黎黎， e

31、t al.，城市道路交通网络关键节点辨识方法研究. 武汉理工大学学报(交通科学与工程版)， 2015(04)： p. 675-679.9.Motter， A.E. and Y.-C. Lai， Cascade-based attacks on plex networks. Physical Review E， 2002. 66(6)： p. 065102.10.Moreno， Y.， R. Pastor-Satorras， and A. Vespignani， Critical load and congestion instabilities in scale-free networks.

32、 EPL (Europhysics Letters)， 2003. 62(2)： p. 292.11.Crucitti， P.， V. Latora， and M. Marchiori， Model for cascading failures in plex networks. Physical Review E， 2004. 69(4)： p. 045104.12.段东立， et al.，基于可调负载重分配的复杂网络级联失效模型. 系统工程理论实践， 2013. 33(1)： p. 203-208.13.CADIA. About CADIA. cited 2015 12.4; Avail

33、able from： http：/.caida.org/home/about/index.xml.14.CAIDA. Archipelago (Ark) Measurement Infrastructure. cited 2015 12.4; Available from： http：/.caida.org/projects/ark/.15.Madhyastha， H.V.， et al. iPlane： An information plane for distributed services. in Proceedings of the 7th symposium on Operating systems design and implementation. 2006. USENIX Association.

展开阅读全文