收藏 分销(赏)

基于LDA主题模型的MOOC课程评论文本分析_赖显静.pdf

上传人:自信****多点 文档编号:246033 上传时间:2023-05-07 格式:PDF 页数:4 大小:1.75MB
下载 相关 举报
基于LDA主题模型的MOOC课程评论文本分析_赖显静.pdf_第1页
第1页 / 共4页
基于LDA主题模型的MOOC课程评论文本分析_赖显静.pdf_第2页
第2页 / 共4页
基于LDA主题模型的MOOC课程评论文本分析_赖显静.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.443432023.022023.02收稿日期:2022-10-03基金项目:凯里学院联合培养研究生专项课题(LHYJS2101)基于 LDA 主题模型的 MOOC 课程评论文本分析赖显静(凯里学院 教育科学学院,贵州 凯里 556011)摘 要:为深入探究在线课程评论文本数据,有效识别出参与在线学习过程中学习者关注的话题,改进在线学习效果,该研究利用LDA主题模型对课程评论文本进行主题挖掘。实验结果表明,学习者在线课程评论话题主要聚焦在

2、授课方式、受众群体、学习平台、教学效果、课程质量五个方面。因此,可以根据这五个主题对在线学习平台进行建设,进而提高学生在线学习效果。关键词:LDA;MOOC;课程评论;文本分析中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2023)04-0043-04Analysis of MOOC Course Review Text Based on LDA Topic ModelLAI Xianjing(School of Education Science,Kaili University,Kaili 556011,China)Abstract:In order to de

3、eply explore the online course review text data,effectively identify the topics that learners pay attention to in the online learning process,and improve the online learning effect,this study uses the LDA topic model to mine the topic of the course review text.The experimental results show that lear

4、ners online course review topics mainly focus on five aspects:teaching methods,audience groups,learning platforms,teaching effects,and course quality.Therefore,the online learning platform can be built according to these five themes,so as to improve the online learning effect of students.Keywords:LD

5、A;MOOC;course review;text analysis0 引 言随着“互联网+教育”的不断发展,在线教育受到各方关注。2021 年 6 月,CNNIC 发布中国互联网发展状况统计报告中显示,我国在线教育用户为 3.25 亿,占整体网名的 32.1%1。越来越多学习者倾向于在线学习,各式各样的在线学习平台应运而生,不仅为学习者提供丰富的学习资源,而且还为学习者搭建了交互式学习平台。MOOC(Massive Open Online)作为“互联网+教育”的重要产物之一,具有规模大、开放性、个性化、免费等特征2,满足众多学习者个性化学习需求。并且成为众多研究者关注的焦点。学生在使用 MO

6、OC 平台学习的过程中,产生的各种行为数据真实反映学习者的各种学习状态3。随着大数据与教育的不断融合,学习分析技术能够对行为数据进行分析。该技术不仅能够基于统计方法对结构化数据4考试成绩、评论次数、观看时长与次数等进行分析以外,还可以对非结构化数据的分析文本数据,例如评论数据、评论回复、答疑、弹幕数据等5。随着 MOOC 平台的不断发展,学习者在使用过程中产生了大量的非结构化互动文本数据,主要在讨论区、实施答疑、实时弹幕等。评论文本中蕴含大量的信息,对其进行挖掘和解释能够发现学习者关注的重点,为提高在线学习体验感、满意度等提供参考和借鉴。因此,本研究以DOI:10.19850/ki.2096-

7、4706.2023.04.011MOOC 评论区文本数据作为研究对象,基于 LDA 主题模型挖掘非结构化互动文本,探讨学习者在使用 MOOC 平台学习过程中所关注的重点,以期为后续建设在 MOOC 平台提供参考和借鉴。1 相关研究评论文本作为在线学习过程中重要的互动载体,比较真实的反映了学习者的学习体验、兴趣话题、情感态度等特征6。通过对评论文本进行挖掘,能够提取学习者在在线学习过程中关注的隐藏焦点。目前已有部分研究者对 MOOC评论文本内容进行分析,例如:吴林静等提出面向大数据的慕课评论文本语义分析模型,该模型能够有效对评论文本进行分类7。胡荣等人采用极性计算方法对 MOOC 评论情感极性进

8、行探究,发现该方法能够有效判断评论文本的情感极性8。因此可以发现,研究者们已经开始对 MOOC 非结构化文本数据展开研究。LDA模型常用于社交媒体、图像处理、文本分类和聚类、社区方法等领域9。在文本分类和聚类方面,LDA 主题模型通过对文档进行主题概率分布计算最终找到主题集合10,以此来挖掘出文本主题。已有研究证明,基于 LDA 主题模型-词分布矩阵主题分布向量能够有效对短文本进行分类11。目前已有研究者使用LDA模型对MOOC评论文本进行分析,例如,刘三女牙等人利用 LDA 模型探究学习者关注话题及其演化趋势,为后续研究提供了新思路12。陈秀明等利用该方法实现主题挖掘及趋势演化,并结合共现网

9、络图探究主题分布13。王洪鑫等使用 LDA 模型和 CNN 算法,构造主题44442023.022023.02第 4 期现代信息科技挖掘与情感分析模型,该模型挖掘出学习者关注主题并对情感极性展开分析14。由此可以发现,研究者们已经将 LDA模型运用在教育领域,通过对不同类型评论文本数据进行分析,以此来发现学习者所关注的话题分布情况。以上研究从不同角度对 MOOC 评论数据进行分析,MOOC 平台课程资源丰富,学习者在学习过程中产生的非结构互动文本数据,其增长速度较快、数据繁杂多样,因此,对MOOC课程评论文本进行分析仍然具有重要意义。所以,本研究利用 LDA 主题模型研究学习者在使用 MOOC

10、 平台学习过程中留下的评论文本,挖掘学习者关注主题,以此来发现学习者关注的焦点,为后续更好建设在线教育平台提供参考和借鉴。2 研究设计2.1 研究框架本研究利用 LDA 主题模型挖掘出 MOOC 课程评论文本主题,发现学习者在在线学习过程中关注的重点。因此,本研究通过爬取MOOC课程评论文本数据、预处理、建模分析、可视化等阶段实现 MOOC 评论数据的主题分析,研究框架如图 1 所示。MOOC评论数据文本去重文本清洗分词去停用词情感分析LDA主题分析可视化主题分析数据爬取数据预处理分析建模预处理后数据图 1 MOOC 评论文本 LDA 主题分析流程2.2 研究方法2.2.1 数据预处理数据预处

11、理作为本文挖掘的基本步骤,其目的是为确保数据的有效性,删除评论数据中噪声数据和无用信息。本研究首先爬取中国大学 MOOC 学习者评论数据,其次对MOOC 评论文本数据进行预处理,使用停用词表,去除数据中的重复词、停用词、无用词汇等,得到标准化文本数据。最后,利用 jiaba 分词工具对数据进行分词处理。2.2.2 在线评论文本主题建模首先,建立朴素贝叶斯模型(Naive Bayesian),将MOOC评论文本分为正面和负面评论,并分别进行词频分析。因为朴素贝叶斯模型具有分类准确度高、建模简单等特点,因此,本研究选择朴素贝叶斯算法对 MOOC 评论进行情感分类。其次,使用 LDA 模型挖掘文本主

12、题数。LDA 模型包含文档、主题、词三个层次,该方法能够从文档中提炼出主题模型,并通过词汇的概率分布反映文档的潜在主题15。并且采用无监督方法进行训练,适合处理大规模文本语料16。为了找到最优的主题数,本研究使用困惑度(perplexity)和一致性(coherence)评价指标确定评论文本中的最优主题个数17。其中困惑度数值一般随着潜在主题数量的增加呈现递减的规律,困惑度数值越小,该主题模型的生成能力越强18。一致性指标则是使用每个主题出现频率最多的词语计算他们的语义相似性,一致性得分越高,模型解释性更好。最后,使用LDAvis库对LDA模型结果进行可视化呈现。3 实证分析3.1 数据描述本

13、研究使用八爪鱼工具爬取中国大学 MOOC 学习者评论数据,采集课程为“Python 语言程序设计”,该课程在新课排行榜位居第一,课程一共有 24 152 人参加,采集数据时间确定在 2019 年 1 月2022 年 1 月,一共获取数据 21 137 条。数据集字段包括用户 ID、评论内容、发表时间、开课次数等。本文对删除重复评论、过长或过短评论、无效评论数据后,最终获得 15 030 条有效数据。3.2 文本情感分类结果使用朴素贝叶斯文本分类对 MOOC 评论数据进行情感分析,其中正面评论 13 477 条,占比 89.67%;负面评论 1 553 条,占比为 10.33%。说明大部分学习者

14、在在线学习过程中的体验感较好,满足其基本学习需求。有少部分学习者的学习体验没有达到预期。其中正面评论高频词汇包括:老师、课程、学习、讲解、内容、Python、清晰、基础、不错、入门等,负面评论高频词汇包括:老师、课程、编程、学习、理解、Python、基础、没有、代码、视频等。3.3 LDA 模型主题聚类结果本研究运用 Python 中的 Gensim 包中的 Lad Model 函数对 MOOC 评论文本数据进行主题建模。首先,使用困惑度和一致性指标判断最优主题数量,其中困惑度分析结果如图2 所示。一致性分析结果如图 3 所示。根据图中可知,当主题数为 5 左右时,困惑度指标数值最低,一致性指

15、标数值最高。因此。本研究确定 MOOC 评论文本主题数为 5。16 00015 00014 00013 00012 00011 00010 000Num of Topics0 5 10 15 20 25 30perplexity图 2 MOOC 评论数据困惑度分析结果5 10 15 20 25 300.390.380.370.360.35Num of TopicsCoherence score图 3 MOOC 评论数据一致性分析结果根据困惑和一致性指标分析结果,结合已有研究将45452023.022023.02第 4 期MOOC 评论文本的主题分为五大类“教师授课风格”“课程受众群体”“教学效

16、果”“课程内容”“课程质量”。MOOC 课程评论文本数据 LDA 主题部分特征词如表 1 所示。接下来对LDA模型进行可视化处理,结果如图4所示。一个圆圈代表一个主题,当主题数为 5 时,各圆圈分散互不相交,说明主题数为 5 是能够很好涵盖评论文本的大部分内容,主题建模较好。其中,圆圈 1 对应主题一“教师授课方式”、圆圈 2 对应主题二“课程受众群体”、圆圈 3 对应主题三“学习效果”、圆圈 4 对应主题四“学习平台”、圆圈5 对应主题五“课程质量”。3.4 结果分析通过朴素贝叶斯文本分类结果显示,大部分学习者在使用 MOOC 平台时的体验感较好,根据正面评论的高频词汇发现,正面评论主要集中

17、在授课方式、教学效果、受众群体等方面。负面评论主要集中在课程内容,例如:编程较难、表 1 LDA 主题分布表排序主题一 授课方式主题二 受众群体主题三 课程内容主题四 学习效果主题五 课程质量特征概率特征概率特征概率特征概率特征概率1老师0.053课程0.787不错0.053知识0.053用心0.0532讲解0.073入门0.125细致0.694很大0.068有用0.0393清晰0.551学习0.171老师0.044实用0.122听懂0.1134易懂0.175老师0.042课程0.075老师0.667优秀0.0415通俗易懂0.300适合0.060系统0.408受益匪浅0.173专业0.059

18、6详细0.077Python0.078东西0.690学习0.077效果0.0787课程0.188收获0.049讲解0.111推荐0.049老师0.6038内容0.235感谢0.061视频0.062Python0.061质量0.5819喜欢0.070有趣0.217教学0.037兴趣0.194课程0.48010讲课0.053小白0.787平台0.053实践0.053适中0.053Selected Topic:1Previous TopicNext TopicClear TopicSlide to adjust relevance metric:(2)=1 PC2Marginal topic dis

19、tribution2%5%10%Intertopic Distance Map(via multidimensional scaling)Overall term frequencyEstimated term frequency within the selected topic1.saliency(term w)=frequency(w)*sum_t p(t|w)*log(p(t|w)/p(t)for topics t;see Chuang et.al(2012)2.relevance(term w|topic t)=*p(w|t)+(1-)*p(w|t)/p(w);see Sievert

20、&Shirley(2014)老师讲解清晰易懂通俗易懂详细课程内容喜欢讲课简单循序渐进理解授课超级生动方式嵩天课程内容友好透彻例子知识点案例实例加油浅显易懂python由浅入深学习050100150200250图 4 LDA 主题模型分布图代码不好理解、平台问题等方面。通过 LDA 主题模型分析结果显示。MOOC 评论文本包含 5 个主题及特征词。结果显示,MOOC 评论文本中的主题包括授课方式、受众群体、学习平台、教学效果、课程质量五个主题。赖显静:基于 LDA 主题模型的 MOOC 课程评论文本分析46462023.022023.02第 4 期现代信息科技主题一:“授课方式”包括老师、讲解、

21、清晰、通俗易懂等特征词,占全部评论的 26.5%,说明学习者在该课程学习过程中比较喜欢老师的授课风格,并且认为老师讲课通俗易懂。并且主题一占比较高,这说明老师授课风格是学习者关注的关键内容,同时也是学习者持续学习的影响因素之一。由于编程课程对于部分学生来说难度较大、枯燥,老师能够生动有趣的讲解课程是学生能够持续学习的重要原因。主题二:“受众群体”包括课程、入门、小白、基础等特征词,占全部评论的 24.8%,说明大部分学习者都认为该门课程比较适合作为 Python入门基础,受众群体比较适合新手或小白。这一主题的发现有利于 MOOC 平台为后续学习者推荐有关学习资源提供参考和借鉴。主题三:“课程内

22、容”主要包括课程、系统、视频、平台等特征词,占全部评论的 19%,说明大部分学习者认为该平台比较适合学习,主要关注点聚焦在视频资源、作业布置、课程设置等方面。通过特征词发现,全面且系统的学习资源、方便操作的学习平台、合理的作业布置等能够吸引学习者学习。主题四:“学习效果”主要包括知识、使用、推荐、兴趣等特征词,占全部评论的 16.7%,说明部分学习者比较关注学习效果的问题,主要聚焦在理论和实践、学习兴趣、体验感等方面。通过特征词发现,该门学生学习该门课程的学习效果较好,不仅将理论与实践相结合,而且学生乐于推荐该门课程给其他学习者主题五:“课程质量”主要包括质量、课程、资源、例题等特征词,占全部

23、评论的 13.9%,说明部分学习者关注到了课程质量的问题,主要聚焦在课程建设、学习资源等方面。课程质量会影响学生的学习效果,根据特征词显示可以看出大部分学习者认为该门课的课程质量较高,资源丰富、老师讲课专业产生了较好的学习效果。4 总结与建议实验结果表明,使用 LDA 主题模型可以挖掘出学习者在在线学习过程中所关注的主要内容。研究结果发现在线学习过程中关注内容聚焦在授课方式、课程内容、学习效果、课程质量等方面,并且通过学习课程发现了该门课程适合学习的群体。在这些关注点上,学习者比较侧重于教师授课方式、课程内容等方面的表达。基于此,本文提出一下建议。筛选优质课程资源。根据研究结果发现,学习者在学

24、习过程中比较注重教师授课方式、课程内容、课程质量等方面。MOOC 平台课程完成率较低,所以平台在上线课程资源的过程中,应该对这几个维度展开评价。还可以让学习者学习前、学习中、学习后对课程资源进行简单评价,以此来完善课程资源建设。推荐个性化学习资源。根据研究结果发现,部分学习者会在评论区对课程受众群体展开讨论。根据该主题占比情况,可以向新加入平台的学习者推荐不同类型的课程学习资源,以此来满足学习者这的个性化学习需要。这一主题发现对于在线学习平台管理人员完善学习平台推荐功能具有重要意义。5 结 论本研究基于 MOOC 评论区文本数据,构建一种面向MOOC 课程评论文本的主体挖掘模型,并以“Pyth

25、on 语言程序设计”课程为例,挖掘出学习者对于在线学习的态度和主题结构分布,结果表明该方法能够有效挖掘出评论数据中的隐藏信息,准确找到学习者在 MOOC 平台上学习关注的重点,研究结果有助于在线教育平台建设、在线课程设计、教学策略优化、课程资源推送等方面提供参考。但是,本研究在MOOC评论文本情感分析方面还有进一步探索的空间,只对情感倾向进行粗粒度分析。在后续研究中,应该尝试构建在线课程评论情感词典,以此来提高在线课程评论情感倾向的准确性,或者可以尝试采用其他发放对文本进行聚类分析,提高研究结果的准确性。参考文献:1 中国互联网信息中心.中国互联网络发展状况统计报告 EB/OL.(2021-9

26、-15).http:/ 王永固,张庆.MOOC:特征与学习机制 J.教育研究,2014,35(9):112-120+133.3 蒋卓轩,张岩,李晓明.基于 MOOC 数据的学习行为分析与预测 J.计算机研究与发展,2015,52(3):614-628.4 孔啸,刘乃嘉,张梦豪,等.COVID-19 疫情前后高校在线教学数据分析 J.清华大学学报:自然科学版,2021,61(2):104-116.5 景永霞,苟和平,刘强,等.基于主题模型的在线课程评论情感分析研究 J.兰州文理学院学报:自然科学版,2020,34(1):54-56+61.6 刘三女牙,彭晛,刘智,等.面向 MOOC 课程评论的学

27、习者话题挖掘研究 J.电化教育研究,2017,38(10):30-36.7 吴林静,刘清堂,毛刚,等.大数据视角下的慕课评论语义分析模型及应用研究 J.电化教育研究,2017,38(11):43-48.8 胡荣,崔荣一,赵亚慧.基于情感词典的课程评论情感分析 J.延边大学学报:自然科学版,2019,45(2):153-160.9 韩亚楠,刘建伟,罗雄麟.概率主题模型综述 J.计算机学报,2021,44(6):1095-1139.10 肖明,商慧语,肖毅,等.基于 LDA 模型的统计学热门主题挖掘及知识图谱分析 J.华中师范大学学报:自然科学版,2022,56(5):781-788+802.11

28、 杨萌萌,黄浩,程露红,等.基于 LDA 主题模型的短文本分类 J.计算机工程与设计,2016,37(12):3371-3377.12 刘三女牙,彭晛,刘智,等.面向 MOOC 课程评论的学习者话题挖掘研究 J.电化教育研究,2017,38(10):30-36.13 陈秀明,张晨晨,王峰,等.基于 LDA 主题模型的MOOC评论回复特征维度分析 J.阜阳师范大学学报:自然科学版,2021,38(4):73-81.14 王洪鑫,闫志明,陈效玉,等.面向 MOOC 课程评论的主题挖掘与情感分析研究 J.开放学习研究,2021,26(4):16-23.15 BLEI D M,NG AY,JORDAN

29、 M I.Latent dirichlet allocation J.Journal of Machine Learning Research,2003(3):993-1022.16 阮光册.基于 LDA 的网络评论主题发现研究 J.情报杂志,2014,33(3):161-164.17 HANNIGAN T R,HANNS R F J,VAKILI K,et al.Topic Modeling in Management Research:Rendering New Theory from Textual Data J.Academy of Management Annals,2019,13(2):586-632.18 DU Y J,YI Y T,LI X Y,et al.Extracting and tracking hot topics of micro-blogs based on improved latent dirichlet allocation J.Eng Appl Artif Intell,2020,87(C):103279.作者简介:赖显静(1998),女,汉族,贵州瓮安人,硕士在读,研究方向:在线教育。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服