收藏 分销(赏)

文本分析途径的课程持续改进目标识别_董东.pdf

上传人:自信****多点 文档编号:463434 上传时间:2023-10-12 格式:PDF 页数:4 大小:1.43MB
下载 相关 举报
文本分析途径的课程持续改进目标识别_董东.pdf_第1页
第1页 / 共4页
文本分析途径的课程持续改进目标识别_董东.pdf_第2页
第2页 / 共4页
文本分析途径的课程持续改进目标识别_董东.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide文本分析途径的课程持续改进目标识别董东(河北师范大学 计算机与网络空间安全学院,河北 石家庄 050024)摘要:持续改进是工程教育认证的基本理念。以某计算机类本科课程软件工程项目实践为案例,基于学生在项目实践教学过程中在线提交的结项报告,通过综合运用关键词语境查询、特征排名、话题识别等文本分析技术识别学生在前驱课程Java面向对象程序设计胜任力目标上的达成状态,发现了持续改进目标。该案例研究为识别程序设计类课程持续改进目标提供了一种基于文本分析的方法、过程和实现工具。关键词:数

2、据驱动的教改;持续改进;文本分析DOI:10.11907/rjdk.221193开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:G420 文献标识码:A文章编号:1672-7800(2023)002-0132-04Course Continuous Improvement Goals Recognition Based on Text Analysis ApproachDONG Dong(College of Computer&Cyber Security,Hebei Normal University,Shijiazhuang 050024,China)Abstract:

3、Continuous improvement is the basic concept of engineering education certification.Taking the course software engineering project practice for undergraduate majored in computer science as a case study,based on the collection of the final reports submitted online by the students enrolled in the class

4、 of project practice,text analysis technologies,such as context query by keywords,feature ranking,topic recognition and so on,are utilized to identify the state of achievement of students with respect to the competency goal of the precursor course object-oriented programming in Java,in order to find

5、 the continuous improvement goals.This case study provides a method,process and implementation tool based on text analysis for identifying the continuous improvement goals of programming courses.Key Words:data driven teaching reform;continuous improvement;text analysis0 引言面向能力的学习效果评价越来越受到计算机教育领域的关注1

6、-4。完成任务所需的知识(Knowledge)、技能(Skills)和 素 质(Dispositions)合 称 为 胜 任 力(Competency)5。持续改进是工程教育的基本要求,利用教育数据实现教学持续改进引起越来越多教育工作者的关注6。对持续改进目标的识别一般通过任课教师的经验,或对课程目标的达成度分析实现7。对知识的学习效果易于实施客观教育测量,然而技能和素质更多是内隐的心理生理认知习得成果,难以通过面向知识的客观教育方法实施有效评价。是否可以通过对学生的技能和素质在实操过程中认知发展水平进行度量,进而实现对学习目标的难度评价呢?教育与认知心理学的相关研究给予了肯定回答8。卖油翁说

7、:“我亦无他,惟手熟尔。”9这意味着技能是靠实际操练才能形成,并不是依赖单纯的记忆和理解等认知行为,因此技能评价也应在实际操练中进行。例如,中国传统武术通过打擂台比拼功夫高低;对厨师水平的评价是通过专家品尝其制作的菜品来完成;在车里平放一满杯水,通过观察水是否溢出这一显式特征评价驾驶员行车的平稳性这一内隐特征。目前对能力的度量方法包括基于课程测验成绩和基于量表两大类。基于课程测验成绩的方法通过设计面向能力度量的试题卷,按照一定评分标准判卷后得到一个分数,然后通过这个分数评价学习者个体和总体对能力目标的达成度;基于量表的方法通过设计量表,通常使用评分加总式的李克特(Rensis Likert)五

8、级量表,然后让学习者回答问卷的项目,具体指出自己对该项收稿日期:2022-02-28基金项目:教育部教育考试院“十四五”规划支撑专项(NEEA2021064)作者简介:董东(1971-),男,硕士,河北师范大学计算机与网络空间安全学院副教授,研究方向为大数据分析、计算机教育。第 2 期董东:文本分析途径的课程持续改进目标识别陈述的认同程度,最后对量表进行分析。这两种方法共同的问题有:一是对试卷题目或李克特选项的设计难度较大;二是没有体现实际操练。随着大数据可得性的提高10-11,数据驱动教学引起了教育工作者的兴趣。例如,王树梅等12基于线上讨论、作业、实验、阶段测试等各教学环节的评价数据提出数

9、据驱动的形成性学习效果评价方法;王莉等13对大学计算机公共课的“平台+数据”线上混合式教学课前、课中、课后3个环节中得到的学生学习数据进行分析,阐述如何把握教学质量。然而,如何通过学习过程中的数据发现课程教学改进目标未见深入论述;樊敏生等14对如何有效地在教学中实现基于数据的、动态化的学习干预进行了理论与实践探索;梅鹏江等15通过学习通平台收集学习行为数据对学生进行聚类分析,以发现不同类型学生的学习行为特点,但仅限于对学习行为方面的教学改进目标识别。当前大多数据驱动教学改进方法基于过程性评价数据进行。为此,本文提出一种直接包含外显性因素过程数据的方法,通过本科课程软件工程项目实践中对工程项目学

10、生选课系统 的案例研究,总结了通过文本分析技术识别持续改进目标的方法,即完成一学期的程序设计类课程后,在后继学期要求学生使用该课程所学语言完成一个具体的工程项目,然后通过分析学生在项目完成过程中遇到的问题和认知变化发现其能力方面的欠缺,从而得出对该课程的改进目标。1 课程概况Java面向对象程序设计课程在应用型本科计算机类专业第2学年第4学期进行,学生已经学过C语言程序设计和数据结构知识。该课程每周线下讲授2课时,实验2课时。课堂教学以板书知识点+程序演示方式为主;实验教学以验证型实验为主,主要通过重做教师课堂演示的例子强化对知识点的理解。该课程的目标包括能够通过例子解释封装、继承和多态的概念

11、;能够实现给定的类模型;能够使用群集框架(Collections Framework)实现集合、线性表等数据结构;能够使用Java Swing设计图形用户界面;能够使用输入输出流读写文件;能够使用Java程序解决综合实际问题等。课程评价主要根据平时作业、实验报告和期末考试进行。学生选课系统 是一个基于Java平台的软件工程实践项目,要求学生提交的项目报告包含组员分工及组内评价、文件版本、数据库版本、图形用户界面(GUI)版本、Web版本等各个版本完成的工作(基本要求)、扩展功能实现方法、遇到的问题及解决方法、个人提高等。2 持续改进目标识别方法与过程通过对学生提交的项目结项报告进行文本分析来识

12、别课程的持续改进目标。从最具演绎性到最具归纳性可将文本分析分为计数和字典方法、有监督学习和无监督学习3类。演绎性使用了先验知识,事先知道寻找什么,并假设某些规则或前提;而归纳性是指不使用先验知识,以某种算法从文本中识别有意义的模式。计数和字典方法使用关键词、布尔表达式或正则表达式来计算文本中某些词元的出现频率。如果预先确定了类别,有监督的方法比较合适;无监督方法的优势在于发现未知的类别。选课学生结项报告中的“遇到的问题及解决方法”和“个人提高”部分为能力达成度评价提供了外显特征。通过关键字语境查询、特征排名、用户自定义关键字分类查询和话题检测等技术,综合识别存在的共性特征,最后结合人工解释和判

13、断,形成前驱课程目标达成度评价,得到前驱课程的持续改进目标。通过文本分析识别课程持续改进目标的技术路线如图1所示。3 工具与实现建立语料库以及后续分析均在R 4.1.2中完成,使用的R包包括文本数据量化分析包quanteda16、结构话题模型包 stm17以及 readtext包等。本文使用的 quanteda包提供的功能及其实现函数如表1所示。项目报告文本文本初始词元集合词元集合文档特征矩阵文本转换建立语料库,解析词元过滤停用词创建文档特征矩阵关键词分类查询特征排名话题检测描述性统计关键词语境查询自定义停用词 Fig.1Technology roadmap图1技术路线Table 1Funct

14、ions and implementation表1功能及实现函数功能建立语料库解析词元描述性统计过滤停用词关键字语境查询文档特征矩阵定义用户字典特征排名函数corpus()token()summary()stopwords()kwic()dfm()dictionary()topFeatures()1332023 年软 件 导 刊本案例中共有84名同学参与工程项目,自由结合,分为21组。首先将学生提交的Word文件形式的结项报告另存为文本文件,然后删除“完成工作”部分,仅保留“遇到的问题及解决方法”和“个人提高”部分。通过 R 包 readtext导入这21个文本文件,然后使用quanteda包

15、的corpus()函数构造成语料库。解析词元也称为词元化(tokenize),是指将文本切割为词元的过程,这一步骤对计算文本分析至关重要,最常见的词元为英文单词、运算符、标点符号、汉字、汉字词组、成语等。采用quanteda包的summary()函数得出的语料库中词元和句子描述性统计如表2所示。可以看出,21篇文档平均每篇有1 461个词元,最少的有36个词元,最多有4 618个词元,可以进一步进行基于词元的分析。下一步是过滤停用词。首先自定义停用词,例如姓名、学号、任务、分工、实验、报告、错误、代码、进行、GUI、Person、Teacher等,连同英文通用停用词、中文停用词全部过滤,如此便

16、得到用于进一步分析的词元集合。基于词元集合,以“了解、熟悉、加深、明白、清楚、懂得”这些认知动词作为关键词,通过 kwic()函数逐一查询其出现的上下文。返回 88个匹配项目,其中有“加深 final关键字理解”“加深 HashMap理解”“加深Iterator接口理解”“了解map键值用法”等,说明学生对final关键字、对群集Map、迭代器以及接口等的掌握可能有所欠缺。然后使用 dfm()函数创建文档特征矩阵,应用 topfeatures()函数从特征矩阵中提取前90个特征,结果如表3所示。文档特征矩阵将词元作为行,将词元的计数作为列,例如“用户”在语料库中的计数是97。计数相同的词元视为

17、排名相同。从表中可以看到,学生对接口、容器、路径、输入、布局、窗口、框、Map、导入(import)等的学习目标未达成。接下来进行关键词分类查询。首先定义6类关键字,分别为异常、群集、流、接口、和图形界面。异常类中的关键字有 NullPointerException、InputMismatchException、try、catch;群集类中的关键字有List、Map、HashMap、key、value、equals、hashcode、Iterator、next、hasNextInterface;流类中的关键字有FileReader、FileInputStream、Scanner;接口类中的关键

18、字有泛型、连接、接口;图形界面类中的关键字有JTableJScrollPane、AWT、Swing、JPanel。然 后 使 用 tokens_lookup()函数查询这些自定义关键字在每个文档中出现的频数,然后按照类别求均值,结果如表4所示。统计结果表明学生对“接口”“群集”的掌握较差,而对“异常”和“流”的掌握较好。最后识别话题。首先使用dfm_trim()剔除低频词元,然后使用函数 dfm()识别话题。检测出话题有“发现,显式,需要”“件,组,容器”“版本,功能,化”“连接,用户”“map,类型”“表,修改”“发现,合作”“需求,设计”“容器,成功”“接口,元素”等,进一步确认了群集对象

19、Map、接口、图形用户界面、合作能力是学生的弱项,可使用plot()函数可视化识别到的话题。将特征提取结果 接口,容器,路径,输入,布局,窗口,框,Map,导入、分组查询结构 接口,群集和话题模型检查结果Map,接口,图形用户界面,合作 综合,得到Java面向对象程序设计课程的改进目标为 Map,接口,图形用户界面,导入,合作。随机从84个选课学生中选择10名,针对改进目标设计调查问卷,结果显示90%同学选择完全符合,10%同学选择部分符合。将该结果用于次年的教学改进中,例如在Java面向对象程序设计课程教学中不再让学生使用Eclipse自动导入程序需要的包,而是改用jGrasp设计程序,使学

20、生手动导入包。次年度按照持续改进目标调整了前驱课程Java面向对象程序设计的教学方案。将继续选修后继课程软件工程项目实践的学生的结项报告按照前文描述的技术路线识别出改进目标为:多线程,接口,合作。与上一轮课程的改进目标 Map,接口,图形用户界面,导入,合作 相比,数量上减少了 40%;内容上,“Map”“导入”“图形用户界面”等60%的改进目标完成。4 应用问题分析在实际应用本文提出的方法和工具时,应注意以下问Table 3Top 90 features in the document feature matrix表3文档特征矩阵中排名前90的特征特征1用户中的组设计2程序化件版本功能页计数

21、350989794908888868382808078特征运行面表接口出现连接显示需要过程容器;3:计数76757574727272696565636157特征发现修改选择返回知识遇到学习创建包应用添加开发完成计数56565655545454545453535151特征没有登录路径项目成功语设置输入句写按钮计数51505049494848484745454444特征-操作部分名值提高需求调软件map夹web之间计数44434242424141414141413939特征无法布局控制台不同4器对应出相应*管理不能了解计数39393838373737373737373636特征端保存读收获基本jd

22、bc窗口框理解密码导入访问计数353535343434343433333332Table 2Descriptive statistics of tokens and sentences in the project reports表2项目报告中词元和句子的描述性统计词元 数量Min.1st Qu.MedianMean3rd Qu.Max.364641 1161 4611 7474 618句子 数量Min.1st Qu.MedianMean3rd Qu.Max.218334659151Table 4Result of aggregation by group表4分组统计结果异常3.7群集8.3流

23、2.3接口8.5图形用户界面5.6 134第 2 期董东:文本分析途径的课程持续改进目标识别题:quanteda包对中文分词的结果并没有注意到特定的软件工程和程序设计语言的上下文,这可能导致分词结果并不理想;应根据课程目标人工定义用户自定义字典以进行分组查询。由于课程目标不同,可能导致查询结果不具有参考价值或可解释性;虽然结构话题模型可能过多识别不被感兴趣的话题,但该模型能够在大数据无标签环境下实现自动话题识别以及呈现话题网络,考虑到课程改进目标的查全率应高于查准率,因此结构话题模型是适用的;案例实施期间,任课教师应通过课前告知、课上公开表扬、线上私下批评、评分策略等方式鼓励学生诚实、独立地报

24、告自己的感受。只要输入是完整客观的,输出就可解释、可使用;本案例研究中只有84名学生分为21组开发同一个项目。虽然参与者的选择具有随机性,也可以视为总体,但是结果是否能够具有更大的一般性还需要进一步评估。本案例研究确实可以找到有意义的学生课程目标达成弱项,但是如果能够在更大规模的学生参与下进行研究结果会更好。5 结语本文提出一种半自动化的针对程序设计类课程的持续改进目标识别方法。该方法直接使用学习过程数据而不是评价数据,通过对学生的后继项目结项报告进行文本分析,手工导入数据,自动识别学生在前驱程序设计类课程能力目标方面的短板,适用于大规模在线课程以及线上线下混合课程。识别能力目标达成的弱项可为

25、工程教育的持续改进活动提供方向,还可更好地掌握学情,有针对性地改进课程教学内容。未来研究将在以下几个方面展开:增大参与学生规模;针对不同年级连续研究;提升查准率。参考文献:1 QU L C,QU Y H,LYU J,et al.Research and practice of computer teaching effect evaluation of multi ability trainingJ.Computer Education,2020(7):79-82.屈立成,屈艺华,吕娇,等.多能力培养的计算机教学效果评价研究与实践 J.计算机教育,2020(7):79-82.2 YAN S,X

26、U B.Practice and effect evaluation of pair programming in basic programming course J.Computer Education,2020(4):17-20.闫晟,徐彬.程序设计基础课程中结对编程实践与效果评估 J.计算机教育,2020(4):17-20.3 YANG R T,ZHANG X L,YANG C Y,et al.Statistical analysis on the teaching effect of MOOC class in universitiesJ.Computer Education,202

27、0(1):96-99.杨荣泰,张晓丽,杨春尧,等.高校慕课教学效果的统计分析 J.计算机教育,2020(1):96-99.4 LU W,ZHONG C Q,YU H C,et al.Exploration on hybrid teaching and learning effect evaluation of computer principle courseJ.Computer Education,2019(8):137-141.卢伟,仲崇权,于海晨,等.计算机原理课程的混合式教学及学习效果评价探索 J.计算机教育,2019(8):137-141.5 CC2020 ForceTask,Ass

28、ociation for Computing Machinery.Computing curricula 2020:paradigms for global computing educationEB/OL.https:/www.acm.org/binaries/content/assets/education/curricula-recommendations/cc2020.pdf.6 DAN J F,WANG Z Q.Data-driven teaching reform:teaching practice and supporting mechanism of American teac

29、hers application of educational J.Data e-Education Research,2020,41(10):122-128.但金凤,王正青.数据驱动教学变革:美国教师运用教育数据的教学实践与支持机制 J.电化教育研究,2020,41(10):122-128.7 SPEARMAN-EDWARD C.The abilities of men:their nature and measurement M.Hangzhou:Zhejiang Education Press,1999.查尔斯 爱德华 斯皮尔曼.人的能力:它们的性质与度量 M.杭州:浙江教育出版社,19

30、99.8 PENG R F,ZHANG J,TIAN H M,et al.Research on the evaluation of curriculum goal achievement under the background of engineering education certificationtaking fire engineering as an example J.Science&Technology Vision,2022(2):41-43.彭荣富,张婧,田好敏,等.工程教育认证背景下课程目标达成度评测研究以消防工程学为例 J.科技视界,2022(2):41-43.9 O

31、UYANG X.Oil sellerEB/OL.https:/ EB/OL.https:/ ZOU Y,YIN Y X.From experience based to data driven:a new pattern of teachers teaching decision-making in the era of big data J.Theory and Practice of Education,2018,38(13):52-56.邹逸,殷玉新.从“基于经验”到“数据驱动”:大数据时代教师教学决策的新样态 J.教育理论与实践,2018,38(13):52-56.11 HUANG T

32、,ZHAO Y,GENG J,et al.Evaluation mechanism and method for data-driven precision learning J.Modern Distance Education Research,2021,33(1):3-12.黄涛,赵媛,耿晶,等.数据驱动的精准化学习评价机制与方法 J.现代远程教育研究,2021,33(1):3-12.12 WANG S M,DU M.Construction of a data-driven learning quality evaluation system of SPOC teaching mode

33、 J.Software Guide,2021,20(5):197-200.王树梅,杜明.数据驱动的SPOC教学模式下学习质量评价体系构建J.软件导刊,2021,20(5):197-200.13 WANG L,ZHAO X W.Data driven online hybrid teaching practice during the epidemic J.Computer Education,2020(8):42-45.王莉,赵希武.疫情期间数据驱动的线上混合式教学实践 J.计算机教育,2020(8):42-45.14 FAN M S,WU F T.Design of a data-drive

34、n dynamic learning intervention system J.e-Education Research,2020,41(11):87-93.樊敏生,武法提.数据驱动的动态学习干预系统设计 J.电化教育研究,2020,41(11):87-93.15 MEI P J,CHEN Y F,SONG Y,et al.Analysis of students online learning process indicators and learning effects during the epidemictaking the course“microcomputer principl

35、e and single chip microcomputer technology”as an example J.Software Guide,2021,20(5):192-196.梅鹏江,陈逸菲,宋 莹,等.疫情下学生在线学习过程指标与学习效果分析以微机原理及单片机技术课程为例 J.软件导刊,2021,20(5):192-196.16 BENOIT K,WATANABE K,WANG H Y,et al.Quanteda:an R package for the quantitative analysis of textual dataJ.Journal of Open Source Software,2018,3(30):774.17 ROBERTS M,STEWART B,TINGLEY D.STM:R package for structural topic modelsJ.Journal of Statistical Software,2019,91(2):1-40.(责任编辑:尹晨茹)135

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服