基于DBSCAN和随机森林的单词记忆检索难度预测研究.pdf

资源描述

1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引言单词记忆是语言学习的重要环节之一，而如何快速、有效地记忆单词一直是学习者和教育者所关注的问题。文献 1表明“Without grammar very little can be conveyed;Without vocabulary nothing can be conveyed”。目前对于单词记忆的研究已经比较充分，文献23研究了如何减少单词记忆的枯燥性；文献4运用艾宾浩斯遗忘曲线提出了最优化单词记忆方法；文献5提出了象形图解单词记忆的

2、方案。现有大部分研究追求如何高效地记忆单词，没有对人在记忆中的单词检索过程进行探讨。目前已有一些基于心理学的记忆检索研究。DOI：10.16652/j.issn.1004373x.2023.21.020引用格式：傅小倞，罗正军，杨艺豪，等.基于DBSCAN和随机森林的单词记忆检索难度预测研究J.现代电子技术，2023，46（21）：105110.基于DBSCAN和随机森林的单词记忆检索难度预测研究傅小倞，罗正军，杨艺豪，郑祝倩（南京航空航天大学经济与管理学院，江苏南京 210000）摘要：单词记忆检索是指人在记忆中搜索到一个单词的过程，是单词学习的重要方面。目前关于单词记忆检索的研究非常

3、有限。文中提出一种基于DBSCAN聚类和随机森林的单词记忆检索难度预测模型，通过仿真程序和机器学习算法，从单词自身特征出发预测单词记忆检索的难度。首先开发一个单词记忆检索仿真程序，根据仿真程序结果以及单词的字母组成结构、词性、使用频率构造特征向量，训练一个随机森林回归模型集用于预测单词记忆检索难度七维向量表达。另外，使用DBSCAN聚类算法获取单词难度标签，在此基础上训练一个随机森林分类预测模型用于预测单词的难度分类。实验结果表明：回归模型集平均拟合优度R2值达到了0.906；分类预测模型准确率达到了0.985；模型整体具有较好的鲁棒性。关键词：记忆检索；DBSCAN聚类；特征向量；回归模型；

4、分类预测；拟合优度；鲁棒性中图分类号：TN911.134 文献标识码：A 文章编号：1004373X（2023）21010506Research on word memory retrieval difficulty prediction based on DBSCAN and random forestFU Xiaoliang,LUO Zhengjun,YANG Yihao,ZHENG Zhuqian(School of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 21

5、0000,China)Abstract：Word memory retrieval refers to the process of finding a word in memory,which is an important aspect of word learning.Currently,the research on word memory retrieval is very limited.In view of this,a word memory retrieval difficulty prediction model based on DBSCAN clustering and

6、 random forest is proposed.Simulation programs and machine learning algorithms are used to predict the word memory retrieval difficulty based on the characteristics of words.A word memory retrieval simulation program is developed first,and then,according to the results of the simulation program,the

7、letter composition structure,the part of speech and the usage frequency of words,feature vectors are constructed,and a random forest regression model set is trained to predict the seven dimensional vector expression of the word memory retrieval difficulty.In addition,DBSCAN clustering algorithm is u

8、sed to obtain the word difficulty label,and on this basis,a random forest classification prediction model is trained to predict the difficulty classification of words.The experimental results show that the mean goodness of fit R value of regression model sets reaches 0.906,the accuracy rate of the c

9、lassification prediction model reaches 0.985,and the proposed model has good robustness as a whole.Keywords：memory retrieval;DBSCAN clustering;feature vector;regression model;classification prediction;goodness of fit;robustness收稿日期：20230330 修回日期：20230425基金项目：基于循数治理的可再生能源电力消纳机制及政策研究（ND2021002）105105现

10、代电子技术2023年第46卷文献6通过实验得到了工作记忆搜索和视觉搜索具有相同搜索机制的结论；文献7认为少量相似项目不会影响工作记忆序列的检索。但是目前尚未有针对单词的记忆检索研究，也没有研究从单词自身的角度去挖掘单词的哪些属性会决定其记忆检索难度。随机森林和聚类算法已被广泛应用于工程管理预测（如连铸坯纵裂预测8、陷落柱识别9、大型建筑能耗负荷预测10），且取得了较好的效果。本文提出一种将DBSCAN 聚类和随机森林相结合的单词记忆检索难度预测模型。该模型基于单词的固有特征，在单词记忆检索仿真程序的支持下，考虑了单词的字母组成结构、使用频率、词性等因素，预测出任意五个字母单词的记忆检索难度七维

11、向量表达，以及相应的难度分类。本文所提出的预测模型能够为进一步研究单词记忆检索机制提供有价值的实证支持。1 单词记忆检索难度预测模型1.1 单词特征单词记忆检索难度的特性与人的心理学机理密切相关，但是其共性取决于单词的固有特征。本文以字母组成结构、使用频率、词性作为决定单词记忆检索难度的固有特征。1.1.1 字母组成结构单词的字母组成结构是检索难度的决定性因素之一。部分研究强调字母存在类 SNARC 效应，人在对英文单词尾字母的加工过程中存在显著的类 SNARC 效应1112。因此本文认为不同字母组成结构的单词在人们记忆中被检索到的难易程度有差别。1.1.2 使用频率单词本身在日常生活中的使用

12、频率也会决定它的记忆检索难度。曾有实验证实单词使用频率越低，SNARC效应越显著13。因此本文认为具有不同使用频率的单词在人们的记忆中被检索到的难易程度也是不同的。1.1.3 词性词性与字母结构和使用频率具有一定的相关性。比如在英语单词中，介词的数量大约只有 150个，大部分介词使用频率较高并且字母结构比较固定，因此本文将词性作为字母组成结构和使用频率的补充。1.2 数据本文从美国COMAP公司的赛题中获取了一个数据文件，该文件是对纽约时报单词猜谜游戏的用户提交结果，能为模型的建立提供数据支撑。1.2.1 猜词游戏Wordle是纽约时报的一款猜单词游戏，每天提供一个秘密单词供广大玩

13、家猜测。玩家尝试通过在 6次或更少的尝试中猜出一个五个字母的单词来解决谜题。玩家每猜测一次都会获得相应的字母提示，随后根据之前的所有提示再重新猜测单词，直至猜对。具体游戏规则见Wordle官网13。1.2.2 数据说明美国COMAP公司统计了玩家的游玩结果并公开发布出一个Excel数据文件14，一共有359条记录。本文获取了该数据文件，将其记作数据E1。该数据文件中的玩家尝试次数百分比能够反映出一个单词被检索到的难度，即尝试次数越多的单词越难在记忆中被检索到。为了得到单词使用频率的信息，本文从一个单词库网站15上获取了一个由 74 995个单词组成的词典集合G，并从另一个网站16上获取了3 5

14、65个日常生活中高频出现的词汇，作为词典集合B。令S为所有单词的集合，B为高频词汇集合，C=S-B为低频词汇集合。1.2.3 数据预处理文件中的大部分单词都能在集合G中找到，以集合G中的词性标记为基础，为少数不能在集合G中找到的单词做人工标记。随后，将属于集合B的单词标记为高频词，属于集合C的单词标记为非高频词。将上述处理过后的数据文件记为数据E2。1.3 模型建立1.3.1 单词检索仿真程序人类玩家在猜词时会根据已经得到的提示信息在大脑中搜索可能正确的单词。本文开发了一个单词检索仿真程序来模拟人猜词的逻辑特征。首先建立一个全部由五个字母单词构成的词典空间。将集合G与数据E2中的单词取并集，只

15、选择所有字母数量为5的单词作为词典空间F。算法1展示了计算机模拟人猜词时的基本步骤。算法1：单词检索仿真程序算法Input:正确单词w0；词典空间F；集合B；最大重选次数YOutput:猜测次数n1:n=0；2:while F的单词数量1 do3:w=随机选取一个F中的单词；4:for y=1Y do5:if w C:6:w=随机抽取一个F中的单词；7:else:8:break;9:初始化三个列表:Ct,ICt,ILn;10:for k=04 do106第21期11:if w k=w0 k:12:将k添加到Ct列表;13:else if w k w0 k and w k w0:14:将k添加到

16、ICt列表;15:else if w k w0:16:将k添加到ILn列表;17:for all w1 A do18:for all i,j,kCt,ILn,ICt do19:if w i=w1i|w j w1|w j =w1 j w k w1:20:从A中删除w1;21:break;22:n+=1;23:return n本文的仿真程序抽取到生僻单词的概率更小，这与人类玩家更容易想到常用词这一事实是一致的。1.3.2 特征工程算法 1每执行一次，就相当于人类玩家进行一次猜词游戏。使用仿真程序完成相互独立的成千上万轮猜测，并统计计算机猜测结果的分布。为了预测第k次猜出某个单词的人类玩家比例，需要

17、把机器第k次猜出该单词的概率作为它的一个特征。在计算这个概率时，以频率fk代替概率。用列数为 130的行向量W表达单词字母组成结构的特征。其公式如下：W=L1,L2,L3,L4,L5（1）式中：Li是列数为 26 的行向量，表示单词的第i个字母的位置，存在位为1，非存在位均置为0。按照主流的英语语法，英语单词有 9种词性，它们分别是：名词、动词、形容词、副词、代词、冠词、介词、连词、感叹词。用列数为 9的行向量C表达单词的词性特征。同样将存在位置为1，非存在位均置为0。用列数为2的行向量U表达单词是否常用的特征。最终单词在第k次被猜测出的回归模型训练特征被构造为Fk，其公式如下：Fk=fk,W

18、,C,U（2）式中：fk为单词检索仿真程序第k次猜中单词的频率；W是单词字母组成结构特征；C是单词的词性特征；U是单词使用频率特征。1.3.3 决策树回归模型本文首先提出一个决策树回归模型。对于样本集D，设a是属性空间A1中的一个连续属性，假定a在D上出现了n个不同的取值，将这些取值从小到大进行排序，记为：a1,a2,an，其中：ai是D在属性空间A1中第i小的一个值。设划分点t可将D分为子集D(+)t和D(-)t，其中D(-)t包含在属性a上取值不大于t的样本，D(+)t包含在属性a上取值大于t的样本。对于相邻属性取值ai与ai+1，t在区间 ai,ai+1中取任意值所产生的划分结果相同。因

19、此，对连续属性a，只需要考察包含n-1个元素的候选划分点集合Tn：Tn=|ai+ai+121 i n-1（3）假设R为当前节点样本集，n为样本数量，那么每一种划分都对应一个损失值。使用划分出的两个类别的均方差之和作为决策树的损失值Loss，其计算如下：Loss=xi R1()yi-y 12+xi R2()yi-y 22（4）式中：xi是R中的一个样本；R1、R2为划分后两个子集；y 1、y 2分别是R1和R2的标签值均值。1.3.4 随机森林回归模型随机森林采取自助采样法17。对于样本集D进行自主采样法操作N次，最终训练出N个决策树模型。对于回归任务，使用平均法结合所有基学习器的预测结果，得到

20、随机森林回归模型的预测结果为：H(x)=1Ni=1Nhi(x)（5）式中hi(x)为第i个决策树回归模型的预测结果。1.3.5 单词记忆检索难度七维向量预测模型将所有单词的Fk作为特征值，第k次被猜中的比例作为标签值，训练 7个随机森林回归模型，并在预测输出上设置等比缩放运算，使得七维向量所有值的和为100。这样就构成了本文的单词检索难度七维向量预测模型。1.3.6 密度聚类本文使用 DBSCAN密度聚类算法将数据E2中出现的单词进行聚类，以更直观地反映单词检索难度。本文的聚类计算使用欧氏距离度量，计算公式为：disted(xi,xj)=xi-xj2=u=1n|xiu-xju2（6）式中：xi

21、是第i个样本，xj是第j个样本，它们以n个维度来度量；xiu是样本i在u维度上的值；xju是样本j在u维度上的值。DBSCAN算法基于一组邻域参数（,Minpts）来刻画样本分布的紧密程度。对xj D，其邻域包含样本集D中与xj的距离不大于的样本，即：N(xj)=xi|D dist(xi,xj)（7）若xj的邻域至少包含 MinPts个样本，则xj是一个核心对象；除此之外，若xj在某个核心对象的邻域中，则xj是一个边界对象，其他的点均为噪声点。傅小倞，等：基于DBSCAN和随机森林的单词记忆检索难度预测研究107现代电子技术2023年第46卷如果xi在xj的邻域内，而xj是一个核心对象，则xj

22、到xi是密度可达的。如果存在一个对象链p1,p2,pn，p1=xj，pn=xi，对于pi D（1 i n），pi+1是从pi关于和Minpts直接密度可达的，则xi是从xj关于和 Minpts密度可达的。DBSCAN算法可描述为：如果点xj的邻域包含的点多于 Minpts 个，则创建一个以p为核心对象的新簇，然后迭代地聚集从这些核心对象密度可达的对象。当没有新的点可以添加到任何簇时，算法结束。DaviesBouldin（DBI）指数是一种评估聚类算法的度量，其计算公式如下：DBI=1Ni=1Nmaxj i()Si+Sjwi-wj2（8）第i个簇的簇内平均距离Si的计算公式如下：Si=1Tij=

23、1Ti|xij-Aiq1 q（9）式中：wi是第i个簇的中心；xij表示第i类中第j个数据点；Ai表示第i类的中心；Ti表示第i类中数据点的个数；q为度量参数。1.3.7 随机森林分类预测模型本文所使用的随机森林分类预测模型生成原理与随机森林回归模型有如下的微小差别：1）将决策树的损失函数Loss定义为信息增益的相反数，其计算公式如下：Loss=H(D)-H()|D A（10）当前节点以A条件划分之后的样本集信息熵H()|D A计算公式如下：H()|D A=-i=1n|Di|Dk=1K|Dik|Dilog2|Dik|Di（11）节点样本集的信息熵H(D)计算公式

24、如下：H(D)=-i=1nP(Di)log2()P(Di)（12）式中：Di为D中所有i类样本组成的样本集；Dik表示当前节点下采用某种划分方式之后得到的样本集中的第k个子样本集。2）本文的随机森林分类预测模型采用投票法，取所有决策树输出结果的众数作为随机森林分类预测模型的最终输出结果。1.3.8 单词记忆检索难度分类预测模型将数据E2中所有单词的七维向量输入到基于欧氏距离的DBSCAN算法进行聚类，得到每个单词的分类标签，根据所得标签训练一个随机森林分类预测模型。单词记忆检索难度预测流程图如图1所示。图1 单词记忆检索难度预测流程图2 实验结果分析2.1 聚类结果将数据E2中的七维向量特征输

25、入到 DBSCAN算法中，综合考虑簇的个数和 DBI指标进行网格搜索，最终E2中的所有单词被聚类为6个簇，结果如表1所示。表1 单词记忆检索难度聚类结果ClusterQuantities1 try2 tries3 tries4 tries5 tries6 tries7 or moreAverage02320.325.0022.7734.8624.5410.621.774.171161.3114.4433.2530.1915.195.130.813.63240.252.0010.2524.2531.7525.256.54.88350.001.409.0026.0036.4023.003.804.

26、80450.204.0025.2041.0022.606.200.804.04550.4010.0037.0035.0013.203.200.003.57将单词记忆检索难度七维向量十分相近的簇进行两两合并，得到单词记忆检索难度的三个类别：简单、中等、困难。三种难度单词的七维向量平均值分布图如图 2所示。图2 不同难度单词的七维向量平均值分布图2.2 预测单词的记忆检索难度对单词“EERIE”进行预测得到的结果是“中等”，平108第21期均猜测次数为 4.47 次。图 3 是单词“EERIE”的七维向量特征分布及其与不同难度单词的七维向量特征的对比。图3 “EERIE”猜测次数分布以及与不同难度

27、的对比从图 3 可以看出，“ERRIE”属于偏难的单词，但是与困难单词仍具有较大的差别。2.3 模型评估2.3.1 随机森林回归模型评估采用平均绝对误差（MAE）和拟合优度（R2）对模型预测结果进行评价。MAE 用于评价回归模型的误差，R2用于评价回归模型的可解释性18。计算公式如下：MAE=1mi=1m|yi-yi（13）R2=i=1m(yi-y)2i=1m(yi-y)2（14）式中：yi是第i个样本的预测值；yi为第i个样本的真实值；y 是所有样本的平均值。设置决策树个数为 1 000，特征选择比例为 40%。训练随机森林回归模型集并计算其 MAE和R2值，结果如表2所示，回归模型具有很强

28、的拟合优度。表2 随机森林回归模型集误差评估指标TriesMAER210.180.8820.890.9131.810.9241.260.9151.440.9161.410.917+0.660.902.3.2 随机森林分类预测模型评估准确率（Accuracy）、精确率（Precision）、召回率Recall、F1值是分类预测问题的常用评估指标，计算公式分别如下：Accuracy=TP+TNTP+FN+TN+FP（15）Precision=TPTP+FP（16）Recall=TPTP+FN（17）F1=2TP2TP+FN+FP=2 Precision RecallPrecision+

29、Recall（18）式中：TP、FP、FN、TN的具体含义如表3所示。表3 预测类别和真实类别的混淆矩阵预测类别正类负类真实类别正类TPFP负类FNTN留出 25%的样本作为测试集，并重新训练分类模型。通过对测试集的样本进行预测得到随机森林分类预测模型的准确率为 0.985，其他各项泛化能力评估指标如表4所示。表4 随机森林分类预测模型泛化能力评估指标类别简单中等困难宏平均加权平均Precision1.000.981.000.990.99Recall0.831.001.000.940.99F10.910.991.000.970.98样本数761573732.3.3 鲁棒性评估鲁棒性是指模型对数

30、据变化的容忍程度。如果数据的微小偏差对模型的输出只有很小的影响，那么模型是稳健的。分别在 142维稀疏矩阵中删除第一个字母和最后一个字母的所有结构信息之后，训练“4 tries”的随机森林回归模型集，并将新模型和原始模型作对比得到图4的结果。图4 随机森林回归模型减少部分输入后的测试集R2图4表明删除26个特征之后，随机森林回归模型的R2变化不大。这说明回归模型具有较强的鲁棒性。分别删除七维向量中的其中一维，将剩下的六维向傅小倞，等：基于DBSCAN和随机森林的单词记忆检索难度预测研究109现代电子技术2023年第46卷量输入随机森林算法训练分类预测模型，结果如表5所示，结果表明随机森林分类预

31、测模型具有较强的鲁棒性。表5 随机森林分类预测模型减少部分输入后的测试集评估删除1234567Accuracy0.990.960.970.990.970.990.990.99Precision0.990.960.970.990.970.990.990.97Recall0.990.960.970.990.970.990.990.99F10.980.950.970.980.970.980.980.983 结语本文提出一种基于 DBSCAN 和随机森林的单词记忆检索难度预测模型。该模型不仅能预测单词记忆检索难度的七维向量表达，还能预测出更加直观的难度分类：“简单”“中等”“困难”。实验结果表明：模

32、型中的回归模型集具有很好的拟合优度；分类预测子模型具有很强的泛化能力；模型整体具有很好的鲁棒性。另外，本文提出的单词记忆检索难度预测模型只能针对字母个数为5的单词，对于其他字母数量单词的难度预测还有待研究。注：本文通讯作者为罗正军。参考文献1 WILKINS D A.Linguistics in language teaching M.London:Edward Arnold,1978:111.2 王新立.高职高专学生英语单词记忆策略研究J.佳木斯职业学院学报，2022，38（5）：7375.3 熊颖.提高小学英语单词记忆效率的策略C/2022智慧校园文化建设与教育发展高峰论坛论文集.北京：华

33、教创新（北京）文化传媒有限公司，2022：13451347.4 杨玥.人工智能辅助下单词记忆方法的研究J.现代职业教育，2022（19）：114115.5 罗婷婷.象形图解单词记忆法在初中英语词汇教学中的运用及效果J.校园英语，2021（44）：151152.6 高鑫.工作记忆搜索和视觉搜索是否具有相同的搜索机制D.杭州：浙江大学，2021.7 何忠平.空间注意与工作记忆系列顺序检索之间的关系以及项目相似性对这种关系的影响D.兰州：西北师范大学，2016.8 张赫，段海洋，王旭东，等.基于随机森林和聚类的连铸坯纵裂纹预报方法J.连铸，2022（6）：2128.9 郝帅，王怀秀，刘最亮.基于 K

34、means SMOTE和随机森林算法的陷落柱识别模型J.煤矿安全，2023，54（2）：174180.10 叶从周，肖朋林，秦俊，等.基于聚类和随机森林回归的超大型建筑能耗负荷预测模型研究J.绿色建筑，2022，14（5）：4851.11 马丽华.言语工作记忆负荷对不同任务下的字母类 SNARC效应的影响D.苏州：苏州大学，2019.12 高迪.英文单词尾字母的类SNARC效应及距离效应研究D.苏州：苏州大学，2018.13 New York Times.Wordle online(How to play)EB/OL.20230322.https:/wordleonline.co/.14 CO

35、MAP,Inc.The mathematical contest in modeling EB/OL.20230820.https:/.15 上海问礼信息科技有限公司.英语词典EB/OL.20230324.https:/ Lydsy.英语词汇表EB/OL.20170413.https:/ 赵远，杨琳.基于Bootstrap理论的小子样寿命评估模型J.北京航空航天大学学报，2022，48（1）：106112.18 李文斌，冯文凯，胡云鹏，等.基于随机森林回归分析的岩体结构面粗糙度研究J.水文地质工程地质，2023，50（1）：8793.作者简介：傅小倞（2002），男，四川内江人，研究方向为信息管理与信息系统。罗正军（1972），男，湖北天门人，硕士，副教授，研究方向为管理信息系统、数据分析、系统仿真。110

展开阅读全文