收藏 分销(赏)

基于机器学习的社会科学成果评价方法研究.pdf

上传人:自信****多点 文档编号:639493 上传时间:2024-01-22 格式:PDF 页数:6 大小:3.77MB
下载 相关 举报
基于机器学习的社会科学成果评价方法研究.pdf_第1页
第1页 / 共6页
基于机器学习的社会科学成果评价方法研究.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、24TUSHUGUANXUEKAN NO.8,2023管理纵横图书馆学刊2023年第8 期基于机器学习的社会科学成果评价方法研究李君!高雨1于海涛!李菲(1.哈尔滨工业大学图书馆,黑龙江哈尔滨1 5 0 0 8 0;2.哈尔滨华德学院流程IT中心,黑龙江哈尔滨1 5 0 0 2 5)摘要 对人文社会科学成果进行评价是科研管理工作中一项至关重要的内容,而采用常规专家评审、同行评议、引用次数或影响因子等单项指标的评价方法对人文科学成果进行评价往往存在一定片面性。采用随机森林、主成分分析以及十折交叉又验证等不同的机器学习方法识别论文的类别,可以综合社会科学成果属性进行分析,利用机器学习的方法来鉴定社

2、会科学成果会更加全面、客观。实验结果表明,将定性和定量相结合,通过机器学习的方法可实现社会科学成果自动分类评价,提高社会科学成果评价效率和精度。关键词 社会科学成果评价机器学习随机森林主成分分析十折交叉验证分类号 G203;TP3911引言社会科学的繁荣与发展,是人类社会发展进步的标志,社会科学的研究水平和研究成果,是衡量一个国家综合国力的重要构成部分,对社会系统的发展具有重要的作用。而如何建立科学的哲学社会科学科研评价和激励机制也是科研评价的重要议题。一方面,它对科研经费的拨转、科研计划的设计和制定以及对科研人才的培养有着强有力的导向作用;另一方面,它反映了一个国家、一个单位的科学研究水平和

3、科技实力。近年来,对社会科学成果进行评价是学术界普遍关注的问题,目前采用的评价方法一般可分为定性和定量评价这两种。定性评价一般是通过同行评议来实现,其能够充分发挥同行专家的经验和智慧,减少因信息不全而带来的局限,因此在国内外应用十分广泛,但也会因评议专家与被评议内容之间的专业差异影响评价的公正性和客观性。随着科学计量学的兴起,越来越多的科研机构将文献计量学、数学和经济学等学科的评价方法引入对科学成果的评价,并将其作为科研管理和决策的重要依据。定量评价引人社会科学领域后,在科研管理中逐渐得到广泛应用,但随着一些高等院校和研究机构将定量评价方法进行简单化以及过度应用,该方法也遭到了不少的非议和责难

4、。目前社会科学的评价方法一般将定性分析和定量分析相结合,通过同行评议来实现定性评价,同时也兼顾数量的因素,实现质量和数量的统一。2社会科学成果评价研究现状与问题定性评价和定量评价是社会科学评价的两种基本方法。定性评价一般是通过同行评议来实现,在学术水平相当或略有差距的情况下,评议专家容易向自己熟悉的研究人员的项目、成果等倾斜。定量评价按照数量的分析方法,从客观量化的角度来评价社会科学成果,在科研管理中得到了广泛应用。许梅华运用文献计量学、层次结构分析法、专家评审等方法,对人文社会科学成果评价指标体系进行了深入研究 2 。杨帅等运用引用次数、相对影响力和社会网络指标来评价社会科学成果。王一华采用

5、基于IF(JCR)I F(Sc o p u s)、H指数、SJR值、SNIP值的研究方法对期刊评价进行研究 3。刘春丽则提出了一种基于软同行评议F1000因子的方法来对科学论文影响力进行评价(4。结果表明,任何一种评价方法都有适用范围,一旦脱离这个适用范围,就很容易出现问题 5-1。目前许多社会科学成果评价出现问题,主要是没有选择合适的评价标准和评价方*本文系黑龙江省高校图工委课题“面向新型智库的高校图书馆服务建设研究”(项目编号:2 0 2 1-0 9 3-B)的研究成果之一。25管理纵横图书馆学刊2023年第8 期TUSHUGUANXUEKANNO.8,2023法造成的。姜春林等人认为构建

6、科学、公正、合理的人文社会科学评价指标体系,一直是研究机构和学术界的共同愿望门。机器学习作为多领域交又学科,研究的核心是使用算法来解析数据,从已知数据中学习,然后在未知数据上做出决定或者进行预测。它是一种数据分析的技术,使得计算机能够模拟人的学习方式,直接从数据中学习信息。在分类这个问题上,研究者常用的方法包括向量空间模型1 8)、朴素贝叶斯方法(NBM)(9)、支持向量机(SVM)算法1 0-1 2)决策树算法 1 3 1、K-近邻算法(KNN)4-15、随机森林算法 1 6-1 7 。文献中大多是用机器学习来对文本的主题分类,在对社会科学成果评价分类的应用上少之又少。基于此,笔者研究如何利

7、用机器学习的方法来鉴定社会科学成果,研究的科学成果包括著作、调研报告、期刊论文、会议论文、快报等各种类型文献,根据论文题名、摘要、关键词、期刊、作者、基金等多种信息,构造合适的属性向量空间,再利用机器学习方法来识别不同奖项的论文类别,以提高社会科学成果评价效率,同时与专家评审、同行评议等相结合,提高社会科学成果评价的客观性和全面性。3机器学习社会科学论文分类评价研究方法3.1社会科学成果属性空间的构建科学文献是一个多维信息载体,其包含的信息包括科学成果的发表年代、期刊、作者、所属国家、领域等,根据信息的所属范围可将其转化为文献具有的特征X:X=xo,Xi,x.)(1)其中x(i=0,1,2,,

8、n)表示社会科学成果的特征描述,分别表示文献的引文、发表年代、发表期刊、作者、机构等。用n个特征来表示成果,特征值的大小表示影响力的大小。3.2社会科学成果分类研究方法流程基于机器学习的研究方法通常可分成如下几个步骤:(1)数据采集:根据任务确定需要的数据类型,搜集相应数据并根据质量进行筛选。一般来说,为获得高质量的数据,需要对数据进行处理,包括缺失值处理、重复值处理、数据类型的转换等。这里将采集的黑龙江省社会科学成果评选结果作为数据源,并结合数据库检索手段补充需要的属性字段。(2)特征选择:根据特定的问题领域的性质,选择出有明显区分意义的特征。在选择或设计特征的过程中,挖掘了若干容易提取、对

9、不相关变形保持不变、对噪声不敏感以及对区分不同类别的模式很有效的特征集,来构建所需的特征向量空间。(3)算法选择:根据之前选择的特征集来寻找可用于分类的函数。通过在函数空间中找到一组能够对已知数据进行拟合的函数,来对未知数据的类别进行分类。(4)训练:利用训练数据的特性建立一个简单的分类器。用已有的数据,通过最优化方法确定函数的参数,参数确定后的函数就是训练得到的结果。搜集黑龙江省社会科学成果获奖文献数据,将其划分为训练集和测试集,分别用于对模型的测试和评估。(5)评价:评价对于系统性能的改进起着重要的作用。评价一个分类器的好坏,不仅要考虑分类器的精度,保证其在已知数据上具有很高的准确率,同时

10、也要考虑分类器的泛化能力,保证其具有识别和分类未知数据的能力。3.3分类算法分别使用朴素贝叶斯(NBM)、随机森林(RFA)、支持向量机(SVM)以及K-近邻算法(KNN)来对社会科学研究成果进行分类,识别不同社会科学研究成果所属的级别,包括一等奖、二等奖和三等奖等,以供社科成果鉴定评价参考。(1)朴素贝叶斯(NBM):朴素贝叶斯法是基于贝叶斯定理以及特征之间条件独立性的分类方法,在监督学习领域有着很重要的应用。对于给定的训练数据,首先基于特征条件独立假设学习输入和输出之间的联合概率分布,在此基础上,对于给定的输人,利用贝叶斯定理求出其所属的类别。研究结果表明朴素贝叶斯分类器是具有不错的学习效

11、率,同时也拥有不错的分类效果的分类器之一1 1 8 。(2)随机森林(RFA):随机森林是一个通过建立多个决策树,并将所有决策树融合起来,得到一个更加准确和稳定的结果的分类器。对于一个样本,经过决策树处理会得到一个分类结果,选择所有决策树的分类结果中最多的类别作为该样本的最终分类。研究证明随机森林预测准确率高并且具有很好的噪声容忍度,不容易产生过度拟合。(3)支持向量机(SVM):支持向量机是一个用于二分类的机器学习模型,在统计分类以及回归分析领域应用广泛。它是一种监督学习,通过在包含正负样本的训练数据集找到几何间隔最大的超平面,来对样本中的正例和反例26TUSHUGUANXUEKAN NO.

12、8,2023管理纵横图书馆学刊2023年第8 期进行分割,不仅保证对训练数据进行分类具有很高的确信度,同时对未知的新实例有很好的分类预测能力。SVM是一种适用于小样本学习的方法,不涉及概率相关知识,简化了通常的分类和回归等问题,同时也具有优秀的泛化能力。(4)K-近邻(KNN):K NN分类算法是一种典型的非参数、有效、较流行的惰性学习方法,可用于回归和分类任务。该方法检查目标数据点周围的K个数据点的标签,选择出现次数最多的标签对该目标数据进行归类。由于其不对数据进行任何假设,因此可以用于各种各样的问题(5)主成分分析(PCA):主成分分析作为一种数学方法和有力的数据分析工具,几乎在所有学科中

13、都有它的身影。其通过一个正交化线性变化,把原始的n维特征映射到k维上,这种k维全新的正交特征也被称为主成分。通过将高维数据映射到低维空间,实现对数据的降维。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。4实测检验与结果分析4.1数据采集与处理选取陕西省社会科学界联合会(网址:http:/w w 1 届和第1 2 届社会科学期刊论文评选的所有获奖论文和第1 0 届评选中获一等奖的论文作为原始数据,如表1 所示,表1论文成果原始数据列表奖励届次奖项说明样本统计论文一等奖6第1 0 届论文二等奖28论文三等奖81论文一等奖5第

14、1 1 届论文二等奖30论文三等奖79论文一等奖5第1 2 届论文二等奖30论文三等奖80除去数据库检索不到的论文,共获得1 98 个样本,其中一等奖1 5 个,二等奖5 3个,三等奖1 30 个。经文献调研挖掘确定论文质量评价指标,选取其中便于量化且具有较好表征性的数据,确定论文的特征向量空间,并基于社会科学论文特征列表采集每一篇论文的相应数据,构建原始数据表,如表2 所列。其中,发表年限从2 0 1 6 年开始至今,其他数据为实际采集数据。表2社会科学论文特征列表标记特征描述数据来源说明被引次数网站检索X2发表年限网站检索X3下载次数网站检索X4影响因子网站检索参考文献数目网站检索英文参考

15、文献数网站检索作者个数网站检索作者单位1高校;2 研究院所;3其他合作单位1跨机构合作;2 机构内合作;3独作X10基金资助1没有资助;2 省市级资助3国家级资助是否有数理模型1有;2 无X12图、表情况1有图;2 有表;3有图和表;4都没有X13是否有案例1有;2 无X14是否有调研1有;2 无分类标签1一等奖;2 二等奖;3三等奖为了消除不同评价指标的量纲差异,使得数据不同指标之间具备可比性,需要对数据进行归一化和标准化处理。选择min-max标准化方法,对原始数据进行变换,将其映射到0 和1 之间。转换函数X如下:X-XX=XX(2)其中,Xmx为样本数据中的最大值,Xn为样本数据中的最

16、小值。4.2基于十折交叉验证的分类器选择与测试为了测试不同分类算法的准确性,选择十折交叉验证的方法,辅助选择合适的分类器。十折交叉验证通常是将数据集分成1 0 份,轮流取出其中的一份数据作为测试数据,其他数据作为训练数据进行试验。每一次实验都会得到一个相应的正确率指标,取1 0 次结果的平均正确率来估计算法精度。按照机器学习的研究方法对数据作出处理,进行十折交叉验证,得到不同分类器的指标如下TUSHUGUANXUEKANNO.8,2023管理纵横2023年第8 期图书馆学刊表3基于十折交叉验证的多分类器测试结果原始数据数据标准化贝叶斯Bayes31.3随机森林RFA69.370.0支持向量机S

17、VM60.764.0K-近邻KNN57.265.7根据表3的结果,在使用原始数据时,随机森林方法对数据进行分类的准确率要明显高于其他几个分类器,准确率可以达到6 9.3%,支持向量机次之,准确率为6 0%左右。对数据进一步标准化处理之后,不同分类器的准确率会得到进一步提升,其中K-近邻算法准确率的提升幅度最大,从5 7.2%提高到了6 5.7%。在所有的结果中,使用随机森林对数据进行分类的准确率都要好于其他几个分类算法。表4随机森林算法三分类测试结果类精准率:precision召回率:recall一0.50.6720.170.6730.930.71随机选择样本集中1 5 0 个作为训练集,并将

18、剩余的48个数据作为测试数据,使用随机森林进行分类得到的结果。根据结果,随机森林对第三类三等奖的识别精度最高,准确率为93%,对第一类和第二类的论文识别精度较低(见表4),这是数据量较少,样本分布不均所致,收集更多的训练数据可以进一步提高识别的准确率。4.3主成分分析分类优化与测试为了提高3种获奖论文的分类精度,对研究方法做了进一步优化:采用主成分分析对论文特征向量进行降维。将社会科学论文特征列表xxi4作为自变量,分类标签y作为因变量,输入SPSS软件平台,进行降维因子分析。所得结果见表5。表5主成分分析KMO与Bartlett检验Kaiser-Meyer-Olkin测量取样适当性.678大

19、约卡方827.954Bartlett的球形检定df91显著性.000KMO检验是从比较原始变量之间的简单相关系数和KMO检验是从比较原始变量之间的简单相关系数和表6主成分分析说明的变异数(取方法:主体组件分析)组件起始特征值取平方和载入循环平方和载入总计变异的百分比累加百分比总计变异的百分比累加百分比总计变异的百分比累加百分比13.58925.63525.6353.58925.63525.6352.88720.62320.62321.61811.55837.1931.61811.55837.1931.99314.23434.85831.42210.15547.3481.42210.15547.

20、3481.65011.78646.64441.1508.21555.5631.1508.21555.5631.1558.24954.89351.0647.60163.1651.0647.60163.1651.1208.00062.89361.0397.42470.5881.0397.42470.5881.0777.69570.5887.8816.29476.8828.7995.70982.5909.6754.82087.41110.5994.28191.69211.4503.21594.90712.3522.51697.42313.2481.77399.19614.113.804100.000

21、28TUSHUGUANXUEKAN NO.8,2023管理纵横2023年第8 期图书馆学刊偏相关系数的相对大小出发及逆行的检验,该值越接近1,说明变量越适合进行主成分分析。根据表5,KMO检验值该值等于0.6 7 8,说明可以进行因子分析。根据表6 可以提取6 个主成分,最后得到主成分系数矩阵PCA,如表7 所示。表7主成分分析主成分系数矩阵F1F2F3F4F5F6.31.58.13.01-.09.08.08.34-.11-.07.68-.07.30.53.22.07-.21.05-.04.03-.10.38.46.53.14-.21.64-.17.14.05.28-.24.44.09.04.

22、03.38-.18-.32-.09.08-.01-.03.00-.20-.68-.09.44-.40.12.23.02-.16.10.21-.25-.05.43-.17.37-.42.13.11-.06.02.03-.24.18-.11.26.30.27-.28.02.05.23.19-.38-.21-.03.28-.14.24.37使用主成分分析对原始数据进行降维之后,使用随机森林进行分类可以使分类精度提高至7 7%。若将第一类和第二类的数据合并为一类,再进行二分类,分类精度可以有少许提高,达到7 9%。实验结果表明,将社会科学成果自动分类为一二三等奖等若干级别,用随机森林算法来分类识别一二

23、三等奖的论文,数据未经标准化时,分类识别的准确率为6 9.3%,标准化后分类识别的准确率为7 0.8%。为进一步提高模型的性能,使用主成分分析,可以从1 4个属性特征中提取出6个主成分,再与随机森林算法结合分类识别各奖项论文,识别准确率可以达到7 9%,从而减少了不相干成分对分类结果的影响,进一步提高了分类精度。5结论对人文社会科学成果进行评价是科研管理工作中的一项重要内容,常规专家评审、同行评议、引用次数或影响因子单指标评价等评价方法存在一定片面性。笔者选取陕西省社会科学界联合会网站连续3年的社会科学期刊论文一等奖、二等奖、三等奖论文集,以论文被引次数、发表年限、下载次数、影响因子、参考文献

24、数量、英文参考文献数、作者个数、作者单位、合作单位、基金资助情况、是否有数理模型、图表情况、案例情况和调研情况等1 4个论文属性特征构建论文特征属性空间,并将论文获奖等级作为输出分类标签。数据经最大最小化归一化后,再用十折交叉验证法在朴素贝叶斯方法(NBM)、支持向量机(SVM)算法、最近邻算法(KNN)随机森林算法(RFA)中选择合适的分类器。结果表明,将机器学习的方法应用于人文社会科学成果自动分类评价,可以提高社会科学成果评价效率,同时也保证识别的精度。使用机器学习结合论文多层次属性建模,分类精度,有助于决策者做出准确、客观的评价。首先,使用机器学习的方法来研究对社会科学成果进行评价的可能

25、性。机器学习多用于文本的主题分类,如对短文本话题分类、情感计算等,首次将机器学习方法用于社会科学成果评价分类。按照机器学习的处理流程完成了样本数据的收集和清洗、分类算法的选择和设计以及对算法的评估。在数据不充足的情况下,使用机器学习方法来对社会科学成果进行分类可以取得比较高的准确率。结果表明,使用机器学习方法进行社会科学成果评价在提高评价效率的同时,也拥有较好的识别精度,可以对常规评价方法进行补充。其次,根据论文的属性构建适用于机器学习的特征空间。科学文献是一个多维信息载体,其包含的信息反映了科学成果的重要程度。为了更好地对其进行量化,将其映射到特征空间,根据论文具有的自身属性和外部属性,构建

26、了适合机器学习分类器的社会科学论文属性特征空间,并使用标准化方法来消除不同量纲的影响。该课题构造的论文属性特征空间具有较强的普适性,获取便捷,可适用于与之相关的其他领域。最后,科学选择合适的分类方法。为了选择出最好的分类器,课题采用了十折交叉验证法,使用不同分类器进行实验,选择其中效果最好的随机森林作为课题使用的分类器。为了减少不相干成分对分类结果的影响,进一步使用主成分分析方法来对原始数据进行降维,并对降维后的数据再分类,进一步提高了分类精度。为了进一步验证基于机器学习分类方法的科学性和优越性,还需要采集更多的数据进行实验,来降低数据规模小带来的消极影响,如采集多个省份的数据,以规避单29编

27、:刘清扬。)TUSHUGUANXUEKANNO.8,2023管理纵横2023年第8 期图书馆学刊个省份评奖规则可能存在的片面性。此外,还需采集更多的一二等奖的数据,来消除数据分布的不平衡,提高分类器识别一二等奖的精度。参考文献:1陈颖.我国哲学社会科学评价的现状及出路 D.湘潭:湘潭大学,2 0 1 4.2许梅华.我国人文社会科学成果评价指标体系研究D.上海:华东师范大学,2 0 1 2.3王一华.基于IF(JC R)、I F(Sc o p u s)、H 指数、SJR值、SNIP值的期刊评价研究 J.图书情报工作,2 0 1 1(1 6):144-148.4刘春丽.基于软同行评议的科学论文影响

28、力评价方法F1000因子 J.中国科技期刊研究,2 0 1 2(3):38 3-38 6.5 安雪飞,张立珊.人文社会科学科研成果评价分析 J中国高校科技,2 0 1 5(Z1):90-91.6李倩.高校社会科学成果评价的问题与对策研究 D.成都:四川师范大学,2 0 1 2.7姜春林,孙军卫,田文霞.人文社会科学成果评价若干指标内涵及其关系 .情报杂志,2 0 1 3(1 1):43-5 0.8 王静.基于机器学习的文本分类算法研究与应用 D成都:电子科技大学,2 0 1 5.9 Geng X L,Gao X Y,Zhao B.Research on Chinese textclassifi

29、cation based on Naive Bayesian methodCj.Bei-jing:World Publishing Corporationg,2014.10Picard D,Gosselin P,Gaspard M.Challenges in Con-tent-Based Image Indexing of Cultural Heritage Collec-tions Support vector machine active learning with appli-cations to text classificationJJ.IEEE Signal ProcessingM

30、agazine,2015(4):95-102.11Chen Y H,et al.A hybrid text classification methodbased on K-congener-nearest-neighbors and hyper-sphere support vector machineJj.International Confer-ence on Information Technology and Applications,2013:493-497.12 Lee L H,et al.An enhanced Support Vector Machineclassificati

31、on framework by using Euclidean distancefunction for text document categorizationJJ.Applied In-telligence,2012(1):80-99.13杨挚诚.基于机器学习的文本分类算法研究 D.南宁:广西大学,2 0 0 7.14Drame K,Mougin F,Diallo G.Large scale biomedicaltexts classification:a kNN and an ESA-based approach-esJJ.Journal of Biomedical Semantics,

32、2016(40):40-52.15Xiao C,Wu P.Research on Feature Selection and kNNClassification Method in Chinese Text ClassificationM.PARIS:ATLANTIS PRESS,2016.16Onan A,Korukoglu S,Bulut H.Ensemble of keyword ex-traction methods and classifiers in text classificationJ.EXPERTSYSTEMSWITHAPPLICATIONS,2016(57):232-24

33、7.17Tripathi N,Oakes M,Wermter S.A Scalable Meta-Clas-sifier Combining Search and Classification Techniquesfor Multi-Level Text CategorizationJJ.InternationalJournal of Computational Intelligence and Applications,2015(4):1-15.18Ding W,et al.A novel naive bayesian text classifierM.LOS ALAMITOS:IEEE COMPUTER SOC,2008.李君君女,1 97 7 年生。硕士,馆员。研究方向:政策规划、项目管理。高雨有男,1 97 4年生。硕士,馆员。研究方向:大数据分析。于海涛男,1 98 0 年生。硕士,馆员。研究方向:读者服务、学科服务。系本文通讯作者。李菲女,1 98 0 年生。硕士,高级工程师。研究方向:计算机科学与技术。(收稿日期:2 0 2 2-1 0-1 4;责

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服