收藏 分销(赏)

基于ChatGPT古诗对联理解与生成能力的评价体系.pdf

上传人:自信****多点 文档编号:326564 上传时间:2023-08-15 格式:PDF 页数:5 大小:1.82MB
下载 相关 举报
基于ChatGPT古诗对联理解与生成能力的评价体系.pdf_第1页
第1页 / 共5页
基于ChatGPT古诗对联理解与生成能力的评价体系.pdf_第2页
第2页 / 共5页
基于ChatGPT古诗对联理解与生成能力的评价体系.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering206古诗和对联是中国传统文学中独特的艺术形式,并且两者有诸多相似的特征,都包含丰富的语义信息来抒发人类情感,韵律上平仄有序,备受人们喜爱。随着深度学习热潮的兴起,神经网络模型在自然语言处理(NLP)领域取得了巨大的成就,人们开始利用该技术进行文学创作,生成内容丰富、韵律优美的古诗和对联。尽管神经网络模型在古诗-对联理解和生成任务上效果很好,但文学创作必不可少的就是专业知识,因此该任务仍具有挑战性。但 ChatGPT 的诞生一夜之间就加

2、速了NLP 领域的进程,本文的目的就是提出一个较为完善的评价框架,以评估 ChatGPT 和先前模型对于古诗-对联理解生成的能力1。1 评估维度随着信息时代的快速发展,越来越多的学者开始研究自然语言处理领域的相关工作3,各类理解生成任务及相关模型层出不穷,同时对于模型好坏的评估方法也日渐完善。古诗和对联作为中华文化的瑰宝,其研究具有长远意义。本文将从两个维度出发,评估 ChatGPT 和先前模型对于古诗的理解能力及对联生成的能力,从而得到相关模型对于古诗-对联理解生成能力的评价。1.1 古诗理解能力任务自 然 语 言 理 解(Natural Language Understanding,NLU

3、)是所有支持机器理解文本内容的方法模型或任务的总称。NLU 在文本信息处理系统中扮演着非常重要的角色,古诗的理解任务就是其中之一。古诗中蕴含的情感丰富多样,诗句的关键词与整首诗的主题及主要内容密切相关,如果计算机(机器)能够正确分析古诗诗句的情感并识别出诗句中关键词,就可以在极大程度上说明其对于古诗诗句有较强的理解能力。因此本文通过对模型抓取关键词的能力和其对于古诗情感分析的结果两方面进行评估,从而得到模型对于古诗理解能力的评价,完成模型对于古诗理解能力评估的任务。1.2 对联生成能力任务对联的主体由上下两行连贯的句子组成,称为上联和下联,一幅值得称赞的好对联需要做到言简意深,对仗工整,平仄协

4、调,字数相同,结构相同4。为了评价ChatGPT 生成对联的能力,我们给 ChatGPT 输入对联数据集(如表 1 所示)的上联,让其生成相对应的下联数据。接下来,本文让机器从结构和韵律两大角度分析ChatGPT 生成的下联的优劣,同时为了对标原本数据集中的下联,我们使用自动指标 Perplexity 和 BLEU 来评价 ChatGPT 生成下联的流畅性和相似度,最后,为了从人类角度评判生成对联的质量,额外加入人工评价作为指标之一。2 评价方法2.1 古诗理解能力评估方法2.1.1 关键词提取在理解层面,古诗词的关键词提取一直是重要的任务之一。不同于长篇章段落的关键词提取,诗词的关键词提取因

5、文字量少和词矩阵稀疏而更难确定,因而分析ChatGPT 的关键词提取能力可以间接反映出 ChatGPT对于词语短句划分的正确性和诗词的理解能力。在该测试中,本文使用了 THU-CCPC 数据集(9976 条古诗词以及对应的人工标注关键词),并得到了 ChatGPT 分析基于 ChatGPT 古诗对联理解与生成能力的评价体系黄少平孔秋媛陶慈魏子怡赵嘉晨(北京语言大学信息科学学院 北京市 100083)摘要:本文主要提出了一个基于 ChatGPT 的古诗-对联生成能力的评价体系。首先,本文介绍了评价维度,即理解和生成能力。接着,本文详细介绍了评估方法以及评估方法的实现技术,如关键词提取、情感分析以

6、及结构韵律分析等。最后,本文分析了评估结果,形成一个完整的评估体系。通过本文的研究,可以更好地评估ChatGPT 在古诗-对联方面的能力,为自动生成古诗-对联提供技术支持。关键词:关键词提取;评价方法;评估模型;ChatGPT基金:大学生创新创业项目;项目编号:S202210032010;获奖类别:市级创新训练项目。数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering207产生的关键词。该数据集主要有包含的诗词相对较生僻的优势,可以尽可能避免测试集出现在 ChatGPT 训练语料库的概率

7、,真正体现 ChatGPT 对于古诗的理解能力。最后通过计算 ChatGPT 在单首诗词上的准确率、整体准确率对模型能力进行评价。同时,为了对比 ChatGPT 与其他模型在关键词提取任务的效果,本文还分别在基于 TextRank 和Word2vec 的关键词提取模型上对 9975 条古诗进行实验,TextRank 模型会对每条数据提取出概率最大的 10 个关键词,而 Word2vec 模型先构建词向量模型,从而抽取出候选关键词的词向量。最后,我们对照模型预测结果(如表 2 所示)跟人工标注结果,分别计算正确率和召回率。通过分析表 2 可以得出,模型生成的关键词大多属于常见名词或字,如“朔风”

8、、“送子”,“吹”等,甚至涵盖了整首诗,不能很好地凝练古诗的含义。说明ChatGPT 等模型并不能较好地理解古诗的具体含义,因而在该任务上的效果不佳。2.1.2 情感分析古诗情感分析即从诗中分析出作者对于实体及其属性所表达的情感倾向以及观点,是带有主观情感或观点的文本进行处理、分析的过程5。本文采用 THUNLP实验室发布的人工标注的细粒度情感诗语料库的数据集作为对照,在数据集原有人工标注的基础上,将数据集中的情感打分进行整合归并处理:1-2 分划分为消极情感,3 分为中立情感,4-5 分为积极情感。通过将ChatGPT 和先前模型对于古诗情感倾向打分的结果与数据集中的情感分类结果进行比较,得

9、到模型与对照数据集一致性的概率结果,该数值结果即为 ChatGPT 与先前模型在情感分析维度下的古诗理解能力的评估结果。为了对比 ChatGPT 对于古诗的情感分析能力,本文利用 BERT-CCPoem7对古诗进行向量表示设计了一个情感分析实验,输入一句或者一首完整古诗,模型输出对应的情感标签。该模型首先在 17500 条数据上进行训练,之后对 7500 条数据进行测试。最后,我们对照模型预测的情感分类结果与人工标注结果计算正确率。2.2 对联生成能力评估方法2.2.1 结构分析对联有着严格的结构要求,上联跟下联的词性必须相同,用词非常细致讲究。为了评价模型生成的对联是否与上联的结构契合,首先

10、需要对生成的句子进行分词,再标注词性。然而现有的中文分词工具(如 jieba、THULAC 和 Jianyan 等)对于对联的效果不佳,几乎是按单字进行分词。为了解决这个问题,本文提出了一种新的自动化分词和校正的方法,效果得到明显的提升。首先,该方法主要是基于对联词表进行反向最大匹配分词,该方法要求提前准备好一个对联词表,该词表包含了最常出现在对联中的词。那么最关键的问题就是如何界定词以及如何提取词,通过分析数据集发现,其中包含的对联最大长度不超过七个字,词最大长度不超过三个字,再结合对联的格律信息,可以通过自定义的规则对对联进行切分,然后使用统计的方法对对联数据集进行二字词提取,由于对联中的

11、词大多数属于未登录词,仅仅按照自定义规则,很难保证词表的可靠性,因此最后需要应用互信息方法来构建未登录词的语料库,结果表明该方法相对于现存的分词工具效果有明显的提升,由 21.69%提升到 65.55%。本文提出的基于对联词表进行反向最大匹配分词的分词方法经过大量对联数据训练后,在对联中有很好的表 1:数据集示例上联下联ChatGPT 生成下联风弦未拨心先乱夜幕已沉梦更闲谷雨已过梅先放史征筚辂,毋忘熊绎山川人在蓬瀛,弥念鹄矶风物渚柳暗香,斜阳惹翠波涟千秋功罪由人说百代沧桑剩此碑功高震主论历史表 2:ChatGPT 等模型提取的关键词与人工标注的关键词对比古诗关键词ChatGPT 生成的关键词正

12、确率TextRank 生成的关键词正确率Word2vec 生成的关键词正确率送子目力短,短、吹我、朔风、送子送子、目力短、朔风、裾、心焉、结、念予28.6%目力、心焉独如结、朔风、吹、送、念予17%子、吹、朔风、短、目力、送子、裾43%朔风吹我裾。心焉独如结,子也当念予数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering208切分结果,如富有意象的名词“流莺”、“寒檐”等均能被正确划分,即使其中一联未划分成功,也会通过上下联对照进行自动校正,提高正确率。但最后一个示例存在分词错误,考虑到

13、“汉祚”与“虞姬”属于专有名词,在语料中出现的次数较低,导致互信息也较低,因而词表不会包含这种名词,在此情况下无法正确分词。部分分词结果示例如表 3 所示。2.2.2 韵律分析 对联的六相关系到一副对联是否能成为工巧的好对联,而六相中与韵律相关的是平仄相谐。在本文的评价模型中,通过使用上下联平仄的对称性去评价生成对联的韵律优劣。在汉字的音韵学中,汉字的声调可以分为平声、上声、去声、入声四类,其中平声和去声为平调,上声和入声为仄调。考虑到对联平仄对称的千变万化,本文的评价分析着重放在上下联中字与字的平仄对称并加大尾字对称的重要性,若当前字为无法确定平仄的多音字,则用“中”标识。设生成的对联中上联

14、有 n 个字,下联有 m 个字,第 i 个字的平仄标注为 ui(上联)或 li(下联);如果ui或 li为“中”,则不扣分。尾字 utail(上联)与 ltail(下联)的平仄对称占满分 10 分的 20%,剩下 80%的分数由其他字的平仄对称决定。尾字的平仄对称得分为:其他字的平仄对称得分为:平仄对称得分的总分为:利用上述公式可以计算出模型生成的下联韵律得分(表 4)。2.2.3 BLEU 和困惑度BLEU(Bilingual Evaluation Understudy,双语评估辅助工具)和 Perplexity(困惑度)通常是用来评价语言模型好坏的指标。我们采用 BLEU 指标来衡量模型生

15、成下联与数据集中的标准下联之间的相似度,每个对联评价的分数加权平均值作为整个训练数据集的最终结果。BLEU 采用一种 N-gram 的匹配规则,比较模型生成的下联和标准下联之间 n 组词之间相似成分的一个占比6。除此之外,本文还采用 perplexity 来评估模型生成对联的流畅性,Perplexity 首先计算测试集的逆概率,然后根据测试集中的字数进行归一化。一般来说,perplexity 的值越小,说明语言模型的建模能力越好,即生成的文本越接近自然语言。2.2.4 人工评价我们从 ChatGPT 生成的对联中随机选出 176 组上下联字数相等的对联,打乱顺序后,由 2 个该领域学者分别从前

16、后押韵、语句流畅、主题意义、上下联内容一致性四个角度进行打分,每个指标最高分 5 分,最低分1 分,并要求评分者全程保持平稳的客观心态。3 评估结果分析3.1 实验数据与细节3.1.1 数据集我们从多个公开数据集中收集了大量的古诗词与对联作为训练数据与测试数据。这些数据集包括 9976条 THU-CCPC 数据集、24854 条 FSPC 数据集以及从GitHub 上爬取的 70 多万对联数据集。3.1.2 实验细节所 有 数 据 集 构 建 都 使 用 了 openAI 的 ChatGPT API 进 行 调 用,使 用 的 模 型 是 GPT-3.5-turbo。通 过ChatComple

17、tion 响应确保回答的完整性,同时我们通过多线程的方式提高采集效率,并通过响应机制尽量避免表 3:部分对联分词结果对联分词结果时见流莺鸣柳岸/时见/流莺/鸣/柳岸/偶观雨燕栖寒檐/偶观/雨燕/栖/寒檐/不畏鸿门传汉祚/不畏/鸿门/传汉/祚/难堪垓下别虞姬/难堪/垓下/别虞/姬/表 4:部分 ChatGPT 生成下联的平仄评分结果上联与 ChatGPT 生成下联平仄标注得分煦煦春风,吹暖五湖四海仄仄平平中中中仄平仄仄7.0香香花香,馥郁万里千山平平平平中仄仄仄仄平平朔气传金柝仄仄中平仄10.0霜华拂玉苞平中仄仄平数据库系统设计Database System Design电子技术与软件工程Ele

18、ctronic Technology&Software Engineering209网络不稳定因素造成的生成中断。3.2 古诗理解评估结果3.2.1 关键词提取结果分析如 图 1 和 图 2 所 示,在 关 键 词 提 取 数 据 集THUAIPoet 上,通过对 ChatGPT 在关键词数量,诗词长度,对应准确率之间的关系分析可得,ChatGPT 在字数相对较少的五言诗词中的表现要优于七言诗词。同时,结合对语料结果,ChatGPT 在关键词提取的能力更接近于诗词内短语和词语的划分,如表 5 所示 ChatGPT整体的正确率只有 29.348%,整体召回率为 51.278%;基于 TextRa

19、nk 的模型整体正确率为 26.580%,整体召回率为 57.737%;而基于 Word2vec 的模型整体正确率为32.475%,整体召回率为 69.784%。表 5:不同模型的关键词提取任务正确率模型ChatGPTTextRankWord2vec整体正确率29.348%26.58%32.475%3.2.2 情感分析结果分析在情感分析数据集中选用 4969 首古诗数据用于本文情感分析的评估,其中包含情感打分标签的数据共有24845 条(包括每句诗和整首诗的情感打分),按照 7:3划分为训练集和测试集,并将测试集输入到 ChatGPT 和基于 BERT-CCPoem 的模型分别得到其对古诗的情

20、感打分结果。最终 ChatGPT 生成的测试标签的正确率和基于BERT-CCPoem 的模型正确率整合归纳如表 6 所示。表 6:ChatGPT、基于 BERT-CCPoem 模型在测试集上生成标签的正确率模型积极中立消极totalChatGPT46%40%71%51%BERT-CCPoem53%59%47%53%通过实验结果可知,ChatGPT 对于古诗情感的理解能力相对人而言一般,与基于 BERT-CCPoem 的模型对比,表现相差不明显。3.3 对联生成评估结果3.3.1 结构结果分析如前文提到,对于模型生成对联能力有三项评估指标,分别是结构、平仄对称以及相似流畅度,通过在测试集上进行评

21、估并得出了每个指标的结果。从表 7 中可以看出,ChatGPT 生成的下联在结构上无论是字数、词数还是词性的一致性都不如其他现存模型,其中长度与词数效果差异显著。可以推测 ChatGPT 并未完全理解此类语言格式,仅是依赖通用的语言模型去生成看上去类似的语句。3.3.2 韵律结果分析针对平仄协调的效果评价,从表 8 中可以看到ChatGPT 效果较其他现存模型而言更一般,大部分生成数据分数集中在0-6分,而其他模型大多集中在8-10分。通过分析认为,其他模型在训练模型时会更加注重韵律对称,而 ChatGPT 没有针对性,更具通用性。3.3.3 BLEU 和 Perplexity 结果分析通过使

22、用生成下联分别匹配原数据集的上联与下联去计算相应的 BLEU 与 Perplexity,可以观察到,与其他四个模型相比,ChatGPT 在 BLEU 和 Perplexity 两个指标上的表现效果不佳,ChatGPT 生成的下联与上联的相似度更高。我们将原来上联作为参考计算 BLEU 值为图 1:ChatGPT 在古诗词关键词提取任务上多个维度上的准确度图 2:不同模型关键词提取正确率分布 数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering2100.07,比下联作为参考计算 BLEU

23、值高约 0.02,可以了解到 ChatGPT 生成的下联更类似于标准上联。我们让其他模型生成的下联数据与原数据上联来计算 BLEU 值,发现数值都有所下降。我们猜测相比于其他的对联生成模型,ChatGPT 更偏向于参考上联的内容生成与之相似的下联。3.3.4 人工评价结果分析人工评价分数分布表(表 9)。表 9:人工评价分数分布表前后押韵语言流畅主题意义内容一致1-3 分占比0.46590.65910.57390.45454-5 分占比0.53410.34090.42610.5455均分3.46593.14203.29553.5170上述结果表明,ChatGPT 在对联生成任务上表现并不突出,

24、生成的下联仍有很大的提升空间。整体来看,本文提出的模型评价效果与人工评价也基本保持一致,皆是上下联内容较一致,韵律也较和谐,但语言较不流畅,主题意义较为肤浅,相比之下,人工评价分值偏高,具有一定的主观误差。根据三个角度的分析,对比 4 个其他模型的表现,ChatGPT 在生成对联时更不理解对联的真正含义,而仅是依照内容来仿写。4 结语本文探究了 ChatGPT 与先前模型对于古诗-对联理解和生成能力的评价体系,基于理解和生成两个评价维度,我们分别提出了六个评价指标,并提出了如何实现评价的方法,最终形成一个较为完善的评价体系。评价结果表明,ChatGPT 无论是理解能力,还是生成能力都不如先前的

25、模型或能力相当。我们将继续完善模型对于古诗-对联理解和生成能力的评价体系,当前的评价体系在情感分析和关键词提取算法方面存在一定的不足,我们在今后的工作中希望能使用相关算法更好的评估模型的理解能力。参考文献1 卫万成.基于神经网络的诗歌与对联自动生成方法研究 D.桂林电子科技大学,2019.2 Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You NeedJ.arXiv,2017.3 王金平.基于古诗词的主题情感分析的研究与实现D.南昌大学,2021.4 朱媛媛.基于循环神经网络的对联生成模型研究D.吉林大学,2018.5 王乾辰.基于深

26、度学习的评论文本情感分析 D.安徽大学,2020.6 袁为.基于深层语言学表示的自动问题生成技术D.南京大学,2021.7 BERT-CCPoem:https:/ 7:ChatGPT 和其余模型的结构评分结果对比模型ChatGPTAnchi-decoderAnchi-transformerFusion-decoderFusion-transformer长度一致0.657210.71400.99880.9608词数一致0.65350.99250.71180.9910.9545词性一致0.12580.13320.15040.12500.1312注:目前古汉语的词性标注效果不佳,根据人工评价,词数一致的对联往往词性一致表 8:ChatGPT 和其余模型的平仄押韵评分结果对比模型ChatGPTAnchi-decoderAnchi-transformerFusion-decoderFusion-transformer8-10 分0.20720.83600.66700.84530.84306-8 分0.20310.13750.15850.12850.15330-6 分0.58970.02650.17450.02620.0037

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服