收藏 分销(赏)

计算机文本分析算法发展综述_孙静含.pdf

上传人:自信****多点 文档编号:282989 上传时间:2023-06-28 格式:PDF 页数:6 大小:1.62MB
下载 相关 举报
计算机文本分析算法发展综述_孙静含.pdf_第1页
第1页 / 共6页
计算机文本分析算法发展综述_孙静含.pdf_第2页
第2页 / 共6页
计算机文本分析算法发展综述_孙静含.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、www.ChinaAET.comReview and Comment综述与评论计算机文本分析算法发展综述孙静含1,任静2(1.北京工业大学,北京 100124;2.中国电子信息产业集团第六研究所,北京 100083)摘 要:计算机文本分析是自然语言处理领域的一个重要分支,是研究如何在文本数据中提取出给定语料的各类信息的计算机技术。目前,计算机文本分析已经进入了新的历史阶段,一方面关键词提取算法已经逐渐完备,另一方面随着 BERT 方法的出现,词向量计算问题也取得了极大的进步。但是,无论是关键词提取还是词向量计算都仍存在一些有待解决的问题。另外,现有的许多适合使用文本分析的研究仍在使用早期的文本

2、分析方法。因此在未来,如何更好地降低模型尺寸以促进学科融合、提升文本分析的综合社会效益,成为文本分析算法发展的重要问题。关键词:文本分析;自然语言处理;算法中图分类号:TP181 文献标志码:A DOI:10.16157/j.issn.0258-7998.223117中文引用格式:孙静含,任静.计算机文本分析算法发展综述J.电子技术应用,2023,49(3):42-47.英文引用格式:Sun Jinghan,Ren Jing.A survey of the development of computer text analysis algorithmsJ.Application of Elec

3、tronic Technique,2023,49(3):42-47.A survey of the development of computer text analysis algorithmsSun Jinghan1,Ren Jing2(1.Beijing University of Technology,Beijing100124,China;2.The Sixth Research Institute of China Electronics Corporation,Beijing 100083,China)Abstract:Computer text analysis is an i

4、mportant branch in the field of natural language processing,and it is a computer technology that studies how to extract various types of information from a given corpus from text data.At present,computer text analysis has entered a new historical stage.On the one hand,the keyword extraction algorith

5、m has gradually been completed.On the other hand,with the emergence of the BERT method,the word vector calculation problem has also made great progress.However,there are still some problems to be solved in both keyword extraction and word vector calculation.In addition,many existing studies suitable

6、 for using text analysis still use ancient text analysis methods.Therefore,in the future,how to better reduce the model size to promote the integration of disciplines and improve the comprehensive social benefits of text analysis will become an important issue in the development of text analysis alg

7、orithms.Key words:text analysis;natural language processing;algorithm0 引言计 算 机 文 本 分 析 是 自 然 语 言 处 理(Natural Language Processing,NLP)领域的一个重要分支,是指对文本数据或语料库内的语料进行分析,最终提取出给定语料的各种信息,包括关键词、词向量等内容的计算机技术,在一些文献中也将这一领域的相关技术纳入自然语言处理预训练技术之中12。文本分析最早起源于 20 世纪 5060 年代,这一阶段的研究重点是如何对语言规则进行设定3。到 20 世纪 70 年代,随着语料库的丰

8、富和硬件设备的进步,文本分析技术开始融合机器学习算法,并得到了快速发展4。进入 21 世纪之后,深度学习方法被运用到文本分析之中,诞生了诸如 Word2Vec、BERT 等技术,进一步提高了文本分析的应用场景。在可以预见的未来,传统的基于数字数据的分析方法将逐渐无法满足越发庞杂的应用需求,文本分析和其所属的自然语言处理领域将会是一个愈发重要的发展方向。1 文本分析的基础1.1 分词分词是中文等亚洲语言的特有的问题,早在 20 世纪80 年代中期就已经开始了中文分词方法的相关探索,并出现了一些早期的分词系统5。1998 年,北京航空航天大学推出了新一代分词系统 CASS,该系统使用正向增42Re

9、view and Comment综述与评论电子技术应用 2023年 第49卷 第3期字最大匹配系统,使用知识库来处理歧义字段,实现了150 字/秒的分词速度67。截至目前,有三种主要的分词方法,第一种是基于字符串匹配的分词法,该方法是用待分析文本与一个词典进行匹配,若在词典中找到了该词,则视为匹配成功。依照扫描方法和匹配长度分为正向/逆向/双向最大/最小匹配89;第二种是基于理解的分词法,该方法通过计算机模拟人对句子的理解,以达到分词效果,以此为基本思路诞生了专家系统分词法和神经网络分词法1011;第三种是基于统计的分词法,该方法把每个词看作字的组成,相邻的字在语料库中出现的次数越多,就越可能

10、组成一个词1213,该方法使用隐马尔科夫(Hidden Markov Model,HMM)或随机条件场(Conditional Random Field,CRF)进行概率计算。现如今,比较常用的分词方法是基于 Python 的 Jieba 分词技术14,该技术本身含有一个由人民日报等语料库训练出来的包含 20 000 多个中文单词的词典,首先用该词典生成前缀树进行词图扫描,用所有可能的分词情况构建有向无环图(Directed Acyclic Graph,DAG);通过 DAG和逆向最大匹配法原理,利用动态规划算法查找最大概率的切分组合;如果出现了未登录词,则使用 HMM 模型预测可能的分词方法

11、1516。目前,虽然中文分词技术已经趋于成熟,但也仍面临粒度选择(分词长度)、分词歧义和未登录词识别的问题1718。Jieba 分词将基于字符串匹配的分词方法和基于统计的分词方法相结合,一定程度地减少了未登录词识别的问题,但分词歧义仍是中文分词中的难题。1.2 词根获取与词性标注在印欧语系的文本分析中,由于同一个词在不同语境中会有不同的变形,因此如何取词根成为了一个重要的问题。取词根方法包含基于规则和基于词典两种,但实际拟合效果均不够理想。Strzalkowski 等人和 Xu 等人先后对取词根方法进行了改进1920,但截至目前取词根仍是困扰印欧语系文本分析的主要问题。词性标注是同时出现在不同

12、语系文本之中的,正确高效地对词性进行标注,有助于部分词义消歧,提高后续处理效果2122。词性标注已经是一个比较成熟的技术,早在 2005 年以前,英文词性标注和中文词性标注的准确率就已经都能达到 97%左右2324。2 文本分析方法2.1 语言预测N-gram 模型是一种比较早期的文本分析方法,由Brown 等人在 1998 年提出25,该方法基于统计概率模型,其所描述的是,在一个自然语言句子中,假设第 i 个词出现的概率只与前 i-1 个单词有关,那么其整个句子出现的概率就是每个单词出现概率的乘积,这就构成了一个 i-1 阶的马尔可夫假设。因此,在有足够大语料库的前提下,就可以通过前一到两个

13、单词来预测下一个单词。已有的测试发现,在使用足够语料库的前提下,N-gram 可以起到很好的预测效果26。在实际操作中,N-gram 由于其极强的可操作性和效果,在自动索引、拼写检查等领域中广泛应用。N-gram 的缺点是:第一,i 的数量提升时,计算的复杂度也会指数增长,因此一般会采用二元或三元的简单模型,但此时就无法建模更远的关系;第二,N-gram 依赖于大量语料库,如果语料库数据量不充分大,则会出现预测水平下降的问题1。2.2 关键词提取2.2.1 TF-IDFTF-IDF 算法是一种关键词加权的算法2728,用以评估一个字词在一个语料库中的重要程度,其在信息检索等领域已被广泛使用。该

14、算法的基本思想是,一个词语的重要程度应与其在文档中出现的频率成正比,在语料库中的其他文档内出现的重要程度成反比。TF(词频)为检索词 W 在检索文档 A 中出现的频率,用 W 词频数除以文档 A 中的总词数表示;IDF(逆文档频率)为 W 词出现在逆文档中的频数表示,用总文档数除以出现词 W的文档数加 1 的对数表示。则 W 的 TF-IDF 值为 TF 乘IDF,公式如式(1):TF-IDFW=F(W)count(A)ln(N1+N(W)(1)其中,F(W)表示 W 在文档 A 中出现的频次,count(A)表示 A 中的单词总数,N 表示文档总数,N(W)表示逆文档中出现词 W 的个数。由

15、于 TF-IDF 算法高度依赖逆文档,因此当文档集的相似度比较高时,TF-IDF 算法无法有效地将关键词提取出来。与此同时,TF-IDF 算法认为文本频率大的单词就更为重要,这在很多情况下并不是完全正确的。2.2.2 TextRankTextRank 算法是由 PageRank 算法牵引而来的,后者是一种根据网页之间的链接关系计算页面重要性的方法,常用于搜索引擎的网页排序之中29。基于 PageRank算法,Mihalcea 和 Tarau 提出了 TextRank 算法30。该算法通过构造词拓扑图来对词和句子进行排序,最终生成关键词、关键词句。算法如式(2)所示:S()Wi=()1-d+d

16、j In(wi)WjiWk Out(Wj)WjkS(Wj)(2)式中,S(Wi)是单词 i 的权重,d 是阻尼系数,在 01 之间,Wji表示两个句子的相似度,S(Wj)表示上次迭代出的句子 j 的权重。最终采用无监督学习方法,通过反复的迭代,得到每一个词的系数。与 TF-IDF 相同,TextRank 算法同样倾向于将最频繁出现的词作为关键词,但相对而言要更为有效。虽然相43Review and Comment综述与评论www.ChinaAET.com比于 TF-IDF 有更好的计算结果,但是由于其需要进行复杂的图运算和迭代运算,因此计算速度比较慢。2.3 静态词向量训练2.3.1 NNLM

17、在文本分析中,词语之间往往缺乏相关性,很难构成稠密的向量空间,为了解决这一点,研究者首先提出了一些静态词向量训练算法。Brngio 等人在 2003 年结合 马 尔 科 夫 假 设 和 神 经 网 络 结 构,提 出 了 NNLM 模型31。与传统 N-gram 算法不同的是,NNLM 算法基于神经网络结构对目标进行求解,解决了 N-gram 算法只能进行低元运算的问题。NNLM 模型分为输入层、隐藏层和输出层三个部分。首先在输入层中输入前 n-1 个词汇并进行 One-hot 编码(1|V|),然后将词汇与嵌入矩阵 C相乘(|V|m),得到分布式向量并进行输出,并对第 n 个词进行预测。由于

18、 NNLM 算法源于对 N-gram 算法的优化,因此该算法最初只是用于进行语言预测任务。但是由于其首次将神经网络引入到了文本分析之中,又首次使用了词向量思想4,因此给后续的算法研究提供了很多启发。2.3.2 Word2Vec词向量思想可以很好地作为语义评价尺度,因此在NNLM 算 法 之 后 研 究 者 进 行 了 大 量 改 进 工 作。Word2Vec 算 法 是 2013 年 Google 开 发 的 词 嵌 入 工具3233,该 工 具 包 含 Skip-gram 和 CBOW 两 个 模 型。Skip-gram 模型通过输入特定的词向量,输出上下文对应的可能词向量;CBOW 模型通

19、过输入特征词上下文的词 向 量 来 输 出 特 定 词 向 量。在 Word2Vec 中,取 消 了NNLM 的隐藏层结构,同时在求语境向量时舍弃了词序,大大提升了处理速度,目前被广泛应用于文本分类、情感分析等领域之中。2.3.3 FastText2016 年,Facebook 提出了 FastText 模型3435,该模型基于 Word2Vec 的框架,将单词拆分为字符级别,起到了很好的扩充词汇作用,同时避免了 Word2Vec 中可能存在的未登录词问题。为了解决向量类别过大的问题,FastText 将原始特征向量进行了 Hash 处理,进行降维操作,极 大 提 高 了 运 算 速 度。Fa

20、stText 在 各 种 细 节 上 对Word2Vec 进行了优化,大幅提升了训练速度,对于大语料库的处理更为得心应手。但该算法的最终目标仅是输出词类别,因此只适用于文本分类、同义词挖掘等领域,而无法面向更为广阔的需求。2.4 动态词向量训练2.4.1 ELMo静态的词向量算法不能很好地处理一词多义问题,因为同一个词会被给予相同的词向量,为了解决这一点,在 2018 年出现了 ELMo 模型36。ELMo 是一种基于特征的语言模型,该模型可以结合上下文的语境进行建模,从而给出词向量。其基本思想是,依据上下文单词进行分别静态训练,得到符合其语境的词向量。为了实现这一思想,借鉴了 Jozefow

21、icz 等人的方法37,采用双层双向 LSTM(Long Short-Term Memory)网络结构,先输入一个初始词向量,然后得到前向和后向两个 LSTM模型,最大化两个模型的似然概率,得到预训练结果。然后将原始词向量和两个中间词向量进行第二次拟合训练,得到最终的 ELMo 分数。ELMo 算法相比于传统的 Word2Vec 有更快的训练速度和更好的训练结果,同时又解决了一词多义问题,使词向量技术得到了巨大进步。2.4.2 GPT在 ELMo 模型的基础上,OpenAI 团队提出了新的训练模型 GPT38。相比于基于 LSTM 的 ELMo 模型,该团队使用了当时业内更为看好的 Trans

22、former39特征提取器。GPT-1 使用了单向 Transformer 解码器结构,进行了12 个子层的堆叠,同时提取了文本的多方面信息,并输出词向量。GPT 模型先进行大语料库的无监督预训练,然后进行有监督训练进行微调。在 GPT-1 之后,该团队又先后推出了 GPT-2 和 GPT-3 模型,得到了非常好的成果。但是,由于 GPT 过于依赖原始语料库且参数数量过于巨大,因此现阶段还很难被广泛应用。2.4.3 BERT在 GPT 的基础上,BERT 模型回归了双向特征提取器结构,同时优化了 ELMo 双向相互独立的问题,直接将其进行连接,同时保留了 GPT 的两阶段训练40。第一阶段训练

23、任务是 Mask LM,先屏蔽句子中 15%的单词,然 后 训 练 模 型 对 屏 蔽 单 词 进 行 预 测;第 二 个 任 务 是Next Sentence Prediction(NSP),实现上一个句子对下一个句子的预测,以提取句子间的关系。BERT 模型能够比较准确地训练词向量,横扫了 NLP 领域的多个经典任务,被认为是一项里程碑式的工作,广泛应用于阅读理解、文本写作等领域1,41。但是,BERT 仍然存在性能有限的问题。2.4.4 MASS 和 UNILM由于 BERT 的不足,一些研究团队开始尝试对 BERT进行改进,其中微软于 2019 年提出的 MASS 模型可以一定程度地提

24、升 BERT 的性能问题42。MASS 本质上是将BERT 和 GPT 模 型 进 行 了 融 合,使 用 序 列 到 序 列(Seq2Seq)框架。MASS 通过对连续文本的屏蔽,提高了语言建模能力和文本理解力。MASS 有很强的跨语言理解能力,但是性能上却没有显著的增长。UNILM 是微软进行的另一个尝试43,该模型同时完成单向、双向和 Seq2Seq 训练任务,将三种训练方法的参数进行共享,在自然语言理解和生成任务上都有很好的44Review and Comment综述与评论电子技术应用 2023年 第49卷 第3期表现。但是和 MASS 一样,UNILM 仍然面临参数量巨大、训练时间过

25、长等问题。2.4.5 FLAN 和 T02021 年 9 月,Google 公司发布了其最新的训练模型FLAN44。该模型以 GPT-3 模型为基本框架,在其基础上增加了调优管道,该管道混合了 Transformer 中的全部62 个文本数据集,并在每个数据集中手动构造了 10 个模板,以此为基础面向多个自然语言处理任务进行微调。相比于 GPT-3 多达 175 B 的参数,FLAN 将参数压缩到 137 B,并在绝大多数测验中取得了比 GPT-3 更好的成绩。T0 是“Big Science”团队开发的模型45,该模型以T5 架构为基础,使用 171 个数据集的 1 939 个 prompt

26、,最终仅用 11 B 的参数量就达到了近似于 GPT-3 的效果。FLAN 和 T0 的结果表明,如果在模型中增加一定量的有监督的数据,可以在降低模型规模的情况下不损失甚至于提升模型性能。2.4.6 中文动态词向量训练模型近些年,中文动态词向量训练模型迅猛发展,包括华为、腾讯、百度在内的多家国内企业与高校联合,在这一领域取得了很好的成果。在最具权威的中文自然语言理解榜单 CLUE 中,目前排名第一的是美团的文津预训练模型,该模型参数量为 10 B,于 2022 年 6 月登顶。排在其后的分别是腾讯开发的混元、神农和神州模型,其中前两者为 10 B 级别的数据量。可以看到,目前中文预训练模型已经

27、非常接近人类水平,且发展迅速,2021年 7 月登顶的轻量级(1B)模型孟子目前已经排到了第 8的位置。3 结论与展望3.1 现阶段文本分析技术的难点和未来发展方向计算机文本分析是自然语言处理领域的重要组成部分,目前已经成为计算机科学的一大研究热点。纵观整个文本分析领域的发展脉络,可以发现其总体正沿着从单一任务向多任务、静态分析向动态分析、小模型向大模型再尝试缩小模型的脉络发展。这一脉络也描绘了需求端从追求模型性能到性能和成本共同关注的变化。随着词向量等概念和各种特征提取方法的提出,文本分析算法和效能都在不断提高,但现在仍存在大量难以解决的问题。随着语言自身的不断发展,语料库不断扩充,未来的训

28、练成本和难度也在不断提高,同时由于运算效果的提升具有边际效益递减的性质,以至于方法迭代后提高的效能可能远远不及其带来的产值。另外,自然语言预训练目前面临一个不可能三角困境46,该三角表明,模型尺寸、小样本效果和微调能力三者不可兼得。举例来说,GPT-3 模型在小样本甚至 0 样本效果上表现极佳,但是模型尺寸过大且微调能力不足;BERT 模型虽然尺寸小且有不错的微调能力,但是小样本效果却不尽如人意。因此如何在不改变其他两项性能的情况下不断提升另一项性能,以最终突破不可能三角将是未来研究的重要方向。最近两年发展出的通过增加监督数据进行微调的思路,虽然在几乎不改变 GPT-3 性能的前提下降低了模型

29、尺寸,提高了模型广泛应用的可能性,但是其 10 B 左右的尺寸对于大多数公司和研究机构,尤其是可以更广泛应用的人文社会科学研究机构来说仍是过大的,这大大限制了其应用范畴,也间接导致了经典的、性能相对落后的 BERT 模型仍被广泛应用(参数约 110 M)。因此在未来可以将更多的关注点聚焦 1 B 以内、100 M 左右、甚至更小的小模型中,以使文本分析更为广泛地应用到其他相关领域,哪怕因此损失一些其他的性能。一个“研究-需求”悖论是,具有研发能力的企业或研究机构,此前并不具有使用小模型的需求,因为其通常相比于成本更关注性能,所以直到 GPT-3 把性能扩展到几乎没有可挖掘潜力的时候,模型的成本

30、才开始得到关注。而这也正是小模型的发展相对落后的重要原因之一。3.2 相关领域需求及方法使用3.2.1 文本分类和关键词提取文本分类和关键词提取是文本分析领域最原始且最核心的两项任务。文本分类技术可以被广泛应用于智能化服务4748、图书馆学等文本数据集分类4950、评论识别和网络监督与舆情监测51等多个不同领域,不过现阶段在国内除企业和个别研究机构外,大多数仍在使用传统的静态文本分类算法,这一方面是因为新技术使用的经济成本高且不被其他领域熟知,另一方面因为动态词向量训练要求使用者使用其领域的监督数据库进行微调,而这就增加了使用者的使用成本。相比于文本分类,关键词提取技术在企业中得到了更为广泛的

31、应用,其最典型的例子就是几乎所有头部互联网公司都使用了动态词向量训练进行用户推荐。另外,关键词提取技术也可以应用于所有语料库的关键信息提取,这一技术能帮助研究者节省整理信息的时间成本,使该技术极富有应用潜力。3.2.2 情感分析文本情感分析是文本分析中最重要的任务之一,它被广泛应用于商业领域,包括对用户情感进行分析以提高服务质量52、或进行相应的广告或产品投放53。情感分 析 也 被 广 泛 应 用 于 舆 情 监 控、心 理 治 疗 等 不 同 领域54。在 研 究 层 面 上,情 感 分 析 可 以 广 泛 用 于 传 播学55、心理学56、文学5758等不同领域,帮助学者们更直观、高效且

32、剔除研究者自身情感因素地对社会进行考察,这将彻底颠覆过往的研究现状,开辟全新的研究45Review and Comment综述与评论www.ChinaAET.com领域。与前述文本分类和关键词提取相同,目前在大型企业中这一技术的应用已经非常广泛,但是在其他领域却非常有限且大多停留在早期方法上。这也用事实说明发展小模型文本分析的必要性和重要意义。大多数动态词向量训练模型都可以较为高质量地完成文本分类、关键词提取和情感分析任务,如果使用者有条件根据其所属领域进行微调,则可以以 BERT 模型为基础进行相关任务,这一模型具有体量小的优势,可以节省一定的经济成本。如果有更好的硬件条件或者有小样本训练需

33、求,则可以使用更先进的如 T0 模型进行操作。另外,近两年国内涌现了大量不同尺寸的中文训练模型,如前文提到的文津、孟子,还有小尺寸的albert 等,这些模型在不同任务和不同条件下展示出不同的优势,使用者可以按照需求和硬件设备情况选用最适合自己的模型进行分析。3.3 文本分析技术的未来展望正如前文所提到的“研究-需求”悖论,拥有研究能力的研究者着眼于企业和研究机构的需求,而很少将目光看向更广泛的需求端,这导致文本分析技术成为少部分企业和研究机构的专用,即便其中多数已经开源,但仍因硬件条件要求形成了壁垒,从而使这项可以大大促进人类发展的技术没有发挥全部功效。因此,除了不断精进模型性能以突破不可能

34、三角之外,还应该更多地尝试缩小大模型尺寸或对小模型进行优化,提出更多可以被个人或小型机构使用的成本低、性能相对有限的模型,使其真正走进更多的领域,更好地改变更多人的生产生活。参考文献 1 陈德光,马金林,马自萍,等.自然语言处理预训练技术综述J.计算机科学与探索,2021,15(8):1359-1389.2 李舟军,范宇,吴贤杰.面向自然语言处理的预训练技术研究综述J.计算机科学,2020,47(3):162-173.3 CHOMSKY N.Syntactic StructuresM.Berlin:Walter de Gruyter,2002.4 余同瑞,金冉,韩晓臻,等.自然语言处理预训练模

35、型的研究综述J.计算机工程与应用,2020,56(23):12-22.5 文庭孝.汉语自动分词研究进展J.图书与情报,2005(5):56-65.6 揭春雨,刘源,梁南元.汉语自动分词实用系统 CASS 的设计和实现J.中文信息学报,1991(4):27-34.7 周文帅,冯速.汉语分词技术研究现状与应用展望J.山西师范大学学报(自然科学版),2006(1):25-29.8 LIN C H,LIU J C,HO C H.Anomaly detection using LibSVM training toolsC/2008 International Conference on Informat

36、ion Security and Assurance,2008:166-171.9 熊泉浩.中文分词现状及未来发展J.科技广场,2009(11):222-225.10 黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究J.现代图书情报技术,2001(3):26-29.11 文庭孝,邱均平,侯经川.汉语自动分词研究展望J.现代图书情报技术,2004(7):6-10.12 XUE N.Chinese word segmentation as character taggingJ.Computational Linguistics&Chinese Language Processing,2003,

37、8(1):29-48.13 DEROSE J.Grammatical category disambiguation by statistical optimizationJ.Computational Linguistics,1998,14(1):31-39.14 SUN M S,ZHOU J Y.Some theoretical issues on automatic word segmentation in ChineseJ.Applied Linguistics,1995,23(4):40-46.15 于重重,操镭,尹蔚彬,等.吕苏语口语标注语料的自动分 词 方 法 研 究 J.计 算

38、 机 应 用 研 究,2017,34(5):1325-1328.16 韦人予.中文分词技术研究J.信息与电脑(理论版),2020,32(10):26-29.17 李蓉,刘少辉,叶世伟,等.基于 SVM 和 k-NN 结合的汉语 交 集 型 歧 义 切 分 方 法 J.中 文 信 息 学 报,2001(6):13-18.18 王佳楠,梁永全.中文分词研究综述J.软件导刊,2021,20(4):247-252.19 STRZALKOWSKI T,VAUTHEY B.Information retrieval using robust natural language processingC/Pro

39、ceedings of the 30th Annual Meeting on Association for Computational Linguistics,1992:104-111.20 XU J,CROFT W B.Corpus-based stemming using cooccurrence of word variantsJ.ACM Transactions on Information Systems,1998,16(1):61-81.21 王惠.机器翻译中基于语法、语义知识库的汉语词义消歧研究J.广西师范大学学报(自然科学版),2003,21(1):86-93.22 WILK

40、S Y,STEVENSON M.The grammar of sense:using part-of-speech tags as a first step in semantic disambiguationJ.Natural Language Engineering,1998,4(2):135-143.23 苏祺,昝红英,胡景贺,等.词性标注对信息检索系统性能的影响J.中文信息学报,2005(2):58-65.24 张孝飞,陈肇雄,黄河燕,等.词性标注中生词处理算法研究J.中文信息学报,2003(5):1-5.25 BROWN P,SOUZE P,LAI J,et al.Class-bas

41、ed n-gram models of natural languageJ.Computational Lingus,1992,18(4):467-479.26 BRANTS T,POPAT C,XU P,et al.Large language models in machine translationC/EMNLP-CoNLL,2007.46Review and Comment综述与评论电子技术应用 2023年 第49卷 第3期27 JONES K S.A statistical interpretation of term specificity and its application

42、in retrievalJ.Journal of Documentation,1972,28(1)11-21.28 JONES K S.IDF term weighting and IR research lessonsJ.Journal of Documentation,2004,60(5):521-523.29 PAGE L,BRIN S,MOTWANI R,et al.The PageRank citation ranking:Bringing order to the webC/Proceedings of the 7th International World Wide Web Co

43、nference,1998,161-172.30 MIHALCEA R,TARAU P.TextRank:Bringing Order into TextsC/Proceedings of EMNLP-04 and the 2004 Conference on Empirical Methods in Natural Language Processing,2004,404-411.31 BENGIO Y,DUCHARME R,VINCENT P,et al.A neural probabilistic language modelJ.Journal of Machine Learning R

44、esearch,2003,3:1137-1155.32 MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector spaceJ.Computer Science,2013.33 LE Q,MIKOLOV T.Distributed representations of sentences and documentsJ.arXiv:1405.4053,2014.34 JOULIN A,GRAVE E,BOJANOWSKI P,et al.Bag of tricks for eff

45、icient text classificationJ.arXiv:1607.01759,2016.35 BOJANOWSKI P,GRAVE E,JOULIN A,et al.Enriching word vectors with Subword informationJ.arXiv:1607.04606,2017.36 MATTHEW P,NEUMANN M,IYYER M,et al.Deep contextualized word representationsJ.arXiv:1802.05365,2018.37 JOZEFOWICZ R,VINYALS O,SCHUSTER M,et

46、 al.Exploring the limits of language modelingJ.arXiv:1602.02410,2016.38 RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving language understanding by generative pre-trainingJ.2018.39 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is All You NeedJ.arXiv:1706.03762,2017.40 DEVLIN J,CHANG M W,LEE M W,et al

47、.BERT:pre-training of deep bidirectional transformers for language understandingJ.arXiv:1810.04805,2019.41 岳增营,叶霞,刘睿珩.基于语言模型的预训练技术研究综述J.中文信息学报,2021,35(9):15-29.42 SONG K,TAN X,QIN T,et al.MASS:masked sequence to sequence pre-training for language generationJ.arXiv:1905.02450,2019.43 DONG L,YANG N,WA

48、NG W,et al.Unified language model pre-training for natural language understanding and generationJ.arXiv:1905.03197,2019.44 WEI J,BOSMA M,ZHAO V,et al.Finetuned language models are zero-shot learnersJ.arXiv:2109.01652,2021.45 SANH V,ALBERT W,RAFFEL C,et al.Multitask prompted training enables zero-sho

49、t task generalizationJ.arXiv:2110.08207,2021.46 ZHU C G.,ZENG M.Impossible triangle:what s next for pre-trained language models?J.arXiv:2204.06130,2022.47 吴华瑞,郭威,邓颖,等.农业文本语义理解技术综述J.农业机械学报,2022,53(5):1-16.48 吴宗友,白昆龙,杨林蕊,等.电子病历文本挖掘研究综述J.计算机研究与发展,2021,58(3):513-527.49 石勇,安文录,曲艺.基于文本挖掘的检察起诉决策支持与案卷分类管理系统

50、J.管理评论,2022,34(6):143-152.50 凡庆涛,杜赟,谢海涛,等.人工智能在我国图情领域的研究现状与启示J.新世纪图书馆,2020(9):86-93.51 谢卫红,杨超波,朱郁筱,等.网络舆情监控算法研究与分析J.科技管理研究,2019,39(22):197-205.52 张波,李晨光,张迪,等.面向电力营业厅等服务型场所的情感分析数据集J.计算机应用,2022,42(S1):37-42.53 李曼宁,于晶芸,蒋忠中,等.基于网络视频弹幕情感分析的广告插入机制对消费者冲动购买意愿的影响J.系统管理学报,2021,30(6):1187-1197.54 王颖洁,朱久祺,汪祖民,等

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服