基于表达式的逐层聚合和动态选择的图到方程树模型.pdf

资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2390-2395ISSN 10019081CODEN JYIIDUhttp：/基于表达式的逐层聚合和动态选择的图到方程树模型刘斌*，张倩，魏亚琴，崔学英，智红英（太原科技大学应用科学学院，太原 030024）（通信作者电子邮箱）摘要：现有树解码器仅适合求解单变量问题而求解多元问题的效果欠佳，而大多数数学求解器对真值表达式的错误选择导致训练出现学习偏差。针对上述问题，提出基于表达式的逐层聚合和动态选择的图到方程树（GET）模型。首先，通过图编码器学习文本语义；其次，从方程树

2、的底层开始逐层迭代地聚合数量和未知变量以得到子表达式；最后，结合输出表达式的最长前缀动态地选择真值表达式以实现偏差最小化。实验结果表明，所提模型在Math23K数据集上的精度达到83.10%，相较于图到树（Graph2Tree）模型提升了5.70个百分点。可见，所提模型适用于复杂多元数学问题的求解，并能降低学习偏差对实验结果的影响。关键词：逐层聚合；动态选择；图到方程树；多元数学问题中图分类号：TP391.1 文献标志码：AGraph to equation tree model based on expression layer-by-layer aggregation and dynami

3、c selectionLIU Bin*，ZHANG Qian，WEI Yaqin，CUI Xueying，ZHI Hongying（School of Applied Science，Taiyuan University of Science and Technology，Taiyuan Shanxi 030024，China）Abstract:Existing tree decoder is only suitable for solving single variable problems，but has no good effect of solving multivariate pro

4、blems.At the same time，most mathematical solvers select truth expression wrongly，which leads to learning deviation occurred in training.Aiming at the above problems，a Graph to Equation Tree（GET）model based on expression level-by-level aggregation and dynamic selection was proposed.Firstly，text seman

5、tics was learned through the graph encoder.Then，subexpressions were obtained by aggregating quantities and unknown variables iteratively from bottom of the equation tree layer by layer.Finally，combined with the longest prefix of output expression，truth expression was selected dynamically to minimize

6、 the deviation.Experimental results show that the precision of proposed model reaches 83.10%on Math23K dataset，which is 5.70 percentage points higher than that of Graph to Tree（Graph2Tree）model.Therefore，the proposed model can be applied to solution of complex multivariate mathematical problems，and

7、can reduce influence of learning deviation on experimental results.Key words:layer-by-layer aggregation;dynamic selection;Graph to Equation Tree(GET);multivariate mathematical problem0 引言解决数学单词问题（Math Word Problem，MWP）是自然语言处理领域中具有挑战性的任务，需要基于给定的问题描述来提供一个解决表达式。如图1所示，为了求解出拖拉机工作时间，需要结合文本给出的信息提取出相关数量，同时

8、引入变量x，利用“工作总量=工作时间*工作效率”建立目标方程式。现有研究将MWP定义为表达式生成任务，并且针对问题求解提出一些方法。这些方法主要分为三类：基于序列到序列（Sequence to Sequence，Seq2Seq）1、基于序列到树（Sequence to Tree，Seq2Tree）2和基于图到树（Graph to Tree，Graph2Tree）3。基于Seq2Seq方法，本质上是采用编码器和解码器的结构直接完成从“问题”到“表达式”的映射。Wang 等4使用Seq2Seq方法将输入问题映射到输出表达式，利用数字映射和方程模板技术生成表达式；Huang等5提出添加复制

9、和对齐技术以防止生成虚假数字；Wang等6提出方程归一化技术，通过考虑表达式树的唯一性来对重复方程进行归一化处理。由于缺乏人类问题解决中常见的目标驱动思维，Seq2Seq模型生成的表达式不尽人意。在Seq2Seq方法的基础上，基于Seq2Tree方法应运而生。Seq2Tree的核心思想是将数字映射后的表达式转化为树结文章编号：1001-9081（2023）08-2390-06DOI：10.11772/j.issn.1001-9081.2022071054收稿日期：20220721；修回日期：20221103；录用日期：20221107。基金项目：国家自然科学基金资助项目（11701406）；山

10、西省基础研究计划项目（202103021224274，201901D111261）；山西省省筹资金资助回国留学人员科研项目（2022163）；山西省社会经济统计科研课题（KY 2022 73）；太原科技大学博士科研启动基金资助项目（20212019）。作者简介：刘斌（1983），男，山西古县人，副教授，博士，主要研究方向：应用统计、自然语言处理；张倩（1998），女，山西朔州人，硕士研究生，主要研究方向：自然语言处理；魏亚琴（1998），女，山西晋中人，硕士研究生，主要研究方向：自然语言处理；崔学英（1978），女，山西临汾人，副教授，博士，主要研究方向：图像处理、深度学习；智红英（1980）

11、，女，山西太谷人，副教授，博士，主要研究方向：贝叶斯统计。第 8 期刘斌等：基于表达式的逐层聚合和动态选择的图到方程树模型构，将原有序列解码器替换成树解码器。Xie等7提出目标驱动树结构，以自上而下的方式进行目标分解生成表达树。由于序列编码器不能很好地捕获数量之间的关系和顺序信息，Seq2Tree模型获得了较差的数量表示，生成的表达式也是错误的。为了捕获数量与属性之间的关系，基于Graph2Tree方法沿用目标驱动树解码器，并将序列编码器替换为图编码器。Zhang等3通过集成数量单元图和数量比较图丰富数量表示，保留数值质量从而提高任务性能。以上三种方法虽然能较好地处理单变量问题，但是存在以下问

12、题：一方面，建立表达式时并未对问题中潜在未知量进行建模，且缺乏一种有效的方程表示来处理复杂的多元数学问题，例如方程组问题；另一方面，在数学题求解任务中，只为每个问题提供一个真值表达式，忽略其他等价表达式，会造成训练过程中存在学习偏差。为了解决复杂多元数学问题，本文提出基于表达式的逐层聚合和动态选择的图到方程树（Graph to Equation Tree，GET）模型。采用Word2Vec词嵌入将文本转换为词向量，图作为编码器学习问题文本的潜在数量和变量表示，方程树作为解码器利用题目语义信息，自下而上地逐层聚合数量和变量信息建立子表达式。为了降低训练过程中忽略等价表达式所造成的学习偏差，本文提

13、出等价方程生成算法。该算法依据树的递归性和运算符的对称性为每个问题生成多个等价表达式。在之后的训练中，动态选择与当前输出表达式最长前缀匹配的等价表达式作为目标表达式。在3个数据集的对比实验结果表明，本文模型精度优于经典基准模型。1 GET模型在编码方面，问题文本中的每个单词都被编码为上下文表示。使用 Word2Vec 词嵌入8和双向长短期记忆（Bidirectional Long Short-Term Memory，BiLSTM）网络初始化单词嵌入并提取问题表示；构造解析图、数量图和依赖解析树，用来分析单词与数量之间的逻辑关系；使用图卷积网络（Graph Convolu

14、tional Network，GCN）9进行图学习得到全局上下文表示。在解码方面，使用一个自底向上逐层提取信息的s解码器。解码操作主要分为两阶段：第一阶段，从文本中提取数值信息以及设置未知量构成树的底层，生成由数值、变量和运算符构成的候选表达式；之后，由长短期记忆（Long Short-Term Memory，LSTM）网络对候选表达式进行分类筛选，分类结果为正数的留下，与其余的数量构成树的第二层，重复操作直至候选表达式为空。第二阶段，使用等价生成算法为MWP生成多个等价表达式，并依据当前表达式与等价表达式的最长前缀匹配动态选择合适的真值表达式。图到方程树模型如图2所示。1.1问题描述MWP有

15、两类：算术解题和代数解题。算术解题围绕所求数量，收集和整理各种已知数据，并依据问题条件列出表达式，然后通过四则运算求得表达式的结果。根据表达式中的操作数数量，有一步问题，如“1-0.5”；有多步问题，如“(12+8)/5”。代数解题依据问题条件组成内含已知数和未知数的代数式，并按等量关系列出方程，然后通过对方程进行恒等变换求图1数学单词问题示例Fig.1Example of math word problem图2图到方程树模型Fig.2Graph to equation tree model2391第 43 卷计算机应用出未知数的值。根据问题中的变量数量，有单变量问题，如“5x=20”；有多变

16、量问题，如“x+y=20，5x-y=70”。本文模型主要解决代数题中的多元问题，目标是将问题P映射到一个正确的数学表达式EP，并且最大化生成表达式的概率P(EP|P)。最终表达式可以表示为方程树结构，树中的叶子节点由数量、常量和未知量构成，根节点和内部节点均由运算符构成。1.2图编码器1.2.1问题表征提取对于给定的问题序列P=x1，x2，xn，采用Word2Vec初始化单词标记得到嵌入向量r(xi)。为了捕捉每个单词的表征10，使用BiLSTM学习输入文本的隐藏状态。形式上，编码器以单词嵌入向量作为输入，以生成的文本隐藏状态作为输出。对于正方向而言，根据第i-1步的隐藏状态hi-1和当前单词

17、嵌入r(xi)计算得出第i步的正向隐藏状态hi：hi=BiLSTM(hi-1，r(xi)（1）在反方向上，根据第i-1步的隐藏状态hi-1和当前单词嵌入r(xi)计算得出第i步的反向隐藏状态hi：hi=BiLSTM(hi-1，r(xi)（2）最终的隐藏状态包含了单词的上下文信息，计算方法如下：hi=hi+hi（3）1.2.2图构造通过构造解析图、依赖解析树和数量图，充分考虑数量和单词、数量和数量、单词和单词之间的关系，从而为两个数量确定合适的运算符。解析图对于单词xi，xj P，如果单词之间存在依赖性关系，通过使用有向边bij=(xi，xj)将父节点连接到子节点。依赖解析树解析树是一种结构

18、化的表示形式，包含单词对之间的各种语法关系11。在依赖树的基础上，建立句子内节点之间的关系，并保留边缘标签（如形容词修饰语、数字修饰语、名词主语）。例如，“3”和“hour”、“9.6”和“hectarer”均由边缘“数字修饰语”连接。无论句子结构或短语发生何种变化，模型都可以捕捉到单词对的关系，关联正确的信息来解决问题。对具体问题的依赖解析如图3所示。数量图将问题中的一系列数量节点表示为nP=n1，n2，nl。对于两个数量节点ni，nj np，如果ni nj，则将从ni指向nj的有向边bij=(ni，nj)添加到数量图中。通过该启发式约束可以防止小数减去大数

19、产生负数，影响正确答案的生成。1.2.3图学习输入节点的特征矩阵X（初始状态下为O）和多个图的邻接矩阵AkKk=1，AkAdep，Acom。其中，K 表示图的数量，Ak RN N表示第k个图的邻接矩阵，Adep和Acom分别表示解析图和数量图的邻接矩阵。若图中第i个节点和第j个节点之间存在一条边，则为其邻接矩阵的第i行第j列元素赋值为1，否则为0。利用 GCN 学习图节点的特征。对于构造的多个图，受Vaswani等12提出的Transformer模型启发，在应用残差之前使用K个图卷积网络进行连接。GCN包含两种不同的图卷积操作，分别定义如下：GCN(Ak，X)=GConv2(Ak，GConv1

20、(Ak，X)（4）GConv(Ak，X)=ReLU(AkXTWgk)（5）其中：Wgk表示权重矩阵。对于每个图的邻接矩阵，并行执行GCN学习，连接和投影输出值，最终得到以下值：Z=|k=1KGCN(Ak，O)（6）其中：|表示K个GCN头的连接。然后，图编码器通过层规范层、残差连接和前馈神经网络来增强K头图卷积网络，增强过程如下：L=Z+LayerNorm(Z)（7）F=L+LayerNorm(FFN(L)（8）FFN(x)=max(0，xWf1+bf1)Wf2+bf2（9）其中：F表示每个单词编码的最终向量；FFN(x)表示一个两层前馈神经网络，各层之间使用ReLU激活函数。为了学习全局上下

21、文表示，对所有节点表示应用元素级最小池化操作，将全局特征输入全连接神经网络，生成图表示P：P=FC(MinPool(F)（10）1.3方程树解码器方程树解码器将编码器得到的关于数量和变量的向量表示作为输入，以自下向上的方式，从底部经过逐层迭代得到最图3不同数学问题的依赖解析树Fig.3Dependency resolution trees for different math word problems2392第 8 期刘斌等：基于表达式的逐层聚合和动态选择的图到方程树模型终顶部方程。在树的第一层，构造包含数量和变量的初始集合S，枚举所有可能的操作数与运算符的组合构成候选集合；引入多头注意力再

22、次关注输入文本的信息，利用LSTM细胞对候选表达式进行分类。分类时，LSTM细胞以两个操作数的隐藏向量作为输入，并输出新向量；若分类结果为正数，则构成子表达式，集合S此时包含数量、变量和子表达式。在第二层，枚举集合S和运算符的所有可能表达式并进行分类，根据分类结果更新集合；过程重复，直到候选集合中没有分类为正的表达式。以图2中第三层的候选结果进行分析：现有项包括数量q1 q3、变量v1和子表达式e1、e2；若对表达式e3进行分类，输入子表达式e2和未知变量v1的隐藏向量，并输出表达式e3的新向量。经过编码操作，各个单词标记的隐藏矩阵输出定义如下：H=(h1，h2，hn)（11）为了进一步增强候

23、选表达式捕获MWP特定特征的能力，在分类前引入多头注意力13，得到的上下文向量c定义如下：c=softmax(QKTd)V（12）其中：Q=WqH表示查询矩阵；K=WkH表示键矩阵；V=WvH是值矩阵；d表示隐藏向量维数。利用LSTM中的隐藏向量h和注意力成分中的上下文向量c分类。候选表达式为正的概率计算如下：p=Softmax(FeedForward(h；c)（13）h=DAGLSTM(hi，hj)（14）c=Attention(h，H)（15）其中：hi表示节点i的隐藏向量；hj表示节点j的隐藏向量。1.4等价方程树生成MWP可以通过多个等价表达式自然求解，而之前解决思

24、路是只取其中一个等价表达式作为真值表达式，使求得的表达式匹配标记的真值，忽略其他等价表达式。如果求解器生成一个不同于真值表达式的修正表达式，则被判定为求解错误。修正表达式和真值表达式之间的损失将在训练期间被反向传播到求解器，导致求解器的过度修正，训练存在较大的学习偏差。为了枚举各种可能的表达式方程，设计等价方程生成算法为每个上下文创建不同的等价表达式方程，具体如算法1所示。算法1 等价方程生成算法。函数 Var（tree，root，equlist）。输入方程树tree，树的根节点root；输出等价方程列表equlist。1）初始化方程列表equlist为空；2）构建一个方程树，从下到上递归

25、地检查每个根节点；3）如果根节点是对称运算符（如：加法、乘法），则使用Var交换函数交换节点的左右子树得到一个新树；4）将新树迭代为中缀或前缀数学表达式，并将其添加到方程列表equlist中；5）重复第3）步和第4）步，更新方程列表equlist，直至根节点为空。等价表达式方程的生成示例如图4所示。可以观察到，通过交换“(3.6/3)”和“未知变量x”的位置，得到了一个新的等价表达式方程。在之后的训练过程中，依据问题求解器生成的部分表达式前缀，动态地选择等价表达式作为目标真值表达式，从而降低学习偏差。1.5训练损失给定数据集D=(P，A)，训练过程中的损失函数定义如下：L=yflog p(f)

26、+(1-yf)(1-log p(f)（16）其中：f表示候选样本；yf表示候选样本的真值标签；p(f)表示候选样本为正的概率。2 实验与结果分析 2.1数据集实验采用的数据来自Math23K、Alg514和HMWP（Hybrid Math Word Problems）数据集14：Math23K数据集是目前规模最大的数据集，包含23 161个问题和超过2 000个表达式模板；Alg514数据集包含514个线性代数问题和28个表达式模板；HMWP数据集包含5 491个问题，其中2 955个为单变量线性问题，1 636个为多变量线性问题，900个为单变量非线性问题。2.2基线模型本文将GET模型与以

27、下基线模型进行对比，基线模型的参数设置为原文献中提到的参数：目标驱动树结构（Goal-driven Tree-Structure，GTS）7，通过对表达式的分解完成对目标的分解，从而完成解码操作。Graph2Tree3，将数量单元图和数量比较图集成，利用数字附近的名词来丰富问题中的数量表示。StackDecoder15，一种语义对齐的数学求解器，根据文本语义对运算符进行操作，自动解决MWP。2.3实施设置实验在 NIDIA 2080 TiGPU 设备上进行，使用Python 3.6.5、文本处理库 Spacy 2.1.0 和自然语言工具包（Natural Language Too

28、lKit，NLTK）。设置单词嵌入向量维数为128，而其他所有隐藏向量维数均为 512。使用预先训练的 Word2Vec向量初始化单词嵌入，将低频词或未在词表中的词转换为标识符16未知（UNKnown，UNK）。对于预处理，使用NLTK包和Spacy库对文本进行分词、词性标注和命名实体识别。设置小批量处理大小为64，训练80个时代。使用初始学习率为0.001，drpout率为0.5的Adam优化器优化损失函数。经过学习率调度器的调整，学习率每隔20个周期减半一次。训练时，使用方程归一化技术17得到了唯一的数学表达式。在解码过程中，将波束搜索大小设置为 5。在 Math23K 和HMWP数据集上

29、，采用5倍交叉验证对基线模型和GET模型进行性能评估。2.4结果分析2.4.1对比实验分析GET模型与基线模型在不同数据集上的精度比较如表1所示。可见，在 Math23K 数据集上 GET 模型的精度达到了83.10%，相较于Graph2Tree模型提升5.70个百分点。用于对图4等价表达式生成示例Fig.4Example of equivalent expression generation2393第 43 卷计算机应用比的GTS和Graph2Tree模型均采用自上而下的解码策略，面对变量较多的数学题解题效果不佳。而GET模型采用自下而上的策略，设置一个或多个未知变量，模拟人类解决复杂问题时

30、的抽象过程；进一步利用方程结构信息，构造子表达式，从而解决一部分复杂题目。在Alg514和HMWP数据集上，StackDecoder的精度低于30%，原因在于通过堆栈生成的数学表达式，忽略了问题中方程之间的语义转换，导致文本表示和表达式生成的精度较低。鉴于GTS和Graph2Tree仅关注单变量算术问题，扩展到方程组问题需要逐个解码方程并且确定方程顺序；方程组中的方程在本质上是无序的，确定顺序会增加额外的计算负担。因此 GTS和 Graph2Tree在 Alg514和 HMWP数据集上实验效果欠佳。问题表达式长度对实验精度的影响如图5所示。结果表明，无论面对较短或较长的问题表达式，GET模型的

31、表现都优于 GTS 和 Graph2Tree。尽管如此，随着表达式长度的增加，GET 模型性能会迅速下降。造成这种现象的原因有两个：1）较长的表达式与问题复杂性直接相关，通常需要更多辅助信息，从而使本文模型受限；2）数据集中可用于训练的数据数量不足，并且只有少数问题存在较长的表达式。2.4.2消融实验分析为了验证GET模型中各成分的有效性，主要是解析图、数量图、多头注意力和等价方程树的设计，本文做了消融实验，实验结果如表2所示。特别地，“GET”表示本文提出的模型，“GET w/o解析图”表示不使用解析图训练的模型，“GET w/o数量图”表示不使用数量图训练的模型，“GET w/o多头注意力

32、”表示不使用多头注意力训练的模型，“GET w/o等价方程树”表示不使用等价方程树训练的模型。通过将GET与其他4个模型的消融实验结果比较，发现消融模型实验精度均显著下降，说明各个成分对GET模型的性能有一致的积极影响。联合观察“GET w/o解析图”和“GET w/o数量图”的性能，推断出解析图比数量图更重要。主要是因为依赖解析是理解语义信息的关键，可以捕获同一个句子中单词之间的局部关系和不同句子之间各个单词的长期关系。考虑到文本描述中数量和单词之间的关系，数量图的构造是合理的。GET和“GET w/o多头注意力”这两组对比实验结果表明，在去除多头注意力成分后精度下降1.24个百分点；验证多

33、头注意力的引入有助于提取文本的全局特征、数量相关特征、数量对特征和问题相关特征，从而捕获上下文全局信息。对比表2可以看出，使用等价方程树训练的GET相较于不使用等价方程树训练的“GET w/o等价方程树”在Math23K数据集的精度提高1.67个百分点。由此可见，利用等价生成算法生成多个等价表达式，在一定程度上可以降低学习偏差，揭示等价方程树对MWP解题的有效性。2.4.3案例分析本文对Graph2Tree、GTS和GET模型生成的表达式进行的案例研究如图6所示。为了方便起见，将表达式统一转换为中缀形式。图6经典案例Fig.6Typical examples在例1中，GTS和Graph2Tre

34、e生成的表达式错误。由于它们不能区分3个实体杨树、柳树和松树，错误地识别三者的顺序，从而作出不正确的预测，预示共指消解能力对于解决MWP是很重要的。而GET模型引入未知变量，根据上下文关系列出方程，可以解决涉及共消指解能力的类似题目。在例2中，涉及路程知识点，GTS和Graph2Tree没有很好地解决问题。但GET模型成功捕获了小兵和小军两人路程差这一重要信息并借助未知变量以此建立方程。在例3中，GET模型将小明答对、答错或不答题目数设置为x和y；依据“共有20道题”和“答对加5分，答错或不答倒扣表1不同模型的精度对比单位：%Tab.1Precision comparison of diffe

35、rent modelsunit：%模型StackDecoderGTSGraph2TreeGET不同数据集中的精度Math23K66.0075.6077.4083.10Alg51428.8652.1456.7260.39HMWP27.4041.5043.2650.85图5表达式长度对精度的影响Fig.5Influence of length of expression on precision表2GET模型的不同成分在Math23K数据集中的消融实验结果单位：%Tab.2Ablation experimental results of different components of GET mo

36、del on Math23K datasetunit：%模型GETGET w/o解析图GET w/o数量图精度83.1082.2082.49模型GET w/o多头注意力GET w/o等价方程树精度81.8681.432394第 8 期刘斌等：基于表达式的逐层聚合和动态选择的图到方程树模型1分，最终得分70”建立相应方程。而GTS和Graph2Tree因未能理清逻辑，在重复使用数字的情况下列出错误表达式。在例4中，如果按照GTS和Graph2Tree的思想建立表达式，出错的概率极大，因为题目涉及的关键词“少 100个”和“超过20个”极易产生混淆。若将问题中需要的天数设置成未知变量，以“玩具订货

37、任务”建立关系，能避免表达式过长导致错误使用运算符情况的发生。3 结语本文针对主流树求解器仅适合求解单变量问题，以及无法选择合适的真值表达式作为评估标准而导致训练出现偏差等问题，提出基于子表达式的逐层聚合以及真值表达式的动态目标选择的图到方程树模型。实验结果表明，本文模型的精度相较于树模型有较大提高，可以较好地解决复杂的多变量数学问题。但是本文还存在不足：求解器是通过单一的训练例子进行学习，无法探索各种案例之间的内在规律，并将它推广到新的例子中。在未来的研究工作中，将设计具有类比学习性能的模型，以期求解器可以举一反三式解题，进一步提高解题率。参考文献（References）1 WU Q Z，

38、ZHANG Q，WEI Z Y，et al.Math word problem solving with explicit numerical values C/Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and 11th International Joint Conference on Natural Language Processing.Stroudsburg，PA：ACL，2021：5859-5869.2 WU Q Z，ZHANG Q，FU J L，et

39、 al.A knowledge-aware sequence-to-tree network for math word problem solving C/Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2020：7137-7146.3 ZHANG J P，WANG L，LEE R K W，et al.Graph-to-tree learning for solving math word problems C/Proceedin

40、gs of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，PA：ACL，2020：3928-3937.4 WANG Y，LIU X J，SHI S M.Deep neural solver for math word problemsC/Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2017：845-854.

41、5 HUANG D Q，LIU J，LIN C Y，et al.Neural math word problem solver with reinforcement learningC/Proceedings of the 27th International Conference on Computational Linguistics.Stroudsburg，PA：ACL，2018：213-223.6 WANG L，WANG Y，CAI D，et al.Translating a math word problem to an expression treeC/Proceedings of

42、 the 2018 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA：ACL，2018：1064-1069.7 XIE Z P，SUN S C.A goal-driven tree-structured neural model for math word problems C/Proceedings of the 28th International Joint Conference on Artificial Intelligence.California：ijcai.org，2019

43、：5299-5305.8 王伟，赵尔平，崔志远，等.基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法 J.计算机应用，2021，41（8）：2193-2198.（WANG W，ZHAO E P，CUI Z Y，et al.Disambiguation method of multi-feature fusion based on HowNet sememe and Word2vec word embedding representation J.Journal of Computer Applications，2021，41（8）：2193-2198.）9 张继杰，杨艳，刘

44、勇.利用初始残差和解耦操作的自适应深层图卷积 J.计算机应用，2022，42（1）：9-15.（ZHANG J J，YANG Y，LIU Y.Adaptive deep graph convolution using initial residual and decoupling operationsJ.Journal of Computer Applications，2022，42（1）：9-15.）10 QIN J H，LIANG X F，HONG Y N，et al.Neural-symbolic solver for math word problems with auxiliary

45、tasksC/Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and 11th International Joint Conference on Natural Language Processing（Volume 1：Long Papers）.Stroudsburg，PA：ACL，2021：5870-5881.11 LIN X，HUANG Z Y，ZHAO H K，et al.HMS：a hierarchical solver with dependency-en

46、hanced understanding for math word problem C/Proceedings of the 35th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2021：4232-4240.12 VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need C/Proceedings of the 31st International Conference on Neural Information Processing S

47、ystems.Red Hook，NY：Curran Associates Inc.，2017：6000-6010.13 LI J R，WANG L，ZHANG J P，et al.Modeling intra-relation in math word problems with different functional multi-head attentionsC/Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg，PA：ACL，2019：616

48、2-6167.14 LAN Y H，WANG L，ZHANG Q Y，et al.MWPToolkit：an open-source framework for deep learning-based math word problem solversC/Proceedings of the 36th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2022：13188-13190.15 CHIANG T R，CHEN Y N.Semantically-aligned equation generation

49、for solving and reasoning math word problemsC/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies，Volume 1（Long and Short Papers）.Stroudsburg，PA：ACL，2019：2656-2668.16 PATEL A，BHATTAMISHRA S，GOYAL N.Are NLP mode

50、ls really able to solve simple math word problems C/Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.Stroudsburg，PA：ACL，2021：2080-2094.17 HUANG S F，WANG J W，XU J，et al.Recall and learn：a memory-augmented sol

展开阅读全文