基于混合注意力机制的中文孤立词手语识别.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

基于混合注意力机制的中文孤立词手语识别.pdf

1、2023 年第 10 期194智能技术信息技术与信息化基于混合注意力机制的中文孤立词手语识别陈晓燚1 杨波1 余辉1 黄国航1CHEN Xiaoyi YANG Bo YU Hui HUANG Guohang 摘要手语识别技术能帮助听障人士与健听人士进行交流。当前，随着社会的快速发展，深度学习技术也为手语识别工作提供了一定的技术支持。然而在手语识别任务中，使用传统的卷积神经网络对手语视频进行时空特征的提取时，存在特征提取不充分而导致识别率低的问题。除此之外，由于手语视频中因背景光照、表演者体态不一致等问题也会影响到网络模型的识别效果。为解决上述问题，使用了一种基于混合注意力机制的手语识别模

2、型，所提及的模型通过添加混合注意力机制的方式，用于增强对手语动作中重要区域的关注，并使用空间变换网络来增强模型的空间不变性，最终在 SLR 手语词数据集上完成实验验证。实验结果表明，所提及的模型准确率优于 3DCNN、CNN 结合 LSTM 等主流模型，能够有效提取手语视频中的时空特征，并提高对手语动作的识别能力。关键词深度学习；注意力机制；手语识别；残差网络；长短记忆神经网络 doi：10.3969/j.issn.1672-9528.2023.10.0411.中南民族大学计算机科学学院湖北武汉 4300740 引言我国第二次残疾人抽样调查显示，我国约有 2780 万人受到听力障碍的影响，

3、占全国残疾人数的 24%以上1。这些听障人士在与健听人士交流时常常遇到沟通障碍，影响社会融入和生活质量。自动化手语识别技术能够有效解决这一问题，使得听障人士能更加容易与健听人士进行交流和沟通，提高社会参与度和生活质量。因此，推广和应用自动化手语识别技术具有极其重要的意义，可以促进听障人士更好地融入社会，建设一个更具包容性和友善性的社会。1 相关工作手语识别的研究已经在国内外广泛展开，涵盖了理论和技术方面的诸多工作。根据不同的数据处理方法，手语识别技术可以分为三种研究方向，其总结如下。第一种为基于可穿戴传感器的手语识别技术。使用传感器设备来获取手势变化信号和上肢的运动轨迹，从而进行建模实现手语翻

4、译。在 1983 年，Grimes 等人2最早使用数据手套进行手语识别研究并实现对美国手语的识别。此后，越来越多的手语识别研究者利用数据手套进行手语识别的研究。Oliveira 等人3采用双手数据手套对手语动作进行捕捉，并送入至神经网络中识别，实现对英文单词的识别。Lin等人4采用摄像头去获取穿戴颜色手套的人的数据，并对这些图像数据进行颜色分割等数据预处理工作。虽然基于传感器的手语识别工作取得了巨大的进步，但这些设备需要手语表演者遵守特定佩戴要求，整个过程较为繁琐。第二种为基于传统算法的手语识别技术。主要使用图像处理、序列和分类算法等传统方法来实现手语识别。Maharni等人5提出一个基于支持

5、向量机的手势动作分类系统。Liu等人6利用具有测量不同特征值之间的距离实现分类的 K 值近邻方法对手势进行识别。Zhang 等人7提出一个结合 DTW（dynamic time warping）和 HMM（hidden markov model）的模型用于识别连续手语视频，实验结果表明该方法能够有效降低词错率。虽然基于传统方法的手语识别工作在准确率上已经取得了一定的成果，但由于人工计算的局限性和手势动作的复杂性，导致使用人工设置特征会极大地增加手语识别的工作量。因此越来越多的研究者开始投入基于深度学习的手语识别工作中。第三种为基于深度学习的手语识别技术。利用神经网络进行高层次特征的提取和分类识

6、别。Koller 等人8将 CNN（convolutional neural networks）与 HMM 结合针对连续手语句子在 PHOENIX-2014 数据集上取得了较高的识别率。考虑到手语视频时序的问题，Tran 等人9将传统的二维卷积扩展到三维卷积对视频帧之间的时间特征进行获取。Pigou等人10基于 CNN 结构对人体的手部特征进行捕捉，并构造了一个意大利手语识别系统，在该系统上对意大利手语数据集进行识别达到 91.7%的准确率。Cui 等人11为了利用视频中的时 2023 年第 10 期195智能技术信息技术与信息化间序列信息来提取视频的高级特征，使用 CTC 对时间片段进行标记

7、并将 CNN 结构和 RNN（recurrent neural network）结构的网络结合来提高手语视频的识别率。尽管手语技术得到了很好的发展，但仍然存在一些挑战和限制。例如，手语是一种复杂的语言形式，手势的形状、位置、方向、速度等因素都会对其意义产生影响，如何充分提取手语特征信息成为手语识别的关键。此外，手语的使用也受到环境影响，如光线、噪声等。同时，手语识别技术通常需要大量训练数据和复杂的算法，这也增加了应用的难度和成本。因此，尽管手语技术有广泛的应用前景，但还需要进一步研究和改进，以适应不同的场景和需求。为了进一步提高手语词汇识别的准确率，并解决在手语识别任务中由于手语动作过于复杂而

8、导致模型无法有效关注到手语动作中重要特征的问题。本文在卷积神经网络结合循环神经网络的识别模型中引入了混合注意力机制和空间变换网络以解决上述问题，并与其他算法在中文手语词汇上的识别准确率进行比较。2 结合混合注意力机制的手语识别模型2.1 模型框架本文整体模型框架如图 1 所示。首先，将手语视频分割为连续的图像帧，使用余弦相似度的方法去除冗余的帧，然后将连续的图像帧传入空间变换网络（spatial transformer networks，STN）12进行仿射变换用于提升空间不变性。然后将序列传入至残差网络（residual network，ResNet）模型中提取每个图像帧的特征表示，同时利用

9、 CBAM（convolu-tional block attention module）13使特征信息能被更好地提取。最后将所提取的空间特征通过线性层输入至长短期记忆网络（long short-term memory，LSTM）提取视频序列的表征，送入 softmax 层进行视频分类输出，完成手语识别任务。图 1 整体模型框架传统的卷积神经网络有着随着卷积层和池化层的加深发生梯度爆炸和消失的问题，从而导致随着网络层数的加深预测的效果反而变差，但手语识别工作需要尽可能地获取深层次的图像特征信息。为了解决深度卷积神经网络层数增加导致性能下降的问题，He 等人14提出了 ResNet，采用残差学习块

10、来构建网络。ResNet 是由多个残差学习块堆叠而成的网络结构，可以有效提高模型的性能和鲁棒性，残差学习块如图 2 所示。图 2 残差学习块使用跳连接的方式在输入通道和输出通道间增加一条联系通道，使信息直接从输入到输出。以这种方式避免产生随着网络层数的加深导致的信息的缺失的问题，从而保证信息的完整性。通过使用残差模块增加网络深度，手语视频识别任务中的神经网络可以同时保留底层特征和深层特征，而不会导致过多的重复学习。这样可以得到最优的特征表示，以提高手语识别的准确性和语义信息的表征。ResNet 的网络层数越大，计算量越大，精度也越高，常用的有 ResNet34、ResNet50、ResNet1

11、01，针对手语视频识别模型，过深的网络层数可能会过于在意细节而忽略整体，所以本文采用 ResNet50 作为手语特征提取模型。2.2 混合注意力机制注意力机制可以通过自主学习的方式调整信息对应权重，对任务感兴趣的区域增加关注度，对无用的信息减小关注度，使卷积神经网络能更好地提取对分类有用的特征信息。本文采用 CBAM 注意力机制模块增强对手语识别的关键特征提取。CABM 由通道注意力机制（channel attention module，CAM）和空间注意力机制（spatial attention module，SAM）模块组成。在进行手语视频识别时，CAM 模块先通过计算通道的特征的重要程度

12、再赋予该通道的权重系数，这使重要的通道权重增大，不重要的通道权重减小，用于筛选出重要的通道特征，CAM 模块计算公式为：MC(F)()()()()g()ax()MFMLP Av Pool FMLP MPool F=+C （1）SAM 模块聚焦特征信息在特征图上的位置，通过平均池化和最大池化对输入进行压缩采样，将其输入至卷积层来进行权重的学习，以此关注特征图上的关键信息，方便提取对手语识别分类有用的关键特征信息。SAM 模块计算公式为：()7 7()(),()xsMFfAvgpool FMaxpool F=（2）本文按照先放通道注意力后增加空间注意力的方式将CBAM 添加至 ResNet 中，添

13、加 CBAM 后的结构如图 3所示。2023 年第 10 期196智能技术信息技术与信息化图 3 嵌入 CBAM 模型结构将 CBAM 注意力机制与 ResNet 相结合，可以提高卷积神经网络的性能和泛化能力。在卷积神经网络中，每个卷积层都会提取不同特征，但并不是所有特征对于分类任务都是有用的。CBAM 注意力机制可以自适应地学习输入特征图中重要的位置和通道，并通过调整特征图的权重来突出这些有用的特征。这种注意力机制可以帮助网络更好理解图像，减少冗余信息和噪声的影响，提高识别准确率。在处理中文手语孤立词识别任务时，采用卷积神经网络与 CBAM 注意力机制结合的模型可以提高手语视频的特征提取能力

14、和分类准确性。这种混合注意力机制的模型通过自适应地学习手语视频中空间和通道上的重要性权重，帮助网络更加注重关键特征的提取，并过滤掉无关信息和噪声。由于手语视频中包含大量的空间信息，使用 CBAM 注意力机制可以使网络在提取这些重要的空间特征方面更为敏感，从而提高分类准确率。因此，将 CBAM 注意力机制添加到卷积神经网络中是处理中文手语孤立词识别任务的有效方法，能够帮助网络更好理解手语视频，实现更准确的分类。2.3 空间仿射变换在现实生活中，手语动作特征提取会受到背景、光照、遮挡物等因素的影响，如人体所处的环境位置、遮挡物不同会影响手语特征提取。手语者肤色的不同导致反射光不同也会导致特征提取不

15、准确，从而降低对手语识别的准确率。因此在现实环境中的手语识别应用会受到极大的挑战。针对上述问题，本文算法模型引入 STN，来改善因背景杂乱、遮挡、光照所带来的问题，使手语识别模型具有空间不变性。2015 年，Google DeepMind 提出了 STN 结构，旨在解决传统卷积神经网络在空间变换方面的不足。STN 不仅可以实现平移、缩放和旋转不变性，还可以嵌入卷积神经网络中，以对数据进行变换和对齐，从而提高分类的准确性。STN 结构由定位网络、网格生成器、采样器三部分组成，如图 4 所示。图 4 STN 模型结构第一部分定位网络通过对输入图进行仿射变换系统设计，经过平移、缩放、剪切等系数计算出

16、回归参数。第二部分网络生成器根据产生的参数得出变换图坐标和原坐标的映射关系 T，以此映射关系 T生成坐标网格点。第三部分的采样器通过映射关系 T使用双线性插值方法以及输入特征图进行像素填充得到目标特征图。根据上述论述，由于 STN 的空间变换特性，可以添加在网络第一层对整个输入数据进行变换，也可以嵌入在卷积神经网络的中间层对部分特征图进行变换。为解决受背景干扰、光照、空间不变性欠缺所带来的问题，本文先对处理好的视频帧利用 STN 进行空间仿射变换用于修正人体的空间位置并加强对人体区域特征的提取，以此提高手语识别模型的准确率。2.4 基于循环神经网络 LSTM 提取时空特征手语识别任务需要关注

17、视频的空间特征和时间特征，ResNet 能提取大量有用的空间特征信息，但在时间特征信息提取上略有不足。而 RNN 模型可以有效处理可变长的数据并建模，具有天然的时间深度用于时序特征的提取。但传统的 RNN 结构在模型训练时会由于时间跨度过长的问题引发网络梯度消失或爆炸，而手语识别任务需要对网络时序长期依赖。为了解决这类问题，本文采取 LSTM 网络用于手语识别的时序建模。LSTM 网络由三个门、激活函数、记忆单元组成，网络结构如图 5。图 5 LSTM 结构图LSTM 试图通过在经典 RNN 使用的隐藏状态之外提出一个细胞状态来克服消失梯度问题。此外，LSTM 具有专门的输入、忘记和更新门，可

18、以最大限度减少长期依赖的递减影响。其中遗忘门 ft见式（3），表示上一时刻能有多少信息需要被舍弃和保存，其余有用的信息在当前时刻来处理梯度消失和爆炸的问题。更新门 it见式（4）。用于对新的记忆见式（5）进行过滤运算，通过将不需要的信息舍弃并保留新的有用信息。将网络中上个时刻保留的记忆与当前时刻保留的记忆相加得到新的记忆 Ct计算见式（6）。ot见式（7）。与新的记忆 Ct通过 tanh 函数得到的新的信息进行运算，最后 2023 年第 10 期197智能技术信息技术与信息化得到当前所需要的信息进行输出，计算见式（8）。()1,tfttffWhxb=+（3）1(,)tittiiWhxb=+（4

19、）（5）（6）1(,)tottooWhxb=+（7）ht=ottanh(Ct)（8）3 实验分析3.1 实验数据集与评价指标本文实验采用的是中国科学技术大学采集的中国孤立词手语视频数据集 SLR-Dataset15-17。SLR-Dataset 是由中国科学技术大学 Huang 等人利用微软设备 Kinect 进行录制收集，数据集由 500 类的独立汉语手语词组成。每类孤立词由 50 个参与者进行录制，每位参与者分别录制 5 次，视频样例中包含深度、RGB、骨架关节点数据，所采集的视频样例都由专业的 CSL 老师进行标注，共有 125 000 个视频样本。本文主要研究中文孤立词识别，使用 AC

20、C指标对中文孤立词手语识别模型进行度量。3.2 实施细节实验采用了PyTorch1.8架构来构造本文所要完成的模型，GPU 为 NVIDIA RTX 3090，操作系统为 Ubuntu20.04，处理器为 Intel(R)Xeon(R)Glod 6130，详细实验环境配置见表 1 所示。表 1 实验环境配置单参数值GPU3090操作系统Ubuntu20.04深度学习框架PyTorch迭代次数50学习率0.000 1优化器Adam本文研究的是中文手语孤立词翻译，学习率设置为0.000 1，优化器采用 Adam 调整学习率，批次大小设置为16，进行 50 次 Epoch 的迭代。为了验证本文使用方

21、法的有效性和泛化能力，将本文模型与其他模型在 SLR-Dataset 进行对比，模型包括 iDTs18、C3D19、3D ResNet50、ResNet+L-STM+Global Attention 20。此外，本文还进行了消融实验，通过实验来证明所使用的方法的优越性和可行性。3.3 与其他基准方法的对比对于本文所使用的方法与其他手语模型在中国科学技术大学 SLR 数据集的准确率进行对比，由表 2 所示。可以看出，由于 iDT 是基于手工特征提取的方法，其表现效果并不佳，在结合 RGB 视频和光流进行特征融合后仅仅取得了 68.5%的识别率。对于 C3D 模型来说，虽然增加了一维空间在时间维度

22、上进行了特征的提取，但由于 C3D 模型对时间序列上的处理是基于连续图像卷积运算，所以取得效果并没有十分明显。3DResNet 模型在视频分类任务上具有较好的准确率，但由于需要大量的计算资源，计算复杂度较高，所以需要庞大的资源进行训练。ResNet+LSTM+Global Attention 模型利用 ResNet 提取空间特征，LSTM 提取时序特征，在 CSL 数据上取得了 84.52%的准确率，但在针对空间特征提取上未能有效地关注手语视频中重要的特征。空间特征是手语中非常重要的一部分，包括手势的位置、方向、形状等信息。而这些信息在传统的图像或视频处理方法中可能被忽略或提取不够准确，因此需

23、要更加专门化的手语识别技术来解决这个问题。表 2 不同模型实验结果对比MethodsData formatAcc/%iDTsRGB 视频+深度+轨迹68.5C3DRGB 视频+深度74.73D ResNetRGB 视频83.8ResNet+LSTM+Global AttentionRGB 视频85.43本文方法RGB 视频86.72经过分析，传统的 CNN 与 LSTM 构成的 CRNN 模型虽然可以对手语视频进行时空特征的提取，但由于传统CNN 随着网络层次的加深会产生梯度消失或爆炸的情况，会对手语视频识别的准确率产生影响。所以本文中采取用ResNet50 代替传统 CNN 不

24、仅能解决网络梯度消失爆炸的情况，还能提取更深层次的特征信息以提高网络识别的准确率。此外，为了更好提取手语的空间特征信息，提升模型性能，本文模型添加 CBAM 注意力机制,使网络更关注其感兴趣的区域，利用通道注意力机制更加准确定位网络所感兴趣的通道，再利用空间注意力机制找出区域内有用的特征信息，达到聚焦特征图像的重要信息并抑制无用区域的响应的目的。同时，为了减弱数据集中因光线、体型不一致带来的影响，本文通过添加 STN 经过仿射变换以减小外界因素对识别效果带来的影响，使网络具有更强的空间不变性和鲁棒性，从而提升模型的准确性和泛化能力。最终，模型在 SLR 数据集上取得了 86.72%的准确率。图

25、 6 为本文模型计算中训练集和测试集的 Loss 值的变化率图，图 7 为训练集和测试集准确率的变化图。2023 年第 10 期198智能技术信息技术与信息化图 6 Loss 变化率图 7 Acc 变换率3.4 与其他基准方法的对比为了验证本文模型的各个模块包括 ResNet 特征提取网络、CBAM 注意力模块和 STN 网络在孤立词手语识别任务上的有效性，在数据集 SLR-500 下，选用 ResNet50+LSTM作为基线模型进行消融实验，实验结果见表 3 所示。表 3 不同模型实验结果对比MethodsAcc%CNN+LSTM70.52ResNet34+LSTM82.52ResNet50

26、+LSTM83.59ResNet50+LSTM+STN85.21ResNet50+LSTM+CBAM85.29本文方法86.72通过表 3 分析可知，ResNet 是一种深度卷积神经网络，相较于传统的 CNN，ResNet 能够更好地解决深度网络中的梯度消失和梯度爆炸问题，并且能够提取更深层次、更抽象的特征信息，从而进一步提高网络对 RGB 手语视频的识别准确率。使用 ResNet50 替代 CNN 作为空间特征提取器在Acc 指标上提高了 13.07%。在网络深度的选择方面，通过表 3 可以看出，ResNet50+LSTM 模型比 ResNet34+LSTM 模型

27、在中文手语孤立词的任务上表现要优异，在 Acc 指标上要高 1.07%。其原因是 ResNet50+LSTM 的网络层数比 ResNet34+LSTM 更深，能够在 RGB 手语视频中提取到更多深层次的特征信息，从而提高手语识别的准确率。通过对比ResNet+LSTM+STN和ResNet+LSTM的结果，嵌入 STN 模块的模型在准确率上有 1.62%的提高，证实了STN 的有效性。原因是 STN 模块能够减少来自数据集的光线强度和体型差异等外在因素对识别结果的影响，以提升网络的空间不变性与鲁棒性。根据 ResNet+LSTM 和 ResNet+LSTM+CBAM 模型对比得出，嵌入 CBA

28、M 注意力机制能帮助模型在孤立词分类任务上有 1.7%的提升。原因是 CBAM 注意力机制能使网络更关注其感兴趣的区域，利用通道注意力机制能更加准确地定位网络所感兴趣的通道，再通过空间注意力机制找出区域内有用的特征信息，达到聚焦特征图像的重要信息并抑制无用区域的响应。综上所述，本文各个模块在中文孤立词识别任务上提高了分类的精度，在本文模型中显现出了其重要性，证明了本文模型的科学性、可行性。4 总结与展望针对中文手语词识别任务上存在的空间特征提取不充分的问题，本文使用了一种嵌入空间通道注意力机制的手语识别模型。该模型旨在通过深度学习技术和有效的网络架构，提高在中文手语翻译任务中的鲁棒性和准确性，

29、进一步增强对单个手语词汇的识别能力。最后在 SLR-500 分类的中文孤立词数据集上验证了基于混合注意力机制的孤立词手语识别模型的性能。结果表明该模型准确度和可靠性较高，验证了该模型的实用性和有效性。尽管本文模型性能表现不错，但是该模型在计算速度方面仍有提高的空间，在后续工作中将继续研究并尝试将该模型应用于更具挑战性的连续手语识别任务中。参考文献：1 陶唐飞,刘天宇.基于手语表达内容与表达特征的手语识别技术综述 J.电子与信息学报,2022,44(1):1-19.2 GRIMES G J.Digital data entry glove interface device.US4 414 537

30、P.1983-11-08.2023 年第 10 期199智能技术信息技术与信息化3 OLIVEIRA T,ESCUDEIRO N,ESCUDEIRO P,et al.The virtualsign channel for the communication between deaf and hearing usersJ.IEEE revista iberoamericana de tecnologias del aprendizaje,2019,14(4):188-195.4 LIN Y,CHAI X,ZHOU Y,et al.Curve matching from the view of m

31、anifold for sign language recognitionC/Computer Vision-ACCV 2014 Workshops.Beijing:CAS,2015:233-246.5 MAHARANI D A,FAKHRURROJA H,MACHBUB C.Hand gesture recognition using K-means clustering and support vector machineC/2018 IEEE Symposium on Computer Applications&Industrial Electronics(ISCAIE).Piscata

32、way:IEEE,2018:1-6.6 LIU Y,WANG X,YAN K.Hand gesture recognition based on concentric circular scan lines and weighted K-nearest neighbor algorithmJ.Multimedia tools and applications,2018,77(1):209-223.7 ZHANG J,ZHOU W,XIE C,et al.Chinese sign language recognition with adaptive HMMC/2016 IEEE Internat

33、ional Conference on Multimedia and Expo(ICME).Piscataway:IEEE,2016:1-6.8 KOLLER O,ZARGARAN S,NEY H,et al.Deep sign:Enabling robust statistical continuous sign language recognition via hybrid CNN-HMMsJ.International journal of computer vision,2018,126(12):1311-1325.9 TRAN D,BOURDEV L,FERGUS R,et al.L

34、earning spatiotemporal features with 3d convolutional networksC/Proceedings of the IEEE International Conference on Computer Vision.Piscataway:IEEE,2015:4489-4497.10 PIGOU L,DIELEMAN S,KINDERMANS P J,et al.Sign language recognition using convolutional neural networksC/Computer Vision-ECCV 2014 Works

35、hops.Ghent:ELIS,2015:572-578.11 CUI R,LIU H,ZHANG C.Recurrent convolutional neural networks for continuous sign language recognition by staged optimizationC/IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2017:7361-7369.12 JADERBERG M,SIMONYAN K,ZISSERMAN A.Spatial transfo

36、rmer networksJ.Advances in neural information processing systems,2015(28):2017-2025.13 WOO S,PARK J,LEE J Y,et al.Cbam:Convolutional block attention moduleC/OL/Proceedings of the European conference on computer vision(ECCV).Berlin:Springer,2018.2022-10-23.https:/doi.org/10.48550/arXiv.1807.06521.14

37、HE K,ZHANG X,REN S,et al.Deep residual learning for im-age recognitionC/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:770-778.15 PU J,ZHOU W,LI H.Sign language recognition with multi-modal featuresC/Advances in Multimedia Informa-tion Processing-P

38、CM 2016:17th Pacific-Rim Conference on Multimedia,Xian,China,September 15-16,2016,Proceed-ings,Part II.Cham:Springer International Publishing,2016:252-261.16 LIU T,ZHOU W,LI H.Sign language recognition with long short-term memoryC/2016 IEEE international conference on image processing.Piscataway:IEE

39、E,2016:2871-2875.17 PU J,ZHOU W,ZHANG J,et al.Sign language recognition based on trajectory modeling with hmmsC/MultiMedia Modeling:22nd International Conference,MMM 2016,Miami,FL,USA,January 4-6,2016,Proceedings,Part I 22.Cham:Springer International Publishing,2016:686-697.18 XU P,YU Z,JIN W,et al.

40、Action recognition by improved dense trajectoriesJ.Journal of system simulation,2017,29(9):2053.19 TRAN D,BOURDEV L,FERGUS R,et al.Learning spatiotemporal features with 3d convolutional networksC/Proceedings of the IEEE International Conference on Computer Vision.Piscataway:IEEE,2015:4489-4497.20 朱连淼,杨波,郭佳君,等.基于全局注意力机制的汉语手语词翻译 J.中南民族大学学报（自然科学版）,2022,41(4):499-505.【作者简介】陈晓燚（1997），男，湖北武汉人，硕士研究生，研究方向：深度学习，计算机视觉。（收稿日期：2023-05-13 修回日期：2023-05-29）

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？