基于机器视觉的手语翻译系统的设计与应用.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

基于机器视觉的手语翻译系统的设计与应用.pdf

1、中国科技期刊数据库工业 A 收稿日期：2023 年 12 月 28 日作者简介：陈国润（2002），男，汉族，广东广州人，本科，研究方向为机器视觉。-97-基于机器视觉的手语翻译系统的设计与应用陈国润张子秋冯甜甜（通讯作者）广东省广州市白云学院，广东广州 510450 摘要：摘要：本论文致力于设计一种基于机器视觉和人工智能技术的手语翻译系统，旨在改善聋哑人士的日常交流和生活品质。通过机器视觉技术识别手语手势，并结合自然语言处理将其翻译成口语或文字形式，构建一种可行的交流桥梁。考虑到手语的地域性和方言特点，系统也将致力于识别多样化手语，进一步提升交流准确性。此外，本文还强调了实时性、

2、用户友好性以及数据隐私保护等关键因素。论文的成果有望为聋哑人群提供更便捷、准确的交流工具，推动其更好地融入社会。关键词：关键词：机器视觉；手语识别；人工智能；自然语言处理中图分类号：中图分类号：TP3 0 引言根据统计，我国目前至少有 2057 万人受到听觉障碍的困扰。尽管这个群体在我们的社会中占有重要地位，但他们面临着严重的沟通障碍，这主要归因于手语翻译领域的严重不足。手语作为一种独特的语言，对于听障人士来说，它不仅是一种沟通方式，还是一种文化的表达和身份认同。尽管听障人士在不同领域都有积极的参与愿望，我国手语行业的发展却一直缓慢滞后。师范类高等院校中仅少数开设手语课程，社会培训机构的力

3、量薄弱，这导致了听障人士在文化、医疗、社会服务等各个领域难以实现与外界的有效沟通。此外，大多数手语翻译员采用手势汉语而非自然手语进行翻译1，这在一些重要的公共媒体中，几乎使手语翻译服务变得虚设，因为聋人很难理解手势汉语。因此，本论文旨在一种基于机器视觉和人工智能技术的手语翻译系统，以解决手语翻译员数量不足和培训机构不足的问题，从而改善听障人士的生活质量。通过结合人工智能和计算机视觉技术，手语翻译系统可以提供实时的手语翻译服务，为听障人士架起与外界有效沟通的桥梁。1 手语翻译系统的研究现状 1.1 手语翻译研究现状 20 世纪 90 年代以来，手语翻译系统的研究经历了显著的进展。其中，数据手套技

4、术是一个关键元素，提供了手指弯曲和外展信息的传感功能。例如，5DT数据手套由美国的 Fifth Dimension Technologies 公司生产，每根手指上装有 2 个传感器，用于捕捉手的动作。这些数据手套通过串口连接到计算机2，具有自校准功能，能够以 8 位二进制形式分析手指的弯曲和外展。然而，这些设备的价格较高，限制了其广泛应用。另一项重要的成就是“手语手套”系统，被美国时代杂志评选为 2000 年最佳发明之一。这一系统通过传感器捕捉手语动作，将其无线传输到手持设备，并以文字形式显示手语的意思，从而帮助聋哑人与听力正常的人进行更迅速的交流。该系统的核心是一台佩戴在胳膊上的小型电脑，内

5、含微型电子线路，以及与手套上的传感器协同工作的微型控制器。特定的软件能够将手的位置和移动情况转化为计算机可读的数据，并以语音或文字形式输出。虽然这个系统在理论上可以拼写任何英语单词，但目前仅有一只手套，其表达能力有限，只能翻译不到 200 个单词。然而，这些系统目前主要适用于英语手语，而美国手语具有几百种不同的手势，大多数需要用两只手来组合表达。这意味着目前的系统在表达能力和范围方面仍有很大的改进空间。在国内，也有一些有意义的研究成果。中国科学院计算所的高文教授领导的团队与哈尔滨工业大学的研究人员合作，研发了能够将聋人手语转化为正常语音的计算机系统。该系统通过数据手套传感器捕捉手语信息，并进中

6、国科技期刊数据库工业 A-98-行识别，然后通过语音合成将其转化为正常语音输出。此外，该系统还能将正常人输入的语句转化成聋人手语的三维图像序列，实现了从文本到手语的转换，从而实现了聋人与正常人之间的交流。这一成果研究了汉语手语的语言模型和大词汇表上的连续汉语手语识别问题，取得了良好的识别效果。尽管有这些显著的进展，手语翻译系统仍然存在一些缺点。其中一个主要问题是在数据手套提供的信息中，难以准确识别相似的手语词汇。这是因为某些手语词汇的手指姿态非常相似，而数据手套本身可能存在一定的误差。此外，一些手语词汇的表达涉及手指的接触动作，而目前的系统通常不包括检测这种接触信息的传感器。因此，改进手指接

7、触信息的检测将有助于更准确地区分这些词汇。1.2 语音识别研究现状语音识别技术一直是人工智能领域中备受关注的研究方向之一。国内许多IT公司，如科大讯飞和百度，已积极投入语音识别研究，并取得了显著的进展。语音识别是一项关键的人机交互技术，其应用范围包括语音助手、自动语音转写、语音命令控制等领域。近年来，深度学习技术的迅速发展为语音识别带来了显著的进步。其中，深度全序列卷积神经网络是一种重要的框架，已经在语音识别领域引起广泛关注。2016 年，科大讯飞提出了这一框架，并在内部的中文语音短信听写测试中获得了显著的效果提升。深度全序列卷积神经网络的优势在于它结合了序列到序列架构和卷积神经网络的特点。

8、这个框架允许模型端到端地处理语音信号，而无需人为设计复杂的特征提取器。深度全序列卷积神经网络的工作原理是，它将语音信号作为输入，通过卷积层提取特征，然后使用循环神经网络层来建模序列信息。最后，采用损失函数来训练模型，使其能够将语音信号映射到文本序列。与传统的双向 RNN-CTC 模型相比，深度全序列卷积神经网络在性能上取得了 15%的显著提升。这意味着更准确的语音识别结果，以及更广泛的方言识别能力。例如，它能够支持广东话、河南话、四川话等多种方言的识别，这对于满足地区特定需求非常重要。除了科大讯飞，百度等公司也在语音识别领域取得了重要进展3。它们的研究包括提高识别准确性、降低语音识别的误识别率

9、，以及支持多语种和多方言的语音识别。这些成果不仅对语音助手和自动语音转写有着广泛的应用，还为语音交互技术的未来发展提供了强有力的支持4。2 手语翻译系统的系统组成手语翻译系统是一个复杂的系统，主要由四大板块构成，分别是手势识别部分、翻译部分、显示部分和交互部分。手语翻译系统的目标是将手语姿势转化为口头语言，使得聋哑人能够更容易地与非手语使用者进行交流。手势识别部分：该部分是系统的输入端，用于捕捉和识别用户的手语手势。通常使用摄像头或者深度摄像头来获取用户手势的图像或视频流。这些图像数据使用 mediapipe 算法处理，以检测和识别手语手势。这部分使用循环神经网络(RNN)，以识别和追踪手势

10、的动态变化。翻译部分：一旦手语手势被成功识别，系统需要将其翻译成口头语言。这个部分通常包括自然语言处理(NLP)技术，将手语转化为文字，并进一步将文字转化为口头语音。语音合成技术可以用来生成自然流畅的口头语言，以确保清晰的交流。显示部分：翻译的口头语言可以通过显示设备，如屏幕或扬声器，传达给用户或对话对象。这个部分负责将口头语音呈现给用户，以确保信息被传递。交互部分：为了提供更全面的用户体验，系统可以包括与用户的交互界面，例如触摸屏、语音指令或其他输入设备。这些界面允许用户与系统进行双向交互，例如请求特定翻译或调整系统设置。手语翻译系统的主控使用了树莓派 4B+开发版，搭载索尼高清防抖摄像头，

11、通过移植 TensorFlow 框架与 LSTM 算法5，能够对多种手语进行识别。搭载的麦克风阵列可以减少环境对系统的噪音影响，提高语音识别率。二者相互配合，保障庭长人士与健全人士的高效沟通。树莓派 4B+控制流程如图 1所示。中国科技期刊数据库工业 A-99-图 1 控制流程图 3 手语翻译系统的工作原理 3.1 图像识别当用户启动手语翻译系统时，系统被唤醒并准备开始接收用户的手势输入。系统通过摄像头捕获用户的手势图像。使用 Mediapipe 算法，系统对每个捕获的图像进行手部关键点检测，提取手部关键点的坐标信息。这些坐标信息可包括手指的位置、手掌的角度等。这些信息将被用作神经网络的输

12、入数据6。创建一个 LSTM 神经网络，用于学习和识别手语的手势。LSTM是一种适用于序列数据的循环神经网络，它能够捕捉手势的时间序列特征。系统将采集的手部关键点坐标序列作为输入，以便 LSTM 能够学习手语的动态特征。训练 LSTM 神经网络，使用大量手语示例数据，每个示例都包含手势的关键点坐标序列以及对应的手语文本翻译或语音输出。通过反向传播和优化算法，神经网络将逐渐学会将手势映射到正确的文本或语音输出。在训练完成后，系统需要对模型进行评估和验证。这包括使用独立的测试数据集来测试模型的性能，确保其能够准确地翻译手势。当用户展示手语手势时，系统将捕获图像并提取手部关键点的坐标序列。然后，该序

13、列将输入到训练好的 LSTM 神经网络中，以获取手语的文本或语音翻译。每次翻译后，系统可以计算当前手势与模型中存储的手势的相似度。相似度分数可用于确定最匹配的手势。最终的手势识别结果可以以文本或语音的形式显示在屏幕上，或者以其他适合用户的方式呈现。图 2 手语翻译流程 3.2 语音识别该系统的语音识别使用的是在线语音识别，在线语音识别结合语义分析，具有识别精准、灵活性高的优点。当用户启动手语翻译系统时，系统被唤醒并准备启用用户录音设备准备好录制声音。用过接收到开始录制的按钮的信号，录音设备开始录制用户的声音，捕获用户表达时发出的声音信号。录制结束后，音频数据被发送到云端进行语音识别6。云端语

14、音识别服务能够将音频转化为文本，这是语言转换的第一步。云端语音识别服务使用百度云的语音识别算法，将用户的语音转化为文本。这个过程利用大量的训练数据和深度学习技术，以确保准确性和高效性。一旦文本结果生成，系统将进行语义分析以理解用户的意图7，并在系统中的手语视频库中寻找合适的视频进行匹配将中国科技期刊数据库工业 A-100-最终的翻译结果以文本和手语视频显示在屏幕上。图 3 语音输出流程 3.3 语音合成系统经过图像识别部分获得手势识别的文本结果，然后将系统进行语义分析以理解用户的意图和手语的含义。这包括识别手势中包含的关键信息，例如动作、方向、强度等。经过语义分析后，系统使用 NLP 技术

15、将文本转化为自然语言，通常是用户的母语。同时应用语法和语言模型来确保生成的口头语言符合语法规则和流利程度。这有助于避免生成不自然或混乱的语音，确保清晰的交流。最后使用合成语音技术进一步处理以生成声音，将文本转化为口音、语调和语速符合自然语言交流的要求。最终的翻译结果可以是文本或口头语音，将以用户可以理解的方式显示在屏幕上或通过扬声器播放出来。用户将能够听到手语的含义，或者看到文本翻译，从而更好地理解和回应用户的手势。4 结论本文基于视听融合的原理设计了一款创新的手语翻译系统，旨在为聋人社群提供更广泛的社交和职业机会，改善他们的生活质量。通过模拟手语交流过程和系统的实际应用，这一系统在提供手语

16、翻译的准确性和实时性方面取得了显著的进展。在不同的应用场景中，系统成功地实现了手语到文本和语音的转换，为聋人用户提供了更多的沟通方式和支持。手语翻译系统的研发和应用将为聋人社群提供一种强大的工具，促进他们的社交融入，增强他们的自信心，提高他们的生活质量。这一技术领域的不断发展和改进将为聋人提供更多的支持和便利，为建设一个更加包容和多元化的社会贡献力量。参考文献 1刘卓璇(LOWJWOSUEN).中国聋人群体手语翻译需求与翻译服务现状研究D.重庆:师范大学,2015.2王辉强.基于数据手套的机器人控制应用研究D.天津:河北工业大学,2020.3贺珂珂.基于深度学习理论的电机故障诊断方法研究D.兰州:理工大学,2019.4潘树诚.基于 CNN 的短语音识别技术和应用研究D.成都:电子科技大学,2020.5邓云港,曾令超,梅伶等.基于视听融合的导盲机器犬的设计与应用J.南方农机,2023,54(02):123-125.6张存远.基于相位谱重构联合幅度谱估计的语音增强算法研究D.太原:理工大学,2021.基金项目：本论文受到广东省大学生创新创业训练计划项目（项目编号：S202210822013）的支持。

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？