收藏 分销(赏)

广电内容管理中视音频AI跨模态检索技术的应用研究_吴石松.pdf

上传人:自信****多点 文档编号:322932 上传时间:2023-08-15 格式:PDF 页数:3 大小:1.17MB
下载 相关 举报
广电内容管理中视音频AI跨模态检索技术的应用研究_吴石松.pdf_第1页
第1页 / 共3页
广电内容管理中视音频AI跨模态检索技术的应用研究_吴石松.pdf_第2页
第2页 / 共3页
广电内容管理中视音频AI跨模态检索技术的应用研究_吴石松.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、2023年第47卷第4期14声 学 基 础声 学 基 础coustics FoundationA文献引用格式:吴石松,徐少勇.广电内容管理中视音频 AI 跨模态检索技术的应用研究 J.电声技术,2023,47(4):14-16.WU S S,XU S Y.Research on the application of AI cross-modal retrieval technology in radio and television content managementJ.Audio Engineering,2023,47(4):14-16.中图分类号:TP391.41 文献标识码:A DOI

2、:10.16311/j.audioe.2023.04.004广电内容管理中视音频 AI 跨模态检索技术的 应用研究吴石松,徐少勇(宁波广电集团,浙江 宁波 315000)摘要:广电内容管理始终是当前广电机构工作的重要内容之一,其管理质量将直接影响广电机构的服务性能和发展质量。为切实提升广电内容管理服务性能,满足用户快速检索需求,推动广电机构的现代化发展,对视音频人工智能(ArtificialIntelligence,AI)跨模态检索技术在广电内容管理中的应用进行研究,以案例分析的形式对论点加以论证,以供参考与借鉴。关键词:广电内容管理;视音频人工智能(AI)跨模态检索;多模态数据Researc

3、h on the application of AI cross-modal retrieval technology in radio and television content managementWUShisong,XUShaoyong(NingboRadioandTelevisionGroup,Ningbo315000,China)Abstract:Radioandtelevisioncontentmanagementisalwaysoneoftheimportantcontentsofthecurrentradioandtelevisionorganizations,anditsm

4、anagementqualitywilldirectlyaffecttheserviceperformanceanddevelopmentqualityofradioandtelevisionorganizations.Inordertoeffectivelyimprovetheserviceperformanceofradioandtelevisioncontentmanagement,meetusersrapidretrievalneeds,andpromotethemodernizationdevelopmentofradioandtelevisioninstitutions,thisp

5、aperstudiestheapplicationofaudio-visualArtificialIntelligence(AI)cross-modalretrievaltechnologyinradioandtelevisioncontentmanagement,anddemonstratestheargumentintheformofcaseanalysisforreference.Keywords:radioandtelevisioncontentmanagement;audio-visualArtificialIntelligence(AI)cross-modalretrieval;m

6、ultimodaldata0 引 言基于互联网时代新媒体技术的发展驱动,多媒体数据信息量出现大幅增长,尤其是广电领域1。用户从互联网和新媒体平台上可以获取大量的数据信息,如文本、视频以及音频数据等,导致广电内容管理工作的难度明显提升。基于此,工作人员可以充分借助视音频人工智能(Artificial Intelligence,AI)跨模态检索技术,打破以往单模态检索技术的桎梏,真正实现多模态数据的组织与管理,切实提升广电内容管理质量,满足用户的基本 需求2。1 广电内容管理中视音频 AI 跨模态检索系统分析1.1 视音频 AI 跨模态检索系统需求1.1.1 用户分析随着智能移动终端和社交媒体的飞

7、速发展,广电内容管理工作中的多模态数据大幅增长,广电用户希望可以从海量的数据信息中快速检索出自身感兴趣的热点信息。用户与管理员拥有不同的权限,其中普通用户是跨模态检索的主要群体,用户可以在系统界面注册账号,并在用户管理界面对自己的个人信息进行管理。在利用个人信息登入作者简介:吴石松(1971),男,硕士,高级工程师,研究方向为电视制作、播出和传输、信息技术。2023年第47卷第4期15Acoustics FoundatioN声 学 基 础声 学 基 础系统后,便可以借助视音频 AI 跨模态检索技术对自身所需要的信息进行检索,并对检索结果进行浏览与下载。而管理员需要对视音频 AI 跨模态检索系统

8、进行日常的数据维护,对用户个人信息进行管理。1.1.2 业务分析广电内容管理的视音频 AI 跨模态检索技术可以帮助用户从海量的数据信息中获取自身所需要的信息,以此来为用户提供高效的检索服务。用户可以从以下 3 个方面来获取检索服务。第一,页面展示功能。该功能是用户与系统进行交互的重要功能。账号注册界面、用户登入界面等诸多可视化界面都需要借助该功能得到实现。第二,跨模态检索功能。该功能是整个系统的核心,用户可以按照自身的需求对相应的模块进行检索。第三,数据采集及管理功能。该功能主要负责广电内容管理数据信息的导入与处理,管理员将以自动采集和人工输入的方式对初始数据进行管理,并借助该模块生成数据库信

9、息。1.2 视音频 AI 跨模态检索系统技术设计分析1.2.1 总体架构设计视音频 AI 跨模态检索技术使用 Web 服务器和浏览器/服务器(Browser/Server,B/S)架构,通过前后端分离的形式构建而成,前端与后端均为独立系统,用户借助浏览器对前端界面进行检索,前端界面借助代理服务器与后端服务器进行通信。系统前端为用户提供了可视化交互功能。跨模态检索后端为整体系统的核心模组,其重要功能是特征信息转换。1.2.2 数据结构设计视音频 AI 跨模态检索技术涵盖海量的多模态数据,为了对多模态数据信息进行管理,优化设计其数据库尤为重要,利用数据库记录广电内容管理信息。用户信息表如表 1 所

10、示,记载了用户的翔实信息。广电内容管理中的视频信息表如表 2 所示,音频信息表如表 3 所示。表 1 用户信息表编号字段类型注释1User-IdInt账号2User-nameVarchar账号名称3PasswordVarchar密码4EmailVarchar邮箱表 2 视频信息表编号字段类型注释1Text-idVarchar编号2News-idVarchar新闻编号3URLVarchar网页链接4News-textVarchar视频地址5HashcodeInt二进制向量值6Hash-DateDate时间7Image-idVarchar对应文本8News-titleVarchar标题表 3 音频

11、信息表编号字段类型注释1Image-idVarchar编号2News-idVarchar新闻编号3URLVarchar网页链接4Image-pathVarchar音频地址5HashcodeInt二进制向量值6Hash-dateDate时间7Text-idVarchar对应文本8News-titleVarchar标题1.3 系统功能设计与实现视音频 AI 跨模态检索系统包括 3 个基本功能,分别是数据信息采集、跨模态检索以及页面展示。1.3.1 数据信息采集针对广电内容管理工作的多模态数据进行采集与处理,其中涵盖人工导入、向量值生成以及自动采集模组。为行之有效地拓展多模态数据库,为用户提供丰富的

12、数据信息,技术人员可以借助自动采集模组对数据信息进行自动采集。在采集之前,需要借助原始数据信息获取网页链接,并对网站 Robots 协议进行检索,明确数据获取方式和范围。在获取数据时需要对采集效率进行控制,保证网站不会超负荷运行。除此之外,借助数据的原始信息来设置采集深度,倘若网页数据在源码中,便可以使用 get 方式对其进行获取。倘若数据已经通过 AJAX 请求,便可以使用 post 方式,并设置爬虫架构 Scrapy。在采集过程中,模组会对网页信息的数据结构进行分析,并根据网页结构来了解信息的字段、标题以及内容等要素。由于一些网页中设置了相应的反爬虫措施,使得广电内容管理的原始数据不能使用

13、爬虫的方式获取,此时管理员需要借助人工导入模组将第三方数据导入。管理员输入第三方数据集,在人工导入模块开始运行前对原始数据信息的关键字段进行检2023年第47卷第4期16声 学 基 础声 学 基 础coustics FoundationA查,倘若关键字段为空,则需要放弃该字段,并使用外部数据接口,以此来对原始数据信息进行补充。1.3.2 跨模态检索跨模态检索是该系统的核心模组,涵盖视频检索和音频检索。当用户使用视频检索功能时,用户输入的文本内容会从前端界面传输至后端界面。模组会对传输的信息进行预处理,并对信息的特征进行提取,同时生成二进制向量值。对比分析所生成的向量值与图像向量值,借助余弦相似

14、度计算公式,计算数据库的图像向量值与视频向量值之间的差距,并根据相似度进行排列,回传相似度最高的数据信息3。当用户使用音频检索功能时,用户输入的检索文本信息会从前端被传输至后端界面。在传输的过程中,模组会对文本的特征进行检索,生成二进制向量值。其余步骤与视频检索功能大体一致,即对比分析所生成的向量值与图像向量值,借助余弦相似度计算公式来计算数据库的图像向量值与视频向量值之间的差距,并根据相似度进行排列,回传相似度最高的数据信息4。1.3.3 页面展示页面展示功能主要负责用户与系统之间的交互,为用户提供了可视化的处理界面,如登入界面、主界面以及检索界面等。用户在登入界面完成登入后,便会跳转至主界

15、面。在主界面的检索功能栏中,用户可以选择所需要的检索类型,之后便跳转至相应的检索界面5。2 应用实例分析宁波广播电视集团已经完成融媒体平台构建,该平台能够对多样化的传统媒体信息进行整合汇聚,同时借助网站、App 手机客户端等形式汇总多渠道媒体信息,以此来更好地服务广电媒体。2.1 专题报道杭州湾跨海大桥于 2003 年 6 月 8 日开始建设,2008年5月1日通车运行,专题报道时间跨度为5年。在对杭州湾跨海大桥进行报道的过程中,需要从多个维度对本次专题内容进行有效的呈现。宁波广播电视集团融媒体中心借助视音频 AI 跨模态检索技术,构建腾讯智能 AI 平台,对专题报道的媒体资源信息进行管理。该

16、平台支持多种媒体文件类型,如视频、音频以及文本等。杭州湾跨海大桥是十分重要的交通枢纽,在腾讯智能 AI 平台上,有关杭州湾跨海大桥的搜索结果非常多。为切实提升媒体资源的管理效率,宁波广播电视集团融媒体中心借助腾讯智能 AI 平台,将视音频 AI 跨模态检索技术作为主要手段,对所需素材进行检索。以往的检索方式涵盖历史记录检索、关键词检索以及地理位置检索等,而在多模态检索技术的驱动下,可以将多种媒体形式的数据信息进行有机整合,以此来有效提升素材检索效率。在腾讯智能 AI 平台的基础上应用多模态检索技术,操作人员需要注意以下问题。第一,需要保证所选中的数据集合切实符合相关性要求,如实际场景、人物场景

17、等。第二,将选中的数据集合分为多个模态,并对每个模态进行科学的测试。第三,使用多模态技术检索信息时,需要对结果进行筛选与排序,以此来甄选最合适的素材。第四,还需要对所检索的结果进行分类与标注,为后续的使用与分析奠定基础。2.2 全媒体报道为保证跨地区联合新闻报道的内容丰富性和时效性,该报道使用了实时数据采集处理技术,借助专业的摄像设备和无人机采集活动的数据信息,并对参与报道的人员进行身份识别。数据处理过程中,宁波广播电视集团融媒体中心的报道团队借助腾讯智慧中台多模态非结构文件特征提取技术对所采集的数据信息进行分析与识别,提高了整体工作的效率。3 结 语随着 AI 技术的不断发展与完善,多模态检

18、索技术在诸多领域中都得到了全面应用。在媒体行业中,多模态检索技术可以有效提升同等数据情况下的检索应用效果,提高模型的识别能力,从而真正实现多模态大模型数据结构支撑多元化任务场景的应用。参考文献:1徐文婉,周小平,王佳.跨模态检索技术研究综述 J.计算机工程与应用,2022,58(23):12-23.2杨慧,施水才.基于内容的图像检索技术研究综述 J.软件导刊,2023,22(4):229-244.3张鹏.基于深度对抗哈希技术的跨模态检索系统的设计与实现 D.西安:西安电子科技大学,2021.4李丹阳.基于跨模态技术的图像检索系统的设计与实现 D.延边:延边大学,2021.5汪浩然.基于语义和常识指导的跨模态图文检索技术研究 D.天津:天津大学,2021.编辑:郭芳园

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服