收藏 分销(赏)

智能化检索系统应用中的检索优化_石爽.pdf

上传人:自信****多点 文档编号:475650 上传时间:2023-10-16 格式:PDF 页数:3 大小:880.14KB
下载 相关 举报
智能化检索系统应用中的检索优化_石爽.pdf_第1页
第1页 / 共3页
智能化检索系统应用中的检索优化_石爽.pdf_第2页
第2页 / 共3页
智能化检索系统应用中的检索优化_石爽.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、-13-CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023中国科技信息 2023 年第 8 期专利分析文信息,采用 ESIM 算法根据上下文信息在数据库里找到与第一语言的多义词最相关的第一语言的解释,并用第一语言的解释替换第一语言的多义词;S5、将第一语言的文字翻译成第二语言的文字;S6、将第二语言的文字转换成第二语言的语音;S7、输出第二语言的语音。检索思路:首先以案件申请号为基准,选择数据库CNABS,语义排序第 22 位获得 CN103838714A(D1),D1 主要公开了:一种语音信息转换方法,该方法包括:接收第一语言类别的语音信息,并

2、动态识别为第一语言类别的文字信息;根据第一语言类别和需要输出的语音信息所属的第二语言类别,将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息;根据所述第二语言类别的文字信息,合成第二语言类别的语音信息并输出。分析可知,D1公开了将语音识别为文字,对文字翻译后再转换为语音的过程,但是未公开汉语与乌尔都语的互译,对多义词的识别以及获取多义词的解释等特征,不能解决翻译多义词时容易出现的错配,误配的问题,浏览语义排序的前 100 篇文献未获得公开该区别的文献。检索优化:方案的实质不在于互译的语言种类,以及将语音识别为文字,而是对于多义词的准确翻译,因而构建检索式:翻译 and 多义词,在 C

3、NABS 中命中 41 篇文献,语义排序后 8 位获得 CN110991196A(D2),D2 公开了:一种多义词的翻译方法,所述方法包括:获取源语言文本;从所述源语言文本中,识别得到多义词;查询所述多义词每一种释义对应的相关词;根据所述源语言文本中包含的相关词,确定对应的目标释义;将所述多义词翻译为所述目标释义,D2 能够与 D1 共同作为 Y 文献。值得注意的是,在 CNABS 数据库中,若考虑案例 1 中更多的关键词要素,例如,将检索式修改为:翻译 and 多义词 and(语音 or 汉语 or 乌尔都语),无法检索到上述 D2,这说明在检索的过程中要尽可能排除非实质性的要素,把握方案本

4、质。如果仅使用申请号进行语义排序,该 D2 位于第 344 位,相关度61%,不利于快速筛选该文献(见表 1)。案例 2:一种基于知识图谱的团体欺诈识别系统,包括:信息收集模块,所述信息收集模块用于收集借贷人的个人信石爽(1985),河北邢台,硕士,助理研究员,专利审查员,主要从事信息安全领域专利审查。智能化检索系统应用中的检索优化石 爽专利检索是专利审查过程中的重要环节,在浩瀚的文献海洋中查找最接近的现有技术并非易事,为了提升审查效率,更好地为专利申请人和社会公众服务,智能化检索系统近年来完成了智能升级计划,智能化检索系统综合了人工智能,大数据,微服务,云计算等现代信息技术,实现了智能检索,

5、在线翻译,图形识别,特殊领域检索,图形识别等核心功能,系统已经在专利检索中得到推广应用,并取得了预期的效果。智能化检索系统自上线以来,集成了多个中外文专利库,非专利库,外观库等,融合了语义排序和布尔检索,能够修改语义排序基准,编辑中英文语义分词以及权重,执行二次语义排序,检索数学公式和法律状态,对英文文献能够提供全文翻译,对日文,德文,韩文等小语种文献提供了摘要翻译等,智能化检索系统涵盖了以上多种功能,已成为专利申请检索过程中的重要检索工具。然而,专利申请所涉及的技术领域非常广泛,即使针对某一技术领域的专利检索,也有相当比例的案件仅通过语义排序或者基本的布尔检索不能较快定位最接近的现有技术,本

6、文通过具体案例的检索过程,探讨如何表达检索要素,优化智能化检索系统的使用体验,以求化繁为简,以简驭繁,进而提升多技术领域的检索效能。检索优化分析1.拨云见日,把握方案实质内容案例 1:一种汉语与乌尔都语同步互译方法,包括步骤:S1、输入第一语言的语音,并发送第一语言的语音;S2、接收第一语言的语音,将第一语言的语音转变成第一语言的文字,并发送第一语言的文字;S3、接收第一语言的文字,识别出第一语言的多义词与上下文信息,并发送第一语言的多义词与上下文信息;S4、接收第一语言的多义词以及上下表 1序号数据库布尔检索排序基准目标文献位次/总数相关度1CNABS翻译 and 多义词申请号CN11099

7、1196A8/4161%2CNABS翻译 and 多义词 and(语音 or 汉语 or 乌尔都语)申请号CN110991196A未检出/12未检出中国科技信息 2023 年第 8 期CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023-14-专利分析息,所述个人信息包括基本信息和行为信息;异常分析模块,所述异常分析模块用于检测和分析借贷人的异常行为,并将有异常行为的用户标记为疑似欺诈用户;关联分析模块,所述关联分析模块用于根据疑似欺诈用户的个人信息、异常行为以及异常数据分析疑似欺诈用户与其他借贷人或第三方黑名单人员的关联关系;团体识别模块,所述团

8、体识别模块用于根据所述的关联关系找出与疑似欺诈用户相关的其他疑似欺诈用户并形成疑似欺诈团体供案件调查人员进行判断。检索思路:方案的实质在于将知识图谱用于识别团体欺诈,因而在构建检索式的过程中,先从整体上考虑方案的实质内容,初步检索时暂不使用如下检索词:借贷,异常,关联,黑名单,团体,疑似等,选择 CNABS 数据库或者 CNTXT数据库中,构建如下检索式进行布尔检索:图谱 and 诈 and PD20180821,在 CNABS 数据库获得 7 篇文献,在 CNTXT 数据库获得 106 篇文献,语义排序后,第 1 位均为 CN107943879A(D3),D3 主要公开了:一种基于社交网络的

9、欺诈团体检测系统,包括:用于通过社交图谱获取测试源数据的模块;用于将测试源数据对被测系统进行测试并生成预测模型的模块;用于通过基于社交网络的欺诈团体检测技术执行操作的模块。所述测试源数据可以包括用户授权通讯录、通话记录、短信记录、紧急联系人等信息。基于社交网络的欺诈团体检测技术,用户可以根据社交关系挖掘潜在的群体欺诈,预测出欺诈群体,有利于提高网络的全局风险识别能力,避免不必要的风险漏洞。对于申请的客户,在申请审批过程中,其授权的通讯录、通话记录等“关系”会被实时地标记到大数据平台社交图中,如果系统发现与其关联的客户中存在已经判定的黑名单用户,则有理由相信该客户存在信用风险和欺诈风险,从业务角

10、度上考虑,该客户与黑名单客户存在紧密联系,极有可能涉嫌团体欺诈、共同负债等问题。D3 可以作为案例 2 的 X 文献,如果以申请号为排序基准进行语义排序,前 30 位也可以获得 D3,但是排序优先级不如上述布尔检索式排序后的优先级(见表 2)。案例总结:从以上两个案例的检索过程可以看出,对于方案实质性内容的把握有助于从冗长篇幅中筛选合适的检索词,以及定位较为准确的检索范围,这对于多技术领域的案件检索都是有意义的,拨云见日,方能化繁为简,进而构建简化的检索思路。2.见微知著,提炼方案细节特征案例 3:一种计算文件相似哈希的方法,包括:将文件看成字节流比较文件一个字节与前后字节的大小,根据比较结果

11、,设置文件中间哈希的比特值,得到比特流;将得到的比特流组装成新的字节流;如果新的字节流长度大于一定的值,则将新的字节流看成是文件,返回字节比较步骤;否则就得到文件相似哈希;计算两个文件相似哈希的差异,判断两个文件的相似程度。案例解析:相似文件的相似哈希差异较小,不同文件的相似哈希差异较大,通过计算文件相似哈希,能够有效地区分不同文件。检索思路:选择 CNTXT 数据库,以申请号为基准,检索条数限定 400,语义排序后未获得 XY 类型文件,根据方案记载的内容提取检索词,文件 and 相似 and 哈希 and 字节,限定公开日后执行布尔检索,检索到 1497 篇结果,前400 篇未获得 XY

12、文献。检索优化:分析方案中得到比特流的细节过程,同时将比特流扩展得到二进制,即该方案实质上是比较相邻字节的大小,或者前一个与后一个字节的大小,基于该细节过程,构建检索式:二进制 and(前一个 5d 后一个)and 相似 and 文件,限制公开日期后,获得 92 篇文献,语义排序后第 1 位获得 CN108595975A(D4),D4 主要公开了:一种基于近重复图像检索的无载体信息隐藏方法,为了实现隐秘标签的选取,采用了一种鲁棒哈希算法,可以得到一个哈希序列,此哈希序列即为隐秘标签,首先将图像块切分为mn 个区域,用 b11,b12,.,bmn 表示;其次,计算各个区域的像素的平均值,得到 m

13、n 个值,用 V(b11),V(b12),.,V(bmn)表示;最后,按照顺序依次将值与它相邻的下一个值比较,具体按照从左到右,从上到下的顺序进行比较,前一个大于后一个,就为 1,小于为 0,得到最后的标签 v1,v2,.,vmn-1。提取图像块的特征信息,快速检索图像的索引结构构建,根据隐秘标签、图像特征和索引结构,检索包含与秘密图像块视觉相似图像块的自然图像,并进行隐藏(见表 3)。案例总结:智能化检索系统给出的 D4 的相似度较低,为 46%。因而,如果仅使用自动的语义检索难以获得 D4,如果考虑方案的全部步骤,例如,检索词限定了字节或者比特流,同样无法获得 D4,从细节入手时,应从方案

14、本质对细节特征进行提炼和扩展,例如,将比特流扩展到二进制,提炼前一个或者后一个特征,同时为了精确定位,缩小检索范围,使用 s,d,w,p 等算符降低噪声。3.抽丝剥茧,站位本领域技术人员案例 4:一种基于以太坊的智能合约更新方法,包括以表 2序号数据库检索方式排序基准目标文献位次/总数相关度1CNABS图谱 and 诈 and PD20180821申请号CN107943879A1/771%2CNTXT图谱 and 诈 and PD20180821申请号CN107943879A1/10671%3CNTXT自动语义检索申请号CN107943879A12/40071%表 3序号数据库检索方式排序基准

15、目标文献位次/总数相关度1CNTXT自动语义检索 400申请号CN108595975A未检出/400 末位 56%2CNTXT文件 and 相似 and 哈希 and 字节 and PD20200622申请号CN108595975A未检出/1 497未检出3CNTXT二进制 and(前一个 5d 后一个)and 相似 and 文件 and PD20200622申请号CN108595975A1/9246%-15-CHINA SCIENCE AND TECHNOLOGY INFORMATION Apr.2023中国科技信息 2023 年第 8 期专利分析下步骤:基于管理合约管理所有合约的最新地址,

16、并在调用合约时反馈所调用合约的最新地址;基于所述管理合约设置用户在一个或多个合约中的合约调用权限。案例解析:由于区块链的特性,使得智能合约在使用过程中存在以下不足:对于智能合约的所有调用都需要知道合约的地址,每次更新合约相当于重新发布一个合约,地址也要更新。使用者需要使用最新的合约地址才能正常调用合约功能,不仅操作烦琐,且容易发生错误。如果有多个业务合约,对于每个合约进行权限管理将增加操作的复杂性。本方案将所有的接口合约、逻辑合约、数据合约统一在管理合约里进行管理,所有合约需要调用其它合约接口的请求都需要从管理合约获取相应合约的地址,从而保证所有合约都能及时获取最新的合约地址;在管理合约里对调

17、用接口的用户进行了权限控制,能控制不同角色的用户调用不同权限级别的接口。检索思路:在 CNTXT 数据库检索后,无法检索到有关“基于管理合约管理所有合约的最新地址,并在调用合约时反馈所调用合约的最新地址”的方案,由案例解析可知,该步骤主要用于合约最新地址的管理,因而在构建检索式的过程中,把握和定位方案的本质内容,构建如下检索式:合约 s 最新 s 地址,限制公开时间后在 CNTXT 数据库获得 8 篇文献,语义排序后,第 1 位获得 TW201828215A(D5),D5 主要公开了:一种基于区块链的智能合约版本控管系统,借由版本控管节点的控管模组将不同版本的智能合约透过控管合约注册对应的合约

18、地址与版本号,使用节点的应用程式透过控管地址取得控管合约之实体,并透过控管合约之实体取得最新注册的版本号与合约地址,让应用程序依据取得的最新注册的版本号与合约地址取得最新版本的该智能合约之实体,以达成应用程序欲取得最新版本的智能合约之实体时,不需因智能合约的版本更新而被强迫更新之技术功效(见表4)。案例 5:一种待测设计的回归测试方法,包括:获取第一待测设计的第一激励和第一响应,所述第一响应为在第一验证环境中基于所述第一激励运行所述第一待测设计得到;基于所述第一激励生成第二激励;在第二验证环境中基于所述第二激励对第二待测设计进行硬件仿真,得到第二响应;其中,所述第二验证环境与所述第一验证环境不

19、同;比较所述第二响应和所述第一响应,得到回归测试结果;基于所述第一激励生成第二激励包括:记录所述第一激励的波形;将所述第一激励的波形转换为激励文件;以及根据所述激励文件生成所述第二激励。案例解析:分析说明书记载的内容可知,现有技术中的回归测试技术中存在复现原有测试激励时波形失真、需要额外开放软件、依赖外部设备等技术问题。通过波形录制、转换和回放实现原有激励的完全复现,复现后的激励波形不失真,不增加额外的开发成本,保证了复现前后的激励的一致性,从而提高回归测试的精度。检索思路:选择 CNTXT 数据库,以申请号为基准,语义排序后,浏览多篇文献未获得 XY 类型文献,通过案例解析可知,方案主要用于

20、:根据第一激励的波形,复现第二激励的波形,因而构建检索式:记录 s 激励 s 波形,在CNTXT 中获得 270 篇文献,第 6 位得到 CN112285538A(D6),相关度为 59%,仅通过系统自动的语义排序,前400篇无此文献,D6主要公开了:一种芯片测试方法,包括:获取对芯片进行软件仿真测试所得的波形文件,所述波形文件包括所述芯片在软件仿真测试通过的情况下输入引脚在每个时钟周期内的输入信号波形和输出引脚相应产生的预期输出信号波形;将所述波形文件转换成数据流文件,所述数据流文件包括经所述输入信号波形转换得到的输入数据流和经所述预期输出信号波形转换得到的预期输出数据流;根据所述输入数据流

21、控制信号输入电路产生激励信号并发送至所述芯片的输入引脚;通过信号输出电路回收所述芯片的输出引脚输出的输出信号并转换成实际输出数据流;比较所述实际输出数据流与所述预期输出数据流是否相同,得到测试结果(见表 5)。案例总结:完整的方案通常包括多个步骤或者多个组成部分,此时如果不能区分主次,难以把握方案的核心内容,那么在构建检索式的过程中容易引入过多的或者次要的检索要素,导致影响检索范围和检索结果的准确性。在这种情况下,应该对技术方案抽丝剥茧,通过仔细研读说明书的内容以及阅读理解初步的检索结果,精准站位本领域技术人员,更易快速锁定检索范围,获得有效的检索结果。还需要注意的是,CNTXT 和 CNAB

22、S 分别对应中文全文库和文摘库,若使用多种运算符构建检索式,应优先在 CNTXT 数据库检索以确保覆盖范围的全面性。结语本文基于智能化检索系统的检索实践,通过几个典型案件,总结归纳了三种简单的检索优化思路,一是拨云见日,把握方案实质内容;二是见微知著,提炼方案细节特征;三是抽丝剥茧,站位本领域技术人员。期望对于智能化检索系统等平台的检索优化具有借鉴意义。表 4序号数据库检索方式排序基准目标文献位次/总数相关度1CNTXT自动语义检索 400申请号TW201828215A288/40067%2CNTXT(合约 s 最新 s 地址)and PD20190222申请号TW201828215A1/867%表 5序号数据库检索方式排序基准目标文献位次/总数相关度1CNTXT自动语义检索 400申请号CN112285538A未检出/400末位 61%2CNTXT记录 s 激励 s 波形申请号CN112285538A6/27059%3CNABS记录 s 激励 s 波形申请号CN112285538A未检出/92未检出

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服