1、工业互联网标识解析工业互联网标识解析标识资源搜索技术与应用发展标识资源搜索技术与应用发展白皮书白皮书(2022023 3 版)版)工业互联网产业联盟(工业互联网产业联盟(AIIAII)20232023 年年 9 9 月月IV前前 言言党的“二十大”报告强调要加快建设现代化经济和产业体系,推进新型工业化,建设制造强国、网络强国、数字中国。而工业互联网作为数字经济和实体经济深度融合的关键底座,是国家深刻把握发展新形势、新变化,站在战略全局高度做出的重要决策,已成为新型工业化的战略性基础设施。随着新型工业化和工业互联网的发展,包括标识数据在内的工业数据量呈现爆发式增长,海量、多源、异构数据面临着难以
2、关联整合、数据价值难以利用等问题。工业互联网标识资源搜索将标识解析技术与垂直搜索技术相结合,实现工业数据的集成共享和价值挖掘:一方面,对接标识解析节点获取标识数据资源,丰富搜索数据来源的同时,利用标识的全网唯一性优化数据的融合与关联分析,为搜索对象之间、搜索用户之间、搜索对象及用户之间关联关系的建立提供了创新性方法;另一方面,通过提供工业垂直搜索能力,借助身份标识深入理解工业用户搜索意图,赋能用户对产品介绍、应用与服务、企业信息、潜在合作方挖掘、生产环境、报工信息、仓储物流、市场营销、知识经验、流程规范、新闻活动以及标识注册信息等标识相关的工业细分领域信息资源进行个性化搜索。以标识资源搜索技术
3、与应用为切入点,加速推动数据资源的高效流通、激发标识数据价值,将带动与工业大数据和标识解析相关的其他业态发展,对于打造自主可控的标识解析体系、支撑数字经济及其核心V产业发展、持续提升工业互联网创新能力具有重要意义。本报告首先从政策导向、数据支撑和行业诉求等三个方面,阐述了工业互联网标识资源搜索的发展背景,分析基于消费互联网的搜索、基于工业电商的搜索、基于工业互联网的搜索、工业互联网标识资源搜索等搜索技术路径的发展现状和挑战,并明确工业互联网标识资源搜索的定位与意义;其次,提出了工业互联网标识资源搜索整体框架,在此基础上,介绍立足我国工业互联网标识资源搜索需求特征拟突破的一系列关键技术;随后,梳
4、理了标识资源搜索的十余种潜在应用场景,以及在汽车、高端礼品、个人家居、生产制造等多种行业和场景下的实践案例等创新应用;最后,对工业互联网标识资源搜索进行展望,并从体系、技术、应用、生态、运营等方面提出发展建议。VI目目录录一、工业资源搜索发展态势.1(一)发展背景.1(二)行业需求.2(三)技术路径.41.基于消费互联网的搜索.52.基于工业电商的搜索.53.基于工业互联网的搜索.74.工业互联网标识资源搜索.8(四)定位与意义.10二、基于标识解析的工业资源搜索整体框架.12(一)业务视图.13(二)管理视图.14(三)部署视图.14(四)运营视图.16(五)安全视图.17三、基于标识解析的
5、工业资源搜索关键技术.19(一)标识解析.19(二)数据采集.21(三)数据存储.23(四)数据融合.25(五)数据关联.27VII(六)数据搜索.30(七)数据安全保障.32四、应用与实践.36(一)案例 1:个人家居设备智能检测与服务.371.案例介绍.372.应用场景提炼与拓展.39(二)案例 2:轮毂生产全流程一体化解决方案.391.案例介绍.392.应用场景提炼与拓展.42(三)案例 3:“智慧瓶盖”主动标识载体搜索解决方案.421.案例介绍.422.应用场景提炼与拓展.44(四)案例 4:汽车后市场服务平台中的搜索应用.451.案例介绍.452.应用场景提炼与拓展.47(五)案例
6、5:五码关联搜索赋能全渠道数字化营销.481.案例介绍.482.应用场景提炼与拓展.50(六)案例 6:基于主动标识载体技术的移动设备管理方案.501.案例介绍.502.应用场景提炼与拓展.52五、展望与建议.53VIII1一、工业资源搜索发展态势工业互联网标识解析体系为对象赋予全网唯一标识,并借助标识解析体系进行解析,是支撑工业互联网全面互联互通的神经枢纽。工业互联网标识资源搜索,发展于国家重点布局“工业互联网”数字基础设施的大背景下,将标识解析技术和搜索引擎技术相结合,实现全面、准确、快速的工业数据发现和共享。本节将从发展背景、行业需求、技术路径、定位与意义等四个方面,对工业互联网标识资源
7、搜索展开介绍。(一)发展背景(一)发展背景工业互联网标识资源搜索研究与应用的发展得益于工业互联网和标识解析体系建设的加速推进,有着数字化时代背景下的必然性。(1)发展标识解析体系是国家重要战略决策工业互联网是新工业革命的关键支撑和重要基石,得到党中央、国务院高度重视,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要对工业互联网发展计划作出明确部署,规划打造自主可控的标识解析体系,工业互联网专项工作组 2022 年工作计划将标识解析增强行动作为工业互联网创新行动计划的重点任务,提出要引导产业界落实工业互联网标识管理办法、完善标识体系建设并加速标识规模应用推广等关键举措
8、2)标识解析体系建设夯实创新发展数据基础2我国工业互联网标识解析体系秉承统一管理、互联互通、自主可控的设计理念,经过五年多的持续布局已全面建成5+2 国家顶级节点,基本形成政策完善、体系完整、创新活跃的发展格局。截至 2023 年 6 月,全国累计接入顶级节点的二级节点达 305 个,累计接入的企业节点数量 26 万多家,标识注册总量突破 3000 亿个,海量标识数据为工业互联网创新发展打下坚实的数据基础。(3)标识解析增强行动亟需杀手级应用的示范和推广标识数据的爆发式增长降低了数据价值密度,导致信息过载问题日益突出,海量标识数据的解析查询压力激增;标识编码格式复杂,不便于人工理解和使用,
9、标识应用的发展动能不足;标识应用的供需双方缺乏有效对接渠道,信息不对等造成资源浪费和产品滞销,严重影响工业生产经营效率。如何高效、便捷地获取和使用价值信息,成为工业互联网标识解析发展过程中面临的重要问题,亟需以杀手级应用作为切入点,推动工业标识数据流通和管理,牵引并赋能标识在各行业、各环节的深层次应用。(二)行业需求(二)行业需求工业互联网标识解析体系的发展促进了工业实体甚至虚拟数据的全方位互联互通,但工业数据量巨大,特别是引入标识解析体系对工业全要素进行标记后,数据体量更呈现指数级增长,如何管理和利用数据成为工业企业数字化转型升级过程中面临的重要挑战。搜索服务能够实现高效的数据搜索服务能够实
10、现高效的数据发现与价值共享发现与价值共享,成为企业数字化转型升级的关键措施和重成为企业数字化转型升级的关键措施和重3要驱动力要驱动力,具有日益强烈的行业需求:(1)在需求分析阶段,需要进行深入的用户交互和市场调研,及时、准确地获取并整合用户关注点和潜力细分市场等信息,以具备需求洞察和分析能力,为后续产品设计、销售策略制定等环节提供强有力支撑;(2)在研发设计阶段,需要动态查询需求、目标、可使用资源情况等设计入口参数,以便根据实时信息进行方案的仿真设计和优化调整,保证设计效果;(3)在采购供应链阶段,需要建立供需双方和供应链上下游企业的高效沟通桥梁,挖掘潜在提供方并实现用户拓展,扩大供应链协作节
11、点的广度与深度,提高供需匹配效率,同时可以引入抽成方式衍生线上交易盈利模式;(4)在生产制造阶段,需要通过人工网页查询或者与企业信息化系统对接的方式,利用搜索服务赋能企业实时获取订单要求、工艺流程、报工数据、库存销量和备品备件等信息,促进科学化排产和柔性化生产自动执行,并反向推动生产流程优化,此外,需要监控生产环境和设备状态,在出现环境危险或者设备故障前,及时采取应急措施,保障生产连续性;(5)在质量管理阶段,由于工业生产上下游流程众多且关联紧密,任何环节的质量问题都会影响后续生产过程及最终产品质量,因此需要利用搜索服务进行全流程质量溯源管理,在关键生产环节前对半成品进行质量复核以降低返工概率
12、在出现问题时快速定责和处理;4(6)在仓储物流阶段,需要对物流信息进行跟踪定位,确保货品在途安全并防止窜货、司机接私活等违规事件发生,同时,需要最新仓储信息的便捷获取渠道,以便及时查询仓储情况并调整排产与销售计划,降低库存压力实现产销动态平衡;(7)在销售服务阶段,需要在绘制精准用户画像的基础上,提供个性化销售方案,赋能消费者与企业直接互动,以便消除信息壁垒提升用户体验,并更好地跟踪市场动态和反馈,优化生产经营策略,此外,在销售服务过程中需要对产品和服务信息进行追溯,提供防伪查询和折损评估等增值服务。(三)技术路径(三)技术路径工业领域涉及的搜索服务,其技术路径发展如下:用户可以使用基于消费
13、互联网的搜索服务基于消费互联网的搜索服务查询通用领域信息,但由于工业数据的特殊性,需要使用更具针对性的工业垂直搜索服务来提高搜索速度以及结果的准确性和全面性,由此产生了基于工业电商的搜索服务基于工业电商的搜索服务,为工业领域信息查询和供需对接提供了有效渠道。随着物联网万物互联,用户搜索诉求拓展到上下游企业、人、机、物、工艺、环境等方方面面,基于工业互联网的搜索服务基于工业互联网的搜索服务应运而生,并为了应对标识数据量激增的情况,进一步衍生出标识资源搜索服务标识资源搜索服务。本节将对以上几种搜索服务的特点及代表性产品进行阐述,在此基础上分析工业互联网标识搜索服务的创新优势以及其发展过程中面临的主
14、要问题。51.1.基于消费互联网的搜索基于消费互联网的搜索消费互联网搜索引擎利用协同过滤算法分析用户和对象间的关系,根据搜索行为喜好进行局部个性化分析,面向公开互联网的跨领域数据计算搜索结果并返回给用户。消费互联网搜索引擎以谷歌、百度、微软 Bing 等通用搜索引擎为代表,近年来还出现了 Medical Matrix、PharmWeb等以搜索某一主题或领域为目标的垂直搜索引擎,以及DuckDuckGo、Gibiru、Yippy、Ask、Similarweb、TinEye 等侧重隐私保护、结果集成、社交关系、知识共享、统计数据、图像信息等特殊功能的搜索引擎,整体上向搜索渠道和内容的多元化趋势迈进
15、2022 年 11 月底上线的大型语言模型ChatGPT 使用自然语言与用户交互,通过与 Bing 搜索引擎集成,将使得搜索结果更具相关性、时效性以及更加注重用户体验。消费互联网搜索引擎技术成熟、应用普遍,但是采用的跨领域通用数据缺乏工业针对性、干扰信息多,在工业场景下的数据价值密度过低,严重影响工业数据融合挖掘深度;基于普通用户画像对大众进行分类,无法获取用户在工业行业内的喜好;通用领域推荐算法难以结合工业机理模型来匹配工业搜索诉求。因此,消费互联网搜索引擎的普适性服务特征使其难以充分赋能工业领域数字化建设。2.2.基于工业电商的搜索基于工业电商的搜索基于工业电商的搜索服务能够以点对点模式
16、从企业获6取工业开放数据,根据行业类别和工业场景聚合知识信息,为工业注册用户提供更加高效的垂直搜索体验,并为供需双方搭建起产品和服务互通的桥梁,进而促进企业用户渠道拓展和资源整合。基于工业电商的搜索服务以德国媒体出版有限公司的工业集市(Industry Stock)、中云数据的工业快搜、FNS-CLOUD 的食品追溯搜索引擎、索为云网的众工业等为代表。其中,工业集市以 17 种语言服务来自全球 183 个会员国家的超过 46 万家工业企业,支持工业产业全球供应目录、线上展会信息、工业商品线上采购渠道等知识沟通和信息交流服务,并提供搜索引擎优化(Search Engine Optimizatio
17、n,SEO)服务提升网页的 Google 搜索排名;工业快搜基于工业大数据采集、处理、语义链接技术,为矿业、电力等 13 个行业的 11 个数据主题提供工业搜索服务;FNS-CLOUD 为每个食品数据或信息资源分配语义标签,适用于搜索食品行业供应链信息以及详细加工流程;众工业平台提供数字工品、软件、供需对接、最新资讯等内容的列表和关键词搜索服务,赋能用户查询产品可视化细节并支持线上订单撮合。由于工业数据具有来源广泛且分散、规模大、更新快、模式多样、与复杂的工业机理紧密相关等特点,以点对点方式从企业采集数据的效率低,并且识别、抽取、集成等传统的数据关联关系分析方法,在工业场景下面临计算资源、数据
18、集成模型以及挖掘算法的多重挑战。73.3.基于工业互联网的搜索基于工业互联网的搜索基于工业互联网的搜索由基于物联网的搜索演进而来。物联网搜索服务利用无处不在的连接和在线服务特征,提供对物联设备的在线查询能力,最具代表性的 Shodan 引擎支持查找连网的网页服务器、路由器、摄像头等节点信息,包括服务器及端口信息、设备类型、操作系统等,帮助用户搜索满足特定属性的设备信息。在工业制造场景中,搜索对象不仅仅是连网设备,而是包括人、机、物、信息系统、车间、企业等产业链各环节全要素。工业互联网平台及企业集成搜索服务能力,以满足域内资源查询需求,但是由于仅使用域内数据资源,搜索内容和适用范围局限,难以综合
19、分析跨企业跨平台的跨域数据来最优化用户搜索体验,需要向多跨发展方向转变。2022 年工信部公布了卡奥斯 COSMOPlat、航天云网 INDICS、徐工汉云等 28 家跨行业跨领域工业互联网平台名单,这些工业互联网平台提供产品和解决方案、案例库、应用、供需对接、新闻、文档等跨域搜索服务。另一个工业互联网搜索的典型代表是德国弗劳恩霍夫研究所和韩国电子技术研究所共同在美国工业互联网联盟推出的智能工厂网站(Smart FactoryWeb,SFW)。SFW 设计统一的物料清单和工序清单描述材料用以规范注册信息便于数据查询索引,建立供应链网络模型及工厂数字孪生模型,利用 OPC UA 信息模型、时间敏
20、感网络等技术保障智能工厂供应链网络的灵活性、兼容性、实时性,支持查询供应链网络中的工厂信息、特定工厂的上下游8信息,以及输入、输出、参数属性等工序信息。无论是域内搜索还是跨域的产业链泛在搜索,基于工业互联网的搜索都极大提高了工业企业数字化管理效率。但是,随着工业互联网标识解析体系建设的推进,标识数据量呈现指数级增长,基于工业互联网的搜索面临着如何充分利用复杂繁冗的标识数据的问题。4.4.工业互联网标识资源搜索工业互联网标识资源搜索标识数据量的飞速增长以及标识数据流通和利用诉求的日益强烈,使得发展工业互联网标识资源搜索势在必行。它能够对接各级标识解析节点获取标识数据;利用标识绑定的属性信息以及标
21、识编码中自带的关联字段信息,将同一对象的不同属性信息、不同来源信息,以及不同对象信息进行精准关联与融合,节省大量数据抽取和集成工作;结合行业、属地、喜好、搜索历史及工业角色等信息进行用户工业画像刻画,实现搜索意图理解最优化。中国物品编码中心的 GS1 条码查询,支持对 GS1 编码格式的标识信息进行管理、查询并提供软件工具支撑,具体包含以下服务内容:注册和发布产品信息的产品服务,条码、射频识别(Radio Frequency Identification,RFID)以及软件检测服务,中国编码、条码追溯等终端软件下载,GS1标准服务提供商信息查询,商品信息与安全追溯等服务平台,以及基于标识码、文
22、本或列表形式的查询服务等。此外,其他涉及标识业务的企业和机构也相继加入到标识资源搜索的研究队列中,包括:国家顶级节点标识查询系统支持用户9输入标识编码,查询标识分配信息以及站点信息;江苏中天互联科技有限公司开发的中国工业互联网标识解析服务中心,支持以标识编码查询、中文文本查询等方式,搜索工业企业信息、产品信息和行业新闻动态,同时提供码上聊、码上看、码应用、码申请、码论坛、码上购、码生成、码表情等“工业码”增值服务;徐工信息汉云溯源标识综合平台为企业提供一站式标识溯源技术解决方案,在食品、机械制造、物流等行业实现落地,并结合人工智能(ArtificialIntelligence,AI)技术支撑用
23、户通过“扫一扫”二维码、“拍一拍”物品实物或者输入溯源码等三种查询方式,搜索茶叶溯源信息;清控数联(山西)工业技术有限公司推出工业互联网标识检索引擎,进行二级节点标识码查询解析、业务管理、数据管理,并以运营驾驶舱形式实时可视化展示二级节点运营情况;合肥条顿工业技术有限公司的检索引擎提供标识码查询能力,自主研发营销软件即服务(Software asa Service,SaaS)系统“唐久码”,通过码客通、码客查等业务帮助企业打造专属客户资源池及全流程营销生态网络;网络通信与安全紫金山实验室则关注多源异构标识数据的采集和兼容性问题,并推出支持音频、视频、图像等多种输入形式的标识资源搜索系统,提供稳
24、定、高性能的搜索服务能力。但是,工业互联网标识资源搜索的专业性、复杂性和多元性决定了其发展并非一日之功,发展难度主要集中在以下几个方面:数据多源且异构数据多源且异构,采集处理难度大采集处理难度大。标识资源10搜索涉及大量多源异构数据,数据采集、清洗、分析和管理难度大,同时,还面临与各标识解析节点的对接要求差异大、定制成本高,以及对 Handle、OID、GS1、Ecode、DNS 等不同编码格式的兼容性等问题。应用形态局限应用形态局限,短期投入见短期投入见效慢效慢。当前工业互联网标识资源搜索服务仍以标识编码和文本等单一的查询形式为主,输入内容繁琐影响用户体验。此外,工业互联网产品受其服务属性影
25、响,往往需要带来短期成效,然而标识资源搜索的强公共服务属性使其面临商业价值见效慢、融合模式难共识以及商业属性弱等问题。工业工业数据敏感度高数据敏感度高,数据安全隐患多数据安全隐患多。工业数据特别是核心数据资产的安全性关乎企业生产经营命脉,因此工业企业非常重视数据安全和隐私保护问题,对标识数据的流通普遍持谨慎态度。产业生态依赖强产业生态依赖强,使用共识难统一使用共识难统一。发展工业互联网标识资源搜索服务虽然能够帮助企业以更快速有效的方式获取价值信息,但由于大多数制造企业追求稳定可控且已经习惯既有的应用模式,因此标识资源搜索技术的应用推广依赖产业发展共识,亟需采用有效手段引发业界重点关注。(四)定
26、位与意义(四)定位与意义工业互联网标识资源搜索定位为基于标识解析技术的工业互联网标识资源搜索定位为基于标识解析技术的工业领域垂直搜索工业领域垂直搜索,是工业互联网标识解析体系发展的杀手是工业互联网标识解析体系发展的杀手级应用级应用。一方面,通过工业场景分类和数据归类,针对工业细分场景进行数据挖掘分析,并且结合用户在工业行业内的画像理解其搜索意图,属于垂直搜索范畴;另一方面,从搜索对象和搜索用户两个维度引入标识解析技术,对接标识解11析节点获取标识数据,为拥有唯一标识身份的用户提供搜索查询服务,同时利用标识的全网唯一性打破数据异主、异地、异构的信息孤岛,为搜索对象之间、搜索用户之间、搜索对象及用
27、户之间关联关系的建立提供创新性思路。在工业互联网标识资源搜索服务中,标识所起到的作用包括数据来源、搜索输入、标识身份信息,以及在数据处理和计算过程中对多源异构数据进行融合关联的纽带。工业互联网标识资源搜索服务作为标识数据发现和互工业互联网标识资源搜索服务作为标识数据发现和互通的有效手段通的有效手段,提供了科学管理和高效利用海量工业数据的标准范式。它是应对工业数据过载的先锋利器,通过获取数据背后的价值信息,促进信息资源集成共享,为工业企业商业决策提供参考、为行业生态内的合作互惠提供途径、为监管机构职能开展提供便利、为消费者获取信息提供可靠便捷的保障,有助于打造人、机、物全面互联的新型基础设施。同
28、时,工业互联网标识资源搜索服务是推进标识解析体系建工业互联网标识资源搜索服务是推进标识解析体系建设的应用突破口设的应用突破口,能够激发标识数据价值、带动其他基于工业大数据和标识解析技术的新兴业态以及应用模式的规模化发展,最终助力产业综合实力显著提升。12二、基于标识解析的工业资源搜索整体框架图 2.1 工业互联网标识资源搜索框架工业互联网标识资源搜索服务的发展依托于标识资源搜工业互联网标识资源搜索服务的发展依托于标识资源搜索系统的建立和完善索系统的建立和完善,工业互联网标识资源搜索系统的建设可以为工业企业提供更高效、更精准的资源搜索和管理手段,帮助工业企业优化生产流程、提升质量管理水平、加强供
29、应链管理,从而实现更加智能化、高效化的工业企业生产和运营。随着工业企业建设规模的持续扩展,工业互联网标识资源搜索系统不断丰富,不仅在业务角度逐渐成熟,系统部署逐渐落地,在安全、管理、运营角度也不断发展完善。为明确业务内容,厘清各方职责,梳理系统部署,全生命安全保障,提升产品价值,本白皮书从业务、管理、部署、安全、13运营五个视图出发总结出工业互联网标识资源搜索框架,为高端装备、汽车、模具制造、医药等典型行业提供工业搜索服务。工业互联网标识资源搜索框架如图 2.1 所示。(一)业务视图(一)业务视图工业互联网标识资源搜索系统业务主要包括系统角色、数据流动和技术流程三部分组成。系统角色系统角色包括
30、数据提供方,负责提供数据并具备数据更新、同步等服务的企业、机构;数据服务能力提供方,负责数据处理并提供服务的一方;搜索用户,负责使用标识资源搜索业务的企业与个人。数据流数据流动动包括原始数据,处理后的数据(结构化数据、实体数据、标签数据、主题数据、预设结果数据),以及个性化结果数据。技术流程技术流程包括数据采集、数据预处理、数据融合、数据关联、数据检索。上述内容与工业互联网标识资源搜索系统的关系如下:首先,工业互联网标识资源搜索系统对数据提供方的大规模数据进行采集,获取大规模原始数据,保障数据来源的广泛性;其次,工业互联网标识资源搜索系统根据数据服务能力提供方的预处理、融合、关联操作,对原始数
31、据进行处理,得到结构化数据、实体数据、主题数据和预设结果数据,去除数据冗余,保障数据质量;最后,工业互联网标识资源搜索系统为搜索用户提供检索服务,结合用户画像,获取个性化结果数据,提升使用满意度。14(二)管理视图(二)管理视图工业互联网标识资源搜索系统管理部分涉及的实体包括系统建设方、第三方机构以及监管部门三类。系统建设方,应以组织战略为导向、以外界环境为依据、以业务与搜索系统整合为重心,正确定位搜索在整个系统的作用,保证搜索系统的战略目标能够和组织发展目标相协,支撑制度规范建立。通过构建搜索算法、功能模块解耦开发、建立能力验证测试平台以及提供售后运行维护等方式,为系统开发赋能。第三方机构,
32、需健全数据资源管理机制,明确数据资源管理权责与规则,建立数据产权制度,明确数据资源的归属和相关产权边界,建立数据供给规范,完善数据分类分级授权使用规范及管理标准,细化不同类别数据的管理办法,推进数据产权和标准化体系建设,构建数据基础制度,推动系统建设。监管部门,一般由政府部分负责,需充分发挥组织的协调服务功能,加强跨企业合作,推动资源整合,打造创新孵化服务生态体系,加速创新资源集聚,推动系统建设。同时,着力建立数据流通和交易制度,聚焦当前数据交易市场建设现状与问题,统筹构建数据交易场所,培育数据流通市场。此外,应完善数据安全合规体系,明确搜索数据治理规范。(三)部署视图(三)部署视图工业互联网
33、标识资源搜索系统部署主要由公共基础设15施、数据处理系统以及用户多元权限管理系统共同完成构建。标识解析是工业互联网标识资源搜索服务中一个重要的组成部分,它涉及将标识信息映射到相应的资源或实体。公共基础设施主要包括两个部分:链网基础设施以及云平台基础设施。其中,链网基础设施指具有广泛接入能力、公共服务能力、可灵活部署的公共链网及连接这些区块链的跨链系统组成的网络服务设施;云平台基础设施主要指以数据存储为主的存储型云平台。在标识搜索服务中,链网基础设施主要负责搜索用户认证相关内容的存证;云平台基础设施主要指以数据存储为主的存储型云平台,主要为数据处理系统中的标识搜索服务数据存储工作。前述基础设施中
34、的存证数据包括了标识信息与相应资源之间的映射关系。标识解析可以利用链网基础设施中存储的认证信息来实现标识的解析,以确定标识与资源之间的关联。数据处理系统负责两部分功能,包括标识搜索服务数据挖掘以及意图分析。其中,数据挖掘即通过分析标识搜索服务数据,从大量数据中寻找其规律,支撑技术流程中数据关联过程;意图分析,即识别文本中蕴含的主题和意图,通过设定训练模型,完成标识搜索用户行为意图分析。数据处理系统中的数据挖掘和意图分析功能可以进一步支持标识解析。数据挖掘可以帮助发现标识与资源之间的潜在关联规律,从而提高解析的准确性。例如,通过分析用户行为数据,可以更好地理解标识与资源之间的关系。同时,意图分析
35、可以帮助理解用户的意图,以更精确地解析标识并提供相关资源。16用户多元权限管理系统负责标识搜索服务参与各方身份认证、访问控制以及隐私服务。身份认证、访问控制以及隐私服务功能,主要基于传统的密码学算法与链网基础设施结合完成。权限管理系统在标识解析中也扮演着重要的角色。它确保只有经过认证和授权的用户可以执行标识解析操作。此外,访问控制功能可以限制对标识解析结果的访问,以确保数据的安全性和隐私保护。(四)运营视图(四)运营视图工业互联网标识资源搜索系统运营主要包括内部运营与外部运营两方面。内部运营主要指标识资源搜索企业内部的运营管理。其目标是为了实现企业的长期发展和盈利,通过产品增值服务与技术支持等
36、方面提高系统的核心竞争力,主要包括会员服务、产品增值服务、技术服务三部分。会员服务方面,搜索企业可以通过对不同搜索用户分类分级,通过提供不同访问权限的方式实现会员分级服务,此外对不同级别的用户提供不同类型的咨询服务,实现用户服务定制化。产品增值服务方面,搜索企业可以对外提供广告并通过广告竞价排名方式实现广告位最大价值营收。技术服务方面,搜索企业可以通过专利转让等方式对外提供技术授权,或对外出售技术实现技术增值。外部运营主要指标识资源搜索企业或组织向外部市场提供产品或服务的运营管理方式,其主要目标是为了满足标识资源搜索市场需求,提高销售额和市场份额。主要包括品17牌营销、降本增效、营收扩展三部分
37、品牌营销方面,搜索企业需对用户进行精准的营销定位,扩大销售机会。降本增效方面,搜索企业应加快数字化建设,对外提高资源使用率。营收扩展方面,搜索企业应与其他企业加强联动,增强组合经营。此外,应扩展资源获取渠道,凸显系统差异化竞争优势。(五)安全视图(五)安全视图工业互联网标识资源搜索系统安全主要涉及用户访问安全、数据挖掘安全、数据接入安全和通用安全等四个方面。在用户访问数据信息的过程中,进行身份认证、权限管控和隐私保护:通过数字签名和口令方式对登录用户进行身份认证,保证用户身份可信;采用基于角色、身份、属性等不同访问控制策略进行鉴权,拦截未经授权的数据操作;原始数据、过程数据及结果数据均经过脱
38、敏处理,拒绝隐私泄露,并利用 DID 分布式身份管理,使用户身份信息自主可控,从而最大化保护其隐私。在融合关联等挖掘分析过程中,进行算法合规性检验、数据分类分级、动态安全监测:对算法是否存在越权访问以及挖掘用户敏感信息等操作进行合规性检验;对数据进行分类分级,在数据挖掘过程中,为不同类型和级别的数据提供针对性保护;动态监测数据挖掘过程中的安全风险,进行及时告警并提供应急处理措施。在数据接入过程中,进行数据质量校验、数据脱敏审核、数据源可信验证:校验数据的一致性、完整性、及时性以及18可用性,并在检测到异常时采取必要的恢复措施,进而提高接入数据质量;对采集到的数据进行脱敏审核,包括非敏感数据中能
39、够用于重新生成敏感数据或者回溯到敏感数据的部分,并在发现疑似敏感数据时进行风险提示;运用基于区块链的声誉评价机制监控低信誉数据源及其异常行为,加强对低信誉数据源的审核或者限制其接入。此外,在标识资源搜索全流程过程中,需要保障数据存储、传输以及硬件环境安全,并提供备份恢复、安全审计等安全措施:通过加密算法以及分布式存储技术提高数据存储安全性;采用 SSL、TLS、HTTPS 等安全传输协议保证数据传输安全性;使用环境安全的场地存放服务器、管理进出机房人员信息,选用自带可信计算环境的服务器,保证硬件安全性;提供基于时间序列的自动备份等备份恢复功能,并定时批量更新重要的备份数据;记录系统日志、操作日
40、志、安全日志并定期进行安全审计,以确保数据内容的安全性。19三、基于标识解析的工业资源搜索关键技术针对基于标识解析的工业资源搜索服务现状及面临的风险,本白皮书从标识解析、数据采集、数据存储、数据融合、数据关联、数据搜索、数据安全保障等多个方面汇编总结工业互联网标识资源搜索的关键技术,为工业互联网标识资源搜索应用建设者和研究者提供参考。(一)标识解析(一)标识解析标识作为工业互联网标识资源搜索的核心基础资源,是支撑工业互联网互联互通的神经中枢,是能够唯一识别设备、产品等物理资源以及算法、工序、标识数据等虚拟资源的身份符号。当前,工业互联网处于多标识编码体系并存的发展阶段,如 OID、EPC、Ec
41、ode、Handle、Ucode、mRFID Code、GS1 等,导致标识信息类型复杂、关键信息提取缓慢、解析时延效率低下等问题。针对此,亟需解决标识解析技术,如图 3.1 所示,包括多类型标识处理技术,明确不同行业对象的标识分类、编码规则、编码结构,实现多维数据收包、多码标识识别;高效标识路由技术,负责具体的标识解析过程,实现快速、准确获取最终标识解析数据,降低解析时延;定制化标识管控技术,实现分类管理、智能路由选路、状态监控与感知,提升解析效率。20图 3.1 标识解析技术多类型标识处理技术多类型标识处理技术。包括异构标识解析接收技术和标识解析服务技术。异构标识解析接收技术可利用多类型数
42、据报文接收技术、标识预解码技术,接收 UDP、TCP、HTTPS 等含有标识信息相关的不同数据报文,从数据报文中提取关键请求编码信息,识别具体标识协议,保证末端接入的多类型标识识别需求;标识解析服务技术可嵌入递归与应急解析服务,在与外界递归系统、二级节点系统、顶级节点系统发生无法访问的情况下,提供应急解析,保障解析成功率。高效标识路由技术高效标识路由技术。包括标识传输技术和智能选路技术。标识传输技术可通过标识检索、标识迭代、标识命中技术,减少与外部系统的交互次数,降低解析时延;智能选路技术可通过智能选路算法、实时节点管理与树状体系探测技术选择最优路径,在本地缓存无法解析的情况下,访问外部标识2
43、1解析节点获取标识解析结果。定制化标识管控技术定制化标识管控技术。包括标识监控技术和标识感知技术。标识监控技术可通过请求/应答监控、时延监控、解析量监控、服务器软硬件资源状态监控、每秒查询率监控(Queries Per Second,QPS),提供定制化服务,保障标识解析服务质量;标识感知技术可利用大数据、AI、递归分析等技术对相关的标识解析进行时延预判、递归预判与状态预判,及时调整访问路径,提升递归解析处理时效,实现标识准确感知。(二)数据采集(二)数据采集数据作为工业互联网标识资源搜索有效运行的重要基础生产资料,精准、高效的数据采集技术将有利于提升后续服务的能力。当前,工业互联网通信主体来
44、自不同国家和企业,工业数据涵盖了主体各自的数据标准,其展现形态具有多样性且错综复杂,单一模式的数据抓取方式难以实现内容的准确采集。此外,采集的数据质量难以保障,可能存在大量的冗余信息,进一步降低了数据的准确性。针对此,亟需解决数据采集技术,如图 3.2 所示,包括多模式数据抓取技术,提升数据采集的速度与准确度,实现大规模数据抓取;多模态数据识别技术,实现多模态工业数据类型特征采集;数据清洗技术,实现数据去重与异常识别,保障数据采集的整体质量。22图 3.2 数据采集技术多模式数据抓取技术多模式数据抓取技术。包括分布式管理技术和抓取优化技术。分布式管理技术可对传统的爬虫技术进行改进,利用分布式思
45、想,搭建分布式集群,扩充工作资源,构建支持不同企业多种编程语言、传输协议、软件系统的数据调度接口,提升数据抓取速度;抓取优化技术可对抓取队列进行管理、优化爬取规则与扩充算法,使分布式爬虫的抓取过程更加流畅合理,增强数据抓取合理性。多模态数据识别技术多模态数据识别技术。包括文本数据识别技术和音视频数据识别技术。文本数据识别技术可基于工业文本行文的特点,通过优化的文本语义识别技术实现文本分词和词义消歧的功能,完成在各个语言单位(包括词汇、句子和篇章等)间的自动语义分析,从而理解整个文本表达的真实语义,提升文本数据识别准确性;音视频数据识别技术可基于工业生23产场景,结合基于受限玻尔兹曼机(Rest
46、ricted BoltzmannMachine,RBM)和卷 积神 经网络(Convolutional NeuralNetworks,CNN)的音视频数据要素提取技术,将视觉图像和音频数据分别作为两种模态输入,获取两种模态的高层特征并与行业特征进行交叉判别,建立模态间的共享表示,实现工业媒体数据流的特征提取。数据清洗技术数据清洗技术。包括数据去重技术和异常识别技术。数据去重技术可结合局部性和相似性分层优化技术,解决工业实体各环节标准化数据局部性优化技术的高敏感数据需求与相似性优化技术的高计算资源消耗问题,实现数据分层,降低数据冗余,减少统计规模;异常识别技术可采用流回归机器学习算法和正态统计技
47、术相结合的方法进行数据异常检测,实时且准确分析宏观供应链流数据中的异常数据,实现异常数据识别并及时反馈。(三)数据存储(三)数据存储完善的数据存储技术可以让有限的资源服务更多的用户,从而满足工业互联网标识资源搜索服务更快的响应速度与更快的需求变化。当前,数据规模变的越来越大,大规模非结构化数据的存在,增加了数据存储的困难并导致了传统关系型数据库的无效。此外,用户查询频率符合逆幂规律(Power-Law),即少量数据查询次数极高,大多数重复的数据查询会在较短时间内被再次访问,热点数据的频繁写入和读取导致实时负载不平衡,造成单个服务器节点负载过大,成为系统的瓶颈。针对此,亟需研究数据存储技术,如图
48、 3.324所示,包括多源异构数据存储技术,有效存储大量网络化非结构数据,使得系统具备多源异构数据汇聚能力;存储优化技术,平衡各服务器节点负载,定期更新缓存内容,有效节省搜索系统后台的计算资源。图 3.3 数据存储技术多源异构数据存储技术多源异构数据存储技术。包括模型构建技术和多类型数据库构建技术。模型构建技术可利用元数据描述数据属性信息,构建统一的元数据模型,将非结构化数据转化为可以解析与查询的内容,实现简单高效地管理大量网络化非结构数据;多类型数据库构建技术可分别构建多种类型数据库,可采用分布式文件系统(Hadoop Distributed File System,HDFS)存储视频源等大
49、文件,采用轻量级分布式文件系统(Fast Distributed File System,FastDFS)存储关键帧图片等小文件,利用 MySQL 数据库存储结构化数据,利用 Neo4j数据库存储复杂网络数据,利用单盘存储引擎存储中间数据,25利用 RazorSQL 工具存储异构数据库,最终实现多源异构数据统一管理。存储优化技术存储优化技术。包括负载平衡调度技术、存储区优化技术、和存储内容更新技术。负载平衡调度技术可利用流思想、缓存槽与节点的映射构建方法,实时监控集群负载,重新分配热点数据,防止单个服务器节点负载过大,实现动态平衡;存储区优化技术可结合分布式缓存与本地缓存技术,实现多级缓存,将
50、频繁使用数据存放本地,缩短系统响应时长,提升服务质量;存储内容更新技术可利用数据淘汰策略包括近最少使用策略(Least Recently Used,LRU)、大小自适应最近最少使用策略(Size-adjusted Least Recently Used,SLRU)、加权缓存策略(LandLord)、静态动态混合缓存策略(Static and DynamicCaching,SDC)、准入策略(AdmissionControl,AC)等,快速筛选过时数据内容,提高缓存命中率,保障存储数据实时性。可利用数据更新策略包括缓存-索引密切耦合策略、缓存-索引非耦合策略,为缓存项设置合理过期值,及时更新索引






