1、去往认知海洋的一艘船中国知识图谱行业研究报告2019年2序言认知智能是探寻人类学习、理解、产生决策的生物能力,并将之赋予机器的技术统称,而实现机器认知,需要突破感知泛在、意识建立、低维到高维的主观概念形成、推理决策能力唤醒,以及多模态知识持续学习等能力瓶颈,其产生的价值也将使人工智能更加贴近人类的思维方式,而知识图谱作为人类意识和概念的承载体是现阶段认知智能主要的发展方向之一。2019年是知识图谱相关技术飞速发展的一年,世界顶级NLP大会ACL一次性收录了超30篇高质量知识图谱类论文,其中对于关系向量和图神经网络的论述将对知识图谱中关系补全、推理决策和认知计算带来长足发展。在国内建设应用方面,
2、工信部发文明确指出,2020年将围绕工业大数据融合应用、民生大数据创新应用、大数据关键技术先导应用、大数据管理能力提升4大类7个细分方向着重发展,而知识图谱作为集大数据和人工智能于一身的综合技术,也将成为重点关注领域。艾瑞咨询研究院32020.3 iResearch I摘要来源:艾瑞根据公开资料自主研究绘制。2019年涵盖大数据分析预测、领域知识图谱及NLP应用的大数据智能市场规模约为106.6亿元,预计2023年将突破300亿元,年复合增长率为30.8%,其中2019年市场中以金融领域和公安领域应用份额占比最大。随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行业可落地
3、性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有正向意义。人工智能本质是解决生产力升级的问题,人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相对应,NLP和知识图谱是发展认知智能的基础。在面对数据多样、复杂,孤岛化,且单一数据价值不高的应用场景时,存在关系深度搜索、规范业务流程、规则和经验性预测等需求,使用知识图谱解决方案将带来最佳的应用价值。原始数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模
4、型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成完整形态上的知识图谱。4513SMS24知识图谱技术概述1中国知识图谱市场概述2中国知识图谱细分市场分析3中国数据智能代表企业案例展示452020.3 iResearch I人工智能技术分类和趋势三种流派的融合应用,使人工智能向想象更进一步人工智能是对一类能够实现机器模拟智慧生命某些特征的技术统称,从学术上可以分为,对人类已有知识进行组织编辑的符号主义、通过数学理论公式推导聚类和预测问题的连接主义,以及利用机器模仿生物活体行为的行为主义三个流派,分别以知识工程、机器
5、学习和仿生机器人为时代代表,而知识图谱就是新一代知识工程的具体体现。2012年,深度学习在计算机视觉和智能语音上产生重大突破,打开了人工智能商业化的大门,使得连接主义一度成为人工智能的代名词,但随着应用落地成为主旋律,缺位行业逻辑和理论概念的连接主义,往往找不到最佳的应用场景而止步于浅层尝试,在此背景下,人工智能技术应当走向融合,符号主义需要连接主义提供强大的计算支撑,连接主义需要符号主义的逻辑指导,二者又共同作用于行为主义,充当机器人的大脑和“记忆宫殿”,在多种技术综合利用下的垂直领域智能解决方案才是当今最符合市场期待的方向。来源:艾瑞根据公开资料自主研究绘制。人工智能三大流派分类与融合趋势
6、深度学习机器学习计算机视觉智能语音自然语言理解连接主义符号主义行为主义启发式算法专家系统知识工程知识图谱控制论生物控制论自组织系统智能控制系统信息理论控制理论控制逻辑计算机神经系统工程控制论智能机器人系统62020.3 iResearch I人工智能技术应用本质认知智能使AI触及生产核心,知识图谱决定认知智能的起点人工智能与互联网或5G等技术本质上存在差别,后者解决的是信息的发出、传递、接收与反馈的闭环问题,而人工智能的本质是进行生产力升级,因此评判人工智能使用的是否有价值,要看其技术应用是否贴近生产核心。人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智
7、能和行为智能,后两者更与生产力相对应。以计算机视觉、语音识别为代表的感知智能应用深度学习,在算力与数据的支撑下突破了工业红线,实现了机器对于自然界具象事物的判断与识别,但仅仅如此并没有触及核心生产环节,所以也就限制了其商业应用半径。当人们使用机器能识别更多事物的时候,自然而然的引发了,对事物背后的事理,理解、分析和决策的深层次需求,认知智能呼之欲出。认知智能核心解决的问题是对人类文明抽象概念的识别与联想,通过自然语言处理(NLP)技术对文字内容在语义上进行初步认知和自动抓取,经由知识图谱对概念间的关系属性进行联结、转换,从而对人类社会生产、生活行为进行描绘,实现业务规范梳理、生产流程可视化、人
8、际关系挖掘等代表应用,这与注重经验、逻辑和方法论累积的知识生产力产生了直接对应,而与劳动生产力相对应的行为智能同样需要知识的指导,所以认知智能的发展才是人工智能回归本质的表征,而搭建知识图谱是认知智能可以参与生产的基础锚点。来源:艾瑞根据公开资料自主研究绘制。人工智能与生产力的关系人工智能生产力感知智能计算机视觉语音识别认知智能行为智能仿生机器人类脑芯片指导知识生产力计算机视觉语音识别劳动生产力计算机视觉语音识别自然语言处理(NLP)NLP技术其实也是一种识别,是对人类文明符号文字在语义上的初步认知知识图谱知识图谱能实现的是通过概念间的关联进行联结、转换,从而对人类社会生产、生活行为进行描绘,
9、如业务规范、生产流程、人际关系等语义识别目标抽取语义识别基于图谱开发应用72020.3 iResearch I知识图谱概念定义是一种描绘实体间关系的语义网络,是认知智能的必要基础知识图谱是一种描绘实体之间关系的语义网络,是人工智能重要研究领域知识工程的主要表现形式之一。知识图谱通过RDF(三元组),既“实体 x 关系 x 另一实体”或“实体 x 属性 x 属性值”集合的形式,以人类对世界认知的角度,阐述世间万物之间的关系,通过NLP技术、图计算、知识表示学习等手段,将非线性世界中的知识信息结构化,以便机器计算、存储和查询,起到赋予机器人类认知的效果,是人工智能技术走向认知的必要基础。来源:艾瑞
10、根据公开资料自主研究绘制。知识图谱以RDF形式阐述万物关系实体另一RDF关系知识图谱RDF(三元组)形式知识图谱结构自然世界82020.3 iResearch I知识图谱发展历程三个时期五个阶段奠定了现代知识图谱的雏形知识图谱发展至今可以总结为三个时期和五个阶段。1950-1977年是启蒙期,包含了基础概念阶段和专家系统阶段的开端,这一时期文献索引的符号逻辑被提出并且应用;1977-2012年是知识图谱不断演变的成长期,包含了大部分专家系统阶段和Web 1.0和2.0阶段,在此期间出现了很多如WordNet、Cyc、Hownet等大规模的人工知识库,知识工程成为了人工智能重要的研究领域,201
11、2年,Google正式提出的知识图谱概念,开启了现代知识图谱的序章;2012年至今是知识图谱的发展期,中国企业开始入局,以BAT为代表的科技公司依托自身业务,在搜索引擎、电商、医疗等领域开始应用知识图谱技术,解决办法服务商们也从大数据赛道中脱颖而出,将知识图谱技术拓展到安防、金融、教育等更多领域,让AI跳出感知智能的商业局限,向解决各产业生产环节中的核心痛点更进一步。来源:艾瑞根据公开资料自主研究绘制。知识图谱的发展历程19501970199020002012启蒙期(1950-1977年)成长期(1977-2012年)发展期(2012年-今)1955年,加菲尔德提出了将引文索引应用于检索文献的
12、方法1965年,普赖斯等人提出用引文网络来研究当代科学发展脉络的方法1968年,奎林提出语义网络的概念,是一种用图来表示知识的结构方式1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用1991年,Niches提出知识本体的概念,把领域知识形式化1998年,万维网之父再次提出了语义网2002年,机构知识库的概念被提出,知识表示和知识组织开始深入研究2012年,Google提出知识图谱概念2014年,百度知识图谱正式上线,至今以包含千亿级别的三元组集合2017年,阿里巴巴知识图谱首次曝光,已包含百亿级别核心商品信息的三元组集合2017年,腾
13、讯AI Lab在美国国家标准与技术研究院(NIST)主办的2017年国际知识图谱构建大赛获得冠军2019年,小米小爱同学3.0上线,以百科图谱为中心,外接垂类知识图谱和小米业务图谱,三元组规模达300亿基础概念阶段专家系统阶段Web 1.0阶段 Web 2.0阶段知识图谱阶段92020.3 iResearch I知识图谱结构建设本体模型和实体数据库是知识图谱结构的核心知识图谱从逻辑上可以分为概念层和数据层,数据层指以三元组为表现形式的客观事实集合,而概念层是它的“上层建筑”,是经过积累沉淀的知识集合。建设中以本体模型和实体数据库为核心,根据二者的建设顺序又分为先定义本体和数据规范,再抽取数据的
14、“自顶向下型”和先抽取实体数据,再逐层构建本体的“自底向上型”两种模式,前者适用于场景较为固定,存在可量化行业逻辑的领域,如金融、医疗、法律等;后者适用于新拓展的,有大量数据积累,行业逻辑难以直接展现的领域。总体而言,搭建知识图谱从数据源开始,经历了知识抽取、知识融合、知识加工等步骤。原始的数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成完整形态上的知识图谱。来源:艾瑞根据公开资料自主研究绘制。知识图谱结构拓扑图半结构化数据
15、结构化数据非结构化数据实体抽取关系抽取属性抽取事件抽取数据整合知识库实体对齐知识融合知识推理质量评估本体构建原图应用数据源知识抽取数据规范模型修订知识加工本体对齐标准知识关系模型知识表示算法支撑知识自动化图谱应用应用中知识不断扩充和修订102020.3 iResearch I多源异构的数据来源结构化和半结构化数据的抽取是搭建基础,非结构化数据抽取的发展将拓宽知识图谱的应用边际知识抽取是搭建知识图谱过程中至关重要的一环,也是目前评判知识图谱优劣性的标准之一。知识抽取所处理的信息往往是明确的事实性信息,信息源通常分为已有关联数据库的结构化数据、如表格和列表类的半结构化数据,以及如TXT格式的文本类
16、非结构化数据,前二者可以通过D2R(DRF格式转换器)、包装器(格式解析工具)等工具完成处理,而文本类非结构化数据需要通过自然语言处理的相关技术进行知识抽取,所有数据最终都要通过处理转化为标准数据供图谱使用。随着生物识别和物体识别等AI技术的应用,指纹库、人脸库、车辆库等数据库逐步建立,对于非结构化数据的知识抽取将不再局限于文本,所搭建的知识图谱维度将会更丰富,应用场景更加垂直下沉。来源:艾瑞根据公开资料自主研究绘制。对信息源数据的抽取方法半结构化数据结构化数据非结构化数据列表信息框知识图谱关联数据数据库表格文本OCR手写体人脸图映射/D2R转换包装器通过数据处理将多源异构数据统一为标准结构化
17、数据供知识图谱使用112020.3 iResearch I大规模应用落地的保障知识抽取实体和关系抽取是核心,事件抽取是知识更新的重要手段对信息源的知识抽取主要按照自然语义中的主谓宾语法进行抽取,分为实体抽取、关系抽取、属性抽取和事件抽取等。实体抽取指在信息源中识别出特定的元素标签,并与实体库中的标签相链接,是信息抽取中最基础的部分;关系抽取意在找到信息源中实体间的关系,可分为全局抽取和局部抽取,全局抽取是通过语料库对信息源中的所有关系对进行抽取,而局部抽取则是判断一句话中实体的关系类型,目前可以通过特征标注的有监督学习和借助外部知识库进行标注的远程监督学习实现,后者相比前者节省人工标注成本,但
18、准确率略低;属性抽取可以看作实体和其属性值之间的关系,属于关系抽取的一种类型;事件抽取是将信息源中指定的事件信息抽取,并结构化地表现出来,包括事件的时间、地点、人物、原因、结果等,通常使用将事件划分多个分类阶段的pipeline方法和利用神经网络的深度学习方法,事件抽取拥有时间维度,可以与时俱进地迭代学习,是知识图谱知识更新的重要手段。来源:艾瑞根据公开资料自主研究绘制。知识抽取核心内容从信息源中识别并提取实体是信息抽取中最为基础和关键的部分分为基于规则与词典、基于统计机器学习和面向开放域三种抽取方法1实体抽取对信息源中实体的特征和性质进行抽取由于可以将实体的属性视为实体与属性值之间的一种名词
19、性关系,因此也可以将属性抽取问题视为关系抽取问题3属性抽取从信息源中抽取实体间的关系解决实体间语义链接的问题分为有监督学习抽取和远程监督学习抽取2关系抽取从信息源中识别并抽取出事件信息,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变动态化地丰富和更新实体关系,是现有知识资源的重要补充4事件抽取122020.3 iResearch I快速工程化搭建的利器知识融合通过本体对齐和实体对齐实现知识库联结合并,形成更加统一、稠密的新型知识图谱知识融合是指,从概念层和数据层两方面,通过知识库的对齐、关联、合并等方式,将多个知识图谱或信息源中的本体与实体进行链接,形成一个更加统一、稠密的新型
20、知识图谱,是实现知识共享的重要方法。概念层的知识融合主要表现为本体对齐,是指确定概念、关系、属性等本体之间映射关系的过程,一般通过机器学习算法对本体间的相似度进行计算来实现,根据自然语言类型,可分为单语言对齐和跨语言对齐,其中跨语言对齐是实现知识国际交流的重要方式。数据层的知识融合主要表现为共指消解和实体对齐,前者意在将同一信息源中同一实体的不同标签统一,实现消歧的目的;后者是将不同信息源中同一实体进行统一,使信息源之间产生联结。知识融合的使用能够大量应用人类已有知识储备,节省成本,是快速搭建知识图谱的必要手段,也是现代知识图谱应用中重要的研究领域。来源:艾瑞根据公开资料自主研究绘制。知识融合
21、的核心内容通过本体对齐和实体对齐形成更加统一、稠密的新型知识库知识库1知识库2知识库3132020.3 iResearch I由数据向知识转化的秘诀知识加工本体构建、知识推理和质量评估使RDF数据向“知识”跃迁经过知识抽取和知识融合,实体和本体从信息源中被识别、抽取,并且消岐、统一,此时得到的关联数据是对客观事实的基本表达,但客观事实还不是知识图谱需要的知识体系,想要获得结构化的知识网络,还需要经过本体构建、知识推理和质量评估等知识加工过程。本体构建是知识图谱内实体连通的语义基础,以“点线面”组成的网状结构为表现形式,“点”代表不同实体,“线”代表实体间的关系,“面”既是知识网络。本体可以通过
22、人工总结专家经验进行手动编程,也可以由机器学习驱动进行自动构建,本体构建的模型深度和广度,决定了知识图谱的应用价值;知识推理是通过对已有实体间关系的计算,找到新关联,从而丰富新知识的过程,也是知识图谱更新的重要手段;质量评估是知识加工最后的“质检”环节,确保经本体构建和知识推理得到的知识是合理,且符合知识图谱应用目的,根据所建设知识图谱的类型和具体用途,质量评估的标注有所不同。来源:艾瑞根据公开资料自主研究绘制。知识加工核心内容本体构建本体是知识图谱内实体连通的语义基础,主要以“点线面”组成的网状结构呈现本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核
23、相结合的方式加以修正与确认知识推理通过对三元组的语义分析,获取新知识或结论,包含公理性推理和判断性推理知识推理是知识图谱更新的重要手段知识推理的主要方法包括基于Tableaux运算、基于逻辑编程改写、基于一阶查询重写、基于产生式规则等方法质量评估对已产生的知识数据进行评估,将符合标准的数据导入知识图谱中质量评估是确保知识图谱内容正确可用的关键步骤根据所建设知识图谱的类型和具体用途,质量评估的标注有所不同142020.3 iResearch I知识图谱的载体知识存储关系型数据库和图存储是现代知识图谱较为常见的存储方式知识存储是将知识图谱的概念层和数据层以计算机可识别的数据格式进行保存的物理形式,
24、是知识的现实容器。知识存储按照存储结构可以分为表格形式和图形式,常见的表格存储有三元组表、类型表和关系型数据库,前二者难于大规模建设,且查询、维护、删改等操作成本较高,不适用于现代知识图谱应用。关系数据库通过属性记录实体,能很好的和RDF完成映射,利用SQL语言也能方便快捷的进行知识检索,是目前应用较为广泛的知识存储方式;图存储是以图形结构对数据进行存储的方式,并非图片存储。以图形的“节点”象征实体,节点间的“边”代表实体间的关系,这种结构与知识图谱内本体结构非常贴合,更有利于知识查询和价值挖掘,常被应用于本体层的存储,但在某些场景中因其格式死板问题,并不适合全面应用。结合图谱使用目的,灵活的
25、选择存储搭配方式,是符合当下知识图谱落地的最佳方案。来源:艾瑞根据公开资料自主研究绘制。知识加工核心内容关系数据库关系数据库通过属性记录实体,能很好的和RDF完成映射,是目前应用较为广泛的知识存储方式图数据库以图形的“节点”象征实体,节点间的“边”代表实体间的关系,更有利于知识查询和价值挖掘152020.3 iResearch I知识图谱的主要算法图计算用于图结构化数据间的关联性推理运算,善于挖掘隐藏关系图计算属于大数据挖掘技术的一种,专用于图结构化数据之间关联性的推理运算,基础数据格式与图存储相对应,由代表实体的“点”、代表本体的“边”和边上的权重组成,这里的权重多指一些包含时序性信息的具体
26、数据。图计算算法主要包括全盘访问每一个节点的遍历算法、用于计算社交网络中人际关系的社区发现、源自搜索引擎,用于网页链接排序的PageRank,以及解决图结构中距离问题的最短路径算法,在知识图谱中主要应用遍历算法进行知识推理,以发现实体间隐藏的关系。为了更高效的进行图计算,在应用中会使用图计算系统和计算模型,图计算系统分为单机系统和分布式多机系统,对于大规模图结构存储的计算后者更具有优势。而图计算模型被用于解决图计算因频繁迭代带来的数据读取等待和成本高的问题、对相邻节点和边的计算依赖问题,以及难以在分布不均的区块上并行计算的问题。来源:艾瑞根据公开资料自主研究绘制。图数据库以图形的“节点”象征实
27、体,节点间的“边”代表实体间的关系,更有利于知识查询和价值挖掘图算法核心内容遍历算法沿着某条搜索路线,依次对树(或图)中每个节点均做一次访问,试图找到新的关联社区发现社区发现算法可以用来发现社交网络中三角形的个数(圈子),可以分析出哪些圈子更稳固,关系更紧密PageRank如一个网页被多个网页链接,则其PageRank值较高,该算法源自搜索引擎中的网页排序最短路径用于计算一个节点到其他节点间最短的途径,以目标节点为中心,向边缘扩散162020.3 iResearch I知识图谱的关键技术自然语言处理通过分词、词性标注和句法分析等方式使语言与程序相耦合自然语言处理(NLP)是一门涉及语言学、数学
28、和计算机科学的综合学科,主要研究人与计算机之间使用人类自然语言进行有效沟通的理论和方法。NLP技术包含非常广泛,最常应用于知识图谱中的能力是对于自然语言中信息的抽取,基本能力包括分词、词性标注和句法分析,通过词典法或统计法将文章中的词语进行分割,由最大熵、HMM或CRF等算法训练模型,对名词、动词、形容词、标点符号等词性类别进行识别和标注,再根据规则法或统计法对语句的主谓宾等句法结构进行分析,得到完整句式,最终产出一个计算机可识别的语料库,供后续需求调取。NLP技术是人工智能领域最具有挑战性的任务之一,2018年10月,谷歌公布的BERT模型在11项NLP任务中表现卓越,将下游具体NLP任务近
29、一步推向预训练产生词向量环节,增强了NLP的泛化能力和自动化能力,为业界带来了新的思考方向,随着训练模型的不断探索与开源,类似深度神经网络于识别类任务的里程碑型训练算法终将出现,届时NLP训练成本将大大降低,从而真正走向产业化,开启认知智能的大门。来源:艾瑞根据公开资料自主研究绘制。通过自然语言处理实现知识抽取的简单示意NLP是人工智能领域重要的研究方向研究方向NLP是人工智能领域重要的名词 系动词名词形容词名词主语谓语补语定语宾语实体1实体2关系:从属属性:学科自然语言:分词:词性标注:句法分析:知识抽取:172020.3 iResearch I业界前沿技术知识表示学习将知识映射到向量空间参
30、与计算,用深度学习挖掘隐藏关系表示学习是深度学习的核心环节,其本质是将研究对象的语义信息转化为稠密低维的向量,利用数学模型表示实例,并参与机器计算。知识表示学习是图神经网络(GNN)重要的应用表现,是面向知识库中概念和实体进行的表示学习,它的价值在于能够量化语义信息,进而计算概念间和实体间的相似度,实现关系抽取、实体对齐和知识推理的效果。知识表示学习的应用能够有效提升计算效率、降低数据稀疏带来的学习难度、解决多元异质数据的耦合问题等,是知识图谱技术的重点研究方向。目前知识表示学习的前沿研究仍以模型试验为主,以提高模型的预测准确性、可解释性、泛化能力为研究重心,使知识表示能够区分概念和实体,增强
31、逻辑性是研究方向,随着知识表示学习的发展成熟,认知智能将更快得以实现。来源:艾瑞根据公开资料自主研究绘制。将知识映射到低维向量空间通过知识表示学习,将复杂的语义信息降维成表示向量,映射到向量空间中,参与计算18知识图谱技术概述1中国知识图谱市场概述2中国知识图谱细分市场分析3中国数据智能代表企业案例展示4192020.3 iResearch I知识图谱的应用价值对多源异构数据和多维复杂关系的处理与可视化展示是现阶段的主要价值,图神经网络下的深度学习算法应用将带来更广阔的认知市场知识图谱是人工智能符号学派中知识工程的代表应用,其核心价值在于对多源异构数据和多维复杂关系的处理与可视化展示,其底层逻
32、辑是将人类社会生活与生产活动中难以用数学模型直接表示的关联属性,利用语义网络和专业领域知识进行组织存储,形成一张以关系为纽带的数据网络,通过对关系的挖掘与分析,能够找到隐藏在行为之下的利益链条和价值链条,并进行直观的图例展示。在面对数据多样、复杂,孤岛化,且单一数据价值不高的应用场景时,存在关系深度搜索、规范业务流程、规则和经验性预测等需求,使用知识图谱解决方案将带来最佳的应用价值。连接主义中的深度学习算法几乎代表了当代整个人工智能技术,但深度学习需要具有明确因果关系的数据对训练,且存在尚缺乏解释性的黑箱问题,在掺杂众多非线性问题的复杂场景中应用价值有限,通过与知识图谱的配合使用,在一定程度上
33、可以解决此类问题,随着关系向量法深入研究,图神经网络将走向产业应用,届时依托于行业知识与经验的深度学习将产生更多贴近产业核心的认知智能应用,人工智能技术也将跟进一步实现生产力升级的终极目标。来源:艾瑞根据公开资料自主研究绘制。知识图谱的应用价值关联性深度学习对多源异构数据和多维复杂关系的处理与可视化展示将人类社会生活与生产活动中难以用数学模型直接表示的关联属性,利用语义网络和专业领域知识进行组织存储,形成一张以关系为纽带的数据网络,通过对关系的挖掘与分析,能够找到隐藏在行为之下的利益链条和价值链条,并进行直观的图例展示。图神经网络支撑深度学习算法应用随着关系向量法深入研究,图神经网络将走向产业
34、应用,届时依托于行业知识与经验的深度学习将产生更多贴近产业核心的认知智能应用,人工智能技术将跟进一步实现解放生产力的终极目标。202020.3 iResearch I知识图谱市场商业逻辑分析原图应用解决查询类问题,算法支撑造就智能化解决方案知识图谱作为一种更加形象的数据表现方式,其产品形式可以分为原图应用和算法支撑两类。原图应用是指直接通过图谱产生价值的服务形式,图谱根据概念层和数据层的区别可以分为通用知识图谱和行业知识图谱,通用知识图谱信息一般来自开放的互联网,三元组多为具有普适性的常识知识,知识覆盖的广泛性越强,价值越凸显,其特性更适用于如谷歌、百度、搜狗等百科型搜索引擎,被视为下一代搜索
35、引擎的核心技术。而行业知识图谱则更看重具体场景中的认知深度,以及与行业know-how的结合程度,在此基础上实现的知识检索、隐藏关系挖掘和缺失数据补足,能很好地满足垂直领域知识类查询的需求,例如企业业务流程查询、司法领域案例查询、警务领域嫌疑人关系查询等;算法支撑是指通过知识图谱对于信息源的生数据进行处理,将产出的结构化关联数据用于算法模型训练和应用,得到能解决具体场景问题的研判建议,从而形成解决办法产生价值的服务形式。结合垂直行业B端市场的需求特点,由知识图谱作为算法支撑的智能解决办法具有更凸显的市场价值和更广阔的想象空间,用于投研投顾、辅助断案、业绩预测等偏向于认知智能的服务,是以知识图谱
36、和算法能力见长的数据智能服务公司应有的核心竞争力。来源:艾瑞根据公开资料自主研究绘制。知识图谱价值体现知识图谱原图应用指直接通过图谱产生价值的服务形式算法支撑指通过知识图谱对于信息源的生数据进行处理,将产出的结构化关联数据用于深度学习算法训练,得到能解决具体场景问题的研判模型,从而形成解决办法产生价值的服务形式学术知识查询法律案牍查询保险理赔案例查询搜索查询业务流程查询人员关系查询临床病例查询嫌疑人研判案件研判业绩预测设备维保辅助诊断212020.3 iResearch I行业知识库关联搜索预警应用研判应用推荐应用数据中台金融领域公安领域医疗领域教育领域能源领域工业领域网络搜索领域零售电商领域
37、政务领域客服领域营销领域媒体舆情领域企服领域司法领域知识图谱在各领域中的应用概览来源:艾瑞根据公开资料自主研究绘制。知识图谱在各领域中的应用概览数据繁杂、单一价值有限、问题抽象需要可视化展现、五层关联维度以上的应用场景更加适合搭建知识图谱!222020.3 iResearch I中国知识图谱市场产业链战略分析中游解决方案提供方进行全流程服务,是产业链核心环节,中国知识图谱市场产业链上游主要以各类数据源企业或机构为主,因所处理数据多具有敏感性和专属性,所以往往数据源也是服务的需求方;中上游主要包括数据采集服务商、数据库服务商、云服务商等,为产业链做支撑服务,但涉及保密数据采集加工的业务更多交由解
38、决方案提供方直接处理;中游主要以提供知识图谱解决方案的大数据智能公司、互联网公司和AI公司为主,该部分是产业链的核心环节。其中大数据智能公司多脱身于大数据公司,凭借多年数据服务积累,在具体领域中具有先发优势和工程落地经验,随着市场对于认知智能需求的觉醒,近些年越来越多的大数据公司开始向知识图谱做技术拓展。互联网公司多以巨头企业为主,因其综合服务能力强、具有生态优势等因素,在资源调动和承接整体解决方案方面具有优势。AI公司主要以机器学习能力、NLP能力切入知识图谱市场,在技术创新和算法应用开发方面具有优势;下游为基于知识图谱而开发应用的各类具体场景应用,知识图谱应用在中国刚刚起步,主要聚焦于图中
39、展示领域,随着市场推进将辐射更多行业。来源:艾瑞根据公开资料自主研究绘制。中国知识图谱市场企业图谱数据源支撑层解决方案层应用层电商数据社交数据网络搜索数据广播电信数据政府数据企业数据数据采标服务商数据库服务商云服务商服务器硬件服务商应用开发服务商大数据智能公司互联网公司公安领域上游中上游中游下游AI公司金融领域能源领域教育领域营销领域舆情领域司法领域客服领域医疗领域政务领域工业领域232020.3 iResearch I2020.3 iResearch I中国大数据智能行业市场规模和结构2019年市场规模约为106.6亿元,金融和公安领域占比最大据艾瑞咨询统计推算,2019年涵盖大数据分析预测
40、、领域知识图谱及NLP应用的大数据智能市场规模约为106.6亿元,预计2023年将突破300亿元,年复合增长率为30.8%,其中2019年市场中以金融领域和公安领域应用份额占比最大,金融领域因标准化数据积累丰富,行业认知与直接需求最为明显等因素,成为数据智能最早落地并产生价值的行业;公安领域经过三年的感知智能基础设施建设,已经初步形成人工智能应用环境,在党中央和公安部的号召指导下,公安大数据建设将成为下一阶段的主题,这一趋势也在2019年相关招标项目中得以体现。随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间
41、咨询性需求将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有正向意义。来源:艾瑞根据专家访谈、招投标项目统计推算而得注释:文中大数据智能多指To B领域大数据分析预测、领域知识图谱、NLP应用等;C端应用和企业自研自用规模难以统计,暂未列入计算范围来源:艾瑞根据专家访谈、招投标项目统计推算而得注释:其他领域包括营销领域、零售领域、教育领域、学术领域等2019-2023年中国大数据智能市场规模2019年中国大数据智能市场规模细分结构106.6 145.4 195.5 252.0 312.4 36.3%34.5%28.9%24.0%20192020e2021e2022e202
42、3e中国大数据智能市场规模(亿元)增速(%)38.0%20.0%18.5%14.3%12.2%3.0%2.7%1.1%金融领域其他领域公安领域客服领域医疗领域政务领域工业领域司法领域24知识图谱技术概述1中国知识图谱市场概述2中国知识图谱细分市场分析3中国数据智能代表企业案例展示4252020.3 iResearch I知识图谱应用搜索引擎领域知识索引可将有价值的信息以自然语言的形式直接展现搜索引擎是互联网发展中最具代表性的应用之一,它解决了人们如何方便获取信息的问题,一度成为大部分流量的入口。但随着网络中信息沉积越来越多,人们真正需要的,隐藏在大量无用信息中有价值的部分,我们称之为知识的内容
43、,往往得不到直观展现,这成为了搜索引擎领域重点要解决的问题。2012年5月,谷歌率先提出知识图谱概念,用以更好的描述现实世界中实体关联性问题,进而提高信息搜索中的知识获取效率,随后搜狗、微软、百度纷纷推出相关概念架构,知识图谱被视为下一代搜索引擎的核心技术。传统搜索引擎一般采用网页索引,按照“网页-(预处理)-临时库-(索引)-索引好的库-(由用户行为触发检索)-为用户展示网页结果”的流程执行,信息源来自网页,展现内容也是网页链接。而基于知识图谱的搜索作为和网页索引同级、并行的另一套知识索引,更注重信息间的关联性和自然语言理解,通过图存储的形式从新组织互联网中的信息,再以人类的语言习惯进行查询
44、和展现,从而提高搜索体验,因为知识的存储形式发生了变化,所以知识索引信息来源和展现载体都不再局限于网页文字,语音交互和更加丰富的IoT场景将会是未来的发展方向。来源:艾瑞根据专家访谈、公开资料等研究绘制。文字查询网页结果索引检索排序普通网页(包含文本、音频、视频、图片)自然语言查询丰富展现形式NLP处理结果翻译知识图谱关联查询关系挖掘推理知识图谱预处理丰富来源(包含文本、音频、视频、图片)知识图谱在搜索引擎中的应用网页索引知识索引262020.3 iResearch I知识图谱应用搜索引擎领域应用NLP的知识抽取将成为知识搜索的重要破局点目前,互联网上只有极少数知识被人工整理成了机器可以解析的
45、格式,如各类百科栏目和垂直领域数据库,这些资源支撑了当下绝大部分通用知识图谱的搭建,但这些信息也仅仅是沧海一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求,更严峻的是新一代互联网用户逐渐丧失了参与编辑的精神,甚至不知道可以编辑百科内容,在此趋势下基于百科的知识图谱将会变成一种静态数据留档,其支撑的知识搜索也将会大量依赖于权威组织编辑,成本和效率将会成为致命伤,因此应用准确且自动化的NLP技术,在更广泛的网页文本信息中,替代人工进行知识抽取,成为了知识搜索领域重要的破局点。知识搜索引擎Magi提供了一种NLP+评价系统的半监督学习方式,通过互联网对有监督学习的原始N
46、LP模型进行“放养式”训练,再由“一个知识点在不同表达中被印证,则证明其可信度较高”而形成的评价系统去收敛训练成果,从而完成较低成本,可持续的广域下NLP模型训练,经过搜索引擎M的公测体验,以及B端知识抽取的定制服务,Magi逐渐形成了独立NLP产品的服务模式,为知识工程轻需求用户,和知识图谱搭建者提供了完善的RPA服务。来源:艾瑞根据专家访谈、公开资料等研究绘制。Magi引擎服务框架企业AI人类网络Magi System知识抽取引擎M知识搜索引擎用统计信号消除事实矛盾,然后将所学投入到第N+1 轮的训练中用第 N 轮训练得到的模型开始在互联网上学习知识终身-半监督学习常识知识库知识集成第三方
47、服务RPA定制模型领域知识语义搜索结果网络语料库知识库的数据集272020.3 iResearch I知识图谱应用公共安全领域公安知识图谱重点解决数据关联性和数据价值挖掘问题公安大数据是全面助推公安工作质量变革、效率变革、动力变革的重要力量,受到党中央和公安部的高度重视,而作为大数据和人工智能双重技术的应用表现,知识图谱通过数据分析、文本语义分析等,抽取出人、物、地、组织机构、服务标识等实体,并根据实体的属性联系、空间联系、语义联系、特征联系等建立相互关联,构建一张具有公安特性的多维多层的实体与实体、实体与事件的关系网络,在解决公安大数据发展中面临的数据缺乏关联性等问题时起到了重要作用。建设公
48、安知识图谱仍然遵循知识图谱搭建逻辑,其中知识抽取、本体层建设和实战应用开发,需要将公安部门多年积累的实战经验与技术算法相互转换,重点考验公安知识图谱解决办法提供商对公安业务的理解能力和专业积累,是该行业竞争中重要的壁垒。来源:艾瑞根据专家访谈、公开资料等研究绘制。公安知识图谱流程结构知识抽取实体抽取关系抽取属性抽取知识融合数据清洗数据关联数据对比数据库重构建立标准库建立专题库建立主题库建立研判战法集本体层搭建社会化数据与公安技战法结合碎片化数据与公安技战法结合公安技战法与算法结合实战应用关系挖掘路径推演全文检索时空分析公安知识图谱(注:各库数据要与人、地、事、物、组织、虚拟身份等基本信息打通;
49、与吃、住、行、消、乐等数据结合)技术(算法)业务(专业知识)通过专家团队与技术团队的通力配合,使公安技战法与算法深度融合公安知识图谱解决办法提供商核心竞争力282020.3 iResearch I知识图谱应用公共安全领域泛在感知加多模态数据融合应用将成为智慧警务的建设核心近些年,在政策指导下公安大数据整体建设发展迅速,2019年感知智能硬件设备市场规模预计超350亿元,以人脸识别数据和车辆识别数据为基础的公安视图库加快建设和丰富,感知智能的成功应用不仅拓宽了公安领域结构化数据的边界,也唤起了认知智能应用的市场需求。随着公安部自上而下的推动,公安体系中各垂直系统的纵向业务开始拉通、各单位横向数据
50、也开始分层解耦,进行初步融合,此举奠定了公安业务数据规范化和标准化的基础,也为感知智能与认知智能联动做好了准备,在十四五新一阶段的任务中,打通公安视频网和公安信息网的泛在感知加多模态数据融合应用必将成为建设重心。在此背景下,明略科技将海量感知数据纳入知识图谱的构建和积累中,从平台服务、数据服务到应用服务构建了由感知到认知再到行动的完整闭环,其智慧公安解决方案主要包括警务大脑平台、公安知识图谱平台和泛在感知应用实战平台等,提供公安知识图谱建设、知识图谱研判工具、知识图谱挖掘模型、警种专用智能应用、知识图谱服务接口等服务,目前已经部署到30多个省、市级公安局,据估计,明略科技公安知识图谱是30多个