1、 语义增强可编程知识图谱语义增强可编程知识图谱SPG(Semantic-enhanced Programmable Graph)白皮书(白皮书(v1.0)新一代工业级知识语义框架及引擎新一代工业级知识语义框架及引擎 离散实体要素深度语义网络化,稀疏关系自动补全显性稠密化 加速企业海量数据知识化集成,无缝衔接 AI 技术框架应用落地 蚂蚁集团蚂蚁集团 OpenKG 联合出品联合出品 2023年年8月月 语义增强可编程知识图谱 SPG白皮书 推推 荐荐 语语 知识图谱是早期专家系统和语义网技术的延续,自 2012 年 Google 将其应用于搜索推荐领域以来,知识图谱技术在各领域得到了广泛应用。然
2、而,长期以来知识图谱语义表示和技术框架并未有显著进步,这大大提高了各领域图谱的构建成本和业务落地的复杂度。我很高兴地了解到,蚂蚁集团和 OpenKG 合作,结合蚂蚁集团多年的知识图谱工业实践提出了兼容大数据体系和 AI 技术体系的知识语义框架SPG。SPG具有可编程性和框架化特性,具备较强的跨场景迁移能力,可以加速知识图谱的产业化落地,是知识图谱技术框架的突破性技术。自 2022 年底以来,ChatGPT、GPT4 等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型
3、产业落地提供正确的领域知识和复杂推理能力的支持。期待 SPG 成为知识图谱领域的重要技术,结合蚂蚁集团多元化场景的持续打磨以及与 OpenKG社区力量的共建,推动产业在知识图谱领域的发展,促进不同领域之间的知识互通互联,促进大模型和知识图谱技术可控低成本产业落地。清清华大学人工智能研究院知识智能研究中心主华大学人工智能研究院知识智能研究中心主任任、教授、教授 李李涓涓子子 知识图谱作为符号化的知识表示体系,具备高阶语义、结构严谨、复杂推理等能力。在大语言模型(LLM)飞速发展的时代,知识图谱与 LLM 之间有丰富的互动关系,一方面 LLM 为低成本构建大规模知识图谱提供了有力工具,能否借助 L
4、LM 构建超出现有知识图谱规模 1-2 个数量级的世界知识图谱成为一个有趣的研究问题;另一方面知识图谱的高质量、可解释的知识表示和推理能力,也为解决 LLM的空想问题提供了一种可能的探索方向。传统知识语义框架,如 RDF/OWL 及 LPG 等在知识管理方面有显著不足,很难支撑 LLM 时代的知识图谱构建与应用。SPG 是蚂蚁知识图谱团队多年业务实践的总结,它有效克服了 RDF/OWL及 LPG 的在知识管理上的不足,是一种新一代知识语义框架,借助 SPG 语义规范及可编程范式构建引擎架构,可以支持各领域图谱的高效构建和跨领域的知识语义对齐。知识图谱的未来发展,离不开活跃的社区,未来蚂蚁将在
5、SPG 以及世界知识图谱构建与演化等方面持续与 OpenKG社区合作,加速其技术成熟和产业落地。我们也欢迎产学各界同仁积极参与共建,共同促进知识图谱技术的成熟进步,促进不同领域之间的知识互通和流通,构建知识图谱+LLM双驱动可控落地的新一代 AI技术体系。蚂蚁集团技术研究院院长蚂蚁集团技术研究院院长、副总裁、副总裁 陈文光陈文光 语义增强可编程知识图谱 SPG白皮书 蚂蚁集团拥有多元化的业务场景和海量的领域数据。SPG框架是基于蚂蚁多年的知识图谱实践经验而打磨而成的。由于蚂蚁业务数据具有多源异构、时序动态和关联复杂等特点,这为大规模知识图谱构建提供了良好的孵化环境。SPG框架通过对多业务、多场
6、景问题的抽象总结,定义了新一代企业级知识管理范式,具备较强的企业级应用适应性。它通过数据的知识化,将海量数据转化为知识,并通过复杂模式计算和图学习推理等方法解决高维业务问题。SPG框架为高效的领域图谱构建和跨领域图谱语义对齐提供了更多创新的可能性。此外,在大型模型时代,通过基于 SPG构建的图谱框架和领域图谱,可以实现大型模型在安全风控、小微信贷、数字金融等业务领域的可控落地。通过与 OpenKG 的合作,我们希望通过社区和产业的力量加速推进 SPG 框架的完善,促进知识图谱技术的成熟,并推动产业的发展。在这个过程中,我们欢迎各位同仁积极参与共建,共同推动知识图谱技术的发展和创新,真正实现大模
7、型与知识图谱双向驱动的可控 AIGC,从而加速产业的落地。蚂蚁集团机器智能蚂蚁集团机器智能部负责人部负责人、研究员、研究员 周俊周俊 语义增强可编程知识图谱 SPG白皮书 序序 言言 知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。基于对当前知识图谱技术的深入研究和实践经验的总结,蚂蚁集团发现,传统的知识图谱技术在应对复杂的业务场景和大规模数据时存在一些局限性。例如,知识图谱的构建需要统一的工业级知识建模框架,以便适应不同领域的需求;知识图谱的推理能力需要更加高效和可解释;知识图谱的构建和推理
8、过程需要更好的可编程性和跨场景迁移性。作为蚂蚁集团知识引擎的负责人,梁磊带领团队研制了一个工业级知识图谱语义框架SPG(Semantic-enhanced Programmable Graph)。当他第一次向我介绍蚂蚁的思考和 SPG 时,我惊喜地发现大家不约而同地在解决类似的问题,原来约定的 1 小时会议也慢慢演变成了一个上午的深度交流。之后我愈发感觉我们整合力量去扩展 SPG 来应对大模型时代新的机遇和需求,并向整个社区开源这个一站式全新的知识图谱平台工具。当我将这个想法告诉了梁磊,他和蚂蚁集团非常支持,我们也积极推进 OpenKG的各个研发力量和蚂蚁知识图谱团队的合作,最终形成了一个虚拟
9、团队开展了后续的双周交流,设计规划和研发工作。SPG 框架以属性图为基础,融合了 RDF/OWL 的语义性和 LPG 的结构性,兼具语义简洁和大数据兼容的优势。通过 SPG 框架,我们可以实现知识的动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。其在解决典型问题和场景方面具有广泛的应用价值。在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产对抗,提高风险防控能力;在知识推理和智能问答中,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。在本白皮书中,我们将详细
10、介绍 SPG 框架的设计原理、技术模块和应用案例。我们希望通过这份白皮书,能够为读者提供一个全面了解 SPG 框架的机会,并激发更多的讨论和合作。我们相信,SPG框架将为企业数字化提供更加强大和灵活的知识图谱技术支持,推动知识图谱技术的发展和应用。最后,我们要感谢您对本白皮书的关注和支持。如果您对 SPG 框架或知识图谱技术有任何问题或建议,欢迎随时与我们联系。让我们一起开创新一代工业级知识图谱的未来!谢谢!王昊奋、梁磊和王昊奋、梁磊和SPG团队团队 语义增强可编程知识图谱 SPG白皮书 目目 录录 第 1章 从数据化到知识化:企业深化竞争优势,图谱技术与时俱进.1 1.1 知识图谱作为新一代
11、企业级知识管理范式的期待.1 1.2 从二元静态到多元动态:知识管理模式的跃迁.2 1.3 与领域知识结合为 AI可控、可靠落地提供了新思路.4 1.4 知识图谱技术体系的发展需与时俱进.5 1.5 基于 SPG的工业级知识图谱引擎.6 第 2章 基于属性图的知识管理存在的问题.8 2.1 典型案例 1:黑产知识图谱.8 2.2 属性图应用于黑产图谱所存在的问题.11 2.3 典型案例 2:金融事理图谱.11 2.4 属性图应用于事理图谱所存在的问题.15 2.5 知识建模中结构定义与语义表示的耦合导致的复杂性及异构性.16 2.6 对领域知识多元异构性表达能力不足.18 2.7 知识间逻辑依
12、赖带来的一致性及传导推理问题.20 2.8 面向非完备数据集的图谱构建与演化问题.22 2.9 无语义不可编程的属性图所存在的问题总结.24 第 3章 语义增强可编程框架 SPG.25 3.1 SPG语义框架模型.25 3.2 SPG分层架构.27 3.3 SPG的目标能力.27 第 4章 SPG-Schema层.29 4.1 SPG-Schema总体架构.29 4.2 节点和边的语义增强.34 4.3 谓词及约束的语义增强.38 4.4 规则定义的语义增强.44 4.5 SPG-Schema与 PG-Schemas的关系.46 4.6 SPG-Schema总结.47 第 5章 SPG-Eng
13、ine层.48 5.1 SPG-Engine架构.48 语义增强可编程知识图谱 SPG白皮书 5.2 SPG2LPG Translator.49 5.3 SPG2LPG Builder.51 5.4 SPG2LPG Executor.52 第 6章 SPG-Controller层.60 6.1 SPG-Controller架构与工作流.60 6.2 解析编译与任务规划.61 6.3任务分发与调用.61 第 7章 SPG-Programming层.64 7.1 SPG语义可编程架构.64 7.2 数据到知识的生产转换.65 7.3 逻辑规则编程.66 7.4 图谱表示学习.67 第 8章 SPG
14、-LLM层.69 8.1 SPG-LLM自然语言交互架构.69 8.2 自动抽取和图谱自动化构建.69 8.3 基于大模型的领域知识补全.71 8.4 自然语言知识查询与智能问答.72 第 9章 SPG驱动的新一代认知应用案例.73 9.1 SPG驱动的金融事理图谱.73 9.2 金融事理图谱 SPG与 LPG的对比.78 9.3 SPG驱动的黑产知识图谱.78 9.4 黑产知识图谱 SPG 与 LPG 的对比.84 第 10章 紧跟新时代认知智能的 SPG.85 第 11章 展望 SPG的未来.87 参考文献.90 语义增强可编程知识图谱 SPG白皮书 1 第第1章章 从数据化到知识化从数据
15、化到知识化:企业深化竞争优势,图谱技术与时俱进企业深化竞争优势,图谱技术与时俱进 在企业的数字化过程中,积累了海量的数据,既包括文本、图像、视频、音频等非/半结构化数据,又包括用户行为、商品订单、产品服务、商户画像等结构化数据,还包括为支撑业务发展采买的专业知识库、外部渠道获取的行业数据等。面对海量数据,企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制。这对企业的数字化基建提出了很高的要求,也为知识图谱(Knowledge Graph,KG)、大语言模型(Large Language Model,LLM)等 AI技术提供了多样化的落地场景,也带来了新的机遇和挑战,AI 技术可以帮
16、助企业从海量数据中快速发现规律、分析趋势、预测未来,从而更加精准地了解客户需求、优化产品设计、提升生产效率,还可以帮助企业进行智能风险管理、反欺诈识别等。而企业内因业务发展、部门差异等又广泛存在数据孤岛、数据一致性冲突、数据重复等问题,为提升数据利用效率,需要加强数据管理和应用,提高数据的利用率和价值。面对海量数据,企业需建立应用友好的管理范式,按业务模型定义数据结构,明确语义、消除歧义、发现错误等;面对数据孤岛,企业也期望建立数据孤岛的连接机制,实现跨系统、跨部门的数据共享和协同利用;面对口径差异,企业需建立标准化的数据和服务协议,以实现高效的数据协同、专家经验协同、人机协同等。通过更高效的
17、数据管理机制,标准化数据建模、消除歧义提升一致性、连接数据孤岛,是企业数字化升级面临的关键问题,更高效的组织管理企业数据,利用 AI技术充分挖掘数据价值,已成为企业未来增长的核心内驱力。1.1 知识图谱作为新一代企业级知识管理范式的期待知识图谱作为新一代企业级知识管理范式的期待 作为 AI 技术重要分支的知识图谱因可以帮助企业更好地组织和管理知识数据,通过对数据进行语义化建模,构建知识图谱,企业可以更加直观地了解数据之间的关系,从而更好地发现隐藏在数据中的价值,也受到了越来越多的青睐。Gartner 2021 年预测以知识图谱技术为基础的 Data Fabric 是下一代数据架构,Neo4j,
18、Cambridge Semantic 也分别发布白皮书介绍基于知识图谱的新一代知识管理范式,Neo4j 认为知识图谱是语义增强的图,通过一定范式对图进行语义增强以帮助企业从多维度深度关联中发现更多隐式线索。Cambridge Semantic认为知识图谱是 Data Fabric的杀手级应用,知识图谱对真实世界的实体、事实、概念以及它们之间的关系建模,提供面向不同角色一致的建模能力,能更精确的表示组织数据,它通过强 Schema 驱动可有效连接数据源和图存储及下游 AI/BI 任务,连接数据孤岛,按需集成、按需加载、无缝衔接。自 2018 年以来,企业数字化垂直领域的图谱应用越来越广泛,如金融
19、、医疗、公安和能源等领域1,2,3。一份报告4显示,到2026年,中国图谱市场空间将达到290亿元,其中金融和公安是主要的拉动力量。企业数字化中的知识图谱应用,以商家图谱商户风险防控为例,因对中小商户、新用户、沉睡户等薄数据客群的语义增强可编程知识图谱 SPG白皮书 2 画像覆盖和风险洞察1的需要而对知识的深度上下文(即 Deep Context)有更多感知要求,企业级知识管理正在实现从二元静态向多元动态的模式跃迁。1.2 从二元静态到多元动态:知识管理模式的跃迁从二元静态到多元动态:知识管理模式的跃迁 知识图谱是一种建模和管理数据的方法,它利用图结构、知识语义和逻辑依赖,提供存储、推理和查询
20、事实知识的能力。早期的应用主要是从公开语料中提取百科类三元组来构建静态知识图谱,以提高搜索推荐的效率和体验。随着知识图谱应用从搜索推荐的C应用转向风险防控/经营管理的企业级 B/C 联动的领域应用,因前文所述长尾稀薄客群画像覆盖和风险洞察的需求,领域图谱需要具备全面性、正确性和可解释性等特点,图谱数据的来源也从文本语料转向了企业多源异构数据。这些数据包括非/半结构化的 UGC/PGC内容、业务经营沉淀的结构化基础画像、交易事务、日志记录等,以及各领域特有的业务专家经验。围绕增长经营和风险防控,构建完整的客户、物料、渠道等的立体画像,以商家为例,图 1展示了构建过程的示意图。图 1 商家实体构建
21、的过程 当前,商家已经突破了静态门店的限制,收款码使得任何人都可以成为商家,但是这也增加了风险防控的难度。仅仅通过文本概念标签来进行风险防控是没有意义的,添加交易、社交等实际事实关系也远远不够。如图 2 所示,需要实体多要素的深度信息协同才能发现更多有效的关联。图谱构建的要求也从静态常识转向 Deep Context 动态时空。这既需要基于介质(如 WIFI、电话、Email等)来实现关系传导,又需要对地理连续空间(Spatial)实现边界化的聚集关联5,6,还需要跟踪中/宏/微观事件的多元传导脉络,实现实体间稀疏关系语义可解释的稠密化。语义增强可编程知识图谱 SPG白皮书 3 图 2 Dee
22、p Context语义扩展的基础事实图谱 在业务应用方面,知识图谱可以用于构建知识推理任务,例如:1)商品推荐:通过类目、意图、时空等语义连接人-商品、人-商户、商品-渠道等,实现语义联想的商品召回和表征迁移;2)eKYB(Electronic Know Your Business):通过介质关联、行为事件和时空聚集,识别商户同人、同店等,实现有效的画像补全和风险洞察。此外,基于知识图谱还可以实现结构感知的可控文本生成7,例如:1)反洗钱智能审理识别定性和报文生成:结合 Deep Context 预测风险行为、挖掘团伙,通过资金链、时空聚集、设备关联等还原团伙/异常结构,并通过知识图谱到文本的
23、转换输出可解释报文;2)AI 电话唤醒受害者:将识别到的可疑设备、钓鱼域名/AppID、团伙等事实关联传导到交易用户,生成沟通话术提醒用户并拦截风险。这些应用旨在实现更加智能化和精准化的风险控制和业务推理,提高商业运营的效率和价值。图 3 知识表示从二元到多元的演进 在商户经营与风险防控的案例中,知识管理需要具备较强的上下文感知能力。常见的常识知识图谱由于卸掉了可感知上下文的信息和时空关联,在实际应用中,若论元要素出现了多元化或相互交织,由于无法感知个体差异,仅使用概念层归纳,推理应用的效果会大打折扣8。类似的问题也出现在公安反诈、保险理赔、医疗问诊、企业授信等领域中。因此,企业垂直领域对知识
24、语义增强可编程知识图谱 SPG白皮书 4 图谱的期望发生了较大变化。知识表示也从图 3 所示的二元静态结构发展到时空多元动态关联,以更好地适应实际应用的要求。1.3 与领域知识结合为与领域知识结合为AI可控、可靠落地提供了新思路可控、可靠落地提供了新思路 中国工程院院士潘云鹤认为,在AI走向2.0的过程中,数据和知识是两个最重要的关键元素。处理大数据和多重知识,形成了 AI 发展的两类核心技术,知识可以有效助力人工智能认知、决策和学习。在数字化转型的过程中,通过对海量数据的抽提或业务经验的积累,沉淀大量领域知识,比如事实知识、专家经验、操作流程等,这些知识存在于各个行业,也难以公开获取,蕴含着
25、巨大的价值,将行业专家知识与AI有效结合可解决AI应用过程中可控、安全、可解释等问题。2022年底,ChatGPT 火爆全球,随后国内也掀起百“模”大战。然而,由于 LLM 是一种黑箱概率模型9,难以捕获和获取事实知识,因此存在较多幻觉和逻辑错误10。与此同时,知识图谱的事实性、时效性和逻辑严谨性成为了 LLM 的绝佳能力补充。通过将知识图谱作为约束和复杂推理能力的来源,LLM+KG的应用范式引起了广泛关注,并催生了许多应用探索和研究9,10,11。表 1 LLM和 KG在企业数字化不同场景下的应用 在各种应用场景中,以商户经营与风控为例,算法任务可以分为以下五个方面:1)交互应用:包括消费端
26、(C)产品上的商品/服务透出和供应端(B)产品上的服务/商家入驻等;2)经营管理:企业经营、商户经营所必须的经营分析、物料管理等;3)风险防控:黑灰产对抗是企业经营永恒的话题,企业必须增强对薄数据客群的认知覆盖和对新风险模式的快速识别;4)知识构建:将外部非/半结构化、结构化数据转换成领域知识;5)知识挖掘:企业促增长和控风险,不断提升主体要素、跨主体关系的长尾覆盖。表格 1 中列举了不同分类下 LLM、KG 及 LLM 与 KG 相互增强可能的落地应用。这些应用可以帮助企业在商户经营和风控领域中获得更好的效果和成果。语义增强可编程知识图谱 SPG白皮书 5 图 4 大模型与知识图谱的相互驱动
27、 总体而言,以商户经营与风控应用场景为例,LLM和KG应用的算法任务主要可以分为三类:1)LLM only:由于领域专业性和事实性的要求,LLM 在商户经营与风控领域尚未有明确可落地的场景;2)LLM+KG双驱动:主要体现在知识问答、报告生成等用户交互类场景中,比如前文提到的 AI 电话唤醒受害者和反洗钱智能审理报文生成等。此外,还有知识要素抽取、实体链指等知识构建类场景。文献10中详细描述了LLM与KG的双驱动,包括KG增强的LLM、LLM增强的KG以及 LLM+KG框架协同三个方面,如图 4所示;3)KG only:在推理决策、分析查询、知识挖掘类等不需要复杂语言交互和意图理解的决策/挖掘
28、场景中,基于图谱结构化知识直接做图表征学习、规则推理、知识查询等。通过框架的协同实现 LLM 与 KG 双驱动,支持跨模态知识对齐、逻辑引导知识推理、自然语言知识查询等。这对 KG 知识语义的统一表示和引擎框架的跨场景迁移提出了更高的要求。1.4 知识图谱技术体系的发展需与时俱进知识图谱技术体系的发展需与时俱进 知识图谱自身技术框架的发展和对其在新知识数据管理范式、大模型的双轮驱动的期待并不完全匹配,图谱技术的发展也需要与时俱进。具体而言,存在以下问题:首先,缺乏工业级统一的知识建模框架。尽管资源描述框架(Resource Description Framework,RDF)/Web 本体语言
29、(Web Ontology Language,OWL)这种强语义、弱结构的技术框架已经发展多年,但并未出现成功的企业级/商业化应用。相反,强结构、弱语义的属性图(Labeled Property Graph,LPG)成为了企业级应用的首选。其次,缺乏统一的技术框架2,导致跨领域迁移性较差,由于工具繁多、链路复杂,每个领域的图谱构建都需要从零开始。除了以上两点,其他方面也存在较大的技术挑战,例如表 2 所列。语义增强可编程知识图谱 SPG白皮书 6 表 2 新范式下图谱面临的技术挑战 知识图谱的目标是构建一个机器可理解、可推理的数字世界,实现知识语义的统一表示和框架化能力分层,以支持不同领域图谱
30、的快速构建和跨场景迁移。这是图谱产业化加速过程中必须解决的基本核心问题。1.5 基于基于SPG的工业级知识图谱引擎的工业级知识图谱引擎 蚂蚁知识图谱平台经过多年金融领域业务的支撑,沉淀了基于属性图的语义框架语义增强可编程框架(Semantic-enhanced Programmable Graph,SPG)。它创造性地融合了LPG结构性与RDF语义性,既克服了 RDF/OWL 语义复杂无法工业落地的问题,又充分继承了 LPG 结构简单与大数据体系兼容的优势。首先,SPG明确定义了数字世界知识的概念。知识是人类对物质世界和精神世界探索结果的总和,数字世界的机器对知识的认知该如何定义?SPG通过形
31、式化描述和客观事实两个视角,明确了数字世界知识的定义,结合图 5的说明,从三个维度对形式化表示进行了定义,分别是:1)领域类型领域类型结构结构约束约束。在客观世界中,任何事物(Thing)都属于至少有一个类型(Class),数字世界也是如此。基于 SPG的领域结构类型约束(SPG Domain Model Constrained,SPG DC),可帮业务实现知识的主体分类和由动态时空到静态常识的自动分层。2)领域内领域内实例实例唯一性唯一性。在客观世界中,不存在完全相同的两个事物,数字世界也当如此。然而,由于数字世界存在多源异构和数据拷贝等问题,导致大量数据存在冗余和重复。SPG Evolvi
32、ng利用 SPG Programming 知识生产 SDK 框架提供的实体链指、概念标化和实体归一等算子能力,结合自然语言处理(Natural Language Processing,NLP)和深度学习算法,提高单个类型(Class)中不同实例(Instance)的唯一性水平,支持领域图谱的持续迭代演化。3)知识间知识间逻辑逻辑依赖性依赖性。在客观世界中,任何事物都存在着和其他事物由此及彼的关联,不存在不与其他事物关联的事物,数字世界也不例外。SPG Reasoning 利用谓词语义和逻辑规则来定义知识之间的依赖和传递,并提供可编程的符号化表示,以方便机器理解。语义增强可编程知识图谱 SPG白
33、皮书 7 图 5 SPG知识语义框架 然后,SPG充分融合了 LPG的优势,并通过 SPG Compatible兼容大数据体系。基于 SPG构建的知识引擎在图谱构建阶段与大数据架构兼容衔接,提供了知识构建算子框架,实现从数据到知识的转换。在存储阶段,可适配属性图以充分利用其存储和计算能力。在推理应用阶段,形式化成了 KGDSL(Knowledge Graph Domain Specific Language),机器可理解的符号表示支持下游规则推理、神经/符号融合学习、KG2Prompt联动LLM知识抽取/知识推理等。同时,通过架构的分层,新的领域图谱构建只需定义 Schema、准备数据、开发生
34、产/推理 Operator即可。知识图谱技术依然处于快速发展时期,也处于关键的技术拐点期,统一的技术框架能大幅降应用门槛促进生态的繁荣。为此,本白皮书也重点从企业级知识管理这个最根本的问题出发,推导知识管理、图谱构建与推理应用的全生命周期,以期实现工业级可迁移的知识表示与引擎框架。如前文所述,LPG 属性图因其兼容大数据架构的独特优势成为绝大多数企业知识建模的首选,本白皮书也是从属性图知识管理的实际业务问题出发,推导企业级知识管理所必须的语义能力。语义增强可编程知识图谱 SPG白皮书 8 第第2章章 基于属性图的知识管理存在的问题基于属性图的知识管理存在的问题 在企业级知识图谱应用中,如第 1
35、 章所述,属性图因其高效和对大数据体系的兼容性,使其成为领域图谱建模的首选,以实现快速落地业务价值。虽然基于属性图的图谱构建前期成本较低,但随着业务快速发展和知识体量的大幅增加,因其知识语义及管理能力的缺失,属性图的种种弊端会逐步显露。首先,知识模型的变更演化变得越来越困难,Schema 变得越来越复杂。其次,由于点/边模型的灵活性,带来了大量冗余的类型创建和重复的数据准备,导致不同关系/属性之间逻辑的一致性和合理性也越来越难以维持。第三,朴素的属性/关系模型难以刻画事物(Thing)的内在语义和事物之间的语义依赖。这给图谱业务项目的持续迭代升级带来了较大的障碍。当规模膨胀到难以为继时,不得不
36、新创建项目重新构建 Schema 和图谱数据;业务应用阶段也不得不添加大量硬编码,实现业务语义的解析和对齐。本章节将结合黑产风控和企业事理图谱两个业务案例,介绍业务应用的背景和主要痛点问题,并对相关问题进行归类总结。接下来,我们将在第 3/4/5/6/7章尝试提出解决方案,最终在第 9 章中提供两个案例基于 SPG 的完整方案,以期在应用属性图的优势的同时,规避其弊端,为企业级图谱应用提供高效的语义建模和知识管理工具。2.1 典型案例典型案例1:黑产知识图谱黑产知识图谱 为了实现黑产图谱的主要业务目标,通过构建用户相关的风险画像及设备、介质、交易等相关的关联网络,并根据显式或隐式关联挖掘出黑产
37、涉案人员并进行风险管控措施。以 App 网络风险防控为例,某 App 被发现涉嫌风险应用(赌博、色情、欺诈等),期望可以通过该风险 App 的关联网络实现以下两个目标:1)挖掘背后的风险人员,根据挖掘线索进行对应的风控策略。2)挖掘其他未被发现风险的 App,阻断风险的蔓延扩大。然而,在实践中,黑产涉案人员通常会伪装或隐匿其行为,例如使用大量虚拟设备、虚拟 IP、虚拟身份等,这些行为会被掩藏在正常用户中。因此,本章节将以表3、表4、表5、表6列举的部分数据举例说明,提炼当前属性图知识管理所遇到的问题。其中*娱乐为被举报的赌博应用,王武应当被判定为赌博应用开发者;李四应当为赌博公司 B的老板;张
38、三为李四的同人用户。表 3 黑产图谱用户实体基本信息 语义增强可编程知识图谱 SPG白皮书 9 表 4 黑产图谱持股关系基本信息 表 5 黑产图谱应用实体基本信息 表 6 黑产图谱转账关系 数据层面的直接表达和业务期望之间存在较大的差距,具体表现为:不同主体之间的深层次关联难以体现:无法从数据的构造中直接得到应用和用户、应用的关联关系。同一主体不同刻画维度的对齐:自然人和用户不能直接等价,例如本例中张三和被标记为赌博老板两个用户属于一人。在业务实践中,虽然应用和用户、应用和应用之间不存在直接的关联关系,但往往可以通过一些设备、证书之类中间介质间接关联;同样用户和用户之间也可通过同手机、同设备等
39、方法发掘同人。业务人员为了应对如上复杂的网络关系,图谱一般会如下演进:第一步:将表数据转换成为属性图表示。图 6 基于数据表直接转换成属性图构建图谱 语义增强可编程知识图谱 SPG白皮书 10 图 6 将表数据映射到图谱数据结构,此时已经能够根据多跳关系得到风险应用和风险人员的关系,但仍需要业务专家进行分析研判,无法直接得到业务目标,业务目标应当如图 7所示。图 6/图7中实体实例的文字结构为:类型/实例属性名=属性值。图 7 业务期望通过隐式推导得到的图谱结构 业务所需的图谱数据结构通常与原始图数据不同。原始图数据是客观的基础数据,而业务所需的数据是基于客观数据挖掘出的关联关系,也需要重新融
40、合到原始数据中。为了挖掘这些隐式关联,业务专家制定了一系列规则,例如同用户的判定规则、用户对应用的拥有规则和应用开发者关系规则等,如果两个用户使用了相同的手机号或设备,则认为他们之间存在同手机或同设备关系;如果一个用户对一个法人存在控股关系,则该法人发布的 App 实际拥有者为该用户;如果一个用户持有多个设备均安装了同一个App,那么该用户为该App的开发者。通过这些规则,基于外挂大数据系统完成规则计算,新增类型、新增关系得到业务所需的图谱数据结构,同时保留原始基础信息的定义,以支持业务更好的决策和风险控制。图 8 黑产图谱中融合业务规则后 Schema差异 语义增强可编程知识图谱 SPG白皮
41、书 11 如上示例展示了业务决策过程中冗余创建的一部分。在知识图谱管理中,从基础事实中挖掘复杂的隐式关联是基本需求。然而,我们需要解决如何避免由于业务目标细化而导致 Schema 持续膨胀的问题,并确保规则计算与基础事实的逻辑一致性。这些都是知识管理必须解决的基本问题。2.2 属性图应用于黑产图谱所存在的问题属性图应用于黑产图谱所存在的问题 点边独立数据准备造成点边独立数据准备造成图谱图谱构造构造成本的大幅增加。成本的大幅增加。为构造黑产图谱所需实体、关系,因点、边数据独立准备的要求,需提供远远大于原始 4张表的数据。不同图谱间难以直接复用造成的重复数据准备。不同图谱间难以直接复用造成的重复数
42、据准备。在本业务中,需要构造资金转账和股权结构的图谱数据。通常情况下,这些数据已经作为基础数据存在于其他图谱中。实体实体及要素及要素之间存在逻辑依赖带来之间存在逻辑依赖带来的的不一致不一致问题。问题。在业务建模的图中,图 7 和图 8 的新增类型、关系均是从图 6 的已有数据衍生产出。当基础数据发生变更时,此类衍生的数据必须同步变更,否则必然会出现图谱数据不一致问题。业务目标的迁移变化导致业务目标的迁移变化导致图谱结构的图谱结构的持续膨胀。持续膨胀。在本案例中,通过介质隐式关联的方式挖掘应用背后的涉黑用户。但是黑产对抗更新快,必然会频繁更新、创建不同的实体、关系类型。图谱 Schema及实例的
43、规模会持续的膨胀扩展,最终变得难以管理。因此,在构建图谱时,我们需要考虑这些问题并采取相应的措施加以解决,优化数据转换过程、提高图谱数据的复用性,在设计 Schema 时支持知识之间的逻辑关联表达提升业务语义迁移的表达效率。帮助我们构建更加高效、可靠和易维护的图谱系统。2.3 典型案例典型案例2:金融事理图谱金融事理图谱 事理图谱的知识管理过程更注重对事件之间顺承关系、因果关系、条件关系和上下位等事理逻辑的刻画,因此事理图谱的基础是事件,实践应用中一般是从事件与图谱的应用逐步发展到事理图谱:捕获企业相关的生产、经营事件,提取事件的关键要素,实现事件要素与内部企业/产业链图谱之间的联动,构建风险
44、事件与企业/产业链图谱之间联动的事理逻辑链,捕获到外部风险事件后能快速联动内部预警或风险处置。当一个金融领域的事件发生后,我们需要基于基础事实对事件进行推理,来尝试得到以下问题的答案:事件自身性质及影响程度 涉事主体有哪些?对其周边关联实体产生何种影响 关联主体是否会进一步衍生其他影响,如何影响 语义增强可编程知识图谱 SPG白皮书 12 图 9 事件影响传导示意图 例如,某生物科技有限公司被曝出生产的化肥重金属严重超标的事件,其本身的利害程度需要进行进一步的影响分析。针对具体事件进行分析时,分析师需要基于对事件的理解,在基础事实知识上反复查询洞察,并结合常识性知识得出事件影响结论。然而,各种
45、推理逻辑及数据往往呈碎片化分散在各处,需要有效整合连接。因此,事理图谱的应用中存在诸多待解决的问题。对于该事件,需要分析其对企业关系网中哪些周边实体产生影响,影响路径及程度如何,以及对其他实体的影响是否会衍生新的事件,从而进一步扩大影响范围。问题问题1:事件:事件分类分类纷繁复杂,仅靠先验知识进行预先定义事件分类体系无法充分覆盖实际应用纷繁复杂,仅靠先验知识进行预先定义事件分类体系无法充分覆盖实际应用场景场景 传统的做法是通过业务专家定义多层次的事件类型,构建事件类型树,基于业务专家对权益市场、固收市场、宏观经济变化的理解进行事件定义、说明、分类,划分不同事件的边界。同时,事件可以定义为金融市
46、场的“变化”,因此不同的事件类型背后往往也关联着一系列的金融指标。通过业务专家预定义一系列标签的形式组成一系列的“事件树”,再基于“事件树”和历史数据构建不同的金融事件传导网络。但这样的做法往往难以满足实际金融市场的需求,主要是由于下列几个原因:1、事件类型的理解不同。不同业务专家背景不同,沉淀出来的“事件树”往往存在无法统一的情况,甚至对于同一个事件的理解可能会有差异,不同类型的事件和事件之间的边界不清。2、静态的事件树难以满足金融市场的动态发展,无法应对新的金融事件类型的出现。特别是在 08 年金融危机后,全球经济进入新常态,国内经济也在近些年来不断体现出新的特征。例如,新冠疫情对全球经济
47、和各个行业造成了重大冲击,但是以往的“事件树”中一般归类于“重大卫生安全”等类型,大量的业务分析视角也是将 2019 年的新冠疫情与 2003 年的 SARS 对比说明,借此分析未来的影响。然而,虽然两者都是“重大卫生安全”事件,但是无论从影响时间、影响范围等不同角度,它们的差异都非常大。语义增强可编程知识图谱 SPG白皮书 13 综上所述,由于金融事件的复杂性,仅仅依靠一组业务专家进行事件的预先定义,无法覆盖实际应用场景。我们需要一套体系动态生成衍生的金融事件体系。问题问题2:事件相互之间存在因果、顺承等多中关联关系,这种关联关系往往还需要通过实体网:事件相互之间存在因果、顺承等多中关联关系
48、,这种关联关系往往还需要通过实体网络动态连接,需要更强大的描述能力络动态连接,需要更强大的描述能力 由于金融事件网络的复杂性,在相同的事件发生后,对于其它事件的影响方向可能也会不同,这往往取决于不同事件背后的实体与关系的差异,决定该事件的影响方向不同。举例来说 A 公司股价上涨,由于其扩大产能,资本市场对其未来发展看好。那作为其竞争对手的B公司,其股价到底是上涨还是下跌,往往会取决于多种因素,包括市场需求、产能扩大的规模、以及公司和竞争对手的相对市场份额等。假设公司 A 是一家半导体制造商,它决定扩大其生产能力。对于其竞争对手B来说,这可能是一个利好的消息。如果全球半导体市场需求强劲且供应紧张
49、,那么 A 的产能扩大可能会有助于缓解这种供需失衡,从而稳定整个市场。在这种情况下,由于市场环境得到了改善,竞争对手B也可能因此获益。这种情况下的逻辑是:如果整个行业的需求超过了供应,那么任何增加供应的行动都可能对整个行业产生积极的影响,因为这有助于维持市场稳定并防止价格暴涨或其他可能导致市场不稳定的因素。另一方面,如果公司 A 是一家汽车制造商,并决定扩大其生产能力,这可能对其竞争对手B产生负面影响。在这种情况下,如果市场需求没有增长,A 的产能扩大可能会导致市场供过于求,进而引发价格竞争。因此,对于竞争对手B 来说,这可能会降低其销售量和利润,因此可以视为是一个利空的消息。这种情况下的逻辑
50、是:如果一个行业的供应增长超过需求,那么这将导致供应过剩,可能引发价格竞争,进而影响所有厂商的利润水平。综上所述,由于金融事件网络的复杂性,在描述不同事件和事件之间传导关系的同时,需要借助其相关的实体网络进行动态链接,并基于此构建强有力的描述能力。问题问题3:如何更好地对事件的影响传播进行描述和分析:如何更好地对事件的影响传播进行描述和分析 由于金融事件推理的复杂性,因此需要从事件在实体网络传播和事件网络传播两个角度出发。以“公司 A 宣布破产/债券违约”为例,我们可以从这个事件的实体关系网络传播效应和事理网络的传播两个角度进行分析:1、实体关系网络传播效应:公司 A 的破产会直接影响其股东,
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100