1、第 卷第 期运 筹 与 管 理 ,年 月 收稿日期:基金项目:教育部人文社会科学研究青年基金项目();陕西省社会科学基金项目();西安市社会科学规划基金项目();陕西省自然科学基金项目(,)作者简介:贺毅岳(),男,湖南娄底人,博士后,副教授,研究方向:智能金融投资与风险管理;戴欣远(),男,江苏镇江人,硕士研究生,研究方向:金融风险管理;高妮(),通讯作者,女,陕西咸阳人,博士,副教授,研究方向:金融风险管理与机器学习。知识图谱视角下我国股票市场风险传染研究贺毅岳,戴欣远,高 妮(西北大学 经济管理学院,陕西 西安 ;西安外国语大学 经济金融学院,陕西 西安 )摘要:以我国 股上市公司大数据
2、为基础,深入分析上市公司之间的多层网络关联关系,构建上市公司关联知识图谱,进而提出基于个性化 算法的风险随机游走模型,对风险传染过程进行模拟。首先,运用爬虫技术获取上市公司的多维度关联数据,进而通过实体消歧和实体统一处理实现知识的获取和融合,构建 股上市公司的关联知识图谱;其次,运用图论基本原理将关联图谱转化为风险传染图谱,并将个性化 风险随机游走模型引入到风险图谱中,对突发风险事件的传染过程进行高效的可视模拟和预测。本文所构建的知识图谱包含约 万个节点、万条关系,支持可视化查询、智能化推理和风险传染模拟多重功能,从人工智能视角为金融风险传染这一复杂过程的模拟计算和高效预警提供了新的研究思路和
3、方法,可为金融风险智能监管等研究提供有益参考。关键词:上市公司;知识图谱;风险传染模拟;个性化 中图分类号:文章标识码:文章编号:():,(,;,):,“”,“”,:;引言股票市场作为中国市场经济体系的重要组成部分和资本市场的核心,一直以来都是整个经济社会价值创造的主体和源泉,但其内部错综复杂的关联关系也成为了风险传染的显性或隐性渠道 。因此,对上市公司间的风险传染进行监测、识别与预测,是保障国民经济稳定健康运行的重要手段和措施之一,也是 年全球金融危机后金融风险管理领域的重要研究方向 。在上市企业信息化程度不断提高、数据量日益庞大的背景下,如何高效地从其内外部多源异质的数据中,挖掘获得有实践
4、指导价值的风险状态与趋势预测信息,是当前金融风险管理研究者和监管实践者面临的关键难题之一 。近年来兴起的网络分析方法为金融风险传染研究提供了新的工具。在利用复杂网络研究金融风险传染的早期阶段,研究大多构建的是单层网络。如 等 使用 相关系数、等 使用互信息和偏互信息来刻画证券网络,进而揭示证券间的线性或非线性关系。随着研究的深入,学者们开始注意到金融网络中信息的多样性,该阶段的研究从单层网络的构建转向到二分网络的构建,如 等 利用银行间的同业拆借网络、银行与其持有资产间的网络构建金融市场网络。等 发现多层网络的结构特征对风险传染的发生有着显著的影响;等 发现当网络层级深度不断增加时,局部极端风
5、险事件就会在全局范围内造成更广泛持久的影响。然而,在大数据环境下,海量数据带来了维数灾难问题,传统的单层或二分网络无法对如此大规模的数据进行表示和分析,更难以对风险进行及时有效的预警。知识图谱的出现为解决上述难题提供了技术支撑。知识图谱最早由 在 年正式提出,它通过可视化图形描述客观世界的实体和关系。对于 股上市公司而言,无论是内部的董事和高管等雇佣关系,还是外部的控股、借贷等多种关系,均可在知识图谱中可视化呈现;同时,知识图谱支持图机器学习算法,在企业隐性关联信运 筹 与 管 理 年第 卷息挖掘和风险传染预测模拟方面都有良好的表现。王昊奋等 对知识图谱的生命周期进行划分,指出通过知识图谱的知
6、识融合和存储能力能实现大规模数据的查询、存取,其知识推理能力能够应对大数据的挖掘和增量知识的快速加载。为此,本文从企业关联视角出发,通过考察中国 股上市公司的关联关系,构建 股市场中企业的关联知识图谱,实现多层次关系的可视查询;进一步,在知识图谱中引入带有重启随机游走过程的个性化 算法,对风险爆发后的传染过程进行智能化模拟,以期为金融风险的高效预警与智能监管提供新的研究思路和支撑方法。上市公司知识图谱的构建知识图谱构建的核心在于如何有效构建模式层与数据层。其中,模式层位于知识图谱的顶层,包含了所研究领域内的各种抽象概念,是对数据层的抽象化描述;数据层位于知识图谱的底层,包含实际应用中的各类具体
7、数据,是模式层的实例化。知识图谱的构建方法分为自顶向下法和自底向上法 。自顶向下法先定义顶部模式层的本体,然后逐步细化形成层次化的概念结构,再把实体数据逐个填充到模式层的概念,适用于结构化程度较高的数据源,而自底向上法则刚好相反。图 上市公司知识图谱构建的逻辑框架本文选取了上市时间在 年 月 日之前的全部 股上市公司,并以 年年报公布的数据为基础,构建 股上市公司知识图谱的模式层与数据层。鉴于数据大多来自于财经网站和数据库,结构化程度较高,故本文采用自顶向下的方法,在 图数据库中构建了一个包含约 万个实体和 万条关系的上市公司知识图谱 。该图谱清晰地描述了 股市场各上市公司的关联结构,并支持企
8、业信息的可视化查询。图 为本文 股上市公司知识图谱构建的核心逻辑框架。知识图谱中的潜在关系挖掘 基于 算法的潜在关系挖掘 算法是最短路径问题的经典解法,能够高效搜索图中指定节点之间的最短路径。虽然上市公司知识图谱中的连线表示的是关系而非路程,但通过该方法挖掘两个企业风险节点间的潜在连接路径,对金融网络风险的评估具有重要意义。本文随机挑选两个 企业:安和 凯,利用 算法计算两者之间的全部潜在关联路径,最终发现了两条能够关联这两个企业的最短路径,且发现董事马同时出现在这两条最短路径上,是不同最短路径的交汇节点。若该最短路径中的任一企业发生某种资源交换,则董事马很可能成为其中发挥重要作用的关键节点。
9、事实上,在数据完备的情况下,该算法可以在知识图谱中可视化展示不同企业之间相互联系的最小关系网,而这些最小关系网中的路径很可能成为企业发生资源和风险交换的“便捷通道”。基于三元闭包的潜在关系挖掘三角形推理源于社会网络分析中“聚类”的定义。在社会网络分析中,“聚类”的群体被认为是由一些“三角形”的结构连接构成。社会学研究也发现,在一个社交圈中,如果互不相识的两个人有一个共同的朋友,则这两个人未来成为朋友的可能性也会提高,这一现象也称为三元闭包 。将三角形推理应用于知识图谱可挖掘出可能形成三元闭包的节点群,进而能推理出节点间的潜在关联关系。在上市公司知识图谱中也存在很多三元闭包的现象,如董事网络。从
10、社会网络理论看,董事是网络中传递信息的枢纽,它就像一根导管,通过行动者及其关系为资源和信息的流动提供渠道 。在上文所构建的企业知识图谱中,运用三元闭包原理推理获得同时出任多家上市公司的董事信息,可为上市公司之间共同董事网络的可视分析提供重要的基础数据支撑。第 期贺毅岳,等:知识图谱视角下我国股票市场风险传染研究 风险传染图谱构建及风险传染模拟上文构建的上市公司知识图谱虽已能可视化展示企业间的关联关系,但本质上仍未脱离数据库存储与数据查询的功能范畴,无法提供有效模拟金融风险传染过程的功能。为了进一步拓展上市公司知识图谱的风险传染模拟和预测功能,本文利用图论中关于节点和边的定义,将已建立的企业关联
11、知识图谱转化至风险传染知识图谱,进而提出基于个性化 算法的风险传染模型,对企业风险事件爆发后的风险传染过程进行模拟,以期精准预测风险传染结果。图 是本文基于企业关联知识图谱的风险传染模拟逻辑。图 上市公司金融风险传染过程模拟的逻辑 企业关联图谱到风险传染图谱的演化 图论基本原理及图谱特征分析图论认为图是由一系列节点和边组成的,其中节点通过边连接。根据节点间的边是否有指向性,图又被分为有向图和无向图两类。当边除了连接节点外,还定义连接对象的某种能力或强度时,则称该边为加权边,由加权边构成的图被称为加权图。根据图论中关于节点和边的定义,可对上文构建的上市公司关联图谱总结出四个特征:()关联图谱刻画
12、的是实体间的显性关联关系;()关联图谱是复杂网络,其节点和边均可以数理形式表示;()关联图谱是一个有向图,边的方向是单向的;()关联图谱是一个加权图,不同类型的边的权重意义不同。关联图谱到风险图谱的演化过程风险图谱是以关联关系数据为基础,将关联图谱改进后并用于预测风险传染过程的复杂网络,具有四个特征:()风险图谱刻画的是显性或隐性的风险传染关系;()风险图谱属于复杂网络,其节点和边均可以数学化表示;()风险图谱是一个无向图或双向图,风险的传染关系是多向的;()风险图谱是一个加权图,边的权重由多种关系标准化合成。利用图论中关于节点和边的相关定义,总结得到如表 所示的关联图谱和风险谱图的主要特征差
13、异。进一步,将关联图谱转化为风险图谱的过程包括三个方面的具体处理:将多类型节点统一为风险节点、将单向边变为无向 双向边,以及将多类型的加权边标准化为合成边。通过上述三种转化处理,本文将企业关联图谱演化为风险传染图谱,为后续进一步模拟风险事件的传染过程提供了基础的数据依托平台。表 关联图谱和风险图谱的主要特征差异图谱类型节点边的方向边的权重关联图谱多类型普通节点单向加权边风险图谱统一风险节点无向 双向合成边为使下文引入的 算法能有效应用于风险传染图谱,进一步对风险传染图谱进行两方面优化:()将所有的风险单向边转换为双向边。在企业关联图谱中,实体间的关联关系往往是单向的,如“股东持有 公司的股票”
14、;但在风险传染研究中,风险除了正向传染方式外,当 公司出现风险事件时,股东也不可避免地受到 公司的影响,即风险会双向传播。()删除所有孤立节点。为了防止后续 算法应用时出现出度为 的节点,而导致所有节点 值趋于 的情况,本文删除了所有的 个孤立节点。风险传染过程模拟算法 算法和随机游走过程()算法原理 创始人 等 在构建早期的搜索系统原型时提出了 算法,其设计逻辑是一个网页的重要性可通过网络链接结构来传递。算法能有效模拟用户浏览网页时所经历的轨迹:用户总是从一个随机的页面开始访问,并在访问结束时点击当前页面中的超链接,以概率 有指向性地访问下一个网页,或以概率 跳转到任意随机页面开始新一轮随机
15、游走。算法中 值的计算过程可表示为:()()()()()()式中 表示用户在访问当前网页结束后重新开始新一轮随机浏览的概率(通常为 ),也被称为阻尼因子();为网页总页数;,表示网络中的每个页面;()表示页面 的超链接指向的全部网页的集合;()表示页面 的出度。()随机游走情境下 的变形 算法模拟了用户上网时浏览网页的随机轨迹,可看作是随机游走模型的一个实例。随运 筹 与 管 理 年第 卷机游走模型具有马尔可夫性,即 步的随机变量在给定第 步随机变量后与其余的随机变量条件独立。因此,进一步引入时间步的概念,并设 时每个网页的初始概率分布为 (;),则 时 值计算过程可表示为:(;)()(;)(
16、)()假设该 用 户 点 击 了 无 限 多 次 链 接 后,即 当时,网页的 值是用户恰好停留在该网页上的概率分布。为便于计算该概率分布,进一步将式()转换为矩阵形式:()()()()其中 为一个均值向量,即每个元素的值都等于 ;是全部网页出度的倒数组成的转移概率矩阵 。基于个性化 的风险传染()局部跳转的个性化 算法传统的 算法无法直接应用于金融风险的传染行为模拟,个性化 算 法 改进 算法的跳转模式,在其随机游走跳转行为中,用户只能跳转到预先设定好的偏好节点,而不再随机跳转。因此,个性化的 算法本质上是计算所有节点相对于偏好节点的相关度,其计算公式为:()()()()()()()其中,(
17、),通过逻辑变量 ()改变了式()中全局 算法的跳转行为,代表用户预先设置的偏好节点,使每一轮重新游走都从这些偏好节点开始。()面向风险传染的个性化 基于知识图谱的个性化 算法不仅从微观层面考察企业节点在风险传染过程中的地位,且能在突发风险事件爆发后有效模拟风险的传染路径和波及范围,弥补现有预警方法在应对微观风险事件爆发及风险传染方面的不足。在企业金融风险的传染过程中,风险的游走模式符合个性化 中“限定性跳转”的特征:风险往往是从某一个或几个风险节点爆发,在跳转时又返回这些风险节 点 开 始 新 一 轮 游 走。同 时,基 于 个 性 化 算 法 的 风 险 传 染 模 型 依 然 保 留 全
18、 局 算法的马尔可夫性:如图 所示,随着风险的不断重启随机游走,各节点被传染概率趋向收敛,最终达到稳定状态。稳定状态下节点被传染的概率分布即为每个节点的 得分值,值越高则说明该节点受到风险传染的可能性越大。图 个性化 算法的风险传染逻辑本文运用个性化 算法模拟风险事件突发时风险从风险节点逐渐传染扩散的过程。如图 所示,面向风险传染的个性化 算法包括三个步骤:在突发风险事件发生时基于突发风险事件构建初始 矩阵:(),(),()其中,表示知识图谱使用者预先定义的黑名单节点,即爆发风险事件的节点。根据企业的风险关联关系构建转移概率矩阵。本文将风险传染图谱中的全部风险关联关系以矩阵的形式表示,完成初始
19、马尔可夫转移概率矩阵 的设置。计算获得稳定状态下全部节点的概率分布矩阵:()()()()其中,是本轮风险传染结束重启新一轮游走的概率。当迭代得到的 值满足式()时,表示风险游走过程达到稳定状态。()()()其中 为设定的极小值。此时迭代计算过程结束,所得到的矩阵 ()是风险传染达到稳定状态时的概率分布,进而可根据该状态下的概率分布得到各节点 值的排名。图 面向风险传染的个性化 算法过程 风险传染模拟的算例分析对风险传染过程进行模拟并精准预测风险波及范围,成为阻断风险事件二次扩散从而降低经济第 期贺毅岳,等:知识图谱视角下我国股票市场风险传染研究损失的关键环节。在上市公司风险传染图谱基础上,运用
20、个性化 算法构建企业风险传染模型,以实现对企业风险传染过程的动态模拟和风险传染结果的精准预测。已有研究表明持股关系在金融网络的形成中发挥着重要作用 。相较于以绝对数方式呈现的债权数据,以相对数方式呈现股权数据不仅更新更及时,且能更直观、有效地反映企业间的影响程度和关联情况 。本文从股权关联的视角出发,利用上市公司知识图谱提取各上市公司前十大流通股股东信息,进而对风险在企业股权网络中的传染扩散过程进行研究。下文以企业“龙”为例,对本文所提出的风险传染模型进行验证。风险传染过程分析首先,龙自 年 月起挂牌 至今尚未摘帽,且该公司又于 年 月出现了“权益变动导致无实际控制人”的负面舆情,符合本文对
21、节点的设定,故将其标记为风险事件节点作为个性化 算法的输入;其次,本文提取股所有上市公司前十大流通股股东组成的股权关联网络,并将其演化至风险传染网络生成算法所需的初始状态转移矩阵;接着,在 的条件下,运用个性化 算法模拟该风险事件的传染过程;最后,输出受影响节点的风险得分 值并对风险节点排序。对图 所示风险迭代传染轮数和 值变化趋势进行分析,发现经过大约 轮风险传染后,前 位最可能受传染的节点排名基本不变,但 值尚未收敛。最终风险得分排名第 、第 、第 和第 位节点的 值在第 轮传染中均波动剧烈,说明在模拟过程中风险传染主要集中于前 轮,符合现实中风险传染前期风险爆发式扩散的特性;在第 轮迭代
22、中 值波动减缓,且第 轮迭代期间 值开始趋向于收敛,这符合传染中期风险扩散速度减缓的特点;到第 轮后节点间风险传染基本达到完全稳定状态,节点 值几乎不发生变化,与现实中金融风险传染后期风险波及范围的边界趋向于稳定的特征具有一致性。风险传染结果分析为进一步分析风险传染模拟的效果,选取第 轮风险传染后稳定状态下各节点的 值,按从高到低的顺序对各节点的受感染概率进行排序,得到该风险事件的主要潜在感染者。如图 ,在经历 轮风险传染后,各节点受该风险事件感染的概率达到稳定状态。值最高的前 名节点受感染概率较高且相互接近,是该风险事件的主要感染者;恒信和大方的 值相较前 名有所下降,但仍然保持在合理水平内
23、,属于该风险事件的潜在感染者;值从第 位开始出现断崖式下跌且趋向于零,故可认为排名 位后的节点受该风险事件传染的可能性很低。图 风险传染轮数与 值的变化趋势运 筹 与 管 理 年第 卷图 稳态下受风险事件影响企业的风险得分 结论对金融风险传染进行高效的监测和预判,是防范区域性甚至系统性金融风险的核心环节,受到金融监管机构和学者们的高度关注。本文从知识图谱视角深入研究上市企业的风险传染问题,以 股上市企业大数据为基础,采用自顶向下法构建了上市企业知识图谱;然后,运用图论基本原理将企业关联知识图谱转化为风险传染图谱;进一步,提出了基于个性化 算法的风险传染模拟模型,可实现对特定风险事件传染过程的数
24、值迭代模拟,获得风险传染路径及其达到稳态时知识图谱中各节点的 值,进而识别出风险事件的潜在感染者;最后,以突发风险事件“龙权益变动导致无实际控制人”为例,分析验证了本文风险传染模拟方法的有效性。本文所构建的上市企业知识图谱具有可视化查询、潜在关系挖掘和风险传染模拟等多重功能,从人工智能视角为金融风险传染的过程模拟和高效预警提供了新的研究思路,有助于推动金融风险监测与防范智能化。然而,本研究仍有待进一步改进:()未从时变角度构建动态知识图谱。()未能合成多类型关系,仅基于具有关键代表性的持股关系进行风险传染模拟研究。()无法利用既往样本进行训练,准确度还可进一步提升。参考文献:范小云,荣宇浩,王
25、博 我国系统重要性银行评估:网络层次结构视角 管理科学学报,():何青,钱宗鑫,刘伟 中国系统性金融风险的度量基于实体经济的视角 金融研究,():杨子晖,陈里璇,陈雨恬 经济政策不确定性与系统性金融风险的跨市场传染基于非线性网络关联的研究 经济研究,():,():,():,():,:,:王昊奋,丁军,胡芳槐,等 大规模企业级知识图谱实践综述 计算机工程,():刘峤,李杨,段宏,等 知识图谱构建技术综述 计算机研究与发展,():陈晓军,向阳 企业风险知识图谱的构建及应用 计算机科学,():孙昊天,杨良斌 基于带权三元闭包的知识图谱的构建方法研究 情报杂志,():王文姣,夏常源,傅代国,等 独立董事网络、信息双向传递与公司被诉风险 管理科学,():,:,李政,梁琪,涂晓枫 我国上市金融机构关联性研究基于网络分析法 金融研究,():王振山,石大林 股权结构与公司风险承担间的动态关系基于动态内生性的经验研究 金融经济学研究,():第 期贺毅岳,等:知识图谱视角下我国股票市场风险传染研究