收藏 分销(赏)

基于机器学习的保险业风险监测预警模型研究.pdf

上传人:自信****多点 文档编号:2323513 上传时间:2024-05-28 格式:PDF 页数:14 大小:1.33MB
下载 相关 举报
基于机器学习的保险业风险监测预警模型研究.pdf_第1页
第1页 / 共14页
基于机器学习的保险业风险监测预警模型研究.pdf_第2页
第2页 / 共14页
基于机器学习的保险业风险监测预警模型研究.pdf_第3页
第3页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、1012023 年第 5 期基于机器学习的保险业风险监测预警模型研究基于机器学习的保险业风险监测预警模型研究谢荻帆1摘要:建立保险行业的风险监测预警体系是维护国家金融安全、经济稳定发展的重要任务之一。本文针对保险业风险监测数据不平衡的特性,基于随机森林算法,利用重复合成采样技术,构建了保险业风险预警模型新思路。实证结果表明,模型具有一定预测能力,且随着合成采样重复次数的增加,预测效果进一步提升,在应用中具备合理性、有效性和可操作性。基于此,本文提出如下政策建议:协同推进机构与监管数字化转型、持续创新技术手段、扩充数据源以及引入多元化特征变量等。关键词:保险行业;风险预警;随机森林;风险监测;监

2、管科技中图分类号:F84 文献标识码:A一、引言2019年习近平总书记指出,要增强忧患意识,提高风险防范能力,做到居安思危。准确识别风险点、开展风险防范预演、加强预期管理、改进预警管理、健全风险应对组织,打好防范经济风险攻坚战。党的二十大报告指出,要健全国家安全体系,其中包括国家风险监测预警体系。金融安全事关社会稳定,是国家安全的重要组成部分,维护金融安全是关系我国经济社会发展全局的战略性、根本性大事。鉴此,应在金融业内建立风险监测预警体系,守住金融安全底线,维护我国经济平稳健康发展。2000年我国银行业已开始尝试建立风险预警体系,这是我国银行监管的一项开创性工作,也是一项复杂系统工程,需要长

3、期不断地探索、总结和完善2。为提前防范风险,保险业不断强化监管措施前瞻性,包括推动非现场检查,构建指标体系,对保险公司经营发展情况进行日常动态监测;提出偿付能力风险管理要求并对落实情况进行评估,加强功能监管和穿透式监管,持续推动保险业风险管理能力提升。在此背景下建立保险业风险监测预警体系,其主要功效1 谢荻帆,经济学博士,中国保险保障基金有限责任公司,联系方式:。作者感谢匿名审稿人的意见,文责自负。2 参考原中国银保监会 2005 年 4 月 21 日发布的 改善风险监管技术 银监会建立商业银行风险预警体系。DOI:10.13490/ki.frr.2023.05.006102基于机器学习的保险

4、业风险监测预警模型研究总第 137 期为:一方面,可提前找出问题公司并进行风险提示,及时采取有效风险防御措施,减少风险积聚对保险业的系统性伤害,起到行业风险“减震器”“缓冲带”作用;另一方面,将事后监管提到事前,做到早发现、早识别,有效定位重点问题保险公司,进一步节省监管资源,提高监管效能。习近平总书记在主持十九届中央政治局第三十四次集体学习时强调,发展数字经济意义重大,是把握新一轮科技革命和产业变革新机遇的战略选择。当前,面对金融数字化转型从“夯基垒台”到“积厚成势”,以及金融科技审慎监管的不断强化,提升风险监测预警的前瞻性、全面性和数字化水平,成为推动保险业高质量发展的迫切需要,也是必然选

5、择。据此,保险业借助数据驱动和科技赋能,应建立和完善早发现、早介入、早处置的风险预警体系,进一步有效防范化解各种潜在金融风险。二、相关理论研究宏观金融风险实质上是微观层面风险不断积聚并最终爆发的结果,因此要从根本上防范和控制金融风险,必须重视微观风险的预警与防范。潘功胜(2019)指出1,要适应科技多变、快变特点,提升监管快速反应能力,推进常态化金融风险预警监测机制。霍学文(2021)认为2,智能监管是未来趋势,需要有强大的金融风险监测预警系统支持。面对当前复杂多变的风险形势,既要防范“灰犀牛”,也要防范“黑天鹅”,还要防范两者之间的连锁反应,因此利用新方法、新模型、新技术,探索建立金融业风险

6、监测预警系统已成必然选择。针对保险公司风险预警的理论研究,国外起步较早且普遍采取了量化分析方法,包括单变量分析、多变量判别分析、Logistic回归模型、人工神经网络等。Evans(1968)最早将单变量分析引入保险公司风险预警研究。Trieschmann和Pinches(1973)最早利用多变量判别分析法基于财务数据建立保险业偿付能力预警模型。此后,Steven(1998)利用Logistic回归模型验证了贝氏评级及等级变化识别寿险公司偿付能力的有效性。Patrick等(2006)利用神经网络对保险公司偿付能力进行预测,并得出神经网络优于传统统计方法预测效果的结论。在早期研究的基础上,越来越

7、多的学者开始尝试利用机器学习模型解决公司风险预警问题。Geng等(2015)、Wu等(2022)和Gao等(2023)先后利用神经网络或其优化算法预测公司财务风险;Tuong等(2018)利用基于聚类的提升算法针对高度不平衡数据集建立公司破产预警模型;Qian等(2022)利用梯度增强决策树算法对公司财务进行预警。国内监管部门和研究机构从2000年后才开始探索保险业风险监测预警体系。侯旭华等1 参见中国人民银行党委书记、国家外汇管理局局长潘功胜 2019 年 12 月 17 日在第三届中国互联网金融论坛上发表的书面致辞。2 参见北京银行党委书记、董事长,清华大学五道口金融学院战略咨询委员会委员

8、霍学文在以“新格局 新发展 新金融”为主题的 2021 清华五道口全球金融论坛上就科技助力金融创新高质量发展发表的看法。1032023 年第 5 期(2019a,、2019b)、丁少群等(2019)和郑莉佳等(2020)基于保险公司财务指标,利用传统统计模型方法,建立了风险预警系统以及经营评价体系;侯旭华等(2021)和李思思(2021)则从财务角度,评估保险公司风险。有些学者将非财务指标引入了风险预警模型。其中,夏秀芳等(2018)研究表明,将非财务指标引入财务预警系统可以改善预警效果、提高预测准确率;石阳(2015)指出,非财务指标一般是财务指标的先行指标。综合来看,我国目前运用预警模型量

9、化分析保险公司风险的研究还相对较少。从大数据、人工智能等创新技术手段应用于金融监管领域方面来看,朱太辉等(2016)指出,金融科技创新能增强风险管理能力、降低风险集中度,有助于提高金融稳定性,但现有风险监测缺乏充分数据支撑和量化分析;张家林(2018)指出,监管科技是防范和应对金融风险的主要手段,运用大数据技术建立风险预测模型,可及时准确地识别风险,降低监管成本;张丽颖等(2022)则尝试利用机器学习模型预测个人贷款的违约风险。从现有文献看,虽然已开始将金融科技运用于行业风险监测中,但从量化角度建立保险业风险预警系统仍存在以下难点:一是数据不平衡的处理。目前,保险业关注类公司在全部观测公司中的

10、比重较低、基数较小,阳性案例1的代表性不突出,容易被忽视,因此,如何在大规模数据中准确有效地捕捉风险点,成为事前监管的核心难点之一。二是特征变量的筛选。风险预警研究普遍凭借经验或定性分析来筛选具有预警效果的财务指标,这一方面可能因遗漏重要变量而降低模型预测精度;另一方面,则可能因纳入过多冗余变量而降低建模效率,影响模型稳健性,使模型缺乏解释力。三是风险预警信号无法进行差异化比较。一般而言,预警模型的因变量是0-1变量,输出的预测信号为0(无风险)或1(有风险)。这意味着,同一期预测结果均为1的两家公司,无法比较风险大小;同一家公司前后两期预测结果均为1时,则无法比较其风险水平是否发生了改变。针

11、对以上问题,本文引入了随机森林模型,此模型具有处理高维变量并对变量重要性进行排序的高准确度分类器特性,利用合成采样技术,其在一定程度上解决了预警系统数据不平衡的难点;通过引入基于大数据的机器学习方法,减少了对特征变量的依赖性;通过构建风险预警得分系统,实现了风险水平的差异化比较,摆脱了人为筛选指标、设定阈值后,更直观地输出风险信号。此外,本文还通过实证分析,验证了模型的合理性和有效性,并在此基础上探讨了预警机制、技术手段、参数改进和变量筛选等问题。三、风险预警模型的构建及操作步骤(一)风险特征筛选及数据预处理特征变量方面,由于财务指标相对容易获取且现有研究中有相关经验总结,因此本文风险1 阳性

12、案例指已暴露风险的关注类保险公司。104基于机器学习的保险业风险监测预警模型研究总第 137 期预警模型选取了财务指标作为风险特征变量1。由于研究中获取的财务信息主要是已完成结构化的二手数据资料,存在数据未披露、数据缺失和数据空值等问题,因此本文数据处理如下:对当期未披露信息的已处置类公司做行删失处理,在不影响数据整体结构的情况下对缺失数据进行均值插补,将数据空值记为0。(二)处理不平衡数据集风险预警研究的数据具有明显的不平衡特征。“不平衡”指样本中取值为1的阳性案例与取值为0的阴性案例的比例存在显著不同。针对这一问题,早期研究多基于抽样原理,采用固定阳性案例后按一定比例(1:2或1:1)随机

13、抽取阴性案例匹配建模的欠采样方式。这虽然避免了因样本数据不平衡所导致的模型预测功能下降,但由于样本对总体代表性有限,影响了预测模型的泛化能力。也有学者选取过采样方法进行研究(即从小类中进行重复抽样),但存在过拟合风险(李扬等,2016)。鉴此,本文采用了Lunardon等(2014)提出的ROSE(Random Over Sampling Examples)算法。该方法基于平滑自助法(smoothed bootstrap)的人工合成采样技术,利用条件核密度估计,扩大少数类和多数类的特征空间,生成新的人工数据集,可降低过采样带来的过拟合风险,避免欠采样带来的大量信息丢失问题,提高泛化能力。其具体

14、操作步骤如下:假设样本量n的训练集为nT,其中,第i个样本点可以表示为(),1,2,iiyin=Lx;|0,1ijyYj=;ix是定义在dR空间上的特征向量,且具有未知概率密度函数()fx。第一步,以j的概率选取*jyY=;第二步,以1jn的概率选取(),iinyxT,其中*iyy=;第三步,确定以ix为中心、jH为协方差矩阵的概率分布函数jKH,再从(),jiKHx中随机抽样*x作为新合成样本点。这个过程是在训练集中提取一个样本点,再在其邻域产生一个新样本点()*,y*x。该邻域的范围是根据核函数K的轮廓集确定,其宽度由jH控制。这相当于从(|)jfYx的核密度估计中产生新样本数据集。其中,

15、()11111(|)(|)(|)jjjjnnnjiiiiiiijjiifYp PrPrKnn=Hxx xx xxx。重复以上步骤m次得到样本量为m的新合成数据集*mT,其中数据的平衡度由j决定,即当0.5j=时,阳性案例和阴性案例的数量相等。(三)随机森林算法随机森林(Random Forest)是一种基于决策树的机器学习算法。有研究将随机森林算法中的每棵决策树比喻为一个精通于单一领域的专家,而随机森林则是将大量精通不同领域的专家集中在一起,由各个专家投票得出结果,从而可从多角度全方位地解决目标问题。其本质为经济学所关注的“群体智慧(Swarm Intelligence)”或称“看不见的手”。

16、随机森林算法具备处理高维变量并实现变量筛选、评估变量重要性等优势。1 在实践中,引入非财务指标可提升模型预警效果。1052023 年第 5 期随机森林的建模流程如图1所示。一是采用自展法(Bootstrap),随机有放回地从总量为N的原始训练集中抽取n个样本,并重复m次操作,生成m个子训练集;二是针对每个子训练集,在全部特征变量中随机抽取部分特征变量,训练生成对应的决策树,根据基尼指数或袋外误差选择最优特征,并决定该特征的最优二值切分点,再集成所有决策树以构成随机森林模型;三是向随机森林模型输入测试集数据,通过多数投票机制,基于所有决策树的预测结果生成随机森林预测结果。图 1:随机森林建模流程

17、图 2:利用模型进行评估预测的流程关于随机森林的参数设置,应重点关注ntree(森林中基分类器的数量)和mtry(基分类器预选的特征变量个数)两个参数。其中,参数ntree影响模型的泛化能力:ntree值设置过低会导致错误率偏高,ntree值过高则会增加模型复杂度,降低运算效率。参数mtry一般通过逐一尝试的方法来选择理想值。(四)利用模型进行评估与预测利用模型进行评估与预测的流程如图2所示。第一步,基于前一历史观测期(默认预警周期t1=)的数据,利用ROSE算法重复构造M个合成数据集,每个合成数据集均为保留了原始数据集空间特征且具有随机性的相对平衡的数据集。第二步,以单个合成数据集为基础,利

18、用K折交叉验证,分别建立随机森林模型,确定混淆矩阵并计算准确率(ACC,在所有样本中预测正确的样本占比)和召回率(Recall,预测正确且为阳性案例的样本占所有实际为阳性案例的比例)作为评估标准。第三步,基于评估结果调整模型参数,确定M个最优模型。第四步,以当期原始数据作为预测集,分别带入M个模型得到预测结果,即ijy0,1;i1,2,.,N;j1,2,.,M=。第五步,集成M个预测向量,计算单个个体的风险预警得分:106基于机器学习的保险业风险监测预警模型研究总第 137 期1,1,1 2,.,Miijjscorey iNM=(1)本文主要以统计学大数定律为研究基础,即随着样本容量的不断增加

19、,样本均值越来越趋近于总体均值。重复人工合成数据集的主要作用为:一是将问题公司的风险特征进一步放大,从而便于事前监管捕捉风险信号;二是预测结果由0,1离散型数值转变为0,1连续型数值。此外,风险预警得分的实践意义为:根据行业历史风险特征,公司在未来成为关注类公司(或风险暴露)的可能性。四、实证研究(一)样本选择及变量说明表 1:保险业风险预警模型变量说明编号分类变量指标名称公式1风险指标Y是否为关注类公司综合偿付能力充足率低于 150%或风险综合评级为 C、D 类的公司记为 1,其他记为 02资本结构X1负债经营率总负债/所有者权益3X2资产负债率总负债/总资产4X3杠杆倍数总资产/净资产5X

20、4所有者权益与保费收入之比所有者权益/原保费收入6X5长期股权投资占比长期股权投资/总资产7X6投资性房地产占比投资性房地产/总资产8经营能力X7成本率营业支出/营业收入9X8费用率成本率赔付率10X9赔付率赔付支出/已赚保费11X10原保费收入增长率(本年原保费收入上年原保费收入)/上年原保费收入12X11寿险责任准备金增加额占比寿险责任准备金增加额/原保费收入13盈利能力X12利润率净利润/营业收入14X13净资产收益率净利润/净资产15X14营业利润率营业利润/已赚保费16X15资产利润率净利润/平均总资产17X16净资产利润率净利润/平均净资产18获现能力X17已赚保费现金回报率经营活

21、动现金净流量/已赚保费19X18资产现金回报率经营活动现金净流量/平均总资产20X19净资产现金回报率经营活动现金净流量/平均净资产21发展能力X20资产增长率(年末资产年初资产)/年初资产22X21股东权益增长率(年末股东权益年初股东权益)/年初股东权益本文选取20162021年公开披露年报的90家人身险公司为研究样本1,利用历史数据预测1 无特殊说明外,本文问题分析部分均基于 2018 年数据建模结果。1072023 年第 5 期当期数据,建立随机森林模型。使用软件R 4.1.2进行操作,加载ROSE和Random Forest程序包。为方便数据收集,本文选取保险公司披露年报中的21个财务

22、指标作为特征变量(X),通过风险水平划分目标变量(Y),依据监管部门对关注类公司的划分标准,将综合偿付能力充足率低于150%或风险综合评级为C、D类的公司记为1,其他公司记为0。具体变量设置如表1所示。(二)描述性统计除未披露年报的保险公司外,本文关注类公司样本量占比约为15%,缺失值占全部数据量的2%。各观测期指标变化如表2所示:指标分布相对稳定,不存在异常波动情况。表 2:数据基本情况描述变量均值中位数极差缺失值均值中位数极差缺失值均值中位数极差缺失值X111.82 6.73 392.1809.086.78 119.608.877.77 36.500X20.750.871.2100.810

23、.871.3100.830.890.960X312.82 7.73 392.18010.08 7.78 119.609.878.77 36.500X4-7.32 0.55 1795.94-50.70.4842384477.80.50 372184X50.040.000.6900.040.000.6900.040.000.630X60.000.000.0700.000.000.0500.000.000.050X71.210.997.5501.370.99 30.8501.300.99 29.350X80.100.8579.9800.480.86 29.400-0.18 0.84 78.200X9

24、1.060.1172.1140.820.11 54.5441.260.12 117.14X100.460.208.45102.000.27 82.6140.380.183.774X11-1.03 0.33 106.624-0.80 0.51 104.64-1.00 0.58 121.94X12-0.22 0.017.490-0.37 0.01 31.020-0.30 0.01 29.200X13-0.39 0.0133.160-0.02 0.044.7800.010.041.990X14-9.20 0.01 538.154-14.10.0111564-10.10.02 782.44X15-0.

25、01 0.000.267-0.01 0.000.4200.000.000.340X16-0.03 0.023.6070.030.041.8600.030.041.330X17-9.70 0.19 580.244-13.10.5411154-14.50.57 663.54X180.050.070.8570.160.130.9200.170.140.840X190.330.4211.9171.331.01 16.4801.581.18 20.750X200.220.144.3670.350.232.2500.410.284.360X210.150.017.1370.480.16 28.820-0.

26、05 0.11 14.070观测期2018 年2019 年2020 年样本量868682阳性案例15139注:由于数据量较大,此处只展示 2018-2020 年数据的基本情况。(三)参数选择在参数选择中,对ntree进行优选可有效避免模型过拟合问题并有效节约运算资源。因此,本文采用了K折交叉验证方法。具体步骤为:对不同ntree值下的模型,重复进行K次单独训练和测试,取所有准确率平均值作为该ntree值下模型的验证误差,并以此确定参数ntree。图3是108基于机器学习的保险业风险监测预警模型研究总第 137 期不同参数设置下平均准确率的变化情况,ntree越大则模型准确率越高且越趋于稳定。考

27、虑运算速度问题,本文固定选取ntree=300;mtry越大则模型准确率则越低。本文参考Breiman(2002)的研究,在分类模型中将mtry设置为变量个数的二次方根,在预警模型中设置为变量个数的三次方根。图 3:不同参数设置下平均准确率的变化情况关于ROSE算法参数选择的问题,主要有样本量参数m、均衡度参数p,以及参数hmult.majo和hmult.mino1。由于模糊的特征空间边界可能影响分类效果,需谨慎使用收缩因子,因此本文均使用默认参数值,新样本量等于原始样本量,均衡度等于0.5(阳性案例数约占1/2)。(四)输出结果表3分别给出在合成数据集数量M=100时,预测情况下随机森林模型

28、的输出结果。其中,预警模型1类似于传统的随机森林模型,即基于单个合成数据集建模并预测;而预警模型2则为本文提出的优化模型,即分别基于M个合成数据集建模并预测,再将M个预测结果进行叠加,并以此作为最终预测结果;Logistic回归模型作为对照模型,与本文提出的预警模型进行比较。由表3可知,一是预警模型1的准确率稳定在80%90%,具有一定预测效果。二是预警模型1的召回率较低,即抓取到的“坏”公司占比较少。这主要受原始数据不平衡性的影响:单次合成采样数据无法弱化关注类公司风险集中的特性,要抓取到“坏”公司,预测时需同时满足这些风险特征,因此预测中判为阳性案例的公司较少。三是Logistic模型虽然

29、召回率优于预警模型,但其准确率较低且均在50%以下,意味着该对照模型将较多的“好”公司错判为“坏”公司。这在实践中会大大增加监测成本,而且该模型的稳定性较差,随着观测期延长需要不断调整变量、优化模型结构。四是优化后的预警模型2在准确率和召回率方面均表现出一定优势,且召回率较预警模型1明显提升(见图4)。这表明,本文提出的不平衡数据下基于随1 参数 hmult.majo 和 hmult.mino 均为可选收缩因子,即平滑系数,分别用于估计多数类和少数类的条件核密度,默认值为 1,通过调整平滑系数从而实现收缩协方差矩阵 H 的目的。1092023 年第 5 期机森林的保险业风险预警模型,具有一定合

30、理性、有效性和可操作性。表 3:保险业风险预警模型结果评价模型评估标准20172018201920202021预警模型 1准确率71%80%88%90%83%召回率29%27%19%15%12%预警模型 2准确率67%79%85%85%85%召回率47%53%62%56%42%对照模型(Logistc 模型)准确率43%49%49%10%31%召回率100%100%100%89%90%图 4:保险业风险预警模型召回率预测效果比较图 5:模型预测结果的分类展示本文还将预警模型2当期预测的关注类公司与未来各期实际出现的关注类公司进行了比较(见图5)。由图5可知,模型不仅可以预测到当期属于关注类的公

31、司,还能预测到个别未来属于关注类的公司,且不排除抓取到的其他公司转化为关注类公司的可能性。这进一步验证了该模型的有效性。五、问题讨论建立保险行业风险监测预警模型,需要统筹考虑数据采集、指标筛选、模型设计、参数调整、计算效率、运作机制以及展示效果等多方面因素。下文基于实证分析进一步讨论相关问题。一是进一步完善保险业风险预警机制。从国际经验看,欧洲国家已将统计模型应用于银行业风险预警,利用先进定量技术,在银行经营出现困难或倒闭发生之前确认高风险银行(杨延青,2010);韩国存款保险公司建立的风险监测机制,根据日常采集的各类金融信息,通过信息系统、模型评估等开展非现场监测(吴越等,2021)。相对而

32、言,我国保险业风险监测尚未形成全方位、多角度的模型评价体系。据此,本文拟借助信息化技术手段和灵活定量模型设110基于机器学习的保险业风险监测预警模型研究总第 137 期计,为保险公司风险监测及评估提供新思路。二是通过引入前沿技术手段,减少人为干预和主观判断所导致的预警偏差。当前保险业风险监测主要有两类方法:一是从定性和定量多维度建立指标池,借助各指标设定风险阈值来判断保险公司是否处于危险状态;二是利用综合性评价建立保险公司风险监测指标体系,构造指数对各保险公司风险水平进行比较和评价。使用上述方法需进行阈值设定和指标赋权,且需随观测期的延长及时优化阈值、调整指标及其权重,以避免评估体系失效。这在

33、一定程度上影响监管效率,不利于持续开展监测。本文通过使用随机森林模型来解决上述问题。该模型可处理高维变量,预测结果具有鲁棒性,在未来建立“指标池”、扩大观测区间、提高监测频率等方面,较传统模型更具优势。三是借助大数据运算能力,发挥风险预警前瞻性功能。当前主要通过结果性指标(而非先行指标)衡量保险公司的风险水平,如风险综合评级、偿付能力充足率等。这些指标一旦触及监管红线,往往意味着风险已经暴露。实际上,风险预警信号应该是先行的,是为了给监管、保险公司留出缓释风险、减少损失的窗口期而存在的。因此,本文借助历史数据对当期数据进行预测。如图6所示,将预警周期分别设定为提前t1,2,.,4=年进行预警,

34、结果显示,至少可提前一年发现部分问题公司的风险。而缩短预警周期还可提升预警准确率,进一步验证预警模型的前瞻性功能。“险”以类聚,因此在抓取到已暴露风险的问题公司时,也抓取到部分与问题公司具有相似特征的“可疑”公司,这也体现了预警模型的前瞻性。图 6:预警周期变化对预测准确度的影响四是重复合成采样技术在一定程度上提升了风险预警效果。由表4可知,随着合成数据集数量M值的提升,预测模型的准确率和召回率均随之上升,抓取到的公司数量也逐渐增加,但程序运算会消耗更多时间。鉴此,在实践中可以基于不同计算设备的运算效率,通过增加M值来提升模型预测效果。这也是模型在保险业风险预警系统中优势的一种体现。如图7所示

35、,M值与模型预测精度之间并不是简单线性正相关关系,随着M增加,预测精度增长速度呈先快后慢趋势。因此,本文建议将M值设定在增速转折点处,即图中红框所对应的M=100。这既节约了计算成本又可得到最优预测精度。1112023 年第 5 期表 4:不同 M 值下保险业风险预警模型效率比较M预警模型 ACC预警模型 Recall抓取到的公司家数运行耗时(秒)10.87210.153920.5596100.91860.538580.90721000.93020.615493.77432000.93020.615497.14485000.93020.6154917.857810000.91860.69231

36、233.4097图 7:不同 M 值下模型效率比较五是基于机器学习算法建立风险监测系统,以摆脱传统统计模型对特征变量的高度依赖。多重共线性一直是困扰传统统计模型的重要问题之一,而机器学习模型在很大程度上克服了这一限制。在随机森林模型中,每棵树的构建均使用贪婪算法选择变量,只有新变量对结果影响较大时才被加入模型,因此不会引入冗余特征变量。宋欠欠等(2015)研究认为,随机森林模型可筛选高维数据变量,还可输出各指标的重要性得分1。图8(a)显示,在财务风险预警指标中,当前重要性较高的变量依次为赔付率、寿险责任准备金增加额占比、净资产收益率。其中,赔付率反映了赔付款支出与保费收入之间的对比关系,是体

37、现保险公司业务经营能力的关键指标,数值越高意味着公司赔付压力越大,风险水平越高;寿险责任准备金增加额占比反映了当年寿险保费收入与提取的寿险责任准备金的匹配程度,数值越高意味着责任准备金越充足,公司偿付能力越强,风险水平越低;净资产收益率体现了自有资本获得净收益的能力,通常反映公司的核心竞争力,数值越高意味着公司盈利能力越强,风险水平越低。图8(b)显示,模型引入特征变量的数目会影响预测准确率。前文基于便利性考虑,本模型未包括公司治理、内部控制、公司文化等定性指标。但此类定性指标也是引发保险公司风险暴露的重要因素,因此将其量化处理后补充进模型,从而提升模型预测效果。1 通过将相应变量替换成一列随

38、机数后,计算模型准确率或 Gini 系数的降低水平,以此作为重要性得分,得分越高,变量相对越重要。112基于机器学习的保险业风险监测预警模型研究总第 137 期图 8:基于财务指标的模型变量重要性输出结果六、结论与建议针对保险业风险监测数据不平衡特性,本文基于随机森林算法,利用合成采样技术,构建了保险业风险监测预警模型。实证结果表明:模型具有一定预测能力,且随着合成采样重复次数增加,预测效果进一步提升。针对目前研究的局限性,下一步改进方向如下:一是配合差异化监管,探索建立多分类风险预警模型;二是多角度增加指标,提升预警准确率;三是扩充数据量,提升前瞻性,实现早期风险预警。基于此,本文提出以下建

39、议:一是协同推进保险机构数字化转型与保险监管科技发展,提高金融风险监测科技水平。从公司层面看,应深入贯彻落实监管政策,强化转型配套机制和流程建设,做好数据能力培养和科技人才储备,不断提升数字化转型风险防范意识,采取风险管理强化措施。从监管层面看,在完善金融监管体制基础上,加快金融监管数字化、智能化转型,利用科技赋能监管金融活动全过程,实现风险敞口的动态监测、智能预警和及时干预,防范化解系统性金融风险。二是持续创新技术手段,不断完善金融风险预警机制。首先,加强金融数字化转型意识,树立前瞻性思维及变革心态。其次,优化模型方法,借助机器学习优势突破当前保险业风险监测的局限性,着力解决预警滞后、被动和

40、失灵等问题。此外,提升预警前瞻性、主动性和准确性,在保障金融数据安全的情况下,采取延长历史观测期、提升观测频率、减小数据颗粒度等方式,及时捕捉问题公司的风险信号。三是扩充数据来源,提升风险预警模型学习能力。数据是实现保险行业风险预警功能的基础和关键。应利用大数据技术将多维度、大范围的基础数据信息,加工为可解释的风险特征变量,再借助机器学习算法,自动筛选问题公司并做出风险提示。四是在保险公司风险监测预警系统中引入具有先行性、代表性的特征变量。鉴于选择特征1132023 年第 5 期变量是决定模型最终效果的重要步骤(徐劲等,2022),应在模型中同时引入财务性指标和非财务性指标,让保险公司的整体画

41、像更清晰,使预警指标体系更合理,从而有效及时地预警保险业风险。参考文献1.丁少群和杨含,基于财务指标的保险业发展稳定性的比较研究,保险职业学院学报,2019年第5期,49-53。2.侯旭华,互联网保险公司财务风险预警指标构建与运用研究,湖湘论坛,2019 年第 3 期,89-101。3.侯旭华和蒋昕,互联网保险公司审计风险及其防范方法,财务与会计,2021 年第 17 期,52-55。4.侯旭华和彭娟,基于熵值法和功效系数法的互联网保险公司财务风险预警研究,财经理论与实践,2019 年第 5 期,40-46。5.李波,我国商业银行财务危机预警机制指标及其分类以南京市商业银行为例,经济论坛,20

42、15年第 11 期,40-42。6.李华中,上市公司经营失败的预警系统研究,财经研究,2001 年第 10 期,58-64。7.李思思,基于保险业视角下的财务风险管理研究,中小企业管理与科技(下旬刊),2021 年第 9 期,87-89。8.李扬、李竟翔和马双鸽,不平衡数据的企业财务预警模型研究,数理统计与管理,2016 年第 5 期,893-906。9.石广付,我国寿险公司财务困境的指标体系选择及检验,金融纵横,2010 年第 5 期,35-39。10.石阳,浅谈非财务指标在企业业绩评价体系中的运用,商业会计,2015 年第 4 期,56-58。11.宋欠欠、李轶群、侯艳和李康,随机森林的变

43、量捕获方法在高维数据变量筛选中的应用,中国卫生统计,2015 年第 1 期,49-53。12.吴越、刘健和陈晓红,韩国存款保险公司风险监测机制及启示,吉林金融研究,2021 年第 10 期,45-48。13.夏秀芳和迟健心,企业财务困境预警研究综述,会计之友,2018 年第 13 期,2-6。14.徐劲、许皓玮和葛善伟,运用机器学习强化银行风险预警,中国金融,2022 年第 2 期,66-67。15.杨延青,各国银行风险预警方法评述,商场现代化,2010 年第 7 期,161-163。16.张家林,监管科技(RegTech)发展及应用研究以智能投顾监管为例,金融监管研究,2018年第 6 期,

44、76-93。17.张丽颖和杨若瑾,基于机器学习的个人贷款违约预测模型的应用研究,金融监管研究,2022 年第6 期,46-59。18.郑莉佳,保险公司经营绩效及影响因素分析,商讯,2020 年第 10 期,124+126。19.朱太辉和陈璐,Fintech 的潜在风险与监管应对研究,金融监管研究,2016 年第 7 期,18-32。20.Breiman,L.,Manual on Setting Up,Using,and Understanding Random Forests,Berkeley,CA:Statistics Department University of California,

45、2002.114基于机器学习的保险业风险监测预警模型研究总第 137 期21.Evans,C.K.,Basic Financial Differences of Substandard Automobile Insurer,The Journal of Risk and Insurance,1968,Vol3,489-51.22.Gao,Y.,B.Jiang and J.Zhou,Financial Distress Prediction For Small And Medium Enterprises Using Machine Learning Techniques,2023,arXiv:

46、2302.12118.23.Geng,R.,I.Bose and X.Chen,Prediction of Financial Distress:An Empirical Study of Listed Chinese Companies Using Data Mining,European Journal of Operational Research,2015,Vol241,236-247.24.James,S.T.,and G.E.Pinches,A Multivariate Model For Predicting Financially Distressed P-L Insurers

47、,Journal of Risk and Insurance,1973,Vol40,327-337.25.Lunardon,N.,G.Menardi and N.Torelli,ROSE:A Package for Binary Imbalanced Learning,R Jorunal,2014,Vol6,8292.26.Patrick,L.B.,L.Golden,J.Jang and C.Yang,A Comparison of Neural Network Statistical Methods and Variable Choice for Life Insurers Financia

48、l Distress Prediction,Journal of Risk and Insurance,2006,Vol73,397-419.27.Qian,H.,B.Wang,M.Yuan,S.Gao and Y.Song,Financial Distress Prediction Using a Corrected Feature Selection Measure and Gradient Boosted Decision Tree,Expert Systems with Applications,2022,Vol190,116-202.28.Steven,W.P.,Life Insur

49、er Financial Distress,Bests Ratings and Financial Ratios,The Journal of Risk and Insurance,1998,Vol2,275-288.29.Tuong,L.,L.H.Son,M.T.Vo,M.Y.Lee and S.W.Baik,A Cluster-Based Boosting Algorithm for Bankruptcy Prediction in a Highly Imbalanced Dataset,Symmetry,2018,Vol 10,250-250.30.Wu,D.,X.Ma and D.L.

50、Olson,Financial Distress Prediction Using Integrated Z-score and Multilayer Perceptron Neural Networks,Decision Support Systems,2022,Vol159,113814.Abstract:Establishing the risk monitoring and early warning system of insurance industry is one of the most important tasks to maintain national financia

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服