基于机器学习的房地产企业财务风险预警模型对比研究.pdf

资源描述

1、【摘要】2022 年是中国房地产行业罕见的深度调整的一年，商品房销售规模创下多年新低，房地产开发投资增速首次出现同比负增长，房屋新开工面积、土地购置面积、房企到位资金等指标均大幅下滑。房地产行业作为宏观经济的“压舱石”和民生的重要支柱，一旦出现重大财务风险会对国民经济和社会发展造成不良影响。当前大数据和机器学习技术的快速发展为企业和投资者预测财务风险提供了有力的工具。本文选取全国 198 家上市房地产企业 20172021 年相关财务指标，利用 WEKA 平台构建机器学习模型，利用多维度多个评价指标对所建立财务风险预警模型进行对比并对预测效果进行评价。【关键词】房地产上市公司；财务风险预警；机

2、器学习一、引言据国家统计局发布，2022 年全国房地产开发投资下降 10.0%，房地产开发景气指数处于较低景气水平。商品房销售面积、销售额和均价下跌，居民买房意愿不足，而房地产开发企业投资回收期长的特点，使得众多开发商面临资金链紧张的困境。一些龙头房企接连出现债务违约“暴雷”现象，也带来不良的社会影响。房地产企业财务危机的出现是由于战略定位错误、盲目投资多元化、内部管理水平低、产品核心竞争力不足、库存管理不佳等多种原因造成。企业出现财务危机不是一蹴而就的，往往会在前期隐藏一定的财务风险。因此，针对房地产企业行业特点，选取相应财务指标并构建财务风险预警模型，具有较强的现实意义和应用价值。本文将从

3、财务指标和非财务指标两方面构建一个财务风险预警的指标体系，并利用 WEKA 平台的数据挖掘与机器学习功能，评价不同算法对房地产企业财务风险的预警水平。二、样本选择与指标建立1.样本选择本文使用的财务数据来自国泰安（CSMAR）数据库，选取样本参照国内研究的一般方法，将20172021年被首次特别处理（ST）的房地产公司作为财务危机企业样本，非 ST 房地产公司作为财务正常的企业样本。根据房地产行业的实际情况，采用非配对抽样，选取较多的财务正常企业样本和较少的财务危机企业样本。基于机器学习的房地产企业财务风险预警模型对比研究李晨尧作者简介：李晨尧（1996），女，汉族，硕士，厦门大学嘉庚学院会计

4、与金融学院，助教，研究方向：机器学习与财务会计205 10月刊 2023Shanghai Business基于以上原则，依据国泰安数据库中行业分类标准，参考证监会 2012 版行业分类和申银万国行业分类 2012修订版，选取 2017 年至 2021 年共 876 个房地产企业样本，其中财务正常企业样本共 846 个，财务危机企业样本共30 个。2.指标选取指标的选取是构建财务预警模型的核心环节。财务指标能够从多维度全方面地展现公司的财务状况和经营水平，本文选取了能够在一定程度上检测企业财务风险的财务指标。由于企业内部治理状况和管理情况不尽相同，指标的选取不应拘泥于财务指标，也应选取一定的非财

5、务指标作为补充。因此本文遵循系统性、不相关性、灵敏性和切实可操性原则，参照国内相关财务风险预警指标的研究建立一套财务风险预警的指标体系，包括偿债能力、经营能力、盈利能力、股东获利能力、发展能力、现金流量指标、风险水平等财务指标，同时也选取了两权分离度、年度内董事会的会议次数和审计意见等非财务指标。具体情况见表 1。三、模型构建及评价指标1.数据处理对全部原始数据进行预处理。为保证 WEKA 平台能够正常读取数据，将所有数据保留三位小数；对于无法从财务报表及公开信息中获取的财务数据选择用众数进行填充；对于非财务指标的缺省采用悲观准则进行填充，如董事会的会议次数如果无法获取，则认为年度内的会议次数

6、为 0。2.模型构建本研究采用流行的数据挖掘方法来构建财务风险预警模型，主要包括贝叶斯网络（GBN）、朴素贝叶斯网络（NBN）、逻辑回归（LR）、决策树（DT）、支持向量机（SVM）、人工神经网络（ANN）、装袋（BA）、k 最近邻（KNN）和随机森林（RF），共计 9 种算法。3.评价指标评价分类器的性能指标主要为机器学习类指标。机器学习类指标主要包括预测模型的构建速度、混淆矩阵相关的度量指标（真阳性率，真阴性率，假阳性率，假阴性率，综合准确率，F-Measure）以及接受者操作特征曲线下面积。F-Measure 度量值高可以保证查全率和查准率都比较高，表明机器学习算法准确率较高。接受者操作

7、特征曲线下面积（AUC）的范围在0.5（随机模型）和1（完美模型）之间，越接近 1 表明模型精度越高。四、学习结果与对比分析1.结果本文采用 WEKA 3.8.6 软件对处理后的 876 条数据采用十折交叉验证的方式进行实验。十折交叉验证是将数据集分成十份，轮流将其中 9 份作为训练数据，1 份作为测试数据进行试验的方式。实验结果机器学习类指标见表 2。2.讨论根据机器学习评价指标，首先从算法训练的时间上看，ANN 算法学习时长最久，是因为神经网络所需参数较多，学习过程比较长。其余算法产生模型的时间均较短，速度较快。剩余度量标准 TPR、F-Measure、AUC 和Accuracy 的评价值

8、越高说明算法的分类效果越好，预测精度越高。本文针对剩余度量指标做出具体分析如下。从整体上来看，基于集成学习思想的模型比如BA、AB、RF，比其他模型的综合准确率、F-Measure 和表 1 财务预警指标选择评价内容指标名称评价内容指标名称偿债能力流动比率盈利能力资产报酬率速动比率总资产净利润率现金比率净资产收益率资产负债率营业利润率利息保障倍数每股收益经营能力应收账款周转率股东获利能力市净率存货周转率市盈率流动资产周转率现金流量指标营业收入现金净含量固定资产周转率全部现金回收率总资产周转率营运指数发展能力总资产增长率非财务指标

9、两权分离度董事会的会议次数审计意见可持续增长率净利润增长率风险水平财务杠杆系数 206Estate房地产AUC 值高，这可能是因为集成方法通过聚集多个分类器的预测结果来提高分类准确率，平均了单个模型的偏差，使得集体决策在全面可靠性和准确度上优于个体决策。除此之外，SVM 和 ANN 算法也提供了同样最高的综合准确率和第二高的 F-Measure，但根据 AUC 指标，ANN 算法的 ROC 曲线下面积更大，意味着 ANN 算法的平均性能要优于 SVM 算法。从单个算法角度看，基于函数的 LR、基于决策树的 DT 和基于实例的 kNN 的综合正确率均超过了 95%，这些算法的 F-M

10、easure 也均大于 0.95，LR 的 ROC 曲线下面积达到了 0.79 以上，说明它们在该房地产预警数据上的分类性能较好，能够在财务危机早期预测中发挥重要作用。这些算法中表现相对较弱的是 GBN 和 NBN。然而，我们更换贝叶斯网络中的全局评分度量，将 K2算法更改为 TAN（Tree-Augmented Naive Bayes，树增强朴素贝叶斯）后，贝叶斯算法的综合准确率则增加到了95.4338%，F-Measure 和 AUC 则达到了 0.954 和 0.922，说明更改合适的度量后该算法也可以在房地产企业财务风险预测中达到良好的效果。为了更好地预测房地产企业财务危机，我们需要针

11、对房地产企业数据特征做出比较和评价。需要注意的是，在房地产财务风险模型数据的这种不平衡数据集中，识别为财务风险的企业数量远远小于未识别为财务风险的企业数量，但识别出有财务风险的企业却更有意义，因为如若未识别出财务风险，会对社会产生更大的不良影响，银行、社会投资者和购房百姓会付出更大的代价。因此在关注上述指标之外，我们更需要关注假阳性率指标，假阳性率指标越低，意味着真阴性率指标越高，也就意味着该分类器在针对房地产企业财务风险发出预警的意义就更大。本研究结果表明，NBN、GBN、GBN-TAN、kNN、ANN 的假阳性率指标相对其他算法更低，能够更准确地识别出财务风险企业。综上所述，在该房地产企业

12、财务风险预警数据集上的分类预测效果较好的算法有三种，分别是 GBN-TAN、ANN 和 kNN。这三种算法在真阳性率、假阳性率、F-Measure、AUC 和综合准确率等多种指标的综合测评下都有比较出色的表现。未来，计划继续扩大原始数据集，继续对原始数据中财务指标的选择和各种算法进行优化，进一步降低假阳性率，结合各个模型的优势特点来提高对房地产企业财务危机的预测精度。参考文献1戚家勇，蔡永斌.房地产上市公司财务风险评价研究J.财会通讯，2018(26):114-118.DOI:10.16144/ki.issn1002-8072.2018.26.027.2 高燕，杜玥，曾森.基于 BP 神经网络

13、的制造企业财务风险预警研究 J.会计之友，2023(1):62-70.3 周梅妍.房地产财务风险预警系统研究 J.统计与决策，2012(15):50-52.DOI:10.13546/ki.tjyjc.2012.15.033.4 张利霞.房地产企业财务风险问题探究 J.财会通讯，2016(20):98-100.DOI:10.16144/ki.issn1002-8072.2016.20.032.5Amancio D R,Comin C H,Casanova D,et al.A systematic comparison of supervised classifi

14、ersJ.PloS one,2014,9(4):e94137.6Alaka H A,Oyedele L O,Owolabi H A,et al.Systematic review of bankruptcy prediction models:Towards a framework for tool selectionJ.Expert Systems with Applications,2018,94:164-184.7Moro S,Cortez P,Rita P.A data-driven approach to predict the success of bank telemarketi

15、ng J.Decision Support Systems,2014,62:22-31.表 2 机器学习类评价指标 2.讨论分类器名称 WEKA 中的名称 TPR F-Measure AUC Accuracy 时间（s）GBN bayes.BayesNet 0.895 0.920 0.903 89.4977%0.02 NBN bayes.NaiveBayes 0.789 0.854 0.656 78.8813%0.001 LR functions.Logistic 0.959 0.954 0.793 95.8904%0.03 DT trees.J48 0.962 0.951 0.573 96

16、.2329%0.01 SVM functions.SMO 0.966 0.983 0.500 96.5753%0.22 ANN functions.MultilayerPerceptron 0.966 0.962 0.741 96.5753%2.35 BA meta.Bagging 0.966 0.983 0.870 96.5753%0.05 RF trees.RandomForest 0.966 0.951 0.892 96.5753%0.13 kNN lazy.IBk 0.960 0.958 0.672 96.0046%0.001 AB meta.AdaboostM1 0.963 0.957 0.877 96.3470%0.05 207 10月刊 2023Shanghai Business

展开阅读全文