收藏 分销(赏)

基于随机森林算法的上市公司财务舞弊分析.pdf

上传人:自信****多点 文档编号:649565 上传时间:2024-01-23 格式:PDF 页数:5 大小:946.19KB
下载 相关 举报
基于随机森林算法的上市公司财务舞弊分析.pdf_第1页
第1页 / 共5页
基于随机森林算法的上市公司财务舞弊分析.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期 年 月 西安文理学院学报(自然科学版)()文章编号:()基于随机森林算法的上市公司财务舞弊分析吕 艳(皖西学院 财务处安徽 六安)摘 要:针对上市公司财务舞弊现象严重传统方法难以识别发现的问题提出基于随机森林算法的机器学习方法进行识别和辨认.利用网络爬虫爬取的东方财富网上市公司财务数据建立随机森林模型来识别上市公司的腐败现象.挖掘信用信息从中提取出有价值的信息并生成新的特征通过递归特征消除方法保留有意义的特征并用训练集构建随机森林模型用测试集评估模型性能.实证结果表明随机森林模型具有更高的准确率并对结果进行了分析预测并给出结论.关键词:舞弊行为的管理模型识别随机森林中图分类号:.

2、文献标志码:():.:随着信息技术的飞速发展数据挖掘技术在金融方面的应用越发的广泛其优越性也得到了凸显.企业发生的舞弊行为与财务指标的异常变动之间存在着非常强的关系和联动性不管上市企业公司对舞弊的手法做出了什么样的改革和创新舞弊的结果最后也都是会在其财务指标上得到体现.通过采用随机森林模式可制定出相关的评估模型通过各模型之间的比较可以从精度和准确率方面进行预测.在众多模型中确定最佳预警模型并以此作为上市公司在信用风险方面的控制手段具有较强的泛化和综合分析能力、良好的预测性能和相对稳定功能.收稿日期:作者简介:吕 艳()女安徽六安人皖西学院财务处会计师主要从事事业单位会计实务操作研究.数据来源从

3、东方财富网的数据中心中找到所需的数据使用基于 的网络爬虫技术将所需的 到 年的上市公司财务报表数据下载下来作为样本数据进行分析.调查样本有 年中国证券监督管理委员会、上海证券交易所、财政部等其他证券管理机构公开警告受到相关行政处罚的中国 股多家上市有限公司并通过国际分析成果结合法与国泰安作为 控股上市有限公司的国际研究成果数据库共同研究制定.通过国泰安的公示名单确定舞弊公司的样本.为了分辨出其中的欺诈项和非欺诈项对其进行一定的处理.将非欺诈样本离散化然后与欺诈样本混合.运用 中的封装模型进行样本的配对通过对资产负债表中的数据进行处理.识别模型构建与识别.模型构建构建随机森林模型首先要通过原始数

4、据再抽样构建多个训练集随机森林采用的套袋法即依据均匀分布对原始数据进行有放回的重复抽样其基本过程如下:设 为子训练集的数目有放回地选出一个大小与原始数据一样的子训练集 在子训练集 上训练一个基分类器.训练完所有的子训练集后被测试的样本被赋值给得票最高的类如公式()所示.()()()由于抽样过程是有放回抽样所以有些训练样本可能在同一个子训练集中出现多次有些训练样本被忽视也是可能的.假设原始数据集有 个样本在第 次抽样中某个样本被抽到的可能性为/那么每一个样本被抽到某个子数据集 的概率为 (/)当 趋向于无穷大时这个概率收敛于/约等于.即有.的原始数据不会被抽到没有参与模型的训练过程这些数据被称为

5、袋外数据().因此在使用随机森林时可以不划分测试集和训练集直接用袋外数据来测试模型即可.与其他集成模型相比随机森林算法不容易出现过拟合当决策树的数量足够大时随机森林的泛化误差是有上界的如公式()所示其中 是泛化误差 是基分类器之间的平均相关性程度 是一组分类器的平均强度该强度可以用组合器正确分类的概率与最大误分类概率之差度量.()/()图 数据特征选择逻辑视图.包装式特征选择方法特征选择就是通过子集搜索算法和评价函数选出评价结果最优的特征子集的过程.作为数据预处理的重要策略之一特征选择可以剔除可能导致模型的预测准确率下降以及过拟合的冗余特征和无关特征降低模型训练难度.常见的特征选择方法有以下三

6、种:嵌入式()、包装式()和过滤式().其中嵌入式方法先进行组合分类器的模型训练再根据从训练模型中得到的各个特征权重排序选择最优的特征集合.该特征选择过程和组合分类器的模型训练过程融为一体过滤式特征选择依据评价函数度量各个特征的相关性、距离、信息增益和一致性选出最佳的特征子集该过程独立于生成决策树的递归算法(即独立于模型训练过程)因此计算量较小数据特征选择逻辑视图如图 所示.西安文理学院学报(自然科学版)第 卷而包装式采用的评价函数是分类器的性能指标如预测准确率、召回率因此包装式特征选择的优势在于它能为针对某种给定分类器的性能选择最优特征子集但是计算量会远远大于过滤式方法.本文所采用的特征选择

7、方法是一种基于包装式的递归特征消除法()该方法首先进行多轮模型训练每轮训练结束后那些拥有最小权重的特征被丢弃再对新的特征集合进行相同的处理直到递归后剩余的特征数量达到所设置的参数.图 随机森林的验证得分折线图.模型评估对于分类问题模型的性能评估是不可缺少的一环.为了评估模型的泛化能力通常要将数据集拆分为训练集和测试集.训练集用来训练模型测试集用来测试模型分类的能力.而在分训练集和测试集时不同的拆分比例会产生不同的结果.交叉验证法可以实现在不同的训练集和测试集上模型性能的稳定性.其划分流程通常是先将原始数据集分为 份互斥子集依次取每一份作为测试集然后剩下的 份作为训练集再进行多次训练来观测模型的

8、稳定性.为了更直观的得到随机森林的分类性能图 显示了十次交叉验证下使用 的 包自带的数据集 进行训练的随机森林的交叉验证得分折线图.可以明显地看到随机森林的交叉验证得分在 至 之间波动决策能力较好.对于模型的评估除了需要划分测试集和训练集之外还需要一些性能评估指标这些指标多数是以混淆矩阵为依据的.如表 所示混淆矩阵通过分类算法预测的类别和样本真实的类别结合得到.表示预测和实际都是正例的样本数量 是预测为反例实际是正例的样本数量 是实际为反例预测为正例的样本数量 将实际为反例预测也是反例的样本数量称为真反例.基于混淆矩阵可以得到如表 所示的几种评估指标.表 混淆矩阵实际情况预测情况正例反例正例(

9、真正例)(假反例)反例(假正例)(真反例)表 评估指标评估指标定义说明准确率()分类正确的样本数占总样本数的比例精度()预测正确的正样本数占总预测正样本数比例召回率()预测正确的正例占总样本数的比例 精度和召回率的调和中项 模型结果分析.基于随机森林的财务指标特征分析随机森林中节点可通过进行 决策树计算来直接进行各个划分节点的纯度分裂采用 作为输出分数的综合指标该指标是一种进入输出分数具有很高的综合性其指标第 期吕艳.基于随机森林算法的上市公司财务舞弊分析在分析能力上有更高的效率.在重要程度方面看同样高数值代表越高程度也就相对越高.具体数据得分表如表 所示.表 数据得分表财务指标得分财务指标得

10、分净资产收益率.固定资产周转率.总资产收益率.总资产周转率.销售净利率.资产质量.流动比率.营业收入增长比.速动比率.总资产增长率.利息保障倍数.利润总额增长率.资产负债率.企业自由现金流.财务杠杆.每股经营活动现金 流量净额.应收账款周转率.经营活动产生的现金.存货周转率.流量净额/流动负债.初选财务指标结束后分析后得出的结果指向平稳.极端值暂未显示 在.之间波动.这表明该数据的科学性和可靠性极强在波动性方面解释力度并不高.所有具有高解释力度的数据依照排名可看出:()偿债能力指标:利息保障倍数、资产负债率()盈利能力指标:净资产与总资产收益率()成长能力指标:营业增长收入比、总资产与利润总额

11、增长率.当.范围为 摆动空间在分数差别上其余 分数差异度并不算是过高.此时其基本范围是.通过上述描述可以印证舞弊因素同样结果也可以间接反映公众社会与投资相关利益者衡量公司实力的标准及心理衡量公司的盈利能力会被首先纳入到考虑因素中去.当具有 配股等动机时公司往往大力粉饰自身的盈利能力以达到融资渠道拓展的目的进而夺得广大群众的更多关注方便达成最终利益目标.为了准确衡量公司的盈利能力以及水平其资产收益率是最佳的参考因素它会直接显示该公司在行业排名中的地位同时影响着上市公司面临的舞弊风险这些是其作为重要参考因素的有利证据.此外企业的健康生存是偿债能力的决定条件和反映因素每一家企业的潜力与前景都是其成长

12、能力的直观体现在衡量企业地位的同时上述两种因素必须考虑在内.模型的结果分析通过上市公司舞弊数据与配对样本随机抽去其中的 作为训练样本剩余的 数据作为测试样本.训练样本的识别率代表模型的学习效果测试样本的识别率代表模型的判别效果.本舞弊风险识别模型判别结果见表 和 通过表格中训练样本的测试结果证明本模型在舞弊风险识别上具有较好的判别效果.表 训练样本预测结果公司类型舞弊非舞弊正确率公司类型舞弊非舞弊.整体正确率.(下转第 页)西安文理学院学报(自然科学版)第 卷大的帮助全家便利店以此不断地提高绿色供应链的管理水平促进其企业的长远、绿色发展.结语本文所构建的绿色供应链绩效评价指标体系可以广泛的适用

13、于同类型企业的供应链绩效评价通过平衡计分卡和 模型利用 中的 模型和 模型进行相关的计算并对绿色供应链进行了绩效评价从理论和实践上提出了改善绿色供应链绩效的方法并提出对其进行绩效评价的措施.对全家便利店的研究能够由小及大从特殊到一般为同类型的绿色供应链绩效评价研究做出示范其改进措施也可供同类型的企业参考.参 考 文 献 刘玲张新洁夏露等.企业绿色供应链运营绩效评价研究.物流科技():.施彦.物流企业绿色供应链绩效评价研究 基于 模糊综合评价法.陕西开放大学学报():.张宇俊.棉纺织品绿色供应链的绿色度评价及应用研究.上海:东华大学.姜明君.绿色供应链创新投入决策模型及协调策略研究.哈尔滨:哈尔

14、滨理工大学.江世英王春波.药品行业绿色供应链绩效指标体系研究.中国药房():.责任编辑 王新奇(上接第 页)表 测试样本预测结果公司类型舞弊非舞弊正确率公司类型舞弊.非舞弊.整体正确率.结语通过上市公司舞弊数据与配对样本作为研究样本从利润率、现金流量和资产负债情况等维度选择指标作为研究体系采用随机森林原理进行指标特征分析与选择建立随机森林模型来识别上市公司的腐败现象.通过挖掘信用信息从中提取出有价值的信息并生成新的特征通过递归特征消除方法保留有意义的特征并用训练集构建随机森林模型用测试集评估模型性能有较好的识别效果.参 考 文 献 陈玲.基于“存贷双高”视角的上市公司财务舞弊分析 以 公司为例.商场现代化():.陈冠宇杨鹏陈宁.基于随机森林算法的船舶电站故障诊断.船舶工程():.饶强.基于随机森林算法的通信网络安全风险评估方法.自动化与仪器仪表():.廖旻韩啸傅云浩.基于随机森林算法的电网线损策略分析.集成电路应用():.王谦管河山.上市公司财务舞弊数据挖掘:基于时间维度的分析.行政事业资产与财务():.潘梦雪.基于随机森林的上市公司舞弊风险识别模型研究.杭州:杭州电子科技大学.责任编辑 王新奇第 期魏丽.基于 的绿色供应链绩效评价指标体系研究

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服