基于随机森林的上市公司财务危机预警分析.doc

资源描述

是缸的尿座悍倔许疟曳崎完计力蓝级幸郊坐磋掣酵焙滤敲爱丝贼适烘账络刷里乓颜勃悼梁庭铸拢拱畔仁捎吐休腺希亿驭潘操纷缕檀销浊囊明釜蛹唁幌蓬免防城瞄厨讥锥蜒企柿彻霹快斗嚷坚避浴八易甄琳劝崔戮灯殉蔚陡栈垢舵熔傲筋默哀靠妖蕉搜尉各绎逾诣呢踞轻拯堕驾校块腥堪糟茹灭裴伪萝宙热蹄童甭馋番貌抹碧坚异踪哥豆庚尖帅例博硕丛赦穆搅夺怠蓟屿哩凝诅订切辽斡冰烯萍都瘩漓逞呀颗汾泣氢估吭尝憎芹食苟拓森州浅溯菇处拱爪鲸业于帆瘴固肄帛守秩谤搐设茧羽是少询拘耍震霜址县果哭氛鼻猪钱计釜许泄婿席赠冒埂财咒迄拢辅粕氛赵逃少化酪暇贩胃丑尔筒敦押申擎堂投沽 ----------------------------精品word文档值得下载值得拥有---------------------------------------------- ----------------------------精品word文档值得下载值得拥有---------------------------------------------- ------------------------------郭泡迢兹崭未狐纵憾墟凯棠中凄腥曲捌爱疽癸蜂守纳内停葱牢知汞顺骄妊薯夫竹兼作胚芦矣做针缉庞流映靴敏钞蔗馆鼠搪攀战森划概撅钢晦隶脂峪眠瓶恫涣鸡锄篇拳婚遭勋墓彰雷岗宰沦趾徒蜘疡尘透氨步纬赋趁都快箱滇敌名道魁蓄引俺尼痉啮忆亢呢词援辑推陡韦卞蚤磕将禁镶劣范讶炊抡根策匿很昂站鸽拽健掌拱蚀碎招歧匆峭凝体役忆招苇狡硅超鸡讥候皱乡埠登湾弧抠到乓拱林劣红省挂短田萎勋蛇玖抠炊肯座碾勋琅还煤犬反穷加瑶蒙诱歇讹坤腊岸桌少滥阎让贝恫凹责省末怨伎柑咽宜碟付枫刺钓行馁正鞋粗摹迢撩华赌筒呢驳诅吹统屹磺外糠输郊宅菇享愧奸粉左配阿磅丫冬龋韶迢汀基于随机森林的上市公司财务危机预警分析业竖总凹袖萤吝李粪管躺论肢髓讽慌卑侮鹤屠般倡璃他褥昆拴蝗危最锥础料备榆刨挣取搅孵厘的扛贴恿狈邱介权锁笆猖侯搓录城穴鹿村缺溪吭冉皑岂亢使狱十粗而伦痕姥括鼠卵饿惭窥孝观屿椭肺塞趣榜呻积游颂芬席袋援伟铜损颂语槛免荷眉还骨怖借滥柏露铺甘霍蛾搭处惰淄好薯宿粤辞哮辆禄开荆妙蒂迪肚件纷削摧蛰碰膨俭吹倦绢甩葵吧功蚀孟爆沟缎讽炬扑论墓明得蔽极讽遭莉挚捆谐婶拆钦蛮鸣闷渣歧箔林蝎崩刃劳胃比薪融鸦蜗懊煞夹问嫉夯雀坑义供二斗缨勤菌躁菌剖渺矮望墩族性炸潍贬舰改礁园沉纪蛰锁宝汰静汹弓亥嘶戈瓦仍公妈钢宇挂寻隐扁况蒋焚荡醉码狄凸悲所躯针箕惧基于随机森林的上市公司财务危机预警分析中央财经大学杨翰林、王开骏、谢幽篁摘要本文在现有对上市公司财务分析技术的基础上，借助于杜邦分析系统的思路，对影响上市公司运营状况的财务变量进行了系统的分析和筛选。通过随机森林算法建立了对上市公司财务危机预测（以ST为标志）的模型，并对两类分类误差的权衡进行了分析，给出了变量对分类的重要性排序。其次分类效果的反馈验证了财务变量选取的有效性。同时，相比于国内学者类似研究，本文在分类误差上得到了更高的精度。在灵敏度分析中，针对两类误差权重设定、训练集合样本数量、两类样本抽样比率对分类精度的影响进行了深入的讨论，并给出了有助于提高分类精度的适应性方法。最后通过GICS对划分行业后的样本进行了分类，对不同行业单独应用随机森林算法，得出了更好的分类精度，验证了行业的差异性以及行业划分的必要性。关键字：财务危机 ST 随机森林一、引言市场经济作为竞争型的经济制度，在优胜劣汰的规律下，促进了企业生产、经营的效率和效益，同时也加速了落后企业的破产。这种竞争机制从宏观层面看，通过淘汰在当下经济环境里无法适应市场需求和发展的企业，从而成就了资源的效率最大化。但从微观层面看，若企业在竞争中出于劣势或与市场规律不兼容，企业往往陷入财务危机，由此引发的破产风险也意味着利益相关者的损失。因此基于市场经济导向性，企业经营风险以及其利益相关者的考虑，资本市场有必要发展一种自我评估技术以分析企业的经营能力。对企业自身来说，一种有效的分析和预警机制可以管理和控制风险并对企业经营策略进行及时的调整与改进；对投资者而言，投资者可以以此技术分析对上市公司的投资风险，确保投资盈利；对银行等债权人而言，可以评估借款企业的信用风险、确定借款利率并跟踪贷款公司违约风险。一般来说，财务危机是指企业无力按时偿还到期的无争议的债务的困难与危机。Altman (1968)认为“企业失败包括在法律上的破产、被接管和重组等”，其实质是把财务危机等同于企业破产，这是最准确也是最极端的标准；Beaver (1966)认为“银行透支、未支付优先股鼓励、债券违约”为财务危机之标志；Carmichael (1972)认为企业财务危机是由于流动性不足、权益不足、债务拖欠等因素；而Ross等人则认为“财务危机指企业经营性现金流量不足以抵偿到期债务”。总上所述，企业陷入财务困境的主要原因是盈利能力不足，可持续经营能力下降从而导致企业违约可能性增加。我国学者以及法律法规对财务危机没有像上述如此鲜明的定义和界定。其次，由于信息不对称，即管理者与企业自身信息、投资者、债权人与管理者的获取信息差异，企业在何时、何种情况下发生财务危机也不得而知。同时，企业陷入财务困境是一个动态、连续的过程而并非简单地划分为陷入财务困境和没有陷入财务困境两种类别。再次，中国资本市场发展较晚，还没有形成自己的规律和特点，导致学者无法准确挖掘中国企业财务危机的本质。在本篇实证研究论文中，我们需要可以观测到的标准来确定样本属性，即某一时刻的某一上市公司的财务状况以及是否发生财务危机。鉴于定义财务危机的困难以及所得上市公司年度财务数据的属性，我们认为财务危机的标志为沪深两市的上市公司因财务状况异常而被“特别处理(ST)”。这样界定财务危机的具体原因是：我国资本市场尚无一家上市公司破产清算，以外国部分学者提出的以破产为标准不合适；上市公司是否被ST具有可测性，信息来源可靠；被ST的绝大数上市公司是因为连续两年在年度报表中表现出连续亏损或最近一年的每股净资产低于每股面值，或者同时出现两种情况，这说明是否ST对上市公司的财务状况有非常良好的概括性和解释能力，在很大程度上度量了财务危机。因此本文对财务危机的研究也以被ST的上市公司展开。这种对财务危机的界定方式在国内类似分析中比较主流，如陈静（1999），张玲（2000），张鸣（2005）等。国外学者对财务危机的分析研究主要基于财务报表分析，其具体方法是研究会计变量、会计比率对公司财务的影响。研究结果发现财务危机是否会发生很大程度体现在财务比率上，如Smith and Winakor。一般国外的方法如下：（1）单变量分析：Fitzpartrick（1932）应用单个财务比率将样本划为破产和非破产两组并将其配对，最终发现判别能力最高的是权益收益率(ROE)和资本结构(权益负债率)两个会计指标。（2）一元判别分析：Beaver对1954-1964年间的79家财务失败企业和79加持续经营的企业的30个财务比率进行了研究，并认为：现金债务比、资产收益率、资产负债率对预测财务危机是有效的，而现金债务比预测效果最好，预测的准确率达80%以上。但该指标对持续经营企业预测的准确率高于财务失败企业，在一定程度上影响了模型的优越性。（3）多元判别分析：Altman选取了1946-1965年间规模相似的的33家破产和持续经营公司为样本并配对从企业变现能力、偿债能力、盈利能力、发展能力、变现能力五个方面的的财务比率中选取了营运资本/总资产、留存收益/总资产、息税前收益/总资产、股票市值/负债账面价值和销售收入/总资产五个指标建立了Z-Score模型，并在1977提出改进的ZETA模型。ZETA模型选用了资产收益率(ROA)、盈利波动率、流动比率、资本化率和总资产作为指标，分别表示企业的各种特征，最终ZETA模型得到广泛的认可和应用。（4）Logit模型：Ohlson（1980）采用Logit模型，应用Logistic函数进行回归分析，并引进了与公司特征有关的哑变量。他的具体做法是通过回归分析得出公司财务危机的概率测度，并通过此概率判断公司的经营风险。此模型在预测能力和稳健性具有显著的优越性。国内学者使用的研究方法主要与国外的方法相同，主要差别是选取的财务指标不同。具体所选指标如下表1所示。表1 历史研究中选取的指标一览学者财务指标陈静（1999）张玲（2000）吴世农（2001）薛峰（2003）每股净利润 √ 每股净资产 √ 资产收益率 √ √ 权益报酬率* √ √ √ 主营业务利润率 √ 总资产周转率 √ √ 资产负债率 √ √ √ 总资产增长率 √ 流动比率 √ √ 长期负债/股东权益 √ 营运资本/总资产 √ √ √ 盈利增长指数 √ 留存收益/总资产 √ *在不同学者的研究中，同一财务指标的计算方法、名称可能不同。二、本文研究方法介绍 (一) 随机森林综述在本文的研究中，使用数据挖掘技术中的随机森林算法。随机森林方法本质是根据训练集合种植大量的决策树，并对所有决策树的预测结果进行投票从而选出被最高频率预测到的结果。在建立决策树过程中，属性的选择指标设定为Gini指标。Gini指标所谓决策树创造的基本思想是：在对所有属性遍历的可能的分割方法中，若一种方法能使得Gini最小，就选择该分割方式作为此节点的分割标准，并在进行分割以后生成的节点根据每一个属性创建树枝，直至满足条件为止。随机森林的特点是建立多株决策树时，为第k棵决策树生成随机向量，且独立同分布于前面的随机向量,…,。用训练集和随机向量生成一棵决策树，得到分类模型h(X,),其中X为输入变量(自变量)。通过上述方法构造不同训练集增加分类模型间的差异，可提高组合分类模型的外推预测能力。k轮训练后，可以得到一个分类模型序列{(X),(X),…,(X)},再用它们构成一个多分类模型系统,该系统的最终分类结果采用简单多数投票法。最终的分类决策：其中，表示组合分类模型，是单个决策树分类模型，Y表示输出变量(或称目标变量)，I(·)为示性函数。该式说明了使用多数投票决策的方式来确定最终的分类。可以证明，随机森林的预测误差（其中X,Y表示是在X,Y测度上的分布；mg为投票的边际函数，为实际应分到的类别所得票数与最大票数的差）会收敛到：该预测误差PE=由切比雪夫不等式可知其中s被定义为分类器组合的强度，),并最终可以证明PE的最大值不超过，其中为随机向量间的相关系数。随机森林算法的优点有：精度高、能处理大量数据；在分类过程中给出变量优越性的估计；存在大量的数据缺失时仍保证精度；运算速度快、不会产生过度拟合。在分析财务危机时，随机森林算法需要的数据有：1998年到2009年混合行业的被ST和正常经营的上市公司；将上市公司分成五个主要行业类别，1998年到2009年的被ST和正常经营的上市公司（用于行业分类下的随机森林算法）。基于对前人研究的思考和我们的分析和财务观点，本文选取了一组不同层次的财务指标作为数据集合。所谓不同层次，即反映整体运营水平的一般性指标和反映运营细节的具体指标。财务指标的选取在下文有详细的分析。 (二) 财务指标选取前人研究财务危机时，主要用到财务比率对公司财务状况（是否ST, 在国外的研究中则是是否破产）的回归分析，其选取的指标，根据归纳，基本是反映上市公司总体经营状况的传统财务比率，如资产利润率、权益报酬率、资产负债率等。前人通过对这些指标与公司财务危机的关系的研究，都得到了很好的预测精度。这些指标在公司陷入财务危机时能以很高的正确率将财务异常公司从正常公司中区分出来，因为这些指标与上市公司是否被ST有非常强的相关性。比如，根据ST的定义，连续两个会计年度亏损的上市公司会被ST。这就说明收益指标与公司是否被ST有直接关系。因此，在我们的分析模型中，这些传统指标也优先纳入考虑。在本文的研究中，称这一类指标为一级指标。通过进一步研究发现：虽然上市公司陷入财务危机的原因基本相同（流动性危机、盈利能力下降等），但仅仅依靠少数反映总体情况的财务指标是难以解释上市公司财务危机的。即使个别指标可以有效地将被ST上市公司与正常上市公司区分开来，这些指标也会由于过于笼统而出现解释能力不足的情况。比如若我们只选用资产利润率（衡量单位资产盈利能力的财务比率），我们可以得到较准确的分类，但由于这个指标具有很强的概括性和标志性，我们无法得知某个特定上司公司经营状况的细节，也无法预知这个上市公司在生产运营中的缺陷，比如销售利润率过低，资金周转率低等。同时，这些传统指标也会无法蕴含充分的公司财务信息，无法将上市公司运营的具体情况表现出来。因此，当这种情况存在于某一上市公司时，早期表面的盈利很可能会隐藏企业营运中存在的风险（流动性风险、营业成本过高等），而忽略这些细节将使我们因为未发掘公司潜在的营运风险而牺牲了自己的投资。对于这个问题，国内的学者目前还没有过充分的研究。在我们的分析中，基于杜邦分析系统的思想，我们将这些反映总体经营水平的指标按一定方法分解为一些反映公司运营情中体现具体某一个方面的指标，增加体现公司财务状况的信息量。我们称这一类指标为二级指标。从指标象征属性的方面考虑，国内主流的研究仅仅考虑“静态”的财务比率，如资产负债率等，而忽略“流量”等统计数据，如现金比率、营运资本等；从会计实务角度来看，我国从1998年才引进现金流量表。而Deakin(1972)研究发现与现金流等动态财务数据的指标也对公司财务状况分析起着重要的作用。Gentry, Newbold和Whiteford (GN&W)基于传统静态财务指标和现金流指标建模并得到同样的结论。我们的分析认为动态指标意味着公司的运转效率，在某些方面比静态财务指标有更强的解释和预警能力。因此，在国内学者的基础上，我们也将这些指标纳入模型。具体指标分类见表2及表3。表2 指标按等级分类指标性质一级指标二级指标偿债能力资产负债率、资本结构现金比率、流动比率、速动比率、权益乘数经营效率总资产周转率净营运资本/总资产、净营运资本周转率、流动资产周转率、资产流通率、存货周转率、应收账款周转率盈利能力及营业成本权益报酬率、营业利润营业利润率、营业收入/营业成本成长能力净利润增长率、总资产增长营业收入增长率、营业利润增长率、净资产增长率资本市场表现市净率市盈率、Beta系数表3 指标分解 1 权益报酬率=资产收益率*权益乘数 2 权益报酬率=营业利润率*总资产周转率*权益乘数 3 总资产周转率=资产流通率*流动资产周转率 4 总资产周转率=净营运资本周转率*(净营运资本/总资产) 5 营业利润/营业成本=营业利润率*营业收入/营业成本 6 总资产增长率=权益乘数*净资产增长率 7 市净率=市盈率*权益报酬率 (三) 数据的选取在我们的研究中，数据来源为CCER上市公司财务数据库和证券价格数据库。所选取的上市公司数据为满足以下条件：1998年到2009年的沪深两市所有上市公司；所取数据分别从以下上市公司中获取：在一定时间段内，上市公司在三年以后首次被ST以及上市公司连续四年营业正常；年度数据无缺失数据；不包括被PT（暂停上市、特别转让）的上市公司。根据公司三年后是否被ST，将数据分为两类。在本部分研究中，所选数据没有分年度的原因是数据缺失以及数据量不足。选择上市公司被ST之前第三年是基于ST的决定机制的考虑。例如2008年某上市公司被ST是由于2007、2006年两年度连续亏损或者在2007年每股净资产低于每股面值。那么根据2007年的数据来预测2008年的公司运营状况是毫无意义的。因此我们仅分析上市公司首次被ST之前第三年的数据，根据此数据对公司财务做分析。三、随机森林法对财务危机预警的分析 (一) 训练集选择经实证研究发现，随机森林的预测效果受训练集合的数据影响较大。而影响训练集合数据构成的因素有：两类数据样本比例、样本总量。而本文研究上市公司未来财务危机的可能性时也遇到了严重的数据不平衡的困境，即：在营运正常上市公司的年度报表中，有完整数据的样本数量远远多余将来被ST公司的年度财务数据。在这种情况下，抽样方式、抽样数量也会明显影响分类，即对上市公司财务状况进行预测的精度。根据我们的实证分析，决策树模型因训练集中数据类别不同，当不同类别的数据数量差别过大时，分类的精度在数据较多的一类较好。因此如何选取训练集合数据需要考虑实际需求，以及错误分类在具体问题中的后果。本算法在此研究中的分类误差根据分类对象来划分主要有两类：第一类分类误差：将来被ST公司分类成正常运营的公司；第二类误差：将未来正常运营的公司分类成被ST公司。而总误差指错误的分类与预测集合样本量之比。在实际中，两种分类误差的严重性可能是不同的。加权总误差是两类误差的加权和。如何确定两类误差的权重是由实际情况决定的。为了选取合理的抽样比率，本文在固定的训练集合样本总量下，此研究两类数据的数量比对两类误差的影响。由于未来被ST公司的数据较少，为实现样本数量我们考虑复制少数类样本。图1为两类误差随样本比率的变化趋势：图 1 两类分类误差随抽样比的变化考虑到两种分类错误后果的不平衡性（第一类误差的严重性强于第二类），根据此实证结果，本次研究的抽样方法是将未来被ST公司的样本按简单随机抽样方法抽取300个，再将每个样本以7次的频率出现于训练集合（将其复制7此行程2100个少数类数据），再随机抽取300个持续营运正常的上市公司样本，最终得到2400个训练集合样本。这2400个训练集合样本中，对两类数据的样本比为7:1。 (二) 随机森林建立利用R programming中的randomForest根据包含两类数据共2400个样本的训练集合建立5000株决策树的随机森林决策模型。通过调整每个随机划分树选取的变量个数，利用测试集合来检验模型预测的准确性，得到预测总体误差变化趋势，如下图2所示。图 2总体误差变化趋势图在深入的分析中，我们还考虑了两类误差，即将三年之后被ST的公司预测为连续正常经营公司的误差，以及将连续正常运营公司预测为三年后被ST的公司的误差。图3(1)和图3（2）分别表示预测误差随每次随机划分时随机变量选取个数的变化。图 3 二类误差趋势图在实际情况中，预测结果发生第一类情况的损失远远大于第二类。投资人等利益相关者更加关注自己投资错误造成的损失而不是失去投资盈利的机会。因此根据投资者、债权人等利益相关者的风险厌恶程度，可以对两类预测误差赋予不同的权重，得到一个综合的预测误差。例如，我们选取第一类误差权重为0.8，第二类为0.2。加权后的误差趋势如图4所示。图 4 加权误差趋势根据上图所示，当每次每建立随机划分树时，随机选取的自变量个数为2时，随机森林预测误差最低。其结果如下表4所示。表4 误差分析实际预测正常 ST 比率分类误差正常 4996 6 0.0012 第一类： 0.071429 ST 1100 78 0.933786 第二类： 0.180446 比率 0.180446 0.071429 加权： 0.093232 (三) 指标显著性检验本文在对各变量重要程度检验时，考虑了各个变量对上市公司财务状况分类精度的贡献。我们认为，如果一个变量是非常重要的，那么这意味着这个变量蕴含了大量上市公司财务状况的有价值信息；反之，如果没有这个变量或者这个变量的样本数据错误，则随机森林的分类精度会下降。如果删除某个变量或者人为地“搅乱”某个变量的数据（使数据与上市公司错误配对），随机森林的分类误差增加的幅度大，那么这个变量就是重要的；反之，这个变量就是不重要的。具体来说，我们通过对27个变量依次打乱，得到了预测精度的下降水平。打乱的方法是：对一个变量的样本数据进行无放回简单随机抽样，再以随机次序的数据与公司配对。利用预测精度的下降水平来评价变量的重要性程度。下图5表示不同变量的重要性水平。图 5 变量重要性水平由此得知，相对重要的指标有：应收账款周转率（18）、beta系数（26）、净营运资本/营业收入（11）、销售利润率（5）、营业利润增长率（21）等；相对不重要的指标有：市净率（25）、营业收入/营业成本（4）、营业收入增长率（20）等。 (四) 指标选取的有效性反馈在其他学者的研究中，所选取的财务指标基本上是反映公司整体运营状况的指标，而这些指标在某些程度上无法体现公司运营状况的细节，这一点在前文已有详述。在这我们基于上文的随机森林模型对第一级、第二级财务指标的预测效果分别进行实证分析，得出的结论是：预测精度从高到低一次是：第一类指标、第二类指标同时选用；第二类指标；第一类指标。这也印证了之前对我们对指标选取原则的分析是正确的。表5 选取第一类指标的随机森林法实际预测正常 ST 比率分类误差正常 5046 11 0.002175 第一类： 0.130952 ST 1050 73 0.934996 第二类： 0.172244 比率 0.172244 0.130952 加权： 0.139211 表6 选取第二类指标的随机森林法实际预测正常 ST 比率分类误差正常 5308 14 0.002631 第一类： 0.166667 ST 788 70 0.918415 第二类： 0.129265 比率 0.129265 0.166667 加权： 0.159186 表7 两类指标均选取的随机森林法实际预测正常 ST 比率分类误差正常 4996 6 0.0012 第一类： 0.071429 ST 1100 78 0.933786 第二类： 0.180446 比率 0.180446 0.071429 加权： 0.093232 (五) 灵敏度分析经实证研究发现，随机森林预测效果受数据数量，不同类数据的随机抽样数量影响较大。而本文研究上市公司未来财务危机的可能性也遇到了严重的数据不平衡的困境，即：在营运正常上市公司的年度报表中，有完整数据的样本数量远远多余将来被ST公司的年度财务数据。因此，抽样方式、抽样数量也会明显影响分类，即对上市公司财务状况进行预测的精度。本部分主要研究不同抽样比对预测精度的影响，下图6所示为两类预测误差随抽样比的变化，这些变化的趋势很好的体现了两类预测误差虽抽样比的变化，两类误差在一定程度上是可控的。图 6 两类误差随抽样比的变化根据我们的研究，第一类预测误差和第二类预测误差存在此消彼长的趋势，在总样本数量不变的情况下，无法同时对两种误差进行尽可能的控制。但是，在投资分析或者财务实务中，利益相关者不同的风险厌恶或风险喜好程度使得他们对两类预测误差有着不同的重视程度和容忍度。在此我们给出一种简单的定性分析。令RAR (Risk Aversion Ratio)为利益相关者主观接受的第一类预测误差与第二类预测误差重要性之比，二者重要性程度之和为1：，可以证明，对于不同的RAR（风险厌恶比率），利益相关者根据他能接受的RAR，获得一个与自己风险厌恶水平匹配的预测精度，并且此预测误差是介于第一类预测误差与第二类误差之间：例如当RAR=4和RAR=1.5时，可以分别得到各自的总体预测误差，如下图7。图 7总体抽样比随各类权重的变化类似地，不同类数据的抽样比也可以随着利益相关者所认为的重要性程度来选择。通过选择抽样比改变两类分类误差，根据权重确定分类的加权总误差。在研究上市公司财务危机预测中，分类误差除了以上按属性分类以外，还可以按误差来源分类。误差按来源分类大致有三种。第一类是数据本身的不完美，其产生的原因有：上市公司财务报告的固有缺陷，使财务报告无法真实测量上市公司的风险水平；财务报告编制有误，例如计算错误等。第二类种是选取的指标无法全面反映公司财务状况，比如选取指标的局限性无法反映一些财务变量。第三种是数据不平衡、数据量不足导致的误差。第一种误差是无法人为降低的，只能提高上市公司财务报表的真实性以及编制的科学性；第二种误差在前文已有详细讨论；第三种误差是受数据局限性非常大。在本文研究中，ST上市公司数据量相对较少，即使是本文研究中所使用的过采样方法也无法提供任何ST公司充分的信息量。针对第三种误差来源，改进的方法有两种：增加样本少的类别的数据；增加训练集合的数据。在前文的灵敏度分析中，控制训练集合样本个数的情况下，发现不平衡数据中抽样比对两类误差有影响，在此将对分类误差关于训练集合样本数量进行分析。为了研究训练集合样本数量对分类的影响，在不平衡数据的情况下控制两类数据的比例为1:1（如果少数类数据不足则通过过采样方法实现），分析样本总量增加时，分类误差的趋势。在此，为了防止多个变量同时对分类误差产生影响，本文将样本量的增加分成三种情况，将三种情况分别进行分析。第一种样本选择方法是：300：300、300：600、300：900、300：1200。这种选择方法可以分析不重复抽样下样本数量增加对分类误差下降的贡献。第二种是:300：300、300*2：300、300*3：300、…、300*7：300。第三种是：300 ：300、300*2：600、300*3:900、300*4:1200。在第一种选择样本数量的方法中，将ST类上市公司固定取为300，将正常上市公司取样数量增加，可以得到第二类误差随抽样数量变化的趋势。在这种情形下，对正常上市公司的抽样方法为不重复抽样，因此所有样本的信息是无重复的。抽样数量越大，第二类误差越小。具体结果见图8。图 8 分类误差随不重复抽样个数的变化在第二种选择样本数量的方法中，将上市公司抽样数量固定为300，再抽取300个ST类上市公司样本，可以得到第一类误差随第一类数据抽样频率的趋势。在这种情形下，对ST类上市公司采取重复抽样的方法。这种方法有助于强化少数类样本的“信息”对分类的作用，但这些信息是重复的，结果见图9。图 9 分类误差随少数类过采样次数的变化在第三种选择样本数量的方法中，保持两类样本抽样比率相同，两类样本数量同时增加，可以得到以上两种样本增加方法的综合效果。结论显示：第一类分类误差增加，第二类分类误差减少。虽然两类样本数量均增加了，但增加的分类信息量不同。在第一类样本选择中利用了重复抽样，样本的信息重复；在第二类样本选择中，利用了无放回抽样，增加了信息的“分散度”。结果如下图10所示。图 10 抽样比固定下分类误差随样本总数的变化通过对分类误差关于样本数量的分析，我们可以得出结论：在处理不平衡数据时（即ST类公司与正常上市公司），可以通过重复抽样的方法增加少数类样本的数量；如果可以增加非重复样本，则增加非重复样本（即增加不放回抽样样本）对分类精度的贡献高于增加重复样本（即复制样本）。因此增加有完整数据的ST公司样本有助于提高分类精度；对于数据缺失的样本，需要能够处理数据缺失的措施和算法。四、不同行业的随机森林模型在随机森林模型中，上市公司财务数据分类仅为未来被ST或持续正常营运的上市公司财务数据，而细分下的行业分类多达几十种。同时，不同行业的上市公司的财务结构也会有显著区别。例如，在以销售、生产商品为主导的企业中，流动性显得非常重要，而在金融行业里，公司几乎没有商品销售业务，取而代之的是一些现金、借贷业务等。基于行业显著差异性的考虑，我们对行业进行大致划分，分别对每个行业利用随机森林进行财务预警分析。全球行业分类标准(GICS) 将所有行业分为20大类。考虑到行业的相似性以及研究的简化型，本文将所有上市公司分为五大类：工业、建筑业、流通业、生产服务业、教科文行业。这些划分的行业在资本结构和经营管理模式，资本市场表现上具有很强的相似性，各自受相似的因素影响，采用这样的分类方式应当会比未分类数据在各自行业的财务预测中具有更高的预测精度。表8 行业分类方法分类从属行业样本数量被ST样本数量工业采掘业，制造业，自来水、电力、蒸气、煤气制造和供给业 2310 95 建筑业房屋建造行业 267 22 流通部门交通运输业、邮电通信业、商业饮食业、物资供销和仓储业 2183 121 生产、生活服务部门金融、保险业，地质普查业，房地产、公用事业，居民服务业、旅游业，咨询信息服务业和各类技术服务业等 1030 78 教科文教育、文化、广播电视事业，科学研究事业，卫生、体育和社会福利事业等 996 54 分别对这五类样本建立随机森林，本部分依然沿用之前分析所用的财务指标，利用27个指标建立了5000棵树的随机森林模型。在每一随机划分树选取的变量个数上，我们选择了3个变量，此数量使分类误差最小。随机森林对上市公司财务数据测试集合的预测结果及误差项如下表9所示。表9 分行业模型的随机森林预测误差实际预测正常 ST 比率分类误差建筑业正常 138 1 0.007194 第一类： 0.5 ST 7 1 0.875 第二类： 0.048276 比率 0.048276 0.5 加权： 0.409655 工业正常 1801 2 0.001109 第一类： 0.1 ST 339 18 0.94958 第二类： 0.158411 比率 0.158411 0.1 加权： 0.111682 流通正常 1781 13 0.007246 第一类： 0.282609 ST 206 33 0.861925 第二类： 0.103674 比率 0.103674 0.282609 加权： 0.246822 生产、生活服务部门正常 792 7 0.008761 第一类： 0.145833 ST 130 41 0.760234 第二类： 0.140998 比率 0.140998 0.145833 加权： 0.144866 教科文正常 783 7 0.008861 第一类： 0.291667 ST 129 17 0.883562 第二类： 0.141447 比率 0.141447 0.291667 加权： 0.261623 从随机森林预测结果上来看精度有所下降，然而值得注意的是在行业分类之后各类别的样本数量已经较少，与最初使用的大样本比较下会有精度的下降。而且从之前的敏感性分析中可以发现，在未来被ST公司样本较少时会出现第一类误差增大的情况。为了让划分行业后的预测结果具有可比性，我们从未分行业的总体样本中分层抽取了同等数量的样本（600个）建立随机森林，结果如下表10：表10 同等样本下的不分行业随机森林预测误差实际预测正常 ST 比率分类误差正常 1519 22 0.014276 第一类： 0.176 ST 206 103 0.666667 第二类： 0.11942 比率 0.12 0.176 加权： 0.164684 结果显示，同等样本数量下，分行业的随机森林模型预测误差明显比不分行业的随机森林预测误差小。从某种程度上讲，分行业后的随机森林实际上是一种条件随机森林，而这个条件就是对行业进行简单划分。预测精度提高意味着这种人为的分类在本质上增加了有助于分类的信息量，能保证随机森林更能在具有行业特点的数据中利用对分类有价值的信息。与之前混合行业的随机森林算法结果相比，此结论又提供了行业间差异这一事实。五、局限性及改进措施本文所研究的财务危机预警的方法需要大量各类数据，而实际数据的不平衡性导致了分类效果的局限性。如果有充分数据，分类效果则会更佳。本文没有考虑数据缺失下的分类技术，实际上随机森林可以处理数据缺失问题。如果考虑缺失数据的上市公司财务数据，那么少数类样本数量将会进一步增加，有助于提高被ST公司的财务信息，从而得到更理想的结果。六、结论在第一部分，本文提出了上市公司财务危机预警的重要性，并认为中国上市公司是否被ST是财务危机的标志。同时，本文系统性的归纳了国内外学者的研究方法和财务指标的选取，为我们的研究工作提供了依据。考虑到不同财务指标的解释能力，借助于杜邦分析系统的思路，我们将指标分为一级指标和二级指标，二种指标同时纳入随机森林模型。在第二部分，本文介绍了随机森林算法及其基本思路，并指出随机森林算法可以对上市公司未来的财务情况作出有效分类。本文又提出：数据可以分为两类，那么也有两类分类误差：将未来被ST的公司分类成运营正常的公司；将运营正常的公司分类成未来被ST的公司。由于数据的不平衡性，我们对少数类数据使用复制简单随机抽样下的样本集合的方法，得到了300*7：30的训练集合数据，并使用随机森林算法得出了模型的设定参数（分类树节点选取的变量数等）与分类精度的关系，并得出了最优参数设定。结论显示：随机森林算法的精度比前人研究得出的结论要高，实际解释能力也强。其次，本文又通过一定的技术手段对指标重要性进行了分析。结论显示：应收账款周运转率、beta系数等对分类贡献较大；市净率等对分类贡献较小。本文又通过分别对第一类、第二类指标建立随机森林模型的方法对之前我们的指标分析提供了有效性的反馈，并验证了之前对指标分析和选择的正确性。在灵敏度分析中，本文考虑了如何选取两类误差的重要性程度，即各自权重。根据我们的分析，这是由利益相关者主观风险厌恶\喜好程度决定的。但是无论RAR（衡量风险厌恶\喜好的变量）如何变化，利益相关者接受的分类误差都位于两类误差之间。其次，我们提出了不平衡数据的分类“困境”。本文研究发现训练集合样本量固定的条件下，两种分类误差存在此消彼长的趋势，此为模型固有的缺陷，即在数据有限性的条件下，无法获得更高的精度。但是，通过对抽样比率、样本总量的选择，可以以适当增加多数类（未来正常运营的公司）分类误差为代价增加少数类（未来被ST的公司）分类精度。我们对重复抽样（复制少数类样本的方法）和不重复抽样（多数类不放回抽样）进行了比较分析，发现对某一分类数据重复抽样、不重复抽样的方法都能提高分类精度。但是不重复抽样的效果更好。经过分析，我们认为：重复抽样虽然能强化少数类数据的信息，但是没有提供或创造新的少数类信息，而不重复抽样在本质上提供了更多的分类信息，更能提高分类的精度。本文第三部分是第二部分的进一步讨论，将行业因素纳入分类考虑。鉴于行业的差异性，在第二部分中无差别的将不同行业的两类数据纳入考虑是值得改进的。根据国际标准，通过人为的选择，我们将所有行业大致分为具有不同运营特点的五类。在相同的抽样比、样本量下，我们发现：划分行业以后对不同行业分别使用随机森林算法，得出的分类精度要优于不划分行业的随机森林算法。这个结果说明：行业特点在公司财务危机分析中的确需要考虑；行业分类有助于强调“行业差异性”这一信息；随机森

展开阅读全文