1、 第3 3卷 第2期 2 0 2 4年3月系 统 管 理 学 报J o u r n a l o f S y s t e m s&M a n a g e m e n tV o l.3 3 N o.2M a r.2 0 2 4 文章编号:1 0 0 5-2 5 4 2(2 0 2 4)0 2-0 4 4 1-1 9收稿日期:2 0 2 3-0 3-1 7 修订日期:2 0 2 3-0 5-1 9 基金项目:国家自然科学基金面上项目(7 2 0 7 1 0 2 6,7 2 1 7 3 0 9 6,7 1 9 7 1 0 5 1,7 1 9 7 1 0 3 4,7 1 8 7 3 1 0 3);国家自
2、然科学基金青年科学基金资助项目(7 1 9 0 1 0 5 5,7 1 9 0 3 0 1 9);国家自然科学基金地区科学基金资助项目(7 2 1 6 1 0 3 3);国家社会科学基金重大项目(1 8 Z D A 0 9 5)作者简介:沈 隆(1 9 9 5-),男,博士生。研究方向为企业信用评价。通信作者:周 颖(1 9 6 6-),女,教授,博士生导师。E-m a i l:z h o u y i n g d l u t.e d u.c n 管理层讨论与分析能预示企业违约吗?基于中国股市的实证分析 沈 隆,周 颖(大连理工大学 经济管理学院,辽宁 大连 1 1 6 0 4 2)【摘要】采用
3、文本挖掘技术,对上市公司年报中的管理层讨论与分析(MD&A)内容进行文本分析,从文本相似度、文本可读性、文本语调以及管理层预期的角度构建了MD&A评价体系。通过构建代价敏感G B D T(c s G B D T)模型,考察多维管理层讨论与分析指标对企业违约预测的影响,并进一步分析了对企业违约状态有重要影响的MD&A指标及其对违约状态作用的边际效应。研究表明:MD&A指标可以作为替代性数据源准确预测上市公司违约状态;MD&A指标相比传统违约预测变量的预测效果较差;MD&A指标在传统违约判别指标基础上提供了额外的信息含量;c s G B D T模型显著提高了对企业(尤其是对违约企业)的判别能力,在
4、违约预测的大数据方法中具有明显优势。在众多管理层讨论与分析指标中,对企业违约有重要影响的MD&A指标依次为:与前一年相比文本相似度、词汇总量、情感语调2、词汇总量/句子数量、情感语调1和管理层是否发出业绩预测。本文将企业违约预测的研究边界从结构化数据拓展到非结构化文本数据,有助于抑制信息不对称导致的企业违约风险。关键词:文本挖掘;管理层讨论与分析;违约预测;代价敏感G B D T;信息不对称 中图分类号:F 2 7 0;F 8 3 2.4 文献标志码:A D O I:1 0.3 9 6 9/j.i s s n 1 0 0 5-2 5 4 2.2 0 2 4.0 2.0 1 2 C a n M
5、a n a g e m e n t D i s c u s s i o n a n d A n a l y s i s P r e d i c t C o r p o r a t e D e f a u l t s?A n E m p i r i c a l A n a l y s i s B a s e d o n t h e C h i n e s e S t o c k M a r k e t SHEN L o n g,ZHO U Y i n g(S c h o o l o f E c o n o m i c s a n d M a n a g e m e n t,D a l i a n
6、 U n i v e r s i t y o f T e c h n o l o g y,D a l i a n 1 1 6 0 2 4,L i a o n i n g,C h i n a)【A b s t r a c t】T h i s p a p e r,b y e m p l o y i n g t e x t m i n i n g t e c h n i q u e s,a n a l y z e s t h e t e x t o f m a n a g e m e n t d i s c u s s i o n a n d a n a l y s i s(MD&A)c o n t
7、 e n t i n a n n u a l r e p o r t s o f l i s t e d c o m p a n i e s a n d c o n s t r u c t s a n MD&A e v a l u a t i o n s y s t e m f r o m t h e p e r s p e c t i v e s o f t e x t s i m i l a r i t y,t e x t r e a d a b i l i t y,t e x t t o n e,a n d m a n a g e m e n t e x p e c t a t i o
8、n s.B y c o n s t r u c t i n g a c o s t-s e n s i t i v e g r a d i e n t b o o s t i n g d e c i s i o n t r e e(c s G B D T)m o d e l,i t e x a m i n e s t h e i m p a c t o f m u l t i d i m e n s i o n a l MD&A i n d i c a t o r s o n c o r p o r a t e d e f a u l t p r e d i c t i o n a n d f
9、 u r t h e r a n a l y z e s t h e MD&A i n d i c a t o r s t h a t h a v e a s i g n i f i c a n t i m p a c t o n c o r p o r a t e d e f a u l t s t a t u s a n d t h e i r m a r g i n a l e f f e c t s o n t h e r o l e o f d e f a u l t s t a t u s.I t i s f o u n d t h a t MD&A i n d i c a t o
10、 r s c a n b e u s e d a s a n a l t e r n a t i v e d a t a s o u r c e t o a c c u r a t e l y p r e d i c t t h e d e f a u l t s t a t u s o f l i s t e d c o m p a n i e s.MD&A i n d i c a t o r s a r e l e s s e f f e c t i v e p r e d i c t o r s c o m p a r e d t o t r a d i t i o n a l d e
11、f a u l t p r e d i c t i o n v a r i a b l e s.MD&A i n d i c a t o r s p r o v i d e a d d i t i o n a l i n f o r m a t i o n c o n t e n t o n t o p o f 4 4 2 系 统 管 理 学 报第3 3卷t r a d i t i o n a l d e f a u l t d i s c r i m i n a t o r s.T h e c s G B D T m o d e l s i g n i f i c a n t l y i m
12、 p r o v e s t h e d i s c r i m i n a t o r y a b i l i t y o f f i r m s(e s p e c i a l l y f o r d e f a u l t e d f i r m s)i n t h e l a r g e s c a l e o f d e f a u l t p r e d i c t i o n d a t a m e t h o d s,w h i c h h a s o b v i o u s a d v a n t a g e s.Am o n g t h e m a n y MD&A i n
13、 d i c a t o r s t h a t h a v e a s i g n i f i c a n t i m p a c t o n c o r p o r a t e d e f a u l t a r e,i n o r d e r,t e x t s i m i l a r i t y c o m p a r e d t o t h e p r e v i o u s y e a r,t o t a l v o c a b u l a r y,s e n t i m e n t t o n e 2,t o t a l v o c a b u l a r y/n u m b e
14、 r o f s e n t e n c e s,s e n t i m e n t t o n e 1 a n d w h e t h e r m a n a g e m e n t h a s i s s u e d a p e r f o r m a n c e f o r e c a s t.T h i s p a p e r e x t e n d s t h e r e s e a r c h b o u n d a r y o f c o r p o r a t e d e f a u l t p r e d i c t i o n f r o m s t r u c t u r
15、 e d d a t a t o u n s t r u c t u r e d t e x t u a l d a t a,w h i c h h e l p s t o c u r b t h e r i s k o f c o r p o r a t e d e f a u l t d u e t o i n f o r m a t i o n a s y mm e t r y.K e y w o r d s:t e x t m i n i n g;m a n a g e m e n t d i s c u s s i o n a n d a n a l y s i s;d e f a
16、u l t p r e d i c t i o n;c o s t-s e n s i t i v e g r a d i e n t b o o s t i n g d e c i s i o n t r e e(G B D T);i n f o r m a t i o n a s y mm e t r y 企业违约预测是在当下时刻推断企业未来时刻发生违 约事件的概 率,与经济和 社会息息 相关。2 0 0 8年,美国次级住房信贷的信用风险引发了金融市场上信用衍生品的投资风险,导致金融危机席卷全球,对全球经济发展产生了重大影响。同时,始于2 0 2 0年的新冠疫情严重冲击了全球经济,引发了严
17、重的企业信用危机。2 0 1 9年1月2 1日,在省部级主要领导干部坚持底线思维、着力防范化解重大风险专题研讨班开班式上,习近平总书记强调,着力防范化解重大风险,保持经济持续健康发展和社会大局稳定,为决胜全面建成小康社会、夺取新时代中国特色社会主义伟大胜利、实现中华民族伟大复兴的中国梦提供坚强保障。因此,构建一个有效稳健的违约预测模型,从而有效控制信用风险,对于缓解疫情造成的企业信用危机,稳定经济的可持续发展具有重要的现实意义和研究价值。管理 层 讨 论 与 分 析(M a n a g e m e n t D i s c u s s i o n a n d A n a l y s i s,MD
18、&A)是上市公司定期财务报告中最重要的内容之一,包含回顾和展望两个部分,是对公司过去经营状况的说明和对未来发展的讨论,有助于投资者和监管机构站在管理层的角度上了解公司经营状况,准确预估公司未来的业绩并规避可能面临的风险。但在信息不对称的情况下,当管理者出现自利、担忧股价、融资成本等问题时,就会出现操纵语调、文本的可读性、相似性下降和错误预期的情形,管理层不断掩盖负面信息,但“纸包不住火”,可能会使得累积的负面信息集中释放而给投资者带来损失,甚至造成系统性风险。因此,加强管理层信息披露有助于降低信息不对称,缓解企业违约风险。为规范上市公司年度报告的编制及信息披露行为,在2 0 2 0年1 1月3
19、日公布的 中共中央关于制定国民经济和社会发展第十四个五年规划和二三五年远景目标的建议 背景下,2 0 2 0年1 2月3 1日上交所和深交所发布退市新规,在新规定中进一步明确了上市公司信息披露质量的要求。2 0 2 1年6月2 8日中国证监会根据修订后的 证券法 上市公司信息披露管理办法 修订了 公开发行证券的公司信息披露内容与格式准则第2号年度报告的内容与格式(以下简称“年报格式准则”)。该准则第3节明确对MD&A部分做出相关要求,明确指出“公司管理层讨论与分析中应当对业务经营信息和财务报告数据,以及报告期内发生和未来将要发生的重大事项,进行讨论与分析,以有助于投资者了解其经营成果、财务状况
20、及未来可能的变化”。在此政策背景下,本文研究上市公司MD&A信息披露质量,以探讨MD&A信息与企业未来是否发生违约的关系。学者们对MD&A文本内容的研究表现出极大兴趣,截 至2 0 2 2年3月1 2日,发 表 在F i n a n c i a l T i m e s 5 0 J o u r n a l s(F T 5 0)上关于MD&A的文献已经有2 6篇。本文在MD&A文本挖掘上的研究与M a y e w等1的研究最为相近,但有以下不同:(1)研究对象不同。M a y e w等研究的是美国上市公司能否持续经营的问题,本文研究的是中国A股制造业上市公司的违约预测问题。(2)基于MD&A文本内
21、容所挖掘的信息不同。M a y e w等基于MD&A文本从管理层预期和管理层语调的角度构造了持续经营披露、管理层积极语调和管理层消极语调3项指标,本文首次从文本相似度、文本可读性、文本语调以及管理层预期的角度构建了1 2个MD&A指标。(3)控制变量的选取不同。M a y e w等参考文献2-4 中的研究选取了9项财务指标,本文在此基础上纳入了产权性质和消费价格指数等非财务和宏观因素,考虑的因素更加全面。本文在违约预测方法的选择和关键因素的确定上与J o n e s5的研究最为相近,但也有区别:J o n e s采用G B D T模型研究影响美国企业破产预测问题第2期沈 隆,等:管理层讨论与分
22、析能预示企业违约吗?4 4 3 的关键因素时,未考虑样本非平衡问题。本文采用代价敏感的非平衡处理方法,将非违约企业和违约企业样本数的比值n0/n1作为损失函数中违约企业的惩罚项,构建了c s G B D T模型。J o n e s在确定关键因素时,采用去掉一个指标后剩余指标破产预测均方误差的变化来计算指标的相对重要性。本文采用去掉一个指标后剩余指标的违约预测精度AU C的变化来确定指标的重要性。本文基于2 0 1 72 0 2 0年A股制造业上市公司的4 4 3 5个样本的实证研究,得到了以下结论:通过构建“基准模型”“MD&A模型”和“MD&A基准模型”,比较基于c s G D B T和G
23、B D T以及8种典型的大数据算法的违约预测结果可知,MD&A指标可以作为替代性数据源准确预测上市公司违约状态;MD&A指标相比传统违约预测变量的预测效果较差;MD&A指标在传统违约判别指标基础上,提供了额外的信息含量;c s G B D T模型显著提高了对企业(尤其是对违约企业)的判别能力,在违约预测的大数据方法中具有明显优势。研究发现,对企业违约有重要影响的MD&A指标依次为:与前一年相比文本相似度、词汇总量、情感语调2、词汇总量/句子数量、情感语调1和管理层是否发出业绩预测。重要的非MD&A指标按相对重要性从大到小排序,依次为产权性质、上市时间、规模、留存收益/总资产、净资产收益率、杠杆
24、率、现金比率、营运资金与总资产比、权益市值/负债、资产收益率和速动比率。通过研究MD&A指标对企业违约的边际效应发现,MD&A与前一年相比文本相似度越大时,企业违约概率越大。随着MD&A文本词汇总量的增加,当MD&A文本词汇总量小于7 0 0 0时,企业在未来的信用状况变差;当MD&A文本词汇总量大于7 0 0 0时,企业在未来的信用状况变好。MD&A语调越积极,企业在未来越不可能违约。MD&A中每条句子的平均词汇量越大,企业在未来违约的可能性越大。MD&A中做出前瞻性预测的企业相比不做预测的企业在未来信用状况更好。本文还从样本的角度、违约预测方法的角度、参数选取的角度以及基准模型选取的角度对
25、本文的主要结论进行了稳健性检验。本文的贡献主要体现在:(1)现有研究通过结构化数据探讨企业内外部治理因素对企业违约风险的影响。本文通过文本挖掘技术从非结构化数据中提取信息,考察MD&A文本信息对企业违约风险的影响,发现MD&A能够提供企业层面的增量信息,有助于缓解企业和外部信息需求者的信息不对称,从而抑制企业违约的风险,补充了违约风险影响因素的研究。(2)现有对MD&A增量信息的研究往往仅从一个角度开展。本文对MD&A内容从文本相似度、文本可读性、文本语调以及管理层预期的角度构建MD&A评价体系,将MD&A所蕴含的增量信息加以区分,从而识别出影响企业违约状态的关键因素。在此基础上,考察关键MD
26、&A因素对企业未来违约风险的边际效应。(3)以往研究中所采用的违约预测模型,要么是无法处理高维变量、对变量的分布有要求或受到多重共线性的限制,如逻辑回归和多元判别分析等参数模型4,6,无法探讨多维MD&A指标对企业违约的影响,要么是未考虑样本非平衡问题5。本文构建了c s G B D T模型,将非违约企业和违约企业样本数的比值n0/n1作为G B D T损失函数中违约企业的惩罚项,提高对企业(尤其是非违约企业)的预测效果,为将来企业违约预测的研究提供参考和借鉴,并通过指标相对重要性和局部依赖图来满足监管要求的违约预测模型的可解释性。1 文献综述1.1 违约预测影响因素的相关研究 在违约预测影响
27、因素的研究方面,A l t m a n2和O h l s o n3采用企业的财务数据对企业违约状态进行预测,成为目前不少评级公司和学者参照的标准。S h u mw a y4在此基础上,纳入了和股价相关的市场价格变量,并证明了其有效性。C l a r k e等7研究了分析师建议与企业违约的关系,探究分析师建议是否存在偏见。A s h b a u g h-S k a i f e等8探究了公司治理与违约之间的关系,发现一家拥有理想治理特征的公司获得投资级信用评级的可能性大约会增加一倍,即发生违约的可能性更小。A y e r s等9研究了账面收入和应税收入之间的差异与企业违约之间的关系,认为账面税差的
28、增加可能表明盈利质量下降或公司资产负债表外融资的变化,会导致企业的信用评级结果下降。K u a n g等1 0发现,管理层风险承担激励(即v e g a和d e l t a)的增加与较低的评级(即较高的违约风险)相关。B o n s a l l等1 1研究发现,管理者更高的企业经营能力与企业更高的信用评级(即较低的违约风险)相关。T o b b a c k等1 2将中小企业关系指标纳入风险评价体系,发现企业关系数据和财务数据有互补的预测能力,且关系数据有助于识别 违 约 风 险 更 高 的 企 业。M a等1 3研 究 了4 4 4 系 统 管 理 学 报第3 3卷C E O职业背景与企业违约
29、的关系,发现具有更多样化职业背景和行业经验的通才型C E O相比专业C E O,可能由于其多样化外部职业选择的存在,更容易实施激进的经营策略,导致企业更有可能违约。V e g a n z o n e s等1 4研究了盈余管理变量企业违约与否之间的关系,发现在违约预测模型中包含盈余管理变量可以提高对操纵收益企业的违约预测效果。W a d h w a n i1 5研究了宏观因素与企业违约的关系,发现通货膨胀会造成企业现金不足的问题并导致破产,这是因为不完善的信贷市场不能随着通货膨胀调节债务水平。现有研究主要通过结构化数据来探讨企业内外部治理因素对企业违约风险的影响。本文通过文本挖掘技术从非结构化文
30、本数据中提取信息,考察MD&A文本信息对企业违约风险的影响,补充了违约风险影响因素的研究。1.2 MD&A的相关研究 B r y a n1 6将MD&A分析按小节分为7类,发现计划资本支出与未来投资决策相关,前瞻性披露部分 可 以 帮 助 评 估 企 业 未 来 的 发 展 前 景。C o l e等1 7研究了零售业MD&A与企业经营绩效和融资成本的关系,发现店面开业/关闭和计划资本支出有一定的信息含量。上述学者采用人工分析方法处理文本数据。随着大数据文本挖掘技术的发展,F e l d m a n等1 8发现,与上一期相比,MD&A语调的变化与股价显著相关,借助语调变化提供的增量信息,所构建的
31、投资组合取得了更高的回报。L i1 9基于MD&A中前瞻性文本分析的结果,研究表明,前瞻性内容的可读性越好,企业未来业绩越好,管理层的语调越积极,企业未来的绩效也越好。G o e l等2 0发现,报告中有更多被动语态和中性词汇时,年报更有可能作假。B r o w n等2 1认为企业发生重大经济变化后,MD&A文本与上一年相比文本差异化程度小,则企业可能在信息披露时“越界”,隐藏有用信息。M a y e w等1从MD&A中提炼出管理层对于企业不能继续经营可能性的意见和MD&A的语言基调,研究其与企业违约之间的关系。L o等2 2参照F o g指数,研究了MD&A文本可读性对企业财务绩效的影响,发
32、现“好消息”会以更容易沟通的方式传达,并且管理层会用复杂的披露达到对投资者隐藏信息的目的。孟庆斌等2 3采用文本向量化的方法,从MD&A文本中提取同一年份企业与市场中其余企业所包含的差异信息,研究其对股价崩盘风险的影响,并进一步采用常见词的比重度量文本可读性,缓解信息不对称导致的市场风险。赵子夜等2 4从纵向和横向两个角度研究MD&A样板化与股票市场超额回报的关系,发现同行业MD&A内容的相似,企业与上一年度相比,MD&A的相似都体现出了管理者对于规避风险披露的考量会引起严重的经济后果。钱爱民等2 5将上市公司年报分为MD&A和非MD&A两个部分,研究了年报内容与上一期相比文本的相似程度对企业
33、违规处罚的影响,发现:MD&A相似度越高,企业因违约被处罚的概率越高;非MD&A相似度越高,企业因违规被处罚的概率越低。MD&A文本增量信息的研究已 经取得了进展,但MD&A文本信息与企业违约之间关系的研究并不多见。企业是否发生违约取决于企业的未来现金流。投资者通过评估企业未来发展前景,以确定其未来现金流足以支付偿债成本和本金的可能性。如果投资者不看好一家企业,随着其融资成本的增加会导致企业未来现金流分布的均值向下移动或未来现金流方差的增加,增加其违约的可能性。在J e n s e n等2 6的代理理论框架内,投资者面临两种类型的代理冲突,这些冲突会增加企业违约的可能性,从而影响持有股票的价值
34、。一是管理层与所有外部利益相关者(包括投资者和股东)之间的冲突。公司组织中所有权和控制权的分离导致外部利益相关者和管理者之间的信息不对称问题。当管理者有动力以牺牲外部利益相关者为代价来追求自己的利益时,信息不对称就产生了道德风险问题。二是投资者与股东的冲突。杠杆公司的股东有动机采取行动,将财富从投资者手中转移给自己,这种行为体现在信息不对称条件下对管理者经营政策和披露信息的干预,使得企业面临更大的违约风险。借鉴现有研究1,1 9-2 0,2 2,本文从文本相似度、文本可读性、文本语调以及管理层预期的角度构造了MD&A指标,有助于缓解信息不对称的问题,解决外部利益相关者与管理层之间的代理冲突以及
35、投资者与股东之间可能的财富转移效应的潜在冲突,使得外部利益相关者能提前预示企业未来面临的违约风险。2 研究设计2.1 样本选择与数据来源 参考国内对上市公司进行违约预测的常见做法,本文将上市公司因财务状况异常而被特殊处理(S T)作为上市公司违约的标志。由于我国上市公司年度报告是在当年会计年度结束之日起4个月内第2期沈 隆,等:管理层讨论与分析能预示企业违约吗?4 4 5 编制完成的,故上市公司t-1年年度报告与其在t年发生违约/非违约是同一年度发生的,参照石晓军等2 7的做法,采用上市公司t-2年的数据和t年的违约状态构建违约预测模型。本文的研究对象为2 0 1 72 0 2 0年A股制造业
36、上市公司1)。之所以选取2 0 1 7年作为样本的起点,是因为“年报格式准则”2 0 1 7年的修订,标志着MD&A在企业年度报告中的披露要求已经较为完善。之所以选择制造业上市公司,因为制造业是党和国家带动就业实现共同富裕的“发动机”,其高质量发展是我国迈向高收入国家的“门票”。其中,年报来自巨潮资讯网,从中选择了MD&A的文字内容,公司的财务指标、非财务指标和违约状态来自国泰安数据库(C S MA R),宏观环境数据来自锐思数据库(R E S S E T)。本文在原始样本的基础上进行如下处理:剔除主要变量数据缺失的公司样本;为了避免异常值产生的影响,对所有连续变量均进行上下1%的缩尾处理。最
37、终得到2 2 7 5家企业的4 4 3 5个样本,其中,违约样本2 0 8个。2.2 变量定义2.2.1 MD&A变量 L o u g h r a n等2 8所构造的用于上市公司年报情感分析的词典已经广泛用于股票收益率、成交量和波动率的预测2 9-3 1。J i a n g等3 2把英文LM金融词典转化为对应的中文版本,并从中文通用情感词典中筛选出在金融语境下仍然适用的情感词汇,采用w o r d 2 v e c算法从语料中找到与前两部分词语高度相关且具有合适情感倾向的词语。同时,为了保证词语的完备性,将知网H o wN e t情感词典、清华大学李军词典以及台湾大学NTU S D词典合并去重作
38、为补充,构建了适用于年报分析的金融 情 感 词 典。本 文 以L o u g h r a n等2 8和J i a n g等3 2构造的金融情感词典和哈工大、百度的停用词表为基础,依据有道词典将其中的英文词汇翻译为中文词汇,构造金融情感词典。创建金融情感词典后,采用p y t h o n中开源的“j i e b a”分词库对MD&A中文本的内容进行分词,分词过程中去掉阿拉伯数字、标点符号、图片表格等元素,然后进行词频统计。参考现有研究,从文本相似度、文本可读性、文本情感值和管理层预期4个角度,基于MD&A的内容构建指标体系。(1)文本相似度。基于计算得到的词频,采用潜 在 语 义 索 引(L a
39、 t e n t S e m a n t i c I n d e x i n g,L S I)3 3-3 4对企业MD&A的文档矩阵进行降维,得到第j个企业第t年MD&A文本降维后的指标向量vtS I M,j=(vt1,j,vt2,j,vtk,j),其中,k为文档中主题的个数。设:S i mtj(xtS I M,j,xt-1S I M,j)为第j个企业第t年年报中MD&A的内容与t-1年相比的余弦距离;vti l为第j个企业第t年MD&A文档和第l个主题的相关性;vt-1i l为第j个企业第t-1年MD&A文档与第l个 主 题 的 相 关 性。则 第j个 企 业 第t年MD&A与上一年相比文本
40、相似度为2 1S i mtj(xtS i m,j,xt-1S i m,j)=1 0 0 xtS i m,jxt-1S i m,jxtS i m,jxt-1S i m,j=1 0 0kl=1vtl jvt-1l jkl=1(vtl j)2kl=1(vt-1l j)2(1)1)行业分类按照 2 0 1 2 版证监会行业分类式(1)文本相似度S i m的取值越大,说明第j个企业第t年MD&A内容与上一年相比文本相似度越高,文本相似度的取值在01 0 0之间。本文采用p y t h o n中的g e n s i m模块完成。(2)文本可读性。无论何种媒介,可读性都是沟通中的一个重要问题。MD&A中的内
41、容同理,当MD&A的可读性较差时,可以变相地反映管理者不愿意披露自身对于企业的真实看法,可以作为看跌企业的视角之一。D e F r a n c o等3 5认为评价文本可读性的标准有:文字是否直白;文字是否简洁。对于标准,参考F o g指数的定义,构造了词汇总量/句子数量和文字数量/句子数量两个指标,用来评估MD&A是否直白,F o g指数被广泛用于评估商业出版物3 6。对 于 标 准,借 鉴L i3 7的 做 法,采 用MD&A报告的长度来衡量其简洁性,其中包括词汇的个数以及文字的个数。原因在于MD&A的内容越长,信息处理成本越高,越难以理解3 5。(3)文本情感值。设:T o n e1-MD
42、&A表示情感评价1;P o s-MD&A为 正 面 词 汇 的 个 数;N e g-MD&A为负面词汇的个数。则MD&A的净语调的情感值13 8为T o n e1=P o s-N e gP o s+N e g(2)设:T o n e2-MD&A表 示 情 感 评 价2;P o s-MD&A为正面词汇的个数;N e g-MD&A为负面词汇的 个 数,N e u-MD&A为 中 性 词 汇 的 个 数。则MD&A的净语调的情感值23 9为T o n e1=P o s-N e gP o s+N e g+N e u(3)式(3)度量了MD&A内容的情感值,如果式4 4 6 系 统 管 理 学 报第3
43、3卷(3)的取值大于0,说明在当前会计年度MD&A的内容是积极的语调;如果式(3)的取值小于0,说明在当前会计年度MD&A的内容是消极的语调。式(2)同理。管理层语调方面的研究已经取得了长足进展,文献中的做法主要有两种3 8,4 0,如式(2)和(3)所示。与现有研究的差别在于,本文认为,当管理层了解公司目前的经营存在较大问题,或对企业未来发展有不好的预期时,可能出现“支支吾吾”的情形,从而用尽可能多的冗余词汇向外界传递没有信息含量的话语,掩饰自己真实的情感倾向。利用中性词汇数/年报总词汇数,即冗余词汇占比构造传递管理层情感倾向的指标(N e u t w),如下式所示(参数含义见式(3):N
44、e u t w=N e uP o s+N e g+N e u(4)(4)管理层预期。从管理层预期的角度构造4个指标:管理层是否对企业下一年的业绩作预测,除使用良好的业绩预测以误导外部投资者对公司股票的估值外,管理层有可能由于经营不善而对未来悲观,又由于委托代理问题不肯对外界发出虚假的信号。在发出业绩预测后,管理层是否对预测的业绩加以修正,管理层对企业自身的经营情况十分了解,若对业绩预测加以修正,说明管理层对企业经营状况判断有误,或者受到了外界干扰作出决策,监管机构则应该重点关注这类企业。管理层是否预测下一年度企业会盈利。管理层是否预测下一年度企业会亏损。业绩好的企业势必会向外界释放积极信号以降
45、低企业的融资成本,业绩差则未必,这与“年报格式准则”规定的披露要求相悖。2.2.2 控制变量 对于违约预测基准模型中变量的选取,借鉴现有研究2-3,5,1 5,4 1中的做法,选取了涵盖财务因素、非财务因素和宏观因素等1 6项指标,包括:规模(S i z e)、杠杆率(L e v)、营运资金占比(W c t a)、流动比率(C u r)、资产收益率(R o a)、净利润增长率(C h i n)、留存收益占比(R i t a)、E B I T/总资产(E b i t a)、权 益 市 值/负 债(M e b l)、速 动 比 率(A c i d)、现金比率(C a s h)、净资产收益率(R o
46、 e)、研发支出(R d)、产权性质(S o e)、上市时间(A g e)、居民消费价格指数(C p i)。指标定义如表1所示。2.3 代价敏感G B D T算法 采用代价敏感G B D T算法(c s G B D T)对中国A股制造业上市公司进行违约预测,将代价敏感和集成学习算法相结合以解决样本非平衡问题。2.3.1 算法原理步骤1 样本初始化。给定有n个企业、m个指标的数据集D0,D0=(xj,yj)(|D|=n,xjRm,yjR)。在建立决策树模型之前,随机给n个企业的违约概率赋01之间的值,作为初始违约预测概 率p0j,j=1,2,n,由 此 得 到 初 始 模 型f0(xi)。步骤2
47、 计算初始模型f0(xj)的损失函数L0。设:Lh-G B D T是模型中第h棵决策树的加权交叉熵损失函数;n0为非违约企业样本数;n1为违约企业样本数;yj表示第j个企业的实际违约状态(y=1表示违约,y=0表示非违约);phj为第h棵决策树对第j个企业预测的违约概率。G B D T中共有H棵决策树,并通过H棵决策树对第j个企业分别进行串行预测,即h+1棵决策树的训练基于第h棵决策树的违约预测结果,最终得到H个判别结果b1j,b2j,bhj,bHj。H个 判 别 结 果b1j,b2j,bhj,bHj求代数和后,代入下文式(8)和(9),可得到预测的企业违约状态yj(0或1)。因此,Lh是第h
48、棵决策树违约预测的加权交叉熵损失函数,即4 2 Lh(yj,phj)=-1n0+n1n0+n1j=1 n0n1yj l n phj+(1-yj)l n(1-phj)(5)对于实际违约企业yj=1,式(5)中,第1项n0n1yj l n phj=n0n1l n phj,第2项(1-yj)l n(1-phj)=0,对数似然函数Lh是全部违约企业预测的违约概率之和,表示违约企业的判对率,即1-T y p e -E r r o r。对于实际非违约企业yj=0,式(5)中,第1项n0n1yjl nphj=0,第2项(1-yj)l n(1-phj)=l n(1-phj),对数似然函数Lh是全部非违约企业预
49、测的违约概率之和,表示非违约企业的判对率,即1-T y p e I-E r r o r。违约企业样本数量少,非违约企业样本数量多,故n0/n11。采用代价敏感的非平衡处理方法,为了提高对违约企业的预测效果,将非违约企业和违约企业样本数的比值n0/n1作为损失函数中违约企业的惩罚项,避免了由于违约企业数量占总企业数量比重过小(下文实证样本的非平衡比为4 2 2 7/2 0 82 0.2 7 7/1),拟合预测结果时,G B D T不重视违约企业指标数据,导致违约企业判别能力差,即第2类错误率高的现状。第2期沈 隆,等:管理层讨论与分析能预示企业违约吗?4 4 7 表1 变量定义与说明T a b.
50、1 V a r i a b l e d e f i n i t i o n s a n d d e s c r i p t i o n s(1)变量类型(2)准则层(3)变量名称(4)变量缩写(5)变量定义因变量违约状态F r a u dt+2年S T状态,1为是(2 0 1 92 0 2 0年)解释变量控制变量文本相似度文本可读性文本语调管理层预期企业财务因素企业非财务因素宏观因素文本相似度S i m使用潜在语义索引和余弦相似度计算得出的与前一年相比的文本相似度词汇总量T wMD&A中词汇总量文字数量T t e x tMD&A中文字数量词汇总量/句子数量T w t sMD&A中词汇总量/MD