1、统计教学案例二上市公司年报数据分析案例经统计调查取得数据后,需要通过统计整理、综合指标计算与相关回归分析等方法技术对总体数据进行处理,以认识总体变量分布状态(如正态分布)、特征表现(如结构相对数、平均数和标准差)、相关关系(如相关系数)和变化规律(如回归模型),从而了解事物或现象的本质及其依存因素。其中统计整理技术包括总量指标、相对指标、平均指标和标志变异指标的揭示,他们的计算既是对总体基本特征的描述,又是对事物或现象进一步定量研究的基础;相关和回归是研究总体各事物或现象间相互关系的定量分析,用以测定不同特征相互联系的紧密程度,揭示变化形式和规律。本章案例主要通过对总体静态数据处理过程的介绍,
2、帮助读者掌握统计整理、指标描述和相关回归分析技术结合运用的技术与经验。本章由1个大型案例构成,案例以沪深股市制造业上市公司为对象,系统介绍了静态数据总体的统计处理过程,包括分布描述、分类研究和相关因素分析。上市公司年报数据分析案例的教学目的:数据整理是统计分析的基础工作,在总体规模很大,数据量浩瀚、分布未知的情况下,如何对总体数据进行整理分类,描述总体分布及进一步分析总体各特征间的相互关系是对总体正确认识的关键。由于具体的工作过程与教科书的知识点讲授顺序并不完全一致,因此本案例通过对1999年沪深股市制造业上市公司年报数据分析过程的介绍,给读者以处理总体静态数据的思路和技巧,从而训练读者解决实
3、际问题的能力。 案例的背景分析与数据资料一、案例的现实意义上市公司的经营业绩与其股票价格、市场价值息息相关,因此反映上市公司经营业绩的定期公开披露的中期会计报告、年度会计报告就成为社会各界密切关注的重要信息之一。对所有上市公司的财务报告进行统计整理和分析,把握上市公司整体的经营状况、经营业绩的水平和变化趋势,无论是对投资选择,还是政府的决策与监督,都是不可或缺的。本案例探讨的就是面对大量的财务报告数据信息如何进行统计整理与分析,这对于投资者、投资咨询人员或是理论界研究者,都具有实际的指导意义。通过本案例的学习讨论,有助于大家掌握统计描述和相关回归分析的方法,同时积累应用这些方法的实际经验和教训
4、。二、案例所依托的总体及其现状与研究目的(一)案例所依托的客体本案例所依托的客体是1999年上市公司年报中的有关财务指标。1999年末,沪、深两市共有上市公司949家。这些上市公司分布在13个行业部门。根据中国证监会的上市公司分类指引中规定的分类方法,其中制造业共有578家,占60.91%。总股本1938亿元,占62.73%,制造业是上市公司最集中的行业。截止2000年4月30日,已公布年报的有560家。所以本案例研究的总体范围确定为如期公布年报的制造业560家上市公司。(二)案例研究的目的与任务1 上市公司年报财务数据统计分析的目的通过对制造业1999年报有关数据进行系统的统计整理、描述和回
5、归分析,揭示1999年制造业上市公司主要财务指标的总体分布、分行业的经营业绩水平和重要特征,从中掌握认识总体分布特征和数量变化的技巧和方法,提高用统计思想和方法解决实际问题的能力。2上市公司年报财务数据统计分析的任务对纷繁的数据进行不同的分类、分组、汇总、综合、分析、归纳、推断,显示上市公司财务报告中的主要财务指标的分布形态和主要特性,寻找财务指标之间的相互关系和表现规律。3上市公司年报财务数据统计分析的对象本案例所引用资料取自上海证券报,包括了制造业560家上市公司。共选有8个财务指标:总资产、净利润、主营业务收入、股东权益、每股收益、每股净资产和股东权益比率。其中,前4个为反映资产、收益方
6、面的总量指标,后4个为反映盈利能力、业绩水平的相对指标。4数据的初步分析制造业上市公司行业结构在制造业中,生产不同产品的企业或公司,具有不同的规模,占有不等的资源要素,他们的总股本、净利润、净资产收益率必然存在很大的差异。为了深入认识总体,首先要对制造业按其经济活动的特点进行行业分类。根据上市公司分类指引,制造业进一步分为10个行业种类,编码为C0、C1、C2、C9。分类统计属于定名测定。从上述资料经计数整理后即可得到如表一的分布数列。表21 制造业上市公司行业分布代 码行业分类上市公司数比重(%)C0食品、饮料488.57C1纺织、服装、皮毛458.04C2木材、家具20.36C3造纸、印刷
7、162.86C4石油、化学13023.21C5橡胶、塑料101.79C6金属、非金属9617.14C7机械、仪表、设备15126.96C8通讯、电子519.11C9其他111.96合 计560100.00这是一个品质标志分组的分布数列。从该数列中可以知道上市公司的行业结构。1999年560个制造业上市公司中,27%是机械、仪表、设备制造业(包括汽车、船舶、摩托车、家电等);23%是石化类行业;而冶金、钢铁等金属非金属类公司占17%;通讯电子章9%。所以,制造业上市公司中传统产业占了较大比重。这些行业中大部分是国有或国有控股企业,是国企改革中率先建立现代企业制度进入资本市场的排头兵。行业的分布也
8、体现了国家的产业政策导向,在1999年新发行的A股中,大盘股和高科技股明显增多,有力地支持了国企改革和高科技企业的发展,推动了上市公司的行业结构优化。方 案 设 计一、 案例设计的思路本案例研究的总体对象是某一特定时间的静态数据集,为了对它有一个全面和透彻的认识,一般应对其进行基本的特征描述和揭示各特征间主要的相互关系。根据这一目的,本案例按照如下顺序对数据进行处理:1分别对总体个单位的数量标志按值的大小作升序排列,以大概认识个变量的变化范围及其一般水平。2分别计算总体个变量的特征值,进一步抽象认识个变量的分布特征,包括算术平均数、众数、方差、峰度度、偏度等。3分别根据特征指标绘制各变量的分布
9、图,以形成对各变量分布的直观认识。4分别按品质标志和数量标志对总体进行分类,通过计算派生指标,以深入认识总体各指标在不同类别间的差异,包括总体结构、强度,比例关系等。5分别对总体各指标进行相关分析,了解各指标间的依存关系,在相关关系成立的基础上进行回归分析,从而更深层次地认识总体的规律与特征。6在上述研究分析的基础上给出关于对对象的定性认识结论。二、案例设计的工作过程(一)数据整理与描述1编制按各财务指标的变量数列(1) 将数据顺序排列。(2) 计算描述统计指标。在Excel“工具”的“数据分析”中,“描述统计”提供了所分析数据的主要描述指标和有关信息。其内容是;平均算术平均数,即=标准误差抽
10、样平均误差,即中值中位数,即Me;模式众数,即Mo;标准偏差标准差,即;样本方差方差,即峰值峰度,即偏斜度偏度,即;区域全距,即最大值减最小值;求和标志总量;计数总体单位总数;最大(K)第K个最大值;最小(K)第K个最小值;置信度“数据分析”中默认概率为95%(也可自行选择)的1/2误差范围。(3)分析描述统计指标比较平均数、众数、中位数的大小;偏度系数的大小、方向等。(4)确定组数和组距当偏度系数不大时,用斯特吉斯经验公式确定组数;偏度系数较大、分布明显偏态时,以平均数为中心,以K倍标准差为组距。(5)整理成频数分布和直方图(或其他图形),显示总体分布特征。2制造业公司主要财务指标的分布(1
11、)总资产分布数列和直方图 总资产描述统计1平均 标准误差中值模式 标准偏差; 样本方差峰值 偏斜度区域 最小值 最大值求和计数 置信度 (95%)158315.18970.94695296.9212291.34.51E+1030.190774.705128217859812256.6921908468865645256017620.89 总资产描述统计2平均标准误差中值模式标准偏差;样本方差峰值偏斜度区域最小值最大值求和计数置信度(95%)144640.76388.94895410.48149424.92.23E=109.9163752.885238955269.621671.49976941
12、.17911847854712549.92 从描述统计1看,560家公司的总资产呈高度偏态。总资产最大值是上海石化219亿元,最小值是ST黔凯涤1.2亿元,相差近200倍。将6个总资产100亿和7个2亿元以下的数据作为极值舍去,计算得到描述统计2,此时的标准差和偏度系数都降低了,说明数据间的差异小了。但仍呈偏态,不能用斯特吉斯经验确定组数。不论何种分布,均值和方差其分布的两个主要特征值。根据切比雪夫定理,可以平均数为中心,以K倍的标准差为组距,因为此时平均数K倍的标准差所涵盖的数据范围不小于11/。本例中,均值14.5亿元,中位数9.5亿元,标准差15亿元,说明560家公司的总资产分布为右偏态
13、。若以1个标准差为组距,则中位数以下部分的描述势必过于概括。所以考虑用1/2标准差,即7.5亿元为组距,由于100亿元以上只有7家,将105亿元以上并为一组,组数=15。分组后变量数列及直方图如表二和图一所示。表22 560家上市公司总资产分组统计分组(万元)频数频率(%)75000以下750001500001500002250002250003000003000003750003750004500004500005250005250006000006000006750006750007500007500008250008250009000009000009750009750001050000
14、1050000以上2091926433181542462131637.3234.2911.435.893.212.680.710.360.711.070.360.180.540.181.07合计560100.00 从图表中可以知道,制造业中,总资产8866亿元,平均规模在15亿元左右。82%的上市公司总姿产在22.5亿元以下,100亿元以上的只有1%。在各行业中,总资产规模最大的是C8通信电子行业20.3亿元,最低的是C2木材家具业6.38亿元,另外,C4石油化工、C5橡胶塑料、C6金属非金属的总资产规模在平均之上。 图21 560家制造业公司总资产分布(2)净利润分布数列和直方图 净利润描述
15、统计 平均标准误差中值模式标准偏差;样本方差峰值偏斜度区域最小值最大值求和计数置信度(95%)6669.48516.28284120.164# N/A12217.481.49E+0811.333442.485572112886.537417.975468.637349135601014.092 净利润分布呈右偏态。以1/2标准差6500万元为组距,可分17组。分组后3.25亿元以上各组不仅频数少,而且有两组频数为0。这种情况下可考虑合并这些组,因为合并后的数列并未影响总体特征的描述。见表23和图22。 表23 560家上市公司净利润分布净利润分组(万元)频 数 (个)频 率 (%)13000以
16、下130006500650000650065001300013000195001950026000260003250032500以上141022332112241316172.50793.9359.2920.004.292.322.863.04合 计560100.00 净利润分组(万元) 图22 560家上市公司净利润分布将亏损1.3亿元以下的公司合并为一组,3.25亿元以上的公司合并为一组,组数减少到9组,总体仍为右偏态。从整理后的净利润的资料我们注意到:第一,制造业中,1999年度46家公司亏损,亏损面8.2%,最多的亏损3.7亿元。第二,制造业1999年度净利润总额373.9亿元,受亏损
17、公司的影响,560家公司总体平均利润只有6500万元。79%的上市公司净利润在70万1.3亿元之间。第三,上海汽车、邯郸钢铁、上海石化、仪征化纤、首钢股份等大型国企全年利润均在7亿元以上;年净利润在4.5亿元以上的公司有16个,不足总数的3%,但它们的净利润占到制造业全行业的25.5%,充分体现了大型国企确实是国民经济的脊梁。第四,进一步研究各行业的利润水平,可以看到有三个行业高与总体水平;C0食品饮料净利闰0.79亿元;C6金属非金属净利闰0.85亿元;C8通信电子净利闰1亿元。(3)每股收益分布数列和直方图 每股收益描述统计 1 平均标准误差中值模式标准偏差;样本方差峰值偏斜度区域最小值最
18、大值求和计数置信度(95%)0.1994270.0115510.22250.210.2733520.0747216.756411.511822.6321.281.352111.67925600.022689 每股收益描述统计2平均标准误差中值模式标准偏差;样本方差峰值偏斜度区域最小值最大值求和计数置信度(95%)0.2049430.0105710.2230.210.2492550.0621284.9121741.274991.88910.980.9091113.94825560.020764每股收益是一强度相对指标。从描述统计指标看,舍弃一个最大值后,均值、中位数、众数比较接近,偏度系数也不很
19、大。尝试按经验公式确定组数:组数=1+3.322560=10;组距=2/10=0.2,极值用开口组处理。见表24 和图23。 表24 560家上市公司每股收益分组统计分 组频数(个)频率(%)0.6以下0.60.40.40.20.2000.20.20.40.40.60.60.80.81.01.0以上14613131972316019612.501.072.322.3235.1841.2510.713.391.070.18合 计560100.00 每股收益分组(元) 图23 560家上市公司每股收益分布 每股收益是按总股本平均的净利润,它排除了股本规模大小对净利润水平高低影响,反映了上市公司经营
20、业绩水平。不仅在行业之间,而且可以在公司之间进行比较。从表24图23看560家公司每股收益的特点:第一,1999年制造业的每股收益的分布略乘左偏态,即平均数为0.2元,但是相对多数的公司每股收益高于0.2元。第二,35%的公司在0.010.2元的微利水平,52%的公司盈利水平再0.20.6元之间。26家公司盈利水平较高,在0.6元以上,但只占4.5%。1999年的改制表状元是五粮液,达到每股收益1.35元。第三,分行也看,经营业绩差别的行业因素非常明显:最高的是C0食品饮料,达到每股收益0.31元;大于等于每股收益0.2元的还有C1纺织、服装,C5橡胶塑料, C8 同新点子,C9其他;最低的事
21、C2木材家具,只有0.08元。(4)净资产收益率分布数列和直方图净资产收益率1平均标准误差中值模式标准偏差;样本方差峰值偏斜度区域最小值最大值求和计数置信度(95%)2.9714771.9932569.046.2147.084752216.974117.588910.1028736.156639.5396.6261658.085583.915216 净资产收益率2平均标准误差中值模式标准偏差;样本方差峰值偏斜度区域最小值最大值求和计数置信度(95%)8.0063860.3522289.146.218.18504166.99496.8819081.6310269.2634.9234.344323
22、.4485400.691909由于资料中两个公司(0515PT渝钛白和600818ST永久)的净利润 净资产为负值,所以此处只有58个公司的数据。558个公司的净资产旅呈高度左偏态。净资产收益率过高或过低,都数不正常情况。舍弃40%以上和40%以下的18个极端值后,描述指标基本正常。以1倍标准差8%为组距、48%以上和48%一下合并各1组,共分14组。表25和图24显示,集中趋势非常明显。表25 560家公司净资产收益率分组统计分组(%)频数频率(%)小于48484040323224241616880088161624243232404048大于481312568101902703973132
23、.330.180.360.904.081.431.7934.0548.396.991.250.540.180.54合计558100.00净资产收益率分组(%)图24 560家上市公司净资产收益率分布净资产收益率是评价净资产盈利能力的综合指标,他代表了总体的或行业的盈利水平。从统计资料看到:第一,1999年度,制造业的总体净资产收益率9%(这里采用了中位数,因为忽略极值厚中位数没有变化,但平均数却差了几倍,而净资产收益率极端值时有个别特殊原因所致)。第二,8%的公司亏损,与每股收益分析的结论一致;并且有两个公司净资产为负数,以资不抵债。第三,34%的公司净资产收益率在0.1%8%之间;48%的公
24、司在0.8%16%之间。第四,8%的公司净资产在16%32%的高水平上,从行业看,这些公司集中在生物制药、通信电子、汽车等高新技术产业,显示出发展最快、盈利水平最强的势头。3制造业各行业主要财务指标的分布接下来利用符合分组表统计表的形式,总体分组的划分,展示制造业内部各行业的净利润、每股收益、净资产收益率的分布特征。(1)制造业各行业净利润分布频数统计表和频率统计表合计栏显示的是总体的净利润分布频数或频率,其他各栏显示的是个行业的分布(见表26、表25)。表26 制造业各行业净利润分布统计(频数)代码 净利润分组(万元) 行业分类小于-1.3-1.3-0.65-0.65000.650.651.
25、31.31.951.952.62.63.25大于 3.25合计C0食品、饮料12714311148C1纺织、服装、皮毛1122713145C2木材、家具112C3造纸、印刷112316C4石油、化工2258128624130C5橡胶、塑料81110C6金属、非金属3425317435596C7机械、仪表、设备61094244544151C8通信、电子2212210344351C9其他72211合计14102233211224131617560从表26、27中可以看到:第一,总共45个亏损公司,占全部公司的8%,他们的行业间分布是:C7机械、仪表、设备行业亏损面最大,有16家,占行业10.7%;
26、其次是C8、C6和C1分别为9.8%、9.4%、8.8%;C2木材家具仅有2家公司,亏损1家。第二,C5橡胶、塑料和C9其他行业无亏损企业,且净利润水均衡,集中在019500万元。第三,净利润绝对水平的高低与行业类别有关联,3亿元以上净利润集中在酿酒、石化、冶金、电子通信设备等行业;利润水平较低的有纺织、木材家具及印刷、造纸行业。 表27 制造业各行业净利润分布统计(频率%)代码 净利润分组(万元) 行业分类小于-1.3-1.3-0.65-0.65000.650.651.31.31.951.952.62.63.25大于 3.25合计C0食品、饮料2.156.329.26.32.12.12.11
27、00.0C1纺织、服装、皮毛2.22.24.460.028.92.2100.0C2木材、家具5050.0100.0C3造纸、印刷6.375.018.8100.0C4石油、化工1.51.53.862.321.54.61.53.1100.0C5橡胶、塑料80.010.010.0100.0C6金属、非金属3.14.22.155.217.74.23.15.25.2100.0C7机械、仪表、设备3.36.762.716.02.73.32.72.7100.0C8通信、电子3.93.92.043.119.65.97.87.85.9100.0C9其他63.618.218.2100.0合计2.31.83.959
28、.420.04.32.32.93.0100.0(2)制造业各行业每股净收益分布频数统计和频率统计 表28、29显示的是不同行业每股收益的不同水平的分布。在91.8%的盈利公司中,若每股收益0.6元以上为绩优股,则绩优股的比率4.7%。绩优股的行业特征也非常明显:食品行业最高,为8.4%,其后依次是通信电子行业7.9%、机械仪表设备7.3%。从表面上看其他行业最高(9.1%),但是其他行业属于主营收入不明显的“收容”类,其较高的每股收益得益于多元化经营,因此在比较时,应予以忽略。 表28 制造业各行业每股收益分布统计(频数)代码 净利润分组(元) 行业分类小于-0.6-0.6-0.4-0.4-0
29、.2-0.2000.20.20.40.40.60.60.80.8 1.0大于1.0合计C0食品、饮料11024921148C1纺织、服装、皮毛12111271245C2木材、家具112C3造纸、印刷18716C4石油、化工3123585292130C5橡胶、塑料44210C6金属、非金属261324310296C7机械、仪表、设备234756521692151C8通信、电子411416123151C9其他451111合计1461313197231601961560表29 制造业各行业每股收益分布统计(频率%)代码 净利润分组(元) 行业分类小于-0.6-0.6-0.4-0.4-0.2-0.20
30、00.20.20.40.40.60.60.80.8 1.0大于1.0合计C0食品、饮料2.120.950.018.84.22.12.1100.0C1纺织、服装、皮毛2.24.42.224.460.02.24.4100.0C2木材、家具50.050.0100.0C3造纸、印刷6.350.043.8100.0C4石油、化工2.30.81.52.344.640.06.91.5100.0C5橡胶、塑料40.040.020.0100.0C6金属、非金属2.16.31.033.344.810.42.1100.0C7机械、仪表、设备1.32.02.64.637.134.410.66.01.3100.0C8通
31、信、电子7.82.027.531.423.55.92.0100.0C9其他36.445.59.19.1100.0合计2.51.12.32.335.241.310.73.41.10.2100.0(二)相关和回归分析本案例相关和回归分析研究主要是8个财务指标间的相互关系问题。各财务指标分别说明上市公司的财务状况的某一侧面。那么这些指标之间有无关系?若有关系,是什么样的关系?通过本案例的探讨,可以帮助我们筛选主要个财务指标作为分析公司业绩变动的因素。1制造业业绩指标之间的关系研究表210是8个财务指标的两两指标间的线性相关系数。表210 制造业有关业绩指标相关系数矩阵 净资产收益率净利润净资产总资产
32、主营业务收入每股收益每股净资产股东权益比率净资产收益率1净利润0.2481净资产0.0740.6761总资产0.0520.6260.9291主营业务收入0.0720.7050.8380.9101每股收益0.5310.6020.1500.1100.1931每股净资产0.2770.3760.2700.1880.2070.5991股东权益比率0.3110.1960.123-0.111-0.0810.3840.4751从相关系数矩阵看,可以得到以下几点共性的结论: (1)主营业务收入与总资产、净资产、净利润这些总量指标显著相关,其中与总资产高度正相关。总资产比较大时,主营业务收入也倾向于比较大,而主营
33、业务收入比较大时,净资产、净利润也比较高。这从实际情况看是可以理解的。在正常情况下,制造业的净资产除了货币资金外,主要就存货和厂房、设备等固定资产。尤其是固定资产,使生产活动的物质技术基础,其数量的多少、技术的高低决定了产品的方向及生产方式,从而决定了收入水平,并且决定了净资产的水平。 (2)虽然净资产收益率等于净利润除以净资产,但是净资产除了与净利润微弱相关外,与其他总量指标几乎不相关,也就是说,净资产收益率与资产规模、主营业务收入没有线性关系。主营业务收入水平高低并不决定盈利能力。 (3)几个相对指标之间,净资产收益率和每股收益显著正相关。在绝大多数行业中,这种相关程度均高于制造业总体的相
34、关系数0.53。这一点告诉我们,在说明上市公司经营业绩时,净资产收益率和每股收益两个指标选择其中之一就够了。 (4)每股收益、每股净资产作为总量指标的派生指标,除每股收益与净利润外,其他均与净利润、净资产和总资产微弱相关,说明他们抽象了投入规模的不同,可载的行业、各类型的上市公司之间比较。(5)一般地,派生指标与他们的分子指标相关系数要高于与它们的分母指标之间的相关系数。例如:净资产收益率与净利润的相关关系属要高于与净资产的相关系数。(6)就不同行业来看,各指标之间的相关系数均有所差别,表211显示:不论从整个制造业还是个行业,主营业务收入、净资产与总资产高度正相关是一致的;在相对指标上产生了
35、分化。其他行业由于主业不明,指标之间相关也很微弱。除此之外,净资产收益率与净利润和每股收益呈现不同程度的相关,机械行业表现得最明显。表211 制造业上市公司行业有关指标的相关系数行 业 分 类主营业务收入与总资产净资产与总资产净资产收益率与净利润净资产收益率与每股收益C0食品、饮料0.810.900.590.85C1纺织、服装、皮毛0.830.860.640.85C3造纸、印刷0.850.880.550.92C4石油、化工0.960.950.360.89C5橡胶、塑料0.960.970.880.94C6金属、非金属0.880.960.460.90C7机械、仪表、设备0.860.850.270.
36、52C8通信、电子0.920.930.370.65C9其他0.810.390.080.06合 计0.910.930.250.532制造业业绩指标间的回归分析回归分析是用函数关系近似描述相关关系的表现形式,它反映的是变量之间的一种变动规律。一般地,选择哪种形式的回归模型可以通过:观察散点图;根据专业知识和经验判断。本案例中,除以上两点外,还可以根据相关系数判断,由于皮尔生积矩相关系数是对两变量线性相关程度的侧度,所以对显著相关程度以上的变量可建立线性回归函数来模拟变量间的关系,即:(1)主营业务收入与总资产的回归分析由于主营业务收入与总资产的线性相关系数最大,以主营业务收入为因变量Y, 总资产为
37、自变量X,用560家制造业公司数据建立一元线性回归方程: Excel“工具”栏中“数据分析”的“回归”提供了相关和回归分析的结果: Multiple R相关系数; R Square判定系数; Adjusted R Square调整的判定系数 标准误差估计标准误; 观测值X 、Y变量的对数。 方差分析有关指标含义见表212。 表212dfF值Significance F回归分析回归偏差自由度回归偏差平方和回归偏差平均平方和残差剩余偏差自由度剩余偏差平方和剩余偏差平均平方和总计总偏差自由度总偏差平方和总偏差平均平方和 Intercept截距a; X Variable一元回归的回归系数b; 标准误差截距a的标准差为;回归系数b的标准误差为; T统计量对a和b检验时采用的统计量; P-value P值; Lower95%, Uooer95%;截距a或回归系数b的95%置信峡县、置信上限;此为墨任值,若选择其他置信水