1、山东交通学院毕业论文山东交通学院毕业生毕业论文(设计)题目:聚类分析在证券市场分析中的应用摘 要本文随机选取了40家在沪深上市的山东省的公司企业,选择每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率5项指标评价体系。通过系统聚类分析方法对这40家公司企业的股票进行聚类分析,以此对股票的收益性、成长性等方面进行分析,帮助投资者准确地把握股票的总体特性以及预测股票的成长能力,使投资者及时做出最佳的投资决策,进而获得可观的投资回报。最后在聚类分析的基础上,对聚类分析结果采用方法进行检验,以此来进一步验证分析结果的可靠性和可信性。此研究表明聚类分析方法在证券市场投资分析中具有有效性和
2、实用性。关键词:聚类分析,证券市场投资,方法,投资回报AbstractIn this paper, we randomly selected 40 companies in Shandong province which were listed in Shanghai and Shenzhen stock market, and we choice the five indicators evaluation system that are the earnings of per share, the net assets of per share, the growth rate of th
3、e main business revenue, the growth rate of the main business profit and the yield of the net assets. In order to help investors to accurately grasp the overall features of the stock and the growth ability of the stock, we effectively use the method of the system clustering analysis to analyze the s
4、tocks profitability, growth, etc, which were mentioned above the stocks of the 40 companies. Above all, this can help investors to make the best investment decisions, and get considerable returns in a timely manner. Finally, in order to further verify the reliability and credibility of analysis resu
5、lts, we use means methods to test the results of cluster analysis. The study shows that the method of clustering analysis has validity and practicability in the securities market investment analysis.Key words: Clustering analysis, Stock market investment, Means method, Return on investment 目 录1绪论11.
6、1论文研究的背景及意义11.2 聚类分析在证券市场分析中的应用价值21.3 聚类分析在证券市场分析中应用的优点21.4 聚类分析在证券市场分析中应用的当前状况21.5本文的研究内容及内容结构31.5.1 研究内容31.5.2 内容结构32聚类分析42.1聚类分析的基本思想42.2聚类分析的方法42.3系统聚类法的基本思想和基本步骤52.3.1样本间距离的度量62.3.2类间距离的度量82.4 系统聚类分析方法的比较92.5系统聚类法中类个数的确定问题103聚类分析在证券市场分析中的应用123.1 聚类分析在证券市场分析中应用时的指标评价体系的选择123.1.1盈利能力指标123.1.2成长能力
7、指标123.1.3扩张能力指标133.2实证研究143.2.1原始样本数据标准化153.2.2用软件对样本公司股票进行聚类分析173.2.3分类个数的确定223.2.4聚类结果243.2.5对聚类结果进行检验253.2.6结果分析264总结和展望29总结30411绪论1.1论文研究的背景及意义改革开放以来,随着我国市场经济的迅速、健康发展,国民的金融意识和投资意愿日益增强,而作为市场经济的重要组成部分证券市场,正渐渐地走向成熟,越来越多的投资者把目光投向了股票,历史已经证明,股票不仅在过去是一种已经给投资者提供了可观的长期收益,并且在将来也会是提供良好机遇的投资媒介。一直在宾夕法尼亚大学沃顿商
8、学院担任金融学教授的杰里米西格尔,他在其名著长期股票投资中就曾经说到:“尽管未来回报率可能比过去低,但是仍然存在强有力的证据让我们相信,对于所有追求经济平稳和长期收益的投资者而言,股票还是最好的投资方式。”然而,正如日常生活中那样,股市变幻莫测、股价涨跌无常,投资者要想在股市投资中赢取可观的投资回报,就需要认真研究上市公司的业绩和发展前景,找出真正具有投资价值的股票,从而作出投资决策,进而进行投资。俗话说:“物以类聚,人以群分”,在自然科学和社会科学中,存在着形形色色的分类问题。所谓的类,通俗地讲,就是指由相似元素组成的集合。聚类分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析
9、起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求也越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学中形成了聚类分析。聚类分析的比较典型应用是在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群体,并且用相应适当的模式来刻画不同客户群的特征。比如,在经济学中,为了了解不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型;在生物学中,聚类分析能用于推导植物和动物的分类,对基因进行分类,从而
10、获得对种群中固有结构的认识;在产品质量管理中,聚类分析可以根据各产品的某些重要指标而将其分为一等品、二等品等。又如,在Web上的文档中,聚类分析也能用于对Web上的文档进行分类,从而发现信息。聚类分析即是研究分类问题的数据分析方法。1.2 聚类分析在证券市场分析中的应用价值聚类分析建立在基础分析之上,立足于对股票的基本层面进行量化分析。鉴于基础分析对影响股票价格的诸多因素这一定性分析的不足,聚类分析则很好地弥补了这一缺陷。作为进行长期投资的理性投资者的参考依据,其目的在于从股票基本层面决定的内在价值中发现股票的真正投资价值。另外,在聚类分析模型的建立过程中,我们进一步考虑了公司的成长能力,它对
11、股票的投资价值有着重要影响。成长能力是一个不断变化的趋势,因此我们选取了较能反映公司成长能力的客观指标,如主营收入增长率、主营利润增长率,以便更好地探究股票的成长能力,进而使投资者能够更好地、正确地预测股票的发展前景和发展潜力。1.3 聚类分析在证券市场分析中应用的优点与现代投资组合理论相比,聚类分析方法显得更加直观、实用,并且在应用时所受的局限性小、操作性强,具有一定的优越性,适合于广大投资者采用。聚类分析建立的是一种长期投资理念,因此,在全球金融一体化、自由化浪潮下,并且在我国的证券市场逐步走向成熟的过程中,提倡运用这种理性的投资分析方法,理性的作出投资决策,这样不但可以降低投资风险、规范
12、投资行为,而且有利于促进上市公司更好地参与市场竞争,促进我国证券市场的稳定、健康发展,从而建立一个良好的国内金融市场秩序。另外,单纯从聚类分析这一方法来讲,聚类分析通过对样品或指标(变量)之间存在的相似程度进行度量,将“相似”的归并成类。体现出以下三大显著的优点:(1)能综合利用多个变量对样本进行分类;(2)分类结果更加直观,具体体现是聚类谱系图,从聚类谱系图中,我们可以很清楚地观察其分类结果;(3)聚类分析所得到的结果比传统分类方法更细致、全面、合理。这些优点足以更加有利于我们将聚类分析方法应用在证券市场分析中。1.4 聚类分析在证券市场分析中应用的当前状况聚类分析是一种行之有效的指导证券投
13、资的方法。聚类分析首先对各类股票的公司因素、收益性、成长性、扩张性等基本层面进行考察,然后再利用综合指标评价体系来衡量样本股票的“相似程度”。利用聚类分析模型能够帮助投资者准确地了解和把握股票的总体特性,以便及时地作出投资决策,进行投资。在证券投资方面,聚类分析还有很大的发掘空间和研究价值。目前,国内颇具有代表性的研究大多仅仅局限于板块分析,选用的指标也仅仅反映了上市公司的盈利水平,尚不能全面反映股票的总体特性。在现有的研究基础上,本文深入探讨了聚类分析在证券投资中的应用价值,丰富和完善了在证券市场分析中应用聚类分析时的指标体系。1.5本文的研究内容及内容结构1.5.1 研究内容本文阐述了聚类
14、分析的理论背景,主要研究了用系统聚类分析方法对样本数据进行分组,但是,我们并不知道样本数据的分组是否合理,因此再利用方法对其进行检验,从而使得聚类精度有所提高,进而增加分析结果的可靠性和可信性。1.5.2 内容结构本论文共分四章,具体的内容结构如下:第一章是绪论,介绍了论文研究的背景及意义。第二章详细介绍了聚类分析的基础理论,系统聚类法的基本思想、基本步骤、距离度量和类个数的确定问题。第三章给出了聚类分析方法在证券投资市场中的具体应用,并采用方法对分析结果进行检验,证明其有效性。第四章是对聚类分析方法在证券投资市场中的应用进行总结和展望。2聚类分析聚类分析是把数据集分解或划分成多个类或组,使同
15、一组中的数据比较相似,不同组的数据差别较大。通过聚类,可以识别数据之间的相似程度,从而发现数据集的分布模式和数据的属性之间的相互关系。2.1聚类分析的基本思想聚类分析的基本思想是认为研究的数据集中的数据之间存在不同程度的相似性,根据数据的几个属性,找到能够度量它们之间相似程度的量,把一些相似程度较大量的归为一类,另一些相似程度较大的量归为另一类,即同一组内的数据对象之间具有较高的相似程度,而不同组中的数据对象之间是不相似的。而对这种数据对象之间的相似或不相似程度的描述又是由数据属性的取值来确定的,通常就是利用各数据对象之间的距离来表示的。2.2聚类分析的方法聚类分析的内容非常丰富,从其聚类的方
16、法来看,可分为以下几类:(1) 谱系聚类法:谱系聚类法又称系统聚类法,它是在给出样品间的距离和类与类间的距离定义的基础上,先将每个样品各自当作一类,计算出各类(即各样品)之间的距离,再将最近的两类合并聚为小类,将已聚合的小类按其相似程度(用类间距度量)再聚合,依此类推,每次减少一类,随着相似程度的减弱,直到最后将全部样品合成一类,并类的全部过程可以用聚类谱系图来描述。(2) 快速聚类法:快速聚类法又称动态聚类法,它的基本思想是,先确定若干个中心,然后将样本逐个输入,看看样品能否归属哪类,如果可以归属已有的某个类,则归之,且对该中心稍作调整;否则可以建立新类,并调整原有的归属及重新计算新的各类的
17、中心;如此继续下去,直到每个样品皆有归属为止。这种方法可以大大地提高计算速度,但由于初始中心的个数及位置的选取、样品输入的顺序都可能对最后结果产生某些影响,所以在实际运用时要慎重。(3) 最优分割法:最优分割法又称有序样品聚类法,它是先将全部样品当成一类,然后根据某种最优准则适当地将其分割为两类,再分为三类,直到最后将样品分割为所需的类为止。(4) 模糊聚类法:模糊聚类法是利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。(5) 图论聚类法:图论聚类法是利用图论中最小支撑树的概念来处理分类问题,由此也创造了颇具风格的一种方法。(6) 聚类预报法:聚
18、类预报法是利用聚类方法来处理预报问题。我们知道,在多元统计分析中,如回归分析和判别分析都可以用来作为预报的方法,但是对于那些存在异常数据,例如在灾害性气候的气象预报中,此时若还利用回归分析或判别分析的方法来处理,其效果都不好,而聚类预报弥补了这一不足缺陷。另外,聚类分析根据分类对象的不同,分为型和型两大类:型聚类分析是对变量(或指标)进行分类处理,其作用在于:可以了解变量间及变量组合间的亲疏关系;可以根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析等。型聚类分析是对样本进行分类处理,其作用在于:能利用多个变量对样本进行分类;分类结果直观,聚类谱系图能明确、清楚地表达其
19、分类结果;所得的结果比传统的分类方法更细致、全面、合理。 当使用不同的分类方法时,往往会得到不同的分类结果,更何况对于任何观测数据都不会存在唯一“正确”的分类方法。在实际工作中,仍以系统聚类法使用的最多,系统聚类法是目前在实际应用中使用最多的一类方法。因此,在本论文中就使用系统聚类法,即谱系聚类法,并且是进行型的聚类分析。2.3系统聚类法的基本思想和基本步骤设有个样本,并且每个样本都有个变量(或指标)。系统聚类法的基本思想是:首先定义样品间的距离和类与类之间的距离,开始时先将每个样品各自当作一类,此时样本间距离与类间距离是等价的,再将最近的两类合并聚为小类,将已聚合的小类按其相似程度(用类间距
20、度量)再聚合,依此类推,每次减少一类,随着相似程度的减弱,直到最后将全部样品合成一类,并类的全部过程可以用聚类谱系图形象地表达出来。由上述系统聚类法的基本思想,可以得出利用系统聚类法进行聚类分析的基本步骤:数据标准化:我们所考察的样本数据有不同变量(或指标)时,这些变量(或指标)一般都有不同的量纲、不同的数量级单位、不同的取值范围。为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对数据进行归一化或标准化处理。并且,还要选择样本之间和类之间距离度量的方法;计算个样本两两之间的距离,得到样本间的距离矩阵;刚开始第一步时,将个样本各自看成一类,此时类的个数,样本间的距离就是类间的距离
21、,然后对步骤执行聚类的步骤和;每次合并类间距离最小的两类为一新类,即此时类的总数减少了1,此时类的总数为;继续计算新类与其它类之间的距离,得到新的距离矩阵。如果合并后类的个数仍然大于1,则重复步骤和,直到类的总个数是1时为止;画出聚类谱系图;决定分类的个数以及各类的成员。2.3.1样本间距离的度量聚类问题中有个数据,每个数据有个变量(即属性),表示数据的第个属性,则数据集的所有变量可用如下矩阵表示: (2.1)由于变量的多样性,其取值可能是连续值的区间变量、二元变量、序数变量、名义变量等,它们的处理方法是不同的,如工资水平、股票价格、利率、汇率等可以用连续值表示的称为连续变量,由于使用的变量单
22、位不同等诸多因素,它们的值可能相差比较悬殊,为使各变量在聚类分析中地位相同,就需要对数据进行归一化即标准化处理。两个数据的接近程度用距离表示,样品之间的距离,一般要求它满足下列条件:(1)且当且仅当; (2);(3)。在聚类分析中,有些“距离”不满足(3),我们在广义的角度上仍称它为“距离”。常用的距离有:欧式距离、明科夫斯基距离、马氏距离等。下面就简要介绍几种聚类分析中的常用距离:设是我们所关心的个指标,对此指标进行次观测,从而得到组观测值:,称这组观测数据为个样品。这时,每个样品可看成维空间的一个点,个样品组成维空间的个点,我们自然就可以用各个样本点之间的距离来衡量各样品之间的相似程度。(
23、1)欧氏距离 (2.2)(2)Minkowski距离(明科夫斯基距离) (2.3)其中。Minkowski距离又称距离,距离即欧氏距离。(3)马氏距离 (2.4)其中是由样品算得的样本协方差矩阵:,其中马氏距离适用于作为随机变量的样本点,并且马氏距离用于已知类别的模式情况,而我们所选定的家公司股票的类别是未知的,因此该距离不能用;明科夫斯基距离是一种范式,也就是说欧氏距离是明科夫斯基距离的一种特殊形式,即在式中时,此时的明科夫斯基距离即欧氏距离。因此,在此处我们选择欧氏距离来度量样本间的距离,欧氏距离是聚类分析中用得最广泛的距离。但是,鉴于本论文中选取的5项指标:每股收益、每股净资产、主营收入
24、增长率、主营利润增长率和净资产收益率,正如在本节“2.3.1样本间距离的度量”中提到的,它们皆为连续变量,而欧氏距离平方最适合对连续变量进行数据处理,因此,在本论文中,对于样本间距离的选择问题,我们选择欧氏距离平方,软件中对应选择,由式很容易得到欧氏距离平方: (2.5)2.3.2类间距离的度量距离作为对样品之间的相似程度的度量是聚类分析的基础。为了研究问题的方便,分别以表示样品,简记是样品之间的距离, 设和为两个类,含样品数和。类的重心。类与类之间的距离记为类间距离的常用定义方法如下:最短距离,即两类中样品之间距离最短者作为类间距离;最短距离法的特点是样品有链接聚合的趋势,这是其缺点,不适合
25、一般数据的分类处理,除去特殊数据外,不提倡用这种方法。最长距离,即两类中样品之间距离最长者作为类间距离;重心距离,即两类的重心之间的距离作为类间距离;该距离随聚类地进行不断缩小。该重心距离法的谱系聚类图很难跟踪,且符号改变频繁,计算较烦。类平均距离,即两类中所有两两样品之间的平方距离的平均作为类间距离;类平均距离法是一种使用比较广泛、聚类结果较好的方法,而类平均距离法又有两种形式:组间联结法和组内联结法。这两种方法相对而言,组间联结法更能充分的使用样本数据材料,因此,本论文中采用类平均距离法中的组间联结法来度量类间距离。离差平方和在实际应用中,离差平方和方法应用比较广泛,分类效果较好,但它要求
26、样本间距离的度量必须采用欧氏距离。2.4 系统聚类分析方法的比较系统聚类法的聚类原则决定于样本间的距离和类间距离的定义,类间距离定义的不同就会产生不同的聚类分析方法,系统聚类法具有以下简单的性质:单调性:在利用系统聚类法进行并类过程中,并类距离具有单调性符合系统聚类法的基本思想,可知,最短距离法、最长距离法、类平均距离法和离差平方和法都具有单调性,但重心距离法不具有单调性;空间的浓缩与扩张以最短距离法和最长距离法的并类过程为例,对于其相应的距离,每一步都有以下性质:,对于一切的,这种性质称为最长距离法比最短距离法扩张,或称最短距离法比最长距离法浓缩;由以上可对系统聚类法有以下结论:类平均距离法
27、比最短距离法扩张,且比最长距离法浓缩;类平均距离法比重心距离法扩张,且比离差平方和方法浓缩。而我们知道,太扩张的方法当样本数量较大时容易失真,太浓缩的方法又不够灵敏。类平均距离法相对比较适中,相对其它方法既不太扩张也不太浓缩,而且具有单调性,因而类平均距离法是一种应用广泛、聚类结果较好地方法。根据这一节和上一小节“2.3.2类间距离的度量”的分析和比较,可以更加让我们相信,选择类平均距离法中的组间联结法来度量类间距离是比较合理的。2.5系统聚类法中类个数的确定问题在聚类分析方法中,样本到底该分为几类,究竟哪些样品将归于一类,分析前是不知道的。在进行聚类分析时,如何确定类的个数是个较难的问题,虽
28、然有一些统计方法试图给出判断准则,但是人们至今仍未找到令人满意的方法,但在聚类分析中这又是一个无法回避的问题。那么,我们如何确定较为合理的分类个数呢?以下就简要得介绍几种确定类个数的常用方法:根据数据点的散布图直观地确定分类个数如果考察的指标只有个即,则可通过数据点的散点分布图来直观地确定类的个数。如果有个变量,可以绘制三维空间的散点分布图,并且通过旋转三维坐标轴由数据点的分布来确定应该分为几类。当然,如果考察的指标多于个时,可以先通过降维的方法把这些指标进行综合,综合出个或个指标,从而转化为个变量或个变量情况,再绘制二维或三维的数据点的散布图来确定合适的分类个数。但是,该方法从其降维过程来看
29、,比较繁琐。根据聚类谱系图确定分类个数经过系统聚类法处理后,会得到相应的聚类谱系图,那么,如何根据聚类谱系图确定分类个数呢?提出了应根据研究的目的来确定适当的分类个数,并提出了一些根据谱系图来分类的准则,准则如下:A. 任何类都必须在临近各类中是突出的,即各类重心间距离必须要大;B. 确定的类中,各类所包含的元素都不要过分的多;C. 分类的数目必须符合实用目的;D. 若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。根据聚类分析的“碎石图”确定分类个数在系统聚类过程中,首先把离得近的类进行合并,所以在并类过程中的聚合系数会呈现出增加趋势,聚合系数小表示合并的两类的相似程度较大,而
30、两个差异很大的类并在一起时,会使聚合系数很大。因此,如果以轴表示聚合系数,轴表示分类数,画出聚合系数随着分类数变化的曲线图(或散点图),这样就会得到类似于因子分析中的碎石图,从而,我们可以在曲线开始变得平缓时的点处,选择较为合适的分类数。可见,该方法较前两种方法而言,显得更加简洁、直观,因此,本论文中采用“碎石图”来确定比较合适的分类个数。3聚类分析在证券市场分析中的应用本文中,选取了每种股票的每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率5项指标评价体系,首先利用聚类分析方法对各类股票的基本层面进行考察,然后再利用综合指标评价体系,如收益性、成长性、扩张性等来衡量样本股票
31、的“相似程度”。以此能够更好地帮助投资者准确地了解和把握股票的总体特性,以便及时地作出投资决策、进行投资。鉴于聚类分析在证券投资方面还有很大的发掘空间和研究价值。本文在现有的研究基础上,深入探讨了聚类分析在证券投资中的应用价值,丰富和完善了在证券市场分析中应用聚类分析时的指标体系。3.1 聚类分析在证券市场分析中应用时的指标评价体系的选择3.1.1盈利能力指标每股收益越高,反映出公司或行业的投资收益就越高,每股的获利能力就越强;净资产收益率反映了股东权益的收益水平,用以衡量公司运用自有资本的效率。净资产收益率越高,说明投资带来的收益就越高。3.1.2成长能力指标主营收入增长率用来衡量和判断公司
32、发展所处的阶段,以使投资者较为准确地判断该公司或行业正处于成长期、稳定期或衰退期,进而作出较为合理的投资决策;经营业绩良好的上市公司会表现出较高的成长性,成长性好的上市公司的盈利也会相应增强。主营收入增长率和主营利润增长率都反映了公司扩大市场规模的能力,表明公司重点的发展方向。一般来说,主营利润稳定增长且占利润总额的比例呈增长趋势的公司正处在成长期。一些公司尽管年度内的利润总额有较大幅度的增加,但主营业务利润却未相应增加,甚至会出现大幅下降,这样的公司质量其实并不高,可能存在着资产管理的费用即成本居高不下的问题,也可能存在着着巨大的风险。因此投资者对于投资这样的公司,要提高警惕。 3.1.3扩
33、张能力指标每股净资产是每股所代表的股东权益额,它反映了每股最低限度的内在价值。以上建立的指标评价体系可用以下框图表示: 指标评价体系框图3.2实证研究利用本文随机选取的在沪深上市的40家山东省的公司企业,选择每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率5项指标评价体系,随机选取的样本指标数据来自证券之星数据中心的财务指标。本文利用的是软件,通过系统聚类分析方法对这40家公司企业的股票进行聚类分析,分别将它们归类,为之后投资者提供决策依据。详细样本数据见表3.1:表3.1 选取的40家上市公司企业的样本数据代码简称每股收益每股净资产主营收入增长率(%)主营利润增长率(%)净
34、资产收益率(%)000423东阿阿胶0.67733.6723.9737.1116.32000880潍柴重机0.652.5297.89158.0125.68300121阳谷华泰0.622.185.149.3428.32200726鲁泰B0.573.942.9216.614.55300208恒顺电气0.541.8538.0553.9337.19600547山东黄金0.534.0517.5520.5625.97002355兴民钢圈0.52.38.5849.4221.62300175朗源股份0.471.959.6649.5923.6002073软控股份0.424.1523.6442.4714.3730
35、0110华仁药业0.41.9639.0137.7519.36002526山东矿机0.37212.322436.6816.07002470金正大0.351.6714.442.8521.24300285国瓷材料0.324.435.743.1626.52600350山东高速0.3132.8220.09-1611.23000756新华制药0.223.5710.73273.466.26600017日照港0.192.7135.628.229.18600986科达股份0.171.8750.28659.39.24600756浪潮软件0.163.82-23.26-8.014.24600336澳柯玛0.151.4
36、52530.82907.7310.47600027华电国际0.1892.3214.71148.127.33000739普洛药业0.13283.019.3929.64.42000416民生投资0.12281.320.09830.219.27600467好当家0.122.0311.23-39.375.86000957中通客车0.092.25-15.07-22.053.77600789鲁抗医药0.062.6210.944.482.47600022山东钢铁0.02152.2716-41.16-88.490.95000682东方电子0.021.369.218.551.47300105龙源技术1.334.
37、3317.1316.5230.67300237美辰科技1.192.6792.28112.443.87002588史丹利1.085.3711.1318.9420.19600690青岛海尔1.0345.80646.9793.5517.78000951中国重汽1.026.816.08-814.98002458益生股份12.859.9716.5335.15600600青岛啤酒0.95036.2112.560.6614.9300233金城药业0.93.132.5858.2528.9600188兖州煤业0.78895.77-18.41-37.4613.68002581万昌科技0.722.2420.6267
38、.245.35600060海信电器0.6733.4937.29128.6610.15601678滨化股份0.631.2655.68183.9532.15600219南山铝业0.527.030.6611.46.3由表3.1可知,该实际问题中有家公司,即总共有个样本数据,每个样本数据又有个指标变量(即属性),则由第二章的样本数据矩阵可知,表3.1数据集中的所有数据可用如下矩阵表示: 3.2.1原始样本数据标准化由于选取不同的指标,并且不同的指标具有不同的量纲,为了使所有的样本指标数据能够放到一起加以比较,以便更好地进行聚类分析,就需要我们对原始样本数据进行标准化处理,以消除由于各指标变量的量纲不同
39、或数量级相差很大对分析带来的影响。常用的数据标准化方法主要有:极差正规化变换、极差标准化变换和标准化变换。为了便于后面的说明,在此作出如下设定:所有样本表示为:,均值表示为:,标准差表示为:,极差表示为:(1)极差正规化变换: (3.1)此方法变换后的数据最小为0,最大为1,其余在区间0,1内,极差为1,无量纲。(2)极差标准化变换: (3. 2)此方法变换后的数据均值为0,极差为1,且 ,消去了量纲的影响。 由以上两种方法可知,这两种方法都采用极值化法对数据进行无量纲化,都是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响。但是,由于极值化法
40、在对变量进行无量纲化过程中,仅仅与该变量的最大值和最小值这两个极端值有关,而与其它取值无关,这使得该方法在改变各变量权重时过分依赖两个极端的取值。如果两个变量取值相近,其分析权重近似相同,但在原始变量数据中存在明显的极大值时,会造成两个变量的分析权重不同。结合本论文中所选取的样本数据(样本数据详见表3.1)的特点,可知这两种方法都不适合对样本数据进行标准化处理。(3)标准化变换: (3. 3)此方法变换后的数据均值为0,标准差为1,消去了量纲的影响,并且当抽样样本改变时,它仍能保持相对稳定性。另外,此方法进行标准化的同时还消除了各变量在变异程度上的差异,从而使变换后的各变量在聚类分析中的重要性
41、程度是同等看待的。综合以上比较和分析,本论文中采用标准化变换的方法对样本数据进行标准化。在软件中,对应选择即可。3.2.2用软件对样本公司股票进行聚类分析利用软件对样本公司股票进行系统聚类分析,具体操作步骤如下:(1)打开软件,导入样本数据(此处的样本数据是事先经过编辑好的数据文件,此处即表3.1中的所有数据);(2)在软件中,依次选择分析、分类、系统聚类,弹出系统聚类分析对话框;(3)在弹出的系统聚类分析对话框中,把每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率这5项指标评价体系依次导入到变量这一栏中,此处为了更清晰地了解分类结果,我们还需要把样本股票的简称导入到标注个案
42、这一栏中。这里要特别需要注意的是,在软件中,数据文件中的一列数据称为一个变量,每个变量都应该有一个变量名,一行数据称为一条个案或观测量。此处,因为我们要对样本股票进行分类,属于个案,因此,我们需要在弹出的系统聚类分析对话框中的分群这一栏中选择个案;(4)点击统计量,选择合并进程表、相似性矩阵,在聚类成员一栏中选择,因为我们现在还不知道样本股票分为几类比较合适;(5)点击绘制,选择树状图、所有聚类、垂直;(6)点击方法,在聚类方法中选择组间联接,在度量标准一栏的区间选项中选择距离,在转换值一栏的标准化选项中选择;(7)最后点击确定运行。可得到如下的输出结果:图3.1显示的是用距离计算的近似矩阵表
43、(此处由于样本数据较多,故只截取表的一部分),其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大:图3. 1 近似矩阵表3.2显示的是聚类表,该表反映的是每一阶段的聚类结果,其中的第4列系数表示聚合系数,第2列和第3列表示的是聚合的类,此聚类表是为本论文在后面通过画“碎石图”来确定合适的分类个数做铺垫,并且由表3.2可知,聚类过程总共进行了39次:表3.2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2178.08900422125.15200533234.35300134712.35710952123.417201061011
44、.463001573335.5170025819.6520011937.6990424102021.77805141114.807801912613.8870023133032.9180322142027.947100181510161.12260241624261.1670021175391.21400271814201.33801426191381.421110232019221.50600302118241.513016312230362.0061302923162.084191228243102.096915282528332.22607352614152.42318031275372.5321703528132.8182324342930403.15622