收藏 分销(赏)

标准差(方差)的概念与应用.doc

上传人:s4****5z 文档编号:8820619 上传时间:2025-03-03 格式:DOC 页数:17 大小:182KB 下载积分:10 金币
下载 相关 举报
标准差(方差)的概念与应用.doc_第1页
第1页 / 共17页
标准差(方差)的概念与应用.doc_第2页
第2页 / 共17页


点击查看更多>>
资源描述
标准差   公式 标准差也被称为标准偏差,或者实验标准差,公式如图。   简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。   例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。   标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。   标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越细,代表回报较为稳定,风险亦较小。   例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为17.07分,B组的标准差为2.37分(此数据时在R统计软件中运行获得),说明A组学生之间的差距要比B组学生之间的差距大得多。   如是总体,标准差公式根号内除以n   如是样本,标准差公式根号内除以(n-1)   因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)   公式意义   所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一),再把所得值开根号,所得之数就是这组数据的标准差。 [编辑本段] 标准差的意义   标准差越高,表示实验数据越离散,也就是说越不精确   反之,标准差越低,代表实验的数据越精确 [编辑本段] 离散度   标准差是反应一组数据离散程度最常用的一种量化形式,是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目 的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值 是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。   虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,基检测值应该很紧密的分散在真实值周围。如何不紧密,那距真实值的就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的 最重要也是最基本的指标。   一组数据怎样去评价和量化它的离散度呢?人们使用了很多种方法: 极差   最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。 离均差的平方和   由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。   但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对 值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度 一个指标。 方差(S2)   由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好指标。   样本量越大越能反映真实的情况,而算数均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。 标准差(SD)   由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。   在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。 变异系数(CV)   标准差能很客观准确的反映一组数据的离散程度,但是对于不同的检目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。 [编辑本段] 标准差与平均值之间的关系   一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一“自然”的测量。    定义公式:    标准差与平均值定义公式 [编辑本段] 标准差公式   1、方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/n   2、标准差=方差的算术平方根 [编辑本段] 几何学解释   从几何学的角度出发,标准差可以理解为一个从 n 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3。它们可以在3维空间中确定一个点 P = (X1,X2,X3)。想像一条通过原点的直线 。如果这组数据中的3个值都相等,则点 P 就是直线 L 上的一个点,P 到 L 的距离为0, 所以标准差也为0。若这3个值不都相等,过点 P 作垂线 PR 垂直于 L,PR 交 L 于点 R,则 R 的坐标为这3个值的平均数: 公式   运用一些代数知识,不难发现点 P 与点 R 之间的距离(也就是点 P 到直线 L 的距离)是。在 n 维空间中,这个规律同样适用,把3换成 n 就可以了。 [编辑本段] 标准差与标准误的区别   标准差与标准误都是心理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。   首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。 标准差(standard deviation, STD)   表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差收到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个侧样测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。 标准误(standard error, SE)   表示的是抽样的误差。因为从一个总体中可以抽取出无多个样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本人数的开平方来计算的。从这里可以看到,标准误更大的是受到样本人数的影响。样本人数越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表样本。 [编辑本段] Excel函数   关于这个函数在EXCEL中的STDEVP函数有详细描述,EXCEL中文版里面就是用的“标准偏差”字样。但我国的中文教材等通常还是使用的是“标准差”。   在EXCEL中STDEVP函数是另外一种标准差,也就是总体标准差。在繁体中文的一些地方可能叫做“母体标准差”   在R统计软件中标准差的程序为: sum((x-mean(x))^2)/(length(x)-1) [编辑本段] 外汇术语   标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。   在excel中调用函数   “STDEV“   估算样本的标准偏差。标准偏差反映相对于平均值 (mean) 的离散程度。 [编辑本段] 样本标准差   在真实世界中,除非在某些特殊情况下,不然找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。 [编辑本段] 应用实例 选基金   在投资基金上,一般人比较重视的是业绩,但往往买进了 基金的算法 近期业绩表现最佳的基金之后,基金表现反而不如预期,这是因为所选基金波动度太大,没有稳定的表现。   衡量基金波动程度的工具就是标准差(Standard Deviation)。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。   比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。建议投资人同时将收益和风险计入,以此来判断基金。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的"每单位风险收益率"为2(0.36/0.18),而B基金为3(0.24/0.08)。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金反而更为优异。   另外,标准差也可以用来判断基金属性。据晨星统计,今年以来股票基金的平均标准差为5.14,积配型基金的平均标准差为5.04;保守配置型基金的平均标准差为4.86;普通债券基金平均标准差为2.91;货币基金平均标准差则为0.19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高,投资人不妨在观赏奥运比赛的同时,也检视一下手中的基金。 股市分析中   股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画(Markowitz,1952)。下表是中国和美国部分时段的股票统计指标,其中中国证券市场的数据由“钱龙”软件下载,美国证券市场的数据取自ECI的“World Stock Exchange Data Disk”。 表2股票统计指标    年份 业绩表现 波动率 上证综指 标准普尔指数 上证综指 标准普尔指数 1996 110.93 16.46 0.2376 O.0573 1997 -0.13 31.01 O.1188 O.0836 1998 8.94 26.67 O.0565 O.0676 1999 17.24 19.53 O.1512 0.0433 2000 43.86 -10.14 0.097 0.0421 2001 -15.34 -13.04 O.0902 O.0732 2002 -20.82 -23.37 O.0582 O.1091   通过计算可以得到:   上证综指业绩期望值≈(110.93-0.13+8.94+17.24+43.86-15.34-20.82)/7=20.67   上证波动率期望值≈0.1156   标准普尔业绩期望值≈6.7214   标准普尔波动率期望值≈0.0680   而标准差的计算公式则根据公 分析图2 式(2)计算:   上证综指的业绩标准差   上证波动率标准差≈0.0632   标准普尔指数业绩标准差≈21.71   标准普尔波动率标准差≈0.02365   因为标准差是绝对值,不能通过标准差对中美直接进行对比,而变异系数可以直接比较。计算可得:   上证业绩变异系数≈45.2457/20.67≈2.1889   上证波动率变异系数≈0.0632/0.1156≈0.5467   标准普尔业绩变异系数≈21.71/6.7214≈3.2299   标准普尔波动率变异系数≈0.02365/0.0680≈0.3478   通过比较可以看出上证波动率变异系数要大于标准普尔波动率变异系数,说明长期来讲中国股市稳定性相对较差,还是一个不太成熟的股票市场。 标准差在确定企业最优资本结构中的应用   资本结构指的是企业各种资金来源的比例关系,是企业筹资活动的结果。最优资本结构是指能使企业资本成本最低且企业价值最大的资本结构;产权比率,即借入资本与自有资本的构成比例,是反映企业资本结构的重要变量。企业的资产由债务性资金和权益性资金组成,但其 分析图 风险等级和收益率各不相同。根据投资组合理论,投资的多样化可以分散掉一定的风险,因此资金提供者需要决定投资于债务性资金和权益性资金的比例。以便在权衡风险和收益的情况下保证其利益的最大化。   理论探索而外部资金提供者利益的最大化也就是企业价值的最大化,这一投资比例对于企业融资而言也就是企业的最优资本结构比例。   假定某企业的资金通过发行债券和股票两种方式获得,并且都属于风险性资产。σ其中债券的收益率为rD,风险通过标准差σD来衡量;股票的收益率为rE,风险为σE;股票和债券的相关系数为pDE,协方差为COV(rD,rE);债券所占的比重为wD,股票所占比重为WE(WD + WE = 1)。根据投资组合理论,企业外部投资者对该企业投资所获的期望收益率为E(rp) = WDE(rD) + wEE(rE),方差为 方差   1、企业债务性资金和权益性资金完全正相关,即相关系数pDE为1。企业外部投资者获得的期望收益率为E(rp) = wDE(rD) + wEE(rE),风险标准差为σ = wDσD + wEσE,也就是组合的标准差等于各个部分标准差的加权平均值,通过投资组合不可能分散掉投资风险。根据投资组合理论,投资组合的不同比例对于投资者而言是无差异的。   2、企业债务性资金和权益性资金完全负相关,即其相关系数为-1。投资者获得的报酬率的期望值及其方差分别为。根据投资组合理论,只有当投资比例大于σE / (σD + σE)时其投资组合才是有效的。对于企业筹资而言,也即企业的权益性资金的比例大干σE / (σD + σE),企业的筹资比例才是有效的,而且当组合比例为σE / (σD + σE)时,企业的筹资组合风险为零。   3、企业债务性资金和权益性资金的相关系数大于-1小于1。理论上,一个企业的两种筹资方式之间的相关程度较高,一方面两种筹资方式都承担系统风险,另一方面它们也承担相同的公司风险。因此从实践来看,企业的不同筹资方式间的相关程度不可能是完全的正相关和负相关。对于一个企业而言,债务性资金对企业有固定的要求权,权益性资金对企业只有剩余要求权,因此债务性资金的波动不可能像权益性资金的波动那么大。同时企业的风险会同时影响企业的债务性资金和权益性资金,因此企业的债务性资金和权益性资金的相关系数不可能为负数。企业不同的筹资方式间的相关系数一般在0-1之间。   那么究竟在什么比例下企业的价值才会达到最大呢?根据投资组合理论,当E(r1) > E(r2),且 方差3 时,才能出现r1,优于r2。可见,决定企业资本结构的直接因素主要是不同筹资方式的收益率和风险以及它们之间的相关系数。 第一节    方差与标准差    方差(Variance)也称变异数、均方。作为统计量,常用符号S2表示,作为总体参数,常用符号σ2表示。它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。方差,在数理统计中又常称之为二阶中心矩或二级动差。它是度量数据分散程度的一个很重要的统计特征数。标准差(Standard deviation)即方差的平方根,常用S或SD表示。若用σ表示,则是指总体的标准差,本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用S2,标准差的符号用S。符号不同,其含义不完全一样,这一点望读者能够给予充分的注意。 一、方差与标准差的计算 (一)未分组的数据求方差与标准差 基本公式是: (3—la) (3—1b) 表3—1说明公式3—1a与3—1b的计算步骤 表3—1 未分组的数据求方差与标准差 Xi Xi—X=x x2=(Xi—X)2 Xi2 6 5 7 4 6 8 0 -1 l -2 0 2 0 l 1 4 0 4 36 25 49 16 36 64 N=6 ∑Xi=36 ∑x=0 ∑x2=10 ∑Xi2=226 应用3—1公式的具体步骤:①先求平均数X=36/6=6;②计算Xi -X;③求(Xi - X)2即离均差x2;④将各离均差的平方求和 (∑x2);⑤代入公式3—1a与3—1b求方差与标准差。具体结果如下: S2=10/6=1.67 (二)已分组的数据求标准差与方差 数据分组后,便以次数分布表的形式出现,这时原始数据不见了,若计算方差与标准差可用下式: (3—3a) (3—3b) 式中d=(Xc - AM) / i,AM为估计平均数 Xc为各分组区间的组中值 f为各组区间的次数 N=Σf 为总次数或各组次数和 i为组距。 下面以表1—8数据为例,说明分组数据求方差与标准差的步骤: 表3—2 次数分布表求方差与标准差   分组 区间 Xc f d fd fd2 计 算 96- 93- 90- 87- 84- 81- 78- 75- 72- 69- 66- 63- 60- 97 94 91 88 85 82 79 76 73 70 67 64 61 2 3 4 8 11 17 19 14 10 7 3 l 1 6 5 4 3 2 1 0 —1 —2 —3 —4 —5 —6 12 15 16 24 22 17 0 —14 —20 —21 —12 —5 —6 72 75 64 72 44 17 0 14 40 63 48 25 36   S2=32* (570/100 -(28/100)2)=50.5944   S=7.113     i=3   Σf=100   Σfd=28 Σfd2=570     具体步骤: ①设估计平均数AM,任选一区间的Xc充任; ②求d ⑧用f乘d,并计算Σfd; ④用d与fd相乘得fd2,并求Σfd2; ⑤代入公式计算。 二、方差与标准差的意义 方差与标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件:①反应灵敏,每个数据取值的变化,方差或标准差都随之变化;②有一定的计算公式严密确定;③容易计算;④适合代数运算;⑤受抽样变动的影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。 除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。在描述统计部分,只需要标准差就足以表明一组数据的离中趋势了。标准差比其他各种差异量数具有数学上的优越性,特别是当已知一组数据的平均数与标准差后,便可知占一定百分比的数据落在平均数上下各两个标准差,或三个标准差之内。对于任何一个数据集合,至少有1一1/h2的数据落在平均数的h(大于1的实数)个标准差之内。(切比雪夫定理)。例如某组数据的平均数为50,标准差是5,则至少有75%(1一1/22)的数据落在50-2*5至50+2*5即40至60之间,至少有88.9%(1一1/32)的数据落在50-3*5至50+3*5=35—65之间 (h=2,1-1/h2=1-1/22=3/4=75%,h=3, -1/h2=1-1/32=8/9=88.9%)。 如果数据是呈正态分布,则数据将以更大的百分数落在平均数上下两个标准差之内(95%)或三个标准差之内 (99.%)。 三、由各小组的标准差求总标准差 由于方差具有可加性特点,在已知几个小组的方差或标准差的情况下,可以计算出几个小组联合在一起的总的方差或标准差。这种计算常在科研协作中应用,例如先了解各班学生情况,再了解全年级情况;或先了解各年级情况,再了解全校总的情况。但这种方差或标准差的合成,只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用。 计算总方差或总标准差的公式如下; (3—4a) (3—4b) 式中 为总方差 为总标准差 N1…Nn为各小组数据个数 为总平均数 为各小组的平均数 四、标准差的应用 (一)差异系数(Coefficient of variation) 当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方差的大小-标准差的值大说明该组数据较分散,若标准差小,则说明该组数据较集中。标准差的单位与原数据的单位相同,因而有时称它为绝对差异量。在对不同样本的观测结果的离散程度进行比较时,常会遇到下述情况:①两个或多个样本所测的特质不同,即所使用的观测工具不同,如何比较其离散程度?②即使使用的是同+种观测工具,但样本的水平相差较大时,如何比较它们的离散程度?在第一种情况下,标准差的单位不同,显然不能直接比较标准差的大小。第二种情况虽然标准差的单位相同,但两样本的水平不同,这可从平均数的大小明显不同确定。通常情况下,平均数的值较大,其标准差的值一般也较大,平均数的值较小,其标准差的值也较小。这种情况下,若直接比较标准差取值的大小,借以比较不同样本的分散情况是无意义的。可见,上述两种情况下,若用绝对差异量进行直接比较以确定其分散程度的大小是不行的,这时可用相对差异量进行比较。最常用的相对差异量就是差异系数。差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算如下, CV=S / M * 100% (3—5) 式中S为某样本的标准差 M为该样本的平均数。 差异系数在心理与教育研究中常用于:①同一团体不同观测值离散程度的比较,②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。 例2 已知某小学一年级学生的平均体重为25公斤,体重的标准差是3.7公斤,平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大? 解: CV体重=3.7 / 25 * 100%=14.8% CV身高=6.2 / 110 * 100%=5.64% 通过比较差异系数可知,体重的分散程度比身高的分散程度大(14.8%>5.64%)。 例3 通过同一个测验,一年级(7岁)学生的平均分数为60分,标准差为4.02分,五年级(14岁)学生的平均分数为 80分,标准差为6.04分,问这两个年级的测验分数中哪一个分散程度大? 解: CV一年级=4.02 / 60 * 100%= 6.7% CV五年级=6.04 /80 * 100%= 7.55% 答;五年级的测验分数分散程度大。 在应用差异系数比较相对差异大小时,一般应注意测量的数据要保证具有等距的尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。另外,观测工具应具备绝对零,这时应用差异系数去比较分散程度效果才更好。因此,差异系数常用于重量、长度、时间,编制得好的测验量表范围内。第三,差异系数只能用于一般的相对差异量的描述上,至今尚无有效的假设检验方法,因此对差异系数不能进行统计推论。 (二)标准分数(standard score) 标准分数又称基分数或z分数,是以标准差为单位表示一个分数在团体中所处位置的相对位置量数。 1.计算公式; Z = (X— )/ S (3—6) 式中X代表原始数据,X为一组数据的平均数,S为标准差。从公式3—6可以明了,Z分数的意义,它是一个数与平均数之差除以标准差所得的商数,它无实际单位。如果了个数小于平均数,其值为负数,如果一个数的值大于平均数,其值为正数,如果一个数的值等于平均数,其值为零。可见Z分数可以表明原数目在该组数据分布中的位置,故称为相对位置量数。 例4 某班平均成绩为90分,标准差为3分,甲生得94.2分,乙生得89.1分,求甲乙'学生的Z分数各是多少? 解:根据公式3—6 Z甲=(94.2—90) / 3 = 1.4 Z乙=(89.1—90) / 3 = -0.3 Z分数表示其原分数在以平均数为中心时的相对位置,这比使用平均数和原分数表达了更多的信息。 2.Z分数的性质 ①在一组数据中所有由原分数转换得出的z分数之和为零,其Z分数的平均数亦为零。 ②一组数据中各z分数的标准差为1。 3.Z分数的应用 ①Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。因为z分数可以表明各原数目在该组数据分布中的相对位置,它无实际单位。这样不同观测值的比较便可进行。这里所说的数据分布中相对位置包括两个意思,一个是表示某原数目以平均数为中心以标准差为单位所处距离的远近与方向;另一个意思是表示某原数目在该组数据分布中的位置,即在该数目以下或以上的数据各有多少,如果在一个正态分布(或至少是一个对称分布)中,这两个意思可合二为一。但在一个偏态分布中,这两个意思就不能统一。这一点在应用z分数时要特别注意。例如有一人的身高是170厘米,体重是65公斤(也可以是另一人的体重),究竟身高还是体重在各自的分布中较高?这是属于两种不同质的观测,不能直接比较。但若我们知道各自数据分布的平均数与标准差,这样我们可分别求出z分数进行比较。设Z身高1.70=0.5,Z体重65=1.2,则可得出该人的体重离平均数的距离要比身高离平均数的距离远,即该人在某团体中身高稍偏高,而体重更偏重些。如果该团体,身高与体重的次数分布为正态,我们还可更确切地知道该人的身高与体重在次数分布的相对位置是多少,从而进行更确切(或更数量化)的比较。 、 ②当已知各不同质的观测值的次数分布为正态时,可用z分数求不同的观测值的总和或平均值,以示在团体中的相对位置。在算术平均数一节中讲到,在计算平均数时,要求数据必须同质,否则会使平均数没有意义,但有时需要将不同质的数据合成,这时可采用Z分数。例如已知高考的各科成绩分布是正态分布,但是由于各科的难易度不同,因此,各科成绩就属于不同质的数据。以前常采取总和分数或求平均分数的方法,这是不科学的。如果应用Z分数求总和或平均数则更有意义。类似这种情况有期末成绩总和等。举例如下 表3-3 利用Z分数求总和   科目 原始分数 甲 乙 全体考生 平均数 标准差 Z分数 甲 乙 语文 政治 外语 数学 理化 85 89 70 62 68 72 53 40 72 87 70 lO 65 5 69 8 50 6 75 8 1.500 1.900 1.000 -0.600 0.125 0.375 0.500 -1.667 0.315 1.500 总计 348 350   2.500 1.505 假设二例是高等学校入学考试两名考生甲与乙的成绩分数。如果按总分录取则取乙生,若按标准分数录取则应取甲生;为何会出现如此悬殊的差别?这是由于不恰当地计算总和分数造成的,因为各科成绩难易度不同,分散程度也不同;:各门学科的成绩分数是不等价的,亦即数据是不同质的,这时应用总和分数不够科学,故此出现这类问题,科学的方法应当用Z分数合成。从Z分数可知甲生多数成绩是在平均数以上,即使有两种成绩低于平均数,差别也小。总之成绩较稳定且在分布较高处,而乙生则不然。可见应用Z分数更趋合理。 ③表示标准测验分数 经过标准化的心理与教育测验,如果其常模分数分布接近正态分布,常常转换成正态标准分数。转换公式为 Z= aZ + b (3—7) 式中Z'为正态标准分数,Z=(X— )/σ,a、b为常数,σ为测验常模的标准差。 例如早期的智力测验所测的智力指标为智商(IQ) 这种表示智力的方法有一定局限性,因为人到成年以后智力不再随年龄而增长,到了老年甚至智力有衰退。要用上面的公式表示,则不好。因此,韦克斯勒(D.Wechsler)制定新的智力量表时则用离差智商的概念表示一个人在同龄团体中的相对智力。 IQ=15Z+100 (WAIS)韦氏成人智力量表,其中Z = (X— )/ S ,X为原分数, 为某团体(或年龄组)的平均数,S为该年龄组的标准差。离差智商的常数100与15实际为总平均数与标准差。类似的标准测验分数还有:普通分类测验(AGCT)Z'=20Z+100,比纳—西蒙智力测验Z'=16Z+100等等。应用正态标准分数能更清楚地表明:某一分数在相应团体中的位置。 (三)异常值的取舍 在十个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数;根据这个原理,在整理数据时,常采用主个标准差法则,,取舍数据,即如果有一个数据的取值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值加以舍弃。以上是指数据较多的情况,如果数据个数较少,亦可根据下表所列的标准差数的一半(全距与标准差比率一半)乘以标准差,然后再求与平均数的和、差,并以此二值为界取舍数据。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 品牌综合 > 行业标准/行业规范

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服