资源描述
标准差(Standard Deviation) , 也称均方差(mean square error), 是各数据偏离平均数距离平均数, 它是离均差平方和平均后方根, 用σ表示。标准差是方差算术平方根。标准差能反应一个数据集离散程度。平均数相同, 标准差未必相同。
介绍
标准差(Standard Deviation), 在概率统计中最常使用作为统计分布程度(statistical dispersion)上测量。标准差定义为方差算术平方根, 反应组内个体间离散程度。测量到分布程度结果, 标准上含有两种性质:
为非负数值, 与测量资料含有相同单位。 一个总量标准差或一个变量标准差, 及一个子集合样品数标准差之间, 有所差异。
标准计算公式
假设有一组数值X1,X2,X3,......Xn(皆为实数), 其平均值为μ, 公式如图1
图1
.
.
标准差也被称为标准偏差, 或者试验标准差, 公式如图2。
图2
简单来说, 标准差是一组数据平均值分散程度一个度量。一个较大标准差, 代表大部分数值和其平均值之间差异较大; 一个较小标准差, 代表这些数值较靠近平均值。
比如, 两组数集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 , 但第二个集合含有较小标准差。
标准差能够看成不确定性一个测量。比如在物理科学中, 做反复性测量时, 测量数值集合标准差代表这些测量正确度。当要决定测量值是否符合估计值, 测量值标准差占有决定性关键角色: 假如测量平均值与估计值相差太远(同时与标准差数值做比较), 则认为测量值与估计值相互矛盾。这很轻易了解, 因为假如测量值都落在一定数值范围之外, 能够合理推论估计值是否正确。
标准差应用于投资上, 可作为量度回报稳定性指标。标准差数值越大, 代表回报远离过去平均数值, 回报较不稳定故风险越高。相反, 标准差数值越细, 代表回报较为稳定, 风险亦较小。
比如, A、 B两组各有6位学生参与同一次语文测验, A组分数为95、 85、 75、 65、 55、 45, B组分数为73、 72、 71、 69、 68、 67。这两组平均数都是70, 但A组标准差为18.708分, B组标准差为2.37分(此数据时在R统计软件中运行取得), 说明A组学生之间差距要比B组学生之间差距大得多。
如是总体, 标准差公式根号内除以n
如是样本, 标准差公式根号内除以(n-1)
因为我们大量接触是样本, 所以普遍使用根号内除以(n-1)
公式意义
全部数减去其平均值平方和, 所得结果除以该组数之个数(或个数减一, 即变异数), 再把所得值开根号, 所得之数就是这组数据标准差。
深蓝区域是距平均值小于一个标准差之内数值范围。在正态分布中, 此范围所占比率为全部数值之 68% 。 依据正态分布, 两个标准差之内(深蓝, 蓝)比率合起来为 95% 。依据正态分布, 三个标准差之内(深蓝, 蓝, 浅蓝)比率合起来为 99% 。
正态分布图
编辑本段标准差意义
标准计算公式 假设有一组数值(皆为实数), 其平均值为:
. 此组数值标准差为:
.
样本标准差
在真实世界中, 除非在一些特殊情况下, 找到一个总体真实标准差是不现实。大多数情况下, 总体标准差是经过抽取一定量样本并计算样本标准差估量。
从一大组数值当中取出一样本数值组合 , 常定义其样本标准差:
样本方差 s是对总体方差σ无偏估量。 s中分母为 n- 1 是因为 自由度为 n− 1 , 这是因为存在约束条件 。
这里示范怎样计算一组数标准差。比如一群儿童年纪数值为 { 5, 6, 8, 9 } :
第一步, 计算平均值
第二步, 计算标准差
编辑本段离散度
标准差是反应一组数据离散程度最常见一个量化形式, 是表示精密确关键指标。说起标准差首先得搞清楚它出现目 。我们使用方法去检测它, 但检测方法总是有误差, 所以检测值并不是其真实值。检测值与真实值之间差距就是评价检测方法最有决定性指标。不过真实值 是多少, 不得而知。所以怎样量化检测方法正确性就成了难题。这也是临床工作质控目: 确保每批试验结果正确可靠。
即使样本真实值是不可能知道, 不过每个样本总是会有一个真实值, 不管它到底是多少。能够想象, 一个好检测方法, 基检测值应该很紧密分散在真实值周围。怎样不紧密, 那距真实值就会大, 正确性当然也就不好了, 不可能想象离散度大方法, 会测出正确结果。所以, 离散度是评价方法好坏 最关键也是最基础指标。
一组数据怎样去评价和量化它离散度呢? 大家使用了很多个方法:
极差
最直接也是最简单方法, 即最大值-最小值(也就是极差)来评价一组数据离散度。这一方法在日常生活中最为常见, 比如比赛中去掉最高最低分就是极差具体应用。
离均差平方和
因为误差不可控性, 所以只由两个数据来评判一组数据是不科学。所以大家在要求更高领域不使用极差来评判。其实, 离散度就是数据偏离平均值程度。所以将数据与均值之差(我们叫它离均差)加起来就能反应出一个正确离散程度。和越大离散度也就越大。
不过因为偶然误差是成正态分布, 离均差有正有负, 对于大样本离均差代数和为零。为了避免正负问题, 在数学有上有两种方法: 一个是取绝对 值, 也就是常说离均差绝对值之和。而为了避免符号问题, 数学上最常见是另一个方法--平方, 这么就都成了非负数。所以, 离均差平方和成了评价离散度 一个指标。
方差(S2)
因为离均差平方和与样本个数相关, 只能反应相一样本离散度, 而实际工作中做比较极难做到相一样本, 所以为了消除样本个数影响, 增加可比性, 将标准差求平均值, 这就是我们所说方差成了评价离散度很好指标。
样本量越大越能反应真实情况, 而算数均值却完全忽略了这个问题, 对此统计学上早有考虑, 在统计学中样本均差多是除以自由度(n-1), 它意思是样本能自由选择程度。当选到只剩一个时, 它不可能再有自由了, 所以自由度是n-1。
标准差(SD)
因为方差是数据平方, 与检测值本身相差太大, 大家难以直观衡量, 所以常见方差开根号换算回来这就是我们要说标准差。
在统计学中样本均差多是除以自由度(n-1), 它是意思是样本能自由选择程度。当选到只剩一个时, 它不可能再有自由了, 所以自由度是n-1。
变异系数(CV)
标准差能很客观正确反应一组数据离散程度, 不过对于不一样检目, 或同一项目不一样本, 标准差就缺乏可比性了, 所以对于方法学评价来说又引入了变异系数CV。
编辑本段标准差与平均值之间关系
一组数据平均值及标准差常常同时做为参考依据。在直觉上, 假如数值中心以平均值来考虑, 则标准差为统计分布之一“自然”测量。
定义公式: 其中N应为n-1, 即自由度
标准差与平均值定义公式
编辑本段标准差公式
1、 方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n)
2、 标准差=方差算术平方根
误差条
error bar。在试验中单次测量总是难免会产生误差, 为此我们常常测量数次, 然后用测量值平均值表示测量量, 并用误差条来表征数据分布, 其中误差条高度为±标准误。这里即标准差standard deviation和标准误satandard error 计算公式分别为
标准差
标准误
编辑本段几何学解释
从几何学角度出发, 标准差能够了解为一个从 n 维空间一个点到一条直线距离函数。举一个简单例子, 一组数据中有3个值, X1,X2,X3。它们能够在3维空间中确定一个点 P = (X1,X2,X3)。想像一条经过原点直线 。假如这组数据中3个值都相等, 则点 P 就是直线 L 上一个点, P 到 L 距离为0, 所以标准差也为0。若这3个值不都相等, 过点 P 作垂线 PR 垂直于 L, PR 交 L 于点 R, 则 R 坐标为这3个值平均数:
公式
利用部分代数知识, 不难发觉点 P 与点 R 之间距离(也就是点 P 到直线 L 距离)是。在 n 维空间中, 这个规律一样适用, 把3换成 n 就能够了。
编辑本段标准差与标准误区分
标准差与标准误都是心理统计学内容, 二者不仅在字面上比较相近, 而且二者都是表示距离某一个标准值或中间值离散程度, 即都表示变异程度, 不过二者是有着较大区分。
首先要从统计抽样方面说起。现实生活或者调查研究中, 我们常常无法对某类欲进行调查目标群体全部组员都加以施测, 而只能够在全部组员(即样本)中抽取部分组员出来进行调查, 然后利用统计原理和方法对所得数据进行分析, 分析出来数据结果就是样本结果, 然后用样本结果推断总体情况。一个总体能够抽取出多个样本, 所抽取样本越多, 其样本均值就越靠近总体数据平均值。
标准差(standard deviation, STD)
表示就是样本数据离散程度。标准差就是样本平均数方差开平方, 标准差通常是相对于样本数据平均值而定, 通常见M±SD来表示, 表示样本某个数据观察值相距平均值有多远。从这里能够看到, 标准差收到极值影响。标准差越小, 表明数据越聚集; 标准差越大, 表明数据越离散。标准差大小因测验而定, 假如一个测验是学术测验, 标准差大, 表示学生分数离散程度大, 更能够测量出学生学业水平; 假如一个侧样测量是某种心理品质, 标准差小, 表明所编写题目是同质, 这时候标准差小愈加好。标准差与正态分布有亲密联络: 在正态分布中, 1个标准差等于正态分布下曲线68.26%面积, 1.96个标准差等于95%面积。这在测验分数等值上相关键作用。
标准误(standard error, SE)
表示是抽样误差。因为从一个总体中能够抽取出无数多个样本, 每一个样本数据都是对总体数据估量。标准误代表就是目前样本对总体数据估量, 标准误代表就是样本均数与总体均数相对误差。标准误是由样本标准差除以样本人数开平方来计算。从这里能够看到, 标准误更大是受到样本人数影响。样本人数越大, 标准误越小, 那么抽样误差就越小, 就表明所抽取样本能够很好地代表样本。
编辑本段Excel函数
相关这个函数在EXCEL中STDEVP函数有具体描述, EXCEL汉字版里面就是用“标准偏差”字样。但中国汉字教材等通常还是使用是“标准差”。
在EXCEL中STDEVP函数是另外一个标准差, 也就是总体标准差。在繁体汉字部分地方可能叫做“母体标准差”
在R统计软件中标准差程序为: sum((x-mean(x))^2)/(length(x)-1)
展开阅读全文