1、一、分布类型一、分布类型正正态态分分布布:集集中中位位置置居居中中,左左右右两两侧侧频频数数基本对称的分布。常见近似正态分布。基本对称的分布。常见近似正态分布。偏态分布偏态分布:集中位置偏向一侧,频数分布不对称的:集中位置偏向一侧,频数分布不对称的分布。分布。特点:有极端的数据。二、统计描述二、统计描述统计描述包括两个方面:统计描述包括两个方面:集中趋势的描述集中趋势的描述和离散趋势的描述和离散趋势的描述跟总体有关的叫参数,希腊字母表示。跟样本有关的叫统计量,用英文字母表示集中趋势指标:均数,几何均数,中位数离散趋势指标:(一)集中趋势指标描述(一)集中趋势指标描述1.1.算术均数(均数算术均
2、数(均数 mean)适用于正态分布或者近似正态分布适用于正态分布或者近似正态分布总体均数:总体均数:;样本均数:;样本均数:2.2.几何均数(几何均数(geometric mean)常适用于一种特殊的偏态分布资料:等比资料(常适用于一种特殊的偏态分布资料:等比资料(如如1010,20,40,80.20,40,80.)或对数正态分布资料(常见于抗)或对数正态分布资料(常见于抗体滴度)(体滴度)(原始数据是偏态,原始数据取了对数之原始数据是偏态,原始数据取了对数之后,对数值成为正态分布后,对数值成为正态分布)。)。3.3.中位数中位数(median,M)主主要要适适用用于于偏偏态态分分布布资资料料
3、。中中位位数数是是指指将将一一组组变变量值从小到大排列,位次居中的变量值。量值从小到大排列,位次居中的变量值。描述偏态的是中位数和几何均数描述偏态的是中位数和几何均数注意事项注意事项对于偏态分布资料,中位数不受两端特大值和特小对于偏态分布资料,中位数不受两端特大值和特小值的影响,值的影响,只和位置居中的观察值有关只和位置居中的观察值有关。而均数受。而均数受特大值和特小值的影响,会偏大或者偏小,所以对特大值和特小值的影响,会偏大或者偏小,所以对于偏态分布的资料,均数的代表性差,不适合描述于偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势。偏态分布的集中趋势。(二)离散趋势指标描述(二
4、)离散趋势指标描述1.1.极极差差或或者者全全距距(range,R):表表示示一一组组变变量量值值中中最大值和最小值之差。最大值和最小值之差。R最大值最小值最大值最小值计算简单,但是不能反映所有变量值的变异程度。计算简单,但是不能反映所有变量值的变异程度。2.2.标标准准差差(standard deviation):和和均均数数的的单单位位一一致致,表表示示一一组组变变量量值值的的平平均均离离散散程程度度。适适合合描描述述近似正态分布资料的离散趋势。近似正态分布资料的离散趋势。(标准差,均数,原始数据三者单位一致)样本标准差等于离均差平方和除以样本量样本标准差等于离均差平方和除以样本量n-1n
5、-1再开方再开方样本标准差表示样本的平均变异程度,这个公式有比较好的统计性质样本标准差表示样本的平均变异程度,这个公式有比较好的统计性质公式应该背下来公式应该背下来3.3.方差(方差(variance):是标准差的平方,表示一组变是标准差的平方,表示一组变量值的平均离散程度。方差越大,离散程度越大。量值的平均离散程度。方差越大,离散程度越大。方差是最常用的指标方差是最常用的指标4.4.变异系数变异系数(coefficient of variation,CV)CVCV:单位不同,均数相差悬殊单位不同,均数相差悬殊S S:单位相同,均数相近单位相同,均数相近才能用标准差才能用标准差比较比较例子,体
6、重和身高相比较,例子,体重和身高相比较,单位不一样单位不一样,标准差的大小也变了,所,标准差的大小也变了,所以单位不一样,没有可比性,比如身高单位是米,厘米。毫米。比以单位不一样,没有可比性,比如身高单位是米,厘米。毫米。比较结果是不一样的较结果是不一样的例子二,婴儿和成人的体重的比较,用标准差的话,本来二者均数例子二,婴儿和成人的体重的比较,用标准差的话,本来二者均数就不在一个水平线上,就不在一个水平线上,即均数不一样,即均数不一样,就算单位相同也没有可比性,就算单位相同也没有可比性,用变异系数的话,除以了均数,抵消了它的区别。用变异系数的话,除以了均数,抵消了它的区别。5.5.四四分分位位
7、数数间间距距(quartile interval,Q):P75、P25分别表示第分别表示第7575百分位数和第百分位数和第2525百分位数。百分位数。P P7575为上四分位数,为上四分位数,%75%75的数比他小,的数比他小,%25%25的数比他大的数比他大 Q P75P25(反反应应的的是是中中间间%50数数据据的的变变异异程程度度,中中间间这这部部分数据是分数据是 稳定的,所以适合描述偏态分布资料)稳定的,所以适合描述偏态分布资料)注:注:主要用于偏态分布资料离散程度的描述。主要用于偏态分布资料离散程度的描述。最最适合的就是四分位数间距适合的就是四分位数间距 三、用三、用SPSSSPSS
8、软件实现统计描述软件实现统计描述操作步骤:操作步骤:1.1.选择选择“FrequenciesFrequencies”描述性统计描述性统计频数频数操作步骤:操作步骤:2.2.将变量选入变量框,将变量选入变量框,点击点击“StatisticsStatistics”如果没告诉你是什么分布要先确认是什么分布,在选择参数操作步骤:操作步骤:2.2.选择相应描述性指标,选择相应描述性指标,点击点击“ContinueContinue”四分位数四分位数间距间距标准差标准差方差方差极差极差最小值最小值最大值最大值均数均数中位数中位数统计结果统计结果SpssSpss或者或者SASSAS都没有几何均数,因为他们认为中位数都没有几何均数,因为他们认为中位数就可以代替了。就可以代替了。ExcelExcel中是有几何均数的,可以在里中是有几何均数的,可以在里面算面算注:除了用注:除了用“FrequenciesFrequencies”外,还可以使用外,还可以使用“DescriptivesDescriptives”进行统计描述进行统计描述这个是假设数据符合正态分布这个是假设数据符合正态分布描述描述