1、数据分析数据分析(方法与案例方法与案例)作者作者 贾俊平贾俊平统计学统计学统统 计计 学学3-2统计学统计学STATISTICS(第五版第五版)一些人使用统计就像喝醉酒的人使用街灯柱支撑的功能多于照明。Andrew Lang 统计名言统计名言第第 3 章章 用统计量描述数据用统计量描述数据3.1 水平的度量水平的度量 3.2 差异的度量差异的度量3.3 分布形状的度量分布形状的度量3-4统计学统计学STATISTICS(第五版第五版)学习目标学习目标l度量水平的统计量度量水平的统计量l度量差异的统计量度量差异的统计量l度量分布形状的统计量度量分布形状的统计量l各统计量的的特点及应用场合各统计量
2、的的特点及应用场合l用用Excel和和SPSS计算描述统计量计算描述统计量3-5统计学统计学STATISTICS(第五版第五版)哪名运动员的发挥更稳定哪名运动员的发挥更稳定?在在奥奥运运会会女女子子1010米米气气手手枪枪比比赛赛中中,每每个个运运动动员员首首先先进进行行每每组组1010抢抢共共4 4组组的的预预赛赛,然然后后根根据据预预赛赛总总成成绩绩确确定定进进入入决决赛赛的的8 8名名运运动动员员。决决赛赛时时8 8名名运运动动员员再再进进行行1010枪枪射射击击,再再将预赛成绩加上决赛成绩确定最后的名次将预赛成绩加上决赛成绩确定最后的名次在在20082008年年8 8月月1010日日举
3、举行行的的第第2929届届北北京京奥奥运运会会女女子子1010米米气气手手枪枪决决赛赛中中,进进入入决决赛赛的的8 8名名运运动动员员的的预预赛赛成成绩绩和和最最后后1010枪的决赛成绩如下表枪的决赛成绩如下表3-6统计学统计学STATISTICS(第五版第五版)哪名运动员的发挥更稳定哪名运动员的发挥更稳定?最最会会的的比比赛赛结结果果是是,中中国国运运动动员员郭郭文文珺珺凭凭借借决决赛赛的的稳稳定定发发挥挥,以以总总成成绩绩492.3492.3环环夺夺得得金金牌牌,预预赛赛排排在在第第1 1名名的的俄俄罗罗斯斯运运动动员员纳纳塔塔利利娅娅 帕帕杰杰林林娜娜以以总总成成绩绩498.1498.1
4、环环获获得得银银牌牌,预预赛赛排排在在第第4 4名名的的格格鲁鲁吉吉亚亚运运动动员员妮妮诺诺 萨萨卢卢克克瓦瓦泽泽以以总总成成绩绩487.4487.4环环的的成成绩绩获获得得铜铜牌牌,而而预预赛赛排排在在第第3 3名名的的蒙蒙古古运运动动员员卓卓格格巴巴德德拉拉赫赫 蒙蒙赫赫珠珠勒勒仅仅以以479.6479.6环的成绩名列第环的成绩名列第8 8名名由由此此可可见见,在在射射击击比比赛赛中中,运运动动员员能能否否取取得得好好的的成成绩绩,发发挥挥的的稳稳定定性性至至关关重重要要。那那么么,怎怎样样评评价价一一名名运运动动员员的的发发挥挥是是否否稳稳定定呢呢?通通过过本本章章内内容容的的学学习习就
5、就能能很很容容易易回答这样的问题回答这样的问题 3.1 水平的度量水平的度量 3.1.1 平均数平均数 3.1.2 中位数和分位数中位数和分位数 3.1.3 用哪个值代表一组数据?用哪个值代表一组数据?第第 3 章章 用统计量描述数据用统计量描述数据3.1.1 平均数平均数3.1 水平的度量水平的度量3-9统计学统计学STATISTICS(第五版第五版)平均数平均数(mean)1.也称为均值,常用的统计量之一2.消除了观测值的随机波动3.易受极端值的影响4.根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x3-10统计学统计学STATISTICS(第五版第五版)简
6、单算数平均简单算数平均(Simple mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n(总体数据总体数据x xN N)样本平均数样本平均数样本平均数样本平均数总体平均数总体平均数总体平均数总体平均数统计函数统计函数统计函数统计函数AVERAGEAVERAGE3-11统计学统计学STATISTICS(第五版第五版)加权平均数加权平均数(Weighted mean)设各组的组中值为:设各组的组中值为:MM1 1,MM2 2,MMk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k样本样本样本样本加权平均:加权平均:总体总体总体总体加权平均:加权
7、平均:3-12统计学统计学STATISTICS(第五版第五版)加权平均数加权平均数(例题分析例题分析)某电脑公司销售额数据分组表某电脑公司销售额数据分组表某电脑公司销售额数据分组表某电脑公司销售额数据分组表按销售额分组按销售额分组按销售额分组按销售额分组组中值组中值组中值组中值(MMi i)频数频数频数频数(f fi i)MMi i f fi i 14015014015015016015016016017016017017018017018018019018019019020019020020021020021021022021022022023022023023024023024014514
8、5155155165165175175185185195195205205215215225225235235 4 4 9 916162727202017171010 8 8 4 4 5 5 580 58013951395264026404725472537003700331533152050205017201720 900 90011751175合计合计合计合计12012022200222003-13统计学统计学STATISTICS(第五版第五版)加权平均数加权平均数(权数对均值的影响权数对均值的影响)【例例例例】甲甲乙乙两两组组各各有有1010名名学学生生,他他们们的的考考试试成成绩绩及及
9、其其分分布布数数据如下据如下 甲组:甲组:甲组:甲组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f):):):):1 1 81 1 8 乙组:乙组:乙组:乙组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f):):):):8 1 18 1 13.1.2 中位数和分位数中位数和分位数3.1 水平的度量水平的度量3-15统计学统计学STATISTICS(第五版第五版)中位数中位数(median)1.排序后处于中间位置上的值。不
10、受极端值影响排序后处于中间位置上的值。不受极端值影响MMe e50%50%2.2.位置确定位置确定位置确定位置确定3.3.数值确定数值确定数值确定数值确定3-16统计学统计学STATISTICS(第五版第五版)中位数的计算中位数的计算(数据个数为奇数数据个数为奇数)【例【例3-3】9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序:750 780 850 960 750 780 850 960 108010
11、80 12501250 1500 1630 20001500 1630 2000 位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 10803-17统计学统计学STATISTICS(第五版第五版)中位数的计算中位数的计算(数据个数为偶数数据个数为偶数)【例【例3-3】10个家庭的人均月收入数据 排排排排 序序序序:750 780 850 960750 780 850 960 1080 1080 12501250 1500 1630 2000 2800 1500 1630 2000 2800 位位位位 置置置置:1 2 3 4 1 2 3 4
12、 5 65 6 7 8 9 10 7 8 9 10 统计函数统计函数统计函数统计函数MEDIANMEDIAN3-18统计学统计学STATISTICS(第五版第五版)四分位数四分位数用用3个点等分数据个点等分数据(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响Q QQL LLQ QQMMMQ QQU UU25%25%25%25%3-19统计学统计学STATISTICS(第五版第五版)四分位数的计算四分位数的计算(位置的确定位置的确定)方法方法2:较准确算法:较准确算法(SPSS的算法的算法)方法方法1:定义算法:定义算法3-20统计学统计学STATISTICS(第五
13、版第五版)四分位数的计算四分位数的计算(位置的确定位置的确定)方法方法方法方法3 3:其其中中 表表示示中中位位数数的的位位置置取取整整。这这样样计计算算出出的的四四分分位位数数的的位置,要么是整数,要么在两个数之间位置,要么是整数,要么在两个数之间0.50.5的位置上的位置上方法方法方法方法4 4:ExcelExcel给出的四分位数位置的确定方法给出的四分位数位置的确定方法给出的四分位数位置的确定方法给出的四分位数位置的确定方法 如果位置不是整数,则按比例分摊位置两侧数值的差值如果位置不是整数,则按比例分摊位置两侧数值的差值3-21统计学统计学STATISTICS(第五版第五版)四分位数的计
14、算四分位数的计算(数据个数为奇数数据个数为奇数)【例【例【例【例3-43-4】9 9个家庭的人均月收入数据个家庭的人均月收入数据(4(4种方法计算种方法计算)原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序:750 750 780 850780 850 960 1080 960 1080 1250 1500 1250 1500 1630 20001630 2000 位位位位 置置置置:1 1 2 32 3 4 4 5 5 6 6
15、7 7 8 9 8 9方法方法方法方法11定义公式定义公式定义公式定义公式3-22统计学统计学STATISTICS(第五版第五版)四分位数的计算四分位数的计算(数据个数为奇数数据个数为奇数)【例【例3-4】9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序:750 750 780 850780 850 960 1080 1250 960 1080 1250 1500 16301500 1630 2000 2
16、000 位位位位 置置置置:1 1 2 32 3 4 4 5 5 6 6 7 87 8 9 9方法方法方法方法2SPSS2SPSS公式公式公式公式3-23统计学统计学STATISTICS(第五版第五版)四分位数的计算四分位数的计算(数据个数为奇数数据个数为奇数)【例【例3-4】9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序:750 780750 780 850 850 960 1080 1250 960
17、 1080 1250 1500 1500 1630 20001630 2000 位位位位 置置置置:1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9方法方法方法方法3434分数公式分数公式分数公式分数公式3-24统计学统计学STATISTICS(第五版第五版)四分位数的计算四分位数的计算(数据个数为奇数数据个数为奇数)【例【例3-4】9个家庭的人均月收入数据 原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630 排排排排 序序序序:
18、750 780 750 780 850 850 960 1080 1250 960 1080 1250 1500 1500 1630 20001630 2000 位位位位 置置置置:1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9方法方法方法方法4Excel4Excel公式公式公式公式统计函数统计函数统计函数统计函数QUARTILEQUARTILE3-25统计学统计学STATISTICS(第五版第五版)众数众数(mode)1.1.一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值2.2.适合于数据量较多时使用适合于数据量较多时使用3.3.不受极端值的影响不受极端
19、值的影响4.4.一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数mo统计函数统计函数统计函数统计函数MODEMODE3.1.3 用哪个值代表一组数据?用哪个值代表一组数据?3.1 水平的度量水平的度量3-27统计学统计学STATISTICS(第五版第五版)众数、中位数和平均数的关系众数、中位数和平均数的关系3-28统计学统计学STATISTICS(第五版第五版)众数、中位数、平均数的特点和应用众数、中位数、平均数的特点和应用1.平均数平均数n n易受极端值影响易受极端值影响n n数学性质优良,实际中最常用数学性质优良,实际中最常用n n数据对称分布或接近对称分布时代表性较好数据
20、对称分布或接近对称分布时代表性较好2.中位数中位数n n不受极端值影响不受极端值影响n n数据分布偏斜程度较大时代表性接好数据分布偏斜程度较大时代表性接好3.众数众数n n不受极端值影响不受极端值影响n n具有不惟一性具有不惟一性n n数据分布偏斜程度较大且有明显峰值时代表性较好数据分布偏斜程度较大且有明显峰值时代表性较好3.2 差异的度量差异的度量 3.2.1 极差和四分位差极差和四分位差 3.2.2 方差和标准差方差和标准差 3.2.3 比较几组数据的离散程度:比较几组数据的离散程度:离散系数离散系数第第 3 章章 用统计量描述数据用统计量描述数据3-30统计学统计学STATISTICS(
21、第五版第五版)怎样评价水平代表值?怎样评价水平代表值?1.1.假假定定有有两两个个地地区区每每人人的的平平均均收收入入数数据据,其其中中甲甲地地区区的的平平均均收收入入为为50005000元元,乙乙地地区区的的平平均均收收入入为为30003000元元。你如何评价两个地区的收入状况?你如何评价两个地区的收入状况?2.2.如如果果平平均均收收入入的的多多少少代代表表了了该该地地区区的的生生活活水水平平,你你能否认为甲地区的平均生活水平就高于乙地区呢?能否认为甲地区的平均生活水平就高于乙地区呢?3.3.要要回回答答这这些些问问题题,首首先先需需要要搞搞清清楚楚这这里里的的平平均均收收入入是是否否能能
22、代代表表大大多多数数人人的的收收入入水水平平。如如果果甲甲地地区区有有少少数数几几个个富富翁翁,而而大大多多数数人人的的收收入入都都很很低低,虽虽然然平平均均收收入入很很高高,但但多多数数人人生生活活水水平平仍仍然然很很低低。相相反反,乙乙地地区区多多数数人人的的收收入入水水平平都都在在30003000元元左左右右,虽虽然然平平均均收收入入看看上上去去不不如如甲甲地地区区,但但多多数数人人的的生生活活水水平平却却比比甲地区高,原因是甲地区的收入差距大于乙地区甲地区高,原因是甲地区的收入差距大于乙地区3-31统计学统计学STATISTICS(第五版第五版)怎样评价水平代表值?怎样评价水平代表值?
23、仅仅仅仅知知道道数数据据的的水水平平是是远远远远不不够够的的,还还必必须须考考虑虑数数据据之之间间的的差差距距有有多多大大。数数据据之之间间的的差差距距用用统统计计语语言言来来说说就就是是数数据据的的离离散散程程度度。数数据据的的离离散散程程度度越越大大,各各描描述述统统计计量量对对该该组组数数据据的的代代表表性性就就越越差差,离离散散程程度度越越小小,其代表性就越其代表性就越3.2.1 极差和四分位差极差和四分位差3.2 差异的度量差异的度量3-33统计学统计学STATISTICS(第五版第五版)极差极差(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影
24、响4.未考虑数据的分布5.计算公式为:R=max(xi)-min(xi)3-34统计学统计学STATISTICS(第五版第五版)四分位差四分位差(quartile deviation)1.也称为内距或四分间距2.上四分位数与下四分位数之差:Qd=QU QL3.反映了中间50%数据的离散程度4.不受极端值的影响5.用于衡量中位数的代表性3.2.2 方差和标准差方差和标准差3.2 差异的度量差异的度量3-36统计学统计学STATISTICS(第五版第五版)方差和标准差方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值2.反映各变量值与均值的
25、平均差异3.根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s)3-37统计学统计学STATISTICS(第五版第五版)样本方差和标准差样本方差和标准差(sample variance and standard deviation)(sample variance and standard deviation)未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公
26、式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n nn-1-1-1去除去除去除!3-38统计学统计学STATISTICS(第五版第五版)总体方差和标准差总体方差和标准差(Population variance and Standard deviation)(Population variance and Standard deviation)未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据未分组数据未分组数据组距分组数据组距分组数据方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式3-3
27、9统计学统计学STATISTICS(第五版第五版)自由度自由度(degree of freedom)1.自由度的概念由统计学家自由度的概念由统计学家R.A FisherR.A Fisher提出提出2.是是指指数数据据个个数数与与附附加加给给独独立立的的观观测测值值的的约约束束或或限制的个数之差限制的个数之差3.从从字字面面涵涵义义来来看看,自自由由度度是是指指一一组组数数据据中中可可以以自由取值的个数自由取值的个数4.当当样样本本数数据据的的个个数数为为n n时时,若若样样本本平平均均数数确确定定后后,则则附附加加给给n n个个观观测测值值的的约约束束个个数数就就是是1 1个个,因因此此只只有
28、有n n-1-1个个数数据据可可以以自自由由取取值值,其其中中必必有有一一个个数数据不能自由取值据不能自由取值5.按按着着这这一一逻逻辑辑,如如果果对对n n个个观观测测值值附附加加的的约约束束个个数为数为k k个,自由度则为个,自由度则为n n-k k3-40统计学统计学STATISTICS(第五版第五版)自由度自由度(degree of freedom)1.1.样样本本有有3 3个个数数值值,即即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则则 x x=5 5。当当 x x =5 5 确确定定后后,x x1 1,x x2 2和和x x3 3有有两两个个数数据据可可以以
29、自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x x1 1=6=6,x x2 2=7=7,那那么么x x3 3则必然取则必然取2 2,而不能取其他值,而不能取其他值2.2.为为什什么么样样本本方方差差的的自自由由度度为为什什么么是是n n-1-1呢呢?因因为为在在计计算算离离差差平平方方和和时时,必必须须先先求求出出样样本本均均值值 x x ,而而 x x则则是是附附件件给给离离差差平平方方和和的的一一个个约约束束,因因此此,计计算算离离差差平方和时只有平方和时只有n n-1-1个独立的观测值,而不是个独立的观测值,而不是n n个个 3.3.样样本本方方差差用用自自由由度
30、度去去除除,其其原原因因可可从从多多方方面面解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差s s2 2去估计总体方差去估计总体方差 2 2时,它是时,它是 2 2的无偏估计量的无偏估计量3-41统计学统计学STATISTICS(第五版第五版)样本标准差样本标准差(例题分析例题分析)【例【例【例【例3-53-5】计算计算计算计算9 9名员工的月工资收入的方差和标准差名员工的月工资收入的方差和标准差 1500 750 780 1080 850 960 2000 1250 1630 1500 750 780 1080 850 960 2000 1250
31、 1630方差方差方差方差标准差标准差标准差标准差统计函数统计函数统计函数统计函数STDEVSTDEV3-42统计学统计学STATISTICS(第五版第五版)标准分数标准分数(standard score)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理5.均值等于0,方差等于16.计算公式为3-43统计学统计学STATISTICS(第五版第五版)标准分数标准分数(用于数据变换用于数据变换)z z分分数数只只是是将将原原始始数数据据进进行行了了线线性性变变换换,它它并并没没有有改改变变一一个个数数据据在在该该
32、组组数数据据中中的的位位置置,也也没没有有改改变变该该组组数数分布的形状,而只是使该组数据均值为分布的形状,而只是使该组数据均值为0 0,标准差为,标准差为1 1 3-44统计学统计学STATISTICS(第五版第五版)用用SPSS对数据进行标准化对数据进行标准化 第第1步:步:选择【分析】下拉菜单,并选择 【描述统计描述】第第2步:步:在主对话框中将变量选入【变量】,然后选中【将标准化得分另存为变 量】。点击【OK】(SPSS会将标准化 后的变量以“Z”开头存放在原始变量工作表中)对数据标准化对数据标准化对数据标准化对数据标准化3-45统计学统计学STATISTICS(第五版第五版)标准分数
33、标准分数(例题分析例题分析)【例【例【例【例3-63-6】9 9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号家庭编号家庭编号人均月收入(元)人均月收入(元)人均月收入(元)人均月收入(元)标准化值标准化值标准化值标准化值 z z 1 12 23 34 45 56 67 78 89 915001500 750 750 780 78010801080 850 850 960 960200020001250125016301630 0.695 0.695-1.042-1.042-0.973-0.973-0.
34、278-0.278-0.811-0.811-0.556-0.556 1.853 1.853 0.116 0.116 0.996 0.9963-46统计学统计学STATISTICS(第五版第五版)经验法则经验法则经验法则表明:当一组数据对称分布时l约有68%的数据在平均数加减1个标准差的范围之内l约有95%的数据在平均数加减2个标准差的范围之内l约有99%的数据在平均数加减3个标准差的范围之内 3-47统计学统计学STATISTICS(第五版第五版)经验法则经验法则(例题分析例题分析)9 9名员工月工资收入的经验法则名员工月工资收入的经验法则3-48统计学统计学STATISTICS(第五版第五版
35、)切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)l如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用l切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”l对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数3-49统计学统计学STATISTICS(第五版第五版)切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)对于k=2,3,4,该不等式的含义是l至少有75%的数据落在平均数加减2个标准差的范围之内l
36、至少有89%的数据落在平均数加减3个标准差的范围之内l至少有94%的数据落在平均数加减4个标准差的范围之内3.2.3 比较几组数据的离散程度比较几组数据的离散程度离散系数离散系数3.2 差异的度量差异的度量3-51统计学统计学STATISTICS(第五版第五版)离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为3-52统计学统计学STATISTICS(第五版第五版)离散系数离散系数(例题分析例题分析)【例例3-7】评价哪名运动员的发挥
37、更稳定评价哪名运动员的发挥更稳定发发挥挥比比较较稳稳定定的的运运动动员员是是塞塞尔尔维维亚亚的的亚亚斯斯娜娜 舍舍卡卡里里奇奇和和中中国国的的郭郭文文珺珺,发发挥挥不不稳稳定定的的运运动动员员蒙蒙古古的的卓卓格格巴巴德德拉拉赫赫 蒙蒙赫赫珠珠勒和波兰的莱万多夫斯卡勒和波兰的莱万多夫斯卡 萨贡萨贡3-53统计学统计学STATISTICS(第五版第五版)8名运动员射击成绩的误差图名运动员射击成绩的误差图(例题分析例题分析)【Graphs】【Error Bar】【Simple】【Data in Chart Are】【Summaries of separate variables】变变 量量 选选 入
38、入【Error Bars】【Bars Represent】【Standard deviations】【Multiplier】框框内内输输入入所所需需的的标标准准差差倍倍数数【OK】【例子】【例子】3.3 分布形状的度量分布形状的度量 偏态与峰态偏态与峰态第第 3 章章 用统计量描述数据用统计量描述数据3-55统计学统计学STATISTICS(第五版第五版)偏态偏态(skewness)统计函数统计函数统计函数统计函数SKEWSKEW1.1.统统计计学学家家K.PearsonK.Pearson于于18951895年年首首次次提提出出。是是指指数数据据分布的不对称性分布的不对称性 2.2.测度统计量
39、是偏态系数测度统计量是偏态系数(coefficientcoefficient of of skewnessskewness)2.2.偏偏态态系系数数=0=0为为对对称称分分布布;00为为右右偏偏分分布布;00为为左左偏偏分布分布4.4.偏偏态态系系数数大大于于1 1或或小小于于-1-1,为为高高度度偏偏态态分分布布;偏偏态态系系数数在在0.50.51 1或或-1-1-0.5-0.5之之间间,为为是是中中等等偏偏态态分分布布;偏偏态系数越接近态系数越接近0 0,偏斜程度就越低,偏斜程度就越低5.5.计算公式计算公式 3-56统计学统计学STATISTICS(第五版第五版)峰态峰态(kurtosi
40、s)1.1.统计学家统计学家K.PearsonK.Pearson于于19051905年首次提出。数据分布峰值年首次提出。数据分布峰值的高低的高低 2.2.测度统计量是峰态系数测度统计量是峰态系数(coefficientcoefficient of of kurtosiskurtosis)3.3.峰态系数峰态系数=0=0扁平峰度适中扁平峰度适中4.4.峰态系数峰态系数000为尖峰分布为尖峰分布6.6.计算公式计算公式统计函数统计函数统计函数统计函数KURTKURT3-57统计学统计学STATISTICS(第五版第五版)Excel中的统计函数中的统计函数l lMODEMODE计算众数计算众数l l
41、MEDIANMEDIAN计算中位数计算中位数l lQUARTILEQUARTILE计算四分位数计算四分位数l lAVERAGEAVERAGE计算平均数计算平均数l lHARMEANHARMEAN计算简单调和平均数计算简单调和平均数l lGEOMEANGEOMEAN计算几何平均数计算几何平均数l lAVEDEVAVEDEV计算平均差计算平均差l lSTDEVSTDEV计算样本标准差计算样本标准差l lSTDEVPSTDEVP计算总体标准差计算总体标准差l lSKEWSKEW计算偏态系数计算偏态系数l lKURTKURT计算峰态系数计算峰态系数l lTRIMMEANTRIMMEAN计算切尾均值计算
42、切尾均值 SPSSSPSS ExcelExcel3-58统计学统计学STATISTICS(第五版第五版)用用Excel和和SPSS计算描述统计量计算描述统计量 Excel输出的描述统计量3-59统计学统计学STATISTICS(第五版第五版)用用Excel和和SPSS计算描述统计量计算描述统计量 SPSS SPSS【FrequenciesFrequencies】输出的描述统计量】输出的描述统计量3-60统计学统计学STATISTICS(第五版第五版)本本章章图图解解3-61统计学统计学STATISTICS(第五版第五版)本章小节本章小节l度量水平的统计量度量水平的统计量度量水平的统计量度量水平的统计量l度量差异的统计量度量差异的统计量度量差异的统计量度量差异的统计量l度量分布形状的统计量度量分布形状的统计量度量分布形状的统计量度量分布形状的统计量l各统计量的的特点及应用场合各统计量的的特点及应用场合各统计量的的特点及应用场合各统计量的的特点及应用场合l用用用用ExcelExcel和和和和SPSSSPSS计算描述统计量计算描述统计量计算描述统计量计算描述统计量结结 束束