1、第二十四章 描述统计【历年分值】8分 【知识权重】6分左右一、集中趋势的测度(均值 中位数 众数)二、离散程度的测度(方差 标准差 离散系数)三、分布形态的测度(偏态系数 标准分数)四、变量间的相关分析 变量间的相关关系:完全相关 不完全相关 不相关 散点图:表示变量间的关系 相关系数(Pearson相关系数):度量线性相关关系对于数据分布特征的测度主要分为三个方面:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据的代表程度;三是分布的偏态,反映数据分布的不对称性。一、集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的
2、程度,它反映了一组数据中心点的位置所在。集中趋势的测度也就是寻找数据水平的代表值或中心值。1.均值均值也叫作平均数,就是数据组中所有数值的总和除以该组数值的个数。均值是集中趋势中最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平。主要适用于数值型数据,但不适用于分类数据和顺序数据。均值易受极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值对数据组的代表性减弱。【例题:单选题】在某城市2014年4月空气质量检测结果中,随机抽取6天的质量指数进行分析。样本数据分别是:30、40、50、60、80和100,这组数据的平均数是( )。A. 50 B. 55 C. 60 D.
3、 70答案:C均值即平均数,均值=(30+40+50+60+80+100)/6=602.中位数 把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫做中位数(Me)。中位数将数据分为两部分,其中一半的数据小于中位数,另一半数据大于中位数。(1)计算:先对数据进行排序,然后确定中位数的位置,n为数据的个数,其公式为:n为奇数:中位数位置是,该位置所对应的数值就是中位数数值。n为偶数:中位数位置是介于和(+1)之间,中位数就是这两个位置对应的数据的均值。(2)适用:中位数是一个位置代表值中位数主要用于顺序数据,也适用于数值型数据,但不适用于分类数据,中位数不受极端值的影响,抗干扰性强。尤
4、其适用于收入这类偏斜分布的数值型数据。【例题:单选题】下列数据特征测度中,适用于反映偏斜分布数值型数据集中趋势的是( )。A. 离散系数 B. 方差 C. 中位数 D. 标准差答案:C中位数主要用于顺序数据,也适用于数值型数据,但不适用于分类数据,中位数不受极端值的影响,抗干扰性强。尤其适用于收入这类偏斜分布的数值型数据。【例题:单选题】在某企业中随机抽取7名员工来了解该企业2013年上半年职工请假情况,这7名员工2013年上半年请假天数分别为:1、5、3、10、0、7、2,这组数据的中位数是()。A3 B10 C4 D0答案:A先排序,由小到大排序后的数据是0,1,2,3,5,7,10中位数
5、直观观察可知是3。【例题:单选题】某连锁超市6个分店的职工人数有小到大排序后为57人、58人、58人、60人、63人、70人其均值、中位数分别为()。A59、58 B61、58 C61、59 D61、70答案:C均值=(57+58+58+60+63+70)/6=61 中位数=(58+60)/2=593.众数 众数是指一组数据中出现次数(频数)最多的变量值。 适于描述分类数据和顺序数据的集中趋势,不适用于定量数据。而且有些情况下可能出现双众数、多众数或者没有众数,难以描述数据的集中位置。【例题:单选题】某能源公司有9个分公司,每个分公司的主营产品分别是:煤制品、有机化工原料、火电、煤制品、热力、
6、电解铝、火电、煤制品、煤制品,则该能源分公司主营产品的众数是( )A.火电 B.煤制品 C.热力 D.有机化工原料答案:B煤制品出现4次,出现次数最多,众数是煤制品。4.均值、中位数和众数的比较及适用范围指标适用范围优点缺点均值定量变量(不适用分类变量、顺序变量)能够充分利用数据的全部信息,均值大小受观测值的影响,比较稳定易受极端值的影响,如果观测值中有明显的极端值,则均值的代表性较差。中位数顺序变量、定量变量,特别是分布不对称的数据(不适用分类变量)不受极端值的影响没有充分利用数据的全部信息,稳定性差于均值,但优于众数。众数分类变量、顺序变量(不适用定量变量)不受极端值的影响,尤其是分布明显
7、呈偏态时,众数的代表性更好没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。【例题:单选题】下列指标中,用于描述数据集中趋势,并且易受极端值影响的是()。 A均值 B中位数 C众数 D极差 答案:A 中位数和众数都不受极端值的影响, 均值用于描述数据集中趋势,并且易受极端值影响。【例题:多选题】适于测度顺序变量的指标有( )。 A离散系数 B. 中位数 C众数 D. 均值 E标准差 答案:BC 均值、标准差、离散系数只适用于定量变量。【例题:单选题】下列统计量中,适用于描述分类数据集中趋势的是()。A均值B众数C中位数D变异系数答案:B适用描述分类数据的统计指标是众数。二、离散程度的测度
8、离散程度反映的是数据之间的差异程度。集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。【例题:单选题】集中趋势的测度值对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性( )。A越好 B越差 C始终不变 D在一定区间内反复变化答案:B数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差1.方差 方差是数据组中各数值与其均值离差平方的平均数,它能较好地反映出数据的离散程度,是实际中应用最广泛的离散程
9、度测度值。方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。对于总体数据,常用的方差计算公式有两种:前者的分母是总体规模N ,后者的分母是总体规模N减1.对于样本数据,常用的方差计算公式为:2.标准差 方差是反映数据离散程度的重要测度指标,但是其单位是原数据单位的平方,没有解释意义。所有我们经常使用标准差来测度数据的离散程度,标准差即方差的平方根。标准差不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位。标准差与方差计算比较简便,又具有比较好的数学性质,是应用最广泛的统计离散程度的测度方法。标准差与方差只适用于数值型数据。此外,与均值一样,它们对极端值也很敏感。标准差的大
10、小不不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。(离散系数就可以)3.离散系数 离散系数也称为变异系数或标准差系数,即标准差与均值的比值。 离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度。【例题:单选题】根据2014年某城市金融业和制造业各1000人的年薪样本数据来比较这两个行业从业人员年薪的离散程度,应采用的统计量是( )。A标准分数 B相关系数 C变异系数 D偏态系数答案:C离散系数也称为变异系数,消除了测度单位和观测值水平不同的影响【例题:多选题】下列统计量中,容易受极端值影响的有()A均值 B方差 C众数
11、 D中位数 E标准差答案:ABE容易受极端值影响的是方差、标准差、均值。【例题:单选题】下列离散程度的测度值中,能够消除变量值水平和计量单位对测度值影响的是( )。A标准差 B离散系数 C方差 D极差答案:B离散系数消除了测度单位和观测值水平不同的影响【例题:单选题】标准差系数是一组数据的标准差与其相应的()之比。A.算数平均数 B.极值 C.众数 D.几何平均数答案:A离散系数也称为变异系数或标准差系数,即标准差与均值的比值。【例题:多选题】数值型数据离散程度的测度指标有( )。A中位数 B离散系数 C均值 D标准差E方差答案:BDE离散程度的测度指标有方差和标准差、离散系数,集中程度的测度
12、指标有众数、均值和中位数。【例题:单选题】某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为3岁。比较该校学生年龄和教师年龄的离散程度,则()。A.学生年龄和教师年龄的离散程度相同B.教师年龄的离散程度大一些C.教师年龄的离散程度是学生年龄离散程度的1.9倍D.学生年龄的离散程度大一些答案:D平均值不同的情况下,用离散系数比较离散程度。学生年龄的离散系数=3/20=15%教师年龄的离散系数=3/38=7.89%离散系数越大,则数据离散程度越高三、分布形态的测度分布形态的测度指标包括偏态系数和标准分数。【例题:多选题】分布形态的测度指标包括()。A.标准差 B.离散
13、系数 C.中位数 D.偏态系数 E.标准分数答案:DE分布形态的测度指标包括偏态系数和标准分数。1.偏态系数(1)偏度是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。(2)测度数据分布偏度的统计量称为偏态系数,其计算公式为: 偏态系数取决于离差三次方的平均数与标准差三次方的比值。(3)偏态系数的取值和意义偏态系数的取值等于0数据的分布是对称的。偏态系数0:分布为右偏。1.取值在0和0.5之间,轻度右偏;2.取值在0.5和1之间,中度右偏;3.取值大于1,严重右偏;偏态系数0分布为左偏。1.取值在0和-0.5之间,轻度左偏;2.取值在-0.5和-1之间,中度左偏;3.取值小于-1,严重左
14、偏;偏态系数的绝对值越大数据分布的偏斜程度越大;【例题:多选题】某企业员工年收入数据分布的偏态系数为3.0,则该组数据的分布形态为()A.右偏B.左偏C.严重倾斜D.轻度倾斜E.中度倾斜答案:AC偏态系数等于3,说明该组数据是严重右偏。【例题:多选题】下列关于偏态系数的表述错误的是()。A.偏态系数取决于离差平方的平均数与标准差平方的比值B.偏态系数等于0,说明数据的分布是对称的C.偏态系数大于0,说明数据分布为左偏D.偏态系数绝对值越大,说明数据分布的偏斜程度越小E.偏态系数为0.8,说明数据分布为中度右偏答案:ACD2.标准分数(1)在统计上,均值和标准差不同时,不同变量的数值是不能比较的
15、,来自不同分布的变量值不可比,但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量的取值。 比如在考核A中员工得分的均值为80分,标准差为20分 ,在考核B中员工得分的均值为60分 ,标准差为5分,同样是80的得分,在考核A中属于中等水平,在考核B中可能名列前茅。(2)标准分数可以给出数值距离均值的相对位置,计算方法是用数值减去均值所得的差除以标准差,计算公式为:标准分数也称为Z分数,是统计上常用的一种标准化方法,转变后的标准分数并没有改变数值在原分布中的位置,也没有改变数据原分布的偏度,但是标准分数的平均数为0, 标准差为1. 在上面所说的两次考核得分
16、分布假定下,在考核A中80分转化后的标准分数为0 , 考核B中70分转化后的标准分数为2,说明70分在考核B中的相对排名高于80分在考核A中的相对排名。 标准分数表示一个给定的分数距离平均数有多少个标准差,含有标准差的个数越多,说明该分数和平均数的距离越大(标准分数越大越好)(3)实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。 经验法则表明:约有68%的数据与平均数的距离在1个标准差之内,约有95%的数据与平均数的距离在2个标准差之内,约有99%的数据与平均数的距离在3个标准差之内。因此,对于服从对称的钟形分布的标准分数,68%
17、 的标准分数在- 1,+ 1 范围内,约有95%的标准分数在-2 ,+ 2 范围之内,约有99% 的标准分数在-3, +3范围之内。因此根据经验法则,如果上面的考核B中的得分服从对称钟形分布,则95%的得分都在50分和70分之间。在实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。约有68%的数据与平均数的距离在1个标准差之内,标准分数在【-1,1】范围内;约有95%的数据与平均数的距离在2个标准差之内;标准分数在【-2,2】范围内;约有99%的数据与平均数的距离在3个标准差之内;标准分数在【-3,3】范围内;【例题:单选题】根据经
18、验法则,服从对称钟形分布的标准分数在【-2,2】范围内的概率是()A95%B50%C68%D99%答案:A约有95%的数据与平均数的距离在2个标准差之内;标准分数在【-2,2】范围内【例题:单选题】某班2014年中级经济师考试中,已知公共课考试的全班平均分为110分,标准差为10分,如果学生的考试分数服从正态分布,则依据经验法则法,可以判断成绩在100-120分之间的学生大概占全班学生的()。A.68% B.95% C.99% D.100%答案:A100-120分与平均分的差为正负1个标准差。四、变量间的相关分析考点一:变量间的相关关系 完全相关 不完全相关 不相关考点二:散点图 表示变量间的
19、关系考点三:相关系数(Pearson相关系数) 度量线性相关关系考点:变量间的相关关系 现实中很多变量之间存在着相关关系。比如一般来说,身高越高的人体重也越重,收入较 高的家庭消费水平也较高,诸如此类的例子不胜枚举。有的变量间相关关系较强,有的变量间 相关关系较弱,并且变量间相关的模式也是不尽相同的。1.按相关的程度可分为完全相关、不完全相关和不相关.2.按相关的方向可分为正相关和负相关.3.按相关的形式可分为线性相关和非线性相关. 需要注意的是,相关关系并不等同于因果关系。比如说,在夏天我们也许能得到雪糕的销售量与遮阳伞的销售量之间呈正相关,但常识告诉我们它们之间并不存在因果关系。分类标准类
20、别内含按相关的程度完全相关一个变量的取值变化完全由另一个变量的取值变化所确定时,称这两个变量间的关系为完全相关。如价格不变的条件下,某种商品的销售总额由其销售量决定。不完全相关两个变量之间的关系介于完全相关和不相关之间。一般的相关现象都是指这种不完全相关。不相关两个变量的取值变化彼此互不影响。如股票的价格与气温的高低是不相关的。按相关的方向正相关一个变量的取值由小变大,另一个变量的取值也相应的由小变大。(两个变量同方向变化)。例如,工人的工资随着劳动生产率提高而增加.负相关一个变量的取值由小变大,而另一个变量的取值由大变小(两个变量反方向变化)按相关的形式线性相关两个相关变量之间的关系大致呈现
21、为线性关系。(大致 直线关系) 非线性相关两个相关变量之间并不表现直线的关系,而是近似于某种曲线方程的关系。【例题:单选题】 工人的工资随着劳动生产率的提高而增加,工资与劳动生产率存在( )关系。A.正相关 B.不确定 C.不相关 D.负相关答案:A正相关: 一个变量的取值由小变大,另一个变量的取值也相应的由小变大。(两个变量同方向变化)。例如,工人的工资随着劳动生产率提高而增加.【例题:多选题】按相关的方向,相关关系可以分为( )A.完全相关 B.不完全相关 C.正相关 D.负相关 E.不相关答案:CD按相关的方向可分为正相关和负相关.考点:散点图两变量之间的相关关系可以用散点图来展示,在散
22、点图中,每个点代表一个观测值,横纵坐标值分别代表两个变量相应的观测值【例题:多选题】根据变量X和变量Y的散点图,可以看出这两个变量间的相关关系为()。A正相关 B不相关 C负相关 D线性相关 E完全相关答案:AD【例题:单选题】2014年某企业员工的工龄和月平均工资的散点图如下:0510152025303550005001000150020002500300035004500月平均工资(元)根据以上散点图,工龄和月平均工资两个变量的相关关系是()A 正相关、线性相关B 负相关、线性相关C 正相关、非线性相关D 负相关、非线性相关答案:C考点:相关系数1.相关系数是度量两个变量间相关关系的统计量
23、。最常用的相关系数是pearson(皮尔逊)相关系数,它度量的是两个变量间的线性相关关系。2.Pearson相关系数的取值范围在+1和-1之间,即-1r 1, r的取值变量X和Y之间的关系0r 1正线性相关-1r0负线性相关r=1完全正线性相关r=-1完全负线性相关r=0不存在线性相关关系,但并不能说明两变量之间没有任何关系(因为pearson相关系数只适用于线性相关关系的判断),比如它们之间可能存在非线性相关关系。3.根据实际数据计算出的r,其取值一般为-1r1,在说明两个变量之间的线性关系强弱时,根据经验可将相关程度分为以下几种情况:|r|的取值两变量之间的相关程度|r|0.8可视为高度相
24、关0.5|r|0.8 可视为中度相关0.3|r|0.5视为低度相关|r|0.3相关程度极弱,可视为无线性相关关系。【例题:单选题】在相关分析中,如果两个变量间Pearson相关系数r=0,这表示()。A两个变量间不存在线性相关关系 B两个变量间没有任何相关关系C两个变量间存在中度相关关系 D两个变量间存在非线性相关关系答案:APearson相关系数r=0说明两变量间不存在线性相关关系,但并不能说明两变量之间没有任何关系,它们之间可能存在非线性相关关系。【例题:单选题】变量X和变量Y的Pearson相关系数r=1,这说明变量X和变量Y间的相关关系是( )。A. 完全负线性相关 B. 低度线性相关 C. 完全正线性相关 D.不存在线性相关答案:Cr=1表示两变量完全正线性相关关系【例题:单选题】下列变量间,相关的程度最高的是()A.某城市居民人均收入与私人汽车拥有量之间的相关系数为0.82B.某产品单位成本与利润之间的相关系数为-0.93C.某城市景点游客数量与票价的相关系数为-0.58D.某城市居民收入水平与食品支出之间的相关系数为0.9答案:B相关系数的绝对值越大,相关程度越高。第 15 页 共 15 页
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100