1、社会统计学课程期末复习题一、填空题(计算结果一般保留两位小数)1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 .3、在回归分析中,各实际观测值y与估计值的离差平方和称为 剩余 变差。4、平均增长速度= 平均发展速度 1(或100)。5、 正J形 反J形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。6、调查
2、宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; .8、若某厂计划规定A产品单位成本较上年降低6%,实际降低了7,则A产品单位成本计划超额完成程度为 ;若某厂计划规定B产品产量较上年增长5,实际增长了10%,则B产品产量计划超额完成程度为 。9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题
3、、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。二、判断题1、在季节变动分析中,若季节比率大于100,说明现象处在淡季;若季节比率小于100,说明现象处在旺季.( ;答案提示:在季节变动分析中,若季节比率
4、大于100,说明现象处在旺季;若季节比率小于100,说明现象处在淡季。 )2、工业产值属于离散变量;设备数量属于连续变量。( ;答案提示:工业产值属于连续变量;设备数量属于离散变量 )3、中位数与众数不容易受到原始数据中极值的影响。( ; )4、有意识地选择十个具有代表性的城市调查居民消费情况,这种调查方式属于典型调查。( )5、统计调查按调查范围划分可以分为全面调查和非全面调查。( )6、用移动平均法修匀时间数列时,如果移动项数为偶数项,只要进行一次移动平均;如果移动项数为奇数项,则要进行二次移动平均。( ;答案提示:用移动平均法修匀时间数列时,如果移动项数为奇数项,只要进行一次移动平均;如
5、果移动项数为偶数项,则要进行二次移动平均。 )7、对人们收入的测量可采用定距尺度,对人们智商水平的测量可采用定比尺度.( ;答案提示:对人们收入的测量可采用定比尺度,对人们智商水平的测量可采用定距尺度。 )8、若按月平均计算,则各季度季节比率之和为400。( ;答案提示:若按月平均计算,则各季度季节比率之和为1200%。 )9、判定系数值越大,则估计标准误差值越小,从而在简单线性回归分析中一元直线回归方程的精确性越高;相反,判定系数值越小,则估计标准误差值越大,从而在简单线性回归分析中一元直线回归方程的精确性越低。( ) 10、在平均指标的两因素分析中,称为结构影响指数,称为固定构成指数。(
6、;答案提示:在平均指标的两因素分析中,称为固定构成指数,称为结构影响指数。 )11、在抽样推断中,总体是确定的,总体参数的值是不变的;而样本总体是不确定的,样本统计量的值是变化的.( )12、商品库存额和职工人数属于时期指标,而商品销售额和职工工资总额属于时点指标。( ;答案提示:商品库存额和职工人数属于时点指标,而商品销售额和职工工资总额属于时期指标。 )三、单项选择题1、统计调查按调查登记的时间是否连续划分,可以分为( D )。A全面调查和非全面调查 B一般调查和专项调查 C抽样调查和普遍调查 D经常性调查和一次性调查2、在回归分析中,估计值与各实际观测值的平均数的离差平方和称为( A )
7、。A回归变差 B剩余变差 C判定变差 D总变差3、若某总体次数分布呈轻微右偏分布,则有( C )式成立。A B C D 4、若某总体次数分布呈轻微左偏分布,则有( B )式成立。A B C D 5、某城市居民家庭按年收入水平分为六组:10000元以下,1000020000元;2000030000元;3000040000元;4000050000元;50000元以上。则第一组和第六组的组中值分别为(D;答案提示: )。A 15000和45000 B 15000和55000 C 5000和45000 D 5000和550006、( C )是现象各期环比发展速度的平均数,其计算方法是各期环比发展速度连
8、乘积开n次方根。A平均发展水平 B平均增长水平 C平均发展速度 D平均增长速度7、家庭月收入x(元)和家庭月支出y(元)之间的回归方程为=1+2x,这意味着家庭月收入每提高1元时,家庭月支出平均( B )。A减少2元 B增加2元 C减少3元 D增加3元8、异众比率越大,各变量值相对于众数越( A )。A离散 B集中 C离散或集中 D无法判断9、(B )是在遵守随机原则的条件下,用样本指标代表总体指标不可避免存在的误差。A登记性误差 B随机误差 C系统性误差 D非随机误差10、如掌握的是分组资料中各组标志总量而缺少各组次数的资料,则可以采用( C)公式计算平均数.A位置平均数 B算术平均数 C调
9、和平均数 D几何平均数11、若按季平均计算,则各季度季节比率之和为( A )。A 400% B 800 C 1200% D 1600四、简答题1、指标和标志有何联系和区别?参阅教材P.14P。152、简述定基发展速度和环比发展速度的含义及其关系。参阅教材P.143P.1443、试述相关分析和回归分析的联系和区别.参阅教材P。231P。2334、何谓等距抽样?等距抽样的基本步骤有哪些?参阅教材P。2465、何谓整群抽样?整群抽样有何优缺点?参阅教材P.247P。248五、计算题(计算结果保留两位小数)1、某农贸市场青菜价格11月份比10月份下跌10,12月份比11月份上涨5,则该农贸市场12月份
10、青菜价格与10月份相比的变化程度如何?解:设该农贸市场10月、11月和12月的青菜价格分别为a0、a1和a2根据题意可知 因为 所以该农贸市场12月份青菜价格与10月份相比的增长速度=94。5%100% = 5。5%答:该农贸市场12月份青菜价格与10月份相比下降了5。5。2、调查某社区 60户居民,获得其家庭人口资料如下表所示,试用两种方法计算该社区平均每户的家庭人口数。某社区60户家庭人口统计表按家庭人口数分组(人) 户数(户)各组户数占总户数比重()123456362415935104025155合计601002、答:该地区平均每户的家庭人口数约为4人.3、某社区家庭人口资料如下,试计算
11、该社区平均每户的家庭人口数。按家庭人口数分组(人) 家庭人口总数(人) 123456224135803030合计3013、答:该社区平均每户的家庭人口数约为3人。4、某甲、乙两乡青年农民操办婚事的消费资料如下表所示:地区青年操办婚事平均消费额(元)婚事支出的标准差(元 )甲乡乙乡3 2004 100850950要求:比较甲、乙两乡哪一个青年操办婚事平均消费额的代表性高? 4、答:乙乡青年操办婚事平均消费额的代表性高.5、某福利企业上年年底和今年第一季度各月总产值和工人数资料如下表所示,试求该企业第一季度月平均劳动生产率.时 间总产值(万元)月末工人数(人)上年12月1月2月3月22024030
12、0360801001101205、答:该企业第一季度月平均劳动生产率为2.90万元/人。6、某福利单位今年第一季度职工工资和职工人数资料如下表所示,试求该单位第一季度月人均工资。时 间工资支出额(元)月初职工人数(人)1月2月3月4月2897842951462886402937603563423523627、关于三种产品甲、乙、丙产品的价格和产值的资料如下表所示:产品种类计量单位产值(万元)2011年价格比2010年价格变动幅度(%)2010年2011年甲乙丙吨件箱50201009520120250要求:(1)三种产品的产值总指数;(2)三种产品的价格总指数及价格变动对产值变动影响的绝对额;(
13、3)利用指数体系推算三种产品的产量总指数。7、解: 甲、乙、丙三种产品产值两因素分析计算表产品名称计量单位()(万元)(万元)甲乙丙吨件箱102951005020100952012093.137221。0526120合计170235234。1898解:答:三种产品的产值总指数约为138。24%;三种产品的价格总指数为100.35,由于价格水平的下降使得产值减少0。8102元;三种产品的产量总指数约为137.76。8、关于某超市三种商品的销售量和销售额资料如下表所示:某超市商品销售量及销售额情况表商品名称计量单位2011年价格比2010年销售量变动幅度()销售额(元)2010年2011年毛巾瓷碗
14、尼龙布条个米10251410 0003 6005 6009 9004 5005 600要求:(1)三种商品的销售额总指数;(2)三种商品的销售量总指数及销售量变动对销售额变动影响的绝对额;(3)利用指数体系推算三种商品销售价格总指数.8、解: 某超市商品销售量总指数两因素分析计算表商品名称计量单位 毛巾瓷碗尼龙布条个米11012511410 0003 6005 6009 9004 5005 60011 0004 5006 400合计-19 2002000021 900解:答:三种商品的销售额总指数为104。17.%;三种商品的销售量总指数为114。06%,销售量变动对销售额变动影响的绝对额为2
15、700元;三种商品销售价格总指数为91。33%。9、某福利企业19962005年的产值资料如下表所示:年度1996199719981999200020012002200320042005产值(万元)75113128121136152189184190212要求:(1)以最小平方法拟合直线趋势方程,并估计2006年的产值.(2)以半数平均法拟合直线趋势方程,并估计2006年的产值。9、(1)解: 某福利企业 1996 2005年产值趋势分析计算表年份t1996199719981999200020012002200320042005123456789107511312812113615218918
16、4190212752263844846809121323147217102120149162536496481100合计551 5009 38638574.266713。769711225.73(万元)答:以最小平方法拟合直线趋势方程为 ;2006年的产值约为225.73万元。解: 某福利企业 1996 2005年产值趋势分析计算表年份t1996199719981999200020012002200320042005975311357975113128121136152189184190212675791640363136152567920133019088149259119254981合计0
17、1 5002 2723301505。545511225。73(万元)答:以最小平方法拟合直线趋势方程为;2006年的产值约为225。73万元。(2)解: 某福利企业 1996 2005年产值趋势分析计算表年份时间编号t产值 (万元)199619971998199920001234575113128121136合计1557320012002200320042005678910152189184190212合计40927答:以半数平均法拟合直线趋势方程为 ;2006年的产值约为227.88万元.统计学问答题1. 什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析
18、统计数据的科学,其目的是探索数据内在的数量规律性。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法乃至统计学就失去了其存在意义。 3.简要说明抽样误差和非抽样误差 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各有关环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以计量和控制的.4(先分为集中趋势与分散程度,再继续细分,即综述7、8)一组数据的分布特征可以从哪几个方面进行测度?答:数据分布特征一般可从集中趋势、离散程度、分布形
19、状(偏态和峰度)几方面来测度。分布集中趋势的测度有众数、中位数、分位数、均值、几何平均数、切尾均值;分布离散程度的测度有极差、内距、方差和标准差、离散系数。7.简述众数、中位数和均值的特点和应用场合。答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数一组数据分布的峰值,容易计算,但不是总是存在,众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值,应用场合较少;中位数是一组数据中间位置上的代表值,直观,不受极端数据的影响,但数据信息利用不够充分,当数据的分布偏斜较大时,使
20、用中位数也许不错.主要适合作为顺序数据的集中趋势测度值.;均值数据对数值型数据计算的,而且利用了全部数据信息,提取的信息最充分,当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但受极端数据的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。8.标准差和方差反映数据的什么特征反映数据离散程度的特征。标准差反应数据的变化幅度,即上下左右波动的剧烈程度.在统计中可以用来计算某变量值的区间范围(即置信区间).方差:即标准差的平方.所以,标准差和方差两者没有本质区别。5怎样理解均值在统计中的地位?答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取
21、得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。10为什么要计算离散系数?答:在比较二组数据的差异程度时,由于方差和标准差是以均值为中心计算出来的,有时直接比较标准差是不准确的,需要剔除均值大小不等的影响,计算并比较离散系数1怎样理解频率与概率的关系?频率的极限是概率吗?频率在一定程度上反映了事件发生的可能性大小。 尽管每进行一连串(n次)试验,所得到的频率可以各不相同,但只要 n相当大,频率与概率是会非常接近的.因此,概率是可以通过频率来“测量”的,
22、 频率是概率的一个近似. 概率是频率稳定性的依据,是随机事件规律的一个体现 . 实际中,当概率不易求出时,人们常通过作大量试验,用事件出现的频率去近似概率。 当实验次数趋向于无穷时,频率的极限就是概率.2概率的三种定义各有什么应用场合和局限性 古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;要求样本空间是有限并且是已知的.机会游戏的很多问题可以满足这些条件;但现实生活的实际问题样本空间或者出现的结果无限或者未知,因此具有较强的局限性 统计概率历史上同类事物发生的稳定频率。在日常生活与工作中,应用较为普遍;统计概率通常是计算大量重复试验中该事件出现次数的频率,但有些试验是不能重复的
23、 主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计,但决策者又必须对其进行估计从而做出相应决策.具有主观随意性3概率密度函数和分布函数的联系与区别表现在哪些方面一元函数下。概率分布函数是概率密度函数的变上限积分,就是原函数。概率密度函数是概率分布函数的一阶导函数.多元函数下.联合分布函数是联合密度函数的重积分。联合密度函数是联合分布函数关于每个变量的偏导.6随机变量的数学期望和方差与第二章所讲的均值和方差有何区别,联系数学期望又称均值,实质上是随机变量所有可能取值的一个加权平均,其权数就是取值的概率,方差一样12解释总体分布、样本分布和抽样分布的含
24、义总体分布:所有元素出现概率的分布样本分布:样本n个观察值的概率分布.抽样分布:由样本n个观察值计算的统计量的概率分布1 简述评价估计量好坏的标准 1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数2、有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效3、一致性:随着样本量的增大时,点估计量的值越来越接近被估总体的参数.举例2.说明区间估计的基本原理 答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间。3解释置信水平的含义(画图)置信区间中包含总体参数真值的次数所占的比率称为置信水平;而置信区间是指由样本统计
25、量所构成的总体参数的估计区间。置信区间越大,置信水平越高。4解释置信水平为95%的置信区间的含义 答:总体参数是固定的,未知的,置信区间是一个随机区间.置信水平为95的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。 5简述样本容量与置信水平、总体方差、允许误差的关系 答:以估计总体均值时样本容量的确定公式为例: 样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。附加题:简(综)述述置信区间和显著性水平的关系显著性水平为a检验的拒绝域,与置信水平为1a的置信区间互为补集的,也即:求接受域就是求置信区间,所以假设检验和区间估计本质是一
26、回事。1理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则。 答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有: (1)原假设和备择假设是一个完备事件组,而且相互对立.(2)一般先确定备择假设。再确定原假设.(3) 等号“”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。3什么是显著性水平?它对于假设检验决策的意义是什么? 答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平
27、等于控制了犯第一错误的概率, 对检验结果的可靠性起一种度量作用4什么是p 值?p 值检验和统计量检验有什么不同? 答:p 值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P 值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制犯第一类错误的上限,p 值可以有效地补充提供地关于检验可靠性的有限信息。p值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。6比较单侧检验和双侧检验的区别(1)问题的提法不同,双侧检验研究的是新方法与旧方法是否有差异;单侧检验研究的是新方法明显好于旧
28、方法还是新方法明显不如旧方法。2 建立假设的形式不同,双侧检验的假设是 H0: u=u0 H1: u u0;单侧检验的假设是 H0: uu0 H1: uu0 或 H0: uu0 H1: uu0 。(3)否定的区域不同,双侧检验的否定区域是 |Z| Z a/2;单侧检验的否定区域是 ZZa 1什么是方差分析?它研究的是什么?方差分析是检验多个总体均值是否相等的统计方法,来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是分类型自变量对数值型因变量的影响。 2方差分析中有哪些基本假定每个总体都应服从正态分布;每个总体的方差必须相同;观测值是独立的3简述方差分析的基本思想通过分析研究不同来源
29、的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小7解释水平项平方和、误差项平方和的含义水平项误差平方和简记为SSA,它是各组平均值与总平均值的误差平方和,反映各总体的样本均值之间的差异程度,是对随机误差和系统误差的大小的度量,因此又称为组间平方和误差项平方和,简记为SSE,它是每个水平或的各样本数据与其组平均值误差的平方和,反映了每个样本各观测值的离散状况,是对随机误差的大小的度量,因此又称为组内平方和或残差平方和1 相关分析与回归分析的区别与联系是什么? 答:相关与回归分析是研究变量之间不确定性统计关系的重要方法相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析
30、变量间相关关系的形态和程度.回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。具有共同的研究对象,都是对变量间相关关系的分析,二者可以相互补充。相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在相当程度的相关关系时,进行回归分析去寻找变量间相关的具体数学形式才有实际的意义。同时在进行相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中相关系数的确定也是建立在回归分析基础上但它们在研究目的和对研究方法上有明显区别.2简单线性相关系数与等级相关系数的区别是什么?简单线性相关系数要求两个随机变量的联合分布是二维正态分布。等级相关系数
31、主要适用于变量值表现为等级的变量3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?4什么是随机误差项和残差?它们之间的区别是什么?随机误差项Ui表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项ei 指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同12对回归系数显著性作t检验的基本思想是什么利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立.2时间序列有哪些速度分析指标?它们之间的关系是什么?(6个)(1)时间序列有发展速度与增长速度、平均发展速度与平均增长
32、速度等速度指标;按基期的不同有定基速度和环比速度;(2)它们之间的关系:发展速度增长速度13为什么平均发展速度要用几何平均法计算?计算平均发展速度的几何平均法的特点是什么?现象发展的平均速度,一般用几何平均法计算.平均速度是总速度的平均,但现象发展的总速度不等于各年发展速度之和,而等于各年环比发展速度的连乘积,所以求平均发展速度要用几何平均法。 几何平均法的实质是要求从最初水平出发,按所求的平均发展速度发展,计算出的末期水平应等于实际末期水平,这种方法可以只根据最初水平与最末水平计算而不考虑中间水平的变化,其侧重点在于考虑最末一期发展水平4甲企业近四年产品销售量分别增长了9、7、8、6;乙企业
33、这四年产品的次品率也正好是9%、7%、8%、6%。这两个企业这四年的平均增长率和平均次品率的计算是否一样?为什么?不一样.因为计算的对象不同,所使用的方法不同。平均增长率要将增长率变成发展速度后,通过几何平均法求出平均发展速度后减去1得平均增长率,即:四年的平均增长率平均次品率是以每年的产品量(包括次品)为权数对每年的次品率进行加权算术平均得到的,设四年的产品量分别为A、B、C、D,则四年的平均次品率(9A+7%B+8%C+6%D)/(A+B+C+D)5循环变动与季节变动的联系和区别联系:都是影响时间序列变动的因素.区别:季节变动是指客观现象由于受自然因素和生产或生活条件的影响,在一年内随着季
34、节的更换而引起的比较有规律的,可以预测的周期变动.循环变动的周期在一年以上,且周期长短不同,没有固定的变动期限和明显的规律性,很难事先预知.4总指数有哪两种基本编制方式?它们各自有何特点?(1)综合指数先综合,后对比的方法。(2)平均数指数先对比,后平均的方法。简单综合指数通常难以成为现象变动程度的一种客观测度(直接加总无经济意义,不同度量)。从经济分析的角度看,各种商品的重要性程度通常是有差异的,简单平均指数不能反映这种差异,因而难以满足分析的要求。10构建综合评价指数的基本问题有哪些?解决这些问题的实际意义何在(4个)1建立综合评价指标体系 2确定各项指标的评价标准 3确定各项评价指标的权重 4选择评价指标的合成方法 以上四个问题第一个问题指标体系决定了综合评价的实质内容,后面三个问题则共同决定了综合评价的方式、方法。通过以上步骤解决了有关的各项问题就能够构建出相应的综合评价指数。而对有关问题处理方式的不同则将导致不完全相同的综合评价指数编制形式和评价结果。10