1、一、统计学原理期末考试试题类型及结构 1、单项选择题:30分。考评对基本概念了解和计算方法应用。 2、判断题:10分。考评对基本理论、基本概念记忆和了解。 3、简答题:30分。考评对基本概念、基本理论、基本方法了解和掌握情况。 4、计算题:30分。考评对基本计算方法了解、掌握程度及综合应用能力。 二、期末考试形式及答题时限 期末考试形式为闭卷笔试;答题时限为90分钟;能够携带计算器。 三、各章复习内容 期末复习资料:教材、学习指导书习题、作业 第一章 统计总论 1. 了解统计学含义 答:搜集、处理、分析、解释数据并从数据中得出结论科学(搜集数据:取得数据;处理数据:
2、整理与图表展示;分析数据:利用统计方法分析数据;数据解释:结果说明;得到结论:从数据分析中得出客观结论) 第二章 数据搜集 1. 数据起源 答:(1)数据间接起源:系统外部数据(统计部门和政府部门公布关于资料,如各类统计年鉴、各类经济信息中心、信息咨询机构、专业调查机构等提供数据、各类专业期刊、报纸、书籍所提供资料、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流关于资料、从互联网或图书馆查阅到相关资料)系统内部数据(业务资料,如与业务经营活动关于各种单据,统计、经营活动过程中各种统计报表、各种财务,会计核实和分析资料等)(2)数据直接起源(原始数据)调查数据 试验数据
3、 2. 搜集数据基本方法:调查数据(自填式、面访式、电话式);试验数据 3. 抽样误差:因为抽样随机性所带来误差;全部样本可能结果与总体真值之间平均性差异;影响抽样误差大小原因(样本量大小、总体变异性) 重点:数据起源、数据搜集方法、抽样误差 第三章 数据图表展示 重点:熟悉条形图、直方图、饼图、环形图、箱线图、线图等1.对分类数据和次序数据主要是作分类整理;对数值型数据则主要是作分组整理 2.适合于低层次数据整理和显示方法也适合于高层次数据;但适合于高层次数据整理和显示方法并不适合于低层次数据 3.分类数据图示—条形图:用宽度相同条形高度或长短来表示各类别数据图形;有
4、单式条形图、复式条形图等形式;主要用于反应分类数据频数分布,绘制时,各类别能够放在纵轴,称为条形图,也能够放在横轴,称为柱形图 4.分类数据图示—帕累托图:按各类别数据出现频数多少排序后绘制柱形图;主要用于展示分类数据分布 5.分类数据图示—饼图:也称圆形图,是用圆形及圆内扇形角度来表示数值大小图形;主要用于表示样本或总体中各组成部分所占百分比,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占百分比用圆内各个扇形角度表示,这些扇形中心角度,按各部分数据百分比乘以360度确定。 6.环形图:中间有一个“空洞”,样本或总体中每一部分数据用环中一段表示;与饼图类似,但又有区分(饼图只能
5、显示一个总体各部分所占百分比;环形图则能够同时绘制多个样本或总体数据系列,每一个样本或总体数据系列为一个环);用于结构比较研究;用于展示分类和次序数据 7.数值型数据 A组距分组:将变量值一个区间作为一组;适合于连续变量;适合于变量值较多情况;需要遵照“不重不漏”标准;可采取等距分组,也可采取不等距分组 B直方图:用于展示分组数据分布一个图形;用矩形宽度和高度来表示频数分布(本质上是用矩形面积来表示频数分布);在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与对应频数就形成了一个矩形,即直方图。 C直方图与条形图区分:条形图是用条形长度(横置时)表示各类别频数多少,其宽度(表
6、示类别)则是固定;直方图是用面积表示各组频数多少,矩形高度表示每一组频数或百分比,宽度则表示各组组距,其高度与宽度都有意义;直方图各矩形通常是连续排列,条形图则是分开排列;条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。 D未分组数据—茎叶图:用于显示未分组原始数据分布;由“茎”和“叶”两部分组成,其图形是由数字组成;以该组数据高位数值作树茎,低位数字作树叶;树叶上只保留最终一位数字;茎叶图类似于横置直方图,但又有区分(直方图可观察一组数据分布情况,但没有给出详细数值、茎叶图既能给出数据分布情况,又能给出每一个原始数值,保留了原始数据信息、直方图适适用于大批量数据,茎叶图适适用于
7、小批量数据) E未分组数据—箱线图:用于显示未分组原始数据分布;由一组数据5个特征值绘制而成,它由一个箱子和两条线段组成;绘制方法(首先找出一组数据5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接) F时间序列数据—线图:表示时间序列数据趋势图形;时间通常绘在横轴,数据绘在纵轴;图形长宽百分比大致为10 : 7 第四章 数据概括性度量(计算章节) 重点:众数、中位数、分位数、平均数、方差(计算);自由度、偏态、峰态等 1.离中趋势:数据分布另一个主要特征;反应各变量值远离其中心值程度(离散
8、程度);从另一个侧面说明了集中趋势测度值代表程度;不一样类型数据有不一样离散程度测度值。 2.自由度:自由度是指数据个数与附加给独立观察值约束或限制个数之差;从字面涵义来看,自由度是指一组数据中能够自由取值个数;当样本数据个数为n时,若样本平均数确定后,则附加给n个观察值约束个数就是1个,所以只有n-1个数据能够自由取值,其中必有一个数据不能自由取值;按着这一逻辑,假如对n个观察值附加约束个数为k个,自由度则为n-k 3.偏态:统计学家Pearson于1895年首次提出;数据分布偏斜程度测度;偏态系数=0为对称分布、偏态系数> 0为右偏分布、偏态系数< 0为左偏分布、偏态系数大于1或小于
9、1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越靠近0,偏斜程度就越低。 4.峰态:统计学家Pearson于19首次提出;数据分布扁平程度测度;峰态系数=0扁平峰度适中、峰态系数<0为扁平分布、峰态系数>0为尖峰分布。 第 五 章 概率与概率分布 重点:概率性质、 概率加法法则、 条件概率与独立事件、期望、方差、正态分布 加法公式P ( A∪B ) = P ( A ) + P ( B ) - P ( A∩B ) 乘积公式:P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)
10、独立公式:P(AB)=P(A)·P(B) (1)概率性质 1. 非负性 a) 对任意事件A,有 0 £ P(A) £ 1 2. 规范性 a) 必定事件概率为1;不可能事件概率为0。即P ( W ) = 1; P ( F ) = 0 3. 可加性 a) 若A与B互斥,则P ( A∪B ) = P ( A ) + P ( B ) b) 推广到多个两两互斥事件A1,A2,…,An,有 P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An ) (2)条件概率:在事件B已经发生条件下,求事件A发生概率,称这种概率为事件B发生条件下事件A发生
11、条件概率,记为 P(A|B) =P(AB) P(B) (3) 事件独立性:一个事件发生是否并不影响另一个事件发生概率,则称两个事件独立;若事件A与B独立,则P(B|A)=P(B), P(A|B)=P(A) ;此时概率乘法公式可简化为 P(AB)=P(A)·P(B) 推广到n个独立事件,有 P(A1 A2 …An)=P(A1)P(A2) … P(An) (4) 离散型随机变量数学期望: 在离散型随机变量X一切可能取值完备组中,各可能取值xi与其取相对应概率pi乘积之和;描述离散型随机变量取值集中程度;计算公式为 (5) 离散型随机变量方差: 随机变量X每一个取值与期望
12、值离差平方和数学期望,记为D(X);描述离散型随机变量取值分散程度;计算公式为 (6) 正态分布函数性质:概率密度函数在x 上方,即f (x)>0;正态曲线最高点在均值m,它也是分布中位数和众数;正态分布是一个分布族,每一特定正态分布经过均值m和标准差s来区分。 m 决定了图形中心位置, s决定曲线平缓程度,即宽度;曲线f(x)相对于均值m对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交;正态曲线下总面积等于1;随机变量概率由曲线下面积给出(描述连续型随机变量最主要分布) 第 六 章 统计量及其抽样分布 重点: 统计量,c2分布,t 分布,F 分布 1. 统计量
13、设X1,X2,…,Xn是从总体X中抽取容量为n一个样本,假如由此样本结构一个函数T(X1,X2,…,Xn),不依赖于任何未知参数,则称函数T(X1,X2,…,Xn)是一个统计量(样本均值、样本百分比、样本方差等都是统计量)统计量是样本一个函数;统计量是统计推断基础 2. c2分布:由阿贝(Abbe) 于1863年首先给出,日后由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和19推导出来;分布变量值一直为正;分布形状取决于其自由度n大小,通常为不对称正偏分布,但伴随自由度增大逐步趋于对称;期望为:E(c2)=n,方差为:D(c2)=2n(n为自由度)
14、 3. t 分布:高塞特(W.S.Gosset)于19在一篇以“Student”(学生)为笔名论文中首次提出;t 分布是类似正态分布一个对称分布,它通常要比正态分布平坦和分散;一个特定分布依赖于称之为自由度参数。伴随自由度增大,分布也逐步趋于正态分布。 4. F分布:由统计学家费希尔(R.A.Fisher) 提出,以其姓氏第一个字母来命名。 5. 中心极限定理:从均值为m,方差为s 2一个任意总体中抽取容量为n样本,当n充分大时,样本均值抽样分布近似服从均值为μ、方差为σ2/n正态分布。 第 七 章 参数估量 重点:置信区间 1. 置信水
15、平:将结构置信区间步骤重复很数次,置信区间包含总体参数真值次数所占百分比称为置信水平 ;表示为 (1 - a) %(a 为是总体参数未在区间内百分比 )惯用置信水平值有 99%, 95%, 90%(对应 a 为0.01,0.05,0.10) 2. 置信区间:由样本统计量所结构总体参数估量区间称为置信区间;统计学家在某种程度上确信这个区间会包含真正总体参数,所以给它取名为置信区间;用一个详细样本所结构区间是一个特定区间,我们无法知道这个样本所产生区间是否包含总体参数真值我们只能是希望这个区间是大量包含总体参数真值区间中一个,但它也可能是少数几个不包含参数真值区间中一个;总体参数以一定概率落在这
16、一区间表述是错误 3. 惯用置信水平Za/2值 置信水平 A a/2 Za/2 90% 0.1 0.05 1.645 95% 0.05 0.025 1.96 99% 0.01 0.005 2.58 第 八 章 假设检验 重点:原假设、备择假设、假设检验流程、均值检验等 1. 原假设:待检验假设,又称“0假设”;研究者想搜集证据给予反正确假设;总是有等号 =, £ 或 ³ 表示为 H0(H0:m = 某一数值 ;指定为 = 号,即 £ 或 ³;比如, H0:m = 3190(克)) 2. 备择假设:与原假设对立假设,也称“研究假设”;
17、研究者想搜集证据给予支持假设总是有不等号: ¹, < 或 > 表示为 H1 H1:m <某一数值,或m >某一数值 比如, H1:m < 3910(克),或m >3910(克)。 3. 假设检验中两类错误:1. 第一类错误(弃真错误)原假设为真时拒绝原假设;会产生一系列后果;第一类错误概率为a;被称为显著性水平 2. 第二类错误(取伪错误);原假设为假时接收原假设;第二类错误概率为b (Beta) 4. 假设检验流程:提出假设、确定适当检验统计量、要求显著性水平、计算检验统计量值、做出统计决议。 5. 显著性水平a:1.是一个概率值;原假设为真时,拒绝原假设概率;被称为抽样分布拒绝
18、域;表示为 a (alpha);惯用 a 值有0.01, 0.05, 0.10;由研究者事先确定 6. 总体均值检验:(选择题:已知-Z统计量;未知-T统计量) 第 九 章 分类数据分析 重点:列联表、相关系数 1. 列联表:由两个以上变量交叉分类频数分布表;行变量类别用 r 表示, ri 表示第 i 个类别;列变量类别用 c 表示, cj 表示第 j 个类别;每种组合观察频数用 fij 表示;表中列出了行变量和列变量全部可能组合,所以称为列联表;一个 r 行 c 列列联表称为 r ´ c 列联表 2. 列联表中相关测量:品质相关-对品质数据(分类和次序数据)之间相关程度
19、测度;列联表相关测量统计量主要有(j 相关系数、列联相关系数、V 相关系数) 3. j 相关系数:测度2´2列联表中数据相关程度;对于2´2 列联表,j 系数值在0~1之间 4. 列联相关系数:C 取值范围是 0£C<1;C = 0表明列联表中两个变量独立;C 数值大小取决于列联表行数和列数,并随行数和列数增大而增大;依照不一样行和列列联表计算列联络数不便于比较 5. V 相关系数:V 取值范围是 0£V£1;V = 0表明列联表中两个变量独立;V=1表明列联表中两个变量完全相关;不一样行和列列联表计算列联络数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时
20、V=j 6. 关于小单元频数有两条准则:假如只有两个单元,每个单元期望频数必须大于或等于5;倘若有两个以上单元,假如百分之二十单元期望频数小于5,则不能用c2 检验。 第10章 方差分析 重点:单原因方差分析表(基本结构)(说出每一步骤意思) 1. 单原因方差分析分析步骤 提出假设:通常提法(H0 :m1 = m2 =…= mk 自变量对因变量没有显著影响 ;H1 :m1 ,m2 ,… ,mk不全相等 自变量对因变量有显著影响 注意:拒绝原假设,只表明最少有两个总体均值不相等,并不意味着全部均值都不相等) 结构检验统计量:计算各样本均值、计算全部观察值总均值、计算各
21、误差平方和(总平方和SST、组间平方和SSA、组内平方和SSE SST=SSA+SSE )、计算统计量 (MSA=SSA/k-1 MSE=SSE/n-k F=MSA/MSE~F) 统计决议:假如原假设成立,则表明没有系统误差,组间方差MSA与组内方差MSE比值差异就不会太大。若F>Fa 则拒绝原假设HO 结论:表明有显著差异 第11章 一元线性回归 重点:相关系数、回归方程 相关系数:度量变量之间关系强度一个统计量;对两个变量之间线性相关强度度量称为简单相关系数;若相关系数是依照总体全部数据计算,称为总体相关系数,记为r ;若是依照样本数据计算,则称为样本相关系数,简称为
22、相关系数,记为 r
相关系数性质:r 取值范围是 [-1,1] |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线性相关关系 -1£r<0,为负相关 0 23、动一个单位时,y 平均变动值
第12章 多元线性回归
重点:多重共线性、回归方程
1. 多重共线性:回归模型中两个或两个以上自变量彼此相关;多重共线性带来问题有:可能会使回归结果造成混乱,甚至会把分析引入歧途;可能对参数估量值正负号产生影响,尤其是各回归系数正负号有可能同预期正负号相反
2. 多重共线性情况:模型中各对自变量之间显著相关;当模型线性关系(F检验)显著时,几乎全部回归系数t检验却不显著;回归系数正负号与预期相反
第13章 时间序列分析和预测
重点:时间序列类别、成份、预测方法
1. 时间序列分类
2.时间序列成份
3.预测方法选择
24、
第 14 章 指数
重点:指数概念、常见指数
1. 指数含义:指数最早起源于测量物价变动;指数是测定多项内容数量综合变动相对数;指数实质是测定多项内容,比如,零售价格指数反应是零售市场几百万种商品价格改变整体情况;指数表现形式为动态相对数,既然是动态相对数,就包括到指标基期对比,不一样要素基期选择就成为指数方法需要讨论问题。编制指数方法就是围绕上述两个问题展开
2. 指数分类
(1)个体指数与综合指数
个体指数:反应单一项目标变量变动;如一个商品价格或销售量变动
总指数:反应多个项目变量综合变动;如多个商品价格或销售量综合变动
(2)简单指数 25、与加权指数
简单指数(simple index number):计入指数各个项目标主要性视为相同
加权指数(weighted index number):计入指数项目依据主要程度赋予不一样权数
(3)数量指数与质量指数
数量指数:反应物量变动水平;如产品产量指数、商品销售量指数等
质量指数:反应事物内含数量变动水平;如价格指数、产品成本指数等
3. 几个经典指数
居民消费价格指数(Consumer Price Index,简称CPI)是度量居民消费品和服务项目价格水平随时间变动相对数,反应居民家庭购置消费品和服务价格水平变动情况。该指数是分析经济形势走势,检测物价水平,进行国民经济核实主要指标,也常被用作测定通货膨胀。
股票价格指数反应某一股票市场上多个股票价格变动趋势一个相对数。其单位通惯用“点”(point)表示,即将基期指数作为100,每上升或下降一个单位称为“1点”。
消费者满意度指数反应消费者满意程度。
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818