资源描述
《统计学》期末重点
1. 统计学类型和不一样类型特点
统计数据;按所采取计量尺度不一样分;
(1)(定性数据)分类数据:只能归于某一类别非数字型数据,它是对事物进行分类结果,数据表现为类别,用文字来表述;
(2)(定性数据)次序数据:只能归于某一有序类别非数字型数据。它也是有类别,但这些类别是有序。
(3)(定量数据)数值型数据:按数字尺度测量观察值,其结果表现为详细数值。 统计数据;按统计数据都搜集方法分;
(4)观察数据:是经过调查或观察而搜集到数据,这类数据是在没有对事物人为控制条件下得到。
(5)试验数据:在试验中控制试验对象而搜集到数据。 统计数据;按被描述现象与实践关系分;
(6)截面数据:在相同或相同时间点搜集到数据,也叫静态数据。
(7)时间序列数据:按时间次序搜集到,用于描述现象随时间改变情况,也叫动态数据。
2. 变量题型
第10页,习题1.1
(1) 年纪:数值型变量
(2) 性别:分类变量
(3) 汽车产量:离散型变量
(4) 员工对企业某项改革方法态度(赞成、中立、反对):次序变量
(5) 购置商品时支付方式(现金、信用卡、支票):分类变量
3. 随机抽样(概率抽样)抽样方式。
(1) 简单随机抽样
(2) 分层抽样:就是抽样单位按某种特征或者某种规则划分为不一样层,然后从不一样层中独立、随机地抽取样本。将各层样本结合起来,对总体目标量进行估量。
(3) 整群抽样:
(4) 系统抽样
(5) 多阶段抽样
分层抽样与整群抽样区分:
分层抽样层数就是样本容量;整群抽样群中单位个数就是样本容量
4. 非概率抽样几个类型
(1) 方便抽样
(2) 判断抽样
(3) 自愿样本
(4) 滚雪球抽样
滚雪球抽样往往用于对稀少群体调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总特调查对象,调查人员依照调查线索,进行今后调查。这个过程连续下去,就会形成滚雪球效应。
优点:轻易找到那些属于特定群体被调查者,调查成本也比较低。
(5) 配额抽样
比较概率抽样和非概率抽样特点,指出各自适用情况
概率抽样:抽样时按一定概率以随机标准抽取样本。每个单位别抽中概率已知或能够计算,当用样本对总体目标量进行估量时,要考虑到每个单位样本被抽到概率。技术含量和成本都比较高。假如调查目标在于掌握和研究对象总体数量特征,得到总体参数置信区间,就使用概率抽样。
非概率抽样:操作简单,时效快,成本低,而且对于抽样中统计学专业技术要求不是很高。它适合探索性研究,调查结果用于发觉问题,为更深入数量分析提供准备。它一样使用市场调查中概念测试(不需要调查结果投影到总体情况)。
5. 数据预处理内容
数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。
6. 数据型数据分组方法和步骤
分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。
分组步骤:(1)确定组数
(2) 确定各组组距
(3) 依照分组整理成频数分布表
7. 散点图与饼图主要用途
饼图是用圆形及圆内扇形角度来表示数值大小图形,它主要用于表示一个样本(或总体)中各组成部分数据占全部数据百分比,对于研究结构性问题十分有用。
散点图是描述变量之间关系一个直观方法,从中能够大致上看出变量之间关系形态及关系强度。
8. 举例说明开口组组中值计算方法
缺下限开口组组中值=上限-1/2邻组组距
缺上限开口组组中值=下限+1/2邻组组距
9. 怎样了解平均数在统计学中地位?
平均数在统计学中具备主要地位,是集中趋势最主要测度,主要适适用于数值型数据,而不适适用于分类数据和次序数据。
10. 中位数与众数区分
众数:是一组数据中出现次数最多变量值,用表示。众数主要用于测度分类数据集中趋势,当然也适适用于作为次序数据以及数值型数据集中趋势测度值。
中位数:是一组数列排序后处于中间位置上变量值,用。中位数主要用于测度次序数据集中趋势,当然也适用测度数值型数据集中趋势,但不适适用于分类数据。
简述众数、中位数和平均数特点和应用场所。
众数是一组数据分布峰值,不受极端值影响,缺点是具备不唯一性。众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据集中趋势测度值。
中位数是一组数据中间位置上代表值,不受极端值影响。当数据分布偏斜较大时,使用中位数可能不错。主要适合作为次序数据集中趋势测度值。
平均数对数值型数据计算,而且利用了全部数据信息,在实际应用中最广泛。当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但平均数易受极端值影响,对于偏态分布数据,平均数代表性较差,此时应考虑中位数或众数。
11. 标准差系数(离散系数或变异系数)计算及其应用(第89页,第96页习题4.8(1))
为何要计算离散系数?
方差和标准差是反应数据分散程度绝对值,首先其数值大小受原变量值本身水平高低影响,也就是与变量平均数大小关于;另首先,它们与原变量计量单位相同,采取不一样计量单位变量值,其离散程度测度值也就不一样。所以,为消除变量值水平高低和计量单位不一样对离散程度测度值影响,需要计算离散系数。
12. 什么是次序统计量
设,,……,是从总体中抽取一个样本,称为第个次序统计量,它是样本满足以下条件函数:每当样本得到一组观察值时,其由小到大排序中,第个值就作为次序统计量观察值,而称为次序统计量。其中,分别为最小最大次序统计量。
13. 什么是自由度?
自由度:随机变量所包含独立变量个数。
14. 偏态系数(SK)取值不一样意义
假如一组数据分布是对称,则偏态系数等于0;假如偏态系数显著不等于0,表明分布是非对称。若偏态系数大于1或小于-1,成为高度偏态分布;若偏态系数在0.5-1或-1--0.5之间,被认为是中等偏态分布;偏态系数越靠近0,偏斜程度就越低。
15. 中心极限定理内容
设从均值方差为任意一个总体中抽取样本量为n样本,当n充分大时,样本均值抽样分布近似服从均值为,方差为正态分布。
16. 评价估量量标准
(1) 无偏性
无偏性是指估量量抽样分布数学期望等于被估量总体参数。设总体参数为θ,所选择估量量为θ,假如E(θ)=θ,则称θ为θ无偏估量量。
(2) 有效性
有效性是指对同一整体参数两个无偏估量量,有更小标准估量量更有效。在无偏估量条件下,估量量方差越小,估量也就越有效。
(3) 一致性
一致性是指伴随样本量增大,估量量指越来越靠近被估量总体参数。换而言之,一个大样本给出估量量要比一个小样本给出估量量更靠近总体参数。
17. 简述样本量与置信水平、总体方差、估量误差关系
样本量越大置信水平越高,总体方差和边际误差越小
18. 大样本条件下总体均值区间估量
(1) 大样本条件下,方差已知,正态总体或非正态总体
总体均值在置信水平下置信区间为:
(为置信下限;为置信上限,为事先确定一个概率值,也称风险值,是总体均值不包含在置信区间概率;为置信水平;是标准正态分布右侧面积为时z值;是总体均值估量误差)
(2) 大样本条件下,方差未知,正态总体或非正态总体
总体均值在置信水平下置信区间为:
(为样本方差,s为样本标准差)
19. 置信区间可靠性与精准性关系
置信度又称置信水平是对总体参数进行区间估量时结构随机区间包含参数真值概率。
精准度是对总体参数进行区间估量时结构随机区间平均长度。
置信度和精准度是评价区间估量优劣两个标准,置信度度和精准度都高则说明区间估量很好,不过二者是此消彼长关系,提升置信度必将以降低精准度为代价。
20. 假设检验和参数估量有什么相同点和不一样点?
参数估量和假设检验是统计推断两个组成部分,它们都是利用样本对总体进行某种推断,然而推断角度不一样。参数估量讨论是用样本统计量估量总体参数方法,总体参数μ在估量前是未知。而在参数假设检验中,则是先对μ值提出一个假设,然后利用样本信息去检验这个假设是否成立。
21. 假设检验种类及假设正确写法
建设检验通常流程:
首先提出原假设和备择假设,分别为:
然后,确定适当检验统计量,需要考虑样本量多与少,总体标准差已知是否,等等。
要求显著性水平
检验统计量确实定:
① 若是大样本条件下,采取z统计量,计算公式为:
或
② 若是小样本条件下,采取t统计量,计算公式为
(t统计量自由度为n-1)
注:即使是小样本,若已知,仍可继续使用z统计量。
最终,进行统计决议。
百分比问题检验,z统计量计算公式为:
(p为样本百分比;为总体百分比π假设值)
(1) 双侧检验
在双侧检验中,只要或二者之中有一个成立,就能够拒绝原假设。
以大样本条件下为例,双侧检验决议准则为:
(z下标表示双侧检验)
不论双侧检验或是单侧检验,若使用P值检验,;。
(2) 单侧检验
① 左单侧检验(下限检验)
希望所考查数值越大越好
② 右单侧检验(上限检验)
希望所考查数值越小越好
22. 大样本条件下总体均值假设检验(192页例题)
5. 总体方差假设检验方法
若进行双侧检验,在确定水平下,拒绝域分布在统计量分布曲线两边;
若是单侧检验,拒绝域分布在统计量分布曲线一边。详细在左还是在右,需依照原假设和备择假设情况而定。若样本统计量≥,则拒绝原假设;若<,则不能拒绝原假设。
23. 假设检验中犯两类错误及其概率之间关系
假设检验结果可能是错误,所犯错误有两种类型,一类错误是原假设H0为真却被我们拒绝了,犯这种错误概率用α表示,所以也称α错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯这种错误概论用β表示,所以也称β错误或取伪错误。
两类错误之间存在什么样数量关系:在假设检验中,α与β是此消彼长关系。假如减小α错误,就会增大犯β错误机会,若减小β错误,也会增大犯α错误机会。 故,二者是此消彼长关系。
24. 列联表概念及自由度确实定
列联表是由两个以上变量进行交叉分类頻数分布表。
自由度=(R-1)(C-1)
简述列联表结构与列联表分布
两个以上变量进行交叉分类頻数分布表,包含观察值分布与期望值分布。
25. 列联表检验步骤(4个),即计算统计量步骤
(1) 计算
(2) 计算
(3) 计算
(4) 计算
26. 相关系数计算及性质
简述相关系数性质:
(1) r取值范围为-1到1,
① r=1时,完全正线性相关
② R=-1时,完全负线性相关
③ R=0时,不存在线性相关关系
④ 0>r>=-1,负线性相关
⑤ 0<r<=1,正线性相关
⑥ R越趋近于+—1,线性相关关系越亲密
⑦ R越趋近于0,线性相关关系越不亲密
(2) r具备对称性。x与y之间相关系数和y与x之间相关系数相等。
(3) r数值大小与x和y原点及尺度无关。
(4) r仅仅是x与y之间线性关系一个度量,它不能用于描述非线性关系。
(5) r即使是两个变量之间线性关系一个度量,却不一定意味着x与y一定有因果关系。
27. 简述参数最小二乘估量基本原理
未知量最可能值是使各项实际观察值和计算值之间差平方乘以其精准度数值以后和为最小。
28. 简述判定系数含义和作用
回归平方和占总平方和百分比称为判定系数,判定系数是对估量得回归方程拟合优度度量。
三个平方和关系为:总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
判定系数R²测度了回归直线对观察数据拟合程度。判定系数R²取值范围是[0,1]。R²越靠近1,表明回归平方和占总平方和百分比越大,回归直线各观察点越靠近,用x改变来解释y值变差部分就越多,回归直线拟合程度就越好;反之R²越靠近0,回归直线拟合程度就越差。
29. 简单线性回归方程计算
(是估量回归直线在y轴上截距;是直线斜率,表示x每变动一个单位时,y平均变动值。)
30. 平稳序列与非平稳序列
平稳序列是基本上不存在趋势序列。
非平稳序列是包含趋势、季节性或周期性序列,它可能只含有其中一个成份,也可能含有几个成份组合。
31. 简述时间序列预测程序。
第一步:确定时间序列所包含成份,也就是确定时间序列类型。
第二步:找出适合这类时间序列预测方法。
第三步:对可能预测方法进行评定,以确定最好预测方案。
第四步:利用最好预测方案进行预测。
32. 简述复合型序列预测步骤
第一步:确定并分离季节成份,计算季节指数,以确定时间序列中季节成份。然后将季
节性原因从时间序列中分离出去,方便观察和分析时间序列其余特征。
第二步:对消除了季节成份时间序列建立适当预测模型,并进行预测。
第三步:计算出最终预测值。用预测值乘以对应季节指数,得到最终预测值
33. 简述季节指数计算步骤
(1)计算移动平均值(季度数据采取4项移动平均,月份数据采取12项移动平均),并将其结果进行“中心化”处理
(将移动平均结果再进行一次二项移动平均,即得出“中心化移动平均值”(CMA))
(2)计算移动平均比值,也成为季节比率
(即将序列各观察值除以对应中心化移动平均值,然后再计算出各比值季度(或月份)平均值,即季节指数)
(3)季节指数调整
(各季节指数平均数应等于1或100%,若依照第二步计算季节比率平均值不等于1时,则需要进行调整。详细方法是:将第二步计算每个季节比率平均值除以它们总平均值)
34. 什么是指数体系?它有什么作用?
指数体系是指三个或三个以上指数在一定经济联络基础上所形成整体,它们之间在数量上相互衔接和制约,形成一个乘积关系。
作用:(1)从数量方面研究分析社会经济现象总体变动中各个原因变动影响程度和绝对效果,即进行原因分析。
(2)利用指数之间联络,进行必要推算。
展开阅读全文