资源描述
统计学简答汇总
第一章 :绪论(无)
第二章 :定量变量的统计描述
1.均数﹑几何均数和中位数的适用范围有何异同?
答:相同点,均表示计量资料集中趋势的指标。
不同点:表2-5.
表2-5 均数,几何均数和中位数的相异点
平 均 数 意 义 应用场合
均 数 平均数量水平 应用甚广,最适用于对称分布,特别是正态分布
几何均数 平均增减倍数 ①等比资料;②对数正态分布资料
中位数 位次居中的观 ①偏态资料;②分布不明资料;③分布一端或两
察值水平 端出现不确定值
2. 中位数与百分位数在意义上﹑计算和应用上有何区别与联系?
答:
1) 意义:中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
(2)计算:中位数和百分位数均可用同一公式计算,即
Px=L+(i/fx)(n·x%-ΣfL)
可根据研究目的选择不同的百分位数代入公式进行计算分析。
(3)应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考
值范围的确定。中位数常和其它分位数结合起来描述分布的特征,在实际工作中
更为常用。百分位数还可以用来描述变量值的离散趋势(四分位数间距)。
3.同一资料的标准差是否一定小于均数?
答:不一定。同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。
变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些?
(1)样本含量的大小,样本含量越大,标准差越稳定。
(2)分组的多少
(3)分布形状的影响,偏态分布的标准差较近似正态分布大
(4)随机测量误差大小的影响
(5)研究总体中观察值之间变异程度大小
5. 标准差与变异系数的异同点有哪些?
答:标准差:是以算数平均数为中心,反映各观测值离散程度的一个绝对指标.当需要对同一总体不同时期或对不同总体进行对比时,缺乏可比性.当总体平均水平不同或计量单位不同时,用标准差是无法实现两组数据离散程度大小对比的.
变异系数:标准差与平均数的比值称为变异系数,记为C·V.变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
6. 如何表达一批计量数据的基本特征?
答:从集中趋势和离散趋势两方面回答。
7. 描述计量资料离散程度(差别大小)的指标有哪些,各适用于什么情况?
答:常见的几种描述离散程度的指标:极差或全距,四分位数差距,方差与标准差,变异系数。
极差适合:数据分布非对称的情形。
四分位数差距适合:数据分布非对称的情形。
方差与标准差适合:对称分布或近似正态分布资料,能充分利用全部个体的信息。
变异系数适用:当比较两资料的变异程度大小时,如果变量单位不同或均数差别较大时,直接比较 无可比性,适用变异系数比较。
8. 标准差有何用途?
答:①描述正态分布的变异程度;②正态分布时,均数与标准差同时写出:+S;③计算变异系数;④用标准差估计变量值的频数分布;⑤用标准差计算标准误。
9. 统计描述的基本方法有哪些,各自有何特点?
答:统计描述的基本方法:用表、图和数字的形式概括原始资料的主要信息。
表:详细、精确。图:直观。指标:综合性好。
10.简述变异系数的实用时机。
答:变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。
11. 怎样正确描述一组计量资料?
答:(1).根据分布类型选择指标。(2).正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。
12. 原始数据单位变换后,对均数和方差有何影响?
答:均数和方差均改变。用实例说明。
13.列表的原则和基本要求是什么?
答:(1)列表的原则:重点突出,简单明了;主谓分明,层次清楚。
(2)列表的基本要求:
① 应有简明扼要说明统计表内容的标题。既不能过与简略,也不呢能过于繁琐或不确切。
② 标目文字要简明,有单位的标目要注明,标目不宜过多,层次应清楚。
③ 线条不宜过多。除顶线、底线、纵标目下与合计行上面的线条外,其他线条一般均应省去。表的左上角不宜有斜线。
④ 表内数字小数位数保留应一致,位次应对齐,不宜留空格。暂缺或未记录用“…”表示,无数字用“—”表示,数字是“0”则应填写“0”。
⑤ 备注一般不列入表内,应用“*”号引出,写在表的下面。
14.常用的统计图有哪几种?他们的适用条件是什么?
答:常用的统计图有条图、百分条图、圆图、线图、半对数线图、直方图、散点图和统计地图等。
(1)直条图:用等宽直条的长短来表示相互独立的各项指标的数值大小,如发病率等。
(2)百分条图、圆图:用长条各段的面积、圆的扇形面积来表示事物内部各构成部分的分布情况,即各构成比重的大小,如构成比。
(3)普通线图:用线段的升降来表示连续性资料随时间的变迁、某事物现象的动态及变化趋势。
(4)半对数线图:用线段的升降来表示连续性资料随时间的变迁和某事物现象发展变化的速度。
(5)直方图:用直方面积的大小表示数值变量资料频数分布的情况。
(6)散点图:用点的密集程度和趋势表示两变量间的相关关系。
(7)统计地图:用不同的纹线或颜色说明指标高低,描述某事物现象在行政区域上的分布情况。
15.半对数线图的图形如何做分析?
答:用于表示事物的发展速度(相对比)。其横轴为算数尺度,纵轴为对数尺度,在比较几组数据的变化速度(相对比)时,特别是两组数据相差悬殊时,宜用半对数线图。
第三章:定性变量的描述
1.为什么不能以构成比代率?
答:二者说明的问题不同。构成比只能说明某事物内部各组成部分在全体中所占的比重或分布,不能说明某现象发生的频率或强度。
2.简述相对数标准化的基本思想。
答:基本思想: 采用统一的标准人口年龄构成,以消除不同人口构成对两地死亡率的影响,使得到的 标准化死亡率具有可比性。
3.解释在何种情况下应选用率的直接标化法,何种情况选用间接标化法?
答: 率的直接标化法:已知各组的年龄别死亡率pi。间接标化法:已知各组的死亡总数和各年龄组人口数.
4.率的直接标化法,与间接标化法有何不同?
答: (1)适用条件不同(见第上题);(2)“标准”不同:前者选定一个“标准人口”或“标准人口构成” 。 后者选定一套“标准年龄别死亡率” 。
5.应用相对数时应注意哪些问题?
答:应用相对数指标的时候要注意:分母不宜过小;不要以比代率;资料的可比性;样本指标比较 时应做假设检验。
6.常用相对数指标有哪些? 它们的意义上有何不同?
答:常用相对数指标:率、构成比、比。率又称频率指标或强度相对数。说明某现象发生的频率或 强度。常用来表示某一事物发展的趋势或水平及特征。构成比又称构成指标或结构相对数。部分与全部之比,说明某事物内部各组成部分在全体中所占的比重或分布。常用来表示疾病或死亡的顺位、位次或所占比重。比(又称相对比)表示同类的或有联系的两个现象间的对比关系,常用倍数或百分数表示。
7.统计学上资料是否“具有可比性”指的是什么? 你能举出一些不可比的例子吗?
答:除研究因素外,其余重要影响因素应相同或相近。一般观察单位同质,研究方法相同,观察时 间相等,以及地区、民族等客观条件一致。例如内科和外科的治愈率就无可比性。
8.何谓人口老龄化?请简述其影响因素。
答 1:人口老龄化是指老年人口(65 岁及以上)在人口中所占的比重升高的现象。在没有迁移的 情况下,人口老龄化的进程主要受生育率和死亡率两种因素的影响。生育率下降,使低年龄人口的比重降低,高年龄人口的比重相应增加;死亡率(主要是中老年人口的死亡率)降低,使寿命延长,老年人口比重增加。一般来说,人口老龄化的速度和程度主要取决于生育率的下降速度。当生育率水平下降达到很低的水平且很难再有较大程度的降低时,中老年人口死亡率的降低对人口老龄化的影响才比较明显。
9.发病率、时点患病率、时期患病率的区别。
答:(1)发病率是指观察期内,可能发生某病的人群中新发病例的频率,其观察期多为年、月、日等,急性常见病多计算发病率。
(2)时点患病率反映在检查或调查时点一定人群中某病的现患情况(包括该病的新旧病例数)。观 察时点在理论上是无长度的,但实际上观察时间不宜过长,一般不超过个月。
(3)时期患病率反映在观察期间一定人群中存在或流行某病的频度,包括观察期间的新发病例和现 患病例数,为慢性病的统计指标。
10.疾病统计的观察单位 “病人”和“病例”的区别。
答:(1)一个人每次患病都可作为一个病例。以病例为单位的疾病统计,可研究居民各种疾病的频度、疾病的种类及疾病的变动,以获得居民患病的基本规律。
(2)病人是指一个有病的人。在观察期间内,观察对象患有疾病即算作一个病人,不管其患病的种 类及患病次数的多少。以病人为单位的疾病统计,在一定程度上反映居民的患病频度,可找出具体 的患病人群,便于开展对病人个人的防治工作。
11.病死率和死亡率的区别。
答:(1)某病病死率表示在规定的观察期内,某病患者中因该病而死亡的频率。它是反映疾病的严重程度的指标。在用病死率进行比较时应注意病情轻重等内部构成不同的影响。计算公式为:观察期内因某病死亡的人数 某病病死率= 同期该病患者数 ×1000‰
(2)某病死亡率表示在规定的观察期内,人群中因某病而死亡的频率。它可以反映不同地区或年代 某种疾病的死亡水平。计算公式为: 观察期内因某病死亡的人数 某病死亡率= 同期平均人口数 ×1000‰
12.简述婴儿死亡率指标的实际意义。
答:婴儿死亡率指某地某年不满一周岁婴儿的死亡数与同期活产总数的比值。
婴儿死亡率= 某年不满周岁婴儿死亡数 ×1000‰ /同期活产数
婴儿死亡率的高低对平均寿命有重要的影响,它是反映社会卫生状况和婴儿保健工作的重要指 标,也是死亡统计指标中较为敏感的指标。婴儿死亡率不受年龄的影响,不同国家或地区之间可以相互比较。
13.请说明频率型指标与强度型指标的主要区别?
答:主要区别:指标的解释不同,频率型指标是表示事物内部某个组成部分所占的比重或分布,或指某现象发生的频率。强度型指标是指单位时间内某现象发生的频率。
14.标准化法的基本思想?
答:采用统一标准构成以消除某因素的内部构成不同对总率的影响,使通过标准化后的标准化率具有可比性。
15.请比较发病率和患病率的不同。
答:发病率表示一定时期内,在可能发生某病的一定人群活过的总人年中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总人数。在一定的人群和时间内,发病率和患病率有密切关系,两者与病程(D)的关系是:PR=IR×D。
16.请比较死亡率与病死率的不同。
答:死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。
17.应用相对数应注意的事项。
答:1.理解相对数的含义不可望文生义;2.频率型指标的解释要紧扣总体和属性;3.计算相对数时分母应有足够数量;4.正确地合并频率(强度)型指标;5.相对数间的比较要具备可比性;6.对相对数的统计推断。
18.应用标准化的注意事项。
答:1.标准化的应用范围很广,适用于“某事件的发生率”可以是治愈率,也可以是患病率,还可以是发病率、病死率等。当某个分类变量在两组中分布不同时,这个分类变量就成为两组频率比较的混杂因素,标准化法的目的就是消除这个混杂因素的影响。
19. 疾病统计有几类指标,各有什么意义?
答:发病率、时点患病率、期间患病率、治愈率、生存率、残疾患病率。前3种详见上述简答题。治愈率:表示受治病人中治愈的频率。有效率表示受治病人中治疗有效的频率。两个率主要用于对急性病危害或防治效果的评价。但治愈和有效的标准要有明确而具体的规定,只有在标准相同的情况下才可以相互比较。生存率:病人能活到某一时点的概率。常用于对慢性病及心血管病等的治疗效果评价和预后评估。
20. 反映疾病的预防效果和治疗效果的指标有哪些?各有什么特点?
答:①发病率:疾病防治效果;②患病率:慢性病预防效果;③治愈率:急性病防治效果;④生存率:慢性病的治疗效果。各指标含义详见上述简答题。
21. 测量生育水平有几个指标?各指标有什么不同?
答:①粗生育率;②总生育率;③年龄别生育率;④总和生育率。各指标含义详见教材P41。
22. 测量人口再生育水平有几个指标?各指标有什么不同?
答:①自然增长率;②粗再生育率;③净再生育率。各指标含义详见教材P42。
23. 人口统计应包括哪几个方面?
答:医学人口统计是从卫生保健的角度研究和描述人口数量、分布、结构、变动及其规律,研究人口与卫生事业发展的相互关系,是卫生统计学的重要组成部分。包括描述人口学特征的指标,生育和人口死亡的指标。详见书本P40-44。
24. 人口金字塔有几种典型的形状?各说明什么?
答:人口金字塔直观地表示了人口的年龄、性别结构。每一层代表一个年龄组的人口,上部代表老年人,下部代表少年儿童,左半部代表男性,右半部代表女性,水平方向的长度表示男性和女性人口的数量各在总人口中所占的百分比。人口金字塔一共分3种类型:①年轻型:下宽上窄,呈真正的金字塔形,表明少年儿童人口占总人口的比重大,预示着未来人口的发展趋势是增长的。其人口增长模式一般为“高-低-高”模式,主要存在有发展中国家;②成年型:底部与中部的宽窄基本相近,出生率、死亡率差不多,预示着未来人口的发展趋势是稳定的。其人口增长模式一般为“低-低-低”模式;③老年型:上宽下窄,表明少年儿童人口的比重缩小,老年人口比重增大,是出生率长期下降的结果。这种类型的人口问题主要是育龄人口比重低,如果生育水平不变,预示着未来人口的发展趋势是负增长的。其人口增长模式一般为“低-低-低”模式,一般存在于发达国家。
第四章 :常用概率分布
1.正态分布﹑标准正态分布与对数正态分布在概念上和应用上有何异同?
答:概念上:①相同点:正态分布、标准正态分布与对数正态分布都是变量的连续型分布。其特征是:分布曲线在横轴上方,略呈钟型,以均数为中心,两边对称,均数处最高,两边逐渐减小,向外延伸,不与横轴相交。②相异点:表示方法不同,正态分布用N(µ,σ2)表示,标准正态分布用N(0,1)表示,对数正态分布N(μlgX,σ2lgX)表示。
(1) 应用上:①相同点:正态分布、对数正态分布都可以转换为标准正态分布。
②相异点:标准正态分布是标准正态变量u的分布,标准正态曲线下的面积唯一的由u决定,给应用带来极大方便。对医学资料呈偏态分布的数据,有的经对数变换后服从正态分布。正态分布、对数正态分布可描述变量值的分布特征,可用于正常值范围估计和质量控制等。正态分布是很多统计方法的理论基础。
2.医学中参考值范围的含义是什么?确定的原则和方法是什么?
含义:参考值范围亦称正常值范围,它是指特定健康状况人群(排除了有关疾病和因素对所研究指标有影响的所谓“正常人”不同于“健康人”概念)的解剖、生理、生化等数据绝大多数人的波动范围。
(2)原则:
① 抽取有代表性的足够例数的正常人群样本,样本分布越接近总体,所得结果越可靠。一般认为样本含量最好在100例以上,以能得到一个分布较为稳定的样本为原则。
② 对选定的正常人进行准确而统一的测定,保证测定数据可靠是确定正常值范围的前提。
③ 判定是否要分组(如男女、年龄、地区等) 确定正常值范围。
④ 决定取双侧范围值还是单侧范围值。
⑤ 选择适当的百分范围
⑥ 确定可疑范围
⑦ 估计界值
(3)方法:
① 百分位数法:Px=L+(i/fx)(n·x%-ΣfL)
② 正态分布法(对数正态分布):
百分位数法用于各种分布型(或分布不明)资料;正态分布法用于服从或近似正态分布(服从对数正态分布)的资料。
3.对称分布资料在“均数±1.96倍标准差”的范围内,也包括95%的观察值吗?
答:不一定。均数±1.96倍标准差是正态分布的分布规律,对称分布不一定是正态分布。
4.正态分布的主要特征有哪些?
答:(1)正态曲线在横轴上方均数处最高。
(2)正态分布以均数为中心,左右对称。
(3)正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)。
(4)正态曲线下的面积分布有一定规律。
5.参考值范围是指什么?
答:参考值范围又称正常值范围,即大多数正常人某指标值的范围。“正常人”是指排除了影响研究指标的疾病和有关因素的同质人群。
6.简述估计参考值范围的步骤与要点。
答:设计:①样本: “正常人” ,大样本 n≥100。②单侧或双侧。③指标分布类型。
计算:①若直方图看来像正态分布,用正态分布法。②若直方图看来不像正态分布,用百分位数法。
7.简述正态分布的用途。
答:(1)估计频数分布。(2)制定参考值范围。(3)质量控制。(4)统计检验的理论基础。
8.简述可信区间在假设检验问题中的作用。
答:可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准的前提下进行计算,而假设检验能够获得一个较为确切的概率 P 值。故将二者结合起来,才是对假设检验问题的完整分析。
9. 二项分布、Poisson分布各有哪些特征?
答:二项分布和 Poisson 分布都是离散型分布。
二项分布的形状取决于与 n 的大小:=0.5 时,不论 n 大小,分布对称。≠0.5时,图形呈偏态,随n 的增大,逐渐对称。当 n足够大, 或 1-不太小,二项分布 B(n,)近似于正态分布 N( n, n(1-) )。
Poisson 分布:值愈小分布愈偏,愈大分布趋于对称,当足够大时,分布接近正态分布 N(, )。
10.简述二项分布、Poisson分布、正态分布的关系。
答:当 n 足够大,或 1-不太小时,二项分布近似于正态分布。当 n 足够大,或 1-很小时,二项分布近似于 Poisson分布。较大时,Poisson 分布近似于正态分布。
11.二项分布的应用条件是什么?
答:⑴每次试验有且仅有两个互相排斥的结果(A或非 A)。
⑵每次试验中,发生 A的概率相同,均为π。
⑶各次试验独立,即 n 次观察结果相互独立。
12.医学参考值范围确定的方法是什么?
答:百分位数法和正态分布法。
13.简述二项分布、Poisson分布、正态分布的区别与联系。
答:区别:二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。联系:Poisson分布可以视为n很大而π很小的二项分布。当n很大而π和1—π都不是很小的时候二项分布渐近正态分布,当λ》=20的时候Poisson分布渐近正态分布。
14.控制图的基本原理。
答:当影响某一数值指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。相反,如果除随机误差外,还存在某些影响较大的因素导致的误差,称为系统误差,这时指标的波动就不再服从正态分布。
15.二项分布的特征?
答:二项分布图的高峰在μ=nπ处或附近;π为0.5时,图形是对称的;当π不等于0.5时,分布不对称,且对同一n,π离0.5愈远,对称性愈差。对同一π,随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或1,二项分布趋于对称。
16.Poisson分布的特征?
答:(1)Poisson分布的总体均数与总体方差相等,均为λ。(2)当λ较小时,图形呈偏态分布;当λ较大时,图形呈正态分布。(3)Poisson分布的观察结果具有可加性。
17.正态分布曲线的位置与形状的特点?
答:(1)关于χ=μ对称。(2)在χ=μ处取得该概率密度函数最大值,在χ=μ±σ处有拐点。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”; σ越小,数据越集中,曲线越“瘦高”。
18. 什么叫标准正态分布?
答:标准正态分布又称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。标准正态分布曲线下面积分布规律是:在-1.96~+1.96范围内曲线下的面积等于0.9500,在-2.58~+2.58范围内曲线下面积为0.9900。统计学家还制定了一张统计用表(自由度为∞时),借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。
19. 确定医学参考值范围的方法及特点?
答:①百分位数法:双侧95%医学参考值范围是(P2.5,P97.5),单侧范围是P95以下(人体有害物质如血铅、发汞等),或P5以上(如肺活量)。该法适用于任何分布类型的资料。②正态分布法:若X服从正态分布,医学参考值范围还可以依正态分布的规律计算。
20. 二项分布的定义是什么?二项分布有哪些基本性质?
答:定义:二项分布是n个独立的是/非实验中成功次数的离散概率分布,其中每次实验成功的概率均为p。基本性质:①图形特征:具体见15题简答题;②二项分布的均数和标准差:详见教材P66页公式。
21. 二项分布原理可进行哪些统计分析?
答:资料需首先满足以下条件:①每次实验只能发生两种对立的可能结果之一,分别发生两种结果的概率之和恒等于1;②每次实验产生某种结果的概率π固定不变;③重复实验是相互独立的,任何一次实验结果的出现不会影响其他实验结果出现的概率。可做统计分析包括:①总体率的区间估计:n≦50时,用查表法;n≧50时,用正态近似法,(p-ZαSp,p+ZαSp);②样本率与总体率的比较:n≦50时,直接概率法;n≧50时,用正态近似法;③两样本率的比较。
22. 二项分布的拟合优度检验有什么实际意义?
答:拟合优度检验,即依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。实际意义在于可以判断某些疾病是否具有家族聚集性等。
23. Poisson分布的定义?列举几个Poisson分布变量分布的实例?
答:Poisson分布属于离散型分布,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。例如:每毫升水中的大肠杆菌数、每个立升空气中的粉尘计数等。
24. Poisson分布理论可进行哪些统计分析?
答:资料首先满足以下条件:①事件发生的概率π固定不变;②每个事件的发生相互独立。可做统计分析包括:①区间估计;②单样本资料Z检验;③两独立样本资料Z检验。
25. 对数正态分布数据如何制定正常值范围?
答:log-1(Yba-1.96Sy)— log-1(Yba+1.96Sy);其中:Y=logX。
第五章 :参数估计基础
1.标准差和标准误有何区别和联系?
表3-6 标准差与标准误的区别
标准差(α或s) 标准误()
意义上 描述一组变量值之间的离散趋势 描述样本均数间的离散趋势
应用上 ① s越小,表示变量值围绕 ① 越小,表示样本均数与
均值分布越密集,说明均数 总体均数越接近,说明样本
的代表性越好。 均数推断总体均数可靠性越大。
② 可用估计变量值分 ② 可用估计总体
布范围 均数可信区间
与n的关系 n越大,s越趋于稳定 n越大,越小
(2)联系
① 二者均是表示变异度大小的统计指标。
② 标准误与标准差大小成正比,与抽样例数n的平方根成反比。
③ 当n一定时,同一份资料,标准差越大,标准误也越大。
2.可信区间和参考值范围有何不同?
参考值范围是指同质总体中个体变量值的分布范围,如X±1.96s说明有95%的变量值分布在此范围内,它与标准差的大小有关,若个体变异越大,该范围越宽,分布也就越散。而可信区间是指在可信度为(1-α)时,估计总体参数可能存在的范围。即从同一总体中随机抽样,当n一定时,每抽一次即可得一个样本均值,以计算可信区间,如95%可信区间,类似的随机抽样进行一百次,平均有95次,即有95个可信区间包括了总体均数,有5次没有包括括总体均数,5%是小概率事件,实际发生的可能性很小,因此实际应用中就认为总体均数在求得的可信区间。这种估计方法犯错误的可能性最大不超过5%。可信区间与标准误大小有关,标准误越大,可信区间则越大。
3.t分布图形的特征?
答:(1)单峰分布,以0为中心,左右对称;(2)ν越小,t值越分散,曲线的峰部越矮,尾部越高;(3)随着ν逐渐增大,t分布逐渐接近标准正态分布;(4)当ν趋向∞时,t分布趋近标准正态分布。
4.总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?
答:无论原始数据的总体分布形态如何,即对于任意分布而言,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误有公式(6-1)计算。
5.样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系?
答:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。标准误与标准差的区别:(1)前者表示均数变异的指标,后者是表示观察值变异的指标。(2)用途不同,标准差与均数结合估计参考值范围,计算变异系数,和标准误等;标准误用于估计参数的可信区间,进行假设检验等。(3)它们与样本含量n的关系不同,当样本含量n足够大时,标准差趋向稳定,而标准误随的增大而减小。联系:当样本量n一定时,标准误随标准差的大小而变化。
6.用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?为什么?
答:95%置信区间的精度要好于99%置信区间。因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。
7.满足什么条件时可以采取正态近似法估计总体概率的置信区间?
答:当n足够大,且样本频率p和1—p均不太小时,如np与n(1—p)均大于5时,可用正态近似法求总体概率的置信区间。
8.什么是抽样误差?如何减少抽样误差?
答:抽样误差:从某一总体中随机抽取一个或多个样本,所得的样本统计量与相应的总体参数之间的差异,或者各个样本统计量之间的差异称为抽样误差。可通过增加样本量来减少抽样误差。
9. 总体分布的形态和样本含量对样本均数的抽样误差分布会产生何种影响?
答:在服从正态分布的总体中进行随机抽样,样本均数呈近似正态分布。在非正态分布的总体中随机抽样,当样本量较小时,样本均数的分布呈非正态分布;当样本量足够大时(如n≧30),样本均数的分布近似服从正态分布。
10. 样本均数的分布有哪些基本特征?
答:①样本均数恰好等于总体均数是极其罕见的;②样本均数之间存在差异;③样本均数围绕总体均数,中间多,两边少,左右基本对称,呈近似正态分布;④样本均数之间的变异明显小于原始变量之间的变异。
11. 总体均数的可信区间中的可信度和区间的宽度各说明什么问题?
答:可信度:反映了估计准确度;区间宽度的一半:反映了估计的精度。
12.抽样误差的大小受哪些因素的影响?
答:①抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位数目越少,抽样误差越大。这是因为随着样本数目的增多,样本结构越接近总体。抽样调查也就越接近全面调查。当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。②总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小。总体标志的变异程度越大,抽样误差越大。抽样误差和总体标志的变异程度成正比变化。这是因为总体的变异程度小,表示吝惜体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。③抽样方法的选择。重复抽样和不重复抽样的抽样误差的大小不同。采用不重复抽样比采用重复抽样的抽样误差小。④抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同。通常,我们不常利用不同的抽样误差,做出判断各种抽样组织方式的比较标准。
13.可信区间的含义是什么?可信区间的准确度和精密度指的是什么?
答:可信区间:将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。准确度:即为置信度;精确度:置信区间宽度的一半。
第六章 :假设检验基础
1.假设检验和区间估计有何联系?
假设检验和区间估计都属于统计推断的内容。假设检验用以推断总体参数间是否有质的区别,并可获得样本统计量,以得到相对精确的概率值。而可信区间用于推断总体参数的大小,它不仅可用以回答假设检验的问题,尚可比假设检验提供更多的信息。但这并不意味着用可信区间代替假设检验,因为假设检验可得到P值,比较精确地说明结论的概率保证,而可信区间只能告诉我们在某α水准上有无统计意义,却不能像P那样提供精确的概率。因此,只有将二者有机地结合起来,相互补充,才是完整的分析。
2.假设检验时,一般当P <0.05时,则拒绝H 0,理论依据是什么?
假设检验时,当P<0.05,则拒绝Ho,其理论依据是在Ho成立的条件下,
出现大于等于现有检验统计量的概率P<0.05,它是小概率事件,即在一次
抽样中得到这么小概率是事件是不大可能发生的,因而拒绝它。由此可见,
假设检验的结论是具有概率性的,它存在犯错误的可能性小于等于0.05。
3.t检验和方差分析的应用条件有何异同?
(1)相同点:在均数比较中,t检验和方差分析均要求各样本来自正态总体;各处理
组总体方差齐且各随机样本间相互独立,尤在小样本时更需注意。
(1) 不同点:t检验仅用于两组资料的比较,除双侧检验外,尚可
进行单侧检验,亦可计算一定可信度的可信区间,提示差别有无实际意义。而方
差分析用于两组及两组以上均数的比较,亦可用于两组资料的方差齐性检验。
4.怎样正确使用单侧检验和双侧检验?
根据专业知识推断两个总体是否有差别时,是甲高于乙,还是乙高于甲,两种可
能都存在时,一般选双侧;若根据专业知识,如果甲不会低于乙,或研究者仅关心
其中一种可能时,可选用单侧。一般来讲,双侧检验较稳妥故较多用,在预实验有
探索性质时,应以专业知识为依据,它充分利用了另一侧的不可能性,故检出效率
高,但应慎用。
5.第一类错误与第二类错误的区别及联系何在?了解这两类错误有何实际意义?
(1)假设检验中Ⅰ、Ⅱ型错误的区别。
Ⅰ型错误是拒绝了实际上成立的Ho,也称为“弃真”错误,用α表示。统计推断时,根据研究者的要求来确定。
Ⅱ型错误是不拒绝实际上不成立的Ho,也称为“存伪”错误,用β表示。它只能与特定的H1结合起来才有意义,一般难以确切估计。
(2)Ⅰ、Ⅱ型错误的联系。
① 当抽样例数一定时,α越大,β越小;反之,α越小,β越大。
② 统计推断中,Ⅰ、Ⅱ型错误均有可能发生,若要使两者都减小,可适当增加样本含量。
③ 根据研究者要求,n一定时,可通过确定α水平来控制β大小。
(3)了解两类错误的实际意义。
① 可用于样本含量的估计。
② 可用来计算可信度(1-α),表明统计推断可靠性的大小。
③ 可用于计算把握度(1-β),来评价检验方法的效能等。
④ 有助于研究者选择适当的检验水准。
⑤ 可以说明统计结论的概率保证。
6.简述可信区间在假设检验问题中的作用。
答:可信区间不仅能回答差别有无统计学意义,而且还能提示差别有无实际意义。可信区间只能在预先规定的概率即检验水准的前提下进行计算,而假设检验能够获得一个较为确切的概率 P 值。故将二者结合起来,才是对假设检验问题的完整分析。
7.假设检验时,当 P≤ 0.05,则拒绝 H0,理论依据是什么?
答:P 值为 H0成立的条件下,比检验统计量更极端的概率,即大于等于检验统计量的概率。当 P≤0.05 时,说明在H0 成立的条件下,得到现有检验结果的概率小于0.05,因为小概率事件几乎不可能在一次试验中发生,所以拒绝 H0。下差别“有统计学”意义的结论的同时,我们能够知道可能犯 错误的概率不会大于0.05,也就是说,有了概率保证。
8.假设检验中与 P 的区别何在?
答:以 t 检验为例,与 P 都可用 t 分布尾部面积大小表示,所不同的是:值是指在统计推断时预先设定的一个小概率值,就是说如果 H0是真的,允许它错误的被拒绝的概率。P 值是由实际样本获得的,是指在 H0 成立的前提下,出现大于或等于现有检验统计量的概率。
9.什么叫两型错误?作统计学假设检验为什么要加以考虑?
答:如果 H0 正确,检验结果却拒绝 H0,而接受 H1,则犯 I型错误,记为α;
如果 H0 错误,检验结果却不拒绝 H0,未能接受 H1,则犯 II型错误,记为β。
一般情况下,α越大,β越小;α越小,β越大。如果要同时减少两类错误,则需最大样本
含量。因为假设检验的结论都有犯错误的可能性,所以实验者在下假设检验有无统计学意义的结论 时,都要考虑到两型错误。
10.配对比较是不是就比成组比较好?什么情况下用配对比较比较好?
答:配对比较可以控制实验单位个体间的变异,从而减少实验误差,提高检验性能。但这并不是说凡是配对试验就一定比成组比较好。实验是否应做配对比较,首先应根
展开阅读全文