资源描述
第五章 单个样本数据的参数估计
一、均数(率)的抽样误差
在同一总体中随机抽取样本含量相同的若干样本时,样本指标之间的差异以及样本指标与总体指标的差异,称为抽样误差。统计学上,由于抽样而产生的同一总体中均数之间的差异称为均数的抽样误差,率之间的差异称为率的抽样误差。在抽样研究中,抽样误差是不可避免的,只要存在抽样,就有抽样误差;因为抽样误差产生的根本原因是客观存在的个体变异。
(一)样本均数标准误
从正态总体N(m, s2)中,随机抽取样本含量为n的若干样本,各样本均数的分布服从正态分布N(m,),各样本均数的总体均数为m ,标准差为。 可按下列公式计算
为样本均数的标准差,又称为标准误,它反映了样本均数之间的离散程度,也反映了均数抽样误差的大小。
在实际应用中,总体标准差s 常常未知,需要用样本标准差s来估计。因此均数标准误的估计值为
由公式,当样本含量n固定时,均数的标准误与标准差成正比;当标准差固定时,均数的标准误与样本含量n的平方根成反比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。所以在实际工作中减小均数抽样误差的一个重要途径是增加样本含量n。
(二)率标准误
从一个阳性率为 p 的总体中,随机抽取样本含量为n的若干个样本,得到各样本率之间的差异以及样本率与总体率的差异,用率的标准差,又称率的标准误来描述。
样本率p 的标准差,它反映了样本率之间的离散程度;也反映了率抽样误差的大小。
在实际应用中,总体率p 常常未知,需要用样本率p作为总体率 p 的估计值 。
二、t分布的特征
t 分布是一簇曲线,因为t值的分布与自由度n 有关。其图形有如下特征:
以0为中心,左右对称的单峰分布。
自由度n = n-1越小,则t值越分散,曲线变得越低平,尾部翘得越高。
③随着自由度n 逐渐增大时,t分布逐渐逼近标准正态分布;当n 趋于¥ 时,t分布就完全成为标准正态分布。
t界值表与自由度 n 有关。在相同自由度时│t│值越大,概率P越小;在相同t值时,双侧概率P为单侧概率P的两倍。
三、参数估计的概念
抽样研究的目的是用样本的信息推断总体特征,这叫统计推断。统计推断包括:参数估计和假设检验。参数估计是指用样本指标(称为统计量)估计总体指标(称为参数)。
用样本均数估计总体均数以及用样本率估计总体率。
点估计
直接用样本的统计量估计总体参数的估计值的方法称为点估计。
点估计的方法简单,但缺点是没有考虑抽样误差,而抽样误差在抽样研究中是不可忽视的。
区间估计
区间估计:按一定的概率估计总体参数所在的范围的方法。
可信区间:总体参数的所在范围,该区间以一定的概率(如95%或99%)包含总体参数。
四、可信区间的计算
总体均数可信区间的计算
根据总体标准差s 是否已知及样本含量n的大小,总体均数可信区间的计算有t分布和u分布(标准正态分布)两种方法。
t分布方法
当总体标准差s未知时,根据t分布的原理得到总体均数可信区间为
(-ta/2, n ,+ ta/2, n)或缩写为± ta/2, n
u分布方法
(1)当总体标准差s 已知时,根据u分布的原理得到总体均数可信区间为
(-ua/2,+ ua/2)或缩写为± ua/2
即总体均数的95%可信区间为±1.96,99%可信区间为±2.58。
(2)当s 未知但n足够大时(n > 50),t分布近似u分布,可以用ua/2代替ta/2, n,
总体均数可信区间为:
(-ua/2,+ ua/2)或缩写为± ua/2
即总体均数的95%可信区间为±1.96,99%可信区间为±2.58。
总体率可信区间的计算
根据样本含量n和样本率p的大小,可以采用查表法和正态近似法。
第六章 样本均数比较的假设检验
一、假设检验的基本原理和基本步骤
建立检验假设,确定检验水准
1.建立检验假设:
①无效假设,H0。例6.1 H0:μ=μ0,两总体均数相等。
②备择假设,H1。例6.1 H1:m¹m0,两总体均数不相等。有时为单侧检验。
2.确定检验水准:检验水准,a。a 是预先规定的概率值,它是“是否拒绝H0的界限”。研究者可以根据研究目的规定a的大小,通常a取0.05。
选定检验方法,计算检验统计量
要根据统计推断的目的、研究设计的类型和样本量的大小等适用条件,选用不同的检验方法和计算相应的统计量。
3.确定P值,作出推断结论
P值是指从H0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有样本的检验统计量值(如t值或u值)的概率。
将概率P与检验水准a比较,从而得出结论:
当P £ a 时,按所取检验水准a,拒绝H0,接受H1。结合实际资料作出推断。这样作出结论的理由是:在H0成立的条件下,出现等于及大于现有检验统计量值的概率P £ a,是小概率事件,这在一次抽样中是不大可能发生的,即现有的样本信息不支持H0,因而我们拒绝它。
当P > a 时,按所取的检验水准a,尚不能拒绝H0。结合实际资料作出推断。
一般是将计算得到的检验统计量与相应的统计用表(见附录)中的a对应的临界值比较,确定P £ a或P > a。
t检验和u检验
t检验的适用条件:
样本含量n较小时,理论上要求样本来自正态分布的总体。
完全随机设计的两个小样本均数比较时还要求两总体方差相等。但在实际应用时,与上述条件略有偏离,对结果也影响不大。习惯规定样本含量小于或等于50(n£ 50)为小样本。
u检验的适用条件:
总体标准差s 已知(该情况不常见)。
当总体标准差s未知,但样本含量n较大(一般n> 50)。选用u检验。u检验在手工计算时的方便之处是计算结果不用查u界值表,只要记住几个常用的u界值。
二、t检验
(一)样本均数与已知总体均数比较的t检验
又称为单样本t检验。“已知总体均数”一般为理论值、标准值或经过大量观察所得到的稳定值等。令已知总体均数为m0,样本均数所代表的未知总体均数为m ,假设检验的目的:推断样本均数所代表的未知总体均数m 与已知总体均数m0是否相等(双侧检验)。
(二)、完全随机设计的两样本t检验
又称为成组t检验或两个独立样本t检验。完全随机设计是指分别从两个研究总体中随机抽取样本,目的是推断这两个独立样本所代表的未知总体均数m1与m2是否相等。
在作t检验之前,理论上应先检验相应的两总体方差是否相等,即一般先作方差齐性检验。
若两总体方差相等,可以采用两样本t检验;
若两总体方差不等,则可以采用以下方法:
① tˊ检验;
②变量变换 所谓变量变换是将原始数据作某种函数转换(如转换为对数值等),可使转换后的资料达到方差齐性 ,再作完全随机设计的两样本t检验;
③秩和检验。
(三)、配对t检验
适用于:
(1)配对设计:根据某些条件选择实验对象,使每一对两个个体在这些条件尽尽可能相同或相近,更好的保证可比性。再随机将两个个体给予不同的处理。
(2)同一受试对象接受不同的处理(如同一份标本分成两部分)。
配对设计的目的是推断两种处理结果有无差别。
(3)同一受试对象处理前后的结果进行比较。严格来说,自身对照设计有其相应的统计学方法,但在这里仍然可以用配对t检验方法。
配对t检验的基本原理:假设两种处理结果无差别,则同一对子中不同处理的差值d的总体均数md应为0(md = 0)。若差值的总体均数md不为0(md ¹ 0),则说明两种处理的结果有差别。因此配对设计假设检验的目的是检验差值的总体均数md是否为0。
三、u检验
(一)、样本均数与已知总体均数比较的u检验
1.当总体标准差s已知时,
2.当总体标准差s未知,n较大时,
(二)完全随机设计的两样本u检验
用于总体标准差s未知且两样本含量较大时的两样本均数比较,目的是推断两总体均数是否不同。检验统计量u值的计算公式如下
四、 假设检验的注意事项
1、良好的设计是假设检验的前提
统计学处理的主要是抽样误差,设计和实施时造成的偏倚统计学无能为。
2、选择的假设检验方法应符合其应用条件
根据研究设计类型检验目的和资料的性质选择检验方法。计量资料根据总体标准差是否已知或样本量大小选择u 检验或t检验。根据设计类型选配对t或u检验及成组的t或u检验。
3、正确理解假设检验过程中,样本均数与总体均数的关系
假设检验是通过对样本信息的比较,推断他们代表的总体是否有差异。如对两个样本均数的比较,推断他们所代表的总体均数是否不同。其假设及结论都是关于总体的。
4、正确理解“差别有统计学意义”的含义
P £ a 时,按所取检验水准a,“拒绝H0,接受H1”,称为差别有统计学意义。可认为两个总体均数不同;不能直接回答差异的大小,并不意味着两个总体均数相差很大。差别的大小及差别有无实际意义只能进一步根据专业知识来确定。
P > a 时,称为差别无统计学意义,尚不能认为两个总体均数不同。
五 方差分析
两个样本均数的比较,用t检验,两个及两个以上均数的比较用方差分析。
方差分析的基本思想
方差分析的基本思想就是根据资料设计的类型及研究目的,将总变异分解成两个或多个部分。每个部分的变异可由某因素的作用来解释,通过比较可能由某因素所致的变异与随机误差的均方,从而了解该因素有无作用。
方差分析的适用条件是:① 各处理组样本来自正态总体 ②各样本是相互独立的随机样本 ③各处理组的总体方差相等,即方差齐性。
5
展开阅读全文