1、第七章 假设检验l第一节 引言l第二节 实验研究 l第三节 假设 一、假设的特征 二、假设的种类l第四节 假设检验 一、假设检验证实与证伪 二、显著水平 三、显著性检验中的两类错误 四、检验统计值与临界值 五、单尾与双尾检验第一节 引 言 假设检验是推断统计的最重要的一个部分。语言研究经常要涉及统计值之间的差异问题,即在比较两个样本统计量(比如平均数、相关系数等)或者样本统计量与相应的总体参数之间的差异的基础上,推断总体参数之间是否确实存在差异。简单来说,我们先对两个(或多个)异提出一个假设,然后在样本统计量的基础上,运用适当的统计手段对该假设进行检验,就可以发现在多大程度上(或有多大的可能性
2、)两者之间的差异是真正存在的。第二节实验研究 实验研究实质上是一个假设检验的过程,一般来说,有以下几个步骤:(1)首先对研究结果作出预测或提出假设:如果X出现,那么 Y 将会随之出现。假设不能凭空而来,而是要有一定的依据,譬如已有的理论或研究结果等。(2)操纵某一或某些因素,以创造使Y出现的条件X。所操纵的因素就是我们要研究的变量。与此同时,要尽量控制所有其它变量,如果不加以严格的控制,就有可能使研究结果模糊不清。(3)观察预期出现的结果是否出现了。这一阶段就要用到统计分析(例如进行各种假设检验)。(4)得出结论。一个实验研究的结果会有以下几种可能:一是预期中的Y明确无误地出现了,意味着所提出
3、的假设(及其所基于的理论等)得到了证实;二是Y没有出现,这说明假设及其所基于的理论被推翻了,或至少被部分地推翻了;三是结果模糊,无法解释,因而不能得出任何结论。至于假设是否被推翻或得到了证实,其实往往难以下一个绝对的结论,因为我们无法保证在整个实验过程中把所有可能影响实验结果的潜在因素都排除掉或控制住了。因此实验研究的过程是先提出假设,然后再根据观测资料或数据来检验假设的可能性或正确性。例如,根据图式理论(schematic theory),阅读者对阅读材料的熟悉程度(或者是否具备理解阅读材料所需的背景知识)可能会影响阅读的质量(即理解程度),据此,我们可以提出如下假设:熟悉材料的阅读质量要高
4、于生疏材料的阅读质量。我们可以用实验的方法来检验这一假设。在此过程中,需要控制的因素是非常多的,例如被试的年龄、智商、受教育情况、母语阅读能力、外语的语言水平、阅读材料的语言难度等等,我们可以通过随机抽样、随机分组、增大样本容量等措施(有关随机抽样、样本容量等概念参见有关章节)来控制与被试有关的变量,用改写的方法来控制阅读材料的语言难度(使两类材料在语言本身的难度上具有可比性)等等。对于实验研究特别需要注意的问题是:提出的假设是否得当;对统计检验是否科学。变量的操纵与控制是否合理;第三节 假设 一、假设的特征 如前所述,实验研究是一个假设检验的过程,因此我们必须对假设有一定的了解。简单地说,假
5、设就是根据已知理论与事实等对研究结果所作出的预测。一般来讲,假设应具备以下几个特征:它要表明两个或多个变量之间的关系;要用陈述句的形式来表达,措辞要清楚明确;要具有可检验性。例如,上述有关阅读材料的熟悉程度的假设就是用陈述句的形式清楚、明确地表明了熟悉程度与阅读质量两个变量之间的关系,然后我们再用实验的方法来检验这一假设的有效性。二、假设的种类 实验研究的目的是为了回答或解决问题。譬如我们对各种教学方进行对比研究,其中一个问题是:对于提高学生的外语水平,交际教学是否优于语法翻译法。对于这个问题我们可以提出三种假设:(1)交际教学法的效果好于语法翻译法;(2)交际教学法的效果劣于语法翻译法;(3
6、)交际教学法与语法翻译法的效果相同(或没有差别)。假设一般分为“零假设”与“备择假设”两种。简单来说,零假设就是预测两个特征之间没有差别的假设。零假设一般表述为“(两个或多个)样本所来自的总体的某个参数之间没有差异”,因为虽然我们研究的是样本,但是我们感兴趣的是总体,也就是说要把对样本的研究结果推广至整个总体。零假设通常用符号表示为 ,例如:意思是说,A总体的平均值与B总体的平均值之间没有差异。另一种假设是“备择假设”或“对立假设”、“择一假设”等。顾名思义,这类假设是与零假设对立的,它预测两特征之间存在差异,例如上例中的假设(1)和(2)。备择假设通常用 来表示,例如:第一个假设的意思是:A
7、总体的平均值小于B总体的平均值;第二个假设则表示:A总体的平均值大于B 总体的平均值。当然,备择假设也可以不指出差异的方向(即大于或小于、高于或低于等),而仅仅指出总体的参数不相等。第四节 假设检验 在实验研究中,我们不是直接去证实 的正确性,而是去设法推翻 ,也就是先假设有关参数之间不存在差异,然后再通过实验收集证据,看能不能推翻这一假设。这时,只要找到一条反证,就足以证明零假设是错误的。采用这种检验假设的方法,就能够得出确定的结论。如果推翻了零假设(即 为真),就表明有关差异是由各种误差造成的,就表明差异确实存在,那么就接受与零假设对立的备择假设(即 为真);如果无法推翻它(即 为真),而
8、不是真正的差异,那么就接受零假设,而拒绝有关备择假设。如果推翻了零假设(即 为假),就表明差异确实存在,那么就接受与零假设对立的备择假设(即 为真);如果无法推翻它(即 为真),就表明有关差异是由各种误差造成的,而不是真正的差异,那么就接受零假设,而拒绝有关备择假设(即 为假)。因此,统计学中假设检验的方法是:先对有关总体参数之间的差异提出零假设(同时给出相应的备择假设),然后分析样本统计量之间的差异看看是否能推翻零假设。二、显著水平 在决定是否能推翻零假设时,必须确定一个允许的误差限度,即随机误差造成的差异在多大范围之内才能推翻零假设。这个范围用概率表示,譬如5%,1%的等(或0.05,0.
9、01等)。如果随机误差的概率(即可能性)为 ,就表示当随机误差造成的差异在等于或小于5%,就可以推翻零假设。如果零假设被推翻,我们就说观察到的差异有显著意义或者说检验有显著意义,所以这个概率通常称为显著水平。显著水平是由研究者决定的,显著水平的设定需要考虑多种因素,譬如研究领域、研究目的、研究对象、研究内容等等。另外还要考虑,假如所得出的结论是错误的(例如在不该推翻零假设时而推翻了),是否会带来严重的后果,如果其后果是严重的,就要谨慎一些,要把显著水平定得严一些(即不要轻易推翻零假设),否则就可以定得松一些。在语言研究中(譬如比较不同教学方法的优劣),一般来说即使结论有误,也不会带来分严重的后
10、果,所以,可以定得宽松一些。三、显著性检验中的两类错误 上面谈到,我们在对差异进行显著性检验时有可能得出错误的结论。一种情况是“错误地拒绝”,即零假设成立或属真时(也就是说不存在真正的差异,所观察到的差异只是由随机误差造成的),应该接受零假设而我们却拒绝了。另一种情况是“错误地接受”,即零假设不成立或属假时(也就是所观察到的差异是确实存在的),应该拒绝零假设而我们却过于谨慎,认为没有足够的证据推翻它,所以在不该接受零假设时接受了它。四、检验统计值与临界值 误差概率是否低于某水平,是用根据样本所计算的一个值来判断或检验的,这个值就叫做检验统计值。显著水平(即认为差异显著时所允许的最大随机误差概率
11、)其实就是抽样分布曲线中处于尾端部分的面积。当我们说“低于某个显著水平”时拒绝零假设,就等于说尾端的面积要小于该面积,这个面积或区域叫做“临界区域”或“拒绝区域”,界定该区域的值叫做临界值,也就是对应于该区域面积的Z值、t值等。当我们对零假设进行检验时,要首先依据样本计算检验统计值,如果检验统计值的绝对值小于显著水平对应的临界值,我们称检验统计值落在了临界区域之外,这就意味着检验统计值对应的尾端的面积大于临界值对应的尾端的面积,这时就要接受零假设。反之,如果检验统计值的绝对值大于显著水平对应的临界值,我们称检验统计值落在了临界区域之内,这就意味着检验统计值对应的尾端的面积小于临界值对应的尾端的
12、面积,这时就可以推翻或拒绝零假设。五、单尾与双尾检验 我们已经知道,在检验零假设时,要同时提出适当的备择假设。备择假设预测总体参数之间存在差异,但是具体来讲,又有两种情况。一种在指出存在差异的同时,还指出差异的方向(即“大于”、“小于”、“高于“低于”等),例如:而另一种则仅仅强调差异的存在,而不指出差异的方向,例如:如果备择假设是方向性的,譬如 ,这时检验只与抽样分布曲线下的一个尾巴(即右侧的尾巴)有关,所以这样的检验叫做单尾或单侧检验。如果备择假设为非方向性的,譬如 ,那么由于可能大于 也可能小于 ,所以检验与分布曲线的两个尾巴都有关系,因此我们称这样的检验为双尾或双侧检验。单尾检验与双尾
13、检验的差别示意图如图7.2和图7.3。从图7.2和图7.3可以看出,同样的显著水平,单尾检验的临界值要小于双尾检验的临界值,因此对于同样的检验统计值,就有可能在使用单尾检验时差异是显著的,而在使用双尾检验时差异却是不显著的。反过来讲,在单尾检验时,推翻零假设所需的检验统计值要小于双尾检验所需的检验统计值,这是因为在单尾检验时我们输入了更多的信息的存在以及差异的方向,所以为了证明差异有显著意义所需的检验统计值就小一些。六、参数检验与非参数检验 所谓的“参数检验”一般对所涉及的变量的测量水平、总体的分布形态、总体的方差等方面有一定的要求。严格来讲,参数检验只适用于连续性的等距(或比率)变量,譬如考
14、试分数。此外,参数检验一般都要求样本所来自的总体呈正态分布,因为这对决定检验统计值的抽样分布非常重要。当数据为正态分布时,参数检验最为有效,随着其偏斜程度的增加,参数检验的有效性也随之降低。不过,这一要求在有些情况下可以有所放松,譬如当样本容量较大时,根据“中心极限定理”,即使总体的分布为非正态,平均数的抽样分布也会接近正态。参数检验与非参数检验各有其优缺点。参数检验用于等距数据,因此能够把数据中每一个观测值的大小都考虑进去,也就是说能够最大限度地利用数据所提供的信息。由于这个原因,参数检验的“灵敏度”比较高,即在保证样本容量的情况下,参数检验能够发现数据间存在的很小的真正差异。,非参数检验的
15、计算过程相对简便一些,因此如果只是要粗略地看看差异情况,非参数检验是个比较好的选择。但是非参数检验的缺陷是对真正差异的反应不够灵敏,对存在的差异可能检验不出来,这是因为非参数检验利用的数据信息量小一些。七、假设检验的一般步骤 对于多数假设检验,检验的过程都是一样的:(1)陈述零假设,同时提出适当的备择假设(表明是方向性的,还是非方向性的,以便决定采用单尾检验还是双尾检验);(2)根据研究的性质和目的设定适当的显著水平;(3)根据数据的测量水平、分布的形态以及实验设计等选择适当的检验;(4)根据样本计算检验统计值;(5)把检验统计值和显著水平所对应的临界值加以比较(要考虑是单尾还是双尾检验)。小 结 总体参数之间是否存在真正的差 简单来说,我们先对两个(或多个)异提出一个假设,然后在样本统计量的基础上,运用适当的统计手段对该假设进行检验,就可以发现在多大程度上(或有多大的可能性)两者之间的差异是真正存在的,或者在多大程度上该差异是由抽样误差(或其它偶然因素)造成的。这一过程就叫做假设检验。如果两者碗实存在差异,我们就说差异或检验“有显著意义”,否则就称其“没有显著意义”。