1、生物统计学复习资料第一章1.生物统计学的基本作用: 1)提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。 2)判断试验结果的可靠性 3)提供由样本推断总体的方法 4)提供试验设计的一些重要原则3.总体:具有相同性质的个体所组成的集合4.个体:组成整体的基本单元5.样本:从总体中抽出的若干个体所构成的集合6.变量:相同性质的事物间表现差异性的某项特征。按其性质分为连续变量和非连续变量。变量可以是定量的,也可以是定性的。7.连续变量:表示在变量范围内可抽出某一范围的所有值8.非连续变量:也称离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数。9.常数:是不能给予不同数值
2、的变量,它代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。10.参数:对总体特征的度量11.统计数:由测定样本的全部重复观测值算得的描述样本的特征的数。12.效应:试验因素相对独立的作用13.误差:是试验中不可控因素所引起的观测值偏离真值的差异14.随机误差:由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间的差异,不可避免。15.系统误差:由于试验处理以外的其他条件明显不一致所产生的带有倾向性或定向性的偏差,可避免。16.错误:是指在试验过程中,人为因素所引起的差错。17.准确性:在调查或试验中某一试验指标或性状的观测值与真实值接近程度18.精确性:指调查或试
3、验中同一试验指标或性状的重复观测值彼此接近程度的大小。第二章1次数分布:在不同区间内变量出现的次数所构成的分布。2.资料根据生物的形状特性,可分为数量性状和质量性状3间断性变数:指用计数方法获得的数据,其各个观测值必须以整数表示,在两个相邻整数间不允许带有小数的值存在。4.连续性变数:指称量、度量或测量方法所得到得数据,其各个观测值并不限制于整数,在两个数值之间可以有微量数值差异的第三个数值存在5.质量性状资料的方法:统计次数法,评分法统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别及其次数或相对次数给分法:给予每类性状以相对数量的方法。6.试验资料
4、搜集方法:调查和试验7.资料调查方法:普查和抽样调查抽样调查:根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断。8.随机抽样满足条件:1)总体中每个个体被抽中的机会均相等;2)总体中任意一个个体是否被抽中是相互独立的9.统计表要求:1)标题:简明扼要,准确地说明表的内容,有时须注明时间、地点 2)标目:分横纵两项,横列在表的左侧,纵列表上端,须注明计算单位 3)数字:一律用阿拉伯数字,以小数点对齐,无数字用“/”表示 4)线条:多用三线条。上下两条边路略粗10.统计图绘制的要求:1) 标题简明扼要,列于图的下方2) 横
5、纵坐标两轴有刻度,注明单位3) 横轴从左至右,纵轴由下而上,数值由小至大,图形长宽约为5.4或6.54) 图中要不同颜色或线条代表不同的事物时,应有图例说明11.计数资料基本采用单项式分组法进行整理12.计量资料的整理一般采用组距式分组法13.次数分布图分类:条形图、饼图、直方图、多边形图、散点图14.变量的基本特征:1) 集中性:变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。特征数是平均值2) 离散性:变量有着离中分散变异的性质。特征数是变异数,常用的指标是极差、方差、标准差和变异系数15.平均数的种类:算术平均数、中位数、纵数、几何平均数17.标准差的作用;1) 表示
6、变量分布的离散度2) 利用标准差的大小,可以概括的估计出变量的次数分布及各类观测值在总体中所占有的比例3) 估计平均数的标准误4) 进行平均数的区间估计和变异系数的计算18.组距:根据极差分成若干组,每组的距离相等,称为组距。组距=极差/组数19.自由度:样本内独立且能自由变动的离均差的个数。20.变异系数:样本的标准差除以平均数的百分比21. 平均数的用处:平均数指出了一组数据的中心位置,标志着资料所代表性状的数量水平和质量水平; 作为样本或资料的代表数据与其他资料进行比较。平均数的特征:离均差之和为零; 离均差平方和为最小。21.标准差的用处: 标准差的大小,受实验后调查资料中的多个观测值
7、的影响,如果观测值之间的差异大,离均差就越大; 在计算标准差是如果对观察值加上一个或减去一个a,标准差不变;如果给各观测值乘以或除以一个常数a,所得的标准差就扩大或缩小a倍; 在正态分布中,X+-S内的观测值个数占总个数的68.26%,X-+2s内的观测值个数占总个数的95.49%,x-+3s 内的观测值个数占总个数的99.73%。标准差的特征: 表示变量分布的离散程度; 标准差的大小可以估计出变量的次数分布及各类观测值在总体中所占的比例; 估计平均数的标准差; 进行平均数区间估计和变异数的计算。22.比较总体和样本的平均数、标准差:总体平均数=x/N,式中分母为总体观察个数N; 样本平均数x
8、=x/n,公式中n是样本容量; 样本平均数是总体平均数的无偏估计值。总体和样本标准差都等于离均差的平方和除以样本容量; 而总体标准差= ,分母上是总体观测值个数N; 而样本标准差是s= ,分母上是样本自由度n-1. 样本标准差s是总体标准差的无偏估计值。第三章:1.事件:一种事物常存在几种可能出现的情况,每种情况都为一次事件。2.随机事件:在一定条件下,可能出现,也可能不出现的事件。3随机现象:在原本条件不变的条件下,重复进行观察,其结果未必相同的现象。随机现象三个特征:1) 试验可以在相同条件下多次重复且相互独立;2) 给定条件下每次试验结果不只一个;3) 每次试验不能预料出现那种结果,但可
9、以大概预知。4.常见的理论分布:离散型随机变量的二项分布、泊松分布、连续型随机变量的正态分布5.事件的相互关系:1) 和事件:事件A和事件B至少有一件发生而构成的新事件2) 积事件:事件A和事件B同时发生而构成的新事件3) 互斥事件:事件A和事件B不能同时发生4) 对立事件:事件A和事件B必有一个发生,但二者不能同时发生5) 独立事件:事件A的发生或事件B的发生毫无关系6) 完全事件:如果多个事件A1、A2两两互斥,切每次试验结果必然发生其一6.加法定理是互斥事件A和B的和事件的概率等于事件A和事件B的概率之和7.乘法定理是独立事件的概率的乘积8.大数定理:样本容量越大,样本统计数与总体参数之
10、差越小9.二项分布、泊松分布与正态分布的关系:如果n相当大或p与q基本接近时,二项分布接近于正态分布;当较大时,泊松分布也接近正态分布。10.正态分布的特征:1) 当x=u是,f(x)有最大值2) 当x-u的绝对值相等时,f(x)值也相等,正态分布是以u为中心向左右两侧对称分布3) (X-u)/的绝对值越大,f(x)值也越小,但f(x)永不会等于0,所以正态分布以x轴为渐近线4)正态分布的曲线完全由参数u和决定,u确定正态分布曲线在x轴上的中心位置,减小,曲线左移,增大曲线右移。确定正态分布曲线的展开程度,越小,曲线展开程度越小,曲线越陡高,反之亦然5)正态分布曲线在x=u+处各有一个拐点,曲
11、线通过拐点是改变弯曲的方向6)正态分布的概率密度曲线与渐近线X轴所围成的全部面积必然等于111.无偏估计值:如果参数所有样本的某一统计数的平均数等于总体的相应参数(1) 样本平均数是总体平均数的无偏估计值(2) 样本方差是总体方差的无偏估计值(3) 样本标准差不是总体的标准差的无偏估计值12.中心极限定理:如果被抽样总体不是正态总体,但具有平均数u和2,当样本容量n不断增大,样本平均数的分布也越来越接近正态分布,且具有平均数u和方差2/n13.t分布的特征:1) t 分布曲线是左右对称,围绕平均数u=0向两侧递降2) t 分布受自由度的制约,每个自由度都有一条分布曲线3) 和正态分布相比,分布
12、的顶部偏低,尾部偏高,自由度大于等于0时,其曲线就比较接近正态分布曲线,当自由度趋向于无穷大时和正态分布曲线重合14.重置抽样(放回式抽样):指从总体中抽取一个个体,记下其特征数后再放回总体的抽样方法。15.非重置抽样(不放回式抽样):指从总体中抽取一个个体,记下其特征数后不再放回的抽样方法。16.抽样分布:指从总体中按一定的样本容量随机抽取全部所有可能的样本,由这些样本计算的统计数组成的分布。17.无偏估计:指在统计数上如果所有可能样本的统计数的平均数等于总体相应的参数,则称这个统计数为总体相应参数的无偏估计量。18频率与概率之间的转化:事件A在n次重复试验中发生了m次,则比值mn称为事件A
13、发生的频率,记为W(A);事件A在n次重复试验中发生了m次,当试验次数n不断增加时,事件A发生的频率W(A)就越来越接近某一确定值p,则p即为事件A发生的概率。二者的关系是:当试验次数n充分大时,频率转化为概率 。19.正态分布、标准正态分布、正态分布曲线的特点正态分布是一种连续型随机变量的概率分布,它的分布特征是大多数变量围绕在平均数左右,由平均数到分布的两侧,变量数减小,即中间多,两头少,两侧对称。U=0,=1的正态分布为标准正态分布。正态分布具有以下特点:标准正态分布具有以下特点:、正态分布曲线是以平均数为峰值的曲线,当x=时,f(x)取最大值;、正态分布是以为中心向左右两侧对称的分布
14、、的绝对值越大,f(x)值就越小,但f(x)永远不会等于0,所以正态分布以x轴为渐近线,x的取值区间为(-,+); 、正态分布曲线完全由参数和s来决定 、正态分布曲线在x=s处各有一个拐点;、正态分布曲线与x轴所围成的面积必定等于1。正态分布具有两个参数和s,决定正态分布曲线在x轴上的中心位置,减小曲线左移,增大则曲线右移;s决定正态分布曲线的展开程度,s越小曲线展开程度越小,曲线越陡,s越大曲线展开程度越大,曲线越矮宽。第四章1. 统计推断是根据理论分布由一个样本或一系列样本所得的结果来推断总体特征的过程。2.参数估计则是由丫根本结果对总体参数在一定概率水平下所做出的估计。参数估计包括点估计
15、和区间估计。3.统计推断包括假设检验和参数估计两个方面任务:分析误差产生的原因,确定差异的性质,排除误差干扰,从而对总体的特征做出正确的判断。4.假设检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设推断。5.假设检验步骤:1)提出假设:对样本所属总体提出无效假设Ho和备择假设HA2)确定显著水平3)计算概率:在Ho正确的前提下,计算统计分布的统计数或相应的概率值。4)推断是否接受假设:根据小概率原理,进行差异是否显著地推断,并作出推论。6.小概率原理:如果假设一些条件,并在假设的条
16、件下能够准确的算出事件出现的芥蓝菜为很小,则在假设条件下的次独立重复试验中,事件将按预定的概率发生,而在一次试验中则几乎不能发生。小概率原理是指概率很小的事件再一次试验中被认为是几乎不可能会发生的,一般统计学中常把概率概率小于0.05或0.01的时间作为小概率事件。他是假设检验的依据,如果在无效假设H0成立的条件,某事件的概率大于0.05或0.01,说明无效假设成立,则接受H0,否定HA;,如果某时间的概率小于0.05或0.01,说明无效假设不成立,则否定H0,接受HA。7.假设检验中的两类错误:) 第一类错误(弃真错误):如果0是真实的,假设检验却否定了它,就犯了一个否定真实假设的错误) 第
17、二类错误(纳伪错误):如果0不是真实的,假设检验时却接受了0,否定了,这样就犯了接受不真实假设的错误。两者的区别:第一类错误只有在否定0时才会发生,而第二类错误只有在接受0时才会发生,二者不会同时发生。联系:在样本容量相同的情况下,犯第一类错误二等概率减少,第二类错误就会增加,反之亦然假设检验中的两类错误是取证错误和取伪错误。为了减少犯两类错误的概率要做到:显著水平a的取值不可以太高也不可太低,一般去0.05作为小概率比较合适,这样可以使犯两类错误的概率都比较小;尽量增加样本容量,并选择合理的实验设计和正确的实验技术,以减小标准误,减少两类错误。8.区间估计指根据一个样本的观测值给出总体参数的
18、估计范围给出总体参数落在这一区间的概率。9.点估计是指从总体中抽取一个样本,根据样本的统计量对总体的未知参数作出一个数值点的估计。10.置信度与区间估计的关系为;对于同一总体,置信度越大,置信区间就越小,置信度越小,置信区间越大。第五章1. 检验主要有三种用途:一个样本方差的同质性检验,适合性检验和独立性检验。一个样本方差的同质性检验用于检验一个样本所属总体方差和给定总体方差是否差异显著,适合性检验是比较观测值与理论值是否符合的假设检验;独立性检验是判断两个或两个以上因素间是否具有关联关系的假设检验。检验用途:一个样本方差的同质性检验、适合性检验、独立性检验1)适合性检验:比较观测值与理论值是
19、否符合的假设检验。这种方法是对样本的理论值先通过一定的理论分布推算出来,然后用实际观测值与理论观测值比较,从而得出实际观测值与理论观测值之间是否吻合的结论,因此适合性检验也叫吻合性检验或拟合优度检验。2)独立性检验:实验九两个或两个以上因子彼此之间的相互独立的还是相互影响的一类统计方法。2.检验基本原理:应用理论推算值E与观测值O之间的偏离程度来决定的。理论推算值与实际观测值之间偏差越大,越不符合;偏差越小,越趋于符合;若两值完全相等时,表明理论值与实际值完全符合。3. 检验的步骤为:(1)提出无效假设H0:观测值与理论值的差异由抽样误差引起即观测值=理论值 备择假设HA:观测值与理论值的差值
20、不等于0,即观测值理论值(2)确定显著水平a.一般可确定为0.05或0.01(3)计算样本的x2,求得各个理论次数Ei,并根据各实际次数Oi,代入公式,计算出样本的x2。(4)进行统计推断4.在计算是应注意:1)任何一组的理论次数Ei都必须大于5,如果Ei5;2)在自由度df=1时,需进行连续性矫正 公式:对同一资料,进行矫正的值要比未校正的值小。当自由度df=2时,一般不需要矫正。第六章1.试验因素:试验中所研究的影响试验指标的原因或原因组合,简称为因素或因子。按照性质不同,因素可以分为可控因素和非可控因素。2.因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差别)。3.试验处
21、理:指对受试对象给予某种外部干预(或措施),是试验实施因子水平的一个组合。可分为单因素处理和多因素处理。4.试验单位:试验中能接受不同试验处理的独立的试验载体。实际上就是根据目的而确定的观测总体。5.重复:是指在试验中,将一个处理实施在两个或两个以上的试验单位上。6.方差分析基本原理:将所有处理的观测值作为一个整体,一次比较就对所有各组间样本平均数是否有差异作出判断。基本思想:将测量数据的总变异按照变异原因不同分解为处理效应和试验效应,并作出其数量估计。7.方差分析避免的问题;1) j检验过程繁琐2) 无统一的试验误差,误差估计的精确性和检验的灵敏性低3) 推断的可靠性降低,犯错误的概率增加8
22、.方差分析的基本假定:正态性、可加性、方差同质性9.数据转换:平方根转换、对数转换、反正弦转换、倒数转换样本所来自的总体和方差分析基本假定相抵触,这些数据必须进行适当的数据转换10.方差分析的概念、基本思想、一般步骤1)方差分析是对两个或多个样本平均数差异显著性检验的方法。(2)方差分析的基本思想是将测量数据的总变异按照变异来源分为处理效应和误差效应,并作出数量估计,在一定显著水平下进行比较,从而检验处理效应是否显著。(3)方差分析的基本步骤如下:a.将样本数据的总平方和与自由度分解为各变异因素的平方和与自由度。b.列方差分析表进行F检验,分析各变异因素在总变异中的重要程度。c.若F检验显著,
23、对个处理平均数进行多重比较。11.多重比较(1)多个平均数两两间的相互比较称为多重比较。(2)多重比较常用的方法有最小显著差数法和最小显著极差法,其中最小显著极差法又有新复极差检验和q检验法。(3)多重比较的结果常以标记字母法和梯形法表示。标记字母法是将全部平均数从大到小依次排列,然后再最大的平均数上标字母a,将该平均数与以下各平均数相比,凡相差不显著的都标上字母a,直至某个与之相差显著的则标以字母b。再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较,凡差数不显著的继续标以字母b,直至
24、差异显著的平均数标以字母c,再与上面的平均数比较。如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。这样各平均数间,凡有一个相同标记的字母即为差异不显著,凡具不同标记的字母即为差异显著。差异极显著标记方法同上,用大写字母标记。梯形法是将各处理的平均数差数按梯形列于表中,并将这些差数进行比较。差数LSD(LSR)0.05说明处理平均数间的差异达到显著水平,在差数的右上角标上“*”号;差数LSD(LSR)0.01说明处理平均数间的差异达到极显著水平,在差数的右上角标上“*”号。差数 LSD(LSR)0.05,说明差异不显著。第七章1.回归分析:用来研究呈因果关系的相关变量间的
25、关系的统计分析方法,其中表示原因的变量为自变量,表示结果的变量为因变量。2.回归截距是当自变量为零时,因变量的取值,即回归线在y轴上的截距;3.回归系数是回归直线的斜率,其含义是自变量改变一个单位,因变量y平均增加或减少的单位数。4.相关分析:相关分析是用来研究呈平行关系的相关变量之间的关系的统计方法。5.相关系数表示变量x与变量y相关的程度和性质,6.决定系数是相关系数的平方,表示变量x引起y变异的回归平方和和占y变异总平方和的比率,它只能表示相关的程度而不能表示相关的性质。第九章1.抽样调查中必须考虑的重点问题:抽样误差,样本容量以及抽样方法2.生物学领域常用的抽样方法:随机抽样,顺序抽样
26、,典型抽样3.平均数资料样本容量的确定: 第十章1.区间实验:在田间条件下对作物品种选育及遗传规律与栽培技术等方面进行的试验。2.真值:一定时刻,一定位置,一定状态下某量得程度所体现出来的客观值或实际值。3.准确度:指在实验中某一实验指标或性状的观测值接近的程度。4.精确度:指在实验中同一实验指标或性状的重复观测值很大接近的程度。5因素:也叫供试因子,在试验中所研究的对试验指标有影响的各种技术措施。例如:品种、密度6.水平:试验因素的质的不同状态或量得不同等级(因素内划分的不同等级)7.处理:实际参加试验的试验因素水平或不同因素的实验水平组合。在单因素试验中指各个因素的试验的水平。在所有因素试
27、验中指不同因素水平的组合。8试验设计三个基本要素:包括处理因素、受试对象和处理效应9.田间试验的类型:一)按试验研究内容划分:品种、栽培、土壤肥料、病虫害防治二)按试验因素划分:单因素试验、多因素试验、综合性试验单因素试验:指在整个试验中只重复比较一个试验因素不同水平,其他作为试验条件的因素均应该严格控制一致的试验。多因素试验:指同一试验中包含两个或两个以上的试验因素,各因素又分为不同水平,其他试验条件均应该严格控制一致的试验。综合性试验:是在较大面积上运用成套的生产栽培技术措施,从中探索高产、稳产、低成本、综合栽培技术的效应三)按试验小区大小划分:小区试验、大区试验小区:在田间试验中,安排一
28、个处理的小块地段称为试验小区。区组:将全部处理分配于具有相对同质的一块土地上,称为一个区组,包括完全区组和不完全区组。10试验方案:按试验目的要求所拟定的进行比较的一组试验处理的总称。11.试验指标:试验中用来衡量各种处理效果的好坏的指标,如产品的产量、品质。通常指作物产量经济性状,包括定性指标和定量指标。定量指标:可以直接用来表示数量的指标。定性指标:不能直接用数量来表示,只能定性描述的指标。12.均衡方案:方案内包含有全部的处理组的方案称为均衡方案;方案内只有部分处理组的方案则称为非均衡方案。13.对照:用来与试验处理进行比较的处理。14.唯一差异原则:指除处理以外,其他条件应该完全一致。
29、15试验效应:试验因素的独立作用,即因素对试验指标所起的增加或减少的作用。16.简单效应:同一因素不同水平之间试验效应的差异。17.平均效应:(主效应):同一因素内各个简单效应的平均数。18.互作(交互作用):两个或两个以上因素相互作用所引起的效应或两个因素简单效应间的差异。19.三原则:重复、随机和局部控制) 重复:同一处理所放置的试验单元数,即同一处理种植的小区数) 随机:每一重复的每一处理都有同等的机会放在任何一个试验小区上。) 局部控制:将整个试验空间分成若干个各自相对均匀的局部(区组)20.生物试验基本要求:1) 试验目的要明确2) 试验条件要有代表性3) 试验结果要可靠4) 试验结
30、果要能重演21.试验误差:试验中观测值与理论值之间的偏差,包括粗大误差、系统误差、随机误差。 粗大误差:由不正确的操作所引起的误差。 系统误差:由试验仪器、条件、设备、工具等原因所照成的各个观测值具有一定规律性变化的误差。 随机误差:由多种偶然的无法控制的因素所引起的误差。试验误差来源:1)实验材料固有的差异2)试验条件不一致3)操作技术不一4)偶然性因素影响控制试验误差的途径:1)选择纯合一致的试验材料2)改进操作管理制度,使之标准化 3)精心选择试验单位4)采用合理的实验设计和统计分析22.边际效应:小区两边或两端的植株因有较大的空间而表现出的生长优势23生长竞争:由于相邻小区所加处理不同
31、(如种植不同作物或施肥水平不同)造成边行植物与中间植株生长发育不一致的现象。24.保护行:为了使试验在较为均匀的环境下安全进行,在试验地周围种植同种作物品种的保护地段。25.完全区组:重复和区组数目相等,每一区组或重复都安排全套处理26.不完全区组:一个重复安排在几个区组上,每个区组只安排部分处理27主区:按照处理划分的小区。 副区:主区内按各副区划分的小区。28.试验设计:试验设计包括广义的试验设计和狭义的试验设计。广义的试验设计是指整个研究课题的设计,包括试验方案的拟订,试验单位的选择,分组的排列,试验过程中试验指标的观察记载,试验资料的整理,分析等内容;而狭义的试验设计则仅是指试验单位的选择,分组与排列方法。生物统计学中的试验设计主要指狭义的试验设计。29.名词解释:处理、处理效应、主效应、互作处理:是指对受试对象给予的某种外部干预,是试验中实施的因子水平的一个组合,又称为处理因素。处理因素:是指处理因素作用于受试对象的反应,是研究结果的最终体现。主效应:是指由于因素水平的改变而造成因素效应的改变。互作:是指两个或两个以上处理因素间的相互作用产生的效应。