1、第一章1. 生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科。属于应用统计学的一个分支。是一门应用数学。2. 统计学(Statistics)是把数学的语言引入具体的科学领域,将所研究的问题抽象为数学问题的过程, 是收集、分析、列示和解释数据的一门科学。3. 生物统计学是研究生命过程中以样本推断总体的一门学科。4. 生物统计学的基本类容:试 验 设 计:如何合理地进行调查或试验设计统 计 分 析:如何科学地整理、分析所收集来的具有变异的资料,揭示出隐藏其内部的规律性。5. 生物统计学的基本作用:
2、提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征。运用显著检验,判断试验结果的可靠性或可行性。提供由样本推断总体的方法。提供试验设计的的一些重要原则。6. 常用的统计学术语:一总体与样本具有相同性质的个体所组成的集合称为总体;总体有分为有限总体和无限总体。组成总体的基本单元称为个体从总体中抽出若干个体所构成的集合称为样本(sample);(总体中的一部分)构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小,样本容量常记为n。一般在物学研究中,通常n30的样本叫小样本,n 30的样本叫大样本。二、 参数与统计数描述总体特征的数量称为参数,也称参量。常用希腊字
3、母表示参数,例如用表示总体平均数,用表示总体标准差;描述样本特征的数量称为统计数,也称统计量。常用英文字母表示统计数,例如用X-表示样本平均数,用S表示样本标准差。三、 变量与常数变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。变量包括定量变量和定性变量,定性变量又可分为连续变量(可以有任何小数出现)和非连续变量(只有整数出现)。四、 效应与互作通过施加试验处理,引起试验差异的作用称为效应。效应有正效应与负效应之分。互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用
4、)与负效应(拮抗作用)之分。五、 误差与错误 效应 随机误差,抽样误差,偶然误差变异 误差 系统误差,片面误差随机误差,也叫 抽样误差 ,是由于试验中无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间的差异。是不可避免的。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。系统误差,也叫片面误差 ,是由于试验处理以外的其他条件控制不一致所产生的带有倾向性的或定向性的偏差。系统误差主要由一些相对固定的因素引起的,如仪器调校的差异、各批药品间的差异、不同操作者操作习惯的差异等。系统误差影响试验的准确性。只要试验工作做得精细,系统误差是可以克服的。错误 (mistake),是指
5、在试验过程中,由于人为作用引起的差错。如测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的,只要以认真负责的态度和细心的工作作风,在试验中是完全可以避免的。 原则上,试验中是不允许出现错误的。六、 准确性与精确性准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值 |x|越小, 则观测值x的准确性越高; 反之则低。精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近
6、,即任意二个观测值xi 、xj 相差的绝对值|xi xj |越小,则观测值精确性越高;反之则低。准确性不等于精确性。准确性是说明测定值对真值符合的程度大小,而精确性是说明多次测定值的变异程度大小。调查或试验的准确性、精确性合称为正确性。七 因素与水平八 处理与重复 章节小测验1.变量按其性质可以分为_定量_变量和_定性_变量。2.样本统计数是总体_的估计值。3.生物统计学是研究生命过程中以_样本_来推断_总体_的一门学科。4.生物统计学的内容包括_、_。5.生物学研究中,一般将样本容量_称为大样本。6.试验误差可以分为_、_两类。1.对于有限总体不必用统计推断方法。( )2.资料的精确性高,其
7、准确性也一定高。 ( )3.在试验设计中,随机误差只能减小,而不可能完全消除。 ( )4.统计学的试验误差,通常指随机误差。 ( )第二章1. 在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为资料。2. 变量:相同性质的事物间表现差异性的某项特征或性状。3. 定量变量:通过测量所获得的,用具体的数值与特定计量单位表达的数据。连续变量:表示在变量范围内可抽出某一范围的所有值,变量之间是连续,无限的,可以有任何小数出现。非连续变量:表示在变量数列中仅能取得固定数值,并且通常是整数。4. 定性变量:也称为分类变量,名义变量,其变量值是定性的,表示某个体属于几种互不相容的类型中的一种。
8、5. 数量性状是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料 。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为计数资料和计量资料两种。6. 计数资料指用计数方式获得的数量性状资料。该类资料也称为非连续变量资料或间断变量资料或离散变量资料。7. 计量资料指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,计量资料也称为连续变量资料。8. 质量性状资料:质量性状是
9、指能观察到而不能直接测量的性状。观察质量性状而获得的数据就是质量性状资料,也称为属性性状资料。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:统计次数法;评分法9. 资料收集的方法:调查;试验。调查是对已经存在的事情的资料按某种方案进行收集的方法。资料的调查又可以分为两种:普查和抽样调查。普查是对研究对象的全部个体逐一进行调查的方法。抽样调查是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。试验是对已有的或没有的事物加以处理的方法。10. 试验设计须遵循的三大原则是:随机、重复和局部控制。11. 常见的试验设计方法有:
10、对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等。12. 检查和核对原始资料的目的:确保原始资料的完整性和正确性。13. 计量资料的整理一般采用组距式分组发全距组数组距组限归组制表全距:样本数据资料中最大观测值与最小观测值之间的差值。R=Xmax- Xmin组数:是根据观测值的多少及组距的大小来确定的。组距:组距全距/组数组限:是指每个组变量值的起止界限。包括上限和下限。组中值:是指每个组变量值的起止界限。第一组的组中值最好接近于资料的最小值。临界值就高不就低。分组是计数的方法:卡片法和唱票法(画正字法和画川字法。)。14. 变量的分布具有两种明显的基
11、本特征:集中性和离散性。集中性:是变量在趋势上有着向某一中心聚集,或者说以某一数值为中心而分布的性质。离散性:是变量有着离中分散变异的性质。表示集中性的特征数:平均数(算术平均数,中位数,众数,集合平均数,调和平均数)表示离散性的特征数:极差,方差,标准差,变异系数算术平均数 总体或样本资料中所有观测数的总和除以观测数的个数所得的商,简称平均数、均数或均值。总体:样本:中位数Md资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。1、 当观测值个数n为奇数时,(n+1)/2位置的观测值,即 Md =x(n+1)/2为中位数2、 当观测值个数为偶 数 时,n/2和(n/2+1)
12、位置的两个观测值之和的1/2为中位数众数M0资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。注意:(1)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。极差:是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用R表示。一定程度上说明样本波动幅度,但只受两个极端值大小的影响,不能反映样本中各个观测值的变异程度.离均差:各个观测值与平均数的离差。离均差可以反映出一个观测值偏离平均数的性质和程度。平方和(SS)估计量必须符合一个特性:无偏性15. 算术平均数的重要性质离均差之和等于零。离均差平方和最小。1
13、6.自由度:指当以样本的统计量来估计总体的参数时,样本中可以自由变动的变量的个数。自由度 = 样本个数 - 样本数据受约束条件的个数 df=n-k17.方差:刻画了随机变量的取值对于其数学期望的离散程度方差越大,离散程度越大样本:总体:18:标准差样本:总体:标准差特性标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小各观测数加上或减去一个常数,其标准差不变;各观测数乘以或除以一个常数a(不为0),其标准差扩大或缩小a倍。标准差作用表示变量分布的离散程度。可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。估计平均数的标准误。进行平均数
14、的区间估计和变异系数计算。19. 变异系数定义:样本的标准差除以样本平均数,所得到的比值就是变异系数。CV=s / x 100%特点:是样本变量的相对变异量,不带单位。可以比较不同样本相对变异程度的大小。自我测验资料按生物的性状特征可分为_和_。直方图适用于表示_资料的次数分布。变量的分布具有两个明显基本特征,即_和_。反映变量集中性的特征数是_,反映变量离散性的特征数是_.样本标准差的计算公式 s =_计数资料也称连续性变量资料,计量资料也称非连续性变量资料。资料中出现最多的那个观测值或最多一组的中点值,称为众数。变异系数是样本变量的绝对变异量下面变量中属于非连续性变量的是_A.身高 B.体
15、重 C.血型 D.血压对某鱼塘不同年龄鱼的尾数进行统计分析时,可作成_图来表示。A. 条形 B.直方 C.多边形 D.折线第三章1. 事件必然事件(U):一定条件下必然出现。不可能事件(V):一定条件下必然不出现。随机事件(A):一定条件下可能出现。2. 频率设事件A在n次重复试验中发生了m次,其比值m/n称为事件A发生的频率,记为: W(A)=m/n。3. 概率事件A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)就越来越接近某一确定值p,于是定义p为事件发生的概率(probability),记为P(A) = p=4. 大数定律:概率论中用来阐述大量随机现象平均
16、结果稳定性的一系列定律的总称。样本容量越大,样本统计数与总体参数之差越小。5. 简单的概率计算。第四章1. 统计推断:把试验的表面效应与误差大小相比较并由表面效应可能属误差的概率而作出推论的方法。 由一个样本或一系列样本所得的结果来推断总体的特征。2. 统计推断的任务:分析误差产生的原因确定差异的性质排除误差干扰对总体特征做出正确判断3假设检验又叫显著性检验,是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。4. 小概率原理概率很小的事件在一次抽样试验中实际是几乎不可能发生的。5
17、. 假设检验的步骤:分析问题提出假设确定显著水平计算检验统计量做出推断6. 双尾检验与单尾检验7. 成组数据:将试验单位完全随机分为两组,再随机各实施一处理,这样得到的数据称为成组数据,以组的平均数作为比较的标准。成组数据平均数比较的假设检验和配对数据平均数比较的假设检验都是检验两个样本平均数 和 。所属总体平均数 和 是否相等的检验方法。成组数据两个样本抽自不同总体,两个样本之间的变量没有任何关联。这样,不论两样本的容量是否相同,所得数据皆为成组数据。8. 将性质相同的两个样本(供试单位)配成对,每一对除随机地给予不同处理外,其他试验条件应尽量一致,以检验处理的效果,所得的观测值称为成对数据
18、。9. 点估计:以样本统计量直接估计总体的相应参数。估计总体参数的统计量称为估计量一般来说,一个好的估计量应满足以下三个条件:无偏性、有效性和相容性。10. 区间估计按一定的概率估计总体参数在哪个范围。11. 具体区间估计与点估计看书和ppt。第五章1. 所谓2卡方,是指相互独立的多个正态离差平方值的总和,O为观察次数,E为理论次数,i=1,k为计数资料的分组数,自由度为 df=k-1,依分组数及其相互独立的程度决定。2.独立性测验是测验两个变数之间是相互独立还是彼此相关的统计方法,是次数资料的一种相关研究。3. 独立性检验:测验实际结果与理论比例是否符合;测验产品质量是否合格;测验实验结果是
19、否符合某一理论分布。应用卡方进行独立性测验的无效假设是:H0:两个变数相互独立,对HA:两个变数彼此相关。 计算过程: (1)将所得次数资料按两个变数作两向分组,排列成相依表; (2)根据两个变数相互独立的假设,算出每一组格的理论次数; (3)由(基本公式)或者变形公式算得卡方值。(4)这个x2的自由度随两个变数各自的分组数而不同,设横行分r组,纵行分c组,则 df=(r1)(c1)。当观察的 时,便接受H0,即两个变数相互独立;当观察的 Oi-Ei 0.5)2c2=Eic(时,便否定H0,接受HA,即两个变数相关。 根据以上判断写统计结论。(第五章ppt28)列联表的x2(卡方)独立性测验2
20、2表的一般形式: 结果1结果2合计处理1处理2O11 O12 O21 O22R1R2合计C1 C2Tdf=(2-1)(2-1)=1(1)基本公式,需连续矫正(ppt30页补充)(2) 变形公式二、2C表的独立性测验 2C表是指横行分为两组,纵行分为C3组的相依表资料。在作独立性测验时,其 =(21)(c1)=c1。由于c3,故不需作连续性矫正。第六章1.试验因素:试验中所研究的影响试验指标的原因或原因组合2.因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差别)简称为水平。3.试验处理 对受试对象给予的某种外部干预或措施,是试验实施因子水平的一个组合 单因素处理 处理 多因素处理
21、4. 试验单位:在试验中能接受不同试验处理的独立的试验载体。实际上就是根据研究目的而确定的观测总体。5. 重复:在试验中,将一个处理实施在两个或两个以上的试验单位上。处理实施的试验单位数即为处理的重复数。6.第七章1.抽样需遵循的总的原则是:样本必须来自于所研究的总体样本必须能代表所研究的总体抽样方法必须与抽样目的相一致2.试验、调查的目的不同,试验、调查的方法不同、抽样的方法也不同 随机抽样 简单随机抽样 整群抽样 分层抽样 双重抽样 顺序抽样 典型抽样3.(一)随机抽样法总体比较整齐、变异程度小、群体分布均匀,可用随机抽样法随机抽样法的原则是:总体内每一个体(数据)都有同等的机会进入样本样
22、本中每一个体(数据)进入任何一个组的机会也是相等的随机抽样法可以完全排除个人的主观性随机抽样法是最简单、最常用的抽样方法4.随机抽样法有以下几种方法: 抓阄法 随机数字法 伪随机数字法通过随机抽样法得到样本后,一般需计算样本的特征数,用以估计总体参数。几乎所有调查和试验都可以采用随机抽样法进行抽样。5.整群抽样和多层次抽样法从总体中抽取数个样本单位群,对单位群内的全部个体作全面调查,或用整个单位群进行试验样本单位群的抽取既可以用随机抽样法得到,也可以有选择地取得5.在整群抽样的基础上,对抽得的样本单位群不作全面调查,或不是整个样本单位群进入试验,而是在样本单位中继续抽取一定量的个体(数据)组成
23、样本,这就是二级抽样如果二级抽样得到的不是个体(或数据),而是更小的单位群,再从中进行抽样,这就是三级抽样以此类推二级及二级以上的抽样就称为多层次抽样多层次抽样方法适合于资源调查、传染病(寄生虫病)调查、流行病学调查、经济学调查、遗传学试验、育种学试验,等6.双重抽样法当所研究的性状比较复杂,或所需经费较多,或须将试验动物宰杀后才能测定,因而不大可能进行重复性试验,或采用直接抽样试验,或试验有较大的难度,可采用双重抽样法7.采用双重抽样法,首先需将所需要进行研究的性状定为目标性状(或称为靶性状),用 y 表示,然后根据文献或其他方法确定一个或几个简单易测、不具破坏性、与靶性状相关性比较紧密的性
24、状,这些性状称为辅助性状,用 xi 表示。从总体中抽取两个样本,一个大样本,一个小样本先对小样本进行调查,或先用小样本进行试验,对这一小样本既测 y 性状,同时也测 xi 性状,获得n 对 y 和 xi,并建立 xi 与 y 的回归方程,最简单的回归方程就是只有一个 xi 的简单回归方程,也可以是曲线回归方程,也可以建立多元回归方程建立回归方程的原则是其 r(或其绝对值)或 R 必须很大,以表明用 x 或 xi 估测 y 其效果比较好。而较大的样本在调查或试验中仅测 xi 性状,并将这一样本中所有被测个体的 xi 代入上述回归方程中以求得相应的 y 估计值,这样获得的较大样本 y 的估计值,能达到一定的精度,这一抽样方法即为双重抽样法。8.双重抽样法的适用范围:遗传学试验、育种学试验、繁殖学试验、生理生化学试验、疾病防治试验,等双重抽样法的优点是:对于复杂性状的调查或试验仅需破坏较小的样本即能获得较大样本的精确性 当目标性状为破坏性性状时,这是唯一行之有效的方法
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100