1、生物统计学生物统计学生命科学学院生命科学学院 王志高王志高第1页为何要学统计学?为何要学统计学?第2页n1.采取统计学方法,发觉不确定现象背后隐藏规律。采取统计学方法,发觉不确定现象背后隐藏规律。n变异(变异(variation)是社会和生物医学中普遍现象。)是社会和生物医学中普遍现象。许多个体之所以能聚集成一个总体,必定存在共同许多个体之所以能聚集成一个总体,必定存在共同特征,共同特征是他们同质性,但个体之间又不是特征,共同特征是他们同质性,但个体之间又不是完全相同,这种个体之间差异就是变异。完全相同,这种个体之间差异就是变异。n变异使得试验或观察结果含有不确定性,如每个人变异使得试验或观察
2、结果含有不确定性,如每个人身高、体重、血压等各有不一样。身高、体重、血压等各有不一样。第3页 最大值=6.18,最小值=3.29,极差=2.89 算术均数=4.72,标准差=0.57。第4页2.用统计学思维方式考虑相关生物学用统计学思维方式考虑相关生物学研究中问题研究中问题 “阳性阳性”结果是否是虚假联络?结果是否是虚假联络?某感冒药治疗某感冒药治疗1周后,治愈率为周后,治愈率为90%,能否说该感冒药十分,能否说该感冒药十分有效?有效?“阴性阴性”结果是否是样本含量不足?结果是否是样本含量不足?有些人曾对发表在有些人曾对发表在Lancet,N Engl J Med,JAMA等著名医等著名医学杂
3、志上学杂志上71篇阴性结果论文作过分析,发觉其中有篇阴性结果论文作过分析,发觉其中有62篇(篇(93%)可能是因为)可能是因为样本含量样本含量不足造成假阴性。不足造成假阴性。第5页什么是生物统计学?n生物统计学是应用数理统计原理和方法来分析和解释生物界数量现象科学,也能够说是数理统计在生物学研究中应用。n它是当代生物学研究不可缺乏工具,不论是传统学科还是当代分子生物学,时时刻到都会与数字打交道。为了揭示生物体内在规律或生物与环境之间关系,都离不开原因分析、待别是多元分析。第6页n设计统计原理,阐述统计理论和相关公式,以满足统计方法需要统计方法应用,意在对客观事物得出本质和规律性认识。n人们在从
4、事科学研究时,总是经过事物一部分(样本)来预计事物全体(总体)性质特征,即从样本推断总体,从特殊推导普通,从而对所研究总体得出正确结论。n在生物科学研究中,我们期望知道总体不是样本。可是在实际问题调查和试验中,我们所得到却只是样本资料。n生物统计学从本质来看,实际上是研究怎样从样本推断总体一门科学。第7页课程特点与学习方法(一)课程特点与要求n本课程重点介绍基本概念、基本方法,主要从应用角度了解,简化推证过程。n掌握生物统计基本方法,熟悉惯用实 验设计方法。第8页二)提议学习方法1.掌握生物统计学基本原理和公式,了解公式含义和应用条件,不深究推导过程;2.培养科学统计思维方法。结合专业,了解统
5、计方法实际应用。3.学会使用惯用统计软件。第9页教学内容第1章 统计数据搜集与整理第2章 概率分布与抽样分布第3章 统计推断与参数预计第4章 拟合优度检验第5章 方差分析第6章 一元回归及简单相关分析第7章 试验设计第10页第一一章 统计数据搜集与整理1.1 总体与样本 总体、样本、样本含量、抽样(方法)1.2 数据类型与频数(率)分布 数据类型、频数表与频数图编绘1.3 样本几个特征数 平均数、标准差、方差、变异系数第11页几个惯用术语n变量与常数n误差与错误n准确与准确n测量与测量尺度第12页 对随机变量取值过程为测量。取值所采取标准为测量尺度。测量和测量尺度测量和测量尺度 采取统一标准化
6、尺度进行测量,其测量结果普通是稳定和一致,比如身高、胸围等形态指标测量均采取统一测量尺度(全国统一研制身高计、胸围尺均以厘米为统计单位,体重以千克为统计单位,肺活量以毫升为单位等)第13页变变量量能能够够测测量量任任何何特特征征或或属属性性Any characteristic or attribute that can be measured。(不不一一样样个个体体结果可能不一样)结果可能不一样)随机变量随机变量在概率论中称变量为随机变量在概率论中称变量为随机变量观观察察值值(observed value)、变变量量值值(value of variable)、资资料料(data)变变量量测测得
7、值。得值。第14页变量可是定量,也能够是定性。变量可是定量,也能够是定性。定量变量(定量变量(quantitative variable):):亦称为数亦称为数值变量,变量值是定量,表现为数值大小,值变量,变量值是定量,表现为数值大小,普通有度量衡单位。普通有度量衡单位。e.g.身高、体重。身高、体重。定性变量(定性变量(qualitative variable):):亦称为分类亦称为分类变量,其变量值是定性,表现某个体属于几变量,其变量值是定性,表现某个体属于几个互不相容类型中一个。个互不相容类型中一个。e.g.血型,豌豆花颜血型,豌豆花颜色。色。常数(常数(constant):):是不能给
8、予不一样数值变是不能给予不一样数值变量,代表事物特征和性质数值。量,代表事物特征和性质数值。e.g.样本平均样本平均数,标准差。数,标准差。第15页误差(误差(Error)测量值测量值=真实值真实值+随机误差随机误差+非随机误差非随机误差1随机误差随机误差(随机抽样误差):(随机抽样误差):因为试验中许多无法控制偶然原因所造成试验结果与真实结果因为试验中许多无法控制偶然原因所造成试验结果与真实结果之间产生误差,是不可防止,不能消除。之间产生误差,是不可防止,不能消除。2系统误差系统误差 受确定原因影响,大小改变有方向性。某种程度上能受确定原因影响,大小改变有方向性。某种程度上能够控制。够控制。
9、3非系统误差(非系统误差(错误错误)研究者偶然失误而造成误差。研究者偶然失误而造成误差。第16页准确度与可靠度准确度与可靠度n准确度准确度(accuracy)或真实性(或真实性(validity):观察值与:观察值与真值真值靠近程度,受靠近程度,受系统误差系统误差影响。影响。n可靠度(可靠度(reliabiliy)也称也称准确度准确度(precision)或或重复性(重复性(repeatability):重复观察时观察值:重复观察时观察值与其均值与其均值靠近程度,靠近程度,受受随机误差随机误差影响。影响。第17页1.1 总体与样本n一、总体n总体(population)是我们研究全部对象。总体
10、又分为无限总体(infinite population)和有限总体(finite population)。比如,研究在某种条件下生长小麦株高,因为无法预计出在这种条件下生长小麦数量,能够构想这一总体是无限。假如研究每个地块小麦株高,这一总体就是有限总体。n组成总体每个组员称为个体(individual)。第18页二、样本n从总体中抽取一部分个体则组成样本(sample)。样本内包含个体数目称为样本容量(sample size),常以n表示。因为样本容量不一样,普通又分大样本(n30)和小样本(n30)。n统计分析关键在于由样本信息推断总体信息。所以,取得样本仅是一个伎俩,而推断总体才是真正目标
11、。第19页参数参数:总体总体统计指标,如统计指标,如总体均数、标准差,采取总体均数、标准差,采取希腊字母分别记为希腊字母分别记为、。固定常数固定常数 样样本本抽取部分观察单位抽取部分观察单位统计量统计量统计量统计量参数参数参数参数推断推断inference样本样本统计量统计量:样本样本统计指标,如样本均数、标准差,采取英统计指标,如样本均数、标准差,采取英文字母分别记为文字母分别记为 。参数附近波动随机变量参数附近波动随机变量。总体总体总体总体第20页三、抽样n从总体中取得样本过程称为抽样(samlping)。抽样目标是希望经过对样本研究,推断其总体。比如,希望由100株“三尺三”高梁株高推断
12、在这种条件下生长该品种株高,这就要求样本应能在最大程度上代表总体情况。为此,在从总体中抽取样本时,总体中每一个个体被抽中机会必须都一样,不能带有偏见。第21页n又如,在小麦育种工作中,我们经常希望得到矮秆品种。为了满足个人愿望,在抽样时便多 抽矮秆,这么得到样本没有代表性,属于偏性抽样,不能代表总体情况。n样本应该是一个总体缩影。为到达这个目 ,需要用随机抽样(random sampling)方法取得样本。第22页(一)随机抽样方法n1 抽签-筷子;2 抓阄-纸条;3 随机数字表-P322(附表1)比如:需要从包含4728个个体总体中,抽出一个含量为20样本。因为个体总数4728是一个四位数,
13、所以总体中每一个个体编号都应是四位数,即从0001号到4728号。n第一步,闭上眼睛用铅笔在随机数字表上任意点上一点,假若点到 奇数上,就用第一页表;点到偶数上,就用第二页表。n第二步,在选定那一页上再点一次,决定从哪个字开始。决定了 起点以后,开始以四位数字为一节连续读下去,不用考虑数字间间隙。能够正读、倒读、横向读、纵向读,也能够沿对角线方向读。选出小于等于4728数字,大于4728则舍弃,直到取满20个数为止。这20个数所对应个体,即为我们选中样本。第23页第24页(二)随机抽样方式1 放回式抽样n从总体中抽出一个个体,记下它特征后放回总体中,再做第二次抽样。这种抽样方式可能会重复抽中某
14、一个体。2 非放回式抽样n从总体中抽出个体后不再放回。n在上述例子中,若保留重复随机数字,则为放回式抽样;若舍弃重复数字,则为非放回式抽样。n对于无限总体来说,放回式抽样和非放回式抽样,实际上没有区分。样本含量越大越有代表性。不过,太大样本研究起来是很困难。所以,样本含量必须适当。第25页1.2 数据类型与频数(率)分布n1.2.1 连续型数据和离散型数据n生物统计学中经常碰到数据有两种类型:即连续型数据和离散型数据。n用量测方式所得到数据称为连续型数据(continuous data),又称为度量数据(measurement data)。比如,长度、时间、质量、OD值、血压值等。这类数据通常
15、是非整数。即使有时记载是整数,如身高厘米数,不过当提升准确度后,总会出现小数。对连续型数据进行分析方法通常称为变量方法(method of variable)。第26页n用计数方式所得到数据称为离散型数据(discrete data),又称为计数数据(count data)。比如,某一类别动物头数,含有某一特征种子粒数,血液中不一样类型细胞数目等。全部这些数据全都是整数,而且不能再细分,也不能深入提升它们准确度。对离散型数据进行分析方法通常称为属性方法(method of attribute)。n描述数据改变规律最简单方法是将这些数据列成n频数表(frequency table)或绘成频数图(
16、frequency graph),依据频数分布进行研究。第27页1.2.2 频数(率)表与频数(率)图编绘一、离散型数据频数(率)表与频数(率)图编绘例1.1 调查天天出生10名新生儿中,体重超出3千克人数,共调查120天。天天10名新生儿中体重超出3千克人数,可能有11种情况:1名也没有,有1名,有2名,10名都是,如表1-1第一列所表示,这一列称为组值(class value)。表1-1第2列所记载是调查结果。全部调查完成,累加各行结果填入频数一栏(第3列),或者将各行结果除以总数而得出频率(第4列)。所谓频率,即将某一类别数目除以总数所得到分数。把频数或频率按超出3千克人数次序排列起来,
17、便得到了频数分布(frequencydistribution)或百分率分布percentage distribution)。第28页第29页 编制连续型数据频数(率)表编制连续型数据频数(率)表方法步骤方法步骤n从原始数据表中找出最大值和最小值,并求出从原始数据表中找出最大值和最小值,并求出极差。极差。n决定划分组数,分组数是由数据多少决定,在决定划分组数,分组数是由数据多少决定,在数据较少时,如数据较少时,如50100个数,能够分为个数,能够分为710组。数据较多时,可分为组。数据较多时,可分为1520组。组。n依据极差与决定划分组数,确定组限。依据极差与决定划分组数,确定组限。n在频数表中
18、列出全部在频数表中列出全部组限组限、组界组界及及中值中值。n将原始数据表中数据,用唱票方式填入频数表将原始数据表中数据,用唱票方式填入频数表中,计算出各组频数和频率。中,计算出各组频数和频率。第30页n极差(range):数据中最大值和最小值之差,又称全距。n组限(class limit):各组最大值与最小值称为组限,最小值称为下限,最大值称为上限。n中值(midvalue):每一组中点值,普通是每一组两个组限平均值。第31页在横轴上标明各组组界,纵轴标明频数,然后以每一组组界为一个边,对应频数为另一个边作矩形,构成直方图(histogram)(图1-2)。若纵轴改为频率则得到频率直方图。直方
19、图又称组织图。第32页n2 多边形图 在横轴上标出各组中值,纵轴上标出频数(率),在坐标平面内标出对应每个点(以中值为横坐标,以该中值对应频数(率)为纵坐标),用线段连接各点。最低一组非零频 数点,应该直接与相邻零频数中值相连;最高一组非零频数点,亦应该与相邻零频数中值点相连。最终得到一个多边形图(polygon)(图1-3)。第33页累计频数图意义?累计频数图意义?横坐标与多边形横坐标与多边形图有何差异?图有何差异?3 累积频数图经常使用第三种频数图称为累积频数图cumulativefrequency graph)。作图法为:首先依据表1-3制成累积频数表(表1-4)、在横轴上标出各级中值,
20、纵轴上标出累积频数(率)。在坐标平面内标出对应点(以中值为横坐标,以该中值对应累积频数(率)为纵坐标),连接各点,从而得到累积频数(率)图第34页研究频数(率)分布意义研究频数(率)分布意义1.依据频数(率)分布,能够依据频数(率)分布,能够看出数据集中情况(重看出数据集中情况(重心)心)。n平均值(平均值(average value,mean)n算术平均数(算术平均数(arithmetic mean)、中位数)、中位数(median)和众数()和众数(mode)。)。2.从频数(率)表或频数(率)图中,能够直观地看从频数(率)表或频数(率)图中,能够直观地看出出数据变异情况数据变异情况。3.
21、能够直观能够直观看出频数(率)图改变形状看出频数(率)图改变形状。还可显示一。还可显示一些不规则情况。些不规则情况。第35页频数(率)分布不恒定性频数(率)分布不恒定性n当用随机抽样方法取得样本时,因为偶然性,当用随机抽样方法取得样本时,因为偶然性,有时在一个样本中抽到数值偏高,而另一个样有时在一个样本中抽到数值偏高,而另一个样本中数值偏低,使两个样本频数分布出现不一本中数值偏低,使两个样本频数分布出现不一样。因为样本分布不恒定性,当用样本去推断样。因为样本分布不恒定性,当用样本去推断总体时,推断结果也会有所不一样。这就需要总体时,推断结果也会有所不一样。这就需要考查当用某一样本去推断总体时所
22、得结果与真考查当用某一样本去推断总体时所得结果与真正总体之间有多大正总体之间有多大误差误差,结果可信度有多高。,结果可信度有多高。第36页1.3 样本样本几个特征数几个特征数100877910099587799100677510080477480898834897567837521896821835682852486726491647396某班某次考试成绩第37页频数表和频数图只能定性地描述一组数据。对于生物统计学来说,这种描述远远不够。为了更客观地描述这些数据,需要借助于以下分析工具帮助。它们是数据集中点度量平均数,数据变异程度度量极差、方差、标准差和变异系数。这些数字是描述样本频率分布特征
23、,称为样本数字特征或简称为样本特征数(samp1e characteristics)(总体称参数)。第38页平均数(平均数(mean)平均数是统计学中最惯用统计量,用来表明资料中各观察值相对集中较多中心位置。主要包含:n算术平均数(arithmetic mean)n中数(中位数)(median)n众数(mode)n几何平均数(geometric mean)n调和平均数(harmonic mean)第39页算术平均数n(一)算术平均数定义n算术平均数是指资料中各观察值总和除以观测值个数所得商,简称平均数或均数。(二)算术平均数计算1 直接法主要用于样本含量n30以下、未经分组资料平均数计算。第4
24、0页生物统计学中,使用最多是算术平均数生物统计学中,使用最多是算术平均数第41页2 加权法n对于样本含量 n30以上,且已分组资料,能够在次数分布表基础上采取加权法计算平均数:第42页算数平均数基本特征算数平均数基本特征n算术平均数计算与样本内每个值都相关算术平均数计算与样本内每个值都相关,它大小受,它大小受每个值影响。每个值影响。n若每个若每个xi都都乘乘以相同数以相同数k,则平均数亦应,则平均数亦应乘乘以以k。n若每个若每个xi都都加加上相同数上相同数A,则平均数亦应,则平均数亦应加加上上A。n假如假如 是是n1个数平均数,个数平均数,是是n2个数平均数,那么全个数平均数,那么全部部n1
25、n2个数算术平均数是个数算术平均数是加权平均数(加权平均数(weighted mean):第43页平均数计算方法平均数计算方法n离散型数据频数资料:离散型数据频数资料:注意记住全注意记住全部字母符号部字母符号含义含义第44页例例1.1 新生儿体重新生儿体重作表计算是个好习惯作表计算是个好习惯第45页连续型数据频数资料:连续型数据频数资料:第46页例1.2“三尺三”株高第47页二、中(位)数n将资料内全部观察值从小到大依次排列,位于 中间那个观察值称为中位数。n当观察值个数是偶数时,则以中间两个观察 值平均数作为中位数。n当所取得数据资料呈偏态分布时,中位数 代表性优于算术平均数。第48页三、众
26、数n含有最高频数组值或中值称为众数。n含有两个分开高频率分布称双众数(bimodal)。n表1-5 100听罐头净重次数分布表第49页变异程度度量变异程度度量n 对于数据对于数据变异程度变异程度,经常使用度量方法有三种,它,经常使用度量方法有三种,它们是:们是:范围(范围(range)或称为或称为极差极差,平均离差平均离差(mean deviation,MD)和和标准差(标准差(Standard deviation,s or SD)或称为或称为标准离差标准离差。其中最主要是。其中最主要是标准差。标准差。第50页第51页第52页第53页平均离差(平均离差(mean deviation,MD)表表
27、16中数据中数据MD:第54页除得商称为除得商称为样本方差(样本方差(sample variance),用符号用符号s2表示。表示。n离差平方和离差平方和(sum of square of deviations)第55页标准差(标准差(s,SD)方差缺点:方差缺点:n 方差方差s2是离均差平方平均数。即使方差是离均差平方平均数。即使方差在实际应用中用得最广泛,但它还不能在实际应用中用得最广泛,但它还不能直接地指出某个数直接地指出某个数x与平均数之间偏离与平均数之间偏离终究到达什么程度。终究到达什么程度。第56页ns要比要比MD要大要大一些。一些。n假如数据分布曲线是平滑且对称,假如数据分布曲线
28、是平滑且对称,那么大约那么大约57数据落在数据落在平均数平均数MD内;内;n假如数据分布曲线是平滑且对称,假如数据分布曲线是平滑且对称,那么大约那么大约68数据落在数据落在平均数平均数s内。内。第57页n 总之,衡量数据离散程度时,三种方法总之,衡量数据离散程度时,三种方法都能够使用。用抽样理论能够证实:用都能够使用。用抽样理论能够证实:用标准差预计总体离散程度最可靠标准差预计总体离散程度最可靠,平均,平均离差次之。离差次之。第58页标准差计算方法标准差计算方法1.非频数资料计算方法非频数资料计算方法不要求公式推导。不要求公式推导。第59页例例13 从两个小区分别随机抽取从两个小区分别随机抽取
29、20株小麦,株小麦,测其单穗粒数,结果以下表,计算其标准测其单穗粒数,结果以下表,计算其标准差。差。第60页列出下表计列出下表计算算第61页不过若将上述数据进行不过若将上述数据进行编码编码,则可显著看出用(,则可显著看出用(1.12)式计算极为便利。详细做法是任选一个数式计算极为便利。详细做法是任选一个数C,求每一个,求每一个数与数与C差,利用差值计算离差平方和。结果与未编码所差,利用差值计算离差平方和。结果与未编码所得值是一样。得值是一样。C最好选靠近平均数一个数最好选靠近平均数一个数,这么编出数,这么编出数码最轻易计算。码最轻易计算。第62页现仅对例现仅对例1.3中中第一个小区进行第一个小
30、区进行计算,取计算,取C25,于是于是xx25。依据(依据(1.12)式)式编码和列表都是好习惯。编码和列表都是好习惯。第63页1.频数资料频数资料计算方法计算方法第64页第65页n 对于连续型数据,能够用中值代替离散型数对于连续型数据,能够用中值代替离散型数据中组值做据中组值做近似近似计算,不过连续型数据中中计算,不过连续型数据中中值普通都较大,必须编码后再计算。可用下值普通都较大,必须编码后再计算。可用下式:式:第66页第67页第68页偏斜度和峭度偏斜度和峭度n度量数据围绕众数呈不对称程度,即通常所称偏斜度(偏斜度(skewness)。即使有几个不一样度量偏斜方法。不过鉴于三阶中心矩(三阶
31、中心矩(third central moment)方法有最好特征,因而使用得最广泛。三阶中心矩定义为:第69页第70页n 下面用4、11、12和13这四个数示意性地说明三阶中心矩并计算出 m3。从下表中能够看出,当我们将离差立方后,其中有一个负数,它远远超出另外三个正数,其代数和为负数,所以m3n负数说明在平均数左侧离差大于右侧离差。所以分负数说明在平均数左侧离差大于右侧离差。所以分布是不对称。布是不对称。第71页n若频数分布是对称于平均数,则三阶中心矩若频数分布是对称于平均数,则三阶中心矩等于等于0。n当曲线在大于平均数一侧有一个当曲线在大于平均数一侧有一个“长尾长尾”时时(图(图15A),
32、m3 0;正偏。正偏。n当曲线在小于平均数一侧有一当曲线在小于平均数一侧有一“长尾长尾”时时(图(图15B),m3 0。负偏。负偏。第72页m3 0m3 0第73页m3两个严重缺点两个严重缺点n(l)它单位为物理学单位立方,所以在不一样类型数据之间不易比较不易比较。n(2)因为它没有计算数据变异性质,所以没有一个绝正确含义没有一个绝正确含义。为了处理这一问题,制订了一个没有任何单位量。第74页第75页g1 0g1 0第76页n第二个度量曲线形状量是g2,称为峭度峭度(kurtosis)第77页不要求推导不要求推导。第78页了解了解第79页对于频数资料,可用类似计算标准差方法,将对于频数资料,可
33、用类似计算标准差方法,将中值中值编码编码后再计算。能够使用以下公式:后再计算。能够使用以下公式:了解了解第80页例例1.2“三尺三三尺三”株高分布株高分布g1和和g2。将表。将表1-3中中数据用数据用C157编码后,列成下表编码后,列成下表第81页g1和和 g2值与值与“正态正态”曲线值差异都不大。曲线值差异都不大。g1-0.105与正与正态态0很靠近,但稍微有些负偏。很靠近,但稍微有些负偏。g20.295略高于正态略高于正态0,即,即曲线峰略突起。所以二者均可被认为曲线峰略突起。所以二者均可被认为靠近靠近“正态正态”曲线。曲线。在做曲线形状判断时,必须是一个大样本,在做曲线形状判断时,必须是
34、一个大样本,g1 和和 g2 才才可靠。可靠。判断判断g1 时,样本含量最少要时,样本含量最少要200以上,以上,g2需需l000以以上。上。以上各阶矩都是由样本计算得到,所以称为样本矩以上各阶矩都是由样本计算得到,所以称为样本矩(sample moment)。)。第82页变异系数(变异系数(coefficient of variability,CV)n假若两组数据标准差相等,不过平均数不等,假若两组数据标准差相等,不过平均数不等,那么平均数大样本,比平均数小样本相对来那么平均数大样本,比平均数小样本相对来说更整齐。说更整齐。n为了客观地比较二者变异程度,引入为了客观地比较二者变异程度,引入变异系变异系数(数(coefficient of variability,CV)这一概念。这一概念。变异系数公式为:变异系数公式为:第83页第84页第85页第86页第87页第88页第89页第90页第91页第92页第93页第94页第95页第96页第97页第98页第99页第100页第101页第102页第103页第104页第105页第106页第107页第108页