资源描述
生物统计学的应用实验指导书
———————————————————————————————— 作者:
———————————————————————————————— 日期:
2
个人收集整理 勿做商业用途
目 录
前 言 2
Excel 在描述统计中的应用 2
Excel 在推断统计中的应用 6
实验一 常用计算方法及描述统计量分析 12
试验二 假设检验 17
试验三 方差分析 20
试验四 回归与相关分析 25
试验五 生物信息学研究与分析 27
练习作业 30
前 言
统计学是系统介绍有关如何测定、搜集、整理和分析客观现象总体数量特征的方法论科学。随着科学技术和社会经济的不断发展,统计学的应用领域也越来越广阔,特别是随着计算机科学的发展,基于大量数据处理的统计学在探求客观事物规律性方面越发显得重要,而统计学与计算机数据处理的结合也越来越紧密.
统计分析软件是数据分析的主要工具,完整的数据分析过程包括:数据的收集,数据的整理,数据的分析。统计学为数据分析过程提供一套完整的科学的方法论。统计软件为数据分析提供了实现手段。
统计分析软件的一般特点:功能全面,系统地集成了多种成熟的统计分析方法; 有完善的数据定义、操作和管理功能;方便地生成各种统计图形和统计表格;使用方式简单,有完备的联机帮助功能;软件开放性好,能方便地和其他软件进行数据交换。
常用统计软件简介:eviews是tsp(dos版)的windows版本,以界面的友善、使用的简单而著称,基本上操作是傻瓜式,但是非常实用,处理回归方程是它的长处,能处理一般的回归包括多元回归问题。因为没有用dos操作系统了,所以这个软件很少用。
SAS真正的巨无霸,被誉为国际上的标准统计软件和最权威的组合式优秀统计软件.但是图形操作界面比较糟糕,一切围绕编程设计;人机对话界面太不友好,学习起来较困难(要编程); 说明书非常难懂;价格贵的人直跳。
SPSS软件。这个软件的界面友好,使用简单,但是功能很强大,也可以编程,eviews能处理的它全能处理,另外横截面数据的处理是它的强项,能处理多变量问题,如进行因素分析、主成份分析、聚类分析、生存分析等。
matlab软件.这是一种工科软件,功能非常强大,在建筑、工程中使用比较多,做出来的图形能够用完美来形容,编程能力很强,不过用在统计上有点大才小用,编程也相对复杂.但是用做数学建模绝对是个好的工具。
EXCEL也能做一些简单直观的统计分析,如果已经安装宏的话还能做一些数值分析,也很实用。我们主要学习采用excel软件来处理相关实验数据。
Excel 在描述统计中的应用
在使用 Excel 进行数据分析时,要经常使用到 Excel 中一些函数和数据分析工具。其中,函数是 Excel预定义的内置公式.它可以接受被称为参数的特定数值,按函数的内置语法结构进行特定计算,最后返回一定的函数运算结果。例如,SUM 函数对单元格或单元格区域执行相加运算,PMT 函数在给定的利率、贷款期限和本金数额基础上计算偿还额。函数的语法以函数名称开始,后面是左圆括号、以逗号隔开的参数和右圆括号。参数可以是数字、文本、形如 TRUE 或 FALSE 的逻辑值、数组、形如 #N/A 的错误值,或单元格引用。给定的参数必须能产生有效的值。参数也可以是常量、公式或其它函数。
Excel还提供了一组数据分析工具,称为“分析工具库”,在建立复杂的统计分析时,使用现成的数据分析工具,可以节省很多时间。只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或数学函数,在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。如果要浏览已有的分析工具,可以单击“工具”菜单中的“数据分析”命令.如果“数据分析"命令没有出现在“工具”菜单上,则必须运行“安装”程序来加载“分析工具库".安装完毕之后,必须通过“工具"菜单中的“加载宏"命令,在“加载宏"对话框中选择并启动它。
一、描述统计工具
(一)简介:此分析工具用于生成对输入区域中数据的单变量分析,提供数据趋中性和易变性等有关信息。
(二)操作步骤:
1.用鼠标点击工作表中待分析数据的任一单元格。
2.选择“工具"菜单的“数据分析"子菜单。
3.用鼠标双击数据分析工具中的“描述统计”选项 。
4.出现“描述统计”对话框,对话框内各选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围。一般情况下Excel会自动根据当前单元格确定待分析数据区域.
分组方式:如果需要指出输入区域中的数据是按行还是按列排列,则单击“行”或“列”。
标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框;如果输入区域没有标志项,则不选任何复选框,Excel 将在输出表中生成适宜的数据标志。
均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。例如,置信度 95%可计算出的总体样本均值置信区间为10,则表示:在 5%的显著水平下总体均值的置信区间为(X—10,X +10)。
第 K 个最大/小值:如果需要在输出表的某一行中包含每个区域的数据的第 k 个最大/小值,则选中此复选框。然后在右侧的编辑框中,输入 k 的数值。
输出区域:在此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置.整个输出结果分为两列,左边一列包含统计标志项,右边一列包含统计值.根据所选择的“分组方式"选项的不同,Excel 将为输入表中的每一行或每一列生成一个两列的统计表。
新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始存放计算结果。如果需要给新工作表命名,则在右侧编辑框中键入名称。
新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。
汇总统计:指定输出表中生成下列统计结果,则选中此复选框。
这些统计结果有:平均值、标准误差、中值、众数、标准偏差、方差、峰值、偏斜度、极差(全距)最小值、最大值、总和、样本个数。
5.填写完“描述统计”对话框之后,按“确定"按扭即可。
(三)结果说明:描述统计工具可生成以下统计指标,按从上到下的顺序其中包括样本的平均值(),标准误差(),组中值(Medium),众数(Mode), 样本标准差(S),样本方差(S2), 峰度值,偏度值,极差(Max-Min),最小值(Min),最大值(Max),样本总和,样本个数(n)和一定显著水平下总体均值的置信区间。
二.直方图工具
(一)简介:直方图工具,用于在给定工作表中数据单元格区域和接收区间的情况下,计算数据的个别和累积频率,可以统计有限集中某个数直方图确定考试成绩的分布情况,它会给出考分出现在指定成绩区间的学生个数,而用户必须把存放分段区间的单元地址范围填写在在直方图工具对话框中的“接收区域”框中。
(二)操作步骤:
1.用鼠标点击表中待分析数据的任一单元格.
2.选择“工具”菜单的“数据分析"子菜单。
3.用鼠标双击数据分析工具中的“直方图”选项 .
4.出现“直方图”对话框,对话框内主要选项的含义如下:
输入区域:在此输入待分析数据区域的单元格范围.
接收区域(可选):在此输入接收区域的单元格范围,该区域应包含一组可选的用来计算频数的边界值。这些值应当按升序排列.只要存在的话,Excel 将统计在各个相邻边界直之间的数据出现的次数。如果省略此处的接收区域,Excel 将在数据组的最小值和最大值之间创建一组平滑分布的接收区间。
标志:如果输入区域的第一行或第一列中包含标志项,则选中此复选框;如果输入区域没有标志项,则清除此该复选框,Excel 将在输出表中生成适宜的数据标志。
输出区域:在此输入结果输出表的左上角单元格的地址.如果输出表将覆盖已有的数据,Excel 会自动确定输出区域的大小并显示信息。
柏拉图:选中此复选框,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel 将只按升序来排列数据。
累积百分比:选中此复选框,可以在输出结果中添加一列累积百分比数值,并同时在直方图表中添加累积百分比折线。如果清除此选项,则会省略以上结果。
图表输出:选中此复选框,可以在输出表中同时生成一个嵌入式直方图表。
5.按需要填写完“直方图”对话框之后,按“确定”按扭即可。
(三)结果说明:完整的结果通常包括三列和一个频率分布图,第一列是数值的区间范围,第二列是数值分布的频数,第三列是频数分布的累积百分比。
三、利用Excel绘制散点图
(一)简介:散点图是观察两个变量之间关系程度最为直观的工具之一,利用Excel 的图表向导,可以非常方便的创建并且改进一个散点图,也可以在一个图表中同时显示两个以上变量之间的散点图。
(二)操作步骤: 数据如图附-3所示,
可按如下步骤建立变量x-y,x-z 的散点图:
1.拖动鼠标选定数值区域A2:C12,不包括数据上面的标志项。
2.选择“插入”菜单的“图表”子菜单,进入图表向导。
3.选择“图表类型”为“散点图”,然后单击“下一步".
4.确定用于制作图表的数据区。Excel 将自动把你前面所选定的数据区的地址放入图表数据区的内。
5. 在此例之中,需要建立两个系列的散点图,一个是 x-y 系列的散点图,一个是 x—z 系列的散点图,因此,必须单击“系列”标签,确认系列1的“X值”方框与“数值方框”分别输入了 x,y数值的范围,在系列2的“X值”方框与“数值方框”分别输入了 x,z数值的范围.在此例中,这些都是 Excel 已经默认的范围,所以,可忽略第 5 步,直接单击“下一步”即可.
6。 填写图表标题为“X—Y 与X-Z散点图",X轴坐标名称为“X”与 Y轴坐标名称“Y/Z”,单击“下一步”。
7。 选择图表输出的位置,然后单击“完成"按扭即生成图附—4的图表。
(三)结果说明:如图附-4 所示,Excel 中可同时生成两个序列的散点图,并分为两种颜色显示。通过散点图可观察出两个变量的关系,为变量之间的建立模型作准备。
四、数据透视表工具
(一)简介:数据透视表是 Excel 中强有力的数据列表分析工具。它不仅可以用来作单变量数据的次数分布或总和分析,还可以用来作双变量数据的交叉频数分析、总和分析和其它统计量的分析。
(二)操作步骤:如图附—5所示,表中列出学生两门功课评定结果,
可按如下步骤建立交叉频数表:
1. 选中图附—5 中表格中有数据的任一单元格,然后选择“数据"菜单的“数据透视表”子菜单,进入数据透视表向导.
2. 选择“Microsoft Excel 数据清单或数据库”为数据源.单击“下一步”。
3. 选择待分析的数据的区域,一般情况下Excel会自动根据当前单元格确定待分析数据区域,因此你只要直接单击“下一步”按扭即可。
4. 确定数据透视表的结构,在此例中,要建立的是一个交叉频数表,分别按语文和数学的成绩对学生的人数进行交叉频数分析,因此可按图附—6将三个按扭“学号”、“语文"、“数学”分别拖放到表格的指定部位,并且双击“求和项:学号”,将其改为记数项,结果如图附—6所示,然后单击“下一步"按扭。
图 附-6
5.选择数据透视表的显示位置之后,单击“完成按扭",可出现如图附—7所示的数据透视表。
图 附-7
(三)结果说明:如图附-7 的结果所示,数据透视表可以作为一个交叉频数分析工具. 完成数据透视表之后,可按需要修改数据表的显示格式。例如,如果想要把表格中的频数替换成为百分比数。可以用鼠标右击频数的任一单元格,选择“字段”子菜单,单击“选项”按扭,将“数据显示方式”替换成为“占总和的百分比”,然后单击“确定”按扭即可。按同样方式,可将数据透视表修改成为其它不同样式。
五、排位与百分比工具
(一)简介:此分析工具可以产生一个数据列表,在其中罗列给定数据集中各个数值的大小次序排位和相应的百分比排位。用来分析数据集中各数值间的相互位置关系。
(二)操作步骤:
1.用鼠标点击表中待分析数据的任一单元格。
2.选择“工具”菜单的“数据分析”子菜单。
3.用鼠标双击数据分析工具中的“排位与百分比"选项 .
4.填写完“排位与百分比”对话框,单击“确定”按扭即可。
(三)结果说明:输出的结果可分为四列,第一列“点”是数值原来的存放位置,第二列是相应的数值,第三列是数值的排序号,第四列是数值的百分比排位,它的计算方法是:小于该数值的数值个数/(数值总个数—1)。
Excel 在推断统计中的应用
一、由样本推断总体
(一)简介:利用 Excel 的几个函数,如求平均函数 AVERAGE、标准差函数 STDEV、T 分布函数 TINV等的组合使用可以构造出一个专门用于实现样本推断总体的 Excel 工作表。以下例子先计算样本的平均数和标准差,然后在一定置信水平上估计总体均值的区间范围。
(二)操作步骤:
1.构造工作表.如图附-13所示,首先在各个单元格输入以下的内容,其中左边是变量名,右边是相应的计算公式.
2。 为表格右边的公式计算结果定义左边的变量名。选定 A4:B6,A8:B8和 A10:B15 单元格(先选择第一部分,再按住 CTRL 键选取另外两个部分),选择“插入"菜单的“名称”子菜单的“指定”选项,用鼠标点击“最左列”选项,然后点击“确定”按扭即可。
3。 输入样本数据,和用户指定的置信水平 0.95,如图附-13所示。
4. 为样本数据命名。选定 D1:D11 单元格,选择“插入"菜单的“名称”子菜单的“指定”选项,用鼠标点击“首行”选项,然后点击“确定”按扭,得到图附-14所示的计算结果.
图 附-13
(三)结果说明:以上例子说明如何交叉组合使用 Excel 的公式和函数,以构造出一个能实现样本推断总体有关计算的 Excel 工作表。实际上,在用 Excel 进行数据统计处理之时,许多统计功能可以使用和上例类似的方法,通过组合使用Excel的各类统计函数和公式加以实现的。
图 附—14
二、假设检验
(一)简介:假设检验是统计推断中的重要内容。以下例子利用 Excel 的正态分布函数 NORMSDIST、判断函数 IF 等,构造一张能够实现在总体方差已知情况下进行总体均值假设检验的 Excel 工作表。
(二)操作步骤:
1.构造工作表。如图附—15所示,首先在各个单元格输入以下的内容,其中左边是变量名,右边是相应的计算公式.
2. 为表格右边的公式计算结果定义左边的变量名。选定 A3:B4,A6:B8,A10:A11,A13:A15和 A17:B19 单元格,选择“插入”菜单的“名称”子菜单的“指定”选项,用鼠标点击“最左列"选项,然后点击“确定”按扭即可。
3.输入样本数据,以及总体标准差、总体均值假设、置信水平数据。如图附-16所示。
4.为样本数据命名。选定C1:C11单元格,选择“插入”菜单的“名称”子菜单的“指定"选项,用鼠标点击“首行”选项,然后点击“确定"按扭,得到如图附—16中所示的计算结果。
图 附—15
图 附-16
(三)结果说明:如图附-16 所示,该例子的检验结果不论是单侧还是双侧均为拒绝 Ho 假设.所以,根据样本的计算结果,在 5%的显著水平之下,拒绝总体均值为 35 的假设。同时由单侧显著水平的计算结果还可以看出,在总体均值是 35 的假设之下,样本均值小于等于 31.4 的概率仅为0。020303562.
三、双样本等均值假设检验
(一)简介:双样本等均值检验是在一定置信水平之下,在两个总体方差相等的假设之下,检验两个总体均值的差值等于指定平均差的假设是否成立的检验。我们可以直接使用在Excel 数据分析中提供双样本等均值假设检验工具进行假设检验。以下通过一例说明双样本等均值假设检验的操作步骤.例子如下,某工厂为了比较两种装配方法的效率,分别组织了两组员工,每组 9人,一组采用新的装配方法,另外一组采用旧的装配方法.18个员工的设备装配时间图附-17中表格所示.根据以下数据,是否有理由认为新的装配方法更节约时间?
(二)操作步骤:以上例子可按如下步骤进行假设检验。
1. 选择“工具”菜单的“数据分析”子菜单,双击“t-检验: 双样本等方差假设"选项,则弹出图附-18 所示对话框.
2。 分别填写变量 1 的区域:$B$1:$B$10,变量 2 的区域:$D$1:$D$10,由于我们进行的是等均值的检验,填写假设平均差为 0,由于数据的首行包括标志项选择标志选项,所以选择“标志”选项,再填写显著水平α为 0.05,然后点击“确定”按扭。则可以得到图附-19所示的结果.
(三)结果分析:如图附-19中所示,表中分别给出了两组装配时间的平均值、方差和样本个数。其中,合并方差是样本方差加权之后的平均值,Df 是假设检验的自由度它等于样本总个数减 2,t统计量是两个样本差值减去图 附—19 假设平均差之后再除于标准误差的结果,“P(T<=t)单尾"是单尾检验的显著水平,“t 单尾临界”是单尾检验 t 的临界值,“P(T<=t)双尾”是双尾检验的显著水平,“t 双尾临界”是双尾检验 t 的临界值。由下表的结果可以看出 t 统计量均小于两个临界值,所以,在 5%显著水平下,不能拒绝两个总体均值相等的假设,即两种装配方法所耗时间没有显著的不同.
假设平均差之后再除于标准误差的结果,“P(T〈=t)单尾”是单尾检验的显著水平,“t 单尾临界"是单尾检验 t 的临界值,“P(T〈=t)双尾”是双尾检验的显著水平,“t 双尾临界”是双尾检验 t 的临界值。由下表的结果可以看出 t 统计量均小于两个临界值,所以,在 5%显著水平下,不能拒绝两个总体均值相等的假设,即两种装配方法所耗时间没有显著的不同。
Excel中还提供了以下类似的假设检验的数据分析工具,它们的名称和作用如下:
1. “t-检验:双样本异方差假设” :此分析工具可以进行双样本student t-检验,与双样本等方差假设检验不同,该检验是在两个数据集的方差不等的前提假设之下进行两总体均值差额的检验,故也称作异方差 t—检验。可以使用 t-检验来确定两个样本均值实际上是否相等。当进行分析的样本个数不同时,可使用此检验。如果某一样本组在某次处理前后都进行了检验,则应使用“成对检验".
2. “t—检验:成对双样本均值分析" :此分析工具可以进行成对双样本学生氏 t-检验,用来确定样本均值是否不等。此 t-检验并不假设两个总体的方差是相等的。当样本中出现自然配对的观察值时,可以使用此成对检验,例如,对一个样本组进行了两次检验,抽取实验前的一次和实验后的一次。
3. “z — 检验:双样本均值分析” :此分析工具可以进行方差已知的双样本均值 z - 检验。此工具用于检验两个总体均值之间存在差异的假设。例如,可以使用此检验来确定两种汽车模型性能之间的差异情况.
四、线性回归分析
(一)简介:线性回归分析通过对一组观察值使用“最小二乘法"直线拟合,用来分析单个因变量是如何受一个或几个自变量影响的。例子如图附—34所示,表中是我国 1987年至1997 年的布匹人均产量和人均纱产量,试用线性回归分析的方法分析两组数据之间的关系。
(二)操作步骤
1.选择“工具”菜单的“数据分析”子菜单,双击“回归"选项,弹出回归分析对话框。其中主要选项的含义如下:Y 值输入区域,在此输入对因变量数据区域,该区域必须由单列数据组成;X 值输入区域,在此输入对自变量数据区域,Excel 将对此区域中的自变量从左到右按升序排列,自变量的个数最多为 16;置信度,如果需要在汇总输出表中包含附加的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度,95%为默认值;常数为零,如果要强制回归线通过原点,则选中此复选框;输出区域,在此输入对输出表左上角单元格的引用。汇总输出表至少需要有七列的宽度,包含的内容有anova 表、系数、y 估计值的标准误差、r2 值、观察值个数,以及系数的标准误差;新工作表,单击此选项,可在当前工作簿中插入新工作表,并由新工作表的 A1 单元格开始粘贴计算结果,如果需要给新工作表命名,则在右侧的编辑框中键入名称;新工作簿,单击此选项,可创建一新工作簿,并在新工作簿中的新工作表中粘贴计算结果;残差,如果需要以残差输出表的形式查看残差,则选中此复选框;标准残差,如果需要在残差输出表中包含标准残差,则选中此复选框;残差图,如果需要生成一张图表,绘制每个自变量及其残差,则选中此复选框;线形拟合图,如果需要为预测值和观察值生成一个图表,则选中此复选框;正态概率图,如果需要绘制正态概率图,则选中此复选框。 个人收集整理,勿做商业用途个人收集整理,勿做商业用途
2. 按如下方式填写对话框:X 值输入区域为$B$1:$B$12, Y 值输入区域为$C$1:$c$12, 并选择“标志”和“线性拟合图”两个复选框,然后单击“确定”按扭即可.
(三)结果分析
按照如上的操作步骤即可得到图附—35下表的计算结果。结果可以分为四个部分,第一部分是回归统计的结果包括多元相关系数、可决系数 R2、调整之后的相关系数、回归标准差以及样本个数。第二部分是方差分析的结果包括可解释的离差、残差、总离差和它们的自由度以及由此计算出的 F统计量和相应的显著水平。第三部分是回归方程的截距和斜率的估计值以及它们的估计标准误差、t统计量大小双边拖尾概率值、以及估计值的上下界。根据这部分的结果可知回归方程为Y=8。46433*X-18。288.第四部分是样本散点图,其中蓝色的点是样本的真实散点图,红色的点是根据回归方程进行样本历史模拟的散点。如果觉得散点图不够清晰可以用鼠标拖动图形的边界达到控制图形大小的目的。用相同的方法可以进行多元线性方程的参数估计,还可以在自变量中引入虚拟变量以增加方程的拟合程度。对于非线性的方程的参数估计,可以在进行样本数据的线性化处理之后,再按以上步骤进行参数估计。
五、相关系数分析工具
(一)简介:此分析工具可用于判断两组数据之间的关系。可以使用“相关系数”分析工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正相关);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负相关);还是两个集合中的数据互不相关(相关系数为零).
(二)操作步骤:采用图附-3表中的数据,可按如下步骤计算变量x,y,z之间的相关系数。
1. 用鼠标点击表中待分析数据的任一单元格。
2. 选择“工具”菜单的“数据分析"子菜单。
3. 用鼠标双击数据分析工具中的“相关系数”选项 。
4. 填写完“相关系数”对话框,单击“确定”按扭即可得到各个变量的相关系数矩阵,结果如图附—36 所示。
(三)结果说明:以上下三角矩阵计算出三个变量 x,y,z 两两之间的相关系数,如变量 x,y之间的相关系数为:0。929167,所以可以判断 x,y之间存在着较高的正线性相关关系.实验部分
实验一 常用计算方法及描述统计量分析
实验目的:了解相关统计软件,掌握用EXCEL和SPSS等软件计算描述统计量并作统计分析图。
一、用EXCEL软件实现统计描述
【相关软件介绍,见前面内容(略),上机演示,学生练习.】
二、用EXCEL中的数据分析工具计算描述统计量的具体步骤:
1、选择“工具”下拉菜单
2、选择“数据分析”选项
3、在分析工具中选择“描述统计"
4、当出现对话框时
在“输入区域"方框内键入A1:A50
在“输出选项”中选择输出区域(在此选择“新工作表”)
选择“汇总统计"(该选项给出全部描述统计量)
选择“确定"
三、用SPSS软件实现统计描述
四、用EXCEL作频数分布表和图形的步骤:
一)、直方图:
1、在第一列中输入全部分析数据
2、选择“工具"下拉菜单
3、选择“数据分析"选项
4、在分析工具中选择“直方图”
5、当出现对话框时
在“输入区域”方框内键入B2:B101
在“接收区域”:C14
在“输出区域”方框内键入E3
选择“累计百分率”
选择“图表输出"
选择“确定"
二)、箱体图:
步骤1:准备要绘图原始数据于Excel工作表上[A1:C11]
A
B
C
1
no
Y1
Y2
2
1
15.63
17.22
3
2
17。44
18。19
4
3
17。83
20。71
5
4
19。40
21。70
6
5
19.53
22.54
7
6
20.49
22。76
8
7
22。19
22。91
9
8
22.40
23.07
10
9
22。55
23。82
11
10
23。47
25。50
步骤二:制作绘制Boxplot所需数据组,工作表上[A13:C18],注意顺序内容不可更改
A
B
C
13
统计量
Y1
Y2
14
Q1
18。22
20.96
15
Q0
15。63
17。22
16
Q2
20。01
22。65
17
Q4
23。47
25。50
18
Q3
22。35
23。03
表中Q0~Q4的Q为四分位数,0~4分别代表第0~4分位数,可用函数求得,如Y1的Q0~Q4如表所示
Q1
第1分位数
第25%点值
=Quartile(B2:B11, 1)
Q0
第0分位数
第0点值(最小值)
=Quartile(B2:B11, 0)
Q2
第2分位数
第50%点值(中位值)
=Quartile(B2:B11, 2)
Q4
第4分位数
第100%点值(最大值)
=Quartile(B2:B11, 4)
Q3
第3分位数
第75%点值
=Quartile(B2:B11,3)
步骤三:开始制作绘制Boxplot
1 选取 [B13:C18]
2 点 [图表向导] 选 [折线图] 的第一个折线图(不要数据点,通常默认为数据点折线图),
点[下一步],在[数据区域]卷标下,自 [系列产生在] 点 [行] ←重点
3 进入图表选项后取消勾选 [网络线],取消勾选 [图例] 后完成[图表向导],此图表显示五条线
4 用鼠标点图中的任一线后取右键,叫出 [数据系列格式],在 [选项] 卷标下,勾选 [高低点连线] 与 [涨/跌柱线],此后原为灰色的 [分类间距] 变黑,内有数字默认为150,不必更动 (有需要时可变更此数改变箱线图的箱宽),点击 [确定] 后就会出现箱线图。
步骤四:开始润饰Boxplot 图
此为 Excel 图表操作基本功夫故不详述,润饰内容
1 更改刻度为 15~28,主要刻度为 2。5
2 更改中位数的[数据标记]为『—』,因为无数据点的折线图看不到中位数,故需要让其显示,作法是点击联结Y1与Y2间五条线的中线(正常操作是黄色线),鼠标右键叫出 [数据点格式],在 [图案] 卷标下 [线形] 点 [无],[数据标记] 点 [自订义],[样式] 选『-』(较长横线),[前颜色] 请自订鲜艳颜色如蓝色,[大小] 取5 (最高14)
3 取消 Y1 与Y2间的4条连结线
练习:1、箱图制作
安慰剂
D10mg
D20mg
P25
2。32
2。21
2.23
P100
4.40
4.38
5.23
P0
1.10
1.26
1。12
P50
2。79
2.72
2。77
P75
3.35
3.22
3。49
2、误差条图
表 四种营养素喂养小白鼠三周后所增体重(g)
营养素
均数
标准差
A
33.90
8.69
B
54.68
9。65
C
59。82
11.25
D
75。66
16.66
3、雷达图
指标
医院1
医院2
医院3
治疗有效率%
88。1
93。6
94。0
重患收治率%
15.4
9.5
3.1
医疗制度执行率%
74。7
61.9
50.0
护理制度执行率%
54.7
27。4
20.0
膳食供应优良率%
41。3
34。0
20。0
病床使用率%
95.0
89。4
95.6
4、直方图,《生物统计学》书中例题,作业题2。9,练习题1和2。
试验二 假设检验
一、单样本假设检验
1、方差检验的计算方法
设H0:μ=μ0,且原始数据在A1:A20位置。
① 在空单元(设为B1)中输入公式:
“=Var(A1:A20)*19/σ0^2↙”
其中Var为EXCEL的内部函数,功能为求指定数据的方差.“↙”为回车键。
② 在B2格中输入:
“=Chidist(B1,19)"
这一步是计算统计量所对应的概率,相当于查表。注意函数Chidist返回的是单尾概率,而不是分布函数。
③ 将B2中数据与α比较来确定是否接受H0:
双边检验:若α/2〈B2<1—α/2,则接受H0,否则接受HA;
单边检验:若HA为σ>σ0:当B2>α时接受H0;
若HA为σ〈σ0:当B2<1—α时接受H0.
一般地,在实际应用中都是将上述步骤可通过一次输入如下公式来完成:
“=Chidist(Var(A1:A20)*19/σ0^2,19)↙"
注意:大小写没有区分.
2、均值检验方法
设H0:μ=μ0,且原始数据在A1:A20位置.
(1)总体方差σ0已知的情况
① 在空单元格(设为C1)中输入:
“=ZTEST(A1:A20,μ0,σ0)↙”
内部函数ZTEST可以直接算出u统计量所对应的单尾开率值。注意它返回的也是单尾概率,而不是分布函数。
② 仍按前面讲的比较B1与α的同样方法比较C1与α,并决定是否接受H0。
(2)总体方差σ0未知——t检验
① 在空单元格D1—D20中均匀填充上μ0。
② 在空单元格E1中输入:
“=TTEST(A1:A20,D1:D20,tails,1)↙”
其中tails为一参数,当进行单尾检验时,把它换成1;进行双尾检验时,换成2。最后的1也是一个参数,一般配对检验为1,方差相等为2,方差不等为3。
③ 把E1格中计算出来的值与α比较,E1>α时,接受H0。E1<α时,拒绝H0。
例1、已知某种玉米平均穗重μ0=300g,标准差σ=9。5g,喷药后,随机抽取9个果穗,重量分别为(单位g):308,305,311,298,315,300,321,294,320。问这种药对果穗重量是否有影响?
解:如表1-1,把果穗重原始数据填入A2:A10单元.
检验方差是否变化:在B4单元里输入:
“=Chidist(Var(A4:A12)*8/9.5^2,8)”
回车后显示数字0.414234,由于这一数字在0.025和0。975之间,因此接受H0,认为方差没有变化。
检验均值是否变化:
由于方差已知,可采用ZTEST,在B8中输入:
“=ZTEST(A2:A10,300,9.5)”
回车后显示数字0。005763.由于这一数字小于0。025,大于0。005,因此拒绝H0,喷药前后果穗重差异显著,但未达到极显著。
也可以当作方差未知,直接进行T检验:
在C2:C10单元格中填充数字300。
在D4单元格中输入:
“=TTEST(A2:A10,C2:C10,2,1)”
回车后显示数字0。037208,由于这一数字小于0.05,大于0。01,因此拒绝H0,喷药前后果穗重差异仍为显著,但未达到极显著水平。
表1—1 例1计算结果(μ0=300,σ0=9.5)
果穗重
308
300
305
Chi-test
300
T-test
311
0.414234
300
0。037208
298
300
315
300
300
Z—test
300
321
0。005763
300
294
300
320
300
二、双样本假设检验
1、方差检验的计算方法-F检验
原假设H0:σ=σ0 ,备择假设HA:σ≠σ0
假设两组数据分别位于A1:A10,B1:B10。
① 在空单元格C1中输入:
“=FTEST(A1:A10,B1:B10)↙"
注意FTEST返回的是双尾概率,因此可以直接与α比较。
② 比较:C1>α时,接受H0。C1〈α时,拒绝H0。
2、均值检验方法
(1)两总体方差已知——u检验
① 在空单元格D1中输入:
“=(AVERAGE(A1:A10)— AVERAGE(B1:B10))/
SQRT(σ12/count(A1:A10)+σ22/count(B1:B10))↙”
这一步计算统计量的值,用了以下几个函数:AVERAGE计算平均数;SQRT计算平方根;count计算指定区域中数字的个数。σ12,σ22应直接输入数值.
② 在D2中输入:
“=Normsdist(D1)↙"
③ 将D2的数值与α比较:
双边检验:若α/2<D2〈1—α/2,则接受,否则接受HA;
单边检验:上尾检验;若HA为μ1〉μ2:当D2〈1—α时接受H0;
下尾检验:若HA为μ1〈μ2:当D2>α时接受H0。
注意:由于Normsdist函数返回的是分布函数,而不是尾区概率,因此这里单边检验的接受域与使用Chidist和Ztest函数时正好相反。使用时请特别注意所用函数返回的到底是分布函数还是尾区概率,否则单边检验时很容易出错误。
(2)两总体方差未知
由于Ttest函数中已考虑了方差未知时的各种可能,因此使用中很方便,只需改变以下参数的取值就可以了。
① 在空格E1中输入:
“=TTEST(A1:A10,B1:B10,tails,type)↙”
其中tails为一参数,当进行单尾检验时,把它换成1;进行双尾检验时,换成2。type也是一个参数,一般配对检验为1,方差相等为2,方差不等为3。
使用时直接把参数换为相应的数值即可.由于函数返回的数值为尾区概率,因此可直接与α相比。
② 把E1的数值与α比较,E1>α时,接受,否则拒绝H0。
注意:单尾检验中不管两个均值谁大Ttest给出的概率都是相同的,因此在上尾检验(HA:μ1>μ2)中第一个样本均值偏小,或
展开阅读全文