收藏 分销(赏)

SAS备课重点笔记非参数检验.doc

上传人:w****g 文档编号:2954532 上传时间:2024-06-12 格式:DOC 页数:22 大小:632.54KB 下载积分:10 金币
下载 相关 举报
SAS备课重点笔记非参数检验.doc_第1页
第1页 / 共22页
SAS备课重点笔记非参数检验.doc_第2页
第2页 / 共22页


点击查看更多>>
资源描述
非参数检查 非参数记录分析办法(Non-parametric statistics)是相对参数记录分析办法而言,又称为不拘分布(distribution-free statistics)记录分析办法或无分布形式假定(assumption free statistics)记录分析办法。其中涉及Wilcoxon秩和检查、Kruskal-Wallis秩和检查、friedman秩和检查等,它们分别相应不同设计类型资料。SAS中对于非参数分析办法功能实现重要由npar1way过程来完毕,从过程名字就可以看出,在此过程解决进程中,只能一次指定一种因素进行分析。下面咱们先来理解一下npar1way过程语句格式以及各语句和选项基本功能。 一、npar1way过程语句格式简介 npar1way过程属于SASSTAT模块,对于记录学教科书上所涉及非参数记录办法几乎都可以通过此过程来完毕。Npar1way过程基本语句格式如下。 PROC NPAR1WAY <选项> ; BY 变量名; CLASS变量名; EXACT 记录量选项 </ 运算选项 > ; FREQ变量名; OUTPUT < OUT=数据集名 > < 选项 > ; VAR 变量名; RUN; QUIT;  Proc npar1way语句标志npar1way过程开始,默认状况下(不列举任何选项):npar1way过程对最新创立数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置差别进行检查(与选项WILCOXON,MEDIAN,SAVAGE以及VW等效),并进行经验分布函数检查(等同于EDF选项)。此语句后可用选项见下表。 Proc npar1way语句选项及其含义 选项名称 选项功能或含义 AB 运用Ansari-Bradley评分进行分析 DATA=数据集名 指定要进行分析数据集 MEDIAN 运用中位数评分进行分析,即进行中位数检查 NOPRINT 禁止所有输出,用在仅需要创立输出数据集时 ST 运用Siegel-Tukey评分进行分析 ANOVA 对原始数据进行方差分析 EDF 规定计算基于经验分布记录量 MISSING 指定分组变量缺失值为一有效分组水平 SAVAGE 运用Savage评分进行分析 VW 运用Van der Waerden评分进行分析计算 CORRECT=NO 在两样本时,禁止Wilcoxon和Siegel-Tukey检查持续性校正过程 KLOTZ 运用Klotz评分进行分析 MOOD 运用Mood评分进行分析 SCORES=DATA 以原始数据为评分值进行分析 WILCOXON 对两样本进行Wilcoxon秩和检查,对多样本进行Kruskal-Wallis检查 1. exact语句 exact语句规定SAS对指定记录量(选项)进行精准概率计算。其后记录量选项可为如下项目,分别相应相应记录计算方式(可参见上表)。 AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。 运算选项为精准概率计算过程指定某些控制项目,如选项“mc”规定以Monte Carlo办法计算精准概率。 2. output语句 output语句与其他过程中相应语句大同小异,不同之处在于语句最后选项。此处选项绝大多数涉及在上表中,指定在输出数据集中包括所指定项目所相应记录量。 3. var语句 var语句用以指定要进行分析变量,变量必要为数值型。若省略此语句,SAS将对除by语句、class语句以及freq语句中指定变量之外所有数值型变量进行分析。 二、不同类型资料非参数检查办法 1. 两独立样本差别秩和检查 两独立样本非参数检查是在对总体分布不理解状况下,通过度析样本数据,推断样本来自两个独立总体分布与否存在明显差别,普通来说是推断两个独立总体均值或中位数与否存在明显差别。关于样本与否为独立,重要看在一种总体中抽取样本对在另一种总体中抽取样本有无影响。如果没有影响,则可以以为这两个总体是独立。 零假设:样本来自两独立总体分布没有明显差别 检查办法有各种: (1)两独立样本威克逊级别和检查(Wilcoxon秩和检查),也被称为Mann-Whitney U检查。曼-惠特尼U检查(Mann-Whitney U),该检查重要是通过对平均秩研究来实现推断。其基本思路是:一方面,将两组样本数据和混合并按升序排序(m和n分别为两组样本样本容量,求出每个数据各自秩;然后,分别对和秩求平均,得到两个平均秩和,如果这两个平均秩相差甚远,则倾向于回绝零假设。 (2)两独立样本K-S检查(Kolmogorov—Smirnov Z),该检查一方面将两组样本混合并按升序排序;然后,分别计算两组样本秩合计频数和每个点上合计频率;最后,将两个合计频率相减,得到差值序列数据。 (3)沃尔德—沃尔福威茨游程检查(Wlad-Wolfwitz runs),该检查将两组样本混合并按升序排序,在数据排序同步,两组样本每个观测值相应样本组标志值序列也随之重新排列;然后,对这个标志值序列求游程。如果样本所属两总体分布形态存在较大差距,那么计算出游程数会相对比较小。如果游程数比较大,则应当是由于两样本数据充分混合成果,那么它们分布应当不存在明显差别。 【例1】下表为来自两个样本A、B测量数据,经检查知两样本方差不齐,试做非参数检查比较两组数据差别。 两独立样本A、B测量数据 A组 7 14 22 36 40 48 63 98 B组 3 5 6 10 17 18 20 39 【程序】对该资料,应选用Wilcoxon秩和检查(rank sum test)办法,编制SAS程序如下: data sasuser.data10_01;   do g=1 to 2;   input x@@;   output;   end;   datalines;   7 3 14 5 22 6 36 10   40 17 48 18 63 20 98 39   ; proc npar1way wilcoxon;   class g;   var x; run; 程序中因素“g”分组因素,“1”代表A组,“2”代表B组,“x”为待分析变量。Proc npar1way语句后选项“Wilcoxon”指定SAS进行Wilcoxon秩和检查。 【成果】 SAS给出两组数据基本信息(样本量、秩和等);给出在零假设下各组记录量(Sum of scores项)盼望值(Expected Under H0项)及原则差(Std Dev Under H0项),最后还给出以近似z检查以及近似t检查所得记录量和所相应单、双侧概率值。 此外,默认状态下,SAS同步给出Kruskal-Wallis检查成果。所不同是,在两样本量相似时,SAS以秩和较大者作为对象记录量进行概率值计算,而非医学记录学教材上所说以较小秩和为对象记录量。在两样本量不同步,SAS以样本量较小组秩和为对象记录量,这一点则与教材上相似。 如果去掉“wilcoxon”: data sasuser.data10_01; do g=1 to 2; input x@@; output; end; datalines; 7 3 14 5 22 6 36 10 40 17 48 18 63 20 98 39 ; proc npar1way; class g; var x; run; 则SAS给出因此办法执行成果: 【例2】为了鉴别新旧两种生产办法对生产效率影响,随机抽取了22人用旧生产办法生产,25人用新生产办法生产,每人平均日产量(件)资料如下: 旧办法:20 31 27 18 10 26 39 45 41 24 22 23 14 11 32 37 40 46 49 55 54 19 新办法:36 39 31 25 26 28 20 21 24 21 58 55 56 41 37 49 44 40 12 16 15 24 23 28 11 问两种办法对日产量影响有无明显差别()? 【数据摆放】 【程序】 proc npar1way data=sasuser.data10_02 wilcoxom; class g; var x; run; 【运营成果】 【例3】用某药治疗不同病情老年慢性支气管炎病人,疗效见下表,比较该药对两种病情疗效。 某药对两种不同病情支气管炎疗效 疗效 单纯型 单纯型合并肺气肿 控制 65 42 显效 18 6 有效 30 23 近控 13 11 【程序】对于此例,将疗效当作待分析变量x,从“控制”到“近控”分别对其赋值1、2、3、4,病情则作为分组因素,同步需引入一种频度因素f,以代表不同取值状态下x频数。编制程序如下: data sasuser.data10_03;   do x=1 to 4;     do g=1 to 2;    input f@@;    output;    end;   end;   datalines;   65 42 18 6 30 23 13 11   ; proc npar1way wilcoxon;   class g;   var x;   freq f; run; 【成果】程序和前例基本相似,只依照资料特点增长了freq语句。提交程序,运营成果如下。 2. 配对设计资料秩检查 配对设计资料普通采用配对t检查办法进行分析,但若配对数据差数分布非正态分布,但其总体分布基本对称,则可采用Wilcoxon符号秩检查(signed rank test)作为配对t检查代替办法。Wilcoxon符号秩检查功能很高,在数据满足配对t检查规定期,符号秩检查功能可达配对t检查功能95%。 SAS中符号检查(sign test)和符号秩检查功能不是在npar1way过程中实现,而是通过univariate过程来实现。也许由于这两项功能涉及是关于单变量分析缘故。 【例4】采用配对设计,用某种放射线A,B两种方式分别局部照射家兔两个部位,观测放射性急性皮肤损伤限度,成果见下表。试用符号秩检查比较A,B损伤限度与否不同。 家兔皮肤损伤限度 编号 方式A 方式B 1 39 55 2 42 54 3 51 55 4 43 47 5 55 53 6 45 63 7 22 52 8 48 44 9 40 48 10 45 55 11 40 32 12 49 57  【程序】 data sasuser.data10_4;   input x1 x2;   d=x1-x2;   datalines;   39 55   42 54   51 55   43 47   55 53   45 63   22 52   48 44   40 48   45 55   40 32   49 57   ; proc univariate loccount;   var d; run; 此例中,咱们须对两次测得数据差值进行单变量分析,因此数据步中用到赋值语句“d=x1-x2;”。Univariate过程在默认状态下即给出关于待分析变量符号检查以及符号秩检查成果,“proc univariate”语句后“loccount”选项指定SAS给出样本数据在系统指定位置参数(默认值为0)两侧分布状况,即相称于对符号检查成果进一步描述。 提交执行以上程序,成果如下。             此成果人们应当比较熟悉(删去了别的关于参数检查某些),注意标有“Tests for Location:Mu0=0”某些,即为咱们所要成果,其中第一行为参数检查t检查成果,后两行则分别为符号检查以及符号秩检查分析成果。标有“Location Counts:Mu0=0.00”某些是关于样本分布状况描述,本例为3个受试对象差值不不大于零,9个不大于零。 人们需要注意,这里符号秩检查计算所得秩和与咱们在教科书上看到成果不同(教科书上计算记录量即秩和T=10),应是所根据算法不同所致,但所得P值是相似,不会影响分析成果。 【例5】有两家公司设计了她们自已智商测验办法,一位心理学家随机地选用13个人同步接受这两种测验办法,成果如下表所示。试在0.05明显水平下,检查与否可宣称这两种办法无明显差别。 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 办法一 98 94 111 102 108 105 92 88 100 99 125 117 92 办法二 105 103 113 98 112 109 97 95 107 103 104 106 93 【数据摆放】 【程序】 【成果】 检查办法简介: 1. 符号检查(Sign),该办法运用正、负符号个数多少来进行检查。一方面,将第二组样本各个观测值减去第一组样本相应观测值,如果得到差值是一种正数,则记为正号;差值为负数,则记为负号;然后计算正号个数和负号个数,通过比较正号个数和负号个数来判断两组样本分布。如果正号个数和负号个数大体相称,则可以以为两有关样本数据分布差距较小;正号个数和负号个数相差较多,可以分为两有关样本数据分布差距较大。符号检查得名于其资料是用加减号而不是用定量度量。它对于那些不能或不适当用定量测量而能将每一对两个成员分出级别问题研究特别有用。 2. 符号平均秩检查(Wilcoxon),该检查一方面按照符号检查办法,将第二组样本各个观测值减去第一组样本相应观测值,如果得到差值是一种正数,则记为正号;差值为负数,则记为负号,同步保存差值绝对值数据;然后将绝对差值数据按升序排序,并求出相应秩;最后分别计算正号秩总和、负号秩总和以及正号平均秩和负号平均秩。如果正号平均秩和负号平均秩大体相称,则可以以为两有关样本数据正负变化限度基本相称,分布差距较小。Wilcoxon检查在行为科学研究中应用极为广泛。 3. 完全随机设计多组数据分布位置差别秩和检查 这一某些内容相称于参数检查中方差分析,根据办法是Kruskal-Wallis秩和检查,此办法基本思想与Wilcoxon秩和检查基本相似,都是基于各组混合编秩后,各组秩和应相等假设。两者不同点就在于Kruskal-Wallis秩和检查是针对多组(不不大于2)数据分析,而Wilcoxon秩和检查则只用于对两组数据比较。 【例6】 为研究精氨酸对小鼠截肢后淋巴细胞转化功能影响,将21只小鼠分等提成3组:A组为对照,B组为截肢组,C组为截肢加精氨酸治疗组。观测脾淋巴细胞对HPA刺激增值反映,测量指标是3H吸取量(cpm),数据如下表所示,试分析各组测量值与否不同。 脾淋巴细胞对HPA刺激增值反映(测量指标 3H吸取量cpm) A组 B组 C组 3012 2532 8138 9458 4682 2073 8419 2025 1867 9580 2268 885 13590 2775 6490 12787 2884 9003 6600 1717 0 医学记录学教科书上对于此类资料分析办法简介虽与两组数据比较办法有所区别,记录量计算办法和成果也各不相似,但在SAS中,对这两类资料进行分析操作过程却是基本相似,人们可以从相应SAS程序中看到这一点。 【SAS程序】 data sasuser.data10_06;   do n=1 to 7;    do g=1 to 3;     input x@@;    output;    end;   end;   datalines;   3012 2532 8138   9458 4682 2073   8419 2025 1867   9580 2268 885   13590 2775 6490   12787 2884 9003   6600 1717 0   ; proc npar1way wilcoxon;   class g;   var x; run; 【成果】 第一某些是“Wilcoxon Scores (Rank Sums) for Variable x”,第二某些是“Kruskal-Wallis Test”秩和检查分析成果,而P值计算这里所根据是卡方分布。   【例7】假设有个地区领导想要比较该地区四个村各户人均年收入水平,于是在这四个村中随机抽取样本,计算各户人均收入,得到下表中24个数据。分析这四个村年收入与否存在明显差别。(α=0.05) 四个村六户人家年收入水平 村1 768 952 870 940 1003 500 村2 996 896 785 875 936 1200 村3 789 759 752 658 635 800 村4 892 698 651 678 895 925 【程序】 proc npar1way data=sasuser.data10_07 wilcoxon; class g; var income; run; 【成果】 三、几条重要提示 1. Npar1way过程对于缺失值(missing value)解决 如果缺失值出当前反映变量(var语句指定变量),npar1way过程会将该条记录排除在分析之外。 默认状况下,npar1way过程也会将分类变量中浮现缺失值记录排除出分析过程。如果指定选项“missing”,npar1way过程则将分类变量中浮现缺失值当作一种单独水平进行解决。 对于by语句中指定变量,缺失值将被默认地当作一种独立水平进行解决。 对于freq语句中指定变量,浮现缺失值记录一定会被排除出分析过程。 2. npar1way过程对于同秩(ties)问题解决方式 Npar1way过程解决同秩问题方式在任何一种非参数检查办法中均相似,即无论相似秩次记录出当前同一组或不同组中,均给它们分派相应平均秩次,再依照这些平均秩次进行各种计算,跟教科书上简介办法同样。 npar1way过程对于此问题解决到此为止,不像教科书上简介那样对计算所得记录量再进行某种校正。对于相似秩次浮现较少数据,这一点对分析成果影响不大,但对于同秩现象较多数据,分析成果偏差就不容忽视,特别是对于那些近似检查来说更是如此。解决这一问题抱负办法就是计算精准概率,npar1way过程提供了实现这一功能途径,即exact语句。 均值比较办法与程序 检查法 独立组 配对组 参数检查 独立样本t检查 相应程序: Proc ttest (data=数据集); Class 分组变量名; Var 因变量名; Run; 配对差值t检查 相应程序: Dif=m-f Proc univariate (data=数据集); Var 因变量名(Dif); Run; 非参数检查 Wilxonxon秩和检查 相应程序: Proc npar1way (data=数据集) Wilcoxon; Class 分组变量名; Var 因变量名; Run; Wilxonxon秩和检查 相应程序: Dif=m-f Proc univariate (data=数据集); Var 因变量名(Dif); Run; 某瓶装纯净水厂商生产产品标称净含量为600ml,现质量监督管理部门对该产品与否合格进行抽检,得到表5-1所示抽检数据(详见Water.sas7bdat)。试依照抽检成果对该产品质量进行评价。 proc univariate data=sasuser.water mu0=600; var Net; run; 某调查公司在某项调查中收集到76个观测值样本数据(详见KS.sas7bdat)。试分析该数据总体分布是何种分布。 proc univariate data=sasuser.KS noprint; var Observed; histogram /noplot nornal(mu=est sigma=est) lognormal(zeta=est sigma=est theta=est) exponential(sigma=est theta=est) weibull(sigma=est c=est theta=est); run;【练习1】某个厂家在生产过程中需要使用某种原材料,有两个供货商所报价格有差别,但都称其提供原材料可以达到生产厂家技术指标。随机抽取这两个供货商产品,实验得到其技术参数,数据如下表所示。问这两个供货商提供产品与否有明显差别(α=0.05)? 两个供应商提供原料技术指标 供应商1 59 69 75 63 67 58 71 70 54 65 供应商2 69 64 65 73 65 68 78 75 56 67 (两独立样本非参数检查) 【程序】 proc npar1way data=sasuser.data10_08 wilcoxon; class g; var x; run; 【成果】 【练习2】某省跳高队采用一种新训练办法训练运动员,训练先后成绩如下表,问这种新训练办法能否明显提高运动员跳高水平(α=0.05)? 运动员训练先后成绩 训练前 1.78 1.92 1.89 1.96 1.85 1.79 1.85 1.89 1.90 训练后 1.80 1.92 1.95 1.99 1.89 1.97 1.95 1.90 2.00 (两配对样本非参数检查) 【程序】 proc univariate data=sasuser.data10_09 loccount; var d; run; 【成果】 【练习3】问三个不同厂家生产灯泡使用寿命与否存在明显差别(α= 0.05)。随机抽取三个厂家生产灯泡若干,实验得到使用寿命,数据如下表所示。 灯泡寿命 厂家 灯泡寿命 厂家 灯泡寿命 厂家 675 1 649 2 689 3 682 1 680 2 682 3 691 1 630 2 634 3 670 1 650 2 655 3 650 1 646 2 666 3 693 1 651 2 667 3 650 1 620 2 656 3 (各种独立样本非参数检查) 【程序】 proc npar1way data=sasuser.data10_10 wilcoxon; class g; var x; run; 【成果】
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服