收藏 分销(赏)

统计分析系统sas03学习教案.pptx

上传人:胜**** 文档编号:10293568 上传时间:2025-05-18 格式:PPTX 页数:53 大小:470.67KB 下载积分:8 金币
下载 相关 举报
统计分析系统sas03学习教案.pptx_第1页
第1页 / 共53页
统计分析系统sas03学习教案.pptx_第2页
第2页 / 共53页


点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,#,单击此处编辑母版标题样式,会计学,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,会计学,1,统计分析系统(xtng)sas03,第一页,共53页。,计算中心(j sun zhn xn),数据(shj)步语句,选择语句(yj),SELECT(选择表达式);,WHEN(值列表)语句(yj);,WHEN(值列表)语句(yj);,OTHERWISE 语句(yj);,END;,第1页/共53页,第二页,共53页。,计算中心(j sun zhn xn),数据(shj)步语句,其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表(li bio)”为一项或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。,“语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和值列表(li bio)中的所有值,然后把选择表达式值由前向后与值列表(li bio)中的值相比,发现相等值则执行对应的语句,然后退出SELECT结构(不再查看后面的值列表(li bio)).,如果选择表达式的值不等于任何值列表(li bio)中的值则执行OTHERWISE对应的语句,这种情况下没有OTHERWISE语句会出错。,第2页/共53页,第三页,共53页。,计算中心(j sun zhn xn),数据(shj)步语句,选择语句的另一种形式,SELECT;,WHEN(条件)语句;,WHEN(条件)语句;,OTHERWISE 语句;,END;,这种SELECT语句没有(mi yu)选择表达式,而是在每一个 HEN语句指定一个条件(逻辑表达式),执行第一个满足条件的WHEN后的语句,如果所有条件都不满足则执行OTHERWISE后的语句。,第3页/共53页,第四页,共53页。,计算中心(j sun zhn xn),数据(shj)步语句,SELECT;,WHEN(age=12)put 少年(shonin);,WHEN(age=5;,Run;,第16页/共53页,第十七页,共53页。,计算中心(j sun zhn xn),FREQ过程(guchng),Proc freq data=数据集名 选项;,tables 变量名列表/选项;,Run;,Tables语句(yj)中的选项:,nocum不要累计的频数和百分数,nopercent-不要百分数和累计的百分数,Proc freq语句(yj)中的选项:,order=internal-按变量值排序,freq-按频数降序排序,data-按数据集中的值的次序排序,formatted-按变量格式化的值排序,第17页/共53页,第十八页,共53页。,计算中心(j sun zhn xn),MEANS过程(guchng),PROC MEANS DATA=;,VAR;,BY;,CLASS;,RUN;,第18页/共53页,第十九页,共53页。,计算中心(j sun zhn xn),可以计算的描述性统计(tngj)量关键字及其含义见下表,关键字,所代表的含义,关键字,所代表的含义,n,有效数据记录数,range,极差,nmiss,缺失数据记录数,skewness,偏度,mean,均值,kurtosis,峰度,std,标准差,t,分布位置假设检验之,t,统计量,stderr,标准误,probt,上述,t,统计量对应的概率值,var,方差,q1,第一四分位数,median,中位数,q3,第三四分位数,mode,众数,qrange,四分位数间距,cv,变异系数,p1,第一百分位数,max,最大值,p5,第五百分位数,min,最小值,p10,第十百分位数,sum,总计,p90,第九十百分位数,sumwgt,加权值总计,p95,第九十五百分位数,css,校正平方和,p99,第九十九百分位数,uss,未校正平方和,第19页/共53页,第二十页,共53页。,计算中心(j sun zhn xn),UNIVARIATE过程(guchng),PROC UNIVARIATE DATA=;,VAR;,BY|CLASS;,HISTOGRAM/;,OUTPUT OUT=;,RUN;,第20页/共53页,第二十一页,共53页。,计算中心(j sun zhn xn),UNIVARIATE过程(guchng),UNIVARIATE过程和MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计(tngj)量只能在UNIVARIATE过程中计算(如众数),而且UNIVARIATE过程中具有绘图功能。,其中,HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。,第21页/共53页,第二十二页,共53页。,计算中心(j sun zhn xn),用分析家作频数(pn sh)统计,选择”解决方案/分析/分析家”进入(jnr)分析家环境,点击”文件/按SAS名称打开”打开数据集,点击”统计/描述性统计/频数统计”,在弹出的对话框中:,AGE=Frequencies,Sex=Frequencies,点击OK,第22页/共53页,第二十三页,共53页。,计算中心(j sun zhn xn),FORMAT过程(guchng),PROC FORMAT;,VALUE 格式变量名 分组形式(xngsh);,RUN;,其中:格式变量名由用户命名,在其他在其他过程中可以引用该格式名.,引用:,PROC 过程名 DATA=数据集名;,过程语句;,FORMAT 数据集中的变量名 格式名.;,RUN;,第23页/共53页,第二十四页,共53页。,计算中心(j sun zhn xn),FORMAT过程(guchng),Proc format;,Value wfmt low-13=“low 13-16=“13-16 16-high=“high“;,Run;,Proc print data=temp.class;,Format weight wfmt.;若没有该语句,数据集中(jzhng)的Weight数据仍按原始显示,Run;,第24页/共53页,第二十五页,共53页。,计算中心(j sun zhn xn),SAS制作图形(txng)的过程,建立(或转换)数据文件,根据设计者的要求选用恰当的模型,生成图形,编辑(binj)、整理,得到满意的结果。,图形参数语句,Goptions 图形选项,设置图形输出的参数,如,goptions ftext=SWISS ctext=BLACK htext=1 cells;,Symbole 图形选项,常对GPLOT过程输出的图形进行参数设置,Pattern 图形选项,常对CHART过程输出的图形进行参数设置,第25页/共53页,第二十六页,共53页。,计算中心(j sun zhn xn),使用GPLOT过程(guchng)绘制散点图和连线图,通常用散点图和连线图可以表示:,一个变量(binling)随另一个变量(binling)的变化;,变量(binling)之间的关系;,数据值的分布。,GPLOT过程的一般格式,PROC GPLOT DATA=;,PLOT *=/;,SYMBOLn;,RUN;,第26页/共53页,第二十七页,共53页。,计算中心(j sun zhn xn),选项,意义,说明,FRAM|NOFRAM,在图形四周加入或不加入边框,缺省为加入,CFRAM=,颜色,边框内的颜色,缺省为白色,AUTOHREF(AUTOVEREF),在水平,(,垂直,),轴的每个主刻度处加入水平,(,垂直,),参考线,NOAXIS,取消坐标轴及相关的图形元素,CAXIS=,颜色,设定轴的颜色,CTEXT=,颜色,设定与轴相关字符的颜色,HAXIS=,值列举,设定水平轴主刻度的值,VAXIS=,值列举,设定垂直轴主刻度的值,overlay,多个图共坐标,PLOT语句(yj)的选项,第27页/共53页,第二十八页,共53页。,计算中心(j sun zhn xn),选项,意义,取值,V=,符号,表示点使用的符号,plus,star,squar,diamond,triangle,point,dot,circle,C=,颜色,表示点的符号及连线的颜色,black,red,green,blue,cyan,magenta,gray,pink,orange,brown,yellow,CV=,颜色,专指点的符号的颜色,H=n,指名符号的大小,单位有:,cell,cm,pct,pt,in,POINTLABEL,在点的附近表明,Y,轴变量的值,i=,连线方式,指明连线的方式,none,join,spline,needle,(从数据点到横轴画直线),Hl,(直线回归线,),CI=,颜色,专指连线的颜色,L=n,n,为线型的序号,0,空白线,,1-,实线,,2,虚线,W=n,n,表示线的宽度,SYMBOL语句用来控制表示点的符号和点间的连线(lin xin)。其中n是不同SYMBOL语句的序号,可以是1-99,缺省为1。选项见下表,第28页/共53页,第二十九页,共53页。,计算中心(j sun zhn xn),绘制(huzh)函数y=sin(x)的曲线图,程序(chngx),DATA SIN;,DO X=-2*3.14,TO,2*3.14 BY 0.2;,Y1=SIN(X);Y2=COS(X);,OUTPUT;,END;,SYMBOL1 I=J V=PLUS;,PROC GPLOT;,PLOT Y1*X=1 Y2*X/OVERLAY;,RUN;,第29页/共53页,第三十页,共53页。,计算中心(j sun zhn xn),GCHART过程(guchng),GCHART过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示(biosh)变量分布的图形,语法格式,PROC GCHART DATA=;,图形关键字/绘制垂直条图;,BY;指明分组变量;,AXISn 定义坐标;,Run;,第30页/共53页,第三十一页,共53页。,计算中心(j sun zhn xn),图形(txng)关键字,GCHART过程可以使用的图形关键字及其所绘制(huzh)的图形类型见表,图形关键字后的变量名,用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。,图形关键字,绘制的图形类型,图形关键字,绘制的图形类型,block,方块图,pie,饼形图,hbar,水平的条形图,pie3d,三维饼形图,hbar3d,水平的三维条形图,donut,环形图,vbar,竖立的条形图,star,星形图,vbar3d,竖立的三维条形图,第31页/共53页,第三十二页,共53页。,计算中心(j sun zhn xn),选项列表(li bio),TYPE=freq|cfreq|pct|cpct|sum|mean,统计图形变量的频数|累计频数|,Discrete 把数字变量当成离散变量处理,GROUP=变量名,指定并排分组变量,SUBGROUP=变量名,按分组变量的值分段,Patternid=Midpoint,规定连续性图形变量按数字列表(li bio)中的中心点数字次序进行排列,SUMVAR=变量名(数值变量),指定要进行统计计算的变量,也就是“TYPE=统计量关键字”选项中统计量的计算所依据的变量,第32页/共53页,第三十三页,共53页。,计算中心(j sun zhn xn),PATTERN语句(yj),语句格式:pattern 选项;,常用选项:,Color=颜色 设置花纹颜色,V=E|S|Ln|Rn|Xn 设置填充(tinchng)参数依次可选:实心|空心|左斜线|右斜线|交叉线,如:,Goptions reset=all;,Pattern v=x5 c=gray;,Proc gchart data=aa.class;,Vbar age/discrete;,Run;,第33页/共53页,第三十四页,共53页。,计算中心(j sun zhn xn),画条形图(直方图),使用VBAR关键字可以(ky)画条形图,proc gchart data=aa.MYDATA;,vbar Income;,run;,结果如图所示,第34页/共53页,第三十五页,共53页。,计算中心(j sun zhn xn),PROC G3D options;,PLOT y*x=z/options;产生三维曲面图,Scatter y*x=z/options;产生三维散点图,PLOT语句中的选择项(/options),CAXIS=color 坐标轴颜色,CBOTTOM=color 曲面底部区域颜色,CTOP=color 曲面顶部(dn b)颜色,CTEXT=color 文本颜色,用G3D过程(guchng)绘图,第35页/共53页,第三十六页,共53页。,计算中心(j sun zhn xn),绘制(huzh)三维曲面图,程序(chngx),Proc g3d data=aa.hat;,Plot y*x=z;,Run;,第36页/共53页,第三十七页,共53页。,计算中心(j sun zhn xn),用INSIGHT绘制(huzh)图形,生成条形图和直方图,生成盒形图和马赛克图,生成散点图,生成连线(lin xin)图,生成等高线图,生成三维旋转图,第37页/共53页,第三十八页,共53页。,计算中心(j sun zhn xn),生成(shn chn)条形图和直方图,条形图(或直方图)是用来研究一个(y)变量取值分布的图形表示法。,变量取值的范围分成若干区间,在横轴上,每个区间上画一个(y)矩形方块,矩形的宽度就是区间的宽度,矩形的高度可以是频数、百分数或比率。,第38页/共53页,第三十九页,共53页。,计算中心(j sun zhn xn),生成(shn chn)条形图和直方图,例从某大学总数为500名学生的“概率统计学”课程的考试成绩中,随机地抽取60名学生的考试成绩如表所示,绘制(huzh)这些数据的频数直方图。,学生成绩,63,75,83,91,45,81,93,30,72,80,82,83,81,76,67,84,72,58,83,64,93,63,75,99,74,76,95,91,83,61,82,85,83,44,88,72,66,94,68,78,88,71,94,85,82,79,100,90,83,88,84,48,72,80,85,80,87,76,62,96,第39页/共53页,第四十页,共53页。,计算中心(j sun zhn xn),生成(shn chn)条形图和直方图,建立数据集score,启动SAS/INSIGHT,打开score数据集,在数据窗口,选择cj变量,选择菜单命令“分析/直方图/条形图”,参数的设置(刻度,参考(cnko)线等),图的复制与保存,第40页/共53页,第四十一页,共53页。,计算中心(j sun zhn xn),生成(shn chn)盒形图,盒形图由一个矩形盒和两个须构成。矩形盒的两侧(上下)分别位于上下四分位数的位置,所以矩形盒的宽度(高度)为四分位极差。,盒的中间在中位数位置也有一条(y tio)直线。,盒的两侧(上下)的须分别表示自四分位数的边出发延伸至1.5倍四分位极差范围内最远的数据点的位置,通常对四分位数之外1.5倍四分位极差以外的每个数据用点标出。这些点有可能是例外数据点,提示人们去考察它,在分析时是否需要剔除它。,第41页/共53页,第四十二页,共53页。,计算中心(j sun zhn xn),生成(shn chn)连线图,例绘家庭收支情况对比(dub)图,启动SAS/INSIGHT,选择数据集mydata,选择“分析/连线图(Y X)”,将ID变量选定为X轴,Income,outgo变量选到Y轴,如图右上,单击“确定”。,线图如图右下所示。,第42页/共53页,第四十三页,共53页。,计算中心(j sun zhn xn),生成(shn chn)连线图,例绘sin 曲线的连线图和散点图,创建数据集 sin,DATA sin;,DO X=0,TO,6.28 BY 0.1;,y=SIN(x);OUTPUT;,END;RUN;,启动SAS/INSIGHT,选择(xunz)数据集sin,选择(xunz)“分析/散点图(Y X)”绘散点图,选择(xunz)“分析/连线图(Y X)”绘线图,第43页/共53页,第四十四页,共53页。,计算中心(j sun zhn xn),生成(shn chn)等高线图,例绘等高线图,创建数据集HAT,DATA HAT;,DO X=-5,TO,5 BY 0.25;,DO Y=-5,TO,5 BY 0.25;,Z=SIN(SQRT(X*X+y*Y);,OUTPUT;,END;END;RUN;,启动(qdng)SAS/INSIGHT,选择数据集HAT,选择“分析/等高线图(Z Y X)”,第44页/共53页,第四十五页,共53页。,计算中心(j sun zhn xn),生成(shn chn)三维旋转图,例绘三维旋转(xunzhun)图,启动SAS/INSIGHT,选择数据集HAT,选择 “分析/旋转(xunzhun)图(Z Y X)”,第45页/共53页,第四十六页,共53页。,计算中心(j sun zhn xn),用“分析家”绘制(huzh)图形,条形图,盒图,饼分图,饼图(Pie Chart)对分类变量(binling)描述其频数取值的比例,连线图,散点图,等值面图,概率图,曲面图等,第46页/共53页,第四十七页,共53页。,计算中心(j sun zhn xn),作业(zuy),1.使用编程方法对mydata数据集进行加工:,(1)生成R_ID=1的子集;,(2)生成只包含id,income,outgo的子集(用,数据集选项或SAS语句(yj);,(3)增加新变量ratio=outgo/income;,(4)用SELECT和OUTPUT语句(yj)把mydata数,据集拆分为地区编号为1和2的两个数据集.,第47页/共53页,第四十八页,共53页。,计算中心(j sun zhn xn),作业(zuy),2.用DO循环语句(yj)读入下列数据表:,A 1 31.5,A 2 29.8,A 3 32.4,B 1 40.1,B 2 41.1,B 3 42.0,C 1 50.1,C 2 51.2,C 3 50.8,(1)生成有个变量(TYPE,GROUP,Y)个观测的数据集DABC;,(2)用条件IF语句(yj)或数据集选项where 生成只包含TYPE=的数据集DAC.,第48页/共53页,第四十九页,共53页。,计算中心(j sun zhn xn),作业(zuy),2.用DO循环语句读入下列(xili)数据表:,A 1 31.5,A 2 29.8,A 3 32.4,B 1 40.1,B 2 41.1,B 3 42.0,C 1 50.1,C 2 51.2,C 3 50.8,(1)生成有个变量(TYPE,GROUP,Y)个观测的数据集DABC;,(2)用条件IF语句或数据集选项where 生成只包含TYPE=的数据集DAC.,第49页/共53页,第五十页,共53页。,计算中心(j sun zhn xn),3、已知一批统计数据,包括学号、性别、年龄、计算机成绩、等级(dngj)等项,建立一永久数据集CLASS8,绘制等级(dngj)的条形图。数据如下:,94-001 F 25 88 良,94-002 M 27 90 优,94-003 M 24 80 良,94-004 F 24 75 中等,94-005 F 23 85 良,94-006 M 24 65 一般,94-007 M 22 70 中等,94-008 M 25 76 中等,94-009 F 22 60 一般,94-010 F 23 66 一般,94-011 F 22 78 中等,94-012 F 24 85 良,94-013 M 23 89 良,94-014 F 22 62 一般,作业(zuy),第50页/共53页,第五十一页,共53页。,计算中心(j sun zhn xn),4、调用数据集CLASS8,试做等级(dngj)变量的饼分图。,作业(zuy),第51页/共53页,第五十二页,共53页。,计算中心(j sun zhn xn),谢谢(xi xie)!,第52页/共53页,第五十三页,共53页。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服