STATA统计软件操作PPT课件.ppt-资源下载-咨信网-让知识获取变得高效

STATA统计软件操作PPT课件.ppt

1、单击此处编辑母版标题样式,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,STATA统计软件操作,Stata入门,Stata的数据读入,数据库的描述,变量的生成与处理,数据的合并,数据的转换,单变量描述,双变量描述,描述数据的统计量,图形的制作,参数估计：区间估计,假设检验,方差分析,相关分析,线性回归分析,1,.,Stata入门,五大功能：,数据管理、统计分析、图形制作、矩阵运算和程序设计。,界面：,Command(命令)、Results(结果)、Review(回顾)、Variables(变量)。,菜单基本功能：,文件（File）、编辑（Edit）、偏好（Prefs，用户

2、界面设置菜单）、数据（Data，数据的基本处理、描述、排序、改变变量、生成新变量、整合数据、拆分数据等）、图表（Graphics）、统计（Statistics数据分析）、使用者（User）、窗口（Window）、帮助（help）,快捷根据图表的基本功能：,Log(记录文件窗口)、Viewer(帮助窗口)、Results(分析结果窗口)、Do-file Editor(编程窗口)、Data Editor(数据编辑窗口)、Data Browse(数据浏览窗口)、Clear-more-Condition(显示更多结果)、Break(不要显示更多结果)。,2,.,Stata数据的读入,log文件,。,创

3、建文件：log using“文件路径和名称”，其后带append表示在原有文件的基础上增加新内容，其后带replace表示取代原记录文件；,暂停：log off；,再次开始：log on；,关闭：log close。,数据的存储空间,：,增加存储空间（set mem 40m）,清空存储空间（clear，相当于drop all）。,3,.,Stata数据的读入,数据的读入,：,可直接读入下列尾缀形式的数据.dta/.txt/.raw/.xls；,读入文件中的部分变量：use a b c using“文件路径和名称”；,读入文件中的部分样本：use“文件路径和名称”in X/Y(X、Y表示个案序号

4、)；,读入文件中某些特征的样本：use“文件路径和名称”if 条件句；,4,.,数据库的描述,描述数据的基本情况：describe,d,describe,simple:只展示变量名；,describe，short：报告变量总体情况；,describe，detail：输出全部变量的全部信息；,describe a b c：描述部分变量的情况。,变量编码本,：,codebook。,codebook+变量名：描述变量特征。,5,.,Stata数据类型及特点,与数据类型对应的是数据库中变量的存储类型（storage type）：。,字符型:保存格式为str，省略表示的是字符位数,数值型：保存格式有by

5、te,int,long,float,double。默认格式是float，前三种只保留整数，占空间最大到最小的顺序是double,float,long,int,byte,压缩变量的命令为compress,Compress为压缩所有变量；,Compress yr*为压缩共同前缀的变量；,Compress a-c为压缩从a到c之间的所有变量。,6,.,数据库的描述,描述变量取值的基本命令参数,：,inspect。,显示数据,：,browse直接进入数据的浏览窗口；,list最好指定变量，否则会输出数据中所有变量的分布。,数据排序,：,sort。,例：比较城乡孩子的性别bysort urban:ins

6、pect girl或者sort urban然后by urban:inspect girl.,7,.,变量的生成与处理,注意事项,：,不要使用新变量取代旧变量；,充分了解原始变量的分布以及每个数值代表的含义；,遵循不重不漏；,将原始变量和新变量的取值进行对比，检查是否有误；注意原始变量的缺失值。,使用genreplace命令生成新变量,；,genreplace if共同使用形成分组变量,recode,v,gen(nv),recode v v的,取值,nv,的取值,*=其他取值(*表示所有其他没有列出的数值)，,gen,（新变量名）,recode yrsch 0=0 11=1 12=2 13=3

7、14=4 15=5 16=6 21=7 *=.,gen(edu),8,.,变量的生成与处理,生成分类变量,：,egen 新变量命cut（旧变量名），at（取值的下限）,eg：egen agegrp1=cut(age),at(0,7,13,16,20),按照变量b的分类生成均值变量,：,egen a_mean=mean(a),by(b),生成一个变量b和c的行均值变量（avg），忽略缺失值,：,egen avgrmean(b c),生成标准数值,：,egen zweight=std(weight),计算每一年观察的样本，从而了解在每年的调查中，有多少相同的样本（或相同的个体）,：,gen num

8、obs=count(personid),by(personid year),9,.,数据的合并（纵向）,纵向合并,：,作用：增加样本量,命令：append,菜单：Data-Combine datasets-Append datasets；,程序：append using“文件路径和名称”；append using“文件路径和名称”，keep 变量名。,10,.,数据的合并（横向）,横向合并,作用：增加变量（merge）。,菜单：Data-Combine datasets-Merge two datasets或Data-Combine datasets-Merge multiple datase

9、ts,程序：先看使用数据：use“文件路径和名称”，sort 关键变量名，save“文件路径和名称”，replace；,再看主要数据，use“文件路径和名称”，sort关键变量名；,最后，合并数据：merge 关键变量名 using“文件路径和名称”，keep（变量）。,11,.,数据的合并,（系统变量）,关于系统变量：_merge，它的取值限于,1观察值仅来自主要数据，使用数据没有匹配的样本，,2观察值仅来自使用数据，主要数据没有匹配的样本，,3观察值来自于主要数据和使用数据。,若使用update选项，还会有：,4观察值来自于主要数据和使用数据，且主要数据的缺失值得到更新，,5观察值来自于主

10、要数据和使用数据，且两个数据的数值不匹配。,12,.,数据的转换（reshape）,数据的结构,：,宽数据（wide format）,长数据（long format）,菜单,：,Data-Create or change variables-Other variable transformation commands-Convert data between wide&long。,13,.,数据转换：长宽,程序：,reshape wide 变量名，i(观察值的标识符)j(次标识符)。,“变量名”表示一组同样内容的变量的共同的前缀，即X_ij中的X，指定希望转换的变量名称；选项i及括号捏的变量一

11、起，指定观察值的标识符，或表示取值独一无二、代表每个逻辑观察值的变量。,eg：,gsort mothid-age；,by mothid：gen order=_n；,reshape wide kidid age girl yob，i(mothid)(order)。,14,.,数据转换：宽长,程序：,reshape long 变量名，i(观察值的标识符)j(次标识符)。,“变量名”表示根据次标识符指定的、有共同主干但尾缀不同的一组变量，生成一（多）个新变量；选项i指定观察值的标识符，具有独一无二的取值，是代表每个逻辑观察值的变量。,15,.,单变量描述,单个变量频数统计：,.tabulate a相

12、当于tab a。,多个变量的单变量描述：,.tab1 a b c。,16,.,双变量描述,交互分类表：,.tab a b或者.tab2 a b c（给出其中任意两变量的交互分类表）,附加命令的功能。,统计量的检验：,Chi2：计算Person卡发值，检验交互表中的行与列变量是否独立，不能用于加强数据；,exact：展示Fisher精确检验的显著水平；,expected gamma：展示Goodman和Kruskal的gamma值和其渐近线的标准误，适合于定序数据，不能与加权数据连用；,lrchi2：展示似然卡方，若任意单元格的频数为0，该选项无法执行；,taub：展示Kendall的tau-b

13、值及其渐近线的标准误，适合于定序数据；,V：展示Cramer的V。,17,.,双变量描述,附加命令的功能。,单元格：,cchi2：展示每个单元格对Person卡方的贡献；,clrchi2展示每个单元格对似然卡方的贡献；,column提供列百分比；,row提供行百分比；,cell提供总百分比；,expected提供每个单元格的期望频数；,nofreq不显示频数或者不显示具体表格，直接显示统计量。,missing将缺失值与有效值同样对待；,wrap不自动换行宽表；,nokey不显示单元格提示；,nolabel不使用数值标签。,18,.,描述数据的统计量,sum+变量名；s,um a，detail（

14、给出更详细的信息）；,bysort urban：sum a（在不同城乡分布中统计变量a）,tab 分组变量a，contents(mean b sd b),表示按照变量a分组计算变量b的均值和标准差；,tab a b,contents(mean c sd d),表示按照变量a和b分组计算变量c的均值和d的标准差；,19,.,描述数据的统计量,tab a b,contents(mean c)，row col,，,表示按照变量a和b分组计算变量c的均值，然后计算行和列均值。,tabstat a b c d,展示一个或多个数值型变量的描述性统计量，默认输出均值；,tabstat a b c d,by(

15、e)statistics(mean sd median)columns(statistics),表示按照e分类计算变量a、b、c、d的均值、标准差、中位值，格式是列为统计量。,tab a b，sum（c）,表示按照变量a、b分类计算c的统计量,20,.,图形的制作,y和x的散点图,：,graph twoway scatter y x；twoway scatter y x；scatter y x,y和x的线图,：,graph twoway line y x；twoway line y x；line y x。注意：先将x排序再做图，否则图会杂乱无章。,按照x变量分类的纵向条形图,：,graph b

16、ar y,over(x)；按照x变量分类的横向条形图：graph hbar y,over(x)；,给变量x、y、z（三者之和为100%）生成饼图：,graph pie；,按变量x的分类，生成一张饼图,：,graph pie，over（x）,21,.,图形的制作,直方图。,生成一张变量x的取值图：histogram x;,按变量x的分类，生成一张其取值图histogram x，discrete;,箱线图。,按变量x的分类，生成变量y的箱线图：,graph box y,over(x)；,按变量x的分类，生成变量y1和y2的箱线图graph box y1 y2,over(x)；,按变量x的分类，生成

17、变量y的横向箱线图：graph hbox y,over(x)；,矩阵图。,生成x1、x2、x3的矩阵图，只显示一半：graph matrix x1 x2 x3,half,将图形x1和x2合并：graph combine x1 x2,22,.,区间估计,单个总体均值的区间估计：,求多个变量的置信区间，对变量的数目没限制：ci x1 x2 x3。,eg：bysort urban:ci x1 x2 x3 if age14.,mean x1 x2 x3，输出均值、标准误和95%的置信区间。,按变量e分类来求取a、b、c三个变量的区间估计：mean a b c，over（e）,23,.,区间估计,单个总

18、体比例的区间估计,计算a这个二分变量的比例、标准误和95%的置信区间：proportion a。,按b分类来计算a这个二分变量的区间估计：proportion a，over（b）。,24,.,区间估计,单个总体比率的区间估计,按城乡分类，估计体重身高之比的区间估计：ratio(weight/height),over(urban),注意：stata默认输出的是95%的置信区间，若想要99%或90%的置信区间，则须在命令最后写“，level（99）”或“，level（90）”,25,.,假设检验,一个总体均值的检验：ttest 变量=数值。,例如：ttest height=160 if age14

19、或者ttest height=160 if age14,level(99),两个独立样本均值比较的t检验：,tte,s,t a，by（b）。,eg：分城乡孩子的体重差异检验：ttest weight，by（urban）,26,.,假设检验,配对样本均值比较的t检验,：,ttest a1=a2。,多个总体均值差异的检验，即方差分析,：,oneway y x（y为因变量，x为类别自变量）,例如：oneway weight sibs if age13,tab scheffe。（tab输出各组描述性统计结果，scheffe采用scheffe方法提供多重组间比较结果）,27,.,方差分析,双（多）因素方

20、差分析,：,anova y a b（a、b为因素）,anova y a b a*b（加入a、b的交互作用）,协方差分析,：,anova y a b c，cont（c）；,指定c为连续变量，相应地a、b、c为类别变量。,anova y a b c，category（a b），,指明,a,、,b,为分类变量,，,从而暗示其他变量,c,为连续变量。,28,.,相关分析,corr a b c。,输出a、b、c的相关系数矩阵。,pwcorr a b c,。,剔除缺失值计算相关的结果。,pcorr a b c。,输出偏相关分析结果，即控制其他变量后的两变量之间的相关。,29,.,回归分析,一元线性回归：reg y x,选择项。,预测y值：predict yhat；,估计残差：predict e,resid；,估计标准残差：predict se,rstandard。,多元线性回归。reg y x1 x2 x3。,虚拟变量回归：i.reg y x1 x2 i.x3.,30,.,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？