SPSS与社会科学调查研究PPT课件.ppt

资源描述

内容内容一、一、SPSS与社会科学调查研究与社会科学调查研究二、单变量的描述性统计二、单变量的描述性统计三、双变量之间的关联分析三、双变量之间的关联分析列联表分析列联表分析相关分析相关分析回归分析回归分析1一、一、SPSS 与社会科学调查研究与社会科学调查研究问题问题理论和假设理论和假设研究设计：概念研究设计：概念/变量变量/操作化操作化资料收集：量化研究与问卷（概率抽样资料收集：量化研究与问卷（概率抽样/非概非概率抽样等）率抽样等）资料整理：校对资料整理：校对/编码编码/录入录入/数据分析：选择合适的程序进行分析（注意问数据分析：选择合适的程序进行分析（注意问卷测量的信度与效度）卷测量的信度与效度）结论与分析：研究假设是否得到印证？结论与分析：研究假设是否得到印证？2社会调查研究的一般步骤社会调查研究的一般步骤 31、提出问题（1）对理论的掌握能力。（2）对与此问题有关的相关文献的掌握能力。例:农民工收入和社会保障问题的研究。42、形成假设对问题的尝试性回答构成假设。如：社会转型过程中，与技术人员相比，工人的社会地位下降了概念概念：概念是研究范围内同一类现象的概括性表述，是理论的基本组成部分。如社会地位、劳动者权益。有些概念就是具体的变有些概念就是具体的变量量，如年龄、收入等，有些不是，如对某些事情的态度或看法。概念的操作化概念的操作化:研究者通过一串能够被观察、测量的指标对抽象概研究者通过一串能够被观察、测量的指标对抽象概念进行测量。念进行测量。工人：技术人员：社会地位：5变量变量：是概念的具体化，是被观察对象的被观察的特征、态度和行为方式；这些特征在一个观察对象的时点身上并不会变化，但是在多个被观察对象身上就形成了一个变化的量。职业（工人、技术人员）社会地位（高、低）6变量取值变量取值：变量在个体上的表现值。有些可以用数字表示，有些不能用数字表示。特征值、态度值和行为值（是文盲还是博士研究生？）；有些变量的有些变量的取值可以用数字来表示，有些则不能用数字来取值可以用数字来表示，有些则不能用数字来作为变量值的作为变量值的，例如性别、民族、婚姻状况等。73、设计研究方案研究类型选择:理论性和应用性研究;横剖研究和纵观研究研究方法选择:实地研究、统计调查、试验法、文献研究资料收集方法选择：问卷法、访谈法、观察法、量表测量法、统计报表法、文献法等类型研究层次和分析单位选择概念和变量测量方法的确立问卷、观察表格与访问提纲的制定制定抽样方案84、收集数据实地调查试验法问卷调查参与观察调查表等等95、分析数据和检验假设统计学在此派上用场。一个好的研究更受制于（1）理论水平（2）操作水平10数据分析基本内容：Basic part SPSS基本知识描述性统计(Frequencies/Descriptives/Explore)SPSS统计图形数据录入及数据变换交叉汇总与关联分析（Crosstabs的应用）引进其他变量后的交互分析(详析模型）描述子总体均值的差异（Means过程的应用）均值比较分析（TTest过程）方差分析(ANOVA)相关分析（Correlate过程分析）简单线性相关（一元线性回归分析）11Advanced part多元线形回归路径分析Logistic回归对数线形模型多元方差分析典型相关分析鉴别分析Logit模型Loglinear模型因子分析聚类分析时间序列12数据分析基本流程及数据分析基本流程及SPSS基础知识基础知识3识别异常值，处理缺失值、识别异常值，处理缺失值、冗余值、不一致数据冗余值、不一致数据数据转换，数据合并数据转换，数据合并变量取值的分布变量取值的分布基本的统计量基本的统计量统计图统计图建立研究模型建立研究模型模型验证模型验证模型验证模型验证了解数据了解数据了解数据了解数据背景背景背景背景数据导数据导数据导数据导入入入入描述性描述性描述性描述性分析分析分析分析统计推断统计推断统计推断统计推断研究背景研究背景研究目的研究目的研究设计研究设计数据收集方法数据收集方法理解变量理解变量数据清数据清数据清数据清理理理理13二、单变量的描述分析1、变量的测量尺度定类尺度（Nominal）定序变量（Ordial）定距定距尺度（Interval）定比定比尺度（Ratio）14（一）变量的测量层次152、变量的测量尺度间的关系16（二）单变量的基本描述技术（二）单变量的基本描述技术1、分布特征如何？、分布特征如何？变量值频数变量值频数(Frequency)：取特定个案值的案例数的：取特定个案值的案例数的分布状况分布状况变量值频率（变量值频率（percent）：频率分布特定观察值的案）：频率分布特定观察值的案例的百分比，例的百分比，是将每一变量取值出现的频数在总次数中所占比率（我们称其为频率）100后所得到的分布累计频数（累计频数（Cumulative Frequency）：从最小值起累计案例数累计频率（累计频率（cumulative percent）：从最小值起累计百分比172、统计表统计表表号表号在文章中便于查阅、引用。在文章中便于查阅、引用。表头，包括标题、时间和地点表头，包括标题、时间和地点纵栏标题纵栏标题横行标题横行标题总计行总计行表尾，写清资料来源表尾，写清资料来源18表表1 我国社会福利主要费用情况（我国社会福利主要费用情况（1998-2001）单位：亿元单位：亿元项目1998199920002001（一）优抚对象补助金额（一）优抚对象补助金额国家支出集体供给（二）农村传统救济金额（二）农村传统救济金额国家支出集体供给（三）城乡各种福利院支出（三）城乡各种福利院支出国家支出集体供给680324356 298 70 22820210399914511403285 7920623113794 1076 607469317 83234287 190 97 1081695 386 295 121 174405264 141合计合计 1180 1430 1680 1781 资料来源|：2003中国统计年鉴第838页。19203、统计图、统计图211978年城镇从业人员就业结构222005年城镇从业人员就业结构2324（三）集中趋势测量（三）集中趋势测量Mean（均值）Median（中位值）Mode（众值）Sum（求和）251、均值262、中位值定义：第50百分位数上的值，即有50%的观察点落在这个值之下。根据原始资料求中位值:将各个案由低至高排列起来，居于序列中央位置的个案的值即为中位值。观察总数为奇数：Md=(N+1)/2 当观察总数为偶数：将位于最中央位置的两个数值的平均值作为中位值。27283、Mode（众值）界定：次数出现最多的变量值，主要适用于定类变量，用众值来预测定类变量所犯的错误最小。当变量是定距变量时，众值的公式计算为：MoL+f2W/(f1+f2)f1：众值组下一组次数f2：众值组上一组次数W：组距29304、Sum（求和）即对所有的观察值求和。31（四）离散趋势测量（四）离散趋势测量异众比极差四分位差方差标准差 322024/2/28 周三331、Variation ratio（异众比）界定：异众比也称离异比率，一般用异众比来反映不同于众值的数在全体数值中所占的比例，用于测量定类变量的离散趋势。计算公式：异众比=（N众值的频次）/N342、Range（极差）Range 也称全距或范围，即最大值与最小值之间的距离，显示的是数据分布的范围，但对于中间部分数据怎么变化，则不能推知，此外，它受极端值的影响大。353、Interquartile Range（四分位差）界定：也叫四分位数偏差或四分互差。通常数据按从小到大的顺序排列后，用三个四分位数点Q1、Q2、Q3将其分成四部分。Q1是第25百分位数点或叫低四分位数点；Q2是第50百分为位数点即中位数；Q3是第75百分位数点或叫高四分位数点。四分位差规定为Q1和Q3之间的距离。计算公式：Q=Q3 Q1 Q越大，表示有50%的个案的分布越是远离中位值，中位值的代表性就越小，以中位值作为估计或预测的效果就越差。Q越小，说明数据比较集中在中位值附364、Variance（方差）方差（观察值均值）的平方和/n一般方差越大，说明观察值离平均值的距离越远，数据的离散程度也越大。375、Std.deviation（标准差）Std.deviation为Standard Deviation的简写，表示以均值做估计或预测变量时所犯错误的大小。总体的标准偏差=根号（观察值均值）的平方和/n 38三、双变量描述统计三、双变量描述统计（一）列联表分析A、定类（定序）定序（定类）39404142433、两个定类变量之间相关的强度一般用Lambda系数，它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时，如果以众值作为预测的准则，可以减除多少误差。消减的误差再全部误差中所占的比例越大，表示两个变量之间相关的程度越大。对称形式：44454647B、定序定序变量的列联表1、相关系数介绍 Kendall的 tau 系数Sommers 的dy系数Spearmans rho 系数Gramma系数常用和适合48Gramma系数：统计值在系数：统计值在11 之间，最适合于分之间，最适合于分析两个定序变量之间的相关关系。析两个定序变量之间的相关关系。Gramma属于对称属于对称相关测量法，也就是不分自变量与因变量。相关测量法，也就是不分自变量与因变量。Gramma系数系数=（NsNd）/（Ns+Nd）如果在对子中以同序对为主，则表示正相关，如果以如果在对子中以同序对为主，则表示正相关，如果以异序对为主，则表示负相关；如果两者相当或者同分异序对为主，则表示负相关；如果两者相当或者同分对较多，则相关程度较弱。对较多，则相关程度较弱。分母：表示在预测或估计任何一对个案的相对等级时分母：表示在预测或估计任何一对个案的相对等级时可能犯的最大错误可能犯的最大错误分子：表示以一对个案在一个变量上的相对等级来预分子：表示以一对个案在一个变量上的相对等级来预测它在另一个变量上的相对等级时所能够减少的误差。测它在另一个变量上的相对等级时所能够减少的误差。因此，因此，Gramma系数具有消减误差比例的意义。系数具有消减误差比例的意义。4950（二）相关分析 1、相关系数Correlation CoefficientsPearson皮尔逊相关系数 51522、相关系数的检验t检验53（三）回归分析1、回归方程与回归系数回归法：在知道X和Y相关的情况下，找出一种误差最小（最有代表性）的方法来预测Y的分布。54555657585960616263F检验的假设是：原假设：自变量与因变量之间无线性相关，各个回归系数相等。也就是能否肯定总体回归系数中至少有一个不等于0。研究假设：自变量与因变量之间存在线性相关，是至少有一个回归系数不等于0。如果接受原假设，那么自变量与因变量之间的线性关系就不显著，如果拒绝原假设，接受研究假设，那么自变量与因变量之间存在线性关系。如果计算的显著性小于，（事先确定的标准，社会科学研究中通常取0.05或0.01），则拒绝原假设，接受研究假设。64 谢谢大家谢谢大家再见再见652024/2/28 周三66

展开阅读全文