第九章资料的统计分析.doc

资源描述

1、个人收集整理勿做商业用途第九章资料的统计分析（1）单变量分析第一节单变量描述统计一、频数分布与频率分布1、所谓频数分布（frequency distribution)，就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。频数分布表的作用有两方面，一是简化资料,即将调查所得到的一长串原始数据，以一个十分简洁的统计表反映出来.二是从频数分布表中，可以更清楚的了解调查数据的众多信息.2、所谓频率分布（percentages distribution)，就是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达。频率分布表除了频

2、数分布表的优点之外，还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。3、注意的是，对于一项有一定规模的调查样本来说，一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为，此时类别很多，而每一类别中个案数不多，所得结果繁杂不适用。二、集中趋势分析集中趋势分析（centeral tendency analysis)指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势分析包括平均数（均值）、众数和中位数。1、平均数(mean）：总体各单位数值之和除以总体单位数目所得之商.2、众数(mode）：是指一组数据中出

3、现次数最多的那个数值。3、中位数（median），把一组数据按值的大小顺序排列起来，处于中央位置的那个数值就叫中位数.它所描述的是定序变量以上层次的变量。4、中位数和平均数的比较平均数比中位数利用了更多的数据信息，对总体的描述更全面和准确.平均数很容易受到极端值变化的影响，而中位值不会受到这种影响。对于抽样调查来说，平均数是一种比中位数更为稳定的量度，它随样本的变化比较小。三、离散趋势分析离散趋势分析（dispersion tendency analysis），指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。标准差、异众比率、四

4、分位差分别与平均数、众数、中位数相对应，判定和说明平均数、众数、中位数代表性的大小。1、全距（range）又叫极差，它是一组数据中最大值与最小值之差。其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大，而集中量数统计量的代表性越低。反之，一组数据的全距越小，则说明这组数据的离散量数越小，而集中量数统计量的代表性越高。2、标准差（standard deviation)一组数据对其平均数的偏差平方的算术平均数的平方根。用S表示。对于单值分组数据资料，计算标准差的公式为3、异众比率（variation ratio)指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示.其

5、意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大，则众数代表性越小;异众比率越小，则众数代表性越大。4、四分位差（interquartile range）指的是将一组数据按大小排序,然后将其4等分,去掉序列中最高的四分之一和最低的四分之一后，中间的一半数值之间的全距.用Q表示。5、离散系数（coefficient of variation）变差系数,它是一种相对的离散量数统计量，它使我们能够对同一总体中的两种不同的离散量数统计量进行比较，或对两个不同总体中的同一离散量数统计量进行比较。定义为:标准差与平均数的比值,记为CV. 第二节单变量推论统计一、区间估计(interval e

6、stimation）其实质就是在一定的可信度(置信度）下，用样本统计值的某个范围（置信区间）来“框”住总体的参数值。范围的大小反映的是这种估计的精确性问题，而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计中的可靠性或把握性是指用某个区间去估计总体参数时，成功的可能性有多大。对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。反过来说,区间的大小所体现的是估计的精确性问题，二者成反比。在精确度与把握性之间寻找平衡，在社会统计中，一般常用的置信度分别为90%、95%和99%。计算中，置信度常用1-来表示。1、总体均值的区间估计2、总体百分数的区间估计二、假

7、设检验假设检验实际上就是先对总体的某一参数作出假设，然后用样本的统计量去进行验证，以决定假设是否为总体所接受.其所依据的是概率论中的小概率原理，即“小概率事件在一次观察中不可能出现的原理。假设检验的基本步骤是：1、建立虚无假设和研究假设，通常是将原假设作为虚无假设；2、根据需要选择适当的显著性水平（即小概率的大小)，通常有=0.05， =0.01等；3、根据样本数据计算出统计值，并根据显著性水平查出对应的临界值；将临界值和统计值进行比较,以判定是接受虚无假设,还是接受研究假设。（1）总体均值的假设检验例:某单位职工上月平均收入为210元，本月调查了100名职工，平均月收入为220元,标准差为1

8、5元，问该单位职工本月平均收入与上月相比是否有变化？（2）总体百分比的假设检验例：一所大学全体学生中抽烟的比例为35%，经过学习和戒烟宣传后，随机抽取100名大学生进行调查，结果发现抽烟者为25名，问戒烟宣传是否收到了成效？本章思考题1、名词解释：频数分布、频率分布、众数、中位数、全距、标准差、异众比率、离散系数、区间估计2、课后练习题。第十章资料的统计分析(2)双变量分析第一节变量间的关系一、相关关系1、概念：两个变量之间的相关(correlation）关系指的是当其中一个变量发生变化时（或取值不同时）,另一个变量也随之发生变化（取值也不同）。反过来也一样。2、相关关系的方向。对于定序以

9、上层次的变量来说，变量与变量之间的关系可以分为正关系与负关系两个方向。3、所谓两个变量具有正相关关系，指的是一个变量的取值增加时，另一个变量的取值也随之增加，反之亦然。或者说，两个变量的取值变化具有同方向性。4、所谓两个变量具有负相关关系,指的是一个变量的取值增加时，另一个变量的取值随之减少，反之亦然。或者说,两个变量的取值变化具有反方向性。5、相关关系的强度指的是他们之间相关关系程度的强弱和大小.变量间相关程度的统计表示是相关系数。一般相关系数的取值都在1到+1之间，这里的正负号表示的是相关关系的方向，实际的数值的绝对值表示的是相关关系的强弱。6、相关关系的类型可分为直线相关和曲线相关。所谓

10、直线相关,指的是当变量X值发生变动时,变量Y的值也随之发生大致均等的变动。7、相关关系与散点图：散点图用于定距以上层次的变量.二、因果关系1、概念：指的是当其中一个变量变化时会引起或导致另一个变量也随之发生变化,但反过来，当后一变量变化时，却不会引起前一变量的变化。2、因果关系的三个条件：A、首先，变量X与变量Y之间存在不对称的相关关系.B、变量X与变量Y在发生的顺序上有先后之别。C、变量X与变量Y的关系不是同源于第三个变量的影响.第二节交互分类探讨两个定类变量（或一个定类，一个定序变量)之间关系的方法.一、交互分类的意义与作用所谓交互分类(cross classification），就是将

11、调查所得的一组数据按照两个不同的变量进行综合的分类.交互分类可以较为深入的描述样本资料的分布状况和内在结构.更重要的是,交互分类可以对变量之间的关系进行分析和解释。交互分类所适用的变量层次是定类变量和定序变量。二、交互分类表的形式和要求1、每个表的顶端要有表号和标题.表号的作用是明确指示，方便阅读或讨论;而表的标题则概括表中数据的内容和意义。2、表格中的线条一定要规范、简洁,最好不用竖线.3、表中百分比符号的简便处理方式.4、在表的下端用括号标出每一纵栏所对应的频数，以指示每一栏百分比所具有的基础（即个案的多少)。5、表内的百分比通常保留一位小数.6、对于交互分类的两个变量的安排，通常是将自变

12、量、或被看作是自变量的或用来作解释的那个变量放在上层;而将因变量或被看作因变量放在表的左侧.7、交互分类的两个变量的变量值应有所限制，特别是不能同时具有多个变量值。三、x2检验公式为：fo为交互分类表中每一格的观察频数，fe为交互分类表中fo所对应的期望频数。年龄与态度的交互分类表（人）年龄态度青年中年老年合计赞成14415430328反对5612690272合计200280120600四、关系强度的测量显著性水平的高低不能判断或估计变量间关系的强弱,而只是代表确定变量间存在关系的可信程度。1、系数。当交互分类表为22表时候,可用它测量变量关系的强度。显著性水平的高低不能判断或估计变量间关系

13、的强弱，而只是代表确定变量间存在关系的可信程度。1、系数。2、v系数。3、c系数。（不受样本规模大小的影响）。4、系数优点是具有消减误差比例（proportionate reduction in error，PRE）的意义。PRE指的是知道X的值去预测与它相关的变量Y值时所减少的误差（E1-E2)与总误差的比。即PRE= （E1-E2)/E1PRE越大，表示以X值去预测Y值时能够减少的误差所占的比例越大，换句话说，X与Y之间就越是相关，或者说,X与Y关系越强。系数的基本特点就是以众值作为预测的准则.公式为 =(fy-Fy）（n-Fy）fy表示变量X的每一个值之下的变量Y的众值；Fy表示变量Y的

14、边际分布中的众值。Tauy(简记为y）第三节其他层次变量的相关测量与检验1、定序变量与定序变量如果两个变量都是定序变量，可以用古德曼和古鲁斯卡的Gamma系数来测量它们之间的相关关系。常用G（或）表示，其取值范围是-1，+1，适用于分析对称关系，且既表示相关的方向性，也表示相关的程度。它也具有消减误差比例的意义。公式为：其中,Ns表示同序对数目，Nd表示异序对数目。所谓同序对就是指变量大小顺序相同的两个样本点，即其在变量X上的等级高低顺序与在变量Y上的等级高低顺序相同；否则就是异序对.要将随机样本中有关两个定序变量间关系的结果推论到总体,同样必须对其进行统计检验,Gamma系数的抽样分布在随

15、机抽样和样本规模比较大的情况下，近似于正态分布，因此可以用Z检验的方法进行。将G值转换为Z值的公式为:2、定类变量（定序变量)与定距变量这种情况下用相关比率（correlation ratio）或eta系数来测量两者间的相关程度.相关比率又称为eta平方系数，记为E2,其数值范围由0到1，具有消减误差比例的意义。公式为:Y为依因变量的数值为在自变量X的每个取值Xi上的因变量的均值。公式可转换为：相关比率E2检验采用的是F检验法,公式为:K为分组数目,n为样本规模，F的抽样分布取决于两个自由度,即df1=k1；df2=nk3、定距变量与定距变量用皮尔逊相关系数（或称皮尔逊积差相关系数）r公式为

16、：特点：首先，公式中X与Y是对等的，即将两者位置互换，r值不变，说明r是一种对称关系的测量；其次，可以证明r的取值范围在-1到1之间；第三,r的取值具有方向性;第四，r本身不具有消减误差比例的意义，而其平方r2(又称决定系数)具有消减误差比例的意义。当资料是分组资料时候公式为：f 为各组所对应的频数皮尔逊相关系数可以采用F检验的方法，也可采用t检验的方法，因为F=t2注意:1、各种相关测量的方法,目的是理解两个变量中“样本”中相关程度的强弱或大小。2、对各种相关系数所进行的相应的检验，目的是根据随机样本的资料推论两个变量中“总体”中是否相关。3、选择何种相关测量方法和何种检验方法，主要看两变量的测量层次，要依据变量的测量层次来确定合适的相关测量和检验工具。第四节回归分析回归分析（regression analysis)是对有相关关系的现象，根据其关系的形态找出一个合适的数学模型，即建立回归方程，来近似地表达变量间的平均变化关系，以便依据回归方程对未知的情况进行估计和预测。回归分析的对象是定距层次的变量.一元线性回归方程的建立1、依据理论分析或根据研究的需要确定两变量中哪一个为自变量,哪一个为因变量。2、以自变量为x轴，因变量为y轴作出表中资料的散点图，以判明两变量之间是否为线性相关.本章思考题1、名词解释：相关关系、因果关系、交互分类、消减误差比例、回归分析2、课后练习题.

展开阅读全文