资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,引子:在学统计学之前,我们需要了解的,为什么要学统计学?,统计学是什么?,如何学习统计学?,为什么要学统计学?,因为这是必修课!,几乎所有的社会科学、行为科学、生物学等,学科的学生和研究生都需要选修这门课。,事实上,社会调查与统计推论是大多数“社会科学”之所以称之为 “科学”的基石!,这是一门非常有用的课程!也许能帮助你找到一份满意的工作!,“一种科学只有在它成功地运用数学时,才算达到了真正完善的地步”,卡尔,马克思,四种获取知识的不同方式,:,权威法,依据权威提供知识与信息,经验法,依靠人的感官来获取知识,思辨法,依靠直觉、洞察和逻辑推理来获取知识,科学方法,同样依靠经验观察和逻辑推理,但科学的研究程序是其核心,统计学简史(续),大多数基本统计过程最初应用于农业、天文学、政治学领域,在人类行为领域的应用则比较晚。,现代统计学无论是在数学理论还是在应用范围上都得到了飞速发展,计算机及其相应的统计软件已经逐步成为统计工作者不可缺少的工具。,现代统计学既是一门独立的学科,同时也是一种方法论,不同的领域基本上使用相同的技术来回答不同的问题。,法兰西斯,高尔顿(,Francis Galton,,,1822.2.161911.1.17.,),统计学是什么?,概念与内涵,统计学是描述一系列可用于描述、整理和解释资料或数据的统计工具 和技术,统计学的基本分类:描述统计与推断统计,描述统计(,Descriptive Statistics,):用于整理、描述所收集的数,据的特征,推论统计(,Inferential Statistics,):利用较小群体的数据(样本)来,推论可能的较大群体(总体),,通过推论统计,我们可以解释数据。,如何学习统计学?,树立信心 培养兴趣 由浅入深 逐步推进,仔细阅读你的教材 按时完成练习,多多留意报刊、杂志甚至学术期刊上的统计实例,多多使用统计软件练习数据分析,Spss,统计软件下载链接,教材中使用的数据,开始学习之前的知识储备,什么是变量?,变量有哪些层次?,不同类型变量的统计表制作方法,概念(,Concept,):人们对事物本质的认识,是研究的基本单位,具有抽象性。,定义(,Definition,):将概念呈现、描述出来,从而明确认识对象。,操作化定义(,Operational definition,):用一系列可以观察、可以测量的指标来模拟或表述定义,使得非量化的概念得以运算并得以操作测量。,概念,抽象定义,操作化定义,都市化,现代都市的生活形态,妇女就业人数、子女数、交通;通讯手段等,个人现代化,一个人由于经济、工业等现代因素所产生的内部变化,对时间、效率、家庭、亲属、消费、自信等具体问题的看法,子代偏重,经济上、感情上和生活上对子代过分的偏重,子代抚育费与家庭平均消费的比较、子代过生日的花费与长辈生日花费的比较、花在子代闲暇时间的多少等,变量(,Variables,),在统计学中表示研究对象的特征,变量下的各种表现形式或不同取值,就是变量值。,变量,变量,变量值,性别,家庭子女数,重要性,文化程度,男;女,1,个;,2,个;,3,个;,非常重要;一般;不重要,大学;中学;小学;文盲,变量取值时注意的问题:完备性 互斥性,单变量分析,变量的分布(,frequency distribution,),分布,某个变量的变量值出现的次数或频次,也称频次分布。,例:家庭结构(变量,X,)可能的取值包括:,X,1,由父母和未婚子女组成的核心家庭,X,2,由父母和单一已婚子女组成的三代人家庭,即主,干家庭,X,3,由父母和多对已婚子女所组成的三代人家庭,即,联合家庭,如果我们将调查结果按照被访人的回答,分别归入上述三类,于是有以下三对数据:,(,X,1,,,n,1,),(,X,2,,,n,2,),(,X,3,,,n,3,),(,X,k,,,n,k,),其中,Xi,表示变量,X,的第,i,个取值;,ni,表示该取值所对应的次数,所谓分布,实际上就是这些对数据的集合,当,n,代表不同的含义时,表示不同的分布,如:当,n,表示概率时,称作概率分布,当,n,表示频次时,称作频次分布,当,n,表示百分比时,称作频率或相对频次分布,家庭结构,频次,核心家庭,1050,主干家庭,720,联合家庭,110,其 他,250,总 数,2130,家庭结构的频次分布,(,XX,地,,XX,年,XX,月),家庭结构,百分比,核心家庭,49.3,主干家庭,33.8,联合家庭,5.2,其 他,11.7,总和百分比,100,家庭结构的百分比分布,(,XX,地,,XX,年,XX,月,,N=2130,),正面次数,概率,0,1,2,3,4,5,6,7,8,9,10,0.00,0.01,0.04,0.12,0.21,0.25,0.21,0.12,0.04,0.01,0.00,抛,10,次硬币正面出现次数的概率分布,两变量关系,命题的研究,两个变量之间是否存在关系?关系的密切程度(强度)如何?,自变量(,independent variable,):也叫独立变量,由研究者主动操纵,或被研究者界定为不受其他变量影响,独立变化的变量。,因变量(,dependent variable,):也叫依变量,指受其他变量影响,随其他变量变化的变量。,自变量与因变量是就因果关系而言的,判断自变量与因变量的标准:,(,1,)时间的先后。由于后发生者无法影响先发生者,所以先发生者是自变量;,(,2,)变量的不变性与可变性。在社会研究中常将一些具有固定性、持久性的变量作为自变量。,变量间的因果关系,也称为非对称关系,这种非对称关系与自然科学所讲的因果关系有一定区别,后者的定义更为严格一些。,对于多变量的研究,情况更为复杂,它们除了两两之间可能存在联系,而且还可能存在网状、链状、一因多果或一果多因等多种联系,这些都属于更高层次的统计技巧。,1,、定类层次变量(,Nominal Variable,):变量取值只有类别属性之分,根据变量值,只能知道研究对象是相同或是不同。从数学运算特征来看,只具有等于或不等于(,=,、)的性质。例如:性别。,变量层次,2,、定序层次变量(,Ordinal Variable,):变量取值除了,有类别属性之外,还有等级,次序的差别,其数学,特性除了(,=,、)之外,还有大于或小于(),之分。例如文化程度、社会经济地位等。,2011,中国大学排行榜,10,中山大学,广东,综合,33.77,34.47,29.60,42.61,28,华南理工大学,广东,理工,16.73,15.36,14.10,33.21,63,暨南大学,广东,综合,8.20,6.94,7.03,18.79,71,华南师范大学,广东,师范,6.64,4.03,7.74,13.34,74,华南农业大学,广东,农林,6.15,6.17,5.85,6.03,102,南方医科大学,广东,医药,4.36,3.78,4.54,5.46,108,深圳大学,广东,综合,3.94,4.21,2.80,7.26,128,广州中医药大学,广东,医药,3.16,2.83,1.64,11.76,173,广州大学,广东,综合,1.84,2.06,1.21,3.40,名次,学校名称,所在省市,类型,总分,科学研究,人才培养,综合声誉,3,、定距层次变量(,Interval Variable,):变量取值除了有类别、次序属性之外,取值之间的距离还可以用标准化的距离去量度。其数学特性除了(,=,、;)之外,还可以进行加或减(,+,,,-,)。例如智商。,4,、定比层次变量(,Ratio Variable,):变量取值除了有上述三种属性之外,其取值还可以构成一个有意义的比率,其数学特性除了(,=,、;,+,,,-,)之外,还可以进行除法运算。例如年龄。定比变量和定距变量的差别在于前者有一个真正有意义的零点。,1,、高层次的变量包含低层次变量的数学特征。,变量层次的比较,2,、在社会学研究中,一般不区分定距和定比变量,而是当作一类,称作定距变量。,4,、变量的层次与社会实际衡量之间有可能存在着差距或不一致性,。,5,、根据研究内容不同,变量的层次也可能不同,3,、一个变量的层次并不是唯一的。高层次的变量可以作为低层次变量来使用,但是会使资料的信息使用不完全。,应用,如何制作不同类型的单变量统计表?,1,、定类单变量统计表,性别,频次,百分比,男,女,2747,1559,63.8,36.2,总计,4306,100,表,1,:微博用户的性别统计表,(,N=4306,),(资料来源:,SSI,在线样本库,调查地包括北京、上海、广州、深圳、成都、沈阳、西安、杭州八市),表头,表号,标识行,主体行,表尾,2,、定序单变量统计表,表,2,:微博用户的教育程度统计,(,N=4306,),受教育程度,频数,百分比,初中及以下,高中、职高、技校,大专,大学本科,研究生及以上,17,237,866,2752,434,0.4,5.5,20.1,63.9,10.1,总计,4306,100,(资料来源:,SSI,在线样本库,调查地包括北京、上海、广州、深圳、成都、沈阳、西安、杭州八市),3,、定距和定比单变量统计表,定距和定比变量的两种类型:,离散型变量,取值为有限个或列为有限个,如子女数,连续型变量,取值为有限或无限区间内的任意实数,即变量的取值,连续,如身高,若变量为离散型变量,且取值相对较少,可以按照定类或定序统计表方式统计频次或百分比。,若变量为连续型变量,则需要将变量值分为若干个区间或组,统计每一个组内的频次或百分比。,数据分组时需要考虑的几个问题:,A,组数,B,组距,C,组限,如何制作分组统计表,1,、确定组数:一般调查总数,N,与分组数有如下经验关系,调查总数,N,分组数,K,50100,610,100250,712,250,以上,1020,2,、确定组距:分为等距分组与非等距分组,一般来说为等距分组,等距分组组距计算公式:组距(,h,),=,(最大值,-,最小值),/,组数,斯特格斯(,Sturges,)经验公式确定组数:,K=1+3.322lgN,3,、确定组限:一个组的最小值叫下限,最大值叫上限,各组中心值,b,i,计算公式,4,、分组原则:不重复、不遗漏,组上限不在内,5,、中心值计算,缺上限开口组组中值,b,i,=,下限,+,邻组组距,/2,缺下限开口组组中值,b,i,=,上限,-,邻组组距,/2,收入组,组中值,百分比,1000,元以下,20.2,1000-2000,1500,45.1,2000-3000,2500,22.8,3000-4000,3500,7.6,4000,元以上,4.3,*地区残疾人月收入统计表,(,N=1000,),500,4500,分组统计表例表,例:某车间,50,名工人日加工零件数,117 122 124 129 139 107 117 130 122 125,110 118 123 126 133 134 127 123 118 112,108 131 125 117 122 133 126 122 118 108,112 134 127 123 119 113 120 123 118 112,137 114 120 128 124 115 139 128 124 121,分组步骤:,1,、确定组数:,K=1+3.322lg507,2,、计算组距,:h=(L-S)/K=(139-107)/7=4.6 5,3,、确定组限,编制频数分布表,组号,日加工零件数,中心值,频数,频率(,%,),累计百分比,%cf,1,105-110,107.5,3,6,6,2,110-115,112.5,5,10,16,3,115-120,117.5,8,16,32,4,120-125,122.5,14,28,60,5,125-130,127.5,10,20,80,6,130-135,132.5,6,12,92,7,135-140,137.5,4,8,100,合计,50,100,表,1,:工人日加工零件频数分布表,第,部分:描述统计,(Descriptive Statistics),集中趋势量数,变异性量数,统计图,相关系数,信度和效度,第二章 必须完成的功课,计算和理解平均数,集中趋势量数,均值,众数,中位数,如何选择适合的集中趋势量数,三种选择集中值的做法:,1,、根据频次:哪个变量值具有的频次最多,就选择哪个变量值。,2,、根据居中:变量排序后,选择处于中间位置的变量值。,3,、根据平均:计算变量的平均值作为集中值。,集中趋势量数(,measures of central tendency,),定义,在描述一组数据时,用某一个典型的变量值或特征值来代表全体变量,这个典型的变量值或特征值被称作集中值或集中趋势量数。,问题:我们在上节课中学习了通过统计表,用若干个数字,如频数或百分比来简化变量的资料分布。我们是否能对数据做进一步简化?,X,为数据中每个具体的数值,n,为样本数,均值(,mean,),1,、根据原始资料求均值,商店名,年顾客数量,兰哈姆公园商店,2150,威廉斯堡商店,1534,下城商店,3564,表,2.1,三个不同商店的消费者数,均值也叫典型平均数或中心值,总体均值我们常用希腊字母 表示,样本的均值我们常用罗马字母 表示。,样本均值是非常准确地反映总体均值的集中趋势量数,只能用于定距变量,均值是数据的中心点,均值一边的数据等于另一边的所有数据,公式中的小写字母,n,表示用于计算均值的样本的规模,大写字母,N,一般用于表示总体规模。有些时候,对于两者不加以区分。,有关均值,我们需要了解的:,均值对极值(最大值或最小值)非常敏感。极值会使得均值向一方或另一方倾斜,也使得均值对数据组的代表性减弱,同时作为集中趋势量数的有效性减弱。,数据跷跷板上的支点,2,、根据频次分布求均值,n,1,X,1,表示变量值,X,1,与它对应频次,n,1,的乘积,n,2,X,2,表示变量值,X,2,与它对应频次,n,2,的乘积,n,k,X,k,表示变量值,X,k,与它对应频次,n,k,的乘积,数值,频数,97,4,94,11,92,12,91,21,90,30,89,12,78,9,60,1,总计,100,表,2.2,飞行员飞行熟练程度测验结果统计表,3,、根据分组数据求均值,计算公式:,其中,,b,i,为第,i,组的组中值,n,i,为第,i,组的频次,组号,日加工零件数,频数,(n,i,),1,105-110,3,2,110-115,5,3,115-120,8,4,120-125,14,5,125-130,10,6,130-135,6,7,135-140,4,合计,n,i,=50,表,1,:工人日加工零件频数分布表,中心值(,b,i,),b,i,n,i,107.5,322.5,112.5,562.5,117.5,940.0,122.5,1715.0,127.5,1275.0,132.5,795.0,137.5,550.0,b,i,n,i,=6160,根据中心值计算的均值(,123.2,)与原始数据计算的均值(,122.2,)相比,有一定误差,但对于社会学研究来说,其精度已经可以接受。,定义:将数据按从小到大或从大到小的顺序排列,位于中间位置的数值,就是中位数。,中位数(,Median,),1,、根据原始资料求中位数,当数值的个数是偶数时,中位数即是中间两个数值的平均值,当数值的个数是奇数时,中位数即是中间位置的数值,例:,5,个家庭的收入,135456,25500,32456,54365,37668,6,个家庭的收入从低到高排列:,25500,;,32456,;,37668,;,34500,;,54365,;,135456,2,、根据频次分布求中位数,n,为样本数,当,n,为奇数时,,成绩,频次,累计频次,百分比,累计百分比,A,10,10,2%,2%,B,210,220,42%,44%,C,195,415,39%,83%,D,85,500,17%,100%,小计,500,100%,表,2.3,某班英语成绩统计表,当,n,为偶数时,,3,、根据分组数据求中位数,组界,频次,累计频次,cf,累计百分比,cf%,0.2-0.4,0.4-0.6,0.6-0.8,121,363,36.3,0.8-1.0,182,545,54.5,1.0-1.2,下界值,L,上界值,U,下界累计百分比,L%,上界累计百分比,U%,(,1,)根据统计表中的累计百分比,找出含有,50%,的区间,(,2,)求出含有,50%,区间的上界值,U,、下界值,L,、上界累计百分比,U%,,下界累计百分比,L%,和组距,h,(,3,)利用线性插值法,求出累计百分比为,50%,的变量值,表,2.3,某校学生视力统计表(,N=1000,),0.8 1.0,L U,U%54,5%,50%,L%36.3%,X,利用该公式,可以计算,10%,、,25%,、,75%,等任何一个分位点的变量值,只需将公式中的,50%,换成相应分位数即可,中位数与均值的比较,均值用于定距变量,中位数用于定序变量。均值是一系列数值的中间点,中位数是一系列个体的中间点。,均值和中位数哪个能更好地代表数据?在极值存在的情况下(极值也叫奇异值,指与数据其他值差异很大的数值,通常为极大值或极小值),极值会明显地扭曲一个数据组或数据分布的中心点。这时候,中位数比均值更能代表数据集。,例如,5,个家庭收入按从低到高排列:,25500,;,32456,;,37668,;,54365,;,135456,中位数,37688 VS,均值:,57089,哪一个能更好地代表这,5,个家庭的收入水平?,在贫富差距悬殊的地区,大多数与收入相关的社会和经济指标,一般使用中位数作为集中趋势量数,而不是均值。,定义:某个数据中出现次数最多的数值,众数(,Mode,),政党背景,次数或频数,民主党,90,共和党,70,无党派人士,140,M,o,:无党派人士 还是,140,?,1,、众数,频次,2,、若每个数值出现的次数相同,则没有众数,3,、若出现次数最多的数值不止一个,则该数据为多峰分布,三种集中趋势量数的比较,均值,中位数,众数,适用于定距或定比变量,主要适用于定序变量,主要适用于定类变量,最稳定,较均值的稳定性差,最不稳定,计算时要用到全部数据,只需中间的数据,可最快速求出,受极端值的影响,对极端值不敏感,有时候对个别值的变动也很敏感,分组变化时影响不大,分组变化时有些影响,分组变化时影响较大,首先看变量的层次,看数据的类型。高层次的变量可以用低层次的量数来测量。,如果是分类数据,就使用众数,如果数据中包含极值,平均数有可能被扭曲,中位数可以更好地反应数据,如果是定距层次变量,而且不包含极值,使用均值的精确性更高,究竟选择哪种集中趋势量数?,第三章:性别差异,理解变异性,为什么变异性是有用的描述工具,如何计算极差、标准差和方差,标准差和方差如何类似,又如何不同,变异性量数,反应数值之间的不同,集中趋势量数,用一个数值代表一组数据,以下三组数据:,第一组:,7,,,6,,,3,,,3,,,1,第二组:,3,,,4,,,4,,,5,,,4,第三组:,4,,,4,,,4,,,4,,,4,平均数和变异性可共同用于描述数据分布的特征,并说明数据分布之间的差异,比较结果:,三组数据的均值相同,都等于,4,但三组数据的差别程度不同,第一组数据数值之间的差别最大,其次是第二组,第三组数值之间没有差别,三种反应数据变异性或离散度的量数,1,、极差(,Range,),2,、标准差(,Standard Deviation,),3,、方差(,Variance,),定义,测量一组数据中每个数值和特定数值间的差异程度的量数。通常情况下,变异性测量数据中每一个数值与均值的差异性。,变异性(离散)量数,极差(,range,),定义:数据分布中的最大值减去最小值,公式:,r=,h-l,极差的类型:,1,、不包含极差:,r=,h-l,2,、包含极差:,r=h-l+1,极差的含义:表示数据分布中最大值到最小值的距离,r,为极差,h,为数据中的最大值,l,为数据中的最小值,极差是对数据离散程度非常笼统的估计,虽然作为变异性的一般指标很好,但是不能用于得出任何关于具体的数值之间相互差别的结论。,离均差:数据与均值之差,仅由最大值和最小值两个数据来评判一组数据是不够的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。,由于离均差的平方和与样本个数有关,只能反应相同数目样本的离散度,而实际工作中做比较很难做到相同数目的样本,因此为了消除样本个数的影响,增加可比性,将离均差的平方和求平均值,这就是我们所说的方差。,方差(,Variance,),由于方差是数据的平方,与观测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来。这就是标准差,。,其中,,X,是具体数值,,是所有数值的均值,n,为样本规模,标准差(,s,或,SD,),含义,将数据中的每一个值与均值的偏差标准化,表示数据值与均值的平均距离。标准差越大,每一个数据点与数据分布的均值的平均距离越大。,公式(无偏估计总体标准差),公式(样本标准差,/,有偏估计总体标准差),对公式的理解,1,、为什么要平方?,消除负号,2,、为什么要取平方根?,回归原有计算单位,3,、为什么除以(,n-1,),若犯错,则由于对总体标准差作出过高估计,有偏估计,VS,无偏估计,当目的是描述样本特征时,可以使用有偏估计,当目的是想用样本估计总体参数时,最好使用无偏估计,当样本规模变大(并且逐渐接近总体规模)时,无偏估计和有偏估计之间的差异会越来越小,根据频次分布求标准差,根据分组数据求标准差,用中心值代替变量,X,i,关于标准差,我们必须记住的,标准差是数据中每一个数值与均值之间的平均距离,标准差越大,数值分布越广,数值之间的相互差异越大,和均值一样,标准差对极值很敏感。当数据中存在极值时,在计算样本的标准差时,应当在数据报告中注明极值的存在,如果标准差等于,0,,说明数据中没有变异性,所有的数值完全一致,说明数据是一个常数,不是变量。,标准差,VS,方差,1,、相同之处:都是表示数据变异性、离散度的量数。,2,、不同之处:,A,标准差以最初的计算单位存在;而方差以平方单位存在;,B,标准差用于解释数据偏离均值的平均差异;,C,方差一般不用于描述性统计,但方差在统计中广泛应用,第四章:一幅图真的相当于千言万语,统计图,用图形的形式表示变量的分布。与统计表相比,统计图更为直观与形象,但不及统计表精确。,根据变量的层次,可以选择不同的统计图形,定类变量:饼图、条形图,定序变量:条形图,定距变量:直方图、折线图,饼图(,Pie Chart,):,定义:将资料展示在一个圆平面上,用圆形表示现象的总体,用扇形瓣表示现象中的一种情况,其大小代表变量取值在总体中所占的百分比。,手绘饼图的方法:将统计表中各类别的百分数乘以,360,。,,即可得各类别扇形圆心角度数。,例如:不同种族的贫困儿童数量百分比(,P48,),黑人,25%,白人,61%,其他,14%,对应圆心角度数:,黑人:,0.25,360,。,=90,。,白人:,0.61,360,。,=219.6,。,其他:,0.14,360,。,=50.4,。,SPSS,绘制饼图步骤(,1,),点击“图形”,旧对话框,饼图定义,见到如右对话框,点击“确定”,将饼图分析的变量拉入框内,可以在“标题”部分设置图表标题及尾注,SPSS,绘制饼图步骤(,2,),双击饼图,进入“图表编辑器”。,在元素栏勾出“数据标签模式”,然后点击饼图中的各部分,显示各部分百分比。,SPSS,绘制饼图步骤(,3,),双击饼图中的数据部分,进入“属性”对话框,可以对数据显示的格式、布局、样式等进行调整,SPSS,绘制饼图步骤(,3,),双击饼图中的色彩部分,进入“属性”对话框,可以对图表大小、颜色、边框、类别排列、深度角度、变量等进行设置,SPSS,绘制饼图步骤(,4,),输出结果显示,条形图(,Bar Chart,):,定义:用长条的高度来表示类别的频数或百分比,长条的宽度没有意义,一般都是等宽。长条既可以画成平行于横轴,也可以画成平行于纵轴。如果是定类变量,图形画作离散的长条;如果是定序变量,则长条的排列次序应与变量取值的次序相一致,且图形可画作紧挨着的长条或离散的长条。,SPSS,绘制条形图步骤(,1,),点击“图形”,旧对话框,条形图定义,见到如右对话框,将,X,轴类别变量拉入对话框,SPSS,绘制条形图步骤(,2,):,双击条形图,进入“图表编辑器”。,在元素栏勾出“数据标签模式”,然后点击条形图中的各条,显示各类别百分比。,SPSS,绘制条形图步骤(,3,),双击条形图中的数据部分,进入“属性”对话框,可以对数据显示的格式、布局、样式等进行调整,双击条形中的色彩部分,进入“属性”对话框,可以对图表大小、颜色、边框、类别排列、深度角度、变量等进行设置,SPSS,绘制条形图步骤(,4,),直方图(,Histogram Chart,),定义:适用于定距变量,以长条的面积(长与宽的乘积)来表示数据的频次分布。从图形上看,直方图也是由紧挨着的长条所组成,但与条形图不同,直方图中条形的宽度是有意义的,表示组距。,50,个阅读理解考试成绩分布直方图(数据参见,P34,),手绘直方图的步骤,:(,P34-P38,),1,、分组建立频数分布:,2,、绘制直方图:条形的宽度为组距,条形的高度,=,每组频次,/,组距,当分组为等距分组时,可以使用每组的频次作为条形的高度。,SPSS,绘制直方图步骤(,1,):,注意:,SPSS,绘制直方图时,使用的是等距分组方法,条形的高度为每组的频次。,将,X,轴变量拉入对话框,点击“图形”,旧对话框,直方图,见到如右对话框,SPSS,绘制直方图步骤(,2,):,输出结果显示,折线图(,Line,),定义:适用于定距变量。,大多适用于随时间变化的连续数据,SPSS,绘制折线图(,P47-48,),设置横轴,设置纵轴,点击“图形”,旧对话框,折线图,见到如右对话框,图表输出显示,关于直方图,扁平和细长的频数分布,从四个方面推断数据分布之间的差异:平均值、变异性、偏度、峰度,概念回顾,分布,某个变量的变量值出现的次数或频次,也称频次分布。,对于定距变量,我们将直方图每组的中点连起来,形成折线图,当组距逐渐减小时,折线将逐渐平滑为曲线,曲线的面积表示频数。,频数,组距,身高,(,mm,),频数分布中的平均值差异,频数,分布,A,均值,分布,B,均值,分布,C,均值,分布,A,分布,B,分布,C,频数分布中的变异性差异,分布,A,标准差,S,1,分布,B,标准差,S,2,分布,C,标准差,S,3,频数,偏度(,skewness,),对数据分布对称性缺失或分布不平衡的测量,频数,分布,B,无偏度,分布,A,正偏度,分布,C,负偏度,正偏度:右侧尾偏长,大数值发生频数较小,均值大于中位数,负偏度:左侧尾偏长,小数值发生频数较小,均值小于中位数,峰度(,kurtosis,),显示与正态分布相比,是扁平或是陡峭。,频数,分布,C,高狭峰,分布,B,无峰度,分布,A,低阔峰,低阔峰数据更分散(变异性大),高狭峰数据更集中(变异性小),例如:,X,分布:,=100,,,M=105,,,S=10,,则,SK=-1.5,Y,分布:,=120,,,M=116,,,S=10,,则,SK=1.2,M,是中位数,S,是数据分布的标准差,用于描述偏度的数学指标,指标:皮尔逊偏度量数,是均值,结论:,X,为负偏态分布,,Y,为正偏态分布,且,X,比,Y,更倾斜,用于描述峰度的数学指标,是均值,S,为标准差,n,为样本规模,K,0,正峰态,数据分布为高狭峰,K,0,负峰态,数据分布为低阔峰,K=0,正态分布或常数分布,用,SPSS,计算数据分布的峰度与偏度,点击“分析”,描述统计 描述出现 如右对话框,将变量名点入右边框内,点击,“,选项”,用,SPSS,计算数据分布的峰度与偏度,点击“选项”,出现如右对话框,勾上峰度,偏度,然后点击“继续”,用,SPSS,计算数据分布的峰度与偏度,输出结果,第五章:冰激凌和犯罪,计算相关系数,社会学研究,不但需要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。,某地区青年人文化程度统计表,文化程度,人数,大学,中学,小学,145,210,145,某地区青年文化程度代际统计表,父辈文化,子辈文化,大学,中学,小学,大学,中学,小学,118,18,9,37,130,43,15,32,98,问题:父辈的文化程度是否会影响到子辈的文化程度?换句话说,是否因为父亲的文化程度不同,子女的文化程度也不同?,相关,一个变量的值与另一个变量的值有连带性。,换句话说,如果一个变量的值发生变化,另一个变量的值也有变化,则两个变量就相关。,变量与变量之间的相关程度(,degree of correlation,)有强弱和方向之分,可以用统计法予以测量。,相关测量法(,measure of correlation,)就是以一个统计值表示变量与变量之间的关系,这个值通常被成为相关系数(,Correlation Coefficient,),相关系数的定义:反映两个变量之间共变关系的数值性指标,相关系数有很多种,值域范围大多在,-1,到,1,之间,相关系数的绝对值大小代表变量之间相关的程度;相关系数的正负代表变量相关的方向。通常我们根据变量的不同类型选择不同的相关系数进行测量,皮尔逊积距相关(,Pearson product-moment correlation,),用于测量两个定距变量之间的相关,用小写字母,r,来表示,,r,的下标表示相关的两个变量,例如:,r,XY,表示变量,X,和变量,Y,之间的相关系数;,r,weight,-height,表示身高和体重之间的相关系数,r,至少需要两个数据点才能进行计算,r,的值域范围是,【-1,,,1】,r,的绝对值反应相关的强度,绝对值越大,变量间的相关性越强,r,的符号表示相关关系的方向,即两变量间是正相关还是负相关,正相关,/,直接相关,(,positive correlation/direct correlation,),变量,X,的变化方向与变量,Y,的变化方向相同(同增或同减);,负相关,/,间接相关,(,negative correlation/indirect correlation,),变量,X,的变化方向与变量,Y,的变化方向相反(,X,减,Y,增或,X,增,Y,减),变量,X,的变化,变量,Y,的变化,相关关系的类型,数值,例子,X,值增大,Y,值增大,正向的或直接的,正值,(,0,,,1】,用于学习的时间越多,考试成绩提高得越多,X,值降低,Y,值降低,正向的或直接的,正值,(,0,,,1】,在银行存的钱越少,所得的利息越少,X,值增大,Y,值降低,负向的或间接的,负值,,【-1,,,0,),运动得越多,体重越轻,X,值降低,Y,值增大,负向的或间接的,负值,,【-1,,,0,),完成考试的时间越少,所犯的错误越多,相关关系的类型和相应变量之间的关系,皮尔逊相关系数,r,的计算,公式:,例:,P59,X,(家庭劳动人口数),Y,(家庭每年外出旅游次数),2,3,4,2,5,6,6,5,4,3,7,6,8,5,5,4,6,4,7,5,9,名女青年受教育年数与家务劳动时间调查结果,被访者,受教育年限(,X,),家务劳动小时(,Y,),A,2,5,B,2,4,C,3,4,D,3,3,E,4,1,F,4,1,G,4,0,H,6,0,I,8,0,总数,36,18,XY,X,2,Y,2,10,4,25,8,4,16,12,9,16,9,9,9,4,16,1,4,16,1,0,16,0,0,36,0,0,64,0,47,174,68,相关的图示表达:散点图(,scatter-plot,),0,1,2,3,5,4,6,7,8,1,2,3,4,5,7,6,8,数据点(,2,,,3,),手绘散点图步骤:,1,、绘制坐标轴,自变量,X,在横轴,因变量,Y,在纵轴。,2,、根据变量值标注刻度,3,、对应数值标注数据点,散点图告诉我们什么?,为我们描述变量间的相关关系,图形,1,:当散点图形成一条正向斜率的直线时,X,与,Y,之间的关系可用函数关系式,Y=a+bx,来表示 其中,b,为正值,皮尔逊相关系数,rxy=1,,,X,与,Y,完全正相关,对于每个,X,值,只有一个,y,值与之对应,例如:正方形的边长,X,与正方形的周长,Y,Y=4X,图形,2,:当散点图形成一条负向斜率的直线时,图形,1,:当散点图形成一条负向斜率的直线时,X,与,Y,之间的关系可用函数关系式,Y=,a+bx,来表示 其中,b,为负值,皮尔逊相关系数,rxy,=-1,,,X,与,Y,完全负相关,对于每个,X,值,只有一个,y,值与之对应,图形,3,:当散点图沿着正向的斜率排列时,X,与,Y,是正向的强相关,有同增、同减的共变关系,皮尔逊相关系数,r,xy,(0,1),X,与,Y,值并非严格一一对应,图形,4,:当散点图沿着负向的斜率排列时,X,与,Y,是负向的强相关,有此消彼长的共变关系,皮尔逊相关系数,rxy,(-1,,,0),X,与,Y,值并非严格一一对应,相关系数的绝对值反应相关的强度,越大表明,X,与,Y,的关系越接近线性分布,图形,5,:当散点图均匀散布时,X,与,Y,是不相关,两者不存在共变关系,皮尔逊相关系数,rxy,=0,图形,6,:当散点图显示出类似曲线的分布时,X,与,Y,的关系是非线性的,,Y,值随着,X,的增大,先增大后变小,此时我们不使用描述线性相关的,r,值来衡量,X,与,Y,的相关性,因为非线性关系下算出的,r,值会非常小,甚至为零,相关矩阵,多个变量间的相关,N,个变量中,每,2,个变量就会形成一个相关系数,一共会出现多少个相关系数?,收入,教育,态度,选举,收入,1.00,.574,-.08,-.291,教育,.547,1.00,-.149,-.199,态度,-.08,-.149,1.00,-.169,选举,-.291,-.199,-.169,1.00,相关系数的含义:,r,说明了什么?,解释一:判断两变量间的相关强度,相关系数的大小,一般解释,.8-1.0,非常强的相关,.6-.8,强相关,.4-.6,中度相关,.2-.4,弱相关,.0-.2,弱相关或无关,相关系数的含义:,r,说明了什么?(续),解释二:计算决定系数,r,2,(,coefficient of determination,),显示一个变量的方差可以被另一个变量的方差解释的百分比。,方差表示变量的差异程度,如果方差得到了解释,那么变量的差异也得到了解释,如果两个变量共享的特征越多,他们就越相关,也就是说,两个变量如果共享的方差越大,这两个变量就越相关。,相关系数,决定系数,变量,X,变量,Y,r,xy,=0,r,2,xy,=0,r,xy,=0.5,r,2,xy,=0.25,或,25%,r,xy,=0.9,r,2,xy,=0.81,或,81%,当我们用一个变量,X,来解释另一个变量,Y,时,决定系数显示出可以通过,X,的方差来解释,Y,的方差的百分比。决定系数越大,越可以通过,X,的变化来解释,Y,的变化。,相关系数的含义:,r,说明了什么?(续),解释三:相关
展开阅读全文