资源描述
母版标题样式,单击此处编辑母版文本样式,第二级,管理学院,汇报提纲,数据的分类,统计方法的分类体系,各种统计方法简介,推荐书目,1 数据的分类,定类变量(名义数据),定序变量(等级数据),定距变量(间距数据),定比变量(比例数据),非测量型,测量型,2 统计方法的分类体系,关系类型?,因果模型,因变量数?,非测量型,多元回归,单因变量,Logistic,回归,因变量类型?,鉴别,分析,测量型,非测量型,自变量类型?,测量型,对数线,性模型,多重因,果关系,有,有否潜变量?,结构方,程模型,路径,分析,无,典型相,关分析,因变量类型?,多因变量,测量型,非测量型,自变量类型?,测量型,非测量型,多元方,差分析,虚拟变量典,型相关分析,相依模型,变量类型?,测量型,关系结构类型?,变量之间,聚类,分析,因子,分析,类别结构,对应,分析,非测量型,案例之间,A:截面数据,2 统计方法的分类体系,事件史分析,B:时间序列数据,连续时间模型,离散时间模型,Cox比例风险模型,Logit 模型,事件历史分析的主要目的是研究某一事件发生的方式和它的决定因素。,指数模型,Gompertz模型,Weibull模型,加速失效时间模型,3.1 因子分析,主要功能:缩减变量数(降维),基本步骤:,计算所有变量相关矩阵,判别是否适合因子分析,(相关矩阵大部分相关系数大于0.3适合;反映像相关矩阵很多元素值较大不适合;Bartlett test of sphericity显著;KMO0.7以上),提取公共因子,(常用主成分分析法),因子旋转,(便于为公共因子命名,常用Varimax),一种重要用法:评价,3.2 聚类分析,主要功能:对研究对象进行分类,基本步骤:,选择变量,(注意克服“加入尽可能多的变量”的倾向;所选变量之间不应高度相关),计算相似性,(相关测度,pearson相关系数,;距离测度,欧式距离*、绝对值距离、明科夫斯基距离、马氏距离,;关联测度*,简单匹配系数、雅克比系数、果瓦系数,),聚类,(层次聚类聚集法、分解法;迭代聚类/快速聚类),聚类结果的解释与证实,3.4 多元线性回归,主要功能:分析一个测量型因变量与多个自变量之间的线性关系,注意事项:,因变量必须是测量型随机变量,若自变量为非测量型,则需设置,虚拟变量,重点是回归模型的各项检验,(整体线性拟合度检验,方差分析+判定系数R2,;回归系数的检验,T检验,;多重共线性的检验,容忍度和方差膨胀系数,;残差项异方差检验和自相关检验),难点:多重共线性、异方差和自相关的诊断和排除,3.5 Logistic回归,主要功能:分析一个定性因变量与多个自变量之间的关系,注意事项:,因变量是非测量型二值变量;若自变量为非测量型,也需设置,虚拟变量,重点是回归模型的各项检验,(整体检验,对数似然比的卡方检验,;回归系数的检验,Wald统计量的卡方检验,;系数子集的联合假设检验,对数似然比的卡方检验,),难点:回归系数的解释,(以logit p方程的线性表达式来解释;以发生比的指数表达式解释,),3.6 鉴别分析,主要功能:进行统计鉴别和分组,(根据一些已经分组的已知案例建立鉴别函数,然后根据鉴别函数对所有案例重新分组),注意事项:,因变量是非测量型的分组变量,;,自变量是用以分组的特征变量称为鉴别变量,重点掌握鉴别分析模型即鉴别函数的各参数指标及统计检验,(非标准化鉴别系数、标准化鉴别系数;结构系数/鉴别负载;鉴别力指数/方差百分比、残余鉴别力WilkS lambda;Fisher鉴别系数),3.7 对数线性模型,主要功能:,通过数学方法来描述多个分类变量的交互频数分布;可以在控制其他变量的情况下研究任意两个变量之间的关联,注意事项:,对数线性模型包括三类分析程序:分层模型分析,(从饱和模型入手得到简约模型),、一般模型分析,(检验简约模型能否准确拟合观测数据并推断总体),和logit 模型分析,(直接服务于分类变量之间的因果关系),运用不同的模型,变量设置、项目设置均不同,能够提供的功能类型也不同,(,整体检验,、,分层检验、单项偏关联检验、自动筛选,、,参数估计、Z值、置信区间、观测频数、期望频数、残差,),3.8 典型相关分析,主要功能:两组变量之间的相关分析,注意事项:,它描述的是两个,变量组,之间的,整体的,相关形式;,要求两组变量之间为线性关系,即每对典型变量之间为线性关系;每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化(如取对数);所有观测变量为定量数据,定性数据按照一定形式设为虚拟变量后也可放入典型相关模型中进行分析,3.9 多元方差分析,主要功能:同时分析和检验不同类别在多个测量型变量上是否存在显著差别,注意事项:,因变量有多个且必须是测量型变量,自变量是非测量型变量,因变量应为正态分布且方差相等,而且需要存在一定程度的线性相关,例:Income、EduRatio、Natinality、Rural可构建单因素二元模型、双因素二元饱和模型、双因素二元非饱和模型,3.10 路径分析,主要功能:确定多个变量之间的因果关系是否存在或因果关系强弱程度,注意事项:,实质内容就是计算路径系数,(,=标准回归系数,可通过回归分析得到,),、残值项路径系数,(=根号下1-R2,通过回归分析得到的R2手工计算),更重要的功用,是通过,对变量间的简单相关系数进行分解,(=直接效应+间接效应+虚假相关+未析部分),,,从而获得变量间相互作用的更深刻认知,路径分析的检验是,通过回归分析中对标准回归系数的T检验,实现的,3.11 结构方程模型,主要功能:确定多个变量之间的因果关系是否存在或因果关系强弱程度,基本步骤:,模型设定,(应根据理论或以往研究成果设定初始模型),模型识别,(判定模型能否求出参数估计的唯一解:数据点的数目不能少于自由参数的数目),模型估计,(最大似然估计、广义最小二乘估计),模型评价,(GFI、AGFI、NFI、NNFI、IFI、CFI、RMSEA),模型修正,软件:LISREL,AMOS,3.12 离散时间Logit模型,主要功能:研究离散时间单位下的某一事件的发生与否及其决定因素,注意事项:,首先要对原始数据进行预处理,建立,人年(person year)数据文件,然后运用,Logistic回归模型,分析,例:晋升否、进入公司时间长短、进入前有否工作经验、性别,3.13 Cox比例风险模型,主要功能:研究连续时间单位下的某一事件的发生与否及其决定因素,注意事项:,首先要对原始数据进行,预处理,,建立,人年(person year)数据文件,然后利用“分析生存Cox regeression”进行分析,例:已婚妇女初育间隔、学历、结婚年龄,3.14 其他一些连续时间模型,指数模型,常被称为单纯模型,因为它假设事件发生的概率为常数,Weibull模型,b3被限制为必须大于1,Gompertz模型,随机变量t服从Gompertz分布,加速失效时间模型,随机扰动u有四种分布:正态分布、logistic分布、极端值分布、对数伽玛分布,故T得分布也有四种,如果研究者认为研究方案中的时间单位最好按离散方式描述,就采用,离散时间logit模型,对于连续时间模型,如果可以认为风险函数是随时间单调变化的,可以考虑选用,Weibull模型或Gompertz模型,;若果认为风险函数不是单调变化的,可以考虑,对数正态、对数logistic或Cox比例风险模型,事件史模型的选择,4 推荐书目,郭志刚、社会统计分析方法spss软件应用、中国人民大学出版社、1999,翁定军、社会定量研究的数据处理原理与方法、上海大学出版社、2002,薛薇、统计分析与SPSS的应用、中国人民大学出版社、2001,朱顺泉、管理科学研究方法统计与运筹优化应用、清华大学出版社、2007,
展开阅读全文