资源描述
统计方法简介统计方法简介主要内容主要内容n n第一讲第一讲 数据处理方法数据处理方法 1.数据是否来自于正态总体检验与变换 2.数据中异常值的检验方法 3.指标间的相关性检验或独立性检验 4.多维数据的有效简化方式降维法 5.对某一主要研究指标的影响因素分析 方差分析 主要内容主要内容n n第二讲第二讲 线性模型建立的过程及线性模型建立的过程及SPSSSPSS实现实现 1.1.一元回归分析与有效性诊断一元回归分析与有效性诊断 2.2.多元回归分析与有效性诊断多元回归分析与有效性诊断 3.3.曲线回归与诊断曲线回归与诊断n n第三讲第三讲 统计分类与模式识别及统计分类与模式识别及SPSSSPSS实现实现 1.1.聚类分析聚类分析 2.2.判别分析判别分析 3.3.因子分析因子分析 参考书参考书n n应用统计 陆璇 编著 清华大学出版社n n多元统计分析何晓群 编著 中国人民大学出版社数据是否来自于正态总体数据是否来自于正态总体检验检验n n问题的提出 有n个数据,问是否他们 来自某一个正态总体?n n检验方案一:正态概率纸(正态概率纸(Q-QQ-Q图)图)vv顺序统计量、秩与经验分布函数vv经验分位数与理论分位数vv利用经验分位数与理论分位数检验数据的正态性Q Q-Q Q图图的的S SP PS SS S实实现现n n检验方案二:皮尔逊卡方检验皮尔逊卡方检验 vv 零假设:vv 检验统计量vv检验统计量的渐进分布vv检验准则:拒绝域正态化变换正态化变换Box-CoxBox-Cox变换变换n n当检验发现数据不具有正态性时,为将来进一步处理数据或建立模型上的方便,可以对数据进行Box-Cox变换,使之具有正态性。这个变换是:其中,是一个合适的实数。数据中异常值的检验方法数据中异常值的检验方法n n 准则 若数据来自于正态总体 ,则区间 以外的点为疑似异常点。n n在实际判别时:指标间的相关性检验指标间的相关性检验n nPearson相关系数检验相关系数检验(有正态性有正态性)vv零假设:(X与Y无线性关系)vv检验统计量:其中vv检验统计量的分布:vv检验准则:拒绝域n nSpearman 秩相关检验秩相关检验(无正态性无正态性)vv零假设:vv检验统计量:其中vv检验统计量的分布:vv检验准则:拒绝域相关性检验的相关性检验的SPSS实现实现Pearson相关系数检验结果相关系数检验结果Spearman相关检验结果相关检验结果多维数据的简化方式多维数据的简化方式降维法降维法n方法一:独立性检验独立性检验v正态总体的情形:PearsonPearson相关系数检验相关系数检验v总体分布未知的情形:Spearman Spearman 秩相关检验秩相关检验n n方法二:主成分分析主成分分析vv主成分法的基本原理目标目标1 1 消除变量间的相关性目标目标2 2 降维以使问题简化vv主成分分析数学模型vv主成分的获取方法主成分的获取方法 计算样本的相关系数阵计算样本的相关系数阵 求相关系数阵的特征值和特征向量求相关系数阵的特征值和特征向量 特征值为新组合变量的方差(信息)特征向量为新组合变量的组合系数n n保留主成分法则保留主成分法则 (1)累积贡献率法 (2)特征值的阀值1法v样本相关系数阵样本相关系数阵 与 的样本相关系数 与 的样本相关系数vv主成分分析在主成分分析在SPSSSPSS中的实现中的实现v主成分分析的应用主成分分析的应用分类分类:利用第一和第二主成分排序排序:利用第一主成分 1)系数大于零 2)贡献率足够大 主成分回归主成分回归:消除变量间的共线性散点图散点图(scatter plot)排序排序(Sort)影响因素分析影响因素分析方差分析方差分析n n单因素方差分析单因素方差分析vv模型 1)2)vv零假设 vv数据表v平方和分解平方和分解总平方和总平方和组间平方和组间平方和组内平方和组内平方和vv检验统计量 其中 是组间平方和 是组内平方和vv统计量的分布vv拒绝域vv方差分析表 source df SS MS F prF Model Error Totalvv单因素方差分析得单因素方差分析得SPSSSPSS实现实现n n双因素方差分析双因素方差分析vv数据表数据表v模型模型1)2)v假设检验:假设检验:1)因子)因子A没有显著效应没有显著效应2)因子)因子B没有显著效应没有显著效应3)因子)因子A与与B没有显著的交互效应没有显著的交互效应v平方和分解平方和分解总平方和总平方和因子因子A平方和平方和交互效应平方和交互效应平方和误差平方和误差平方和因子因子B平方和平方和vv检验统计量及其分布v方差分析表方差分析表v双因素方差分析的双因素方差分析的SPSSSPSS实现实现一元回归模型的建立过程n n观察因变量与自变量的散点图观察因变量与自变量的散点图n n确立要拟合的线性模型确立要拟合的线性模型 其中其中 模型误差的假设条件模型误差的假设条件:独立性独立性 等方差性等方差性 正态性正态性n由最小二乘法估计模型中的系数由最小二乘法估计模型中的系数 n残差(误差)平方和n对模型进行显著性检验对模型进行显著性检验vv决定系数法决定系数法1)平方和分解:平方和分解:2 2)决定系数决定系数总平方和总平方和回归平方和回归平方和误差平方和误差平方和v方差分析表(方差分析表()n利用残差对模型的假设进行检验利用残差对模型的假设进行检验v 残差的定义残差的定义vv由残差检验误差的独立性和等方差性由残差检验误差的独立性和等方差性vv由残差检验误差的正态性由残差检验误差的正态性(QQ(QQ图图)n n一元回归分析的一元回归分析的SPSSSPSS实现实现曲线回归曲线回归n n 可以进行曲线回归的函数类型可以进行曲线回归的函数类型 双曲函数双曲函数 幂函数幂函数 指数函数指数函数 对数函数对数函数 S S型曲线型曲线多元线性模型的建立过程多元线性模型的建立过程n n模型1n n模型2n n模型参数的估计(最小二乘估计)n n参数估计的性质1)2)3)n n残差平方和n n平方和分解回归平方和残差平方和总平方和越小拟合越好是一定量n n对模型进行显著性检验vv决定系数法 决定系数 调整的决定系数 vv方差分析法 检验 检验统计量及分布 方差分析表n n回归系数的显著性检验vv零假设vv检验统计量及其分布vv拒绝域n残差分析1)利用残差图检验:误差的独立性 等方差型2)利用Q-Q图(正态概率纸)检验误差的正态性n n多元回归的SPSS实现违背模型假设的处理方法n异方差性(截面数据)vv检验方法:图示法vv解决方案:加权最小二乘法n自相关(时间序列数据)vv检验方法:图示法 vv 解决方案:广义最小二乘法(差分最小二乘法)n多重共线性v检验方法:1)查看相关系数阵 2)作一个自变量与其自变 量的回归观察拟合优度 (方差膨胀系数VIF)v第一类解决方案1)增加样本观测值2)略去不重要的自变量3)用因变量的滞后值代替 自变量的 滞后值4)变换模型的形式5)对数据进行中心化处理v第二类解决方案 1)主成分回归 2)岭回归 3)逐步回归聚类分析n nP维空间中样本点间的距离vv明氏距离 缺点:与量纲有关;没有考虑相关性vv马氏距离(总体 )优点:克服了明氏距离的缺点两点之距一点到总体之距n问题的提出 若有n个样本点,要将他们分成m类.分类方法:系统聚类法 逐步聚类法n系统聚类和逐步聚类法流程图vv系统聚类法流程图 初始分类:若 与 距离最小,合并为一类输出分类结果no如何计算类与类之间的距离vv逐步聚类法流程图寻找m个凝聚点:若 则 ;得计算各类的重心:若 则 ;得计算各类的重心:重心改变输出分类结果yesn五种系统聚类方法 1)最短距离法(method=singlemethod=single)2)最长距离法(method=completemethod=complete)3)重心法(method=centroidmethod=centroid)4)类平均法(method=averagemethod=average)5)离差平方和法(WardWard法)法)其中n系统聚类在SPSS中的实现 判别分析n问题的提出 已知有m个类,现又得到一个新的样本,问这个样本属于哪一类?于是从m类的样本中提取各类典型信息,建立判别公式或判别准则,然后利用判别准则将新样本归属于一个特定的类的过程就是判别分析。方法包括距离判别法、Bayes判别法、Fisher判别法以及逐步判别法等。n距离判别法v 基本原理1 1)问题:与 是两个不同的P维总体,是一个P维样本,问它属于哪个总体?2 2)解决方案:vv两类线性判别函数 前提假设:1)2)线性判别函数:判别准则:vv两类二次判别函数前提假设:1)2)二次判别函数:判别准则:nBayes判别法vv 基本原理 1)已知 与 的先验分布()和各自总体的分布密度函数()2)由Bayes公式计算后验概率:和 3)判别准则:v两个正态总体的Bayes判别准则 1)与 的先验概率:2)与 的密度函数:3)判别法则:n判别分析在SPSS中的实现 Thank you for your Thank you for your attentionattention 此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!
展开阅读全文