数据分析上机实验模拟题.doc

资源描述

数据分析上机实验模拟题一．第一章数据的描述性分析 1．建立数据集设有数据集如下： LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165 相应变量分别为NAME，AGE，WEIGHT和HEIGHT，输入数据以建立一个名为exe_1的SAS数据集,并打印输出． 2．数据的描述性分析例1.2 对血清蛋白含量，利用PROC UNIVARITE过程，求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下：练习：利用MEANS过程求上述基本统计量. 二．回归分析 1．线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质)；矩阵表示 2．统计推断(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法）; （1) 回归方程的显著性检验: ， , 检验假设：，统计量，时，拒绝（2）回归系数的统计推断: 检验假设, 统计量，，拒绝的置信区间: （3）预测及统计推断：的置信区间： 3．残差分析及处理措施(误差的正态性检验、残差图分析、Box—Cox变换)；（1）误差的正态性检验 1）残差正态性的频率检验 2）残差的正态QQ图检验近似一条直线，（2）残差图分析 3）Box-Cox变换选择，使最小 4．回归方程的选取（1）穷举法评价回归方程优良性的准则:修正的复相关系数准则；准则，预测平方和准则（2）逐步回归法例2.3某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y与他们的研究成果的质量指标、从事研究工作的时间以及能获得资助的指标．为此按一定的设计方案调查了24位此类型的数学家，得数据如书上表2。3所示．（1）假设误差服从分布，建立与之间的线性回归方程并研究相应的统计推断问题．（2）假设某位数学家的关于的值为，试预测他的年工资额并给出置信度为95％的置信区间．三．方差分析-———单因素 1.单因素方差分析（1）统计模型因变量Y—因素，水平,上观测值 ,，（2）显著检验，拒绝． (3）置信区间（略）置信度的置信区间，置信度的置信区间为个的置信度至少的同时置信区间 2。双因素等重复试验下的方差分析 (1）统计模型 Y—因素和B，水平,，组合水平观测值 , 为无偏估计．假设成立时，分别服从分布． (2）显著检验假设检验问题：统计量检验值：如,拒绝相应假设（3)无交互效应的各因素均值的估计与比较（4）有交互效应时因素各水平组合上的均值估计与比较例3．1 为比较同一类型的三种不同食谱的营养效果，将19只幼鼠分为三组，每组分别为8只、4只、7只，各采用这三种食谱喂养．假定其他条件均保持相同，12周后测得其体重增加量如表3.3所示，设体重增加服从方差分析模型（3.1)或（3.2），试比较这三种食谱的营养效果是否有显著差异．表3.3 三种食谱下幼鼠的体重增加量食谱体重增加量甲 164 190 203 205 206 214 228 257 乙 185 197 201 231 丙 187 212 215 220 248 265 281 四．主成分分析、典型相关分析 1．主成分分析 (1）基于协方差矩阵的总体主成分的求法（基于相关系数矩阵类似） -维随机变量, 协方差阵非负定．主成分定义：满足:（1)系数向量单位化；（2)各主成分不相关，无重叠信息，; (3)主成分方差由此递减．求总体主成分步骤： 1）解，求的p个特征值； 2)对应的正交单位化的特征向量分别为；其中， 3）的第个主成分为；为个主成分构成的随机向量 4）主成分的贡献率与累计贡献率 ——第k个主成份的贡献率 ——前k个主成份的累积贡献率 (2)基于样本协方差矩阵的主成分分析（基于样本相关系数矩阵类似）来自于总体的容量为的样本观测数据，样本协方差矩阵其中，为的样本均值步骤: 1）求特征值 2）相应的正交单位化特征向量， 3)第个样本主成分， 4） —— 第k个样本主成分的贡献率 ——前k个主成分的累积贡献率 5）第个样本主成分的个观测值称为第个样本主成分的得分，可以依据得分对各组样本观测数据进行排序（）样本主成分的观测数据（得分向量) 例4。3 对10名男中学生的身高（）、胸围(）、体重(）进行测量，得数据如表4.2,从协方差矩阵出发对其做主成分分析，按照第一主成分排名．表4.2 10名男中学生的身高、胸围及体重数据序号身高x1（cm) 胸围x3（cm) 体重x3(cm） 1 149.5 69。5 38.5 2 162.5 77.0 55。5 3 162。7 78.5 50.8 4 162.2 87.5 65。5 5 156.5 74。5 49.0 6 156.1 74.5 45.5 7 172.0 76。5 51。0 8 173.2 81.5 59。5 9 159.5 74.5 43。5 10 157.7 79.0 53.5 2．典型相关分析 (1)总体典型变量的定义设有两组随机变量,的协方差矩阵为其中这里假定满秩矩阵(为正定矩阵），不妨设。 1）构造典型变量为第对典型变量. 确定，满足（2）总体典型变量与典型相关系数的求法（1)求，,则具有相同的非零特征根设为的特征根，则为的前个（非负）特征根，其它特征根为0. （2）设和分别为的前个特征根对应的正交化单位向量，则的第对典型变量为（3）典型相关系数为 . （3）样本典型相关分析两组随机变量，组观测数据，标准化样本样本相关系数矩阵为总体为相关系数矩阵的估计，以替代即可．（4）典型相关系数的显著性检验统计量检验值为若，拒绝．依次就进行检验，若对某个，检验值首次满足，则认为只有前对典型变量显著相关,选取前对即可．注意:利用样本协方差矩阵，分析方法一样．不需要对数据标准化处理．例4。6 为研究空气温度与土壤温度的关系，考虑六个变量日最高土壤温度; 日最低土壤温度; 日土壤温度积分值；日最高气温；日最低气温；日气温曲线积分值．观测了天，数据如书上表4.7．，做典型相关分析．五．聚类分析 1．快速聚类 (1）欧氏距离快速聚类法(采用明氏距离—距离快速聚类法类似）指定分类数为，聚类中采用的距离是欧氏距离（默认的） 1)按照最小最大原则，选取个初始聚点的集合分类原则-最小距离法：每个样品以最靠近的初始聚点归类，得到类的初始分类结果其中 2）从出发,计算新的聚点集合以的重心作为新的聚点，其中是类中的样品数．得到新的聚点集合从出发，将样品作新的分类,得依次计算下去． 3）设在第m步得到聚点集和分类新聚点集和新分类集 4）判断记给定，若则递推计算过程结束，Proc fastclus过程中,的默认值为0。02．为最终分类结果，为最终的分类中心． 2．系统聚类法 (1）类间距离及其递推公式记，和为两个类，含样品数和． —-类的重心．类与类之间的距离记为．和合并得，类间距离、与其他类的类间距离递推公式有4种： 1）最短距离、递推公式 ——两类中样品之间距离最短者作为类间距离 2)最长距离、递推公式 -—两类中样品之间距离最长者 3)类平均距离、递推公式 -—两类中所有两两样品之间的距离的平均 4）重心距离、递推公式 ——两类的重心之间的距离作为两类间的距离（2)谱系聚类法的步骤 1）n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵此时 2)选择中主对角线以下（或以上）最小元素，设为，这时与,将与合并为新类．在中消去与对应的行与列,加入新类与剩下未聚合的类间距离所组成的一行和一列，得新的阶距离矩阵． 3）重复步骤（2），得, n个样品聚为一个大类． 4)记下合并样品的编号及两类合并时的距离（称为距离水平），绘制聚类谱系图．例 6。1 对13个国家1990年，1995年与200年的可持续发展综合国力做评估，其得分值如表6.1所示 (1）试用快速聚类法将上述13个国家聚为4类:距离采用用欧式距离法；（2）按最短距离法方法进行谱系聚类分析,采用标准化数据聚类并给出聚为4类结果．六．判别分析（1）马氏距离的定义总体,均值向量, 协方差矩阵，来自 ——的马氏平方距离 ——与的马氏平方距离总体，均值向量, 协方差矩阵 ——总体的马氏距离（2）距离判别准则—-—以两总体为例个总体，均值向量,协方差矩阵．待判样品,计算到各总体的马氏距离并比较，判定属于马氏距离最小的总体． 1) 总体协方差矩阵相等： l 总体距离判别准则对任意两个总体，样品到的马氏平方距离差：则其中而距离判别准则为:若总体满足: ，则判定． l 利用样本数据的距离判别准则均值向量及公共协方差矩阵，分别用训练样本估计代替．距离判别准则为：，判定．其中，线性判别函数的估计为 l 特别：重点掌握两总体情形， 2）不全相等为二次判别函数,表示样品到总体的马氏平方距离． l 多总体距离判别准则：则判定． l 特别：两总体情形（3）误判率的估计设来自两总体（） ——误判率的回判估计 ——误判率的交叉确认估计特别两总体情形（3）两总体Bayes判别判别准则为特殊情形: 1）重点则判别准则为即按照后验概率大小来划分其中后验概率两个正态总体的Bayes判别称后验概率最优划分两正态总体一般判别准则特殊情形 Ø 判别准则 (等价于) 其中后验概率 = ——广义平方距离函数当未知时，分别用来估计，可得线性判别函数判别准则变成． Ø 其中广义平方距离函数判别准则后验概率样本估计为判别准则为误判概率的频率估计——-回代法和交叉确认法回代法估计交叉确认法估计例5.1 为研究心肌梗塞的危险因素,考查两组人群，：心肌梗塞组；：正常组．考察2个血液指标：：总胆固醇；：高密度脂蛋白胆固醇．两组各取名，测得指标和的取值如表5。1.假设总体方差相等，建立距离判别准则，并对其中的5个待判样品作判别．

展开阅读全文