收藏 分销(赏)

数据分析上机实验模拟题.doc

上传人:快乐****生活 文档编号:2669952 上传时间:2024-06-04 格式:DOC 页数:15 大小:950.04KB 下载积分:8 金币
下载 相关 举报
数据分析上机实验模拟题.doc_第1页
第1页 / 共15页
数据分析上机实验模拟题.doc_第2页
第2页 / 共15页


点击查看更多>>
资源描述
数据分析上机实验模拟题 一.第一章 数据的描述性分析 1.建立数据集 设有数据集如下: LIMING 23 56 170 LIUHUA 25 60 174 ZHANGWEI 30 65 165 相应变量分别为NAME,AGE,WEIGHT和HEIGHT,输入数据以建立一个名为exe_1的SAS数据集,并打印输出. 2.数据的描述性分析 例1.2 对血清蛋白含量,利用PROC UNIVARITE过程,求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下: 练习:利用MEANS过程求上述基本统计量. 二.回归分析 1.线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质); 矩阵表示 2.统计推断(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法); (1) 回归方程的显著性检验: , , 检验假设:, 统计量, 时,拒绝 (2)回归系数的统计推断: 检验假设, 统计量 , ,拒绝 的置信区间: (3)预测及统计推断: 的置信区间: 3.残差分析及处理措施(误差的正态性检验、残差图分析、Box—Cox变换); (1)误差的正态性检验 1)残差正态性的频率检验 2)残差的正态QQ图检验 近似一条直线, (2)残差图分析 3)Box-Cox变换 选择,使 最小 4.回归方程的选取 (1)穷举法 评价回归方程优良性的准则:修正的复相关系数准则;准则,预测平方和准则 (2)逐步回归法 例2.3某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y与他们的研究成果的质量指标、从事研究工作的时间以及能获得资助的指标.为此按一定的设计方案调查了24位此类型的数学家,得数据如书上表2。3所示. (1)假设误差服从分布,建立与之间的线性回归方程并研究相应的统计推断问题. (2)假设某位数学家的关于的值为,试预测他的年工资额并给出置信度为95%的置信区间. 三.方差分析-———单因素 1.单因素方差分析 (1)统计模型 因变量Y—因素,水平,上观测值 ,, (2) 显著检验 ,拒绝. (3)置信区间 (略) 置信度的置信区间, 置信度的置信区间为 个的置信度至少的同时置信区间 2。双因素等重复试验下的方差分析 (1)统计模型 Y—因素和B,水平,,组合水平观测值 , 为无偏估计. 假设成立时,分别服从分布. (2)显著检验 假设检验问题: 统计量 检验值:如,拒绝相应假设 (3)无交互效应的各因素均值的估计与比较 (4)有交互效应时因素各水平组合上的均值估计与比较 例3.1 为比较同一类型的三种不同食谱的营养效果,将19只幼鼠分为三组,每组分别为8只、4只、7只,各采用这三种食谱喂养.假定其他条件均保持相同,12周后测得其体重增加量如表3.3所示,设体重增加服从方差分析模型(3.1)或(3.2),试比较这三种食谱的营养效果是否有显著差异. 表3.3 三种食谱下幼鼠的体重增加量 食谱 体重增加量 甲 164 190 203 205 206 214 228 257 乙 185 197 201 231 丙 187 212 215 220 248 265 281 四.主成分分析、典型相关分析 1.主成分分析 (1)基于协方差矩阵的总体主成分的求法 (基于相关系数矩阵类似) -维随机变量, 协方差阵 非负定. 主成分定义: 满足:(1)系数向量单位化; (2)各主成分不相关,无重叠信息,; (3)主成分方差由此递减. 求总体主成分步骤: 1)解,求的p个特征值; 2)对应的正交单位化的特征向量分别为; 其中 , 3)的第个主成分为 ; 为个主成分构成的随机向量 4)主成分的贡献率与累计贡献率 ——第k个主成份的贡献率 ——前k个主成份的累积贡献率 (2)基于样本协方差矩阵的主成分分析(基于样本相关系数矩阵类似) 来自于总体的容量为的样本观测数据 , 样本协方差矩阵 其中 , 为的样本均值 步骤: 1)求特征值 2)相应的正交单位化特征向量, 3)第个样本主成分 , 4) —— 第k个样本主成分的贡献率 ——前k个主成分的累积贡献率 5)第个样本主成分的个观测值称为第个样本主成分的得分,可以依据得分对各组样本观测数据进行排序 () 样本主成分的观测数据(得分向量) 例4。3 对10名男中学生的身高()、胸围()、体重()进行测量,得数据如表4.2,从协方差矩阵出发对其做主成分分析,按照第一主成分排名. 表4.2 10名男中学生的身高、胸围及体重数据 序 号 身高x1(cm) 胸围x3(cm) 体重x3(cm) 1 149.5 69。5 38.5 2 162.5 77.0 55。5 3 162。7 78.5 50.8 4 162.2 87.5 65。5 5 156.5 74。5 49.0 6 156.1 74.5 45.5 7 172.0 76。5 51。0 8 173.2 81.5 59。5 9 159.5 74.5 43。5 10 157.7 79.0 53.5 2.典型相关分析 (1)总体典型变量的定义 设有两组随机变量,的协方差矩阵为 其中 这里假定满秩矩阵(为正定矩阵),不妨设。 1)构造典型变量 为第对典型变量. 确定,满足 (2)总体典型变量与典型相关系数的求法 (1)求,,则具有相同的非零特征根 设为的特征根,则为的前个(非负)特征根,其它特征根为0. (2)设和分别为的前个特征根对应的正交化单位向量,则的第对典型变量为 (3)典型相关系数为 . (3)样本典型相关分析 两组随机变量, 组观测数据 , 标准化样本 样本相关系数矩阵 为总体为相关系数矩阵的估计,以替代即可. (4)典型相关系数的显著性检验 统计量 检验值为 若,拒绝. 依次就进行检验,若对某个,检验值首次满足,则认为只有前对典型变量显著相关,选取前对即可. 注意:利用样本协方差矩阵,分析方法一样.不需要对数据标准化处理. 例4。6 为研究空气温度与土壤温度的关系,考虑六个变量 日最高土壤温度; 日最低土壤温度; 日土壤温度积分值; 日最高气温; 日最低气温; 日气温曲线积分值. 观测了天,数据如书上表4.7.,做典型相关分析. 五.聚类分析 1.快速聚类 (1)欧氏距离快速聚类法(采用明氏距离—距离快速聚类法类似) 指定分类数为,聚类中采用的距离是欧氏距离(默认的) 1)按照最小最大原则,选取个初始聚点的集合 分类原则-最小距离法:每个样品以最靠近的初始聚点归类,得到类的初始分类结果 其中 2)从出发,计算新的聚点集合 以的重心 作为新的聚点,其中是类中的样品数.得到新的聚点集合 从出发,将样品作新的分类,得 依次计算下去. 3)设在第m步得到聚点集 和分类 新聚点集 和新分类集 4)判断 记 给定,若 则递推计算过程结束,Proc fastclus过程中,的默认值为0。02. 为最终分类结果,为最终的分类中心. 2.系统聚类法 (1)类间距离及其递推公式 记, 和为两个类,含样品数和. —-类的重心. 类与类之间的距离记为.和合并得,类间距离、与其他类的类间距离递推公式有4种: 1)最短距离、递推公式 ——两类中样品之间距离最短者作为类间距离 2)最长距离、递推公式 -—两类中样品之间距离最长者 3)类平均距离、递推公式 -—两类中所有两两样品之间的距离的平均 4)重心距离、递推公式 ——两类的重心之间的距离作为两类间的距离 (2)谱系聚类法的步骤 1)n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵 此时 2)选择中主对角线以下(或以上)最小元素,设为,这时与,将与合并为新类.在中消去与对应的行与列,加入新类与剩下未聚合的类间距离所组成的一行和一列,得新的阶距离矩阵. 3)重复步骤(2),得, n个样品聚为一个大类. 4)记下合并样品的编号及两类合并时的距离(称为距离水平),绘制聚类谱系图. 例 6。1 对13个国家1990年,1995年与200年的可持续发展综合国力做评估,其得分值如表6.1所示 (1)试用快速聚类法将上述13个国家聚为4类:距离采用用欧式距离法; (2)按最短距离法方法进行谱系聚类分析,采用标准化数据聚类并给出聚为4类结果. 六.判别分析 (1)马氏距离的定义 总体,均值向量, 协方差矩阵,来自 ——的马氏平方距离 ——与的马氏平方距离 总体,均值向量, 协方差矩阵 ——总体的马氏距离 (2)距离判别准则—-—以两总体为例 个总体,均值向量,协方差矩阵.待判样品,计算到各总体的马氏距离并比较,判定属于马氏距离最小的总体. 1) 总体协方差矩阵相等: l 总体距离判别准则 对任意两个总体,样品到的马氏平方距离差: 则 其中 而 距离判别准则为:若总体满足: , 则判定. l 利用样本数据的距离判别准则 均值向量及公共协方差矩阵,分别用训练样本估计代替 . 距离判别准则为:, 判定. 其中,线性判别函数的估计为 l 特别:重点掌握两总体情形 , 2)不全相等 为二次判别函数,表示样品到总体的马氏平方距离. l 多总体距离判别准则: 则判定. l 特别:两总体情形 (3)误判率的估计 设来自两总体() ——误判率的回判估计 ——误判率的交叉确认估计 特别两总体情形 (3)两总体Bayes判别 判别准则为 特殊情形: 1)重点 则判别准则为 即按照后验概率大小来划分 其中后验概率 两个正态总体的Bayes判别 称后验概率 最优划分 两正态总体一般判别准则 特殊情形 Ø 判别准则 (等价于) 其中后验概率 = ——广义平方距离函数 当未知时,分别用 来估计,可得线性判别函数 判别准则变成 . Ø 其中广义平方距离函数 判别准则 后验概率 样本估计为 判别准则为 误判概率的频率估计——-回代法和交叉确认法 回代法估计 交叉确认法估计 例5.1 为研究心肌梗塞的危险因素,考查两组人群,:心肌梗塞组;:正常组.考察2个血液指标::总胆固醇;:高密度脂蛋白胆固醇.两组各取名,测得指标和的取值如表5。1.假设总体方差相等,建立距离判别准则,并对其中的5个待判样品作判别.
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服