收藏 分销(赏)

数据分析复习模拟题.doc

上传人:天**** 文档编号:2575250 上传时间:2024-06-01 格式:DOC 页数:12 大小:752.54KB
下载 相关 举报
数据分析复习模拟题.doc_第1页
第1页 / 共12页
数据分析复习模拟题.doc_第2页
第2页 / 共12页
数据分析复习模拟题.doc_第3页
第3页 / 共12页
数据分析复习模拟题.doc_第4页
第4页 / 共12页
数据分析复习模拟题.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、数据分析总结复习题第一章 数据的描述性分析 一 数据的描述性分析上机练习1:61名11岁学生的身高(习题1.1)数据1.4要求:(1)计算均值、方差、标准差、变异系数、偏度、峰度; (2)计算中位数、上、下四分位数 、四分位极差 、三均值;(3)作出直方图,拟合正态分布曲线;(4)作出茎叶图;(5)作出正态QQ图,并判断数据是否来自正态分布总体; (6)作正态性W检验上机练习2 习题1.7 第二章 回归分析一线性回归模型及其参数估计(模型及矩阵表示、参数估计及性质); 矩阵表示 二统计推断(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法); 1

2、 .回归方程的显著性检验: 平方和分解 检验假设:,统计量,时,拒绝2。回归系数的统计推断:检验假设统计量 ,,拒绝的置信区间:(3)预测及统计推断:的置信区间: 三残差分析(误差正态性检验、残差图分析、BoxCox变换),了解即可.四回归方程的选取 1。 穷举法知道评价回归方程优良性的准则:修正的复相关系数准则;准则,预测平方和准则即可。2. 逐步回归法(略)练习 3设与的线性回归模型为,,独立观测24,则样本数据满足:,(1)写出回归系数检验的假设;(2)写出检验统计量及假设为真时的分布;(3)模型的方差分析表如下:方差分析表 Sum of MeanSource DF Squares Sq

3、uare F Value Pr F方差来源 自由度 平方和(SS) 均方(MS) F0=MSR/MSR 检验p值Model p1=3 SSR=627.81700 MSR=SSR/3=209.27233 F0=68。12 .0001Error np=24-4=20 SSE=61.44300 MSE=SSE/20=3。07215Corrected Total 23 SST=689.26000 给出显著性水平,由结果判断与的线性关系是否显著?(4)设模型输出参数估计表为:参数估计表 参数 参数估计值 标准差估计值 t值 Intercept 1 17.84693 2.00188 8。92 。0001x

4、1 1 1。10313 0.32957 3.35 0。0032x2 1 0.32152 0.03711 8。66 .0001x3 1 1.28894 0.29848 4。32 0.0003 给出显著性水平,由结果说明回归参数检验是否显著?并写出回归方程;上机练习4 为研究我国民航客运量的变化趋势及成因,调查了19781993年统计数据,Y-民航客运量,X1国民收入(亿元),X2消费额(亿元),X3铁路客运量(万人),X4-民航航线里程(万公里),X5-来华旅游入境人数(万人)为自变量,观测数据见表一。假设Y因变量与自变量X1X5之间满足线性回归关系,其中且独立,拟合线性回归模型,研究相应的统计

5、推断问题.要求:(1)写出回归模型及检验假设;(2)给出出方差分析表,说明Y与X1-X5之间的线性关系是否显著?(3)给出参数估计表,并说明回归参数是否显著? (4)写出回归方程;(5)设的值,求及置信度为95的置信区间;(6)分别以因变量()、x1、x2、x3 为横坐标,残差为纵标,绘制残差图,利用残差图分析,考察模型假设条件的合理性; (7)利用准则筛选自变量集,建立最优回归方程。 要求程序运行结果截图。 表一YX1X2X3X4X5231301018888149114。89180。92298335021958638916420.39343368825319220419.53570。2540

6、1394127999530021。82776。71445425830549992223。27792.433914736335810604422.91947。75545652390511035326.021285。227447020487911211027。721783.39977859555210857932.432281。9513109313638611242938.912690。23144211738803812264537。383169.48128313176900511380747。192450。1416601438496639571250。682746.221781655710969

7、9508155.913335.65288620223129859969383.663311。53383248821594910545896.084152.7第三章 方差分析(了解)一模型因变量Y因素,水平,上观测值 , 二显著检验 或 ,拒绝(三)置信区间 置信度的置信区间:, 置信区间:置信度至少同时置信区间:上机练习5 有四个不同的实验室试制同一型号的纸张,为比较各实验室的纸张的光滑度测量了每个实验室生产的8张纸,得其光滑度如表3.5所示,假设上述数据服从方差分析模型,对显著水平(1)检验各实验室生产的纸张的光滑度是否有显著差异;(2)求各实验室生产的纸张光滑度的均值及其两两之差的置信度为

8、95%的置信区间;(3)求四个实验室生产的纸张光滑度的两两之差的置信度至少为95%的Bonferroni同时置信区间 表3.5 四个实验室生产的纸张的光滑度 实验室 纸张光滑度 A1 38.7 41.5 43。8 44。5 45.5 46。0 47。7 58。0A2 39。2 39.3 39.7 41.4 41。8 42。9 43。3 45.8A3 34。0 35.0 39.0 40。0 43.0 43.0 44.0 45.0 A4 34.0 34.8 34.8 35。4 37.2 37。8 41。2 42。8 第四章 主成分分析、典型相关分析一主成分分析1.基于协方差矩阵的总体主成分的求法

9、(基于相关系数矩阵类似) 维随机变量,协方差阵 非负定主成分定义:满足:(1)系数向量单位化; (2)各主成分不相关,无重叠信息,;(3)主成分方差由此递减求总体主成分步骤:1)解,求的p个特征值;2)对应的正交单位化的特征向量分别为;其中 ,3)的第个主成分为 ;为个主成分构成的随机向量4)主成分的贡献率与累计贡献率第k个主成份的贡献率 -前k个主成份的累积贡献率2.基于样本协方差矩阵的主成分分析(相关系数矩阵类似)来自于总体的容量为的样本观测数据 ,样本协方差矩阵其中 , 步骤:1)求特征值2)相应的正交单位化特征向量,3)第个样本主成分 , 4) 第k个样本主成分的贡献率 前k个主成分的

10、累积贡献率5)第个样本主成分的个观测值称为第个样本主成分的得分,可以依据得分对各组样本观测数据进行排序()样本主成分的观测数据(得分向量)上机练习5 为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,特选取公司如下六个指标进行分析:每股净收益; :净资产收益率; :主营业务收益率;:主营业务增长率; :净资产增长率; :总资产增长率其中前三个变量反映了上市公司的获利能力,后三个变量反映了公司的经营发展能力表4。3给出了这10家公司关于六个指标在过去三年取值的加权平均,对其做主成分分析,要求:(1)从样本相关系数矩阵R(或协方差矩阵)出发,做主成分分析(写出程序及运行结果);(2)求

11、主成分的贡献率和前两个主成分的累计贡献率,问选几个主成分合适?(3)写出前两个主成分,简单解释第一主成分。(4)按照第一主成分00家上市公司进行综合排名,并解释排名的根据。表4。3 10家上市公司的获利和发展能力数据 公司编号 X1 X2 X3 X4 X5 X6 1 0。021 26。806 57.311 -39.819 39.819 8.819 2 -0.142 -7.179 16.335 -11.359 -4。766 4。626 3 -0。737 62.417 7。359 -18.378 -19。165 12。2894 0。320 7.276 17.372 39.506 19.858 41

12、。939 5 0.160 4.820 38.323 37.113 23.744 34。063 6 0。351 11.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17。515 14.435 123.101 79。489 8 -0.190 -10。912 8.236 2.746 7。439 -10.502 9 0。173 7。543 23。978 17.122 21。318 25。701 10 0。367 9。352 16.048 55。621 27.861 18。918 二典型相关分析1.总体典型变量的定义设有两组随机变量,的协方差矩阵为其中设.1)

13、构造典型变量为第对典型变量。 确定,满足2。总体典型变量与典型相关系数的求法(1)求,,则具有相同的非零特征根设为的特征根,则为的前个(非负)特征根,其它特征根为0。(2)设和分别为的前个特征根对应的正交化单位向量,则的第对典型变量为(3)典型相关系数为 。3。样本典型相关分析两组随机变量,组观测数据 , 标准化样本 样本相关系数矩阵 为总体为相关系数矩阵的估计,以替代即可4。典型相关系数的显著性检验(略)注意:利用样本协方差矩阵,分析方法一样不需要对数据标准化处理练习6(不上机) 两随机向量,协方差矩阵,设,记,,叙述典型相关分析步骤上机练习7 看例4。6即可第六章聚类分析一快速聚类 (1)

14、欧氏距离快速聚类法(采用明氏距离距离快速聚类法类似)指定分类数为,聚类中采用的距离是欧氏距离(默认的)1)按照最小最大原则,选取个初始聚点的集合分类原则最小距离法:样品以最靠近的初始聚点归类,得类初始分类结果2)从出发,计算新的聚点集合以重心为新聚点,得到新的聚点集合及新分类依次类推.2系统聚类法(1)类间距离及其递推公式记样品间距离(可以欧式、明式、马氏距离), 和为两个类,样品数和,-类重心类与类间距离和合并得,类间距离、与其他类的类间距离递推公式有4种:1)最短距离、递推公式两类中样品之间距离最短者作为类间距离 2)最长距离、递推公式3)类平均距离4)重心距离(2)谱系聚类法的步骤 1)

15、n个样品分n个类,计算两两之间距离,得距离矩阵 此时2)选择中最小元素,合并与为新类消去与对应的行与列,加入新类与剩下未聚合的类间距离所组成一行和一列,得新阶距离阵3)重复步骤(2),得, n个样品聚为一个大类4)记下合并样品编号及两类合并时距离(距离水平),绘制聚类谱系图练习8 给出四个总体距离矩阵,做谱系聚类分析,并画谱系图。上机练习9对13个国家1990年,1995年与200年的可持续发展综合国力做评估,其得分值如表6。1所示,做谱系聚类分析, 样品距离采用欧式距离(默认),类间距离按最短距离法,采用标准化数据聚类(1)写出样品间距离公式、类间距离公式;(2)写出程序及结果;(3)画谱系

16、图;(4)给出聚为4类结果,并对结果进行解释思考练习 对上题用快速聚类法将上述13个国家聚为4类:距离采用欧式距离法。 第五章判别分析一距离判别1。 马氏距离的定义总体,均值向量, 协方差矩阵,来自 的马氏平方距离与的马氏平方距离总体,均值向量, 协方差矩阵-总体的马氏平方距离2。 距离判别准则2个总体,均值向量,协方差矩阵待判样品(1)不全相等(也适用于相等情形)样品到总体的马氏平方距离l 多总体距离判别准则: 则判定利用样本数据判别准则:即可其中 (2) 总体协方差矩阵相等:距离判别准则:若总体满足: , 则判定其中 而 l 利用样本数据的距离判别准则均值向量及公共协方差矩阵,分别用下面样

17、本估计代替即可 (3)误判率的估计(了解)误判率的回判估计-误判率的交叉确认估计 二两总体Bayes判别1。一般判别准则特别:两个正态总体的Bayes判别概率密度当未知时,分别用来代替即可 练习10 已知两正态总体与,均值向量为,协方差矩阵,总体先验概率相等,误判损失(1)写出两总体的概率密度函数; (2)写出Bayes判别准则;(3)用Bayes判别法确定样本属于哪一类?上机练习11 书上5。3 上机练习12(综合练习(聚类判别、主成分回归等) 为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1工业增加率(),X2总资产贡献率(),X3资产负债

18、率(%),X4流动资产周转次数(次),X5-工业成本费用利用率(%),X6全员劳动生产率(万元/人.年),X7产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?表3 2005经济指标样品序号地区X1X2X3X4X5X6X71北 京26.914.531.141.886.3917.9698.992上 海2811.743。61。998.5727.5799.23天 津32。913.960。192。210.7721。27101。984河 北30.3810.464.012.315。9611.2898。6

19、75山 西37.489.467。821.716.827.9397.856内蒙古43.449.864。322。087。9416.3498。237辽 宁28。767.559。332.152。7814。1999.868吉 林29。488。560。572.113。4512.2999。459江 苏24。3411。359.672。294。8915.9799。4110浙 江24。8513。457.412.925。2824。6299.7211安 徽34。5411。262.832.186.1511。7798。8912福 建28.8711。956。162。385.7415.3899.4913江 西27。219。7

20、69.382。0148。8699.4914山 东36.5915.860。182。5510.8318。1799。0615河 南31。910。265。622。065。348.8398。6116湖 北33.279。257.341。699。0513。6899。6317湖 南37。1312.767。232.074.2412。7199.5218广 西31.6410.862。912。095.8810。4299。6919海 南35.4411.754.231.9710.9514.26101。320重 庆25。958.258。921。583.718。3499.3821四 川36.299.164。341。567。3

21、111。26101.2422贵 州36。459.766.391。525。779。5299。0623陕 西41。0115。961.881。718。9512。2898.7624甘 肃25。769。559.322.33.559。0298.9625青 海38.7712.268.561.3822。441797.926宁 夏33。625.660。941.463.37999。3827黑龙江50.135.454。52。4239.4919.8197.7128云 南44.7620。147。441.513。4122。54100.1329新 疆45.2123.950.583。1527.124.8399。931广 东26。511353。212.396.724.3498.712西 藏55.734。725。480。9711。86。3193。68练习13 有关概念填空题(熟悉概念即可)1随机向量的协方差矩阵为,则相关系数矩阵为 2,其中是矩阵,则 3线性回归模型中,为的最小二乘估计,则 。4P维总体G协方差矩阵为,样品与间的马氏平方距离为 、明式距离 5。类间距离有最短距离、最长距离、 、重心距离6。评价回归方程优良性的准则有 ;准则,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服