收藏 分销(赏)

数据处理-Word-文档-(2).docx

上传人:二*** 文档编号:4735134 上传时间:2024-10-11 格式:DOCX 页数:5 大小:47.17KB 下载积分:5 金币
下载 相关 举报
数据处理-Word-文档-(2).docx_第1页
第1页 / 共5页
本文档共5页,全文阅读请下载到手机保存,查看更方便
资源描述
数据的标准化处理 (1)数据的中心化处理数据的中心化处理是指平移变换,即 该变换可以使样本的均值变为0,而这样的变换既不改变样本点间的相互位置,也 不改变变量间的相关性。但变换后,却常常有许多技术上的便利。 (2)数据的无量纲化处理在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应, 使每个变量都具有同等的表现力,数据分析中常用的消量纲的方法,是对不同的变量进 行所谓的压缩处理,即使每个变量的方差均变成1,即 还可以有其它消量纲的方法,如 工;=/max{x^} , x; =/ min{xtf}x; = xu /弓,x; = xu /(max{%} _}) (3)标准化处理所谓对数据的标准化处理,是指对数据同时进行中心化一压缩处理,即 方差分析 用在哪方面 数理统计分析试验结果、鉴别各因素对结果影响程度的方法称为方差分析 (Analysis Of Variance),记作 ANOVA。 我们已经作过两个总体均值的假设检验,如两台机床生产的零件尺寸是否相等,病 人和正常人的某个生理指标是否一样。如果把这类问题推广一下,要检验两个以上总体 的均值彼此是否相等,仍然用以前介绍的方法是很难做到的。(均值法) 从用几种不同工艺制成的灯泡中,各抽取了假设干个测量其寿命,要推断这几种工艺 制成的灯泡寿命是否有显著差异;用几种化肥和几个小麦品种在假设干块试验田里种植小麦, 要推断不同的化肥和品种对产量有无显著影响。(方差分析)。 模型/=4+4+0 1=1j〜N(0.b2),i = 1.・・・,几/ = 1,・・・,匕 方差分析一般用的显著性水平是:取a=0.01,拒绝0〃,称因素A的影响各 水平的差异显著,取a=0.01,不拒绝0H,但取。=0.05,拒绝0H ,称因 素A的影响显著;取a=0.05,不拒绝0H ,称因素A无显著影响。 例子例1为考察5名工人的劳动生产率是否相同,记录了每人4天的产量,并算出其平均值,如表3。你能从这些数据推断出他们的生产率有无显著差异吗? 工人天 1A 2 243A 4 A 5 A 1 256 254 250 248 2362 242 330 277 280 252 3 280 290 230 305 2204 298 295 302 289 252 平均产量269 292.25 264.75 280.5 240解编写程序如下: x=[256 254 250 248 236242330277280252 280290230305220298295302289252]; p=anoval(x)求得p=0.1109 > Of = 0.05,故接受0”,即5名工人的生产率没有显著差异。 曲线拟合(判断,估计,两者的关系)线性最小二乘法 一组(二维)数据,即平面上的〃个点(Xi, y), ,二1,2,L7,…次 互不相同,寻求一个函数(曲线)使f(x)在某种准那么下与所 有数据点最为接近,即曲线拟合得最好。 模型f(x) =。山(工)+(X)+ …+ amrm (x) 例5某乡镇企业1990-1996年的生产利润如表5。 表5年份 1990 1991 1992 1993 1994 1995 1996 利润(万元)70 122 144 152 174 196 202试预测1997年和1998年的利润。 解作数据的的散点图,x0=[1990 1991 1992 1993 1994 1995 1996]; y0=[70 122 144 152 174 196 202];plot(x0,yo,,) 发现该乡镇企业的年生产利润几乎直线上升。因此,我们可以用=ax+。作为 拟合函数来预测该乡镇企业未来的年利润。编写程序如下: x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202]; a=polyfit(xO,yOA1)y97=polyval(a,1997) y98=polyval(a,1998)求得 20 14= , 4 o a=-4.0705 X 10 , 1997年的生产利润y97=233. 4286 , 1998年的生产利润为y98=253. 9286 最小二乘优化(mtalab cftool) 归分析用途 简单地说,回归分析就是对拟合问题作的统计分析。 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的假设干有关变量的 一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数 据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要 作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问题似乎已 经完全解决了,还有进一步研究的必要吗? 从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些 系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间 太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析 方法对模型的误差进行分析,对拟合的优劣给出评价。 (20) 模型£3(0.,) 式中01.b都是与X],小(无关的未知参数,其中川0.丹,・・・.凡称为回 归系数。 现得到〃个独立观测数据(%/,・・・・%), / = 1>加,由(20)得 (21) 例2 关。 式, ,=Po ++ …++ 号某厂生产的一种电器的销售量y与竞争对手的价格ix和本厂的价格》有 表2是该商品在10个城市的销售记录。试根据这些数据建立y与ix和2X的关系对得到的模型和系数进行检验。假设某市本厂产品售价160 (元),竞争对手售价170 (元),预测商品在该市的销售量。 编写如下程序: xl=[120 140 190 130 155 175 125 145 180 150] 1 ; x2=[100 110 90 150 210 150 250 270 300 250] T; y=[102 100 120 77 46 93 26 69 65 85] 1 ;x=[ones(10,1),xl,x2]; [b,bint,r,rint,stats]=regress(y,x);b,bint,stats 得至IJb=66. 5176 0.4139 -0. 2698 bint =-32. 5060 165. 5411-0. 2018 1.0296 -0. 4611 -0. 0785stats =0.6527 6.5786 0.0247 351.0445 可以看出结果不是太好:p=0.0247,取戊=0.05时回归模型(42)可用P<a,拒绝h0,回归模型成立。R2越接近1越好R2 =0. 6527, F=6. 5786, S2是残差越小越好 协方差分析 试验设计的重耍任务之一就是尽力排除非处理因素的干扰和影响】从而准确地获 得处理因素的试聆效应。但是,许多需要控制的因素并不能荷单的按分类变量来对 待。比方两种药物治疗高血压的疗效,如果两组患者年龄分将不同,那么必须考虑年龄 对舒张压的影响。此时年龄是需要控制、排除影响的因素,它在统计分析中又称协变 量6假设忽视协变量的影响宜接对这些资料进行分析,就可能会得出错误的结论。 协方差分析(analysis of covariance)是将直线回归和方差分析结合应用的一种统计方 药昆来消除混丝因素对分析指标的影响。它的基本思想是在作两组或多组均数 工 耳、…、匕 之间的比拟前,用直线回归方法找出各组丫与协变整X之间的 数量关系,求得在假定*相等时的修正均数*、/、…、Y;,然后用方差分析比拟修 正均数间的差异。协方差分析是定量变鼠分析中控制混杂因素的重要手段之一,是医 务工作者应掌握的一种重要统计分析方法。 进行协方差分析时应具备以下两个条件:'◊ X与Y的线性关系在各组均成立,而且不同组间的总体回归系数应相等。 ◊各比拟组间协变量X的取值范围不宜相差太大,否那么修正均数的差值在回归 直线的延长线上,此时不知道回归线外推后是否仍然满足平行性和爱性关系 的条件.协方差分析的结论可能不正确C典型相关分析 典型相关分析(Canonical Correlation)是研究两组变量之间相关关系的 一种多元统计方法。它能够揭示出两组变量之间的内在联系。 典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关 关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系 分析。目前,典型相关分析已被广泛应用于心理学、市场营销等领域,如用于研 究个人性格与职业兴趣的关系,市场促销活动与消费者响应之间的关系等。 分别在两组变量中选取假设干有代表性的综合变量、Ui,Vi,使得每一个综合 变量是原变量的线性组合,即5 =瞰与⑴+碍驾)+…+哈邓)二皿女⑴ 匕=甲X,)+刈*?+…+%")□川太(2)见重要图书第三十一章 聚内分析与判别分析 正所谓物以类聚,人以群分,本章我们要学习的聚类分析与判别分析都是将记录 或变量分类的方法,所不同的是聚类分析是把没有分类信息的资料按相似程度妇类, 有…定探索性的味道:而判别分析那么是从的分类情况中总结规律,为以后判断新 观测所属类别提供依泥。Classify菜单中…共提供了 T个过程,它们的作用分别是: 。K-means Cluster过程;对记录进行快速聚类,当明确所需要分出的类别数 时,采用快速聚类可以节省运算时间.根据经验,如果样本量大于100,那么有 必要考虑是否使用快速聚类。 ,Hierarchical Cluster过程,习惯上翻译成系统聚类法,该过程提供了全面而强 大的聚类分析能力,可对记录或变量进行聚类。更为重要的是,参与系统聚 类分析的变量不再像快速聚类一样限于连续性变量,它们可以是两分类或多 分类变量。 令Discriminant过程:提供了全面的判别分析功能,所用变量可一次进入,也可 使用逐步法筛选出最优判别方程。 显然,Hierarchical Cluster过程使用的就是系统聚类法来进行分析,该方法的总理 是先将所有n个变量/观测看成不同的n类・然后将性质最接近(距离最近)的两类 合并为一类;再从这n・l类中找到最接近的两类加以合并,依此类推,直到所有的变量 /观测被合为一类。得到该结果后,使用者再根据具体的问题和聚类结果来决定应当 分为几类。显然,在系统聚类法中,一旦观测/变量被划定在了一个类别中,以后它的 分类结果就不会再进行更改,这是它和非系统聚类法的显著区别。 显然,Hierarchical Cluster过程使用的就是系统聚类法来进行分析,该方法的原理 是先将所有n个变量/观测看成不同的n类,然后将性质最接近(距禺最近)的两类 合并为一类;再从这n・l类中找到最接近的两类加以合并,依此类推,直到所有的变量 /观测被合为一类。得到该结果后,使用者再根据具体的问题和聚类结果来决定应当 分为几类。显燃,在系统聚类法中,一旦观测,变量被划定在了一个类别中,以后它的 分类结果就不会再进行更改,这是它和非系统聚类法的显著区别•判别分析 刈别分析通常都要设法建立一个判别由数,利用此函数来进行判断Q判别函数的 一般形式如下: Y=a[X] 182X2+卜.乂自 其中Y为判别指标,根据所用方法的不同,可能是概率,也可能是坐标值或分 值。X]、X?等为反映研究对象特征的变量,期、a?等为各变量的系数,也称判别系数。 为了建立该函数就必使用一个就练样本。所谓训练样本就是实际分类且各指 标的观测值也已测得的样本,它对判别函数的建立非常重要,因此必须是由金标准确 立的分类,如果中间出现一例错分,就会导致判别函数的判别效果大大降低。初学者 往往忽视这一点?片面以为训练样本越大越好,而忽咯了资料的准确性和原分类的可 靠性,这种想法是不正确的。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服