1、数学建模中统计学描述性数据分析假设检查主成份分析线性回归模型第1页第1页描述性数据分析直方图、条形图概括统计量(平均数、中位数、众数、百分位数和四分位数、方差和原则差、极值与四分位间距、变异系数、相关系数、学生氏化)第2页第2页直方图和条形图第3页第3页 序号 组 频数 频率 1(987,990 2 0.067 2(990,993 1 0.038 3(993,996 3 0.100 4(996,999 5 0.167 5(999,1002 7 0.233 6(1002,1005 6 0.200 7(1005,1008 3 0.100 8(1008,1011 1 0.033 9(1011,101
2、4 1 0.033 10(1014,1017 1 0.033第4页第4页第5页第5页例:一分钟内碰撞某宇宙装置宇宙粒子,连续统计40分钟,得如右数据:宇宙粒子个数 频数 频率 0 13 0.325 1 13 0.325 2 8 0.200 3 5 0.125 4 1 0.025第6页第6页 条形图第7页第7页统 计 量它反应了它反应了总体均值总体均值信息信息它反应了总体它反应了总体方差信息方差信息第8页第8页它反应了总体它反应了总体k 阶矩信息阶矩信息它反应了总体它反应了总体k 阶阶中心矩信息中心矩信息第9页第9页第10页第10页异常点检查在正态分布中代表原则差,代表均值x=即为图像对称轴三原
3、则即为数值分布在(,+)中概率为0.6826数值分布在(2,+2)中概率为0.9544数值分布在(3,+3)中概率为0.9974假如在一组数据中,数值落在样本均值三倍原则差以外,我们认为该数据是异常值,需要剔除。如今年全国赛A题 第11页第11页假设检查第12页第12页第13页第13页第14页第14页两类错误概率能否同时控制得很小?第15页第15页单个正态总体均值检查断言:在座各位平均身高是170cm。要检查这句话正确是否,我们能够采用单正态总体均值检查。第16页第16页单正态总体下抽样分布第17页第17页单正态总体均值检查第18页第18页独立性检查 列联表独立性检查是卡方拟合优度检查一个特例
4、,人们将两个或多个特性分类数据即交叉分类数据以表格形式列出即列联表,从而利用这些数据用来研究两种或各种分类之间是否有某种联系。第19页第19页 1976-1977 年美国佛罗里达州29 个地域发生凶杀案中被告人判死刑情况,白人参与凶杀案中被判死刑百分比要比黑人参与凶杀案中被判死刑百分比要高,那是不是在美国社会就不存在凶杀案判罚上种族问题呢?第20页第20页 在凶杀案判罚上,不但仅要看被告人肤色,还要看被害人肤色。我们把情况分为四种情况:分别为白人杀害黑人,黑人杀害黑人,白人杀害白人,黑人杀害白人,普通来说后两种情况被告人被判死刑概率要比前两种情况大得多,这是美国社会种族歧视在其中所起作用。第2
5、1页第21页主成份分析主要用于变量降维,主成份分析经惯用减少数据集维数,同时保持数据集对方差奉献最大特性。这是通过保留低阶主成份,忽略高阶主成份做到。PCA数学定义是:一个正交化线性变换,把数据变换到一个新坐标系统中,使得这一数据任何投影第一大方差在第一个坐标(称为第一主成份)上,第二大方差在第二个坐标(第二主成份)上,依次类推第22页第22页第23页第23页第24页第24页 函数关系表示是变量之间数量上函数关系表示是变量之间数量上确实定性关系确实定性关系,设设x x为自变量为自变量,y,y为因变为因变量量,则则x x与与y y之间函数关系为之间函数关系为:第25页第25页 变量之间含有密切关
6、联变量之间含有密切关联而又不能由一个或某一些变而又不能由一个或某一些变量唯一拟定另外一个变量关量唯一拟定另外一个变量关系称为变量之间相关关系系称为变量之间相关关系.第26页第26页(a)(a)函数关系函数关系0 00 0(b)(b)统计关系统计关系统计关系统计关系第27页第27页第28页第28页第29页第29页第30页第30页第31页第31页 “回归”名称由来,统计史上普通归功于英国生物学家兼统计学家F.高尔顿(F.Galton,1822-1911)及他学生当代统计学家奠基者之一K.皮尔逊(K.Pearson).第32页第32页这这10781078对夫妇对夫妇平均身高为平均身高为英寸,而英寸,
7、而子代平均身高子代平均身高(单位:英寸单位:英寸)他们在研究父母身高与其子女身高遗传问题时,观测了1078对夫妇,以每对夫妇平均身高作为x,而取他们一个成年儿子身高作为y,将结果在平面直角坐标系上给出散点图,发觉趋势近于始终线,并计算得回归直线第33页第33页第34页第34页四 回归方程明显性检查回归方程假设检查包括两个内容:(一)检查变量之间总体线性关系是否明显,即检查自变量与应变量之间关系能否用一个适当回归模型来表示。(二)检查回归参数,即检查回归模型中每一自变量对因变量对影响程度是否明显。第35页第35页 这两种检验在次序上不能颠倒,因为只有当回归模型所代表变量之间线性关系经过检验后,深入检验模型中个别回归参数才故意义。假如某个回归模型本身是个错误模型,那就没有必要再去检验该模型中各个回归参数了。即使这两种检验在一元回归分析中是等价,但在多元分析里却有不同意义,应注意区分。第36页第36页各种检查简介 F-检查 t检查 相关系数检查后期将做详细简介第37页第37页