收藏 分销(赏)

《数据科学统计基础》全套电子教案教学教程整套全书.pptx

上传人:w****g 文档编号:5438570 上传时间:2024-11-02 格式:PPTX 页数:761 大小:39.92MB
下载 相关 举报
《数据科学统计基础》全套电子教案教学教程整套全书.pptx_第1页
第1页 / 共761页
《数据科学统计基础》全套电子教案教学教程整套全书.pptx_第2页
第2页 / 共761页
点击查看更多>>
资源描述
数理统计第 1 章 数 据 及 其 描 述:统 计 量1.1 数据和变量1.2 总体、样本和统计量1.3 从样本认识总体的图表方法1.4 次序统计量1.5 抽样分布1.6 充分统计量1.7 常用的概率分布族1.8 与本章相关的R语言操作 统计学是探讨随机现象统计规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,从而对研究对象的某些特征做出判断。第 1 章 数 据 及 其 描 述:统 计 量数据和变量PART 1.1第 1 章 数 据 及 其 描 述:统 计 量数据和变量PART 1.11.1数据和变量1.1.1数据的例子数据的记录手段具有明显的时代特征。数据可以分为结构化数据和非结构化数据。数据按照收集方法可以分为观测数据和试验数据。凡是可以电子化记录的其实都是凡是可以电子化记录的其实都是数据数据。这里所说的记。这里所说的记录不是靠自然人的大脑,而是通过必要的录不是靠自然人的大脑,而是通过必要的信息化技术信息化技术和和电子化手段电子化手段。1.1数据和变量1.1.2变量的类型这些特征在不同研究个体的取值是不同的,因此称为随机变量(或简称变量,一维情况)或随机向量(二维及以上)。变量有很多类型,主要分为两种。往往我们要研究的并不是一个问题的所有方面,而是某些感兴趣的维度(或称为特征),比如某地区居民的收入水平,某疾病的发病率与饮食习惯的关系等。一种是定量变量或数量变量,比如五年级男生身高,某款汽车的速度,某种疾病的患病人数;另外一种变量类型称为分类变量或定性变量、示性变量、属性变量、因子型变量,比如性别、职业、地区等。分类变量有些是有序的,比如信用等级、工资收入等级等,称为定序变量。1.1数据和变量1.1.2变量的类型连续型变量(区间变量、实数型变量):取值范围是某区间中的任何值离散型变量:取整数值或可数数量集合值的变量。年龄一般来说,应该是连续型的;年龄一般来说,应该是连续型的;但往往取整数,成了离散型;但往往取整数,成了离散型;而在问卷调查中,往往在年龄的若干选项而在问卷调查中,往往在年龄的若干选项 (比如比如”幼年幼年“、”青年青年“、”中年中年“,”老年老年”)中选择一个,这就是分类变量或者定序变量了。中选择一个,这就是分类变量或者定序变量了。变量类型并不是绝对的1.1数据和变量1.1.2变量的类型变量的种类实际上是由人们对变量的约束而定的比如颜色(红、黄、蓝、紫等),最原始的变量是定性变量。定性变量包含最少的约束。定序变量是把定性变量加了大小的约束,比如按照波长的大小排列顺序,则有红黄蓝 紫。如果按照频率排列,这个顺序则相反。定量变量则不仅仅排序,而且有数目,每一个颜色都由特定的频率或波长定义,这就称为连续变量或者区间变量。1.1数据和变量1.1.2变量的类型表1.1.1 颜色的频率和波长1.1数据和变量1.1.2变量的类型对数据的人为约束越多,数据在模型中所起的作用越小。或者说“自由度”越小。比如,把年龄排序成(或者用岁数这样的整数):老中青幼,看上去似乎更合理。实际上,这意味着老年和幼年是两个极端的现象。但在体力上和心理上,老年和幼年却呈现了一些类似,这种信息容易被排序(或数量化)所埋没但也可通过模型选择学习出这种非线性的影响。如果按照体力或智力排序,则会有不同的结果。第 1 章 数 据 及 其 描 述:统 计 量总体、样本和统计量PART 1.21.2总体、样本和统计量1.2.1总体和分布在一个统计问题中,我们把研究对象的全体称为总体,其中每个成员称为个体。在实际问题中,总体是客观存在的人群或物类。这是对总体这个概念在研究问题的对象这个层面的理解。总体可以用一个概率分布来描述,其数量指标 X 就是服从这个分布的随机变量。因此,常常用随机变量的符号或分布的符号表示总体。因此,常常用随机变量的符号或分布的符号表示总体。以后我们说“从某总体中抽样”和“从某分布中抽样”是同一个意思。1.2总体、样本和统计量1.2.1总体和分布如果我们要研究的问题不只是一个维度,而是二维或更高维度。比如研究儿童血色素(X1)同其性别(X2)、年龄(X3)之间的关系。那么总体仍然是一堆数,只不过每个元素不是一个数字,而是一个向量。这个总体仍然可以用一个概率分布来描述,就是(X1,X2,X3)的联合分布。更进一步的,数据的维度可能会很高,几千、上万,甚至更高,我们可以假设这些变量之间有某种相互关系,从而假定一些条件分布的形式,使用统计模型或算法进行数据分析,这是后续专业课的具体内容,本书只有少量涉及。但本书所介绍的思想和原则是后续所有专业课的基础。1.2总体、样本和统计量例1.2.1为了解某地区居民在某网站购物情况,回答以下三个问题:网上购物居民占所有居民的比例:二项分布 过去一年内网购居民的购物次数:离散分布 过去一年内网购居民的购物金额:连续分布1231.2总体、样本和统计量例1.2.2彩色浓度是彩电质量好坏的一个重要指标。20 世纪70年代在美国销售的SONY 牌彩电有两个产地:美国和日本。其彩色浓度的标准值为,允许范围是 5,+5,否则为不合格品。在70 年代后期,美国消费者购买日产SONY彩电的热情明显高于购买美产SONY 彩电,这是为什么呢?等级美产33.333.333.30日产68.327.14.30.3表1.2.1 各等级彩电的比例(%)1.2总体、样本和统计量例1.2.3=0+11+=()+1.2总体、样本和统计量例1.2.4在文本数据分析中,我们要研究的个体是一篇篇文章。在转换成数量指标之后,每篇文章可以对应成一个P1维向量。表示该文章在P1个词语上的词频。我们认为这个P1维向量服从一定的概率分布。在图像分析中,个体是一张张图片,对应的数量指标是P2维向量,表示图片在P2个像素点的像素值,服从一个P2维的概率分布。1.2总体、样本和统计量1.2.2样本普查,又称全数检查,即对总体中每个个体都进行检查或观察。抽样,即从总体抽取若干个体进行检查或观察,用所获得的数据对总体进行统计推断,这一过程可用图1.2.4 示意。图1.2.4 总体及其样本1.2总体、样本和统计量1.2.2样本从总体中抽出的部分(多数场合是小部分,即使现在的大数据,也只是总体的一部分)个体组成的集合称为样本,样本中所含的个体称为样品,样本中样品个数称为样本量或样本容量。由于抽样前不知道哪个个体被抽中,也不知道被抽中的个体的测量或试验结果,所以容量为n的样本可看做n维随机向量,用大写字母X1,X2,Xn表示。用小写字母x1,x2,xn表示其观测值(实现值),这就是我们常说的数据。如果进行多次重复抽样,样本的观测值会不同。一切可能观测值的全体称为n维样本空间。1.2总体、样本和统计量例1.2.3样本的例子 某公园的一次性门票为200元,一年内可以无限次入场的年票价格为595元。为检验该票价制度的合理性,随机抽取1000位年票持有者,记录了他们某年入园游览的次数。见表1.2.2.这是一个容量为1000的样本。1.2.2样本游览次数012345+人数45219210213148165表1.2.2 1000位年票持有者某年入园游览的次数11.2总体、样本和统计量例1.2.3样本的例子 某学院学生的体测数据,包含体重(斤)、腰围(码)、1分钟脉搏(次)、引体向上次数、5分钟仰卧起坐次数和1分钟跳绳次数,随机抽取20人,如表1.2.3 所示。这是一个容量为20的多维样本。1.2.2样本表1.2.3 20名学生的体测数据21.2总体、样本和统计量1.2.2样本样本来自总体,样本包含总体信息。为了使所抽取的样本能很好地反映总体,抽样方法的确定很重要。最理想的抽样方法是简单随机抽样,它满足如下两个要求:随机性:即要求总体中每个个体都有同等的机会被选到样本中。这说明样本中每个 X 的分布相同,均与总体 X 同分布。独立性:样本中每个个体的选取并不影响其他个体的选取。这意味着样本中每个个体 X 是相互独立的。1.2总体、样本和统计量1.2.2样本由简单随机抽样得到的样本称为简单随机样本,简称样本。此时(1,2,.,)可以看成是相互独立且服从同一分布(independent and identical distribution,iid)的随机变量,简称独立同分布样本。如无特别说明,本书所指的样本均为简单随机样本。1.2总体、样本和统计量1.2.2样本例1.2.6样本的例子有一批灯泡600只,现要从中抽取6只做寿命试验,如何从600只灯泡中抽取这6只灯泡,使所得样本为简单随机样本?1.2总体、样本和统计量1.2.3统计量定义 1.2.1 不含任何未知参数的样本函数称为统计量。1.2总体、样本和统计量1.2.3统计量11.2总体、样本和统计量1.2.3统计量21.2总体、样本和统计量1.2.3统计量31.2总体、样本和统计量1.2.3统计量41.2总体、样本和统计量1.2.3统计量51.2总体、样本和统计量1.2.3统计量5改进:1.2总体、样本和统计量1.2.3统计量61.3从样本认识总体的图表方法1.3.1频数频率表与直方图例1.3.11.1.频数分布表频数分布表对对于于取取值值连连续续型型的的变变量量,当当样样本本量量 n n 较较大大时时,把把样样本本整整理理为为分分组组样样本本可可得得频频数数频频率率表表,它它可可按按观观察察值值大大小小显显示示出出样样本本中中数数据据的分布状况。的分布状况。光通量是灯泡亮度的质量特征。现有一批220伏25瓦白炽灯泡要测其光通量的分布,为此从中随机抽取120只,测得其光通量如表1.3.1所示。1.3从样本认识总体的图表方法1.3.1频数频率表与直方图1.3从样本认识总体的图表方法1.3.1频数频率表与直方图l为从这组数据中挖掘出有用信息,常对数据进行分组,获得频数频率表,即分组样本。具体操作如下:1.3从样本认识总体的图表方法1.3.1频数频率表与直方图1.3从样本认识总体的图表方法1.3.1频数频率表与直方图表1.3.3 120个光通量的频数频率表1.3从样本认识总体的图表方法1.3.1频数频率表与直方图1.3从样本认识总体的图表方法1.3.1频数频率表与直方图l直方图的优点是能把样本中的数据用图形表示出来。直方图是直接对总体密度函数形状的一种估计。l在样本量较大的场合,直方图常是总体分布的影子。如图1.3.1上的直方图中间高,两边低,左右基本对称。这很可能是”白炽灯泡光通量常是正态分布”的影子。又如图1.3.2上的两个直方图是不对称的,是有偏的,其相应的总体可能是偏态的。各种统计软件都有画直方图的功能。1.3从样本认识总体的图表方法1.3.1频数频率表与直方图图图1.3.21.3.2 非对称直方图非对称直方图1.3从样本认识总体的图表方法l对于分类型变量或者离散型变量(取值是整数,但较少,按分类型变量处理)所对应的总体分布(概率分布列,各类别的取值概率)的估计可以使用条形图或者饼图。l条形图使用宽度相同的条形来表示各类别频数多少的图形。绘制条形图时,各类别可以放在纵轴,也可以放在横轴,条形的长短表示各类别的频数或频率。l饼图是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本中各类别的频数占全部频数的百分比。例 1.3.2 对消费者喜欢的饮料类别进行数据调查,随机访问了200名用户,其中喜欢“茶类饮品”、“碳酸饮料”、“果汁”、“矿泉水”、“其他”的人数分别是45、52、37、28和38。绘制的饼图和条形图如图1.3.3。1.3.2饼图与条形图1.3从样本认识总体的图表方法图图1.3.3 1.3.3 饮料调查数据的条形图和饼图饮料调查数据的条形图和饼图0 10 20 30 40 50 茶类饮品碳酸饮料果汁矿泉水其他饮料类别消费者喜欢类别的条形图频数矿泉水14%果汁18.5%其他19%茶类饮品22.5%碳酸饮料26%消费者喜欢饮料类别的饼图1.3.2饼图与条形图1.3从样本认识总体的图表方法1.3.3样本的经验分布函数1.经验分布函数设总体X的概率密度函数为f(x),累积分布函数为F(x)。从中抽取容量为n的简单随机样本,对其观测值X1,X2,.,Xn偏爱哪一个都没有理由,故可把这n个值看做某个离散随机变量(暂时记为X等可能取的值;这就得到如下离散分布:XX1X2XnP1/n1/n1/n1.3从样本认识总体的图表方法1.3.3样本的经验分布函数1.经验分布函数1.3从样本认识总体的图表方法1.3.3样本的经验分布函数例1.3.3为比较两地区居民的收入差异,现随机调查了每个地区10位居民的收入情况,数据如下:两个地区居民收入的经验分布函数如图1.3.4所示。可以看出存在明显的差异,这表明两个地区收入的总体分布存在较大差异。1.3从样本认识总体的图表方法1.3.3样本的经验分布函数图1.3.4两个地区居民收入的经验分布函数1.3从样本认识总体的图表方法1.3.3样本的经验分布函数1.经验分布函数1.3从样本认识总体的图表方法1.3.3样本的经验分布函数2.样本矩1.3从样本认识总体的图表方法1.3.3样本的经验分布函数2.样本矩1.3从样本认识总体的图表方法1.3.4高维数据的图表展示方法l在处理高维数据时,我们首先进行单变量分析,再进行两两间的相互分析。对于一维连续型变量,我们可以绘制直方图(总体密度函数的离散化估计);核密度估计曲线(使用非参数方法对密度曲线的估计,与直方图相比,这是一条平滑的曲线);经验分布图(总体分布函数的估计);对于一维离散变量,我们可以绘制条形图(分布列的估计);饼形图(分布列的估计);1.3从样本认识总体的图表方法1.3.4高维数据的图表展示方法对于两个连续变量(,),我们可以绘制对于两个离散变量,可以绘制分组条形图(给定一个变量后,另一个变量取值的条件分布);交叉列联表;对于一个离散变量和一个连续变量,可以绘制分组箱线图。1.3从样本认识总体的图表方法1.3.4高维数据的图表展示方法例1.3.4可展示的图表包括:散点图、密度曲线、箱线图、直方图、等高线图等。下面我们以例1.2.5(2)为例进行展示。1.3从样本认识总体的图表方法1.3.5数据变换例1.3.5某年级两个班的概率论期末考试成绩如下:1.3从样本认识总体的图表方法1.3.5数据变换图图1.3.5 1.3.5 两个班级概率论考试成绩原始数据及标准化数据的盒形图两个班级概率论考试成绩原始数据及标准化数据的盒形图1.3从样本认识总体的图表方法1.3.5数据变换例1.3.6某款手机APP用户每次登陆的使用时长(单位:秒)的随机抽样数据(n=50)如下:1.3从样本认识总体的图表方法1.3.5数据变换图图1.3.6 1.3.6 某款手机某款手机APPAPP用户每次登陆的使用时长及其对数变换的直方图用户每次登陆的使用时长及其对数变换的直方图1.4 次 序 统 计 量1.4.1 次序统计量的概念1.4.2 样本极差1.4.3 样本中位数与样本p分位数1.4.4 箱线图和QQ图1.4次序统计量1.4.1次序统计量的概念定义1.4.11.4次序统计量1.4.1次序统计量的概念例1.4.1l设总体X的分布为仅取0,1,2的离散均匀分布,即l现从中随机抽取容量为3的样本,该样本一切可能取值有33=27种,现将它们都列在表1.4.1的左侧,而相应的次序统计量的取值列在表1.4.1的右侧。1.4次序统计量1.4.1次序统计量的概念表 1.4.1 样 本X1X2X3及其 次 序 统 计 量X(1)X(2)X(3)的 取 值1.4次序统计量1.4.1次序统计量的概念l由表1.4.1可见,次序统计量(X(1)X(2)X(3))与样本(X1X2X3)的分布不相同,具体表现在以下几个方面。(1)X(1)X(2)X(3)的分布不同。(2)任 何 两 个 次 序 统 计 量 的 联 合 分布也是不同的。(3)任意两个次序统计量是不独立的,例如:1.4次序统计量1.4.2样本极差定义1.4.2(1)极差含有总体标准差的信息。(2)极差受样本量影响较大。图1.4.1样本(用x表示)极差反映总体分散程度1.4次序统计量1.4.2样本极差例1.4.21.4次序统计量1.4.3样本中位数与样本p分位数定义1.4.3n为奇数n为偶数1.4次序统计量1.4.2样本极差例1.4.3l一批砖在交付客户之前要抽检其抗压强度(单位:Mpa),现从中随机抽取10块砖,测得其抗压强度为(已排序):1.4次序统计量1.4.3样本中位数与样本p分位数定义1.4.3np是整数np不是整数1.4次序统计量1.4.3样本中位数与样本p分位数例1.4.41.4次序统计量1.4.4箱线图和QQ图图1.4.2 箱线图示意图1.4次序统计量1.4.4箱线图和QQ图箱线图可用来对总体的分布形状进行大致的判断。图1.4.3给出了三种常见的箱线图,分别对应左偏分布、对称分布和右偏分布。图图1.4.3 1.4.3 三种常见的箱线图及其对应的分布轮廓三种常见的箱线图及其对应的分布轮廓1.4次序统计量1.4.4箱线图和QQ图例1.4.4图1.4.5给出了例1.3.5中两个班级概率论成绩与正态分布的QQ图。可以看出数据基本成一条直线,但1班在左下方,2班在右上方偏差较大。图1.4.51班(左)和2班(右)概率论成绩与正态分布的QQ图1.5 抽 样 分 布1.5.1 样本均值的抽样分布1.5.2 正态总体各统计量的分布1.5.3 次序统计量的分布1.5.4 用随机模拟法寻找统计量 的近似分布1.5抽样分布定义1.5.11.2.3 1.2.3 节节介介绍绍了了统统计计量量的的概概念念,我我们们知知道道统统计计量量是是随随机机变变量量(向量),因此(向量),因此抽样分布抽样分布的定义如下。的定义如下。统计量的概率分布称为抽样分布。1.5抽样分布1.5.1样本均值的抽样分布定理1.5.11.5抽样分布1.5.1样本均值的抽样分布例1.5.1l图1.5.1左侧有一个由20个数组成的总体X,该总体分布为:图 1.5.1总 体 及 其4个 样 本 的 样 本 均 值1.5抽样分布1.5.1样本均值的抽样分布图1.5.2500个样本均值形成的直方图1.5抽样分布1.5.1样本均值的抽样分布1.5抽样分布1.5.2正态总体各统计量的分布定义1.5.21.样本方差的抽样分布1.5抽样分布1.5.2正态总体各统计量的分布定理1.5.21.5抽样分布1.5.2正态总体各统计量的分布为了定理1.5.2的证明,特给出多维随机向量的期望与方差的矩阵表示。()=()()=()于是Y的期望向量为:1.5抽样分布1.5.2正态总体各统计量的分布至于第二个等式,亦可由线性变换导出:1.5抽样分布1.5.2正态总体各统计量的分布接下来证明定理1.5.2.1.5抽样分布1.5.2正态总体各统计量的分布这就证明了结论(2)。1.5抽样分布1.5.2正态总体各统计量的分布定义1.5.32.样本均值与样本标准差之比的抽样分布1.5抽样分布1.5.2正态总体各统计量的分布定理1.5.31.5抽样分布1.5.2正态总体各统计量的分布1.5抽样分布1.5.2正态总体各统计量的分布定理1.5.41.5抽样分布1.5.2正态总体各统计量的分布t分布的密度函数图像是一个关于纵轴对称的分布(见图1.5.4),与标准正态分布的密度函数十分类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布大一些。图1.5.4 t(5)分布与N(0,1)的密度函数1.5抽样分布1.5.2正态总体各统计量的分布t分布有以下性质:1.5抽样分布1.5.2正态总体各统计量的分布定理1.5.53.两个独立正态样本方差比的F分布1.5抽样分布1.5.2正态总体各统计量的分布证:我们分两步来证明这个定理。最后的定积分为伽玛函数,所以1.5抽样分布1.5.2正态总体各统计量的分布证毕。1.5抽样分布1.5.2正态总体各统计量的分布F分布的密度函数图形:当分子的自由度为1或2时,其密度函数是单调递减函数(见图1.5.5a),其他情况下密度函数呈单峰的右偏分布(见图1.5.5b)。图1.5.5F分布的密度函数F分布有以下性质:1.5抽样分布1.5.3次序统计量的分布定理1.5.61.第k个次序统计量的抽样分布1.5抽样分布1.5.3次序统计量的分布定理1.5.6其分布函数为:其分布函数为:1.5抽样分布1.5.3次序统计量的分布1.5抽样分布1.5.3次序统计量的分布例1.5.2从而(1)=1 1()=故1.5抽样分布1.5.3次序统计量的分布2.任意两个次序统计量的分布以及n个次序统计量的联合分布1.5抽样分布例1.5.31.5.4用随机模拟法寻找统计量的近似分布1.5抽样分布1.5.4用随机模拟法寻找统计量的近似分布1.5抽样分布1.5.4用随机模拟法寻找统计量的近似分布1.5抽样分布1.5.4用随机模拟法寻找统计量的近似分布1.5抽样分布1.5.4用随机模拟法寻找统计量的近似分布1.6 充 分 统 计 量1.6.1 充分统计量的概念1.6.2 因子分解定理1.6充分统计量1.6.1充分统计量的概念例1.6.1某厂要了解某产品的不合格品率p,按常规,检验员随机抽检了10件产品,检验结果如下(0表示合格品,1表示不合格品):1=12=03=04=05=06=07=08=19=010=0(1)第1件不合格,第2件合格,第3件合格,第10件合格;(2)10件中共有2件不合格;(3)头2件中有1件不合格。1.6充分统计量1.6.1充分统计量的概念例1.6.2这个例子实际上就是例1.6.1的一般化叙述。首先指出该样本的联合分布是1.6充分统计量1.6.1充分统计量的概念(1=1,2=2,=|1=)1.6充分统计量1.6.1充分统计量的概念(1=1,2=2,=|2=)1.6充分统计量1.6.1充分统计量的概念1.6充分统计量1.6.1充分统计量的概念1.6充分统计量1.6.1充分统计量的概念由此可得联合分布(,)=()()=最后可得这就证明了此引理。1.6充分统计量1.6.1充分统计量的概念例1.6.31.6充分统计量1.6.1充分统计量的概念例1.6.3例1.6.41.6充分统计量1.6.1充分统计量的概念例1.6.41.6充分统计量1.6.1充分统计量的概念例1.6.41.6充分统计量1.6.1充分统计量的概念在给定T=a下,样本X取值为b时,条件概率定理1.6.21.6充分统计量1.6.2因子分解定理()=:()=1.6充分统计量1.6.2因子分解定理1.6充分统计量1.6.2因子分解定理()=(=)1.6充分统计量1.6.2因子分解定理1.7 常 用 的 概 率 分 布 族1.7.1 常用概率分布族表1.7.2 伽玛分布族1.7.3 贝塔分布族1.7.4 指数型分布族1.7常用的概率分布族1.7.1常用概率分布族表1.7常用的概率分布族1.7.1常用概率分布族表1.7常用的概率分布族1.7.2伽玛分布族1.7常用的概率分布族1.7.2伽玛分布族2.2.伽玛分布伽玛分布若随机变量X的密度函数为:则称 服从伽玛分布,记作 (,),其中 0为形状参数,0为尺度参数,伽玛分布族记为(,);0,0。图1.7.1给出了若干条 固定、不同的伽玛密度函数曲线,从图中可以看出:l0 1时,()是严格下降函数,且在=0处有奇异点;l=1时,()是严格下降函数,且在=0处(0)=;l12时,()是单峰函数,先下凸、中间上凸、后下凸。且 越大,()越近似于正态密度函数。0,X0X01.7常用的概率分布族1.7.2伽玛分布族1.7常用的概率分布族1.7.2伽玛分布族0,X0X01.7常用的概率分布族1.7.2伽玛分布族4.4.伽玛分布的性质伽玛分布的性质1.7常用的概率分布族1.7.2伽玛分布族例1.7.1电子产品的失效常由于外界的“冲击”引起。若在(0,)内发生冲击的次数()服从参数为 的泊松分布,试证第n次冲击来到的时间服从伽玛分布(,)。证 因为事件“第n次冲击来到的时间Sn小于等于t”等价于事件“(0,t)内发生冲击的次数N(t)大于等于n”,即于是,Sn的分布函数为:1.7常用的概率分布族1.7.2伽玛分布族例1.7.1用分布积分法可以验证下列等式:所以这就表明SnGa(n,)。证毕。1.7常用的概率分布族1.7.3贝塔分布族(1)(,)=(,)。(2)贝塔函数与伽玛函数间有如下关系:(,)=()()/(+)1.7常用的概率分布族1.7.3贝塔分布族2.2.贝塔分布贝塔分布若随机变量X的密度函数为:则称X服从贝塔分布,记做 (,),其中 0,0都是形状参数,故贝塔分布族可表示为(,);0,0。下图给出了几种典型的贝塔密度函数曲线。0,0 x1其他1.7常用的概率分布族1.7.3贝塔分布族1.7常用的概率分布族1.7.4指数型分布族定义1.7.11.7常用的概率分布族1.7.4指数型分布族例1.7.21.7常用的概率分布族1.7.4指数型分布族例1.7.21.7常用的概率分布族1.7.4指数型分布族例1.7.21.7常用的概率分布族1.7.4指数型分布族例1.7.21.7常用的概率分布族1.7.4指数型分布族例1.7.21.7常用的概率分布族1.7.4指数型分布族例1.7.31.7常用的概率分布族1.7.4指数型分布族例1.7.31.7常用的概率分布族1.7.4指数型分布族1.7常用的概率分布族1.7.4指数型分布族例1.7.4谢谢观看统计学院SCHOOLOFSTATISTICS参数估计第二章统计学院SCHOOLOFSTATISTICS第 2 章 参 数 估 计点估计与无偏性PART 2.12.1点估计与无偏性定义2.1.12.1点估计与无偏性定义2.1.1参数参数通常指如下几种,它们都通常指如下几种,它们都可以表示为总体概率分布的函数可以表示为总体概率分布的函数,记为记为 =()或或 =()。分布中所含的未知常数;分布中的期望、方差、标准差、分位数等特征数;某事件的概率等。一个参数的估计量常不止一个,如何评价其优劣性呢?常用的评价标准有多个,如无偏性、有效性、均方误差最小与相合性。本节先讲无偏性,其他几个评价标准以后再作介绍。2.1点估计与无偏性定义2.1.22.1点估计与无偏性定义2.1.2图 2.1.12.1点估计与无偏性定义2.1.22.1点估计与无偏性例2.1.12.1点估计与无偏性例2.1.12.1点估计与无偏性2.1点估计与无偏性表2.1.1 正态标准差的修偏系数表第 2 章 参 数 估 计矩估计与相合性PART 2.22.2矩估计与相合性2.2.1矩估计矩矩估估计计是是一一种种具具体体的的寻寻找找点点估估计计的的方方法法,它它的的基基本本思思想想是是 “替代替代”,具体是,具体是:用样本矩(即矩统计量)估计总体矩。用样本矩的函数估计总体矩的相应函数。2.2矩估计与相合性2.2.1矩估计这里的矩可以是各阶原点矩,也可以是各阶中心矩。这一思想是英国统计学家皮尔逊(K.Pearson)在 1900 年提出的。该思想合理,方法简单,使用方便,只要总体矩存在的场合都可使用。该思想后人称为矩法,所得估计称为矩估计。2.2矩估计与相合性例2.2.12.2矩估计与相合性例2.2.12.2矩估计与相合性例2.2.22.2矩估计与相合性例2.2.3设样本 X1,X2,Xn 来自正态总体 N(,2),与 未知,求 p=P(X 0 称为尺度参数。现要求 与 的MLE。l设X=(X1,X2,Xn)是来自双参数指数分布 exp(,)的一个样本,该分布的密度函数为:2.3最大似然估计与渐近正态性2.3.1最大似然估计先写出 与 的似然函数,在非零区域上有解这虽是在固定 下寻求 的最大值,但没有具体规定 的值。即 为任意值时 的MLE都为 X(1)。2.3最大似然估计与渐近正态性2.3.1最大似然估计解此对数似然方程,可得 的MLE为:这是因为对任意的 与,有2.3最大似然估计与渐近正态性2.3.1最大似然估计例2.3.62.3最大似然估计与渐近正态性2.3.1最大似然估计由二元正态密度函数可以写出 2 与 的似然函数:解2.3最大似然估计与渐近正态性2.3.1最大似然估计经验证,它们确实使似然函数 L(2,)达到最大值,故它们分别是 2 与 的MLE。解之可得2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理定理2.3.1(不变原理)2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理例2.3.7某产品生产现场有多台设备,设备故障的维修时间 T 服从对数正态分布LN(,2)。现在一周内共发生24次故障,其维修时间 t(单位:分)为:平均维修时间 T 与维修时间的标准差 T 的MLE。可完成95%故障的维修时间t0.95(0.95分位数)的MLE。1255 28 125 47 58 53 36 88 51 110 40 7564 115 48 52 60 72 87 105 55 82 66 65求2.3最大似然估计与渐近正态性这个问题的一般提法是:设 t1,t2,tn 是来自对数正态分布 LN(,2)的一个样本,现要对其均值 T、标准差 T 和0.95分位数t0.95 分别给出MLE。解2.3.2最大似然估计的不变原理(1)对数正态分布 LN(,2)的均值和方差分别为:若能获得 与 2 的MLE,由不变原理立即可得 T 与 T 的MLE。2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理当 T LN(,2)时,有 X=lnT N(,2)。由此可知,lnt1,lnt2,lntn 是来自正态分布 N(,2)的一个样本,由此可得 与 2 的MLE分别为(见例 2.3.2):2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理从而可得对数正态分布的均值 T 与方差 T2 的MLE分别为:这表明,该生产现场设备的平均维修时间约为68分钟,维修时间的标准差约为26分钟。2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理(2)为了给出 t0.95 的MLE,我们先对对数正态分布LN(,2)的 p 分位数 tp 给出一般表达式,记维修时间T的 的分布函数为 F(t),则有2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理例2.3.8设某电子设备的寿命(从开始工作到首次发生故障的连续工作时间,单位:小时)服从指数分布 exp()。现任取15台进行寿命试验,按规定到第7台发生故障时试验停止,所得7个寿命数据为:500 135021302500312035003800这是一个不完全样本,常称为定数截尾样本,现要对其寻求平均寿命 =1/的MLE。2.3最大似然估计与渐近正态性解2.3.2最大似然估计的不变原理2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理其中,p 与 F 分别为指数分布的密度函数与分布函数代入后,略去与参数无关的量,即得 的似然函数2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理l用微分法可得对数似然方程2.3最大似然估计与渐近正态性2.3.2最大似然估计的不变原理l在本例中,n=15,r=7,t(r)=3800,首先算得总试验时间l由此可得平均寿命(单位:小时)的MLE为:=500+1350+2130+2500+3120+3500+3800+(15 7)3800=473002.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性定义2.3.2l或依分布收敛符号L 记为:2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性例2.3.92.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性l或2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性例2.3.10l前面已经指出:2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性l则由中心极限定理知l或l考虑到 n/(n 1)1,又有有2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性l这表明 S2 是 2 的渐近正态估计,其渐近方差为 24/n。综上所述,有2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性定理2.3.2l设 p(x;)是某密度函,其参数空间 =是直线上的非退化区间,假如:(1)对一切 ,p=p(x;)对 的如下偏导数都存在(2)对一切 ,有成立,其中 F1(x)与 F2(x)在实数轴上可积,而 H(x)满足这里 M 与 无关。2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性定理2.3.2(3)对一切 ,有其中,I()称为费希尔信息量,有时还简称信息量。2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性定义2.3.32.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性例2.3.11l求二点分布 b(1,)参数 的费希尔信息量,其分布列为:2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性解l可以验证,二点分布属于 Cramer-Rao 正则族。为求其费希尔信息量,要进行如下运算:2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性例2.3.12l设 X1,X2,Xn 是来自正态总体 N(,2)的一个样本,可以验证,正态分布属于Cramer-Rao 正则族。2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性l从而2.3最大似然估计与渐近正态性2.3.3最大似然估计的渐近正态性l在已知 的条件下,的MLE是l而 的费希尔信息量的计算如下:l从而2.3最大似然估计与渐近正态性2.3.4EM算法MLE是一种非常有效的参数估计方法,但当分布中有多余参数或数据为截尾或缺失时,其MLE的求取是比较困难的。于是 Dempster 等于1977年提出了EM算法,其出发点是把求MLE的过程分两步走。第一步求期望,以便把多余的部分去掉;第二步求最大值。2.3最大似然估计与渐近正态性2.3.4EM算法例2.3.13l设一次试验可能有 4 个结果,发生的概率分别为1/2/4,(1)/4,(1+)/4,/4,(0,1)。现进行了197次试验,四种结果的发生次数分别为75,18,70,34,试求 的 MLE。2.3最大似然估计与渐近正态性l以 y1,y2,y3,y4 表示四种结果发生的次数,此时总体分布为多项分布,其似然函数为l我们可以通过最大化对数似然函数的方式求解 的MLE。2.3.4EM算法2.3最大似然估计与渐近正态性lEM算法通过引入两个潜在变量 z1,z2 后,通过迭代计算方式求解。l假设第一种结果可以分成两个部分,发生的概率分别为(1 )/4 和,令 z1 和 y1 z1 分别表示落入这两部分的次数;l再假设第三种结果也分成两部分,发生的概率分别为/4和1/4,令 z2 和 y3 z2 分别表示落入这两部分的次数,z1,z2 是不可观测的。l也称(y,z)是完全数据,而只有观测数据 y 时称为不完全数据。l此时完全数据的似然函数用 Lc 表示:2.3.4EM算法2.3最大似然估计与渐近正态性2.3.4EM算法l其对数似然为l然而此时由于 z1 和 z2 未知,上式无法直接求解,但我们注意到,当给定 y,已知时,2.3最大似然估计与渐近正态性2.3.4EM算法l于是 Dempster 等人建议如下分两步进行迭代求解l首先,人为设一个 的初值(0)l第一步(也称 E-步),在已知观测数据 y 和第 i 步估计值(i)条件下,求基于完全数据的对数似然函数(关于潜在变量 z)的期望,称为 Q 函数:l第二步(也称 M-步),求 Q(|y,(i)关于 的最大值,记录对应的 值进行更新:l重复以上两步,直到收敛即可得到 的 MLE。2.3最大似然估计与渐近正态性2.3.4EM算法l对于本例,可得到l所以l又知l所以l取(0)=0.5,则13次迭代后可求得 的MLE为0.6067。2.3最大似然估计与渐近正态性定理2.3.32.3.
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服