资源描述
模式模式识别自自动化学院化学院统计决策方法决策方法 胡静胡静.自自动化学院化学院第二章第二章 贝叶斯决策理叶斯决策理论22.12.1 引言引言2.2 2.2 最小最小错误率率贝叶斯叶斯决策决策2.32.3 最小最小风险贝叶斯叶斯决策决策2.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线2.52.5 正正态分布分布时的的统计决策决策2.6 2.6 关于分关于分类器的器的错误率率2.7 2.7 离散概率模型下的离散概率模型下的统计决策决策举例例.自自动化学院化学院 托马斯贝叶斯(Thomas Bayes,17011761)英国牧师、业余数学家。生活在18世纪的贝叶斯生前是位受人尊敬英格兰长老会牧师,为了证明上帝的存在,他发明了概率统计学原理,遗憾的是,他的这一美好愿望至死也未能实现。贝叶斯思想和方法对概率统计的发展产生了深远的影响。今天,贝叶斯思想和方法在许多领域都获得了广泛的应用。背景介背景介绍3.自自动化学院化学院贝叶斯理论及应用数学领域 贝叶斯分类算法 (应用:统计分析、测绘学)贝叶斯风险 (应用:统计决策论)贝叶斯公式 (应用:概率空间)贝叶斯估计 (应用:参数估计)贝叶斯区间估计 (应用:数学中的区间估计)贝叶斯统计 (应用:统计决策论)贝叶斯序贯决策函数 (应用:统计决策论)经验贝叶斯方法 (应用:统计决策论)工程领域 贝叶斯定理 (应用:人工智能、心理学、遗传学)贝叶斯分类器 (应用:模式识别、人工智能)贝叶斯分析 (应用:计算机科学)贝叶斯决策 (应用:人工智能)贝叶斯逻辑 (应用:人工智能)贝叶斯推理 (应用:数量地理学、人工智能)贝叶斯网络 (应用:人工智能)贝叶斯学习 (应用:模式识别)其他领域 贝叶斯主义 (应用:自然辩证法)有信息的贝叶斯决策方法(应用:生态系统生态学)4.自自动化学院化学院2.12.1 引言引言统计模式模式识别:用概率:用概率统计的的观点和方法来解决模式点和方法来解决模式识别问题基本概念:基本概念:l样本本(sample)l状状态(state)第一第一类:,第二第二类:l先先验概率概率(aprioriprobablityorprior),l样本分布本分布密度密度(sampledistributiondensity)(总体体概率密度)概率密度)l类条件概率密度条件概率密度(class-conditionalprobablitydensity):,5.自自动化学院化学院6统计概率:若在大量重复试验中,事件A发生的频率稳定地接近于一个固定的常数p,它表明事件A出现的可能性大小,则称此常数p为事件A发生的概率,记为P(A),即 pP(A)实际上,求出的P为频率,但是如果统计次数足够大,可以认为此时的频率接近概率 预备知知识-统计概率概率可见概率就是频率的稳定中心。任何事件A的概率为 0=P(A)=1 条件概率:我们把事件B已经出现的条件下,事件A发生的概率记做为P(A|B)。并称之为在B出现的条件下A出现的条件概率,而称P(A)为无条件概率。.自自动化学院化学院2.12.1 引言引言l后后验概率概率(aposterioriprobablityorposterior):,l错误概率概率(probablityoferror):l平均平均错误率率(averageprobablityoferror):l正确率正确率(proabalityofcorrectness):7和和类条件概率条件概率密度密度对比看看比看看.自自动化学院化学院2.1 2.1 引言引言贝叶斯决策(叶斯决策(统计决策理决策理论)是是统计模式模式识别的基本方法和基的基本方法和基础。是是“最最优分分类器器”:使平均:使平均错误率最小率最小条件条件:类别数一定,数一定,(决策决策论中把中把类别称作状称作状态)已知已知类先先验概率和概率和类条件概率密度条件概率密度 目目标:8贝叶斯决策的前提条件,叶斯决策的前提条件,不是条件概率的条件不是条件概率的条件.自自动化学院化学院2.22.2 最小最小错误率率贝叶斯决策叶斯决策9因因为 ,所以上式等价于:所以上式等价于:for all .for all .而而 If ,assign If ,assign -最小最小错误率率贝叶斯决策,叶斯决策,简称称贝叶斯决策叶斯决策 平均平均错误率率.自自动化学院化学院2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策如何如何计算后算后验概率?概率?已知已知 ,贝叶斯公式叶斯公式:(:(Bayesian TheoryBayesian Theory)If ,If ,then assign then assign .10怎么来的?很难记?.自自动化学院化学院例:假设n次实验中,点目标出现m次,点目标被成功检测出来k次,那么条件概率P(成功检测目标|输入是点目标)=k/m=(k/n)/(m/n)=P(成功检测目标 并且 输入是点目标)/P(输入是点目标的概率)所以有 P(A|B)=P(AB)/P(B)P(B)0贝叶斯公式推叶斯公式推导条件概率:我们把事件B已经出现的条件下,事件A发生的概率记做为P(A|B)。并称之为在B出现的条件下A出现的条件概率。P(AB)P(B)P(A|B)11.自自动化学院化学院两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即 P(A+B)=P(AB)=P(A或B)P(A)P(B)AB=P(检测出点目标)+P(检测出斑目标)P(检测出点目标或检测出斑目标)P(成功检测|斑目标)贝叶斯公式推叶斯公式推导联合概率也叫乘法公式,表示两个事件共同发生的概率,也可以表示为两个任意事件的乘积的概率,或称之为交事件的概率。A与B的联合概率表示为 P(AB)或者P(A,B),或者P(AB)相互独立事件:事件A是否发生对事件B发生的概率没有影响,反之亦然,这样的两个事件叫做相互独立事件。当A与B是相互独立的事件,有 P(A)P(B)P(AB)=P(A且B)P(算法1成功检测目标)P(算法2成功检测目标)P(算法1成功检测目标 且 算法2也成功检测目标)12.自自动化学院化学院设A1,A2,An是两两互斥的事件,AiAj=,ij,i,j=1,2,n,且A1+A2+,+An=,P(Ai)0A1A2A3AnB另有一事件B=BA1+BA2+BAnP(AiB)P(Ai)P(B|Ai)条件概率公式称满足上述条件的,A1,A2,An为完备事件组.全概率公式贝叶斯公式推叶斯公式推导13.自自动化学院化学院14B=BA1+BA2+,+BAnP(AiB)P(Ai)P(B|Ai)AiAj=全概率公式贝叶斯公式推叶斯公式推导.自自动化学院化学院15例:在我们平时的自测过程中,点目标的丢失率为1%,斑目标的丢失率为2%。现在输入测试图象点目标有40%,斑目标有60%.我们来预估测试数据总的目标检测率 解:设A1,A2分别表示点目标和斑目标,B表示目标丢失事件P(A1)=0.4,P(A2)=0.6,P(B|A1)=0.01,P(B|A2)=0.02,A1A2=P(B)=P(A1B+A2B)=P(A1B)+P(A2B)=P(A1)P(B|A1)+P(A2)P(B|A2)=P(点目标)P(目标丢失|点目标)+P(斑目标)P(目标丢失|斑目标)=0.40.01+0.60.02=0.016 P(成功检测目标)=1-P(目标丢失)=98.4%目标丢失点目标斑目标全概率公式贝叶斯公式推叶斯公式推导.自自动化学院化学院由此可以形象地把全概率公式看成为:“由原因推结果”,每个原因对结果的发生有一定的“作用”,即结果发生的可能性与各种原因的“作用”大小有关.全概率公式表达了它们之间的关系.诸Ai是原因,B是结果A1A2A3AnB全概率公式贝叶斯公式推叶斯公式推导16.自自动化学院化学院该公式于1763年由贝叶斯(Bayes)给出,它是在观察到事件B已发生的条件下,寻找导致B发生的每个原因的概率.设 A1,A2,An是 样 本 空 间 中 的 完 备 事 件 组 且 P(Ai)0,i=1,2,n,另有一事件B,则有 P(点目标|成功检测目标),P(斑目标|成功检测目标)P(目标是飞机|目标特征值为X),P(目标是导弹|目标特征值为X)简单,一眼就看出来复杂,需要判断决策贝叶斯公式推叶斯公式推导17.自自动化学院化学院贝叶斯公式的理解叶斯公式的理解基于条件概率的定义果因证据先验因果似然:likelyhood 可能性18.自自动化学院化学院T1:贝叶斯公式有什么用?是用来干什么的叶斯公式有什么用?是用来干什么的?贝叶斯公式实质上是通过观察B,把状态的先验概率P(Ai)转化为状态的后验概率P(Ai|B)贝叶斯公式的理解叶斯公式的理解19.自自动化学院化学院贝叶斯公式的另一种形式叶斯公式的另一种形式v模式识别领域更常用的贝叶斯公式形式T2:模式:模式识别的的贝叶斯公式中叶斯公式中为什么可以用概率密度?什么可以用概率密度?对连续型随机变量,应用贝叶斯公式时,可以用概率密度函数乘以一个常数表示概率。由于所有的类别都乘了相同的常数,所以这个常数也可以忽略不计,直接用概率密度函数就行。概率密度概率数理统计:20P(B)离散的表示方法连续的表示方法.自自动化学院化学院这里的似然函数也是类条件概率分布函数。作为条件概率其计算公式为:具体计算可以根据已知条件进行实现,如:果因证据先验因果似然:likelyhood 可能性T3:似然函数怎么确定?似然函数怎么确定?贝叶斯公式的理解叶斯公式的理解21.自自动化学院化学院l直接读取前例:在我们平时的自测过程中,点目标的丢失率为1%,斑目标的丢失率为2%。现在输入测试图象点目标有40%,斑目标有60%.我们来预估测试数据总的目标检测率 设A1,A2分别表示点目标和斑目标,B表示目标丢失事件P(A1)=0.4,P(A2)=0.6 P(B|A1)=P(目标丢失|点目标)=0.01,P(B|A2)=P(目标丢失|斑目标)=0.02l计算获得假设n次实验中,点目标出现m次,点目标被成功检测出来k次,那么条件概率P(成功检测目标|点目标)=P(成功检测目标 并且 输入是点目标)/P(输入是点目标的概率)=(k/n)/(m/n)=k/m贝叶斯公式的理解叶斯公式的理解22.自自动化学院化学院T4:离散离散观测条件下条件下类条件概率密度怎么求条件概率密度怎么求?估计类条件概率密度p(x|i)方法1a:概率密度参数估计,基于对p(x|i)的含参数的描述 方法1b:概率密度非参数估计,基于对p(x|i)的非参数的描述 贝叶斯公式的理解叶斯公式的理解23.自自动化学院化学院Kernel-based methods贝叶斯公式的理解叶斯公式的理解24.Non-parametric density estimation贝叶斯公式的理解叶斯公式的理解25.自自动化学院化学院贝叶斯决策叶斯决策v贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率(先验)估计,然后用贝叶斯公式对发生概率(后验)进行修正,最后再利用期望值和修正概率做出最优决策。v贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:v1、已知类条件概率密度参数表达式和先验概率v2、利用贝叶斯公式转换成后验概率v3、根据后验概率大小进行决策分类类条件概率密度参数表达式先验概率证据:概率密度26.自自动化学院化学院2.2 2.2 最小最小错误率率贝叶斯叶斯决策决策最小最小错误率率贝叶斯决策叶斯决策规则的几种等价表达形式:的几种等价表达形式:(1)If ,then(2)If ,then (3)If ,then 27.自自动化学院化学院2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策(4)定义 If ,then 其中,其中,:似然比似然比,:似然比似然比阈值,:对数似然比数似然比28.自自动化学院化学院概率密度函数概率密度函数2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策29.自自动化学院化学院类条件概率密度函数条件概率密度函数2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策30.后验概率比较假设先验概率P(1)=0.2,P(2)=0.8后验概率P(1|X)+P(2|X)=12.2 2.2 最小最小错误率率贝叶斯决策叶斯决策31.自自动化学院化学院 两类情况下的Bayes分类,下述四种等价规则的决策X1,否则X2X1X22.2 2.2 最小最小错误率率贝叶斯决策叶斯决策32.自自动化学院化学院 两类情况下的Bayes分类,下述四种等价规则的决策X1,否则X2X1X22.2 2.2 最小最小错误率率贝叶斯决策叶斯决策33.自自动化学院化学院 两类情况下的Bayes分类,下述四种等价规则的决策X1,否则X22.2 2.2 最小最小错误率率贝叶斯决策叶斯决策34.决策面方程(两类问题):2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策35.自自动化学院化学院v最小错误率准则就是:对于与待判决数据X,寻找一个类别i,使得错误率Pi(e)最小;v最小错误率准则 等价于 求取后验概率P(i|X)最大。将X判决为j类,但实际上X不属于j类,而是属于i类,由此产生了误判,该事件的概率为:2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策37.自自动化学院化学院T5:为什么什么这种基于后种基于后验概率的分概率的分类方法的方法的平均平均错误率最小率最小?对于两类问题,假设X 域,判决面将空间分割为1和2,1区域所有X值:分类器判定属于1类;2区域所有X值:分类器判定属于2类。122.2 2.2 最小最小错误率率贝叶斯决策叶斯决策38.自自动化学院化学院最小最小错误率的率的 Bayes Bayes 决策决策T5:T5:为什么什么这种基于后种基于后验概率的分概率的分类方法方法 的的平均平均错误率最小率最小?对于两类问题,假设X域,判决面将分割为1和2,分析39.自自动化学院化学院最小最小错误率的率的 Bayes Bayes 决策决策T5:T5:为什么什么这种基于后种基于后验概率的分概率的分类方法的方法的平均平均错误率最小率最小?平均错误率可以表示为40.自自动化学院化学院最小最小错误率的率的 Bayes Bayes 决策决策T5:T5:为什么什么这种基于后种基于后验概率的分概率的分类方法的方法的平均平均错误率最小率最小?平均错误率可以表示为判断错误的区域为阴影包围的面积和。l如果分类面不是按照后验概率最大来划分1241.自自动化学院化学院T5:T5:为什么什么这种基于后种基于后验概率的分概率的分类方法的方法的平均平均错误率最小率最小?平均错误率可以表示为判断错误的区域为阴影包围的面积和。l如果分类面不是按照后验概率最大来划分决策面会移动最小最小错误率的率的 Bayes Bayes 决策决策1242.自自动化学院化学院T5:T5:为什么什么这种基于后种基于后验概率的分概率的分类方法的方法的平均平均错误率最小?率最小?平均错误率可以表示为判断错误的区域为阴影包围的面积和。l如果分类面不是按照后验概率最大来划分决策面会移动错误面积会增大最小最小错误率的率的 Bayes Bayes 决策决策1243.自自动化学院化学院T5:T5:为什么什么这种基于后种基于后验概率的分概率的分类方法的方法的平均平均错误率最小?率最小?平均错误率可以表示为决策规则实际上对每个X都使p(e|X)取最小值,移动决策面都会使错误区域增大,因此平均错误率最小。这种基于后验概率的分类方法的平均错误率最小最小最小错误率的率的 Bayes Bayes 决策决策1244.自自动化学院化学院2.2 2.2 最小最小错误率率贝叶斯决策叶斯决策多多类情况:情况:(1 1)If ,then If ,then(2 2)If ,then If ,then 错误率率:45.自自动化学院化学院例例1:1:发报机发送0,1信号,0和1 的发送频率统计约为70%和30%。由于噪声干扰,当发出信号0时,接受到的信号有80%被读为0,有20%被读为1;同样的,当发出信号1时,接受到的信号有90%被读为1,有10%被读为0。问,接收端收到信号0时,发报机发出0,1 的概率。解:先验概率 P(发0)=0.7,P(发1)=0.3类概率(似然)P(收0|发0)=0.8,P(收1|发0)=0.2,P(收0|发1)=0.1,P(收1|发1)=0.9,后验概率 P(发1|收0)=1-P(发0|收0)=0.050846.自自动化学院化学院例例1:1:Matlab 编程解47.自自动化学院化学院例例2:2:先验概率P(导弹)=0.2,P(飞机)=0.8有一个待识别的目标,其亮度为x,从类条件概率密度分布曲线上查到p(x|导弹)=0.2,p(x|飞机)=0.4,对目标进行分类。解:利用贝叶斯公式,分别计算出目标x判定为飞机和导弹的概率。根据贝叶斯决策规则,有P(飞机|X)P(导弹|X),所以判定这个亮度为x的待识别的目标为飞机。48.自自动化学院化学院例例3 3:两类问题,已知的先验概率P(导弹)=0.2,P(飞机)=0.8,假设类概率密度函数满足正态分布,P(X|导弹)的分布满足N(5,1.5),P(X|飞机)的分布满足N(10,2),求平均最小错误率P(e)解:49.自自动化学院化学院50.自自动化学院化学院2.32.3 最小最小风险贝叶斯决策叶斯决策l最小最小错误率只考率只考虑了了错误l进一步可考一步可考虑不同不同错误所所带来的来的损失(代价失(代价)用用决策决策论方法把方法把问题表述如下表述如下:(1 1)把)把样本本 看作看作 维随机向量随机向量 (2 2)状状态空空间 由由 个个可能的状可能的状态(类)组成成:(3 3)对随机向量随机向量 可能可能采取的决策采取的决策组成了决策空成了决策空间,它,它由由k k个决策个决策组成:成:51代表将观测样本X判定为i类的决策。.自自动化学院化学院2.32.3 最小最小风险贝叶斯决策叶斯决策(4(4)对于于实际状状态为 的向量的向量 ,但被判,但被判为 (即即采取决策采取决策 )所所带来的来的损失失为 ,形成,形成损失函数。失函数。对于于实际问题,损失函数通常以表格形式失函数通常以表格形式给出(决策表出(决策表)。5212jc1(1,1)(1,2)(1,j)(1,c)2(2,1)(2,2)(2,j)(2,c)i(i,1)(i,2)(i,j)(i,c)a(a,1)(a,2)(a,j)(a,c).自自动化学院化学院2.32.3 最小最小风险贝叶斯决策叶斯决策 条件期望条件期望损失:失:对于特定于特定的的 采取采取决策决策 的的期望期望损失失:期望期望损失失/期望期望风险/平均平均风险:5312jc1(1,1)(1,2)(1,j)(1,c)2(2,1)(2,2)(2,j)(2,c)i(i,1)(i,2)(i,j)(i,c)a(a,1)(a,2)(a,j)(a,c)后验概率加权和.自自动化学院化学院2.32.3 最小最小风险贝叶斯决策叶斯决策 条件期望条件期望损失:失:对于特定于特定的的 采取采取决策决策 的的期望期望损失失:期望期望损失失/期望期望风险/平均平均风险:对所有可能的所有可能的 采取决策采取决策 所所造成的期望造成的期望损失之和失之和。(表示表示 依依赖于决策于决策规则 )风险决策:决策:-期望期望平均平均风险最小化最小化 54对于x的不同观测值,采取决策i时,其条件风险的大小是不同的,所以究竟采取哪一个决策将随x的取值而定。因此,可以认为是x的函数,记为(x).自自动化学院化学院2.32.3 最小最小风险贝叶斯决策叶斯决策 对所所有有 ,使,使 最小最小,则可以使可以使 最小,因此有最小,因此有:最小:最小风险贝叶斯决策叶斯决策规则:55.自自动化学院化学院2.32.3 最小最小风险贝叶斯决策叶斯决策计算:可采取以下步算:可采取以下步骤(对于于给定的定的样本本 ):(1 1)计算后算后验概率:概率:(2 2)计算算风险:(3 3)决策)决策:56.自自动化学院化学院两两类情况:(情况:(损失函数失函数表表 ,)或若或若 2.32.3 最小最小风险贝叶斯决策叶斯决策57则显然,当然,当 ,时,最小,最小风险就是最小就是最小错误率。率。.自自动化学院化学院v在例3中,我们见到的分类错误,如果考虑右上的决策表,错误率又是多少呢?已知:先验概率P(导弹)=0.2,P(飞机)=0.8,假设类概率密度函数满足正态分布,P(X|导弹)的分布满足N(5,1.5),P(X|飞机)的分布满足N(10,2)。求不同判决的条件风险曲线解:用matlab 编程:例例5 5:损失X1导弹X2飞机1 判定X为导弹012 判定X为飞机9058.自自动化学院化学院将最小风险判决与最小错误判决进行比较,判决面发生了迁移。用最小错误率判决X为1,可能会出现用最小风险判决X为2的情况 条件风险判决面最小错误判决面59.自自动化学院化学院2.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线状状态决策决策阳性阳性(1)阴性阴性(2)阳性阳性真阳性真阳性(TP)假阳性假阳性(FP)阴性阴性假阴性假阴性(FN)真阴性真阴性(TN)60状状态与决策的可能关系与决策的可能关系第一第一类错误率率(Type-Ierrorrate)=假假阴阴性率性率=假假阴阴性性样本数本数/总阳阳性性样本数本数第二第二类错误率率(Type-IIerrorrate)=假假阳阳性率性率=假假阳阳性性样本数本数/总阴阴性性样本数本数 灵敏度(灵敏度(sensitivity)特异度(特异度(specificity)虚警漏检检测率 希望希望虚警率 希望.自自动化学院化学院*解决的基本问题 在某些问题中,某一种错误较另一种错误更为重要,即危害更为重要。这时可能需要在某个约束条件下最小化总风险。比如,在目标分类器中要求将“导弹”误判为“飞机”的错误率不得超过1%,同时要求在此约束条件下最小化将“飞机”误判为“导弹”的可能性。*实际应用中,有时不知道先验概率P(i),仅知道类概率密度p(X|i),应如何确定判决门限?(假定在处理过程中,先验概率P(i)保证不变)2.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线61.自自动化学院化学院v对两类识别问题,有两种错误可能发生:1.属于1的模式X被误分到类2;2.属于2的模式X被误分到类1;设这两种错误的概率分别为P1(e)和P2(e),则:v其中1和2对应的区域分别为1和2v比较前面的平均错误率定义2.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线62.自自动化学院化学院v观察这两种错误的概率的形式,1(2)及类概率密度函数p(X|1)和p(X|2)会影响P1(e)和P2(e)的值。vNeyman-Pearson判决准则:在P2(e)=0(常数)的条件下,使得P1(e)取得最小值。判决面和p(X|2)共同作用判决面和p(X|1)共同作用12是不是是不是觉得得这个个说法有点蒙蔽?如果判决法有点蒙蔽?如果判决面是两个点呢?如果判决面是一个面呢?面是两个点呢?如果判决面是一个面呢?63.自自动化学院化学院 某些某些实际情况,可能要求一情况,可能要求一类错误率控制在很小(不大于某率控制在很小(不大于某数),在数),在满足此条件的前提下再使另一足此条件的前提下再使另一类错误率尽可能小。率尽可能小。比如比如:(对分分类边界求最小界求最小)s.t.s.t.,是是个很小的常数个很小的常数求解求解:用用LagrangeLagrange乘子乘子法法 (对分分类边界界和和 求最小)求最小)642.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线.自自动化学院化学院 、为两两类的决策域,的决策域,记 为它它们的的边界(一界(一维情况下即分情况下即分界点)界点)。(2-40)(2-41)决策准决策准则:652.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线X的取值与t无关与t无关的常数使得L极小决策面方程或或在二维特征域中计算太复杂.自自动化学院化学院Neyman-PearsonNeyman-Pearson判决准判决准则的含的含义如果决策域的分界面是单一的,Neyman-Pearson判决准则好理解,当对于P2(e)=0只有唯一的一个解时,类概率密度p(X|1)和p(X|2)已知的条件下,P1(e)也是确定的值。但是如果是类概率密度非常复杂,决策域的分界面不是单一点时66.自自动化学院化学院Neyman-Pearson判决准则求得似然比设置阈值 ,判决边界将由阈值决定。如果 X 1;如果 X 267.自自动化学院化学院其他的判决边界划分方法即使可以保证P2(e)绿色区域面积等于0但P1(e)黄色区域面积却不能取到最小。似然比似然比阈值 通通过求解(求解(2-40),),(2-41)方程得到,但)方程得到,但显然不容然不容易。易。68.自自动化学院化学院考考虑似然比似然比密度函数密度函数 ,为似然比似然比l(X)在条件在条件X 2下的概率下的概率密度。因密度。因l 就判就判X 1,所以,所以 可用下式确定可用下式确定 (2-442-44)692.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线这是一个对的单调函数,因为p0当当 时,(所有所有 类均分到了均分到了 类)。当当 时,(所有所有 类的的样本都分到本都分到 ,因此不会有,因此不会有错)利用利用 对 的的单调性,性,可以用可以用试探法探法总可以找到适当的可以找到适当的 使使 成立。成立。但多数情况下,得到但多数情况下,得到 的形式化解是很困的形式化解是很困难的。的。.自自动化学院化学院ROC曲曲线(ROCCurve)702.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线检测率pd虚警率pfAUC曲曲线下的相下的相对面面积面积越大,分类效果越好.含拒含拒绝判决的最小判决的最小损失判决失判决 拒拒绝判决可以作判决可以作为最小最小损失判决中的一个可能判决。失判决中的一个可能判决。设 c+1c+1=“拒拒绝判决判决”。令令 表示模式表示模式 实属属 类但拒但拒绝作出判决所造作出判决所造成的成的损失,于是在模式失,于是在模式 条件下拒条件下拒绝判决的平均判决的平均损失失为 如果如果 ,j j=1,2,=1,2,c c,则 作出拒作出拒绝判决。判决。.设设 这时这时一般有:一般有:含拒含拒绝判决的最小判决的最小损失判决失判决.要要要要使使使使即即即即亦即亦即亦即亦即 有有有有如果如果如果如果 ,则对则对 拒判;拒判;拒判;拒判;如果如果如果如果 ,则则判判判判 。含拒判决策的最小含拒判决策的最小损失判决失判决规则拒判门限含拒含拒绝判决的最小判决的最小损失判决失判决.因因因因为为 ,所以所以所以所以当当当当 即即即即 时时 恒恒恒恒成立,故此成立,故此成立,故此成立,故此时时不存在拒判不存在拒判不存在拒判不存在拒判。所以存在拒判决策的条。所以存在拒判决策的条。所以存在拒判决策的条。所以存在拒判决策的条件是件是件是件是存在拒判存在拒判含拒含拒绝判决的最小判决的最小损失判决失判决.对于两于两类问题,存在拒判决策的条件是,存在拒判决策的条件是 判决判决规则如下:如下:如果如果 ,则判判 ;如果如果 ,则判判 ;如果如果 ,则对 拒判。拒判。.对于两于两类问题,存在拒判决策的条件是,存在拒判决策的条件是 判决判决规则,如果如果 则判判 .自自动化学院化学院第二章第二章 贝叶斯决策理叶斯决策理论772.12.1 引言引言2.2 2.2 最小最小错误率率贝叶斯叶斯决策决策2.32.3 最小最小风险贝叶斯叶斯决策决策2.4 2.4 两两类错误率、率、Neyman-PearsonNeyman-Pearson决策与决策与ROCROC曲曲线2.52.5 正正态分布分布时的的统计决策决策2.6 2.6 关于分关于分类器的器的错误率率2.7 2.7 离散概率模型下的离散概率模型下的统计决策决策举例例.自自动化学院化学院v从分从分类器器设计上来看上来看,决策面方程都涉及到决策面方程都涉及到类条件概率密度条件概率密度p(X|p(X|i i)。v在在连续类概率密度函数中,研究概率密度函数中,研究较多的是多的是正正态分布分布大量随机大量随机变量服从正量服从正态分布分布,而且数学上容易而且数学上容易处理理 因此,因此,对正正态分布的分布的统计决策决策进行行讨论。2.52.5 正正态分布分布时的的统计决策决策78.自自动化学院化学院1.1.正正态分布函数的性分布函数的性质单变量的正量的正态分布概率密度函数分布概率密度函数 v性性质:单变量的正量的正态分布分布p(x)p(x)由由,2 2可以完全确定。随可以完全确定。随机机变量量 x x 集中在均集中在均值 附近附近,其分散度用其分散度用标准差准差表示表示,95%95%样本落入本落入|x-|2|x-|2范范围内。内。2.52.5 正正态分布分布时的的统计决策决策79.自自动化学院化学院一元正一元正态一元正一元正态多元正多元正态2.52.5 正正态分布分布时的的统计决策决策一元正一元正态分布概率密分布概率密度函数的另一种形式度函数的另一种形式80.自自动化学院化学院多元多元(维)正正态分布的概率密度函数分布的概率密度函数2.52.5 正正态分布分布时的的统计决策决策81.自自动化学院化学院2.52.5 正正态分布分布时的的统计决策决策82.自自动化学院化学院n二元正二元正态分布的概率密度函数分布的概率密度函数2.52.5 正正态分布分布时的的统计决策决策83.自自动化学院化学院v下面下面给出出 时二元正二元正态分分布的布的钟型密度曲面型密度曲面图。二元正态分布的密度曲面图2.52.5 正正态分布分布时的的统计决策决策84.自自动化学院化学院二元正二元正态分布的密度等高分布的密度等高线密度等高密度等高线椭圆曲曲线2.5 2.5 正正态分布分布时的的统计决策决策85.86.自自动化学院化学院v多元正多元正态分布的性分布的性质 参数参数 和和 决定分布形状决定分布形状 概率密度函数由概率密度函数由d+d(d+1)/2个数目的参数唯一确定,其中个数目的参数唯一确定,其中d为均均值数数 的分量数,的分量数,d(d+1)/2为协方差方差 的独立元素的独立元素数。通常数。通常记为 。等概率密度点的等概率密度点的轨迹迹为一超一超椭球面。区球面。区域中心由域中心由决定,区域形状由决定,区域形状由决定。决定。-x 大部分落在以均大部分落在以均值向量向量 为中心,大小由中心,大小由协方差矩方差矩阵 确定的区域。确定的区域。2.5.12.5.1 关于关于正正态分布的知分布的知识主主轴方向由方向由矩矩阵 的本征向量决定,主的本征向量决定,主轴长度与矩度与矩阵 的本征的本征值成正比。成正比。89.自自动化学院化学院定定义称称为 x 到到 的的Mahalanobis(马氏氏)距离平方。距离平方。所以所以,等概率密度点等概率密度点的的轨迹是迹是 x 到到 的的马氏距离氏距离为常数的超常数的超椭球面。球面。对应于于马氏距离氏距离为r的超的超椭球体球体积为:其中其中Vd是是d维单位超球体的体位超球体的体积在维数d给定的情况下,样本离散度随|1/2而变2.5.12.5.1 关于关于正正态分布的知分布的知识90.自自动化学院化学院 在正在正态分布中不相关性等价于独立性。若多元正分布中不相关性等价于独立性。若多元正态分布的分布的任意两个分量任意两个分量xi与与xj互不相关互不相关,则xi与与xj一定独立。一定独立。证明明:如果如果 xi 和和 xj 是互不相关的是互不相关的,可求得可求得协方差方差阵为对角矩角矩阵。2.5.12.5.1 关于关于正正态分布的知分布的知识91.自自动化学院化学院 在正在正态分布中不相关性等价于独立性。若多元正分布中不相关性等价于独立性。若多元正态分布的分布的任意两个分量任意两个分量xi与与xj互不相关互不相关,则xi与与xj一定独立。一定独立。证明明:2.5.12.5.1 关于关于正正态分布的知分布的知识92.自自动化学院化学院 在正在正态分布中不相关性等价于独立性。若多元正分布中不相关性等价于独立性。若多元正态分布的分布的任意两个分量任意两个分量xi与与xj互不相关互不相关,则xi与与xj一定独立。一定独立。证明明:得证推推论:如果多元正如果多元正态随机向量随机向量x的的协方差方差阵是是对角角阵,则x的分量是的分量是互相独立的正互相独立的正态分布随机分布随机变量量2.5.12.5.1 关于关于正正态分布的知分布的知识93.自自动化学院化学院多元正多元正态分布的分布的边缘分布和条件分布具有正分布和条件分布具有正态性性用两用两维情况情况证明明2.5.12.5.1 关于关于正正态分布的知分布的知识94.提出11295.乘一个系数乘一个系数除同除同样的一个系数的一个系数96.所以所以x1 的的边缘分布分布为 同理可同理可证:x2 的的边缘分布分布为2.5.1 2.5.1 关于正关于正态分布的知分布的知识97.自自动化学院化学院线性性变换的正的正态性:性:X为多元正多元正态分布的随机向量,其均分布的随机向量,其均值向量向量为,协方差方差矩矩阵为。对X作作线性性变换,即,即 y=A X A为线性性变换矩矩阵,且非奇异,且非奇异,变换后服从均后服从均值向量向量为A,协方差矩方差矩阵为AAT的多元正的多元正态分布。分布。p(y)N(A,AAT)线性性组合的正合的正态性性 X为多元分布的正多元分布的正态随机向量,随机向量,则线性性组合合y=aTX 是一是一维的正的正态随机随机变量量,a是与是与x同同维向量向量 p(y)N(aT,aT a)2.5.12.5.1 关于关于正正态分布的知分布的知识98.自自动化学院化学院条件概密函数 i和和i分分别对应各个各个类的中心和的中心和协方差方差2.5.22.5.2 正正态分布分布下的下的贝叶斯决策叶斯决策99.自自动化学院化学院2.5.22.5.2 正正态分布分布下的下的贝叶斯决策叶斯决策考考虑判判别函数函数 决策决策面方程面方程 100.自自动化学院化学院v下面讨论三种不同的情况对决策面的影响 Si=s 2I,i=1,2,c SiS SiSj,i,j=1,2,c 最简单,最特殊最复杂,最普遍2.5.22.5.2 正正态分布分布下的下的贝叶斯决策叶斯决策101.自自动化学院化学院2.5.22.5.2 正正态分布下的分布下的贝叶斯决策叶斯决策(一一),(各各类协方差方差阵相等,且各特征相等,且各特征独立,方差独立,方差相等相等,协方差都方差都为0 0,几何上相当于各几何上相当于各类样本落在本落在以以i为中心同中心同样大小的一些超球体中。大小的一些超球体中。)l如果如果 都都相等,相等,略去判略去判别函数中与函数中与类别无关的无关的项和相等和相等项,得,得102 此此处j和和d都是指的都是指的维度度欧氏距离平方欧氏距离平方.自自动化学院化学院2.5.22.5.2 正正态分布分布下的下的贝叶斯决策叶斯决策球状分布,各球状分布,各类先先验概率相等,概率相等,则分分类只取决于只取决于样本到各本到各类中中心的距离。心的距离。103测量量从从待待分分类向向量量x到到每每一一类均均值向向量量的的欧欧氏氏距距离离,把把x分分到到距距离离最最近近的的类,即即 ,i是从是从训练样本集中得到的。也称本集中得到的。也称最小距离分最小距离分类器器。若若把把每每个个均均值向向量量i 看看作作一一个个典典型型的的样本本(模模板板),则这种种分分类方方法法也也称称为模模板板匹配技匹配技术。.自自动化学院化学院2.5.22.5.2 正正态分布分布下的下的贝叶斯决策叶斯决策104
展开阅读全文