资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,统计机器学习,(,Statistical Machine Learning,),卢志武,中国人民大学信息学院,1,什么是机器学习,“机器学习是一门,人工智能,的科学,该领域的主要研究对象是人工智能,特别是,如何在经验学习中改善,具体算法的性能。”,“机器学习是对能,通过经验自动改进,的计算机算法的研究。”,“机器学习是,用数据或以往的经验,以此优化,计算机程序的性能标准。”,2,什么是机器学习,总结:,人工智能的重要组成部分,利用经验数据改善系统自身性能,已广泛应用于多个领域,;,大数据分析,网络搜索,金融市场预测,3,为什么需要机器学习?,美国航空航天局,JPL,实验室的科学家在,Science,(,2001,年,9,月)上撰文指出:,机器学习对科学研究的整个过程正起到越来越大的支持作用,,,该领域在今后的若干年内将取得稳定而快速的发展,Machine learning forms the core of may present-day AI applications,Gary Anthes,Future Watch:AI comes of age,2009.1.26,4,为什么需要机器学习?,2004,年,机器学习被,MIT Technology Review,列入,10,Emerging Technologies that will Change Your World,2010,年度图灵奖授予机器学习理论创始人,、哈佛大学,Leslie Valiant,教授,2011,年度图灵奖授予概率图模型奠基者,、加州大学洛杉矶分校,Judea Pearl,教授,5,图灵奖连续两年颁发给机器学习先驱开创者,深度学习与机器学习,深度学习(,deep learning,)是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,,本质上是机器学习中特征学习方法的一类,。,至今已有多种深度学习框架:,深度神经网络,卷积神经网络,深度信念网络,。,已被应用于多个领域:,计算机视觉,语音识别,自然语言处理,。,6,大数据与机器学习,机器学习几乎无处不在,即便我们没有专程调用它,也经常出现在大数据应用中。机器学习对大数据应用的贡献主要体现在:,促进数据科学家们的多产性,发现一些被忽视的方案,上述价值来自于机器学习的核心功能:,让分析算法无需人类干预和显式程序即可对最新数据进行学习,。这就允许数据科学家们根据典型数据集创建一个模型,然后利用算法自动概括和学习这些范例和新的数据源。,7,8,机器学习示例,SARS,Risk,Age,Gender,Blood Pressure,Chest X-Ray,Pre-Hospital,Attributes,Albumin,Blood pO2,White Count,RBC Count,In-Hospital,Attributes,9,Books and References,主要参考书,李航,,统计学习方法,,清华大学出版社,,2012.,其他参考书,米歇尔著,曾华军等译,,机器学习,,机械工业出版社,,2008,迪达等著,李宏东等译,,模式分类,(第,2,版),机械工业出版社,,2003,10,提 纲,机器学习方法概述,贝叶斯决策理论,Bayesian Decision Theory,常见统计学习方法,机器学习的难题与挑战,附录:,1,、参考资料,2,、代表性机器学习开发包介绍,11,一、统计学习方法概述,12,机器学习的发展,机器学习,=,神经科学与认知科学,+,数学,+,计算,12,平凡解问题,James(19,世纪末,),:,神经元相互连接,McCulloch,Pitts(20,世纪中期,):,“,兴奋”和“抑制”,Hebb(20,世纪中期,):,学习律,神经科学,Barlow,:功能单细胞假设,Hebb,:神经集合体假设,Rosenblatt,:感知机(,1956,),Rumelhart,:,BP,(,1986,),PAC(Valiant 1984),Schapire,:弱学习定理(,1990,),Freund,:,AdaBoost,(,1996,),线性不可分问题(,Minsky 1969,),Vapnik,:,SVM,(,1991,),有限样本统计理论,线性空间表示,?,i.i.d,问题,一致性假设,30,年,Widrow,:,Madline,(,1960,),Samuel,:符号机器学习,机器学习研究历程,?,泛化理论,王珏,机器学习研究回顾与趋势,2004.9,13,学习系统的一般模型,System,Input Variables:,Hidden Variables:,Output Variables:,14,15,机器学习的基本问题和方法,机器学习,根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。,机器学习问题的表示,根据,n,个,独立同分布,观测样本确定预测函数,f,(,x,w),。,在一组函数,f,(,x,w),中求一个最优的函数,f,(,x,w,0,),对依赖关系进行估计,使,预测的期望风险最小,。,环境,学习环节,知识库,执行环节,Simon,的学习模型,16,学习问题的一般表示,学习目标,Given an i.i.d.,l,-sample,z,1,z,l,drawn from a fixed distribution,F,(,z,),For a function class loss functions,Q,(,z,),with,in,We wish to,minimize the risk,finding a function,*,In the case of equal risk,it becomes to,minimize the error ratio,.,相关概念,损失函数,loss function(,L,Q,),:,the error of a given function on a given example,风险函数,risk functional(,R,),:,the expected loss of a given function on an example drawn from,F,(,x,y,),17,学习问题的一般表示,学习的目的在于,使期望风险最小化,。由于可利用的信息只有样本,期望风险往往无法计算。,经验风险最小化归纳原则,(The Empirical Risk Minimization(ERM)Inductive Principle),核心思想:用样本定义经验风险。,Define the empirical risk(sample/training error):,Define the empirical risk minimizer:,Least-squares,and,Maximum-likelihood,are realisations of ERM,18,ERM,准则与统计学习理论的发展,经验风险最小并不意谓着期望风险最小,!,例子:神经网络的,过学习,问题。,训练误差小并不总能导致好的预测效果,.,若对有限的样本来说学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测,.,需要建立在小样本情况下有效的学习方法,小样本条件下的统计学习理论,支持向量机,(SVM),Why Learning is Difficult?,Given a,finite,amount of training data,you have to,derive,a relation for an,infinite,domain,In fact,there is an infinite number of such relations,.the hidden test points.,19,Learning as a Search Problem,20,21,三类基本的机器学习问题,(1),模式分类问题,:输出,y,是类别标号,两类情况下,y,=1,-1,,预测函数称作指示函数,(Indicator Function),,损失函数定义见下式,使期望风险最小就是,Bayes,决策中使错误率最小。,22,三类基本的机器学习问题,(2),回归问题,:输出,y,是连续变量,它是,x,的函数,损失函数定义见下式,:,23,三类基本的机器学习问题,(3),概率密度估计问题,:根据训练样本确定,x,的概率分布,p,(,x,w),,则损失函数可定义为,:,24,统计学习,的基本,方法,有监督,/,无监督,学习,有监督,(Supervised),:分类、回归,无监督,(Unsupervised),:概率密度估计、聚类、降维,半监督,(Semi-supervised),:,EM,、,Co-training,其他学习方法,增强学习,(Reinforcement Learning),多任务学习,(Multi-task learning),25,有监督学习,标定的训练数据,训练过程:根据目标输出与实际输出的误差信号来调节参数,典型方法,全局:,BN,NN,SVM,Decision Tree,局部:,KNN,、,CBR(Case-base reasoning),S(x)=0,Class A,S(x)1?,Boosting,:,结合低性能学习模型来产生一个强大的分类器组,Bagging,:,结合多个不稳定学习模型来产生稳定预测,主动学习,(Active learning),:,主动选择训练样本,30,Boosting,Boosting,是个非常强大的学习方法,它组合许多“弱”分类器来产生一个强大的分类器组。,弱分类器:性能只比随机选择好一点,设计简单且计算花费低。,最常用的弱分类器是决策树。,常见的,Boosting,算法,离散,AdaBoost,实数,AdaBoost,LogitBoost,和,Gentle AdaBoost,它们有非常类似的总体结构。,31,Boosting,两类问题的算法:训练,(step 13),和估计,(step 4),为每一个样本初始化使它们具有相同的权值,(step 2),然后一个弱分类器,f(x),在具有权值的训练数据上进行训练,计算错误率和换算系数,c,m,(step 3.2),被错分的样本的权重会增加,所有的权重进行归一化,并继续寻找若其他分类器,M-1,次,最后得到的分类器,F(x),是这些独立的弱分类器组合的符号函数,(step 4),。,32,Bagging,基本假设,:,Combining many unstable predictors to produce a ensemble(stable)predictor.,Unstable Predictor:,训练数据的微小变化可能使得预测模型产生大的改变,不稳定模型:,Neural Nets,trees,稳定模型:,SVM,KNN.,Each predictor in ensemble is created by taking a bootstrap sample of the data.,引导样本:,obtained by drawing N example at random,with replacement.,Encourages predictors to have uncorrelated errors.,33,Unlabeled Data Set,主动学习,Intermediate Set,Clustering(K clusters),(Diversity Criterion),Batch,Select centroid of each cluster,(Representativeness Criterion),Select M most informative examples,(Informativeness Criterion),(1),(2),(3),34,产生式模型,vs,判别式模型,Generative models:,建模,(,联合,),概率分布:,利用,Bayes theorem,典型方法:,BN,、,HMM,、,CMF,问题的可解释性好,Discriminative models:,直接用函数(而非概率)来建模,典型方法:,SVM,、,LDA,一般来说,性能更好,35,36,二、贝叶斯决策理论,37,Bayes,决策理论有什么用?,用不同方法可能得到多个不同的估计,哪个估计更好一些?,统计决策理论:比较统计过程的形式化理论,决策,是从样本空间,S,,到决策空间,的一个映射,表示为,D:S,评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。,Bayes,决策常用的准则,最小错误率,准则,最小风险,准则,最小条件错误率准则:在限定一类错误率条件下,使另一类错误率为最小,最小最大决策准则:,Minimizing the maximum possible loss(or Maximizing the minimum gain),Linear Decision Boundary,x,1,x,2,x,3,hyperplane,x,1,x,2,38,Non-linear Decision Boundary,x,1,x,2,x,1,x,2,x,3,39,40,问题描述:,Classification Problem,给定:,m,个类,训练样本和未知数据,目标:给每个输入数据标记一个类属性,两个阶段:,建模,/,学习:基于训练样本学习分类规则,.,分类,/,测试:对输入数据应用分类规则,P(f,1,),f,1,鹅卵石,救命稻草杆,Pebbles Straws,pebbles,Straws,f,1,f,2,决策边界,41,最大后验,(,Maximum A Posterior,MAP,),分类,什么是最优分类器,?,已有,:,类条件概率密度函数,This is called the class-conditional probability describing the probability of occurrence of the features on category.,欲求,:,后验概率,make a decision that maximize the conditional probability of the object,given certain feature measurements.,Also called posterior probability function.,p,(,x,|,1,),p,(,x,|,2,),类条件概率密度函数,p,(,1,|,x,),后验概率,p,(,2,|,x,),42,Bayes,最小错误率,(MAP),决策,MAP,决策,:,以后验概率为判决函数,:,Choose category/class that has the maximum,This produces the,optimal,performance:minimum probability of error:,A classifier that achieves this optimal performance is called Bayesian classifier.,43,MAP,决策的错误率,Bayes,决策是一致最优决策。,使得每个观测值下的条件错误率最小因而保证了,(平均),错误率最小。,44,MAP,决策的扩展:最小,Bayesian,风险,决策的风险:,做决策要考虑决策可能引起的损失。,以医生根据白细胞浓度判断一个人是否患血液病为例:,没病,(,1,),被判为有病,(,2,),,还可以做进一步检查,损失不大;,有病,(,2,),被判为无病,(,1,),,损失严重。,Decision Risk table,The risk to make a decision :classify,x,(belong to class,i,)to class,j,so:,Decision Rule:,45,Bayes,决策:讨论,基于,Bayes,决策的最优分类器,Bayes,决策的三个前提:,类别数确定,各类的先验概率,P,(,C,i,),已知,各类的条件概率密度函数,p(x,|,C,i,),已知,问题的转换:,基于样本估计,P,(,C,i,),和,p(x,|,C,i,),基于样本直接确定判别函数,学习问题,46,三、主要统计学习方法简介,47,统计学习方法,统计推理,用数据的似然度,(likelihood),和假设,(Hypothesis),的概率去预测新实例的值,朴素,Bayes,方法,(Nave Bayes,NB),基于实例的学习,最近邻方法,(Nearest Neighbor),神经网络,(Neural Networks),支持向量机,(Support Vector Machine),决策树,典型聚类方法:,K-Means,48,3.1 Bayesian,学习,基本思想,给定训练数据,计算每个假设 的概率,利用此概率来进行预测(注:预测时利用所有的假设,而不仅仅利用最好的一个),参数估计问题,若训练数据独立同分布,(i.e.,i.i.d),,则,对分类问题,需要估计两个参数:,类的先验概率,P,(,C,i,),和,类条件概率密度,p(x,|,C,i,),对分类问题,假设,h,i,可直接视为类属性,C,i,49,Bayesian,学习,:,参数,估计的方法,类的先验概率,P,(,C,i,),的估计:,用训练数据中各类出现的频率估计,依靠经验,类条件概率密度,p(x,|,C,i,),估计的两种主要方法:,参数估计:概率密度函数的形式已知,而表征函数的参数未知,通过训练数据来估计,最大似然估计,Bayes,估计(最大后验估计),非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计,KN-,近邻法,Parzen,窗法,50,简化模型:简单贝叶斯,Nave Bayes,简单贝叶斯学习模型(,NB,),将训练实例表示成属性,(,特征,),向量,A,和决策类别变量,C,。,假定特征向量的各分量间相对于决策变量是,相对独立的,,也就是说各分量独立地作用于决策变量。,降低了学习的复杂性,在许多领域,表现出相当的健壮性和高效性,NB,的特点,结构简单只有两层结构,推理复杂性与网络节点个数呈线性关系,C,a,1,a,2,a,n-1,a,n,51,NB,用于分类,NB,假设,:设样本,A,表示成属性向量,如果属性,a,k,对于给定的类别独立,那么,P,(,A,|,C,i,),可以分解成几个分量的积:,简单贝叶斯分类,(SBC:Simple Bayesian Classifier),一般认为,只有在独立性假定成立的时候,,SBC,才能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得近似最优的分类效果。,52,扩展:贝叶斯网,(Bayes Network),=,P(A)P(S)P(T|A)P(L|S)P(B|S)P(C|T,L)P(D|T,L,B),P(A,S,T,L,B,C,D),条件独立性假设,有效的表示,CPT:,T L B D=0 D=1,0 0 0 0.1 0.9,0 0 1 0.7 0.3,0 1 0 0.8 0.2,0 1 1 0.9 0.1,.,Lung Cancer,Smoking,Chest X-ray,Bronchitis,Dyspnoea,Tuberculosis,Visit to Asia,P(D|T,L,B),P(B|S),P(S),P(C|T,L),P(L|S),P(A),P(T|A),贝叶斯网络是表示变量间概率依赖关系的有向无环图,53,3.2,基于实例的学习,Bayeis,方法的缺陷,参数估计误差,不描述概率分布,而直接描述决策规则,如最近邻规则:,直接从训练数据构造假设,K,近邻方法,K-NN,最近邻方法,NN:K=1,54,K-NN,方法,对输入样本,x,从训练样本中找到与,x,距离最近的,K,个最近样本,以它们最可能的类标签来分类,x,x,k=1,k=6,55,K-NN,的性能,亚优:,在训练样本足够的情况下,错误概率小于最优错误率的两倍,.,Where:is the probability of error for Bayesian inference(Optimal)and NN rule;,不能在有限的样本下获得同样的断言,.,56,K-NN,的关键问题,距离度量,最常用方法,:euclidean,更好的距离度量,:normalize each variable by standard deviation,离散数据:,Hamming distance,K,的选择,Increasing k reduces variance,increases bias,高维空间的可区分性差,For high-dimensional space,problem that the nearest neighbor may not be very close at all!,大数据量时计算开销大,Must make a pass through the data for each classification.This can be prohibitive for large data sets.,Indexing the data can help;for example KD trees,57,Euclidean Distance,Euclidean Distance between,x,and,p,k,is:,The decision rule based on this metric is called the,minimum Euclidean Distance(MED)classifier.,58,Mahalanobis Distance,用方差的倒数来进行加权,相当于使决策界从方差较大的一方朝方差较小一方移动,:,Let the distribution be approximated by a multivariate normal density.The Mahalanobis distance from,x,to,m,is given by:,Where is the covariance matrix and is the sample mean of the prototype.,59,胞体,(Soma),枝蔓(,Dendrite,),胞体,(Soma),轴突(,Axon,),突触(,Synapse,),人工神经元模拟生物神经元的一阶特性,。,输入:,X=(,x,1,x,2,x,n,),联接权:,W=(,w,1,w,2,w,n,),T,网络输入:,net=,x,i,w,i,向量形式:,net=XW,激活函数:,f,网络输出:,o=f(net,),Input,signal,Synaptic,weights,Summing,function,Activation,function,Local,Field,v,Output,o,x,1,x,2,x,n,w,2,w,n,w,1,w,0,x,0,=+1,3,.,3,神经网络,(NN),:模拟人脑的学习,60,x,1,x,2,x,n,o,1,o,2,o,n,w,nm,w,11,w,1m,w,2m,w,n1,输出层,输入层,典型网络结构,:,简单单级网,61,输出层,x,1,o,1,w,11,w,1m,x,2,o,2,w,2m,x,n,o,m,w,n1,输入层,V,典型网络结构,:,单级横向反馈网,62,典型网络结构,:,多级网,输出层,隐藏层,输入层,o,1,o,2,o,m,x,1,x,2,x,n,63,典型网络结构,:,循环网,x,1,o,1,输出层,隐藏层,输入层,x,2,o,2,o,m,x,n,3.4,支持向量机,SVM,是一种基于统计学习理论的机器学习方法,是由,Boser,Guyon,Vapnik,于,1992,年提出,目前已经取得了广泛的成功应用。,统计学习理论的主要目标,专门研究小样本下的机器学习规律,追求现有信息条件下的最优结果(结构风险最小化),64,Vapnik,65,结构风险最小化原则,实际风险由两部分组成:,经验风险,(,训练误差,),VC,置信范围,(VC confidence),:学习机器的,VC,维及训练样本数有关。,VC,维反映了函数集的学习能力,,VC,维越大则学习机器越复杂,(,容量越大,),结构风险最小化,(SRM),的基本思想,在有限训练样本下,学习机器的,VC,维越高则置信范围越大,真实风险与经验风险之间可能的差别越大,.,这就是为什么会出现过学习现象的原因。,机器学习过程,不但要使经验风险最小,还要使,VC,维尽量小以缩小置信范围,,才能取得较小的实际风险,即对未来样本有较好的推广性。,66,结构风险最小化示意图,67,最优分类面,最优分类面,分类间隔,(Margin),.,分类间隔最大,:,实际上就是对推广能力的控制,这是,SVM,的核心思想之一,.,输入,:,S=,(,x,i,y,i,),R,n,-1,1,对应于,y,i,x,i,可表示为两类,:,x,i,H,1,y,i,=-1,x,i,H,2,y,i,=1,目标,:,找到一个分类函数,(x)=wx+b,能够对训练数据,x,i,正确分类,对其他的输入能够正确推广,.,进一步说,:,找到一个超平面,H :,wx+b=0,和两个与,H,平行且等距离的,H,1,:,wx+b=1,H,2,:,wx+b=-1,数学模型,68,最优分类面,-,直观描述,(,a),小的分类间隔,(small margin)(b),大的分类间隔,(larger margin).,最优分类面就是要求分类面能将两类正确分开,(,训练错误率为,0),且使分类间隔最大,A-,A+,Malignant,Benign,A+,A-,69,支持向量,直观地说,支持向量是两类集合边界上的点。,所有非支持向量的数据都可以从训练数据集合中去掉而不影响问题解的结果。,对于新的数据点,x,要对其进行分类只需要计算,f(x)=sign(w x+b),其中,w,和,b,是支持向量对应的参数。,70,SVM,的分类问题,SVM,分类问题大致有三种:线性可分问题、近似线性可分问题、线性不可分问题,线性可分问题,近似线性可分问题,线性不可分问题,SVM Learning,Finding the Decision Boundary,Let,x,1,.,x,n,be our data set and let,y,i,1,-1 be the class label of,x,i,The decision boundary should classify all points correctly,The decision boundary can be found by solving the following constrained optimization problem,71,The Dual Problem,It is known as the dual problem:if we know,w,we know all,a,i,;if we know all,a,i,we know,w,The original problem is known as the primal problem,The objective function of the dual problem needs to be maximized!,The dual problem is therefore:,Properties of,a,i,when we introduce the Lagrange multipliers,The result when we differentiate the original Lagrangian w.r.t.b,72,Extension to Non-linear Decision Boundary,So far,we have only considered large-margin classifier with a linear decision boundary,How to generalize it to become nonlinear?,Key idea:transform,x,i,to a higher dimensional space to“make life easier”,Input space:the space the point,x,i,are located,Feature space:the space of f(,x,i,)after transformation,Why transform?,Linear operation in the feature space is equivalent to non-linear operation in input space,Classification can become easier with a proper transformation.In the XOR problem,for example,adding a new feature of x,1,x,2,make the problem linearly separable,73,Transforming the Data,Computation in the feature space can be costly because it is high dimensional,The feature space is typically infinite-dimensional!,The kernel trick comes to rescue,f,(),f,(),f,(),f,(),f,(),f,(),f,(),f,(),f,(.),f,(),f,(),f,(),f,(),f,(),f,(),f,(),f,(),f,(),f,(),Feature space,Input space,Note:feature space is of higher dimension than the input space in practice,74,The Kernel Trick,Recall the SVM optimization problem,The data points only appear as,inner product,As long as we can calculate the inner product in the feature space,we do not need the mapping explicitly,Many common geometric operations(angles,distances)can be expressed by inner products,Define the kernel function,K,by,75,Examples of Kernel Functions,Polynomial kernel with degree,d,Radial basis function kernel with width,s,Closely related to radial basis function neural networks,The feature space is infinite-dimensional,Sigmoid with parameter,k,and,q,It does not satisfy the Mercer condition on all,k,and,q,76,3.6,Decision Trees,At each step,choose the feature that“reduces entropy”most.Work towards“node purity”.,All the data,f,1,f,2,Choose f,2,Choose f,1,77,Decision Trees,CART(Breiman,1984),C4.5(Quinlan,1993),J48,78,79,3.7,聚类方法:,K-Means,Given a set of examples,D,n,=,z,1,z,2,z,n,Search for,K,prototypes,k,of disjoint subsets,S,k,of,D,n,in order to minimizewhere,k,is the mean of the examples in subset,S,k,:,We could use any distance,not just the Euclidean distance.,Batch K-Means,Initialization,:select randomly K examples,z,j,in,D,n,as initial values of each,k,At each,batch,iteration:,For each prototype,k,put in the emptied set,S,k,the examples of,D,n,that are closer to,k,than to any other,jk,.,Re-compute the value of each,k,as the average of the examples in,S,k,.,The algorithm stops when no prototype moves anymore.,It can be shown that the K-Means criterion will never increase.,80,Batch K-Means(,图示,1),81,Batch K-Means(,图示,2),82,Batch K-Means(,图示,3),83,84,四、机器学习的难题与挑战,注:以下部分内容引自周志华,机器学习挑战,王珏,机器学习的难题与分析,机器学习的难题,(1),85,维数灾难问题,86,维数灾难问题,87,维数灾难问题,88,维数灾难问题,89,机器学习的难题,(2),训练数据问题,PU,学习问题,:,只有正例和未标记数据的学习问题,从仅部分标记的正例和其它的未标记数据上学习最优分类器,数据推广性,90,机器学习的难题,(3),结构输出问题,91,挑战,(1),:泛化能力,共性问题:,几乎所有的领域,都希望越准越好,提高泛化能力是永远的追求,目前泛化能力最强的技术:,支持向量机(,SVM,),产生途径:理论-实践,集成学习(,ensemble learning,),产生途径:实践-理论,92,挑战,(1),:泛化能力(续),第一个挑战:,今后,10,年,能否更“准”?,如果能,会从哪儿来?,93,挑战,(2),:速度,共性问题:,几乎所有的领域,都希望越快越好,加快速度也是永远的追求,“训练速度”,vs.“,测试速度,训练速度快的往往测试速度慢:,k,近邻,测试速度快的往往训练速度慢:神经网络,94,挑战,(2),:速度(续),第二个挑战:,今后,10,年,能否更“快”?,能做到“训练快”、“测试也快”吗?如果能,如何做?,95,挑战,(3),:可理解性,共性问题:,绝大多数领域都希望有“可理解性”,例子:医疗诊断,地震预测,目前强大的技术几乎都是(或基本上是)“黑盒子”,神经网络、支持向量机、集成学习,“黑盒子”能满足需要吗?,96,挑战,(3),:可理解性
展开阅读全文