人工智能和机器学习--PPT10-SVM.pdf

资源描述

1、支持向量机（SVM）王秋月中国人民大学信息学院Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5=11+(0+1+)与逻辑回归的关系Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5支持向量机Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5三个分类错误三个分类错误支持向量机Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5两个分类错

2、误两个分类错误支持向量机Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5无分类错误无分类错误支持向量机Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5无分类错误，但是否是最佳的分类位置？无分类错误，但是否是最佳的分类位置？支持向量机Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5无分类错误，但是否是最佳的分类位置？无分类错误，但是否是最佳的分类位置？支持向量机Number of Maligna

3、ntNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5最大化类别之间的区域最大化类别之间的区域支持向量机Number of MalignantNodes治疗五年后，病人的状况Survived:0.0Lost:1.00.5逻辑回归和SVM之间的相似性0两个特征两个特征(nodes,age)两类标签两类标签(survived,lost)6040Age202010Number of MalignantNodesSVM分类06040Age202010Number of MalignantNodesSVM分类找出能最佳划分两类的线找出能最佳划分两类的线06040Age2020

4、10Number of MalignantNodesSVM分类找出能最佳划分两类的线找出能最佳划分两类的线06040Age202010Number of MalignantNodesSVM分类找出能最佳划分两类的线找出能最佳划分两类的线06040Age202010Number of MalignantNodesSVM分类找出能最佳划分两类的线找出能最佳划分两类的线06040Age202010Number of MalignantNodesSVM分类并且具有最大可能的间隔（并且具有最大可能的间隔（margin）06040Age202010Number of MalignantNodesSVM对离

5、群值的敏感性06040Age202010Number of MalignantNodesSVM对离群值的敏感性06040Age202010Number of MalignantNodesSVM对离群值的敏感性06040Age202010Number of MalignantNodesSVM对离群值的敏感性06040Age202010Number of MalignantNodesSVM对离群值的敏感性这可能仍是最佳的边界线这可能仍是最佳的边界线06040Age202010Number of MalignantNodesSVM中的正则化SVM中的正则化02010Number of Maligna

6、ntNodes60BestFit40Age20SVM中的正则化02010Number of MalignantNodes60BestFit40Age20Large06040Age202010Number of MalignantNodesSVM中的正则化SVM中的正则化02010Number of MalignantNodes60SlightlyHigher40Age20SVM中的正则化02010Number of MalignantNodes60SlightlyHigher40Age20MuchSmaller06040Age202010Number of MalignantNodesSVM系

7、数的解释SVM系数的解释060402020123垂直于垂直于超平面超平面的向量的向量10Number of MalignantNodesAge导入包含分类方法的类：导入包含分类方法的类：from sklearn.svm import LinearSVC创建该类的一个对象：创建该类的一个对象：linSVC=LinearSVC(penalty=l2,C=10.0)拟合训练数据，并预测测试数据：拟合训练数据，并预测测试数据：linSVC=linSVC.fit(X_train,y_train)y_predict=linSVC.predict(X_test)线性SVM的语法导入包含分类方法的类：导入包含

8、分类方法的类：from sklearn.svm import LinearSVC创建该类的一个对象：创建该类的一个对象：linSVC=LinearSVC(penalty=l2,C=10.0)拟合训练数据，并预测测试数据：拟合训练数据，并预测测试数据：linSVC=linSVC.fit(X_train,y_train)y_predict=linSVC.predict(X_test)线性SVM的语法正则化参数正则化参数http:/scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html导入包含分类方法的类：导入包含分类

9、方法的类：from sklearn.svm import LinearSVC创建该类的一个对象：创建该类的一个对象：linSVC=LinearSVC(penalty=l2,C=10.0)拟合训练数据，并预测测试数据：拟合训练数据，并预测测试数据：linSVC=linSVC.fit(X_train,y_train)y_predict=linSVC.predict(X_test)线性SVM的语法用交叉验证调节正则化参数核函数核函数06040Age202010Number of MalignantNodes34用SVM分类35非线性判定边界非线性数据在高维空间可能被转换为线性的非线性数据在高维空间可

10、能被转换为线性的36核函数把数据转换为线性可分的把数据转换为线性可分的Budget37IMDB UserRatingSVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主方法方法 1:通过提取一些高阶特征来转换数据.Budget2+Rating2+Budget*Rating+Budget38IMDB UserRatingSVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主方法方法 2:把空间转换到另一个坐标系统Budget39IMDB UserRatingSVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主BudgetIMDB UserRating定义特征定义特征1:Similarity to“Pulp F

11、iction.”40SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主BudgetIMDB UserRating定义特征定义特征2:Similarity to “Black Swan.”41SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主BudgetIMDB UserRating定义特征定义特征3:Similarity to “Transformers.”42SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主在特征在特征1创建一个创建一个高斯函数高斯函数BudgetIMDB UserRating43SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主BudgetIMDB UserRating在特征在特

12、征2创建一个创建一个高斯函数高斯函数44SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主BudgetIMDB UserRating在特征在特征3创建一个创建一个高斯函数高斯函数45SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主Budget转换转换:x1,x2 0.7a1,0.9a2,-0.6a346SVM高斯核函数IMDB UserRatingBudget转换：转换：x1,x2 0.7a1,0.9a2,-0.6a3a1=0.90a2=0.92a3=0.30a1a2a347SVM高斯核函数IMDB UserRatingBudget转换：转换：x1,x2 0.7a1,0.9a2,-0.6a3a1

13、=0.50a2=0.60a3=0.70a1a2a348SVM高斯核函数IMDB UserRating转换：转换：x1,x2 0.7a1,0.9a2,-0.6a3x2(IMDBRating)x1(Budget)a1(PulpFiction)a3(Transformers)a2(BlackSwan)49SVM高斯核函数a1(PulpFiction)a3(Transformers)转换转换:x1,x2 0.7a1,0.9a2,-0.6a3a2(BlackSwan)50在新空间中的分类Budget51IMDB UserRatingSVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主Budget52IMDB

14、 UserRatingSVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主Budget53IMDB UserRating径向基（RBF）核函数SVM高斯核函数戛纳金棕榈奖得主戛纳金棕榈奖得主54导入包含分类方法的类：导入包含分类方法的类：from sklearn.svm import SVC创建该类的一个对象：创建该类的一个对象：rbfSVC=SVC(kernel=rbf,gamma=1.0,C=10.0)拟合训练数据，并预测：拟合训练数据，并预测：rbfSVC=rbfSVC.fit(X_train,y_train)y_predict=rbfSVC.predict(X_test)使用核函数的SVM

15、的语法55导入包含分类方法的类：导入包含分类方法的类：from sklearn.svm import SVC创建该类的一个对象：创建该类的一个对象：rbfSVC=SVC(kernel=rbf,gamma=1.0,C=10.0)拟合训练数据，并预测：拟合训练数据，并预测：rbfSVC=rbfSVC.fit(X_train,y_train)y_predict=rbfSVC.predict(X_test)使用核函数的SVM的语法设置核函设置核函数，及其数，及其相应参数相应参数(gamma).=56导入包含分类方法的类：导入包含分类方法的类：from sklearn.svm import SVC创建该

16、类的一个对象：创建该类的一个对象：rbfSVC=SVC(kernel=rbf,gamma=1.0,C=10.0)拟合训练数据，并预测：拟合训练数据，并预测：rbfSVC=rbfSVC.fit(X_train,y_train)y_predict=rbfSVC.predict(X_test)使用核函数的SVM的语法C 是是错误项错误项的惩罚的惩罚力度力度http:/scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html57导入包含分类方法的类：导入包含分类方法的类：from sklearn.svm import SVC创建该类的

17、一个对象：创建该类的一个对象：rbfSVC=SVC(kernel=rbf,gamma=1.0,C=10.0)拟合训练数据，并预测：拟合训练数据，并预测：rbfSVC=rbfSVC.fit(X_train,y_train)y_predict=rbfSVC.predict(X_test)使用核函数的SVM的语法用交叉验证调节核函数及其参数各种核函数 linear poly rbf sigmoid precomputed a callable径向基核函数参数gamma和C60问题问题使用RBF核函数的SVM，在大量特征或数据时，训练速度非常慢特征过载61问题问题使用RBF核函数的SVM，在大量特征或

18、数据时，训练速度非常慢特征过载解决解决使用Nystroem或RBF sampler构建近似核映射62问题问题使用RBF核函数的SVM，在大量特征或数据时，训练速度非常慢特征过载解决解决使用Nystroem或RBF sampler构建近似核映射拟合一个线性分类器63导入包含分类方法的类：导入包含分类方法的类：from sklearn.kernel_approximation import Nystroem创建该类的一个对象：创建该类的一个对象：nystroemSVC=Nystroem(kernel=rbf,gamma=1.0,n_components=100)拟合训练数据，并转换：拟合训练

19、数据，并转换：X_train=nystroemSVC.fit_transform(X_train)X_test=nystroemSVC.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法64导入包含分类方法的类：导入包含分类方法的类：from sklearn.kernel_approximation import Nystroem创建该类的一个对象：创建该类的一个对象：nystroemSVC=Nystroem(kernel=rbf,gamma=1.0,n_components=100)拟合训练数据，并转换：拟合训练数据，并

20、转换：X_train=nystroemSVC.fit_transform(X_train)X_test=nystroemSVC.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法可以使用可以使用多种非线多种非线性核函数性核函数65导入包含分类方法的类：导入包含分类方法的类：from sklearn.kernel_approximation import Nystroem创建该类的一个对象：创建该类的一个对象：nystroemSVC=Nystroem(kernel=rbf,gamma=1.0,n_components=100

21、)拟合训练数据，并转换：拟合训练数据，并转换：X_train=nystroemSVC.fit_transform(X_train)X_test=nystroemSVC.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法kernel 和和gamma与与SVC相同相同66导入包含分类方法的类：导入包含分类方法的类：from sklearn.kernel_approximation import Nystroem创建该类的一个对象：创建该类的一个对象：nystroemSVC=Nystroem(kernel=rbf,gamma=1

22、.0,n_components=100)拟合训练数据，并转换：拟合训练数据，并转换：X_train=nystroemSVC.fit_transform(X_train)X_test=nystroemSVC.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法n_components是样本量是样本量http:/scikit-learn.org/stable/modules/generated/sklearn.kernel_approximation.Nystroem.html67导入包含分类方法的类：导入包含分类方法的类：fr

23、om sklearn.kernel_approximation import RBFsampler创建该类的一个对象：创建该类的一个对象：rbfSample=RBFsampler(gamma=1.0,n_components=100)拟合训练数据并转换：拟合训练数据并转换：X_train=rbfSample.fit_transform(X_train)X_test=rbfSample.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法68导入包含分类方法的类：导入包含分类方法的类：from sklearn.kernel_a

24、pproximation import RBFsampler创建该类的一个对象：创建该类的一个对象：rbfSample=RBFsampler(gamma=1.0,n_components=100)拟合训练数据并转换：拟合训练数据并转换：X_train=rbfSample.fit_transform(X_train)X_test=rbfSample.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法RBF 是唯一可是唯一可用的核函数用的核函数69导入包含分类方法的类：导入包含分类方法的类：from sklearn.kerne

25、l_approximation import RBFsampler创建该类的一个对象：创建该类的一个对象：rbfSample=RBFsampler(gamma=1.0,n_components=100)拟合训练数据并转换：拟合训练数据并转换：X_train=rbfSample.fit_transform(X_train)X_test=rbfSample.transform(X_test)使用交叉检验调节核参数和使用交叉检验调节核参数和n_components快速核转换的语法参数名与前面参数名与前面的相同的相同http:/scikit-learn.org/stable/modules/gener

26、ated/sklearn.kernel_approximation.RBFSampler.html逻辑回归 vs.支持向量机联系：都是监督的分类算法。都是线性分类方法(不考虑核函数时）。都是判别模型。区别：损失函数的不同，LR是对数损失函数对数损失函数，SVM是hinge损失函数损失函数。SVM不能产生概率，LR可以产生概率。SVM自带结构风险结构风险最小化，LR则是经验风险经验风险最小化。SVM可以用核函数，而LR一般不用核函数。相关概念判别模型判别模型：由数据直接学习决策函数Y=f(X)，或者由条件概率分布P(Y|X)作为预测模型。判别方法关心的是给定输入X，应该预测出什么样的输出Y。S

27、VM、LR、KNN、决策树都是判别模型。生成模型生成模型：由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)。生成方法关心的是给定输入X产生输出Y的生成关系。朴素贝叶斯、隐马尔可夫模型等是生成模型。相关概念经验风险经验风险：对所有训练样本都求一次损失函数，再累加求平均。即，模型对训练样本中所有样本的预测能力。期望风险期望风险：对所有样本（包含未知样本和已知的训练样本）的预测能力，是全局概念。（经验风险则是局部概念，仅表示决策函数对训练数据集里样本的预测能力。）结构风险结构风险：对经验风险和期望风险的折中。结构风险在经验风险的基础上加上表示模型复杂度的正则化项或惩罚项。特征特征数据数据选择模型选择模型大量(10K特征)少量(100K行)简单，逻辑回归或LinearSVC73带RBF核函数的SVC增加特征,逻辑回归,LinearSVC或者核近似什么时候使用逻辑回归或SVM少量(100特征)Jupyter演示第10章-支持向量机.ipynb

展开阅读全文