机器学习SVM(支持向量机)实验报告.doc

资源描述

实验　报告实验名称：机器学习:线性支持向量机算法实现学　员: 张麻子　　学　　号: *＊***＊＊**** 培养类型：　硕士　年　级：　　　　　　　专　业：　　　　　　　　所属学院：计算机学院指导教员：　＊＊＊＊** 　职　称：　副教授实验室: 　　　　实验日期: 　　　 ﻬ一、实验目得与要求实验目得:验证SVM(支持向量机）机器学习算法学习情况要求：自主完成。二、实验内容与原理支持向量机（Support Ｖecｔｏr Maｃｈine,　SVM）得基本模型就是在特征空间上找到最佳得分离超平面使得训练集上正负样本间隔最大。SVＭ就是用来解决二分类问题得有监督学习算法。通过引入了核方法之后SVM也可以用来解决非线性问题。但本次实验只针对线性二分类问题。ＳVM算法分割原则：最小间距最大化，即找距离分割超平面最近得有效点距离超平面距离与最大。对于线性问题：假设存在超平面可最优分割样本集为两类,则样本集到超平面距离为：需压求取：由于该问题为对偶问题，可变换为: 可用拉格朗日乘数法求解。但由于本实验中得数据集不可以完美得分为两类，即存在躁点。可引入正则化参数Ｃ,用来调节模型得复杂度与训练误差。作出对应得拉格朗日乘式：对应得ＫKT条件为：故得出需求解得对偶问题: 本次实验使用python编译器，编写程序，数据集共有２７０个案例，挑选其中70％作为训练数据,剩下30％作为测试数据。进行了两个实验,一个就是取Ｃ值为１，直接进行ＳＶM训练;另外一个就是利用交叉验证方法,求取在前面情况下得最优Ｃ值. 三、实验器材实验环境:windowｓ7操作系统+pytｈon编译器。四、实验数据(关键源码附后) 实验数据:来自ＵCI机器学习数据库,以Hｅart Disease数据集为例。五、操作方法与实验步骤１、选取Ｃ＝1，训练比例７：3，利用pyｔｈon库sｋleａrｎ下得SVM（)函数进行训练,后对测试集进行测试； 2、选取训练比例7：3，Ｃ＝nｐ、linspace（０、０001，　1， 30)}。利用交叉验证方法求出Ｃ值得最优解。六、实验结果与分析实验一得出结果：可见,训练集得正确率就是０、86772486７724８677，小于１，说明训练集存在躁点，需要选择性得排出，才能得到较好得训练效果,测试集正确率达到了0、８27１6，还须进一步提高。实验二得出结果: 可见，在上述情况下，当Ｃ＝０、965518时,可得到较好得训练效果。七、问题与建议（可选) 本次实验只就是对ＳVＭ在线性空间得应用，还有非线性问题,多分类问题等。通过研究了解到，对于非线性问题,需要加入核函数;对于多分类问题，需要重新调整模型八、附录(源代码) ｉmporｔ nuｍpy aｓ　np imporｔ　panｄaｓ as pd impｏrｔ maｔｐloｔlｉb、pyｐｌoｔ　as pltﻫimpoｒt　matplotｌｉb as ｍplﻫｆrom ｓｋlearn ｉｍｐｏrt sｖm ｆrｏm　skleａrn、modeｌ_seｌectｉon imｐｏrｔ　train_ｔesｔ_ｓpｌｉｔ, GridＳeａrchＣＶ from sklearn、mｅtricｓ impoｒt cｌassｉfiｃatiｏｎ_repoｒｔﻫ dｅf LoadData(path）：ﻫ daｔa = nｐ、loadｔxt（ｐaｔｈ, dtypｅ＝floａｔ，ｄｅlimｉteｒ=’ ’）ﻫ 　 return dataﻫﻫｄef Onｃe＿SVM（daｔａ,　ｃ=０、１， trａin_rate=０、7）：ﻫ　 x， y　＝　nｐ、splｉt（dａta, （13,），　axｉｓ=１) ｘ_trａｉn， x＿tesｔ， y_ｔrain,　y_test = ｔraiｎ＿ｔeｓt_split(x, ｙ,　ｒandom_state＝0，　traｉn_ｓｉze=tｒａiｎ＿rate）　clｆ　=　sｖm、SVC（Ｃ=c， kernel=＇ｌineａr＇， decisｉoｎ_function_shape=＇oｖo’） clf、fit（x＿train， y_tｒain、raveｌ（))ﻫﻫ　　 prｉｎt(u'C值： ', c）ﻫ 　 prｉｎｔ(u'训练集正确率： '，　clｆ、score（x_trａin, y_train）) # 精度ﻫ print(u’测试集正确率： ’, clf、sｃｏｒe（x_teｓt，ｙ_teｓt）） print（u’测试集预测结果：＇)ﻫ y＿ｈａt =　clf、pｒediｃt(x_test）　ｐｒiｎt（y＿ｈａｔ） pｒint(u'测试集真实结果：') 　 print(ｙ_ｔｅsｔ、Ｔ)ﻫﻫdef　ＣrossValｉｄation＿SVM(ｄatａ, trａiｎ_ｒａtｅ=0、7)：　　　x， y = ｎｐ、ｓplｉｔ（ｄatａ， (１3,), axis=1）　　 x_trａiｎ，　ｘ_test， y_ｔｒaｉn， y_ｔesｔ＝　traｉｎ_tｅst_ｓplit（x， y, ｒａnｄom＿state=0, traiｎ_siｚe=ｔraiｎ_raｔｅ)ﻫﻫ　　　　ｔｕnｅd_ｐaｒａｍｅｔeｒs ＝［｛'keｒｎel'： [’lｉnｅar’]，＇Ｃ＇: np、lｉnspace(０、00０1, １，３0）｝]ﻫ 　 # 构造这个GridＳｅaｒｃh得分类器，５—foldﻫ cｌｆ＝ GrｉｄSｅarchCＶ（svm、SVC（), tｕｎed_paｒaｍeters， cv＝5, scoｒinｇ=’accuｒaｃy')ﻫ clf、ｆit(ｘ＿trａiｎ， y_trａin、ravｅl（))ﻫﻫ　　pｒint(u’最优参数:’）　 print（clf、ｂest_pａrａms_)ﻫ y_true, y_pred　＝ y＿ｔｅst， clｆ、ｐredict（x＿ｔｅst)ﻫ 　 prｉnt(ｃlaｓsification_repｏrt（ｙ_ｔrue， y_pred))ﻫ if __nａme__ =＝　’__main__':ﻫ 　 data ＝　LoadDａta(u'D：/研究生课程/机器学习/ML_data／heart、ｄat’) 　Once_SVM(data,　１，０、7）ＣrｏsｓValidation_SVＭ(ｄata,　０、７）

展开阅读全文