模式识别-最近邻法及k近邻法MATLAB实现.doc-资源下载-咨信网-让知识获取变得高效

模式识别-最近邻法及k近邻法MATLAB实现.doc

1、最近邻法和k-近邻法学号：02105120 姓名：吴林一.基本概念：最近邻法：对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x与距离它最近的样本同类。 K近邻法：取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。K取奇数，为了是避免k1=k2的情况。二.问题分析：要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后判别这k个样本的多数属于哪一类。可采用欧式距离公式求得两个样本间的距离s=sqrt（（x1-x2）^2+(y1-y2)^2）三.算法分析：该算法中任取每类样本的一半作为训练样本

2、其余作为测试样本。例如iris中取每类样本的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k个样本，并判断k个样本多数属于哪一类，则x就属于哪类。测试10次，取10次分类正确率的平均值来检验算法的性能。四.MATLAB代码：最近邻算实现对Iris分类 clc; totalsum=0; for ii=1:10 data=load('iris.txt'); data1=data(1:50,1:4);%任取Iris-setosa数据的25组 rbow1=randperm(50); trainsample1=data1(rbow1(:,1:25),

3、1:4); rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列 testsample1=data1(rbow1(:,26:50),1:4); data2=data(51:100,1:4);%任取Iris-versicolor数据的25组 rbow2=randperm(50); trainsample2=data2(rbow2(:,1:25),1:4); rbow2(:,26:50)=sort(rbow2(:,26:50)); testsample2=data2(rbow2(:,26:50),1:4); data3=data

4、101:150,1:4);%任取Iris-virginica数据的25组 rbow3=randperm(50); trainsample3=data3(rbow3(:,1:25),1:4); rbow3(:,26:50)=sort(rbow3(:,26:50)); testsample3=data3(rbow3(:,26:50),1:4); trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集 testsample=cat(1,testsample1,testsample2,testsampl

5、e3); newchar=zeros(1,75);sum=0; [i,j]=size(trainsample);%i=60,j=4 [u,v]=size(testsample);%u=90,v=4 for x=1:u for y=1:i result=sqrt((testsample(x,1)-trainsample(y,1))^2+(testsample(x,2)-trainsample(y,2))^2+(testsample(x,3)-trainsample(y,3))^2+(testsample(x,4)-trainsample(y,4))^2);

6、欧式距离 newchar(1,y)=result; end; [new,Ind]=sort(newchar); class1=0; class2=0; class3=0; if Ind(1,1)<=25 class1=class1+1; elseif Ind(1,1)>25&&Ind(1,1)<=50 class2=class2+1; else class3=class3+1; end if class1>class2&&class1>class3

7、 m=1; ty='Iris-setosa'; elseif class2>class1&&class2>class3 m=2; ty='Iris-versicolor'; elseif class3>class1&&class3>class2 m=3; ty='Iris-virginica'; else m=0; ty='none'; end if x<=25&&m>0 disp(sprintf('第%d组数据分类后

8、为%s类',rbow1(:,x+25),ty)); elseif x<=25&&m==0 disp(sprintf('第%d组数据分类后为%s类',rbow1(:,x+25),'none')); end if x>25&&x<=50&&m>0 disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),ty)); elseif x>25&&x<=50&&m==0 disp(sprintf('第%d组数据分类后为%s类',50+rbow2(:,x),'none')); end if x>50&&x<

9、75&&m>0 disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),ty)); elseif x>50&&x<=75&&m==0 disp(sprintf('第%d组数据分类后为%s类',100+rbow3(:,x-25),'none')); end if (x<=25&&m==1)||(x>25&&x<=50&&m==2)||(x>50&&x<=75&&m==3) sum=sum+1; end end disp(sprintf('第%d次

10、分类识别率为%4.2f',ii,sum/75)); totalsum=totalsum+(sum/75); end disp(sprintf('10次分类平均识别率为%4.2f',totalsum/10)); 测试结果：第3组数据分类后为Iris-setosa类第5组数据分类后为Iris-setosa类第6组数据分类后为Iris-setosa类第7组数据分类后为Iris-setosa类第10组数据分类后为Iris-setosa类第11组数据分类后为Iris-setosa类第12组数据分类后为Iris-setosa类第14组数据分类后为Iri

11、s-setosa类第16组数据分类后为Iris-setosa类第18组数据分类后为Iris-setosa类第19组数据分类后为Iris-setosa类第20组数据分类后为Iris-setosa类第23组数据分类后为Iris-setosa类第24组数据分类后为Iris-setosa类第26组数据分类后为Iris-setosa类第28组数据分类后为Iris-setosa类第30组数据分类后为Iris-setosa类第31组数据分类后为Iris-setosa类第34组数据分类后为Iris-setosa类第37组数据分类后为Iris-setosa类第

12、39组数据分类后为Iris-setosa类第41组数据分类后为Iris-setosa类第44组数据分类后为Iris-setosa类第45组数据分类后为Iris-setosa类第49组数据分类后为Iris-setosa类第51组数据分类后为Iris-versicolor类第53组数据分类后为Iris-versicolor类第54组数据分类后为Iris-versicolor类第55组数据分类后为Iris-versicolor类第57组数据分类后为Iris-versicolor类第58组数据分类后为Iris-versicolor类第59组数据分类后为Iri

13、s-versicolor类第60组数据分类后为Iris-versicolor类第61组数据分类后为Iris-versicolor类第62组数据分类后为Iris-versicolor类第68组数据分类后为Iris-versicolor类第70组数据分类后为Iris-versicolor类第71组数据分类后为Iris-virginica类第74组数据分类后为Iris-versicolor类第75组数据分类后为Iris-versicolor类第77组数据分类后为Iris-versicolor类第79组数据分类后为Iris-versicolor类第80组数据

14、分类后为Iris-versicolor类第84组数据分类后为Iris-virginica类第85组数据分类后为Iris-versicolor类第92组数据分类后为Iris-versicolor类第95组数据分类后为Iris-versicolor类第97组数据分类后为Iris-versicolor类第98组数据分类后为Iris-versicolor类第99组数据分类后为Iris-versicolor类第102组数据分类后为Iris-virginica类第103组数据分类后为Iris-virginica类第105组数据分类后为Iris-virginica类

15、第106组数据分类后为Iris-virginica类第107组数据分类后为Iris-versicolor类第108组数据分类后为Iris-virginica类第114组数据分类后为Iris-virginica类第118组数据分类后为Iris-virginica类第119组数据分类后为Iris-virginica类第124组数据分类后为Iris-virginica类第125组数据分类后为Iris-virginica类第126组数据分类后为Iris-virginica类第127组数据分类后为Iris-virginica类第128组数据分类后为Iris-vi

16、rginica类第129组数据分类后为Iris-virginica类第130组数据分类后为Iris-virginica类第133组数据分类后为Iris-virginica类第135组数据分类后为Iris-virginica类第137组数据分类后为Iris-virginica类第138组数据分类后为Iris-virginica类第142组数据分类后为Iris-virginica类第144组数据分类后为Iris-virginica类第148组数据分类后为Iris-virginica类第149组数据分类后为Iris-virginica类第150组数据分类后

17、为Iris-virginica类 k近邻法对wine分类： clc; otalsum=0; for ii=1:10 %循环测试10次 data=load('wine.txt');%导入wine数据 data1=data(1:59,1:13);%任取第一类数据的30组 rbow1=randperm(59); trainsample1=data1(sort(rbow1(:,1:30)),1:13); rbow1(:,31:59)=sort(rbow1(:,31:59)); %剩余的29组按行下标大小顺序排列 testsamp

18、le1=data1(rbow1(:,31:59),1:13); data2=data(60:130,1:13);%任取第二类数据的35组 rbow2=randperm(71); trainsample2=data2(sort(rbow2(:,1:35)),1:13); rbow2(:,36:71)=sort(rbow2(:,36:71)); testsample2=data2(rbow2(:,36:71),1:13); data3=data(131:178,1:13);%任取第三类数据的24组 rbow3=randperm(48); trainsample3=data3(sor

19、t(rbow3(:,1:24)),1:13); rbow3(:,25:48)=sort(rbow3(:,25:48)); testsample3=data3(rbow3(:,25:48),1:13); train_sample=cat(1,trainsample1,trainsample2,trainsample3);%包含89组数据的样本集 test_sample=cat(1,testsample1,testsample2,testsample3); k=19;%19近邻法 newchar=zeros(1,89); sum=0; [i,j]=size(train_sample

20、);%i=89,j=13 [u,v]=size(test_sample);%u=89,v=13 for x=1:u for y=1:i result=sqrt((test_sample(x,1)-train_sample(y,1))^2+(test_sample(x,2)-train_sample(y,2))^2+(test_sample(x,3)-train_sample(y,3))^2+(test_sample(x,4)-train_sample(y,4))^2+(test_sample(x,5)-train_sample(y,5))^2+(test_sa

21、mple(x,6)-train_sample(y,6))^2+(test_sample(x,7)-train_sample(y,7))^2+(test_sample(x,8)-train_sample(y,8))^2+(test_sample(x,9)-train_sample(y,9))^2+(test_sample(x,10)-train_sample(y,10))^2+(test_sample(x,11)-train_sample(y,11))^2+(test_sample(x,12)-train_sample(y,12))^2+(test_sample(x,13)-train_samp

22、le(y,13))^2); %欧式距离 newchar(1,y)=result; end; [new,Ind]=sort(newchar); class1=0; class 2=0; class 3=0; for n=1:k if Ind(1,n)<=30 class 1= class 1+1; elseif Ind(1,n)>30&&Ind(1,n)<=65 class 2= class 2+1; else class 3= class3+1

23、 end end if class 1>= class 2&& class1>= class3 m=1; elseif class2>= class1&& class2>= class3 m=2; elseif class3>= class1&& class3>= class2 m=3; end if x<=29 disp(sprintf('第%d组数据分类后为第%d类',rbow1(:,30+x),m)); elseif x>29&&x<=65 dis

24、p(sprintf('第%d组数据分类后为第%d类',59+rbow2(:,x+6),m)); elseif x>65&&x<=89 disp(sprintf('第%d组数据分类后为第%d类',130+rbow3(:,x-41),m)); end if (x<=29&&m==1)||(x>29&&x<=65&&m==2)||(x>65&&x<=89&&m==3) sum=sum+1; end end disp(sprintf('第%d次分类识别率为%4.2f',ii,sum/89)); totalsum=t

25、otalsum+(sum/89); end disp(sprintf('10次分类平均识别率为%4.2f',totalsum/10)); 第2组数据分类后为第1类第4组数据分类后为第1类第5组数据分类后为第3类第6组数据分类后为第1类第8组数据分类后为第1类第10组数据分类后为第1类第11组数据分类后为第1类第14组数据分类后为第1类第16组数据分类后为第1类第19组数据分类后为第1类第20组数据分类后为第3类第21组数据分类后为第3类第22组数据分类后为第3类第26组数据分类后为第3类第27组数据分类后为第1类第28组数据分类

26、后为第1类第30组数据分类后为第1类第33组数据分类后为第1类第36组数据分类后为第1类第37组数据分类后为第1类第43组数据分类后为第1类第44组数据分类后为第3类第45组数据分类后为第1类第46组数据分类后为第1类第49组数据分类后为第1类第52组数据分类后为第1类第54组数据分类后为第1类第56组数据分类后为第1类第57组数据分类后为第1类第60组数据分类后为第2类第61组数据分类后为第3类第63组数据分类后为第3类第65组数据分类后为第2类第66组数据分类后为第3类第67组数据分类后为第2类第71组数据分类

27、后为第1类第72组数据分类后为第2类第74组数据分类后为第1类第76组数据分类后为第2类第77组数据分类后为第2类第79组数据分类后为第3类第81组数据分类后为第2类第82组数据分类后为第3类第83组数据分类后为第3类第84组数据分类后为第2类第86组数据分类后为第2类第87组数据分类后为第2类第88组数据分类后为第2类第93组数据分类后为第2类第96组数据分类后为第1类第98组数据分类后为第2类第99组数据分类后为第3类第102组数据分类后为第2类第104组数据分类后为第2类第105组数据分类后为第3类第106组

28、数据分类后为第2类第110组数据分类后为第3类第113组数据分类后为第3类第114组数据分类后为第2类第115组数据分类后为第2类第116组数据分类后为第2类第118组数据分类后为第2类第122组数据分类后为第2类第123组数据分类后为第2类第124组数据分类后为第2类第133组数据分类后为第3类第134组数据分类后为第3类第135组数据分类后为第2类第136组数据分类后为第3类第139组数据分类后为第3类第140组数据分类后为第3类第142组数据分类后为第3类第144组数据分类后为第2类第145组数据分类后为第1类第

29、146组数据分类后为第3类第148组数据分类后为第3类第149组数据分类后为第2类第152组数据分类后为第2类第157组数据分类后为第2类第159组数据分类后为第3类第161组数据分类后为第2类第162组数据分类后为第3类第163组数据分类后为第3类第164组数据分类后为第3类第165组数据分类后为第3类第167组数据分类后为第3类第168组数据分类后为第3类第173组数据分类后为第3类第174组数据分类后为第3类五：问题和收获：该算法的优缺点总结为：优点：算法简单且识别率较高；缺点：算法需要计算未知样本x与周围每个样本的距离，然后排序选择最近的k个近邻，计算量和时间复杂度高。书本上有好多优化的k近邻法，比如，快速搜索近邻法、剪切近邻法、压缩近邻法等，但就个人能力而言，上述优化的算法不太容易编程实现。在日后的学习中，自己也要加强优化算法的能力。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？