收藏 分销(赏)

KNN算法原理及应用.doc

上传人:精**** 文档编号:2393165 上传时间:2024-05-29 格式:DOC 页数:5 大小:37.03KB
下载 相关 举报
KNN算法原理及应用.doc_第1页
第1页 / 共5页
KNN算法原理及应用.doc_第2页
第2页 / 共5页
KNN算法原理及应用.doc_第3页
第3页 / 共5页
KNN算法原理及应用.doc_第4页
第4页 / 共5页
KNN算法原理及应用.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、KNN分类算法(理论)目录1.KNN算法12.KNN算法描述13.KNN主要的应用领域24.KNN算法的优、缺点21.KNN算法 KNN算法,右又叫K最邻近分类算法,是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 KNN算法概括来说,就是已知一个样本空间里的部分样本分成几个类,然后,给定一个待分类的数据,通过计算找出与自己最接近的K个样本,由这K个样本投票决定待分类数据归为哪一类。 kNN算法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因

2、此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。2.KNN算法描述 一个比较经典的KNN图如下: 从上图中我们可以看到,图中的有两个类型的样本数据,一类是蓝色的正方形,另一类是红色的三角形。而那个绿色的圆形是我们待分类的数据。 如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形。如果K=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形。3.KNN主要的应用领域 文本分类、聚类分析、预测分析、模式识别、图像处理。 KNN算法不仅可以用于分类,

3、还可以用于预测。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。4.KNN算法的优、缺点 优点 (1) 简单,易于理解,易于实现,无需估计参数,无需训练; (2) 适合对稀有事件进行分类; (3) 特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。 缺点 (1) 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时, 有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 (2) 计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。 (3) 可理解性差,无法给出像决策树那样的规则。2

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服