1、数据挖掘在网络信息安全中的应用摘要:随着科学技术的发展,计算机信息技术和计算机网络技术在人们生活和工作中起到的作用越来越大,它们已经彻底的改变了人们的生活和工作方式,人们对于计算机信息技术和网络技术的依赖性越来越强,随着网络规模不断扩大,网络用户不断增多,网络知识不断普及,使得计算机网络与信息受到安全风险越来越高,网络上时常出现信息泄露、信息被窃取、信息被破坏等事件,导致企业遭受严重的经济损失,所以越来越多的人开始关注网络信息的完整性、可用性、机密性,而保障信息的安全性就需要企业能够有效的检测出入侵的行为,并在入侵破坏前制定出有效的措施,但是通常入侵的行为夹杂在正常的数据当中,这又给检测带来了
2、较大的困难。目前很多企业的入侵检测系统将收集的审计数据与已知的入侵攻击模式进行对比,从而发现其中的一些违背安全策略的行为,这种模式在入侵检测上的效率较高,但是对于未知的入侵手段则无法检测。利用数据挖掘技术对审计数据进行分析,并将网络传输数据转化成对应的连接记录,通过预处理,得出连接记录的相关特征,这有利于提高入侵检测的准确性,因此本文就对结合数据挖掘技术来探讨入侵检测系统的应用,以确保企业网络信息的安全性。关键词:网络技术;信息安全;数据挖掘;入侵检测;应用Application of data miningin network information security.Abstract:wi
3、th the development of science and technology,more and morethe roleof computer informationtechnology and computer network technologyto thepeopleliving and working in thelarger,theyhave completelychanged peopleslife and work,peoplefor the computerinformationtechnology and network technologybecomes mor
4、e and more dependent,with the expansion of network scale,networkincreasing user,network knowledgepopularization,makes the computernetwork and informationsecurity riskismore and more high,informationleaked,stolen,informationdestructionevents often appearon the network,causes the enterprise tosuffer s
5、eriouseconomic losses,somore and more people begin tointegrity,availability,confidentialityconcernsof network informationandsecurity,information securityrequires the enterprisetodetect intrusionbehavioreffectively,and to develop effectivemeasuresin the intrusionbefore the damage,but usuallythe intru
6、sionbehaviorof inclusioninthe normal data,italsobrought the major difficultytodetect.The current intrusiondetection systemwill bea lot of enterprisesaudit data withknowncollection ofintrusionpattern were compared,andfound someintrusionsof them,this kind of modeinhigher efficiency ofintrusion detecti
7、on,but forunknownintrusion methodsare unable todetect.The audit datais analyzed by using thedata mining technology,and thenetwork transmission of dataintothe correspondingconnectionrecords,through pretreatment,draws the relatedcharacteristics ofconnection records,which is conducive to improvethe ver
8、acity of intrusion detection,so this papertocombine data toexplore the application ofintrusion detectionsystem ofmining technology,to ensure the safetyof enterprise networkinformation.Keywords:network technology;information security;data mining;intrusion detection;application1绪论1.1研究的背景、目的和意义 随着计算机网
9、络技术不断的发展和完善,目前网络技术运用在各个行业并取得了极其重要的成就,不仅仅改变了人们的日常生活和工作,同时也是体现一个企业综合实力的重要组成部分,此外,计算机网络技术也已经成为了衡量一个国家经济、政治、军事能力的象征,象征着一个国家在国际上的影响力。网络技术在为人们所服务的同时,由于其作用极其巨大,目前世界上很多人对网络技术进行了深入的研究,并且由于网络知识不断普及,人们对网络技术的认识更加深入和透彻,再加上计算机网络是一个开放性的巨大网络,在技术上和平台上都给予了不法分子提供了一个很好的基础,黑客利用网络就能够随时对网络中的企业服务器进行攻击,从而导致企业的数据泄露、破坏、丢失等,从而
10、使企业面临巨大的损失,所以网络信息安全对抗一直就成为经久不衰的话题。 正由于网络中存在着各种不利于信息安全的因素,如果能够及时的发现入侵行为并制定出针对的策略,这对保证信息安全有重要的作用,而目前的入侵检测系统在很多方面存在着不足,如检测的有效性,误报率和漏报率较高,这主要是因为目前大部分企业中运用的都是异常检测或是误用检测,异常检测误报率较高,误用检测漏报率较高,再者是目前的入侵检测系统的实时检测较差,分析的也是以前的入侵数据,对于新的入侵手段无法有效的检测,所以研究较为完善的入侵检测系统是网络安全研究的主要目的。 研究网络入侵检测具有极其重要的意义,从小的方面说能够最大限度的保证企业的信息
11、的完整性、安全性和可靠性,为社会经济的发展做出贡献。从大的方面说,能够对国家的国防建设做出巨大的贡献,加强国防力量,保障国家的安全,提高国家的网络技术水平,提高国家在国际上的竞争力和影响力。1.2国内外的研究现状 早在1980年,James Andersone就在计算机安全威胁监控与监视中提出了入侵检测的内涵,但在当时并没有太多的人去关注。1986年,SRI公司和乔治敦大学共同的研究出了一个实时入侵检测系统模型IDES。随后的1990年,加州大学戴维斯分校的LTHeberein等人开发出了NSM系统,该系统成功运用翻开了入侵检测系统的新篇章,是入侵检测系统尤其重要的一年,在此基础上才形成了基础
12、网络的IDS和基于主机的IDS研究方向。自从1988年发生了莫里斯蠕虫事件过后,在当时引起极大的关注,使得人们才逐渐认识到网络安全对于一个国家的重要性,因此,很多国家或机构对入侵检测系统进行了更深入的研究,到目前为止,入侵检测研究的时间已有30多年,入侵检测系统在研发上取得了硕大的成果,并在分布式以及智能化上取得了一定的成就,在实际运用上,基本所有的企业都在运用入侵检测系统,如Cisco公司的NetRanger等。 在我国,入侵检测的研究起步相对较晚,从而使得入侵检测系统的实践时间也相对较晚,但是我国对于入侵检测的研究和应用都在逐渐深入当中,也研发出了属于我国的入侵检测系统,如中科网威的天眼入
13、侵检测系统、北京启明星辰的黑客入侵检测和预警系统等,这些入侵系统已经广泛的运用在社会各行业中。2数据挖掘和网络入侵检测技术分析2.1数据挖掘概述2.1.1数据挖掘概念 所谓的数据挖掘就是指在大量的、随机的、不完全的数据中找出人们事先不知道的、隐含的但是又有潜在信息或规律的过程,并从大量数据中去提取有用规律或知识的方法和技术,可见数据挖掘主要是和数据打交道,正因为如此,也可以将数据挖掘成为数据库知识发现。由于在大量的数据中,数据可能是文本、图片、图像数据,也可能是网络上异构型数据,找出这些数据中的知识和规律用于我们日常的信息管理、结构优化、过程控制、自身维护等,所以数据挖掘是一门较为复杂的交叉性
14、学科。2.1.2数据挖掘过程 通常来说,数据挖掘由三个阶段组成,分别是数据准确阶段、数据挖掘阶段和模式评估阶段,数据挖掘工作就是不断的重复这三个过程,数据准备阶段是指收集和整理需要挖掘的数据,该阶段直接的影响了整个挖掘工作的效率和准确度,所以该阶段是较为关键的一个阶段,需要将数据准备充分,同时该阶段又可以分出三个步骤,第一步是数据清理,将噪声数据和不一致数据清除,第二步是数据集成,将来自不同数据源的相关数据重新进行整合,第三步是数据变化,将整理的数据统一或者变换成适合数据挖掘的形式。第二阶段数据挖掘是知识和规律发现的基本步骤,通过智能方法或技术提取出数据中的规律和知识。第三阶段评估模式是根据事
15、先制定好的评估标准来判断挖掘结果中真正能够利用的模式。2.1.3数据挖掘系统结构 通常来说,数据挖掘系统结构主要由以下五个部分组成:一是数据库或者其它信息库,表示的是数据挖掘工作针对的对象是数据库或其它信息库组成,通常需要通过数据清理和数据集成来对这些对象进行最初步的处理;二是数据库或仓库服务器,根据用户对于数据具体的挖掘需求,服务器则直接提取相关联的数据作为研究对象;三是知识库,知识库中存放是和该领域数据挖掘相关的知识,这些知识是整个数据挖掘工作的前提和根本,应用到整个数据挖掘过程中;四是数据挖掘引擎,数据挖掘引擎是由一个功能模块组成,作为整个数据挖掘系统的一个部分,主要的作用是对挖掘对象进
16、行关联性分析、特征化分析、序列模式及演变分析、偏差分析、聚类分析等,以分析出挖掘对象之间潜在的规律;五是图形用户界面,图形用户界面也是一个功能模块,该模块的作用是保持数据挖掘系统和用户之间的通信,实现用户和系统之间的沟通,如为用户提供数据挖掘查询功能、提供数据搜索功能、提供相关信息功能等,同时用户也可以利用该模块浏览数据库以及查看数据仓库的数据结构等,同时用户还可以对挖掘结果进行评价等。2.2入侵检测技术分析 入侵检测就是对数据中的入侵行为进行甄别,从而确定出行为是否合法,例如在系统中发现了入侵者或者滥用系统的资源的非法用户,目前对于入侵检测的定义是发现、跟踪并记录计算机系统中或者网络的非授权
17、行为,或者是发现系统中试图对系统造成感染的其它异常非法活动。 入侵检测技术从本质上来看是一种信息识别技术和检测技术,所以可以将传统的信息识别技术运用到入侵检测活动中来,不过入侵检测和传统的信息识别也有巨大的差别,入侵检测不仅对于信息先后顺序有严格的要求,信息产生的时间也要严格的输入到识别系统中,此外,入侵检测更加重视环境相关性以及上下文关系,同一组数据在不同分析环境下可能得到的结果完全不同,所以入侵检测笔传统的信息识别更严谨,更加注重环境和信息相关性。入侵检测中入侵分析是整个工作中的重点和核心,最终对于入侵行为的判定主要依赖入侵分析技术的分析结果,目前入侵检测技术主要有四种:一是基于统计方法入
18、侵检测,该技术就是在统计检测规则基础上运用的一种检测方法,它主要对用户历史记录进行建模,先对历史模型进行验证和分析,得出关于用户的历史使用统计数据,然后系统对用户的操作行为概率统计模型进行检测,换句话说,就是对用户曾经的操作行为为基准来判断当前用户的操作是否合法,将用户的历史行为定义为用户的行为习惯,如果用户改变了这个行为习惯,系统就将这种异常检测出来;二是基于神经网络入侵检测,由于用户的操作跟随着时间和空间的变化会发生很大的变化,并且用户的操作行为具有复杂性,如果采用概率统计模型检测来匹配用户当前的行为是一件较为困难的事,所以从这里看出基于统计方法入侵检测存在较大的局限性,因而人们对统计方法
19、入侵检测进行了改进,即形成基于神经网络的入侵检测技术,但是该技术目前还并不十分的成熟,以往的统计方法检测仍然在该模型适用,但是能够对用户的异常行为提供一些具有参考意义的数据;三是基于专家系统入侵检测,该技术建立在网络安全专家的分析基础之上而形成的一套推理性检测技术,从而建立起关于专家分析检测模型,由该模型对当前入侵行为进行分析和推理,常见的专家系统入侵检测规则就是在游戏、银行或者其他有关账号密码输入的界面上在固定时间内输入账号密码的失败次数超过规定次数则判定为一次入侵行为,并且该模型能够通过时间和经验的积累能够对规则进行扩充和修正,并且它对于历史数据的依赖性相对较小,使得其适应性较强,可以灵活
20、的适应不同安全策略下的检测工作;四是基于模型推理入侵检测,当非法入侵者在入侵网络或系统时通常都需要用到一定的行为软件或程序,例如对软件或程序的口令进行试探,这时就能够判定该行为具有一定入侵行为特征,系统对这种行为特征进行及时的跟踪和分析,就能够实时的反应出该入侵行为的企图,利用这种推理方法人们就能够建立起常见入侵行为特征模型,从而来检测当前或未来具有特定特征的入侵行为。 当然,每种入侵检测技术都有其优势的方面,同时也有缺陷的方面,并不能检测出所有的入侵行为,不过综合的利用多种入侵检测技术能够有效的强化网络系统的安全,增加入侵行为暴露的几率。3入侵检测模型3.1入侵检测模型分析 最早的入侵检测模
21、型是在1986年由Dorothy Denning提出,虽然说这个模型和具体输入没有直接的关系,但是为后来的入侵检测模型的研究有极大的借鉴价值,下图是入侵检测体系结构:图3-1 入侵检测模型 从上图来看,事件产生器在不同的应用环境之下有略微的不同,通常情况下来自网络数据包和审计记录,这些数据是检测的基础数据,行为特征是整个体系中最为核心的部分,其中包含了用户行为特征所有变量,这些变量可以根据事件记录器中记录和所选择的统计方法来进行定义,并根据上一次记录的用户操作数据来更新变量值。如果在某次的操作过程中,发现当前的变量和以往统计的变量存在较大的差异,那么行为特征模块就会产生异常的记录,并给出提示;
22、其中的规则模块主要是由安全策略和入侵模式等构成,它的作用在于对入侵行为的判断提供参考体系,同时根据异常的行为记录、事件记录和有效时间等来控制和更新其它模块状态,可以这样理解行为特征模块主要是针对行为进行检查,而规则模块主要是对知识进行检测。 Denning模型最大的不足就是没有以往入侵知识或系统漏洞数据,而这些数据或漏洞对于以后的系统入侵检测极为有用,所以在Denning模型的基础上做出适当的调整,得到如下图的通用检测模型:图3-2 通用入侵检测模型4基于数据挖掘入侵检测技术的综合运用4.1入侵检测系统中应用数据挖掘的必要性 入侵检测就是通过一些科学的分析方法对从各个渠道收集的反应网络状况的数
23、据进行提炼和分析,得出提炼和分析的结果,再对结果进行科学的评价,从而判断出其中的正常操作行为和异常操作行为,并对未来的入侵提供理论数据支持,并制定出针对性的策略,以确保整个网络安全稳定的运行。和传统的统计方法相比,数据挖掘方法的特点在于能够从收集到的数据中找出人们未知的潜在知识或规律,所以在入侵检测中运用数据挖掘有几点优势:一是能够为网络管理提供网络安全服务。目前的网络规模不断扩大,网络用户不断增多,网络结构也日趋复杂化,网络上的业务和种类也在不断扩大,所以网络中的安全隐患也在不断扩大,而数据挖掘方法能够从历史数据中找出数据的关联性和规律,能够为网络管理员的决策提供数据支持,从而加强网络的安全
24、系数;二是能够促进系统的创新和发展,有利于新系统的开发。随着网络技术不断发展,数据结构和形式也在不断的变化,数据中所包含的知识和规律也在不断变化,为了切实的符合当前数据结构和形式,在旧模型的基础上创新是必然的步骤,所以需要在原有的数据挖掘基础上对新的数据重新进行分析,以建立起新数据的分析模型,并将其运用在实际业务中;三是融合多种技术,构建新的安全体系。目前的网络入侵检测技术,能够实现检测目的的算法是模式匹配,如果在目前的检测基础上将其他如专家系统、神经网络技术融合在一起建立起更加完善、更加先进的算法模型,我们不但能够将现在的匹配模式的高性能完整的保留下来,还能够弥补匹配模式的缺陷,使其更加灵活
25、和多变,不仅能够提高检测的效率,还极大的提高检测的准确性,减少误报和漏报率;四是从数据角度审计数据集,进一步的提高入侵检测的效率,数据挖掘从数据的角度解决网络性能评价问题,能够从数据库中提取出一些不明显但是作用很大的数据信息,如果我们将数据挖掘技术融入到入侵检测中去,将挖掘的数据集作为研究分析的对象,再利用分类分析法对事件进行分类分析,得出数据与数据间的对应关系,那么我们就可以从数据角度去审计数据集,从而实现入侵检测的目的。4.2聚类分析算法4.2.1K-means均值算法分析 K-means均值算法是一种常见的聚类分析方法,K-means均值算法具有准确率高,计算速度快的特点,该方法根据最终
26、分类个数k随机的选择出k个初始聚类中心,然后经过反复的递归计算,最终得出目标函数最小值,通常目标函数采用下式计算:E=i=1kpCi丨p-mi丨2 其中E表示的是全部聚类对象平方误差和,P表示的是聚类对象,mi是类Ci各聚类对象平均值,则该数值采用下式计算:mi=pCip丨Ci丨 其中丨Ci丨是类Ci聚类对象个数,具体的算法步骤如下,我们假设存在一个数据点D=X1,X2,Xn,其目标是为了能够找到C1,C2,Ck的k个聚类,那么在系统中生成的顺序就应该如下:for k=1,2,k,从数据点D中任意的抽取一个点设为r(k)while 在聚类Ck有变化出现,do形成聚类:for k=1,2,k,d
27、oCk=XD丨d(rj,x)d(rj,x)丨对所有j=1,k,jkend;计算新的聚类中心:for k=1,2,k,dork=Ck内殿的均值向量end;end; K-means均值算法和穷举式搜索算法较为类似,在采用该算法时必须事先知道初始中心值,否则计算的结果有效性较差,所以在当确定了初始中心的有效值则就较为容易的得到较为准确的聚类分析结果,不过在确定初始中心值时,需要先确定出最终聚类个数k,并且要知道初始k个中心值,利用这个中心来穷举式,进而对数据记录进行比较,由于k值直接的影响了聚类结果,确定k值成为了计算中的重点,但是这也是实际应用过程中较难解决的一个问题,如果不解决这个问题,则直接回
28、影响到数据挖掘的结果,严重直接导致挖掘结果失效。4.2.2改进的K-means算法分析 从上述的分析我们得知采用K-means均值算法前提是要掌握初始k个中心值,这才能确保聚类的结果较为科学,当得到的聚类结果较为准确时,我们就可以利用其去对数据集进行分割。根据以往的研究来看,在连续型字段聚类数据处理上,其具有较为明显的特点,如数值区域较小,字段的数据聚集的紧密度较强,反之则字段的数据聚集强度会减弱,对于这种特点,我们定义一个自增欧式半径Ri,Ri=r2m(i-1),其中r代表的是欧式半径,m代表的是指数因子,然后在对i进行取值,从1到k,计算出i聚类中心和当前聚类成员间的距离,用D(Ii,a)
29、来表示,如果当我们发现计算的结果超过了Ri的数值,并且确定了Ii+1是不存在的,那么我们就直接认为聚类中心就是i+1成员,如果我们得到的聚类结果为空,那么我们就将在最近建立起来的聚类中心I中的离的最远的对象b移除,再建立起一个新的聚类中心Ij+1,并将这个聚类中心用来代替空聚类,当我们确定了第一个聚类中心后,遍历所有数据对象,在两个最远对象中选择一个作为聚类中心,同理找出第二个聚类中心,依次的找出所有的聚类中心。 在原有的K-means均值算法基础上实施改进,能够对分布不均匀数据分布有一个较为良好的聚类分割效果,同时改进后的K-means均值算法还能够细化分分布密度不同的数据,也能够将分块处理
30、稀疏数据,这对解决聚类算法中因为数据分布不同导致的分类差异大的问题。4.3关联规则算法分析4.3.1Apriori算法 Apriori作为一种常用的关联规则算法,由于Apriori算法在效率上有较大的优势,所以在入侵检测上,Apriori算法是较早的运用在入侵检测中,关联规则算法就是对收集的数据进行分析,从大量数据中找出数据与数据的关联性或者规则,再通过数据与数据的关系来处理问题,目前Apriori算法在很多行业都进行了运用,如超市、商场等。 Apriori算法是通过项目集元素数目不断的增加来逐渐的完成频繁项目集的发现。先是产生1-频繁项集L1,然后是2-频繁项集L2,当频繁项集元集元素数目无
31、法进一步的扩展则算法停止。例如经过K次循环后产生了K-候选集集合Ck,最后通过扫描数据库生产支持度并测试产生K-频繁项集Lk。可见Apriori算法主要有两个步骤:一是在收集的数据中找出频繁项集,二是在找出的频繁项集中再生成不低于用户设置的最小置信度的关联规则。4.3.2改进的Apriori算法 从上述的分析结果来看,Apriori算法存在着两个缺陷,首先是在整个循环过程中会出现大量候选集,例如1041-频繁项集产生的2-候选集的元素可能达到107,如此庞大的元素数目势必对系统空间的要求极为苛刻,其次每个元素都必须要对数据库进行扫描来验证其是否能够加入到频繁项集中,这对系统的I/O负载要求又极
32、高,正是这两致命的缺陷使得Apriori算法在面对庞大数据挖掘时显得效率较低,数据挖掘的成本也较高,此当时很多学者对Apriori算法进行改进和优化,结合Han提出的FP-growth算法,将数据库进行压缩到FP-tree结构中,在保证数据关联的前提下FP-tree将频繁项集紧密的相连,所以采用Apriori对数据库进行挖掘转化为了对FP-tree进行挖掘,避免了多次扫描数据库以及不需要候选项集即可生成频繁项集。4.4两种算法实际应用分析4.4.1实验应用数据 本次选择的实验应用数据是通过KDDcup99获得,KDDcup99是专门针对入侵检测情况进行评估采集的数据,其中包含了类型丰富的数据,
33、总量高达490万个,我们此次实验进仅从kddcup.data_10.percent中提取十分之一的数据,即正常行为和异常行为的数据总共为396473个,数据集中主要的攻击方式有以下几种,分别是拒绝服务Dos攻击、数据传输Data攻击、非法远程主机访问R2L攻击、侦查Probing攻击以及本地非特权用户进行本地超级用户访问的U2R攻击,数据中总共提供了41个特征,包含基本特征、内容特征、流量特征等,分别如下表所示:(1)基本特征表4-1 数据基本特征表(2)内容特征表4-2 数据内容特征(3)其余特征表4-3 数据其余特征表 在前文就提到在数据挖掘过程中数据预处理的重要性,数据预处理需要完成两个
34、方面的工作:一是数据抽取,二是数据清理,然后在利用KDDcup99的子集数据kddcup.data_10.percent来进行试验,将收集的数据分为训练数据和检测数据,训练数据用于对数据进行训练,建立起检测模型,检测数据用于对数据进行检测,并得到关于性能检测的结果。为了实验需要,在检测模型建立时,将训练数据中的异常数据进行筛选,仅留下少量入侵数据,检测数据按原样提取,得到网络数据集记录2000条。4.4.3结果分析(1)FP-growth和Apriori算法挖掘结果 实验应用在相同的软硬件条件下进行,在数据集中选取一万条记录,然后41个属性中选取20个进行频繁项集挖掘,最小支持度选择0.35%
35、、1.75%、3.5%、5.25%、6.3%、7%、8%,分别采用FP-growth和Apriori算法进行20次挖掘实验,得到如下的结果:表4-4 平均挖掘时间 从上表可以看出,FP-growth算法的平均挖掘时间要远小于Apriori算法的平均挖掘时间,可见FP-growth算法是挖掘效率更高,这也说明了上述提到的Apriori在挖掘过程中会产生大量的候选项集,从而导致了整体挖掘效率下降。(2)K-均值算法检测结果 K-均值算法的主要核心因素是聚类个数,因此我们选择的实验应用聚类个数分别是10、12、16、18、20和28,41个属性仅选择13个数据字段属性,8000条训练样本数据,400
36、条入侵数据,而改进的K-均值算法中有两个重要的参数,分别是最小聚类半径r和指数因子m,通过长期的研究发现当最小聚类半径r为0.3时,指数因子m为0.5时,系统模型的误报率以及检测率能够保持在一个较为合理范围中,因此本次实验应用的最小聚类半径r设置为0.3,而指数因子m设置为0.5,得到的实验应用数据如4-5所示:表4-5 K-均值算法的应用对比 从上表的结果来看,改进前后的k-means算法在当聚类中心个人确定的越多,则两者的检查率和误报率都随之增加,可见聚类中心个数确实对K-均值算法的影响极大,同时从上表我们也可以看出,改进后的K-means算法在同样确定的聚类中心个数条件下的检测率要明显的
37、高于改进前的K-means算法,并且误报率也要低于改进前,这说明改进后的k-means算法在检测性能上得到了较大的提高,对网络的安全性也更高。5总结和展望5.1总结 通过目前的入侵检测技术的研究来看,主要集中在两个方向的研究,分别是异常检测和误用检测,两种方法都各有各的优势和缺陷,异常检测对于未知的入侵行为有更好的检测能力,但是不易实现对正常行为模式的完备性,并且在检测率和误报率上其效果也明显不足,而误用检测能够对当前的行为进行较为准确的检查,但是该方法对于未知入侵行为无法进行检测,所以综合两种检测技术的优势,分析了基于数据挖掘入侵检测系统模型。 本文主要做的工作是: 1.分别对数据挖掘和入侵
38、检测技术进行了分析,并分析了入侵检测国内外的发展现状,其阐述了当期常见的入侵检测模型,分析其中的不足,为进一步研究基于数据挖掘的入侵检测做好铺垫。 2.对聚类算法进行了分析,分析了聚类算法的优势和不足, K-Means算法具有效率高、准确性高的特点,但是该算法在计算上必须要依赖于初始中心值,并还需要不断的改变聚类中心,否则计算的结果的准确性较差,在此基础上分析了改进后的K-means算法,其能够极大的弥补K-means算法的不足。 3.对关联规则Apriori算法进行了分析,分析了其不足之处,提出了一种利用FP-growth算法思想,改进后的算法能够有效减少对数据库的扫描,有效的提高检测的效率
39、。 4.通过实验应用对算法进行对比,结果表明改进后的算法的检测性能明显高于改进前,误报率也随之降低。5.2展望 由于作者自身水平有限,仅对建模上和算法上进行了分析,而入侵检测系统本身就具备极强的功能,其复杂性也更高,所以来未来还需要结合实际情况加强分析系统的应用和建设,在增强其检测性能的同时减少误报率。致谢 在校时光寥寥无几,在即将毕业之际,感慨万分,经过几年的学习,即将走出校园,在这里衷心的感谢一直支持我的父母,感谢孜孜不倦的指导老师和任课教师,是你们让我看到更广阔的天空,感谢一直帮助和关心我的同学,是你们在学习上和论文上给予了莫大的帮助,你们的教导和帮助我将终生受益,同时感谢学校给予了我如
40、此良好的学习氛围,在此特别郑重的感谢在论文期间给予我鼓励和帮助的指导老师,是你严谨的教学态度让我在克服了一个个挫折,最终让我完成了此次的毕业论文,最后也要感谢对本次论文评审的专家,对我的论文给出了完善的评价和建议。参考文献:1 曹子玺,陆琦,薛质等.基于数据挖掘的网络信息安全策略研究J.信息安全与技术,2014,5(1):26-28.2 齐巨慧.基于数据挖掘的网络信息安全策略研究J.电脑编程技巧与维护,2014,(14):114-115,131.3 李楠.基于Web数据挖掘的网络信息安全防范分析J.九江学院学报(自然科学版),2013,28(3):57-58,112.4 李勇,李建,曾银等.数
41、据挖掘技术在入侵检测系统中的应用J.山西电子技术,2006,(6):36-38.5 吕晓军,吴辰曦.基于数据挖掘的网络信息安全策略探讨J.网友世界云教育,2014,(17):21-21.6 刘峥.论数据挖掘技术在网络信息安全管理中的应用J.中国高新技术企业,2007,(7):109,116.7 陶然.数据挖掘技术在网络信息安全中的应用J.长沙通信职业技术学院学报,2007,6(3):30-34.8 江武汉.基于数据挖掘的分布式入侵检测系统的研究D.电子科技大学,2006.9 幺志宏.基于军用网络信息安全的入侵检测系统模型D.广西大学,2007.10 赵芳.以数据挖掘为基础的入侵检测技术分析J.数字化用户,2014,(1):55-55.11 覃晓,元昌安,龙珑等.基于数据挖掘的入侵检测技术J.计算机安全,2009,(11):16-19.12 朱琳.基于数据挖掘的入侵检测的研究D.兰州理工大学,2012.13 赵衍.基于网络数据挖掘的信息安全监控体系J.上海管理科学,2010,(4):52-55.14 武瑞娟.基于数据挖掘的入侵检测系统的研究D.中北大学,2008.15 林萍.基于数据挖掘的入侵检测系统研究与实现D.昆明理工大学,2004