1、机器学习中,多个分类器的组合称为集成分类器,此方法优于单个分类器。特定数据集找到合适的集成配置仍然是非常困难。基于这个问题,提出 权重优化的方法,使用粒子群算法生成的权重,进而生成更加准确的分类器集合。然后局部单峰采样方法作为元优化器,查找粒子群算法更好的行为参数。集成学习的分类器由该方法和加权多数投票共同决定的。实验结果表明,该检测模型生成的分类器在分类准确率方面更优。关键词:入侵检测;权重优化;集成学习中图分类号:犜 犘 文献标识码:犃 引言近年来,网络安全已经成为一个非常重要的问题,关系到人们生活的方方面面网络安全的第一道防线,防火墙已是最普遍的防护方式但是随着攻击技术不断迭代和攻击工具
2、的复杂多变,现有的防火墙方式已经无法满足网络安全的需求因此,网络的防护需要一种更加有效的、更加多样的方式现如今,集成学习已经得到很好的研究,并且大量用于提高一些分类任务的准确率现在,已有的集成方法包括平均合成器、中位数合成器、最大合成器、多数投票和加权多数投票()由于其概念简单、直观和在实践中的有效性,是迄今为止最受欢迎的图入侵检测模型本文提出基于 权重优化的入侵检测模型该模型先训练个 和个 弱分类的分类器然后,使用粒子群算法、元优化粒子群算法和加权多数算法()方法的集成学习模型这些模型综合 个分类器的意见,得出最后的决定最后,实验证明该模型在攻击检测的准确性和误报率等方面更优 入侵检测模型本
3、文提出基于 权重优化的入侵检测模型,其模型如图所示其中,该入侵检测模型包括数据预处理和攻击检测个部分 数据预处理 数据集是入侵检测中最常用的数据集,常用于评价入侵检测算法的性能但是如今,研究人员已经证实最简单的机器学习算法在训练集上已经能达到 的检测正确率,并且在测试集上的第 卷 第期 年月河 北 建 筑 工 程 学 院 学 报犑 犗 犝 犚 犖 犃 犔犗 犉犎 犈 犅 犈 犐犐 犖 犛 犜 犐 犜 犝 犜 犈犗 犉犃 犚 犆 犎 犐 犜 犈 犆 犜 犝 犚 犈犃 犖 犇犆 犐 犞 犐 犔犈 犖 犌 犐 犖 犈 犈 犚 犐 犖 犌犞 狅 犾 犖 狅 犑 狌 狀 准确率也能达到 大量实验证明了
4、数据集存在以下两个缺陷:一是训练集中存在大量的重复数据,导致分类算法容易过拟合;二是测试集中的大部分数据与训练集中数据重复,使得在算法比较时,说服力不足本文使用的数据集是 数据集,该数据集完美解决这两个缺点 数据集中的每条数据都具有 条特征,其中包括网络协议、目标主机的网络服务类型和数据流量等特征这些特征有字符型和数字型,但机器学习只能处理数字型,因此 数据集需要进行数值标准化和数值归一化的处理 攻击检测本文提出一种 权重优化的入侵检测模型通过权重模型生成分类器的权值,得出最后的决定 集成学习集成学习可以将不同类型的单一机器学习算法组合,通过利用组合的策略,对不同的算法进行层次划分,然后在不同
5、的层次中进行训练,最后整合所有的单一模型的效果,提高预测的能力因此,集成学习算法能在很多方面都能得到很好的应用 集成学习框架的基本原理如图所示,在图中,该框架划分为两个结构第一层中的模型被称为弱分类器,这里的弱分类器需要对训练集进行训练,然后将结果输出到第二层学习器,得到最终的输出图 模型原理 集成学习中,训练集样本进入到模型以后,首先进行随机划分,然后输入到不同的分类器中进行建模分类器在建模后传递预测结果至第二层分类器中,而元分类器则通过输入信号估计最后的结果在整理结果的时候,主要使用对元分类器的学习能力加以优化,从而增强了模型的返回能力和扩充能力,并且通过尝试使用不同的元分类器,也可以得到
6、不同的学习效果由于不同的算法具有不同的置信度因此,需要构建一个能平衡个别分类器在特定数据集上的弱分类器,为此引入加权的概念加权多数投票的定义为:狔犪 狉 犵 犿 犪 狓犿犼犼犡犃(犆犼(狓)犻)()式中:犼为权值,狔与犆犼(狓)是集成学习器预测标签 权重优化()局部单峰采样局部单峰采样()方法也用于元优化器,以便于从 找到更好的参数单峰函数是指有一个峰的函数,它可定义为:第期臧世伟 等基于 权重优化的入侵检测技术研究定义:设犳(狓)是定义在犪,犫 上的函数,若:存在狓犪,犫 使犿 犻 狀狓(犪,犫)犳(狓)犳(狓)对任意的犪狓狓犫,当狓狓时,犳(狓)犳(狓);当狓狓时,犳(狓)犳(狓)则称犳(
7、狓)为犪,犫 上的单峰函数()粒子群优化算法粒子群算法是一种常用机器学习参数优化的方法其粒子将速度和位置作为评价指标其流程如下:首先,初始化粒子的速度和位置,并在搜索空间中搜寻到每个粒子局部最优解,将其记为局部极值;然后局部极值共享给整个粒子群里的其他粒子,经与其他粒子对比,找到最优的局部极值,作为当前全局最优解;最后所有粒子根据当前局部最优解和整个粒子群共享的当前全局最优解来动态地调整速度和位置基于 权重优化算法原理如图所示图基于 权重优化算法原理 权重优化的基本流程如下所示:设犿个初始学习的网络数据特征样本集狊(狓,狔),(狓,狔),(狓犿,狔犿),其中狓犿为一向量,是网络数据特征训练样本
8、犱,犱,犱犿,狔犿为对于入侵检测问题的分类结果,各个样本初始权重均设置为犿,设置 算法最大迭代次数为犜,并初始化当前迭代次狋 针对犿个训练集,利用算法对分类器的连接权重值进行优化选择,得到最优的弱分类器权值 利用优化后的分类器对犿个训练集分别进行训练,获得第狋次的权重集,狋 记录本次权重集,狋,根据 得到的入侵检测模型对犿个训练集的预测误差绝对值和小于设定值,或达到最大迭代次数,算法结束,跳出迭代进入 ;否则进入 根据入侵检测模型对犿个训练集的预测误差绝对值和,更新犿个训练的权重犱,犱,犱犿,生成新的样本,返回 ,进行迭代 得到最终的预测模型权重集,狋 实验结果及分析 实验环境为了验证算法的有
9、效性,按照本文提出的 加权优化算法进行计算机仿真实验,实验平台为 ,硬件内存为 ,操作系统为 实验评估混淆矩阵多用于评价分类结果的优劣,其定义如表:河 北 建 筑 工 程 学 院 学 报第 卷表混淆矩阵 其评估指标的计算公式如下:准确率:犃 犮 犮 狌 狉 犪 犮 狔犜 犘犜犖犜 犘犜犖犉 犘犉犖()精确率:犘 狉 犲 犮 犻 狊 犻 狅 狀犜 犘犜 犘犉 犘()召回率:犚 犲 犮 犪 犾 犾犜 犘犜 犘犉犖()特异度:犛 狆 犲 犮 犻 犳 犻 犮 犻 狋 狔犜犖犜犖犉 犘()本文选用准确率作为评价入侵检测模型的指标,从不同的角度对 权重优化模型性能进行评估 实验结果分析首先,这里选用比较热
10、门的 、和这种机器学习算法,其对应分类准确率参见表内容加权多数投票()是集成学习中最常见的一种加权机制,其对应分类准确率如表所示但是选择合适的权值影响集成学习的精确度由此,本文提出基于 权值优化的模型 权重优化模型结合集成学习方法,经过处理过后的数据,进而构建模型本文将 、和算法套入入侵检测模型,并且定义 和 两个融合分类器的集成学习,其对应分类准确率参见表内容由表可知,和算法在 、和 样本的分类准确率方面优势略显明显表结果可以观察到,相对于表的中机器学习算法,权重优化的集成学习有较明显的提升对比表,本文提出基于 权重优化的模型确实提升了分类的准确率表种分类器的分类准确率结果分类器 表权重多数
11、投票的分类准确率结果分类器 表 的分类准确率结果分类器准确率 结论本文提出一种基于 权重优化的方法该方法使用粒子群算法和加权多数算法,选出适合第期臧世伟 等基于 权重优化的入侵检测技术研究的最优权重集,并且综合已训练的集成学习器,得出最后的决定针对网络中入侵行为攻击强隐蔽、变化快和随机性高的特点,该方法优于其他集成学习算法但是本文只使用一种数据集,不具备更强的说服力总的来说,该方法在网络安全检测中具有良好的有效性和优越性参考文献 唐朝飞,努尔布力,艾壮基于 的网络入侵检测研究计算机应用与软件,():,:申瑞彩,翟俊海,侯璎真选择性集成学习多判别器生成对抗网络计算机科学与探索,():丁龙斌随机森
12、林入侵检测算法研究兰州交通大学,王加梁基于属性分类建模的入侵检测方法计算机工程与设计,():王荣明基于机器学习的入侵检测算法设计与实现四川:电子科技大学,沈焱萍,伍淳华,罗捷,等基于元优化的入侵检测模型北京工业大学学报,():谭敏生,杨帅创,丁琳,等结合随机森林的 入侵检测研究计算机应用与软件,():王荣明基于机器学习的入侵检测算法设计与实现四川:电子科技大学,曾昊基于集成学习的网络入侵检测研究广东:广东工业大学,犚 犲 狊 犲 犪 狉 犮 犺狅 狀犐 狀 狋 狉 狌 狊 犻 狅 狀犇 犲 狋 犲 犮 狋 犻 狅 狀犜 犲 犮 犺 狀 狅 犾 狅 犵 狔犅 犪 狊 犲 犱狅 狀犔 犝 犛 犘 犛 犗狑 犲 犻 犵 犺 狋 狅 狆 狋 犻 犿 犻 狕 犪 狋 犻 狅 狀犣 犃 犖 犌犛 犺 犻 狑 犲 犻,犌 犃 犗犔 犻 狋 犻 狀 犵,犎 犝 犃 犖 犌犜 犪 狅,犢 犐 犖犡 犻 狀 狓 犻 狀(,)犃 犫 狊 狋 狉 犪 犮 狋:,犓 犲 狔狑 狅 狉 犱 狊:;河 北 建 筑 工 程 学 院 学 报第 卷