1、第4 5卷 第3期华北理工大学学报(自然科学版)V o l.4 5 N o.32 0 2 3年0 7月J o u r n a l o fN o r t hC h i n aU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y(N a t u r a lS c i e n c eE d i t i o n)J u l.2 0 2 3 收稿日期:2 0 2 2-1 2-1 2 修回日期:2 0 2 3-0 6-1 0基金项目:国家自然科学基金项目(U 2 0 A 2 0 1 7 9)。第一作者:马征,男,研究生硕士,C C F会员(
2、D 3 4 6 3M)研究方向:网络安全、攻击检测。通讯作者:陈学斌,男,博士,教授、硕士生导师,C C F杰出会员,研究方向:大数据安全、物联网安全、网络安全等;E-m a i l:c h x b q q.c o m.D O I:1 0.3 9 6 9/j.i s s n.2 0 9 5-2 7 1 6.2 0 2 3.0 3.0 1 6文章编号:2 0 9 5-2 7 1 6(2 0 2 3)0 3-0 1 2 5-0 9基于模糊测试和集成学习的X S S攻击检测方法马征1,2,3,陈学斌1,2,3,张国鹏1,2,3(1.华北理工大学 理学院,河北 唐山0 6 3 2 1 0;2.河北省数
3、据科学与应用重点实验室,河北 唐山0 6 3 0 0 0;3.唐山市数据科学重点实验室,河北 唐山0 6 3 0 0 0)关键词:跨站脚本攻击;模糊测试;机器学习;集成学习摘 要:跨站点脚本(X S S)攻击是W e b应用程序中最严重的安全问题之一。针对现有技术在检测未知X S S攻击方面存在效率低、误报率高等问题,文中提出了一种基于模糊测试和集成学习的X S S攻击检测方法。方案的思想是通过模糊测试生成X S S攻击测试用例,利用有监督的集成学习技术在大型标记和平衡数据集上进行训练。采取的集成学习方法主要有随机森林、自适应提升(A d a p t i v eb o o s t i n g,
4、A d a b o o s t)、极端随机树、梯度B o o s t i n g、基于直方图的梯度B o o s t i n g,以支持向量机为基学习器的B a g g i n g。从准确率、召回率等方面评价分类器的检测效果,利用混淆矩阵对集成学习算法性能进行分析和比较,结果显示,集成学习检测方法对X S S攻击都具有较好的检测效果,基于直方图的梯度提升算法和极端随机树算法较优,准确率达到了9 9.8 4%。中图分类号:T P 3 0 9 文献标识码:A引言由开放式W e b应用程序安全项目(OWA S P)1最新发布的十大最关键的W e b应用安全风险中,W e b应用漏洞每年给国民经济造成
5、巨大损失,在X S S攻击中,攻击者可以窃取受害者的会话c o o k i e,进而收集到受害者的敏感数据,在浏览器中实现键盘记录器,从而损害了相关网站的声誉,因此引起了更多企业和组织对W e b应用安全漏洞的关注。随着网络安全知识的不断普及,W e b应用安全成为国内外研究者的研究热点,现有基于过滤器、动态分析、静态分析、机器学习检测、深度学习检测等解决方案。黄文锋2提出了一种采用扩展的巴科斯范式构造X S S语义向量与网络二次爬虫相结合的方法来检测X S S,能够有效的绕过服务器端的过滤,但未制定反爬措施,仅限于开发者自己使用,局限性较大。倪萍等3提出了一种基于模糊测试的漏洞检测系统,通过
6、爬虫技术提取注入点,根据攻击载荷的语法形式构造模糊测试用例,并根据网站响应调整权重,从而生成更加高效的攻击载荷,有效的降低误报率,在有监督学习上取得了较好的检测效果,但并不能单独作为一种检测工具来使用。文献4提出了一种基于多层感知器的模型来检测X S S攻击,他们从内容上提取了基于UR L、基于HTML、基于J a v a S c r i p t的功能,如UR L长度和UR L中的特殊字符,HTML标签、J a v a S c r i p t事件,在检测攻击方面达到了9 9.3 2%的准确性,但不能实时检测到X S S攻击。目前在X S S攻击检测识别上应用比较广泛的典型的机器学习模型有:支持
7、向量机(S u p p o r tV e c t o rM a c h i n e s,S VM)、随机森林(R a n d o mF o r e s t)、朴素贝叶斯等方法。赵澄等5把具有代表性的五维特征向量化,使用S VM进行训练和测试。顾兆军等6通过对比朴素贝叶斯和支持向量机两种方法检测X S S攻击。结果表明,S VM取得了最佳性能,但攻击样本不够丰富,都是基于小数据集。文献7将攻击语句改为UR L格式,将攻击语句划分单词,计算分类中出现的单词频率,通过基于w o r d 2 v e c的模型将单词转换成向量,对向量使用分类算法,结果表明S VM是检测的最佳过滤器,但存在着数据集不平衡
8、问题。文献8开发了随机森林、KNN和S VM模型来检测恶意X S S代码,他们提取了包含恶意J a v a S c r i p t中的一组特殊字符,把恶意J a v a S c r i p t中使用的函数和命令作为行为特征,达到了9 9.7 5的准确度,但涉及的特征过少不能充分表示X S S攻击。文献9提出了一种基于深度的框架来检测恶意J a v a S c r i p t,框架中包含逻辑回归、深度学习方法和稀疏随机投影,他们通过堆叠去噪自动编码器从J a v a S c r i p t代码中提取特征,这些功能用于训练S VM或逻辑回归模型,通过逻辑回归对恶意代码进行分类,模型达到了9 4.9
9、%的精度。丁雪川等1 0 通过L S TM深度学习算法实现自动提取深层次特征,利用w o r d 2 v e c提取样本用向量表示,能达到9 9.5%的准确度,但没有设计可视化的X S S检测平台导致不能直观表示。朱思猛等1 1提出了利用循环神经网络生成恶意攻击样本,设计评分函数加固签名,加固WA F抵御恶意攻击从而降低安全风险、但没有根据WA F的反馈来强化神经网络的学习。针对传统的X S S检测器存在测试用例过于冗余、不平衡数据集等问题,本文提出一种基于模糊测试和集成学习的X S S攻击检测方法,加入里安全向量生成器解决了不平衡数据集问题;通过模糊测试技术检测X S S测试用例,去除了冗余
10、的无效向量进而提升检测效率;最后针对单分类器检测效率低的问题,采用了集成学习方法对X S S攻击进行检测。1方法设计1.1 X S S样本预生成通过X S SF i l t e rE v a s i o nC h e a tS h e e t收集到X S S测试用例作为初始样本,X S SF i l t e rE v a s i o nC h e a tS h e e t是由OWA S P1 2组织发布的X S S过滤备忘单,它记录了包括基于属性、事件、HTML标签、C S S、XML等各种类型的X S S测试用例,同时也包括了X S S测试用例加前缀、字母变换大小写、转编码等各种方式来实现服
11、务器端的绕过。随着网站过滤的机能逐渐强大,部分X S S测试用例在低版本的浏览器能够成功攻击,在高版本的浏览器中会被过滤掉,本文将通过模糊测试1 3的方法对无效的测试用例进行过滤,基于模糊测试和X S S测试集的X S S攻击样本生成的流程如图1所示。图1 X S S攻击样本生成流程621 华北理工大学学报(自然科学版)第4 5卷 模糊测试的步骤如下:(1)输入初始X S S测试集(X S SF i l t e rE v a s i o nC h e a tS h e e t)作为模糊测试的测试用例;(2)模拟攻击方式,将测试用例输入至网站中并执行操作;(3)监测攻击结果,看是否有弹窗显示用来
12、判断是否进行了X S S攻击,若判断攻击成功则保存X S S测试用例,作为X S S攻击样本,若攻击失败则遗弃;(4)不断进行重复(2)、(3)步骤,直至X S S测试集中的测试用例全都检测完毕,算法结束。目标程序D VWA用来检测W e b应用是否安全,初始界面是一个具有留言簿的界面,如图2(a)所示,通过输入X S S测试用例,输入到 m e s s a g e 下,提交后得到新界面,不断输入X S S测试用例,判断浏览器是否弹出弹窗,弹窗如图2(b)所示,若未出现弹窗则证明此X S S测试用例无效,若出现弹窗,则证明此X S S测试用例攻击用例有效,直至模糊测试结束,最终得到预生成的X
13、S S攻击样本X。图2 模糊测试检测X S S测试用例1.2 安全向量生成器生成的安全向量保持在1 2 8个字符之内,其中的类型包括:(1)仅包含大写或小写的字符串;例如:k i k D f u P L a s V p S D q f K LMUT b y D A s s j e d E h p h s O S P U n x O(2)包含所有字母和数字的字符串;例如:B q A o x O r v a o v y d R v 8 Q u QmQ v o A k 6 h U b T a U F x 1 8 a l 7 j Y Z(3)包含所有字母、数字和特殊字符的字符串。例如:!d;p 0 2
14、 L z J,5 h V C q A P X o n V t r QL 9 J B D=8 L c T l-生成的安全向量取决于X S S攻击向量的个数,用来保持X S S和数据集的安全样本之间的平衡,平衡的数据集用于训练和测试模型。安全向量生成器如图3所示:图3 安全向量生成器721 第3期 马征,等:基于模糊测试和集成学习的X S S攻击检测方法1.3 基于集成学习方法的攻击检测模型在集成学习1 4-1 5中,基础模型有3种组合方式。B a g g i n g:在b a g g i n g(b o o t s t r a p聚合)中,弱学习算法适用于小样本数据集,并对所有学习者进行平均预测
15、,装袋将减少差异。B o o s t i n g:它是一种迭代方法,在b o o s t i n g样本权重的基础上根据前面的分类进行调整。S t a c k i n g:一个模型的输出作为另一个模型的输入,基于所使用的模型,堆叠将减少方差或偏差。1.3.1基于随机森林的检测模型随机森林是多重决策树集合的算法,采用决策树作为基学习器,每个决策树都是数据集的一个子集,通过对M个X S S攻击样本集和安全向量样本集中抽取m个特征和样本进行训练,共进行k轮抽取,形成K个学习器,每颗决策树的特征是由对当前决策树分类节点进行部分抽样而不是建立每颗决策树进行抽样,通过决策树算法对X S S攻击样本和安全向
16、量样本进行训练。S k l e a r n的随机森林分类器依据少数服从多数的原则进行投票,采用大部分决策树得到的结果作为分类输出结果,随机森林模型的优点是不需要设置过多超参数,即可判断每个特征与预测标签的相关性,随机森林模型流程如图4所示。图4 随机森林模型1.3.2基于极端随机树的检测模型极端随机树(E x t r e m e l y r a n d o m i z e d t r e e s)是由于随机森林中出现随机有放回的取样导致样本不能被充分利用,从而引起各个基分类决策树之间的相似程度高。它与随机森林分类器相比,只是特征是随机选择的,极端随机树采取对全部数据集进行训练,在某种程度上比随
17、机森林得到的结果更加好,因为该模型在每次分裂或分枝时都会随机选择一个特征子集进行分枝特征选择,而且该模型不需要选择最佳阈值,而是采取随机阈值进行分枝,这种增加的随机性有助于创建更多彼此独立的决策树。1.3.3基于A d a b o o s t的攻击检测模型A d a b o o s t集成学习算法是一种迭代算法,它是提升方法中最为广泛的一种形式,其核心思想是通过加权投票的方式把组合弱分类器起来,产生最终的预测进而构成一个强分类器。它通过对个体分类器有序地训练来进行提升,而且各个分类器地结果是互相关联的,后一个分类器的分类过程会受到前一个分类器的影响,所以每一个分类器的权重不一样,每一次推举迭代
18、(b o o s t i n g i t e r a t i o n)中,数据修改(d a t am o d i f i c a t i o n s)会把权重,分配给每一个训练样本。在迭代开始的时候,所有的样本权重都被设置Wi=1/N,这样第一步迭代就是在原始数据上简单训练一个弱分类器,在后续的迭代步骤中,样本权重会被单独修改,通过增加当前基分类器错分样本、比较难预测样本的权重,使得下一个分类器去关注错分样本和权重较高的难分样本上,从而提高集成分类器的精度,并支持向量机作为基分类器,通过A d a b o o s t集成学习的方法检测X S S攻击向量,A d a B o o s t模型流程如
19、图5所示。821 华北理工大学学报(自然科学版)第4 5卷 图5 A d a B o o s t模型1.3.4基于S VM的B a g g i n g检测模型本文使用S VM算法可以作为基学习器,支持向量机能够高效的实现训练样本和预测样本的结合,简化了分类问题,具有较高的鲁棒性。B a g g i n g方法是采样生成n个训练集,每个训练集生成各个基学习器,n个训练集共得到n个模型,对分类算法预测,依据投票原则把n个弱学习器投票数最多的类或者类之一判定为最终类别,基于S VM的B a g g i n g模型流程如图6所示。图6 B a g g i n g模型1.3.5基于梯度提升树的检测模型梯
20、度提升决策树算法(G r a d i e n tB o o s t i n gD e c i s i o nT r e e,G B D T)是集成学习B o o s t i n g中的一种。该算法通过向前分布式迭代,把迭代中损失函数达到最小作为目标,每次迭代通过沿着负梯度方向调整回归树,逐渐减小残差值,不断对基学习器进行学习和调整对应权重,最终获取一个使得损失函数值达到最小的基学习器。1.3.6基于直方图的梯度提升分类的检测模型通过使用直方图,可以进一步调整树构造算法。把决策树作为HG B C的基分类器,HG B C可以处理缺失值,因此对缺失值(N a N)具有原生支持。在训练过程中,树种植者
21、根据潜在增益在每个分割点学习具有缺失值的样本是应该去左子树节点还是右子树节点。在模型预测时,把缺失值的样本重新分配给左子树节点或右子树节点,更好的处理了缺失值的问题。如果在训练期间未出现相关特征的缺失值,则把相关缺失值的样本映射到具有更多样本的子节点。本文通过直方图梯度提升分类模型来进行建模,并通过网格搜索算法进行模型的调优,促使模型达到最优的效果,有效避免了过拟合。921 第3期 马征,等:基于模糊测试和集成学习的X S S攻击检测方法2实验与结果分析X S S有效载荷比正常有效载荷长度更长,由于其中包含了恶意代码,因此敏感词、敏感字符和有效载荷的长度是识别X S S的重要要素,X S S有
22、效载荷可能会利用重定向链接,将恶意代码隐藏在重定向界面里,通过识别重定向链接来跳转并执行恶意代码,一些协议可能会出现在一个负载中。包含7个维度:UR L的长度,HT T P的个数,特殊关键词,闭合敏感符号,空格字符,大写字母,数字字符,攻击样本作为黑样本达打标为1,安全样本作为白样本,打标记为0。表1 特征名称及说明特征名称特征说明特征名称特征说明UR L的长度用户请求输入的字符数空格字符空格的数量HT T P的个数包含h t t p和h t t p s大写字母包含A-Z 的字符数量特殊关键词包含h t t p和h t t p s数字字符阿拉伯数字0-9的数量闭合敏感符号/*:等字符数量
23、描述了获取X S S特征以及标签后,根据3.2特征选择采用不同的机器学习算法进行模型训练、测试。包含的集成学习模型有决策树、随机森林、支持向量机以及由基本分类器集成的极端随机树、A d a B o o s t、梯度B o o s t i n g、B a g g i n g、直方图的梯度提升等。获取训练好的模型以后,混淆矩阵值用于比较和评估模型。通过使用混淆矩阵可以计算以下值:精确率:P R E=T PT P+F P(1)准确率为分类的准确度,即:A C C=T P+TNT P+TN+F P+FN(2)召回率为预测正的正样本占总正样本的比例,即:R E C=T PT P+FN(3)误报率为预测为
24、正的负样本占总负样本的比例,即:F A L=F PTN+F P(4)F1值是召回率与精确率的一个均和调值,是对召回率与精确率的一个综合评价,即:F1=2*P*RP+R(5)其中,FN是被判定为负样本的正样本的数量;F P是被判定为正样本的负样本的数量;T P是判定为正样本的正样本的数量;TN是判定为负样本的负样本的数量。图7(a)和图7(b)代表了S VM分类器对X S S攻击样本和安全样本的特征分布情况,为了平衡数据集,安全样本的数量保持和攻击样本的数量一样。数据集包含了6 06 7 4个样本,其中是安全向量样本数量为3 03 3 7个,X S S攻击样本的数量为3 03 3 7个。总样本以
25、8:2比例划分为训练样本集(2 42 7 0)和测试样本集(60 6 7)。031 华北理工大学学报(自然科学版)第4 5卷 图7 攻击样本和安全样本的特征分布 以下实验评估了集成学习技术中随机森林分类、极端随机树(E x t r a T r e e s)、A d a B o o s t、以S VM为基学习器的B a g g i n g、梯度提升(G B D T)、和基于直方图的梯度提升模型的X S S检测率。表2是所有模型中混淆矩阵的值,表3比较了所有模型的性能指标,表4比较了所有模型的交叉验证得分以及模型的交叉验证的平均得分。从结果可以得出结论,所有集成方法都表现良好,并且在所有模型中均达
26、到9 8%以上的精度,表现最优的为基于直方图的梯度提升分类模型和极端随机树模型。表2 模型中混淆矩阵模型安全向量(预测)X S S攻击向量(预测)随机森林安全向量(实际)60 5 01 7X S S攻击向量(实际)2 160 4 6A d a b o o s t安全向量(实际)60 4 91 8X S S攻击向量(实际)1 960 4 8B a g g i n g安全向量(实际)60 4 81 9X S S攻击向量(实际)1 860 4 9极端随机树安全向量(实际)60 6 52X S S攻击向量(实际)860 5 9G B D T安全向量(实际)60 4 32 4X S S攻击向量(实际)2
27、 460 4 3HG B C安全向量(实际)60 5 71 0X S S攻击向量(实际)1 460 5 3131 第3期 马征,等:基于模糊测试和集成学习的X S S攻击检测方法表3 性能指标的比较模型召回率安全向量X S S攻击向量精确率安全向量X S S攻击向量F 1安全向量X S S攻击向量误报率安全向量X S S攻击向量随机森林1.0 0 00 00.9 9 590.9 9 69 90.9 9 62 40.9 9 82 30.9 9 79 90.0 0 020.0 0 04A d a b o o s t0.9 9 76 10.9 9 730.9 9 83 20.9 9 85 10.9
28、9 74 60.9 9 72 80.0 0 050.0 0 09B a g g i n g0.9 8 57 70.9 7 71 10.9 9 73 00.9 8 56 50.9 8 15 20.9 8 13 60.0 0 050.0 0 09极端随机树1.0 0 00 00.9 8 13 60.9 8 35 21.0 0 00 00.9 9 13 60.9 9 20 30.0 0 010.0 0 02G B D T0.9 9 53 10.9 9 37 90.9 9 48 00.9 9 65 80.9 9 66 10.9 9 76 00.0 0 040.0 0 05HG B C0.9 9 87
29、60.9 9 76 20.9 9 78 80.9 9 87 50.9 9 83 30.9 9 920.0 0 020.0 0 03表4 交叉验证分数的比较模型二折交叉三折交叉四折交叉五折交叉十折交叉交叉验证平均得分随机森林0.9 9 74 20.9 9 75 30.9 9 75 80.9 9 7 84 60.9 9 77 20.9 9 78 6A d a b o o s t0.9 9 75 40.9 9 78 60.9 9 74 30.9 9 77 20.9 9 84 20.9 8 45 2B a g g i n g0.9 8 59 70.9 8 02 80.9 8 38 40.9 8 46
30、30.9 8 11 60.9 9 83 5极端随机树0.9 9 04 90.9 9 08 80.9 9 06 90.9 9 19 20.9 9 17 50.9 9 77 4G B D T0.9 9 67 40.9 9 58 60.9 9 62 80.9 9 60 90.9 9 63 30.9 9 62 4HG B C0.9 9 85 20.9 9 86 30.9 9 81 10.9 9 83 10.9 9 84 70.9 9 84 33结论为了避免不平衡数据集问题,设计安全向量生成器用来保持X S S和数据集的安全样本之间的平衡;通过模糊测试技术检测X S S测试用例,去除了冗余的无效向量进而
31、提升检测效率;最后使用集成学习方法包括随机森林分类、极端随机树(E x t r a T r e e s)、A d a B o o s t、以S VM为基学习器的B a g g i n g、梯度提升(G B D T)和基于直方图的梯度提升模型检测X S S攻击向量和X S S安全向量,利用混淆矩阵评估这些模型的性能。结果显示所有的集成学习模型在检测X S S攻击和安全向量上都表现出较好性能。在基于直方图的梯度提升分类模型和极端随机树2个模型中,更是达到了最高的0.9 9 84的精度。但是研究仍存在不足之处,仍需要进一步的研究完善,未来将进一步丰富X S S攻击样本集,从而达到覆盖性更强的效果,并
32、尝试扩展到检测其他W e b应用程序攻击(例如S Q L攻击、D D o s攻击)。参考文献:1 OWA S Pa n n o u n c e sn e wT o p1 0f o r c y b e r t h r e a t s.N e t w o r kS e c u r i t y,2 0 2 1.2 0 2 1(9).2 黄文锋,李晓伟,霍占强.基于E B N F和二次爬取策略的X S S漏洞检测技术J.计算机应用研究,2 0 1 9,3 6(0 8):2 4 5 8-2 4 6 3.D O I:1 0.1 9 7 3 4/j.i s s n.1 0 0 1-3 6 9 5.2 0 1
33、 8.0 2.0 1 7 0.3 倪萍,陈伟.基于模糊测试的反射型跨站脚本漏洞检测J.计算机应用,2 0 2 1,4 1(0 9):2 5 9 4-2 6 0 1.4 M o k b a lF,W a n gD,I m r a nA,e t a l.ML P X S S:A n I n t e g r a t e dX S S-B a s e dA t t a c kD e t e c t i o nS c h e m e i nW e bA p p l i c a t i o n sU s i n gM u l t i-l a y e rP e r c e p t r o nT e c h
34、n i q u eJ.I E E EA c c e s s,2 0 1 9,P P(9 9):1-1.5 赵澄,陈君新,姚明海.基于S VM分类器的X S S攻击检测技术J.计算机科学,2 0 1 8,4 5(S 2):3 5 6-3 6 0.6 顾兆军,李志平,张礼哲.基于单分类支持向量机的X S S攻击检测研究J.计算机应用与软件,2 0 2 1,3 8(6):2 9 9-3 0 5.7 A k a i s h i S,U d aR.C l a s s i f i c a t i o no fX S SA t t a c k sb yM a c h i n eL e a r n i n g
35、w i t hF r e q u e n c yo fA p p e a r a n c ea n dC o-o c c u r r e n c eC/2 0 1 95 3 r dA n n u a lC o n f e r e n c eo nI n f o r m a t i o nS c i e n c e sa n dS y s t e m s(C I S S).2 0 1 9.8 K a u rG,M a l i kY,S a m u e lH,e t a l.D e t e c t i n gB l i n dC r o s s-S i t eS c r i p t i n gA
36、t t a c k sU s i n gM a c h i n eL e a r n i n g.2 0 1 8.9 W a n gY,C a iW D,W e iPC.Ad e e p l e a r n i n ga p p r o a c hf o rd e t e c t i n gm a l i c i o u s J a v a S c r i p t c o d eJ.S e c u r i t y&C o mm u n i c a t i o nN e t-w o r k s,2 0 1 6,9(1 1):1 5 2 0-1 5 3 4.1 0 丁雪川,张伟峰,方菽兰,郑黎黎.
37、基于深度学习的跨站脚本攻击检测J.技术与市场,2 0 2 2,2 9(0 3):1 1 2-1 1 3.1 1 朱思猛,杜瑞颖,陈晶,何琨.基于R NN模型的W e b应用防火墙加固方案J/O L.计算机工程:1-92 0 2 2-1 0-0 5.D O I:1 0.1 9 6 7 8/j.i s s n.1 0 0 0-3 4 2 8.0 0 6 3 5 1 8.1 2 N a g a r j u nP,S h a k e e l S.E n s e m b l eM e t h o d s t oD e t e c tX S SA t t a c k sJ.I n t e r n a t
38、i o n a l J o u r n a l o fA d v a n c e dC o m p u t e rS c i e n c e a n dA p p l i-c a t i o n s,2 0 2 0,1 1(5).1 3 M I R J A L I L IS.G e n e t i ca l g o r i t h mM./E v o l u t i o n a r ya l g o r i t h m sa n dn e u r a l n e t w o r k s.S p r i n g e r,C h a m,2 0 1 9:4 3-5 5.231 华北理工大学学报(自
39、然科学版)第4 5卷 1 4 K e a r n sM,V a l i a n tLG.C r y p t o g r a p h i c l i m i t a t i o n s o n l e a r n i n gB o o l e a n f o r m u l a e a n d f i n i t e a u t o m a t aJ.J o u r n a l o f t h eA s s o c i a t i o n f o rC o m p u t i n gM a c h i n e r y,1 9 8 9:4 3 3-4 4 4.1 5 S c h a p i r e
40、RE,F r e u n dY,B a r l e t tP,e t a l.B o o s t i n g t h em a r g i n:An e we x p l a n a t i o n f o r t h e e f f e c t i v e n e s s o f v o t i n gm e t h o d sC/P r o-c e e d i n g so f t h eF o u r t e e n t hI n t e r n a t i o n a lC o n f e r e n c eo nM a c h i n eL e a r n i n g(I CML1
41、9 9 7),N a s h v i l l e,T e n n e s s e e,U S A,J u l y8-1 2,1 9 9 7.1 9 9 7.X S SA t t a c kD e t e c t i o nM e t h o dB a s e do nF u z z yT e s t i n ga n dI n t e g r a t e dL e a r n i n gMAZ h e n g1,2,3,CHE NX u e-b i n1,2,3,Z HANGG u o-p e n g1,2,3(1.C o l l e g eo fS c i e n c e,N o r t h
42、C h i n aU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,T a n g s h a nH e b e i 0 6 3 2 1 0,C h i n a;2.H e b e iK e yL a b o r a t o r yo fD a t aS c i e n c ea n dA p p l i c a t i o n,T a n g s h a nH e b e i 0 6 3 0 0 0,C h i n a;3.T a n g s h a nK e yL a b o r a t o r yo fD a t aS
43、 c i e n c e,T a n g s h a nH e b e i 0 6 3 0 0 0,C h i n a)K e yw o r d s:c r o s ss i t es c r i p t i n ga t t a c k;f u z z yt e s t;m a c h i n e l e a r n i n g;i n t e g r a t e d l e a r n i n gA b s t r a c t:C r o s ss i t es c r i p t i n g(X S S)a t t a c ki so n e o ft h e m o s ts e r
44、i o u ss e c u r i t y p r o b l e m si n W e ba p p l i c a t i o n s.A i m i n ga t t h ep r o b l e m so f l o we f f i c i e n c ya n dh i g hf a l s ea l a r mr a t e i nd e t e c t i n gu n k n o w nX S Sa t t a c k s i ne x i s t i n gt e c h n o l o g i e s,a l t h o u g hm a c h i n e l e a
45、 r n i n ga l g o r i t h m sc a nd e t e c tX S Sa t t a c k se f f i c i e n t l y,t h e r ea r es t i l lp r o b l e m ss u c ha ss i n g l eb a s ec l a s s i f i e r s,s m a l ld a t a s e t sa n du n b a l a n c e dd a t a s e t s.I nt h i sp a p e r,a nX S Sa t t a c kd e t e c t i o nm e t h
46、 o db a s e do nf u z z yt e s t i n ga n di n t e g r a t e dl e a r n i n gw a sp r o p o s e d.T h ei d e ao f t h e s c h e m e i s t og e n e r a t eX S Sa t t a c k t e s t c a s e s t h r o u g h f u z z y t e s t i n g,a n du s e s u p e r v i s e d i n t e g r a t e dl e a r n i n gt e c h
47、n o l o g yt ot r a i no nl a r g e m a r k u pa n db a l a n c e dd a t as e t s.T h ei n t e g r a t e dl e a r n i n g m e t h o d sa d o p t e dm a i n l yi n c l u d er a n d o m f o r e s t,A d a B o o s t,e x t r e m er a n d o m t r e e,g r a d i e n tb o o s t i n g,g r a d i e n tb o o s t
48、 i n gb a s e do nh i s t o g r a m,a n dB a g g i n gb a s e do nS VM.T h ed e t e c t i o ne f f e c t o f t h e c l a s s i f i e r i s e v a l u a t e df r o mt h ea c c u r a c y,r e c a l l,f a l s ea l a r mr a t ea n dF 1v a l u e.T h ep e r f o r m a n c eo ft h ei n t e g r a t e dl e a r
49、n i n ga l g o r i t h mi sa n a l y z e da n dc o m p a r e db yu s i n gt h ec o n f u s i o nm a t r i x.T h er e s u l t ss h o wt h a tt h ei n t e g r a t e dl e a r n i n gd e t e c t i o nm e t h o dh a sb e t t e rd e t e c t i o ne f f e c ta g a i n s tX S Sa t t a c k s.T h eh i s t o g r a mb a s e dg r a d i e n tl i f t i n ga l g o r i t h mh a s t h eb e s t e f f e c t,w i t ht h ea c c u r a c yo f 9 9.7%.331 第3期 马征,等:基于模糊测试和集成学习的X S S攻击检测方法