基于Res-CAN的Tor网站指纹识别模型.pdf

资源描述

1、中国人民公安大学学报(自然科学版)2023 年第 2 期 No.2 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 116 期 Sum116基于 Res-CAN 的 Tor 网站指纹识别模型王曦锐,摇芦天亮,摇杨摇成,摇于兴崭(中国人民公安大学信息网络安全学院,北京摇 100038)摘摇要摇网站指纹识别技术通过分析流量特征判断用户访问的网站站点,能够有效监管 TOR 匿名网络的用户行为。现有的识别方法通常需要大规模的数据样本以获得高的识别准确率,且普遍存在概念

2、漂移问题。针对以上问题,本文提出一种基于残差和协作对抗网络(Residual network and Collaborative and Adversarial Network,Res-CAN)的网站指纹识别模型。该模型使用残差网络(Residual network)作为特征提取器以减少网络的优化难度。同时,将协作对抗网络(Collaborative and Adversarial Network,CAN)应用于网站指纹识别问题,使得特征提取器同时学习领域相关和领域无关特征,实现源域与目标域的特征空间对齐。实验结果表明,本文提出的方法在小样本环境下网站指纹识别准确率达到 91郾 2%,优于现有

3、的利用对抗领域自适应网络(Domain鄄Adversarial Neural Networks,DANN)迁移学习方法,且抗概念漂移能力较高。关键词摇网站指纹;匿名网络;残差网络;领域自适应;迁移学习中图分类号摇 D918郾 91文献标志码摇 A收稿日期摇2023鄄01鄄20基金项目摇北京市社会科学基金(21JCC108);中国人民公安大学 2022 年基本科研业务费项目(2022JKF02022)。作者简介摇王曦锐(1998),男,江苏徐州人,在读硕士研究生。主要研究方向为网络信息安全、网络攻防。通讯作者摇芦天亮(1985),男,博士,副教授。E鄄mail:lutianliang Res鄄

4、CAN Based Tor Website Fingerprinting Identification ModelWANG Xirui,摇 LU Tianliang,摇 YANG Cheng,摇 YU Xingzhan(School of Information and Cyber Security,People蒺s Public Security University of China,Beijing 100038,China)Abstract:Website fingerprint identification technology can effectively supervise th

5、e user behavior of Toranonymous network by analyzing traffic characteristics to determine the websites visited by users.Currentrecognition methods usually need large鄄scale data samples to obtain high recognition accuracy,and thereis a widespread problem of concept drift.In view of the above problems

6、,a website fingerprint identifica鄄tion model is proposed based on residual network and Collaborative and Adversarial Network.Residualnetwork is used as feature extractor to reduce the difficulty of network optimization.At the same time,thecollaborative and adversarial network is applied to website f

7、ingerprint identification,so that domain in鄄formative and domain uninformative features can be learned by the feature extractor,realizing the featurespace alignment of source domain and target domain.The experimental results show that the accuracy forwebsite fingerprint identification of the method

8、proposed in this paper can reach 91郾 2%in a small sampleenvironment,which is better than the current transfer learning methods using domain鄄adversarial neuralnetworks.Furthermore,the ability to resist concept drift is high.Key words:website fingerprint;anonymous network;residual network;domain adapt

9、ation;transferlearning67王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型0摇引言TOR(The Onion Router)网络作为目前应用最为广泛的匿名通信系统,为用户提供网络通信身份的匿名性和通信内容的隐私性、完整性服务1。不法分子利用匿名通信系统的特性隐匿其犯罪活动2,在暗网(Dark Web)平台中充斥着信息泄露、网络赌博、军火贩卖等违法犯罪活动,严重威胁国家网络安全和社会治安。为了有效打击和监管暗网犯罪而提出的网络指纹识别方法,其本质是识别者进行有效部署从而

10、被动监听用户流量,分析流量特征判断用户访问的站点。现有的网站指纹识别模型存在以下问题:(1)为获得较高的实验准确率,实验模型需要大规模训练数据,一方面导致模型的训练效率较低;另一方面,在真实部署情况下,监听收集的流量数据无法短时间内满足大样本要求。(2)模型的灵活性较差,普遍存在概念漂移问题3,即目标变量的统计特性随着时间的推移以不可预见的方式变化,训练良好的模型使用一段时间后收集的数据测试,模型准确率显著下降。鉴于以上问题,从模型的性能和实用性出发,本文提出基于残差和协作对抗网络的网站指纹识别模型,主要贡献如下:(1)特征学习方面,模型使用残差结构的卷积神经网络作为特征提取器,在简化优化问题

11、的同时解决因神经网络层数过深导致的训练错误问题。(2)把基于领域自适应思想的协作对抗网络4用于网站指纹识别。该网络利用特征提取器同时学习领域相关和领域无关特征,在实现源域与目标域特征空间对齐的同时,保留目标域的特征信息,使得模型能够在少量样本的环境下获得较高的识别准确率。(3)通过多个数据集的实验,证明 Res-CAN 模型在小样本环境下准确率最高可达 91郾 2%,模型灵活性好的同时其抗概念漂移能力也较高。1摇相关工作网站指纹识别5技术通常将嗅探设备部署在客户端和 TOR 匿名通信系统入口代理链路上,收集用户流量,通过分析流量数据包的时序、大小等特征,利用机器学习等方法完成分类任务。目前,

12、网站指纹识别分别在两种场景下评估,在封闭世界(close鄄world)场景下,TOR 用户仅访问受监管网站,识别者判断用户访问的网站种类,属于多分类任务。在开放世界(open鄄world)场景下,TOR 用户可以访问除受监管网站之外的其他网站,识别者判断其是否访问受监管网站,属于二分类任务。网站指纹识别方法由 Hintz5首先提出,通过分析加密报文大小和方向判断用户访问的网页,证实了网站指纹识别的有效性;Liberatore 等6最早提出了基于朴素贝叶斯的识别模型;Panchenko 等7提出 CUMUL 方法,该方法利用数据包累加特征,使用基于径向基(RBF)内核的支持向量机对 100 个网

13、站进行识别,准确率达到 90%;Hayes 等8使用随机决策森林方法,基于特征重要性选择数据包数量等特征,实验得到与 CUMUL 方法相似的准确率,同时其研究了对 TOR 的包填充等防御手段的识别。机器学习的方法依赖手工特征的处理和选择,随着混淆技术的发展,手工特征的稳定性逐渐丧失而导致模型的性能下降。深度学习方法因利用神经网络的非线性变换自动提取原始数据中的抽象特征,拥有更为强大的学习能力而被广泛运用到网站指纹识别研究中。Rim鄄mer 等9利用堆叠降噪自编码器(Stacked DenoisedAutoencoder,SDAE)、卷积神经网络(ConvolutionalNeural Netw

14、ork,CNN)和长短期记忆网络(LongShort鄄Term Memory,LSTM)进行网站识别,证明深度学习方法较之传统机器学习方法更为灵活有效;Sirinam 等10提出 DF(Deep Fingerprinting)方法,利用 CNN 对 WTF-PAD 和 Walkie-Talkie 防御方案进行识别,对 WTF-PA 防御的识别准确率达到90郾 7%;马陈城等11利用 CNN 对 TOR 的 brust 级别特征进行提取和分析,在概念漂移、绕过防御机制等方面有较好的表现;Rahman 等12结合数据包方向和时间构建新的突发级(Brust-Level

15、)特征。以上深度学习方法通过改进模型和特征处理方法增加了指纹识别的准确率13。Attarian 等14提出基于流处理算法的自适应在线网站指纹识别方法来解决概念漂移问题;Sirinam 等15提出 TF(TripletFingerprinting)方案,利用 N鄄shot 学习和迁移学习思想,使用小样本训练三重网络,在训练数据和测试数据分布不同的情况下,依然能获得 87%的准确率。为解决概念漂移问题提供新思路,Wang 等16提出AF(Adaptive Fingerprinting)方案,将对抗领域自适应网络 DANN 应用于网站指纹识别,相较于 TF 方77王曦锐等:基于 Res-CAN 的

16、Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型案,在小样本环境下模型表现更好。传统的网站指纹识别通过训练大规模的样本数据获得高准确率,导致模型的训练开销大,训练效率低。同时,模型的灵活性不足,普遍存在概念漂移问题。有学者利用 N鄄shot 学习和迁移学习思想使用少量样本训练获得较高准确率,但此类方法识别准确率相较于传统的识别方法仍然较低,针对此问题,本文在现有研究基础上做出如下改进:一是,特征提取过程中使用残差结构的卷积神经网络替换简单的前馈网络,减少了网络的优化难度。二是,将协作对抗网络 CAN 应用到网站指纹识别中,补充

17、了现有研究中忽略的相关性特征,利用特征提取器同时学习领域相关特征和领域无关特征,实现源域与目标域的特征空间对齐。最终提升了模型的泛化性,使得模型在小样本的环境下识别准确率进一步提升,且有效解决概念漂移问题。图 1摇基于 Res-CAN 的 Tor 网站指纹识别模型2摇基于 RES-CAN 的 TOR 网站指纹识别模型在海量数据样本的支撑下,机器学习尤其是深度学习算法在计算机视觉等领域得到广泛应用并取得较大成功17,但在现实应用中带标签数据收集耗时且代价昂贵。领域自适应方法通过训练大量带标签的,与目标域数据不同但是相关的源域数据训练模型,并将其应用于目标域,解决了真实环境中目标域带标签数据量

18、稀少的问题。网站指纹攻击领域普遍存在概念漂移问题,随着时间的推移,因网页内容更新、链路状态变化等原因导致同样的目标变量的数据分布产生了变化,致使攻击模型的准确率下降。本文所使用的领域自适应方法属于异构域适应方法,即源域和目标域具有不同的特征空间或标签空间,将所有源域数据视为有标签数据,目标域数据包含少量有标签数据和无标签数据。2郾 1摇基于 Res-CAN 的网站指纹识别流程基于 Res-CAN 的网站指纹识别流程包括 3 个阶段。根据域不同将数据划分为源域数据和目标域数据,根据识别阶段不同,将目标域数据划分为目标域训练数据和目标域测试数据。如图 1 所示,在预训练阶段,将源域和目标域训练数

19、据输入 Res-CAN 网络,使用残差结构的卷积神经网络作为特征提取器提取数据特征,直接将输入信息传送至输出位置,保留了原始特征的信息完整性,得以缓解在深度神经网络中增加深度带来的梯度消失问题。利用 CAN 网络中的领域判别器优化特征提取器,使得特征提取器抽取领域不变性特征18和领域相关性特征,将源域和目标域数据映射到同一特征空间的同时保留目标域的特征信息,利用标签分类器对源域数据进行分类任务优化特征提87王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型取器学习目标域特征的能力。将训练好的特

20、征提取器应用到训练及测试阶段。在训练阶段,将目标域训练数据输入特征提取器,目的是优化 KNN 分类器参数,提高最终的识别准确率。最终在测试阶段使用目标域测试数据进行最终的目标域分类任务,评价识别模型的性能。2郾 2摇网站指纹识别场景本文假设的网站指纹识别场景如图 2 所示,用户通过 TOR 路由器访问目标网站服务器,数据包的网络协议是 TOR 的专用协议,用户与服务器之间的通信加密。识别者在客户端和入口节点间被动监听网络流量,无法解密数据包的有效载荷信息,其目标是通过分析加密数据包的大小和方向等特征判断用户访问的网站。在此场景中,假定识别者不知道通信密钥,采集流量的过程中不添加或丢失数据包。

21、用户每一次只访问一个网站,而不是同时点击多个网站,从而保证噪声流量尽可能的小。该场景与其他网站指纹识别研究一致19。图 2摇网站指纹识别场景摇每一个网站实例仅保留数据包的方向特征,用+1 表示通向网站服务器的数据包,用-1 表示源自网站服务器的数据包,网站实例 X 可表示为:X=+1,-1,+1(1)通过对实例进行截取和填充操作使其长度相等,若序列长度超过 5 000 则截断,反之进行零字节填充操作,最终作为神经网络的输入,在之前的大量研究中都采用该方法作为特征数据集9。2郾 3摇 Res-CAN 模型2郾 3郾 1摇协作对抗网络 CANCAN 网络由特征提取器、标签分类器以及领域判别器组

22、成。其中,特征提取器由 m 个特征提取块组成。在每个块后面放置一个域判别器,目的是使得特征提取器在网络低层的块中学习领域的相关性特征。因为低层的特征提取角落和边缘有效信息,这些信息有助于最终的标签分类。在网络高层的块中利用对抗思想学习领域的无关性特征,目的是将不同分布的目标域与源域数据映射到同一特征空间20,并通过在特征提取块和域判别器之间连接梯度反转层(Gradient Reversal Layer,GRL)实现。CAN网络结构和传播过程如图 3 所示,其中 F1、F2和 Fm是特征提取块,D1、D2和 Dm是领域判别器,C 是标签分类器,LC为标签分类损失值,LD为领域判别损失值。图 3摇

23、 CAN 网络结构摇在 CAN 网络中,通常用 Ds=(xsi,ysi)|Nsi=1表示源域数据,其中 xsi表示第 i 个源域数据,ysi表示其对应的标签,Ns表示源域数据数量。用 Dt=xti|Nti=1表示目标域数据,其中 xti表示第 i 个目标域数据,Nt表示目标域数据数量。CAN 网络的损失值包含领域判别损失值和标签分类损失值,其中领域判别损失值包含领域相关性特征学习和领域无关性特征学习两个部分。我们用 F 表示一个特征提取块之前的特征表示,用 f 表示经过该特征提取块后的特征表示,即用 f=F(x;兹)表示 f 为 F 的输出,其中兹为特征提取块参数。为了

24、学习领域相关性或无关性特征,在特征提取块后放一个领域判别器 D:f寅0,1,其损失值可表示为:LD(兹,w)=1N移Ni=1LD(D(F(xi;兹);w),di)(2)其中 w 为领域判别器 D 的参数,N 表示训练数据总量,di=0,1表示领域标签集合,di=0 表示为源域数据,di=1 表示为目标域数据,LD为分类交叉熵损失。假设在特征提取器中包含 m 个特征提取块,在每个块后添加领域判别器,为每个判别器引入参数姿k(k=1,m),用 W=w1,wm表示所有领域判别器的参数集合,其中 wk表示第 k 个领域判别器的参数,用专F=兹1,兹m表示所有网络参数的集合,其中兹k表示包括第 k

25、个特征提取97王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型块及其之前的网络的参数。整体域判别的优化目标可表示为:min专F,姿LCAN=移m-1k=1姿kminwkLD(兹k,wk)+姿mminwmLD(兹m,wm),s.t.移m-1k=1姿k=姿0,|姿k|臆姿0(3)其中姿k(k=1,m-1)在反向传播过程中自动优化,姿0和姿m是超参数。当姿k逸0 时,特征提取块倾向于学习域的相关性特征从而使判别器更好区分源域和目标域特征。当姿k0 时,特征提取快倾向于学习域的无关性特征,

26、利用梯度反转层 GRL 混淆判别器,使其不易区分源域和目标域特征,实现域特征空间对齐。在整体特征提取器后放一个标签分类器 C:f寅寛yi,用源域数据进行训练,其损失值可表示为:Lsrc=1Ns移Nsi=1LC(C(F(xsi;专F);c),ysi)(4)其中 c 是分类器 C 的参数,LC是分类交叉熵损失。CAN 网络的最终优化目标可表示为:min专F,c,姿k沂撰L=Lrc+LCAN(5)其中撰=姿k移m-1k=1姿k=姿0,|姿k|臆姿0,k=1,m-1。2郾 3郾 2摇残差结构提取块本文的 CAN 网络特征提取器由 4 个特征提取块组成,每个块由残差结构卷积神经网络组成,如图4 所示

27、,其中 x 为网络输入,F(x)为经过第一层卷积层的输出,elu 为激活函数。图 4摇残差块结构摇残差块结构通过加入捷径连接,将原始的目标优化函数 H(x)转换为F(x)+x,后者的优化难度更小,解决了深层网络性能下降的退化问题21。其输出可表示为:滓(F(x)+x)=滓(W2滓(W1x)+x)(6)2郾 4摇 K 近邻算法如果在 Res-CAN 网络中直接加入目标域分类器,使用少量的带标签目标域可能无法训练得到较好的结果,因此在训练阶段,将 RES-CAN 网络的特征提取器抽取出来,并连接相对来说在小样本环境下更容易训练的传统机器学习算法 K 近邻(K鄄Nea鄄rest Neighbor,

28、KNN)分类器,通过计算数据之间的余弦相似度进行最终的目标域数据分类任务。3摇实验结果与分析Res-CAN 模型参数如表 1 所示,其中特征提取器包含 4 个特征提取块,每个特征提取块包含 2 个残差块结构,每个残差块结构包含 2 个卷积层,4 个特征提取块中的一维卷积神经网络卷积核个数分别为 32、64、128 和 256,通过全连接层输出至领域判别器和标签分类器,二者结构相同,都由 1 个卷积层和 2 个全连接层组成。表 1摇 Res-CAN 模型参数模块网络层参数特征提取器卷积层卷积核个数 32/64/128/256卷积核尺寸 8激活函数 relu全连接层输出尺寸 1*512领域判别器

29、卷积层卷积核个数 128卷积核尺寸 4激活函数 tanh全连接层输出尺寸 1*512全连接层输出尺寸 1*1标签分类器卷积层卷积核个数 128卷积核尺寸 4激活函数 tanh全连接层输出尺寸 1*512全连接层输出尺寸 1*1003郾 1摇数据集为了评估本文提出的模型的识别效果以及模型的灵活性和抗概念漂移能力,本文采用 Wang data鄄set22、AWF dataset9、DF dataset10和 AF data鄄set16。每个数据集都包括受监管网站数据集和非监管网站数据集,分别用于封闭世界评估和开放世界评估。不同的数据集在不同的设置和时间下收集,意味着 4 个数据集拥有不同的数据特

30、征空间和08王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型标签空间,具体设置如表 2 所示。表 2摇数据集设置数据集采集设置来源Wang dataset 2013,Tor Browser 3郾 5自定义敏感网站(封闭世界)Alexa top(开放世界)AWF dataset 2016,Tor Browser 6郾 5Alexa topDF dataset2016,Tor Browser 6郾 XAlexa topAF dataset2020,Tor Browser 9郾 0Alexa t

31、op摇摇实验用到的每个数据集中网站实例具体数量如表 3 所示。此外,在概念漂移实验中用到 AWF200,AWF200_3d,AWF200_10d,AWF 200_4w,AWF 200_6w 和 AWF_8w。AWF200 包括 200 类网站,每类包含 2 500 个实例。另外 5 个数据集分别在 AWF200训练后的 3 天、10 天、4 周、6 周和 8 周后重新收集。表 3摇实验数据集构成数据集网站数量/个实例数量/个Wang datasetWang10010090AWF datasetAWF1001002500DF datasetDF95951 000AF datasetAF10

32、0100250AF90009 00013郾 2摇评估指标在封闭世界场景下,使用准确率 Accuracy 评估模型的多分类性能,计算公式可表示为:Accuracy=1N移si=1TPi(7)其中,N 表示实例总数,s 表示类别数量,TPi表示第i 类网站被正确分类的实例个数。在开放世界场景下,实验使用精确率 Precision和召回率 Recall 评估模型的二分类性能,计算公式可分别表示为:Precision=TPTP+FP(8)Recall=TPTP+FN(9)其中,TP 表示被监控网站被正确分类的实例个数,FP 表示非监控网站误分类为被监控网站的实例个数,FN 表示为被监控网站误分类为非

33、监控网站的实例个数。3郾 3摇实验设置实验采取 N鄄shot 学习思想,在预训练阶段,源域数据每类网站选取 25 个实例,目标域训练数据每类网站选取 1、5、10、15、20 个实例,将源域数据和目标域数据输入 Res-CAN 网络训练特征提取器。在训练阶段采取与预训练相同的目标域训练数据从而优化 KNN 分类器参数。测试阶段,目标域测试数据每类网站选取 70 个实例。在封闭世界和开放世界环境下,本文使用现有的迁移学习模型 TF15和AF16进行对比实验,其中 TF 使用小样本数据训练三重网络,AF 将对抗领域自适应网络 DANN 用于特征提取。在概念漂移实验中和 Rimmer9的 SDAE

34、模型、CNN 模型、LSTM 模型以及传统机器学习模型CUMUL6模型做对比。3郾 3郾 1摇超参数姿0和姿m对模型准确率的影响在 CAN 网络中使用超参数姿0和姿m来控制领域判别器参数姿k(k=1,m-1)的变化范围,本节实验选取 AWF100 作为源域数据集,Wang100 作为目标域数据集,其中目标域训练数据每类网站选取 20 个实例,选取姿0在0郾 1,0郾 2,0郾 3,0郾 4,0郾 5,0郾 6 范围,姿m在 -0郾 1,-0郾 3,-0郾 5,-0郾 7,-0郾 9范围。实验结果如表 4 所示,当姿0取 0郾 2 0郾 4,姿m取 0郾 7 或 0郾 9 时,模

35、型准确率趋于稳定在90%以上。此时姿k的值在低层的判别器上为正数,而在高层判别器上为负数,表明特征提取器在低层时趋向于学习目标域的相关性特征而在高层趋向于学习目标域的无关性特征。表 4摇不同姿0和姿m对模型准确率的影响姿0姿m-0郾 1-0郾 3-0郾 5-0郾 7-0郾 90郾 187郾 387郾 188郾 390郾 189郾 60郾 286郾 588郾 389郾 590郾 390郾 60郾 386郾 787郾 590郾 791郾 191郾 20郾 484郾 486郾 689郾 891郾 090郾 70郾 585郾 187郾 288郾 989郾 790郾 40郾 681郾 985郾

36、587郾 490郾 589郾 73郾 3郾 2摇源域数据数量对模型准确率的影响本节实验选取 AWF100 作为源域数据集,Wang100 作为目标域数据集,其中目标域训练数据每类网站选取 1、10、20 个实例,探讨源域数据每类网站选取实例个数对模型准确率的影响。分别选取每类网站 15,25,50,75,100 和 125 个实例。如表 5所示,在目标域训练数据相同的情况下,仅选取 25个实例能够以较小的模型训练代价得到获得较高的准确率。18王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬

37、詬詬网站指纹识别模型表 5摇源域数据数量对模型准确率的影响目标域实例数量/个源域实例数量/个15255075100125135郾 034郾 734郾 935郾 134郾 735郾 01084郾 985郾 285郾 084郾 785郾 385郾 22091郾 191郾 290郾 991郾 090郾 791郾 23郾 3郾 3摇特征提取器对比为探讨不同特征提取器对模型识别准确率影响,本节实验选取 AWF100 作为源域数据集,Wang100 作为目标域数据集,其中目标域训练数据每类网站选取 1、5、10、15、20 个实例,源域数据每类网站选取每类网站 25 个实例,特征

38、提取器选择网站指纹识别中常用的 CNN 模型 DF9作为对比。实验结果如表 6 所示,Res-CAN 模型在识别准确率上优于 DF-CAN 模型。表 6摇不同特征提取器对模型准确率的影响模型目标域实例数量/个15101520DF-CAN33郾 870郾 283郾 787郾 590郾 3Res-CAN34郾 774郾 885郾 288郾 391郾 23郾 3郾 4摇封闭世界实验在封闭世界环境下,将 Res-CAN 模型与 TF 模型和 AF 模型进行对比实验。实验采用相同的源域数据集 AWF100,不同的目标域数据集 Wang100、DF95 和 AF100,在目标域训练数据每类网站选取1、

39、5、10、15、20 个实例的情况下,对模型准确率进行评估。实验结果如图 5、图 6 和图 7 所示,在每类网站选取 1 个实例的情况下,TF 模型的准确率表现最好。在其他情况下,本文提出的 Res-CAN 模型准确率均高于其余两种模型,并且在选取 5 和 10 个实例的环境下性能表现差距最大。实验表明,以上模型在封闭世界环境下准确率优于现有迁移学习方法,在小样本的数据量训练下,模型的泛化能力更强。3郾 3郾 5摇概念漂移实验本实验在封闭世界环境下进行,选取 AWF100作为源域数据集,AWF200 作为目标域数据集。AWF200_3d、WF200_10d、AWF 200_4w、AWF 20

40、0_6w 和 AWF_8w 作为测试集进行对比实验,目标域训练数据每类网站选取 20 个实例,测试集中选取每类网站选取 70 个实例作为带标签数据调整模型参图 5摇源域 AWF100 目标域 Wang100 模型准确率对比摇图 6摇源域 AWF100 目标域 DF95 模型准确率对比摇图 7摇源域 AWF100 目标域 AF100 模型准确率对比摇数。实验结果如图 8 所示,随着时间的增加,所有的模型准确率均有所下降,但 Res-CAN 模型能够在小样本的环境下保持较慢的准确率下降速度,验证了 Res-CAN 能够有效缓解概念漂移问题。而在实际部署问题中,Res-CAN 模型能够用较小的

41、训练代价缓解该问题,这样就有更为充分的时间为收集准备新数据做新的训练。3郾 3郾 6摇开放世界实验在开放世界实验中,我们选取 2 个目标域数据集,分别是受监管数据集和非监管数据集。在预训练阶段使用源域数据集和受监管目标域数据集,在训练阶段使用两个目标域数据集,将非监管网站视作一类加入至标签空间中。实验采取 AWF100 作为源域数据集,AF100 和 AF9000 作为目标域数据集,其中非监管网站选取 2 000 个实例作为目标域训练28王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型图

42、8摇概念漂移实验准确率对比摇集。实验结果如图 9 所示,结果表明,在小样本训练条件下,Res-CAN 模型在开放世界环境下指标值均高于其他两种迁移学习模型,精确率可达 97郾 2%,召回率可达 96郾 9%。与 AF 相比,本文实验模型的两种指标值均提升 3%,这表明 Res-CAN 网络在低层的特征中所提取的领域相关性特征有利于不同流量的特征分化,而 AF 模型忽略了这一点。但与 DF等使用大量数据训练的传统的机器学习或深度学习的模型相比,小样本训练限制下的 Res-CAN 模型准确率仍较低。图 9摇开放世界对比实验摇4摇结论本文使用残差网络作为特征提取器以减少网络的优化难度。同时,将

43、协作对抗网络应用于网站指纹识别问题,使得特征提取器同时学习领域相关和领域无关特征,实现源域与目标域的特征空间对齐。最后,利用 KNN 机器学习算法完成最终的分类任务。通过多项实验证明了 Res-CAN 模型在小样本训练条件下的性能优势,并能有效解决概念漂移问题。在现实环境中 TOR 网络的环境更为复杂,存在多标签网页访问等问题,因此下一步将研究在存在噪声流量的真实环境下用小样本进一步提高模型的性能表现,最终实现真实环境中 Tor 流量的高效识别。参考文献1摇赵娜,苏金树,赵宝康,等.匿名通信系统隐藏服务定位技术研究综述J.计算机学报,2022,45(2):393-411.2摇王曦锐,芦天亮

44、,张建岭,等.基于加权 Stacking 集成学习的 Tor 匿名流量识别方法J.信息网络安全,2021,21(12):118-125.3摇 JUAREZ M,AFROZ S,ACAR G,et al.A critical evalua鄄tion of website fingerprinting attacksC椅Proceedings ofthe 2014 ACM SIGSAC Conference on Computer andCommunications Security,2014:263-274.4摇 ZHANG W C,OUYANG W L,LI W,et al.Collabora

45、tiveand adversarial network for unsupervised domain adapta鄄tionC椅Proceedings of the IEEE Conference on Com鄄puter Vision and Pattern Recognition,2018:3801-3809.5摇 HINTZ A.Fingerprinting websites using traffic analysisC 椅 International Workshop on Privacy EnhancingTechnologies,2002:171-178.6摇 LIBERATO

46、RE M,LEVINE B N.Inferring the source ofencrypted HTTP connections C 椅 Proceedings of the13th ACM Conference on Computer and CommunicationsSecurity,2006:255-263.7摇 PANCHENKO A,LANZE F,PENNEKAMP J,et al.Web鄄site fingerprinting at internet scaleC椅The Network andDistributed System Security Symposium,201

47、6.8摇 HAYES J,DANEZIS G.K鄄fingerprinting:A robust scala鄄ble website fingerprinting techniqueC椅25th USENIXSecurity Symposium,2016:1187-1203.9摇 RIMMER V,PREUVENEERS D,JUAREZ M,et al.Au鄄tomated website fingerprinting through deep learningJ.ArXiv,2017.10摇 SIRINAM P,IMANI M,JUAREZ M,et al.Deep finger鄄prin

48、ting:Undermining website fingerprinting defenseswith deep learningC椅Proceedings of the 2018 ACMSIGSAC Conference on Computer and CommunicationsSecurity,2018:1928-1943.11摇马陈城,杜学绘,曹利峰,等.基于深度神经网络burst 特征分析的网站指纹攻击方法J.计算机研究与发展,2020,57(4):746-766.12摇 RAHMAN M S,SIRINAM P,MATHEWS N,et al.Tik鄄Tok:the utili

49、ty of packet timing in website fingerprintingattacksJ.Proceedings on Privacy Enhancing Technolo鄄gies,2020,3:5-24.13摇席荣康,蔡满春,芦天亮,等.基于自注意力机制和时空特征的 TOR 网站流量分析模型J.计算机应用,2022,42(10):3084-3090.38王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型14摇 ATTARIAN R,ABDI L,HASHEMI S.Ad

50、aWFPA:A鄄daptive online website fingerprinting attack for tor anony鄄mous network:A stream鄄wise paradigmJ.ComputerCommunications,2019,148:74-85.15摇 SIRINAM P,MATHEWS N,RAHMAN M S,et al.Trip鄄let fingerprinting:More practical and portable websitefingerprinting with n鄄shot learningC椅Proceedings ofthe 201

展开阅读全文