收藏 分销(赏)

基于生成对抗网络的IPv6地址存活性预测.pdf

上传人:自信****多点 文档编号:640046 上传时间:2024-01-22 格式:PDF 页数:6 大小:3.17MB
下载 相关 举报
基于生成对抗网络的IPv6地址存活性预测.pdf_第1页
第1页 / 共6页
基于生成对抗网络的IPv6地址存活性预测.pdf_第2页
第2页 / 共6页
基于生成对抗网络的IPv6地址存活性预测.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第49 卷第4期2023年8 月文章编号:16 7 3-5196(2 0 2 3)0 4-0 10 2-0 6基于生成对抗网络的IPv6 地址存活性预测陈勇群*1.2,陈玉成12,胡华淼1-2,戴佳浩1.2,康濛允”,王巍1,2(1.通信信息控制和安全技术重点实验室,浙江嘉兴3 140 3 3;2 中国电子科技集团公司第三十六研究所,浙江嘉兴3 140 3 3;3.沈阳理工大学信息科学与工程学院,辽宁沈阳110 159)摘要:为了解决IPv6海量地址空间难以全谱探测的问题,基于IPv6地址命中列表机制和IPv6单播地址结构,通过公开来源获取了多种渠道的IPv6地址,然后进行采集、清洗和入库,构

2、建了IPv6原始地址集,研究了地址集中稳定与不稳定段之间的依赖关系,提出了一种基于生成对抗网络的IPv6地址存活性预测模型.考虑到IPv6地址各位之间的离散性,设计了确定性二项神经元和随机二项神经元,并采用Sigmoid调整直通估计子来解决二项神经元反向传播计算复杂度过高的问题.在特定AS域中对IPv6地址集进行训练,得到的生成器作为IPv6地址存活性预测模型,生成了地址命中列表.实验分析结果和互联网探测结果表明,所提模型能有效生成新的IPv6地址,并在实际探测中得到ICMPv6响应的概率比顺序或随机全面扫描高;另外,不同网段的探测存活率相差很大,分布区间为061%.关键词:IPv6地址;生成

3、对抗网络;命中列表中图分类号:TP393.04文献标志码:AIPv6 address alive prediction based on generative adversarial networkCHEN Yong-qun-2,CHEN Yu-chengl-2,HU Hua-miaol-2,DAI Jia-haol.2(1.Science and Technology on Communication Information Security Control Laboratory,Jiaxing 314033,China;2.China Electronic Corpo-ration No.

4、36 Institute,Jiaxing 314033,China;3.School of Information Science and Engineering,Shenyang Ligong University,Shenyang110159,China)Abstract:It is difficult to detect the whole IPv6 deployment because of the massive address space.Basedon the IPv6 unicast address structure,hitlist mechanism is adopted

5、to solve this problem.First,the IPv6addresses from public ipv6 address data sources are collected,cleaned and stored in the database accordingto structure of the original IPv6 address set.After that,the dependency between the stable and unstablesegments of the address set is studied.An IPv6 address

6、survivability prediction model based on the genera-tion adversarial network are proposed.By considering the discrete nature of IPv6 addresses structure,de-terministic binomial neurons and random binomial neurons are designed,and Sigmoid is used to adjust thepass-through estimator to solve the proble

7、m of high computational complexity of the back propagation ofbinomial neurons.The IPv6 address set is trained in each specific AS domain,and the obtained generatoris used as an IPv6 address survivability prediction model to generate an IPv6 address hitlist.Experimentalanalysis results and internet p

8、robe results show that the proposed model can effectively generate new IPv6addresses,and the probability of getting an ICMPv6 response in actual detection is higher than that of se-quential or random scans.The survival rates have great difference from 0 to 61%.Key words:IPv6 address;generative adver

9、sarial network;hitlist兰州理工大学学报Journal of Lanzhou University of TechnologyKANG Ying-yun,WANG Weil.?Vol.49No.4Aug.2023近年来,随着软硬件的进步,使得整个IPv4地收稿日期:2 0 2 1-10-3 1基金项目:国家自然科学基金(U20B2050)通讯作者:陈勇群(198 7-),男,浙江金华人,博士,高级工程师.Email:址空间可以在短短几分钟内轻松完成扫描1-2 1,然而,扫描整个IPv6互联网的范围是不可行的,因为其地址空间是12 8 位,相比于IPv4的40 亿个3 2 位

10、第4期地址空间,IPv6采用12 8 位地址空间,提供3 40 1036个地址,规模远远超过技术上可以发送或存储的数量3 .IPv4和IPv6地址空间均由互联网名称与数字地址分配机构ICANN的互联网号码分配局IANA4负责分配,并将IP地址段授权分配给五个地区互联网注册管理机构RIR,地区互联网注册管理机构再分配给本地互联网注册管理机构(LIR).大多数LIR是互联网服务提供商、企业或学术机构,如图1 所示。IPv6地址空间/3/12/32/48/56AllocationPAAssignment图1全球IPv6单播地址分配和指派Fig.1 Global IPv6 unicast addres

11、s allocation and assignment为了解决IPv6网络空间进行顺序或随机全面扫描不可行的问题,现在的IPv6 扫描技术采用了所谓的命中列表机制,即通过收集已经发现存活的IPv6地址,通过统计学习方法发现IPv6地址集的分布规律,构建统计模型,最终生成新的IPv6地址,即命中列表,然后进行实际探测,从而提高探测的有效率。尽管RFC7707列举了一些IPv6命中列表生成的方法,但随着IPv6安全特性的增强,一些方法已经并不适用.SBA研究院Ullrich等5 开发的递归算法以一组种子地址和一个阈值N作为输人,并确定IPv6地址范围内除N位以外的所有值.但该算法需要一个用户指定的

12、地址范围开始,且至少有一个位被确定.Foremski 等6-7 引人了熵/IP算法,这是一种在一组IPv6地址中发现数据结构的算法.熵/IP算法标识相邻的半字节(nybble),其值在各个地址上具有相似的值,并将它们组合成分段.对于每个段,它将段值按照几个指标进行分组,并利用贝叶斯网络对不同分段值之间的统计相关性进行建模.最后,这个学习的统计模型可以用于生成目标地址.该算法适用于地址结构明显的网段,但对于地址随机化程度较高的网段,由于分段不明显导致段数过多,贝叶斯网络计算复杂度过高.陈勇群等:基于生成对抗网络的IPv6地址存活性预测IANARIRLIR/48End UserPI Assignm

13、ent103Murdock等8 I提出6 Gen算法寻找IPv6地址的密集区域.6 Gen算法本质是对种子地址集不断进行聚类.算法将一组种子地址初始化为一系列只包含单个地址的簇(cluster),然后对于每个簇,算法都从不属于该簇的地址中筛选出与该簇汉明距离最小的地址构成备选地址集.当一个簇加人新的地址后,该簇的地址范围和地址密度就可能发生变化.在每次迭代过程中,6 Gen只会使现有一个簇发生变化,选择标准是簇在加入相应备选地址集的某个地址后得到的地址密度最大.当所有簇覆盖的地址数总和超过给定的探测地址数量,算法结束运行.该算法在地址发现上表现良好,但由于需要把地址集聚类和计算汉明距离,导致计

14、算复杂度高,计算速度慢。同时,关于地址前缀的预测算法,左志昊等 提出了基于熵、聚类算法和关联分析改进算法的IPv6地址前缀预测算法,可对任意给定IPv6地址前缀集进行解析与预测.该算法主要分为三部分,分别是构造活跃IP熵结构、聚类建模和改进的关联规则学习算法.首先,通过对活跃IPv6地址构造熵结构,将无序程度相近的半字节位划分为同一段内;然后,通过聚类建模进一步发现段内规律;最后,通过改进基于关联规则学习的分层树状算法得到不同段之间的关联性,并以此预测活跃IPv6地址前缀.Liu等10 1基于密度反馈模型提出了生成算法6Tree,这个算法的基本思想就是在整个地址生成的过程当中采取反馈的机制,生

15、成一部分IPv6地址后,马上进行探测,探测完之后对算法提供一个反馈,核心的思想就是进行在线的反馈;在这之前需要构造一个IPv6地址空间树,把树的叶子节点加入到优先队列里面,扫描的时候,每次取出一个叶子节点,在叶子节点内部生成IPv6地址,然后去扫描IPv6的地址,优先扫描命中率比较高的节点.同时扫描完之后可以继续更新这个地址空间树,并更新优先队列.这就保证了IPv6地址空间里面,密度比较高的部分,会被优先扫描到.但随着叶子节点数的增多,需要的内存呈指数增长.以上研究主要是以统计学习方法为主研究IPv6地址的预测算法,本文尝试从深度学习角度探索新的预测算法,以解决复杂地址集(如接口ID随机化程度

16、比较高的地址集)的地址生成问题.另外,上述研究的目标是提高预测算法的准确率,但很少有针对LIR或终端用户进行逐个分析,从而对LIR或终端用户得到大致的IPv6部署情况.本文从这两方面进行研究,主要工作如下:1)广泛采集来自各种公开来源数据的IPv6地.104址数据,并对数据根据地址分配结构,进行清洗人库等分析处理.通过对全球IPv6资产数据进行获取和人库,构建IPv6原始地址集.2)根据IPv6地址这种数据结构,设计了二项神经元的生成对抗网络,二项神经元层作为生成器的最后一层,直接吐出0 1比特,从而实现端到端的深度学习.来源alexalmumbrellastatvooRapid?慕尼黑大学慕

17、尼黑大学RIPEbitnodes根据反向DNS解析(rDNS)技术,找到3 个DNS数据源来寻找服务器的IPv6地址,获得了大约8 0 0 k的地址.收集并处理Rapid7公司sonar项目通过fDNS技术采集并公开的数据源,获得约10 0M地址.另外收集同行项目慕尼黑大学主、被动探测收集到的IPv6地址集约3 5M.地区互联网注册管理机构RIPE收集的地址约2 0 0 k,比特币网络收集到2 7 k地址.1IPv6地址结构单播地址前缀顶层汇聚ID保留下一层汇聚ID图2IPv6地址结构Fig.2IPv6 address structureABCDEFGHI1.00.8一0.60.40.20兰州

18、理工大学学报3)仿真结果表明,所提模型能有效生成新的IPv6地址,并在实际探测中得到ICMPv6响应的概率比顺序或随机全面扫描高.1IPv6 原始数据集在本研究中,共收集到大约13 6 MIPv6单播地址,来源、获取的技术方式和数据量如表1所列.表1IPv6原始数据集Tab.1 The original IPv6 Address set来源网址http:/ 一个典型子集的IPv6地址焰分析Fig.3 Representative entropy analysis result of an IPv6 address subspace第49卷技术方式数据量rDNS260krDNS330krDNS2

19、07kfDNS100Mmisc33 Mscan2.5Mmisc200k比特币网络27k2数据分析根据地址分配机构的分配策略,可以将IPv6地址分解成如图2 所示的常见结构.首先,根据各RIR的分配记录5 将原始数据集中的地址进行划分,然后对地址结构进行分析.一个典型子集(它包含2 4k个IPv6地址)的分析结果如图3 所示.1324RESNLA4864IPv6地址位/bits1282464SLAInterface ID站点汇聚ID接口(主机)IDJK1.1焰(每半字节nybble)8096112128第4期由图3 可以看出,这些地址是由一个1/40 前缀组成.相邻的具有相似熵值的“半字节”被虚

20、线垂直线划分开并标记为AK.C 段是由LIR分配给终端用户的,该数据集中LIR分配了一些终端用户,但相对而言,终端用户数量不多.DG 字段为SLA地址,存在两种分配方式,一些终端用户偏向于使用SLA的低地址段,而一些终端用户则偏向于使用高地址段,中地址段则较少使用.在接口ID方面,从HJ段可以看见,该子集中较多的使用SLAAC进行地址配置,各半字节的分布较为平均.而K段表明部分主机地址配置偏向于使用低地址段,其IPv6地址可能由手动或DHCP进行配置.3生成对抗网络模型构建3.1生成对抗网络简述生成对抗网络的基本结果如图4所示,生成器和判别器是生成对抗网络的两个组成模块.生成器根据给定的噪声输

21、人,输出生成数据;判别器判断生成器生成的数据和真实样本数据的来源.二者通过博奔,各自权值参数根据损失函数进行调整,生成器模型不断调整权值参数,从而生成尽可能让判别器当作真实样本数据的生成数据;判别器不断调整权值参数,从而分辨输入的数据来自真实的样本数据,还是生成器生成的数据.最终,生成对抗网络会达到博奔的纳什均衡状态,使得生成器生成数据分布趋同于原始数据集中的数据,但又不完全一致.此时使用生成器即可生成原始数据集中没有但高度相似的数据.原始数据集00000随机变量Fig.4 Generative adversarial network modelGAN的目标函数如下式所示:minmaxV(D,

22、G)=ErPa(c)log D()+GDEP,(e)log(1-D(G(z)其中:D表示判别器模型;G表示生成器模型;表示真实的样本数据;表示输入生成模型G的随机噪声变量;G(z)表示通过G网络生成的模拟数据;D()表示D判断是真实样本数据的概率;D(G(z)是D将G生成的数据判断为真实样本数据的概率。陈勇群等:基于生成对抗网络的IPv6地址存活性预测3.2二项神经元考虑到IPv6 地址的离散特性,本文设计了二项神经元作为生成器的输出层.二项神经元是输出值为0 或1的神经元,通过二项神经元能直接输出128位的IPv6地址.考虑了两种二项神经元,即确定性二项神经元(DBN)和随机性二项神经元(S

23、BN).确定性二项神经元是具有硬阈值作为其激活函数:DBN()=(c()一 0.5)其中:()为阶跃函数;o()为 Sigmoid函数.随机二项神经元(SBN)则使用伯努利采样作为其激活函数,根据概率将实值输入进行二值化,定义为SBN()=()-),U o,1其中:U0,1为均匀分布.传统深度学习中的估计子不能有效地将二次神经元的损失梯度进行反向传播,原因是对于DBN,阈值函数是不可微分的;而对于SBN,它需要计算二项神经元所取值的所有可能组合上取平均的期望梯度,其计算复杂度过高.于是通过采用Sigmoid调整直通估计子解决上述问题,即通过硬阈值函数(如果自变量为正,则为1,否则为0)进行反射

24、传播.虽然这是一个有偏的估计量,但是当考虑单层神经元时,它具有正确的正负值反馈4实验4.1生成对抗网络设计本文中设计的生成对抗网络如图5所示,使用Tensorflow2.0实现.生成器由两个全连接层构成,真实输入层为服从均匀分布的噪声向量,经过全连接层样本真判别器损失O生成伪生成器样本图4生成对抗网络模型105(2)(3)(FC)后,进行 Batch Normalization(BN),激活函数采用LeakyReLU,在输出层中使用了随机二项神经元生成IPv6地址.判别器也由两个全连接层构成,最后一个全连接层只有一个神经元,用于判断真伪.损失函数使用Sigmoid_cross_entropy,

25、优化器使用Adam4.2实验结果分析分别对划分好的地址子集进行训练,通过生成器生成10 0 0 0 个IPv6地址,然后去掉重复的地址,(1)部分生成结果如表2 所列.为了验证生成对抗网络产生的IPv6地址的有效性,首先分析生成IPv6地址集与原始地址集的数据分布.在这里随机选取了一个地址段2 0 0 1:19f0:/3 2,如图6 和图7 所示.图6 为原始数据集中的数据分布,图7 为生成数据集中的数据分布.可以看到,两者的数据分布呈现高度的一致性,但也有106兰州理工大学学报第49卷随机变量O生成256BNFCLReLU128FCBNSBNIPv6地址真伪生成IPv6地址地址空间2001:

26、0200:/232001:0400:/232001:0600:/232001:0800:/232001:0a00:/232001:1200:/232001:1400:/232001:2000:/202a00:/122001:4a00:/232001:4c00:/232001:4200:/232001:4400:/232001:4600:/232001:4800:/232001:5000:/202400:/122610:0000:/232620:0000:/23A1.00.80.60.40.201632 48 648096112128IPv6地址位/bits图6原始数据集中2 0 0 1:19f

27、0:/3 2 地址段的分布Fig.6The distribution of 2001:19f0:/32 segment inoriginal data set128FCTab.2The survival rates of generated IPv6 address原有地址数存活地址数(基数10 万)70.7559606123.96599935 0526.513 14613.879981749922095573739837868599.40020458884619.352262146792540776.7851015889024880219047107391283945122819722141

28、11334365346089.7892.93634.79126416364337123282951897295992106摘(A-13.3Fig.7The distribution of generated IPv6 address set256LReLUFC图5生成对抗网络结构设计Fig.5The structure design of GAN表2IPv6生成地址探测成功率生成新地址数1.00.80.60.40.201632 48 64 8096112128IPv6地址位/bits图7 生成数据地址段的分布1LReLUFC存活率/%1360.14812423.18856761.73110.0

29、13870.521910.191 0081.143.46313.212396231.211.7982.02575412.21640.081170.126541.9657256.382230.6413 32330.721370.1458936.40A焰(H,-14.7)第4期一定的差异,比如在3 2 3 6 和4448 比特段,生成数据的熵值明显高于原始数据集,说明生成对抗网络认为在这些段中可能出现更多的子网.而在接口ID方面,图6 表明原始数据集的低地址段已经有很高的熵值,图7 中的该地址段也具有较高的熵值.另外,图7 中8 8 10 0 比特段的熵值明显高于图6,该结果表明,生成对抗网络认为

30、可以往中间地址段探索新的存活地址。利用CAIDA 的Scamper工具1I 将生成的IPv6地址进行互联网探测,探测结果如表2 所列.首先需要说明的是,由于网络安全防护,探测结果并不能说明主机是否存活的真实情况.例如,通过Ping扫描得不到响应,大概率是主机不存活,但也有可能是主机禁用了ICMP响应,也有可能是网关、防火墙等网络设备禁用了.另一方面,得到ICMP响应也并不意味着主机一定存活,例如对一些云服务提供商的IPv6网段的任何地址进行Ping扫描,总是能得到ICMP响应.所以,互联网探测的结果并不具有很强的说服力.如何进行精准的IPv6地址空间探测是未来需要研究的一个方向.但是,从表2

31、仍旧可以发现,互联网的探测存活率和网段之间存在高度的依赖性,其生成地址的探测存活率可以在0 6 1%浮动,可以得出一个比较明显的结论:IPv6地址空间的地址分布很不均匀,各地区、各运营商的IPv6的部署情况差异很大.有些IPv6地址空间虽然被申请分配了,但实际使用很少,这表现为原始地址集中的地址数量很少,同时探测准确率也很低.也有些地址空间原始地址集中数量很多,但是探测准确率很少,这可能表明该地址空间主要用于客户端网络,如家庭宽带.运营商可能会在网关处默认关闭ICMP响应,从而主动探测无法得到结果。5结论本文基于IPv6地址命中列表机制和IPv6单播地址结构,采集了公开来源中的IPv6地址,并

32、进行采集、清洗、人库和按LIR分类,构建了IPv6原始地址集,研究了地址集中稳定与不稳定段之间的依赖关系,提出了一种基于生成对抗网络的IPv6地址陈勇群等:基于生成对抗网络的IPv6地址存活性预测107.存活性预测模型,设计了确定性二项神经元和随机二项神经元,并采用Sigmoid调整直通估计子来解决二项神经元反向传播计算复杂度过高的问题.在特定AS域中对IPv6地址集进行训练,得到的生成器作为IPv6地址存活性预测模型,生成地址命中列表.实验分析结果和互联网探测结果表明,所提模型能有效生成新的IPv6地址,并在实际探测中得到ICMPv6响应的概率比顺序或随机全面扫描高,生成地址的探测存活率可以

33、在0 6 1%浮动,其原因主要为各地区、各运营商的IPv6部署情况不一。参考文献:1GRAHAM R.MASSCAN:Mass IP port scanner CP/OL.2021-10-24.https:/ D,DURUMERIC Z,SINGH G,et al.ZMap:inter-net-wide scanning at 10 Gbps R.San Diego:USENIX Asso-ciation,2014.3HINDEN R.IP version 6 addressing architecture:RFC 4291S.Reston:The Internet Society,2006.

34、4IANA,Internet protocol version 6 address space EB/OL.(2019-09-13)2021-10-24.https:/www.iana.org/assign-ments/ipv6-address-space/ipv6-address-space.xhtml.5ULLRICH J,KIESEBERG P,KROMBHOLZ K,et al.On re-connaissance with IPv6:a pattern-based scanning approachR.Toulouse:IEEE,2015.6GASSER O,SCHEITLE Q,F

35、OREMSKI P,et al.Clusters inthe expanse:understanding and unbiasing IPv6 hitlists R.Boston:Association for Computing Machinery,2018.7FOREMSKI P,PLONKA D,BERGER A.Entropy/IP:uncove-ring structure in IPv6 addresses RJ.California:Associationfor Computing Machinery,2016.81MURDOCK A,LI F,BRAMSEN P,et al.T

36、arget generationfor internet-wide IPv6 scanning R.London:Association forComputing Machinery,2017.9左志昊,马严,张沛,等.活跃IPv6地址前缀的预测算法J.通信学报,2 0 18.3 9(Z1):1-8.101LIU Z,XIONG Y,LIU X,et al.6Tree:efficient dynamic dis-covery of active addresses in the IPv6 address space J.Com-puter Networks,2019,155:31-46.11LUCKIE M.Scamper:a scalable and extensible packet proberfor active measurement of the internet R.Melbourne:Asso-ciation for Computing Machinery,2010.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服