1、收稿日期:网络出版时间:基金项目:中国科学院青年创新促进会();国家自然科学基金();中国科学院战略性先导科技专项项目(X D C );中国科学院网络测评技术重点实验室和网络安全防护技术北京市重点实验室资助作者简介:赵建军(),男,中国科学院大学博士研究生,E m a i l:z h a o j i a n j u n i i e a c c n汪旭童(),男,中国科学院大学博士研究生,E m a i l:w a n g x u t o n g i i e a c c n崔翔(),男,研究员,E m a i l:c u i x m a i l z g c l a b e d u c n通信作者
2、:刘奇旭(),男,研究员,E m a i l:l i u q i x u i i e a c c n网络出版地址:h t t p s:/k n s c n k i n e t/k c m s/d e t a i l/T N h t m ld o i 敭 j 敭i s s n 敭 敭 敭 基于登录行为分析的失陷邮箱检测技术研究赵 建 军,汪 旭 童,崔翔,刘 奇 旭,(中国科学院 信息工程研究所,北京 ;中国科学院大学 网络空间安全学院,北京 ;中关村实验室,北京 )摘要:发现失陷邮箱在安全运维、溯源取证工作中面临多种困难,例如,所依赖的威胁情报数据不充分、待分析的数据规模庞大、难以向邮箱所有者
3、确认等.针对上述问题,提出了一种仅使用登录日志作为数据源且不依赖任何标记样本的失陷邮箱检测方法.首先,归纳针对邮箱账户的攻击手段,提炼出邮箱失陷模型.其次,基于所提出的邮箱失陷模型,从空间和时间的角度刻画攻击者在入侵邮箱账户时所暴露出的空间相似性和时间同步性.在利用空间相似性检测失陷邮箱时,使用图来描述邮箱之间的空间距离,再将空间距离相近的邮箱划分至同一社区,并根据社区规模来评价邮箱失陷的可能性;在利用时间同步性检测失陷邮箱时,提出一种异常登录行为的描述方法,并通过比较多个邮箱的异常行为是否集中在一定时期内来评价邮箱失陷的可能性.最后,根据失陷可能性输出一个排序的邮箱列表为分析人员提供优先级参
4、考.实验结果表明,所提出的方法能够在降低约 工作量的情况下检测出约 的失陷邮箱,检测效果好于同类研究,且具备发现未知攻击者和未公开恶意I P地址的能力.关键词:失陷邮箱检测;时空分析;网络攻击溯源中图分类号:T N 文献标识码:A文章编号:()D e t e c t i n gc o m p r o m i s e de m a i l a c c o u n t sv i as p a t i o t e m p o r a l l o g i nb e h a v i o ra n a l y s i sZHA OJ i a n j u n WANGX u t o n g C U IX i
5、 a n g L I UQ i x u 敭 I n s t i t u t eo f I n f o r m a t i o nE n g i n e e r i n g C h i n e s eA c a d e m yo fS c i e n c e s B e i j i n g C h i n a 敭 S c h o o l o fC y b e rS e c u r i t y U n i v e r s i t yo fC h i n e s eA c a d e m yo fS c i e n c e s B e i j i n g C h i n a 敭 Z h o n g
6、g u a n c u nL a b o r a t o r y B e i j i n g C h i n a A b s t r a c t C o m p r o m i s e de m a i l a c c o u n t sd e t e c t i o nf a c e sv a r i o u sc h a l l e n g e s i nt h es y s t e ma d m i n i s t r a t i o na n da t t a c kf o r e n s i c s s u c ha st h el a c ko ft h r e a ti n t
7、e l l i g e n c e al a r g ea m o u n to fd a t at ob ea n a l y z e d a n dt h ed i f f i c u l t yw i t hd i r e c tc o n f i r m a t i o n w i t ht h ee m a i lo w n e r s 敭 T oa d d r e s st h ea b o v ep r o b l e m s t h i sp a p e rp r o p o s e sac o m p r o m i s e de m a i la c c o u n t s
8、d e t e c t i o n m e t h o du s i n go n l yl o g i nl o g sw i t h o u tr e l y i n go na n yl a b e l e ds a m p l e s 敭 F i r s t t h i sp a p e r s u mm a r i z e s t h e a t t a c k f e a t u r e s a n dp r o p o s e s a ne m a i l a c c o u n t s c o m p r o m i s em o d e l 敭 S e c o n d b a
9、 s e do nt h ee m a i l a c c o u n t sc o m p r o m i s em o d e l t h i sp a p e r c h a r a c t e r i z e s t h es p a t i a l s i m i l a r i t ya n dt e m p o r a l s y n c h r o n i z a t i o nw h e n i n v a d i n gt h ee m a i l a c c o u n t s 敭 Wh e nu s i n gt h es p a t i a l s i m i l a
10、 r i t yt od e t e c tt h ec o m p r o m i s e de m a i l a c c o u n t s t h i sp a p e ru s e sg r a p h s t oc o n s t r u c t t h e s p a t i a l d i s t a n c e sb e t w e e na c c o u n t s 年月第 卷第期西安电子科技大学学报J OURNA LO FX I D I ANUN I V ER S I TYA u g V o l N o h t t p:/j o u r n a l x i d i a
11、n e d u c n/x d x ba n dt h e n t h ea c c o u n t s w i t has i m i l a rs p a t i a ld i s t a n c ea r eg r o u p e di n t ot h es a m ec o mm u n i t y a n dt h ep o s s i b i l i t yo f a c c o u n t sc o m p r o m i s i n g i se v a l u a t e da c c o r d i n gt o t h e c o mm u n i t ys i z e
12、 敭 W h e nu s i n gt h e t e m p o r a ls y n c h r o n i z a t i o nt od e t e c tt h ec o m p r o m i s e de m a i la c c o u n t s t h i sp a p e rp r o p o s e sa m e t r i ct od e s c r i b et h ea b n o r m a l l o g i nb e h a v i o r sa n de v a l u a t e st h ep o s s i b i l i t yo fc o m
13、p r o m i s eb yc h e c k i n gi fo t h e ra c c o u n t sh a v es i m i l a ra b n o r m a lb e h a v i o r s i nt h e s a m ep e r i o d 敭 F i n a l l y a s o r t e d l i s t o f e m a i l a c c o u n t s i so u t p u t t e d t op r o v i d ep r i o r i t yr e f e r e n c e f o r a n a l y s t s a
14、 c c o r d i n g t o t h ep o s s i b i l i t yo f c o m p r o m i s e 敭 E x p e r i m e n t a l r e s u l t s s h o wt h a t t h em e t h o dp r o p o s e d i n t h i sp a p e r c a nd e t e c t a b o u t o f t h e c o m p r o m i s e de m a i l a c c o u n t sw i t h w o r k l o a dr e d u c e d a
15、 n dt h ed e t e c t i o ne f f e c t i sb e t t e r t h a nt h a t o f t h e s i m i l a r s t u d i e s 敭 A d d i t i o n a l l y t h ed e t e c t i o nm e t h o dc a nd i s c o v e r t h eu n k n o w na t t a c k e r sa n dt h eu n d i s c l o s e dm a l i c i o u s I Pa d d r e s s e s 敭K e yW o
16、 r d s c o m p r o m i s e de m a i l d e t e c t i o n s p a t i o t e m p o r a l a n a l y s i s c y b e ra t t a c ka t t r i b u t i o n 引言电子邮件是现代企业办公环境中必不可少的工具之一.邮件往来能够反映出一个企业的人员结构,邮件内容能够反映出员工的工作内容,这些正是攻击者渴望获取的情报.近年来,高级持续性威胁(A d v a n c e dP e r s i s t e n tT h r e a t,A P T)组织活动日益猖獗,邮箱是其窃取情报
17、、横向移动的首要目标之一.在AT T&C K矩阵中,使用电子邮箱相关技战法的A P T组织共 余个,超过总数的.此外,不断泄露的用户数据也为攻击者提供了大量的邮箱账号和密码.除被公开的数据外,还有更多的数据正在黑市和暗网中被攻击者收集、交换和交易,这就导致大量邮箱处于随时可被攻击者接管的风险之中.攻击者可以通过失陷邮箱来窃取用户甚至企业的工作内容和成果,或者根据人际关系来进行横向移动钓鱼攻击.失陷账号存在时间越长,对企业和组织的危害越大,因此及时发现这类失陷账号尤为重要.目前,学术界关于电子邮件的研究大多集中在垃圾邮件、钓鱼邮件的检测和过滤上 .垃圾邮件、钓鱼邮件检测和失陷邮箱发现是在同一场景
18、下的两个不同方向.垃圾邮件、钓鱼邮件的检测侧重对邮件内容的检测,重点关注实时防御能力;失陷邮箱发现则是侧重对失陷结果的检测,重点支撑损失评估和溯源取证相关工作.文中涉及的研究侧重后者.在失陷邮箱发现的相关研究中,大多数检测方法都是面向具体的一种攻击过程(如鱼叉钓鱼、暴力破解、横向移动等).例如,年,HU等参考社交网络领域相关技术,采用社交关系图拓扑分析的方法,借鉴并改进出度、P a g e r a n k等个指标对邮件往来关系进行评价.基于邮箱收发日志,将邮件往来关系异常的账户判定为失陷账户,该方法的平均准确度约为.年,HO等使用邮件样本、网络日志(HT T P日志)、邮箱登录日志作为分析数据
19、,基于发件人信誉和邮件中统一资源定位系统(U n i f o r m R e s o u r c eL o c a t o r,UR L)的域名信誉对邮件可疑程度进行评价,通过比对HT T P日志,追踪用户访问钓鱼链接并输入账户口令的情况来确认邮箱是否失陷.年,杨加等提出一种面向校园网场景下的失陷邮箱检测方法.该方法分析邮箱登录日志,使用登录频率阈值确定暴力猜解源I P地址,通过对账号和I P地址对应关系的熵值进行聚类,将恶意I P地址归为同一组织.同时,该方法通过对I P地址地理位置变化及异常时间登录次数设定阈值来发现异常登录行为.检测横向移动钓鱼邮件的方法同样能够用来检测失陷邮箱,但前提是
20、攻击者存在发件行为,如果攻击者的目的只是窃取邮件,那么就无法检测到此类失陷邮箱.年,HO等 结合文献 和文献 的方法,使用随机森林来分类邮件是否为横向移动钓鱼邮件.该方法使用组特征:邮件接收人相似性、发件人信誉和UR L信誉.通过分析多个恶意邮件发件人是否存在因果关系来推测攻击是否成功.除邮箱账号外,其他形式的在线网络服务也会面临账号失陷的威胁.社交网络的兴起和不断发展,吸引了大量关注和资金.攻击者对社交网络的非法使用能够为其带来丰厚的利益,如滥发广告、售卖热搜和点赞等.这些获取利益的方式都需要大量账号的支持,因此催生了各种针对社交网络用户账号的攻击,例如恶意注册、账号劫持、暴力猜解等.目前,
21、学术界已经存在有关防御此类攻击的技术研究 ,其思路和方法也能够扩展到失陷邮箱的检测中.第期赵建军等:基于登录行为分析的失陷邮箱检测技术研究h t t p:/j o u r n a l x i d i a n e d u c n/x d x b攻击者在窃取邮件内容或发送横向移动钓鱼邮件时,必然首先通过P O P、I MA P、S MT P或者W e b m a i l等方式登录邮箱,即在失陷邮箱的登录行为中必然存在除邮箱所有者以外的登录行为(可疑登录行为).若可疑登录行为可被提取和比较,则可在多个邮箱之间纵向对比其相似性.当可疑登录行为在多个邮箱账户内出现且相似时,可以依据其共性来发现同一批失陷
22、的邮箱群,并关联到攻击者.因此文中的研究重点是寻找攻击行为共性可能出现的方面,以及如何利用该共性检测失陷邮箱.登录行为的时空分析邮箱的登录日志能够反映出邮箱的登录行为.最基本的,登录日志应包含邮箱地址、登录I P地址和登录时间等.其中I P地址属于空间属性,其相关的特征有归属城市、经纬度等;登录时间属于时间属性.当登录日志的记录时间足够长且信息足够充分时,统计特征会暴露出攻击者在入侵多个失陷邮箱时的共性,将从时间和空间的角度来研究该共性的刻画方法.邮箱失陷模型将邮箱账号作为目标的攻击者主要可分为两类:以窃取信息、投递木马为主要目标的A P T组织和以获取收益为主的互联网黑产.二者在实施攻击时的
23、共同点是:在一定时期内,将某个企业或组织的所有邮箱账户均视为目标.前者以任务为驱动,即在攻击任务开始后一段时间内,以期获得尽可能多的邮箱账号来窃取目标企业或者组织的工作内容和人员架构.后者以数据为驱动,即在其获取新的泄露数据后,立即对邮箱账号和密码进行验证,储备为其攻击资源.基于此类攻击场景,给出邮箱失陷模型,如图所示.在该模型中,多个攻击者可能同时针对同一批目标,且每个攻击者可能使用一个或多个I P地址来实施攻击,因此难以仅通过I P地址来关联攻击行为.为解决这个问题,将登录行为的两个属性(登录地址和登录时间)作为分析和关联对象,即通过分析各邮箱中异常的一个或多个I P地址是否具备地理位置的
24、空间相似性或登录时间的同步性来确定邮箱是否失陷.图邮箱失陷模型 攻击行为的空间相似性攻击者为了防止自己被溯源,几乎不会使用自身所处的网络作为攻击出口.公有的云服务器由于其易于获取、可随时丢弃的特点,成为攻击者首选的攻击设施.此类云服务器以虚拟机的形式在使用时即时创建,在用户弃用时彻底删除,几乎不会留下任何操作痕迹,并且相比于个人终端肉鸡、物联网僵尸节点等具备更好的可操作性和稳定性.目前国内外常见云服务提供商都在常见的大型数据中心(如位于香港、新加坡、东京等地)提供可选节点.对于国内的组织和企业来说,来自这些位置的登录行为是比较可疑的.例外的是,用户自身配置了境外的代理服务器来登录邮箱,但在文中
25、所针对的攻击模型中,这种行为难以造成多个账号的异常具有同步性.笔者采用的空间相似性的判定思路是:假设邮箱i和邮箱j的常用登录位置(可信)接近,且邮箱i和邮箱j的非常用登录位置(可疑)也接近,认为邮箱i和邮箱j具备空间相似性.常用地特征用来将邮箱关联到一个企业或组织,尤其是当日志数据中的邮箱地址是匿名地址时,难以确定哪些邮箱属于同一个企业或组织,这时常用地特征显得更加重要;异常地特征用来将攻击者所使用的一个或多个I P关联到同一个组织.当一批待分析的日志数据中,大量邮箱具备相近的常用地和异常地,即这些邮箱属于同一个企业或组织且均被若干地理位置邻近的I P地址登录过时,满足所述的邮箱失陷模型,这些
26、邮箱存在失陷的可能.西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b 空间相似性指标具体地,从邮箱登录日志中提取某个邮箱账号中登录次数最多的I P地址记作该邮箱的常用I P地址,提取登录次数最少的I P地址记作该邮箱的异常I P地址.通过计算两个邮箱之间常用I P地址地理位置间的距离与异常I P地址地理位置间的距离之和,即可量化此两个邮箱的空间相似性,具体计算为s(i,j)d i s(fi,fj)d i s(ai,aj),()其中,s表示邮箱i和邮箱j的空间相似度计算函数,d i s表示两个I P地址地理位置距离
27、的计算函数,fi和fj分别表示邮箱i和邮箱j中的常用I P地址,ai和aj分别表示邮箱i和邮箱j中的异常I P地址.在计算距离时,可使用I P地址地理位置数据库获取I P地址对应的经纬度,再根据经纬度来计算两个点的地理距离.为使空间相似性指标更加准确,在提取常用地和异常地特征时,选取多个常用I P地址和异常I P地址.在计算时,首先列举邮箱i的常用地I P地址到邮箱j的常用地I P地址的所有可能组合,其次分别计算所有距离并取最小值,对于异常地的计算与之类似.则此时邮箱i和邮箱j的空间相似度可以表示为s(i,j)m i n(d i s(fmi,fnj)d i s(api,aqj),()其中,fm
28、i表示邮箱i的第m个常用I P地址,fnj表示邮箱j的第n个常用I P地址,api表示邮箱i的第p个异常I P地址,aqj表示邮箱j的第q个异常I P地址.空间相似性指标代表了两个账户之间最相近的空间位置关系,该指标越小,此两个账户常用地I P地理位置越接近,且异常登录I P地址地理位置也接近.选择I P地址间的距离而不是直接根据I P地址归属城市来判断空间相似度的原因在于,对于面积较小且较集中的城市群,地理位置邻近的I P地址可能归属于不同的城市,导致无法将其关联到同一类中,造成漏报.此外,经纬度相对城市更加客观,避免了I P信息数据库中因“城市、区县等”定义模糊带来的影响.当若干邮箱两两之
29、间的空间相似度都接近,且该邮箱群体的数量很多时,则可确定此邮箱群存在失陷可能.因此,对失陷邮箱群的检测,可以通过划分具有相近空间相似度的邮箱社区来实现.图构建与社区划分将邮箱账户作为节点,将邮箱间的空间相似度作为节点间边连接的依据,可构建一个图来表示待分析邮箱之间的空间邻近关系.具体地,在构建图时,引入一个阈值来确定两个邮箱之间是否存在一条边的连接.当邮箱i和邮箱j的空间相似性指标小于阈值时,此两个邮箱之间连接一条边,反之则不连接.阈值的确定会影响最终的结果,阈值过大时会引入较多误报,阈值过小则会引起漏报.由于空间相似性指标通过计算两地间的距离得出,因此在设定阈值时需考虑登录地点的偏离范围.根
30、据文献 的统计,国内主要城市的通勤空间半径平均约为 k m,因此设定该阈值为.空间相似度图G的构建过程可以描述为Ga d d_e d g e(i,j)T r u e,s(i,j)t h r e s h o l d,F a l s e,s(i,j)t h r e s h o l d.()图构建完成后,使用L o u v a i n算法对该图进行社区划分.L o u v a i n算法是一种基于聚类的社区划分算法,能够快速有效地辨别有层次的社区结构从而对大型网络进行社区划分,具有快速、准确的特点,被认为是性能最好的网络或图的发现算法之一.与传统的聚类方法(如k m e a n s和基于密度的聚类)
31、相比,社区划分算法可以更灵活地选择和调整距离指标,并可以通过控制节点间边的连接来调节图的规模,以达到更好的聚类效果.异常排名与信誉机制对于邮箱是否确实失陷的问题,只能通过向邮箱所有者亲自确认或者关联威胁情报中的威胁标识(I n d i c a t o r so fC o m p r o m i s e,I o C s).但在实际工作中,向邮箱所有者确认是不现实的,加之威胁情报又仅能披露部分恶意I P地址,使得对这一问题很难给出是和否的判断.因此,从失陷邮箱检测的目的性(评估损失、溯源攻击)出发,参考D A S的思路,给出一个按失陷可能性排序的邮箱列表,当工作人员需要调查取证时,可为其提供一个优
32、先级的参考.经过上述图构建和社区划分后,可得到若干社区,同一个社区内的邮箱的空间行为都较为相似.参考上述邮箱失陷模型,被同一攻击者入侵的邮箱账号将会被划分到同一个社区内;对于其他邮箱账户,其空间特第期赵建军等:基于登录行为分析的失陷邮箱检测技术研究h t t p:/j o u r n a l x i d i a n e d u c n/x d x b征复杂多样,没有规律,使得这些账户呈现出分布于不同的社区且社区内邮箱账户节点数较少的特点.因此可以依据社区规模对邮箱账户初步排序,即社区内节点数越多,越符合邮箱失陷模型,该社区被入侵的可能性就越高.对于社区内的邮箱可疑度排序,引入了一个I P地址信
33、誉评估机制.邮箱的常用I P地址和异常I P地址的信誉之差越大,说明该邮箱的常用I P地址越可信,异常I P地址越可疑,即该邮箱的排名应处于更靠前的位置.涉及多个常用地和多个异常地时,先计算所有常用I P地址信誉的平均值,再与所有异常I P地址信誉的平均值做差.在具体计算I P地址的信誉时,使用个特征:登录天数比率平均值FA、登录次数比率平均值FB和登录方式个数指数FC.仅当一个I P地址登录过较多邮箱数且在每个邮箱中都较活跃时,才具有较高的信誉值.反之,如果一个I P地址登录过很多邮箱,但都不活跃,则较可疑.同时,一个I P地址被多个正常用户使用时,登录所用的协议更加随机,因此特征FC数的值
34、越大越可信.具体地,针对某一I P地址的登录天数比率平均值的计算表示为FA(p)kkidEipm a x(DEiis),()其中,假设I P地址p登录过k个邮箱,Ei,i,k 表示I P地址p登录过的邮箱i,dEip表示I P地址p在邮箱i中的登录天数,DEiis表示所有I P地址在邮箱i中的登录天数的集合.类似地,针对某一I P地址的登录次数比率平均值的计算表示为FB(p)kkitEipm a x(TEiis).()针对某一I P地址的登录方式个数指数的计算表示为FC(p)l,()其中,l表示登录方式个数.最终,针对某一I P地址的信誉r计算表示为r(p)l o g(FC(p)(FA(p)F
35、B(p).()基于节点数量规模对社区可疑性进行排名,再辅以基于信誉机制的社区内账户排名,最终得到一个按照可疑度排序的邮箱列表,为工作人员提供优先级参考.攻击行为的时间同步性基于节 中提及的邮箱失陷模型,攻击者针对同一企业或组织的攻击活动有可能集中在一段时期内.遭到入侵的邮箱账户在此期间内的登录行为,会与之前后一定时期内的行为存在差异,且该差异会同时出现在多个邮箱中.因此在该场景下的分析思路是,找到某个邮箱的与其他时间段登录行为不同的时间段,并调查其他邮箱在该时间段内是否也同样存在异常.图攻击者和所有者交替登录造成I P地址频繁改变 I P地址变化频率当邮箱账户只被其所有者登录时,登录I P地址
36、的变化可能不剧烈,或变化频率较稳定.当所有者和攻击者同时登录邮箱账户时,则可能会产生交替的登录行为,导致该时期的频率变化与以往不同,如图所示.西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b对一段时期内“登录几次后变化I P地址”这一指标进行统计,可以得到一个序列用来描述该时期内的I P变化情况,称为“I P地址频次描述序列”.以图为例,当只有邮箱所有者登录时,该序列可表示为,意为在这段时期内,登录次和登录次后改变I P地址的情况有个,登录次后改变I P地址的情况有个,登录次后改变I P地址的情况有个,登录次数超
37、过次后改变I P地址的情况有个.而当邮箱所有者和攻击者同时登录该邮箱账户时,该序列变为,出现了巨大差异.在此例中,使用的统计频次阈值为,即将同一I P地址登录次数超过次的情况合并,因此序列的长度为统计频次阈值.考虑到现实场景中,邮箱所有者可能同时使用多个客户端或者W e b m a i l来登录邮箱,自身存在客户端之间的交替登录行为,因此在计算I P地址频次描述序列时,须按各登录方式(协议)分别进行,最大程度降低自身行为带来的干扰.异常窗将邮箱的登录日志按照等时间段分割为N段,每个时间段称为一个“窗”,则在统计完每段的I P地址变化频率后,可得到一个长度为N(统计频次阈值)的二维序列.考虑工作
38、日与双休日邮箱用户的登录频率可能不同,将以周为单位来划分统计时间段,即将窗大小设置为一周,将工作日与双休日视作一个整体来统计.在N个I P地址频次描述序列中,若存在一个序列与其他序列存在较大差异,且其他序列又较为相似,则此时该序列异常,称为“异常窗”,一个示例如图所示.示例中,t表示时间,纵坐标表示同一I P地址的登录频次.图异常窗检测异常窗可以通过能够检测异常点的聚类算法来解决,使用D B S c a n算法.D B S c a n算法是一种基于密度的空间聚类算法,属于无监督聚类算法,该算法能够将具有足够密度的区域划分为簇,并找出噪声点(异常点).D B S c a n有两个关键参数:社区最
39、大半径E p s i l o n和社区最小点数m i n P t s.E p s i l o n决定了两个点的距离小于多少时才会划分到同一个簇.在文中的研究场景中,设定该值为所有点两两距离的平均值,避免该值设置过大导致无法发现异常点,或者该值设置过小导致异常点过多.在计算两点之间的距离时,采用欧式距离度量.参数m i n P t s设定为(算法默认值),表示在社区半径内至少有个点时,视作一个簇.相较于聚类结果,文中更加关注异常点.在聚类完成后,将异常点标识为,其他点标识为,即可得到一个长度为N的序列,例如,表示日志共划分为 周,在第周和第 周中,登录行为出现异常.当对所有邮箱进行检测后,即可得
40、知每周有哪些邮箱存在异常.异常排名机制登录失陷邮箱的I P地址可能有多个,其中包含所有者和攻击者的I P地址.为进一步筛选I P地址,文中定义如下规则来缩小范围:假设邮箱i中第n周为异常周,对于本周登录过该邮箱的一个I P地址a,当a同样登录过邮箱j且当周不是异常周,或a在除第n周外的其他周登录过邮箱i且当周不是异常周时,认为该异常周不是由a造成的,因此在衡量失陷可能性时将a排除,不考虑a的影响.若在多个异常周中都出现同一个I P地址,则这个I P地址较为可疑,且异常周的个数越多,可疑程度越大,也即与该I P地址关联的邮箱的失陷可能性越大.因此,引入了一个指数形式的指标(邮箱异常指数)用第期赵
41、建军等:基于登录行为分析的失陷邮箱检测技术研究h t t p:/j o u r n a l x i d i a n e d u c n/x d x b来评价邮箱失陷的可能性.具体地,首先统计每个I P地址在所有邮箱的所有周内的异常周个数,由于统计范围包含自身异常周,因此该计数;其次,按式()计算指数和:mie x p(wi),()其中,m标识邮箱异常指数;iI,I为登录过该邮箱且未被排除的I P地址集合;wi表示存在I P地址i的异常周的个数.将一个异常周内的所有邮箱的异常指数的和作为该异常周的异常指数,便可对异常周进行排序.在排序异常周时,可将各种登录方式(协议)的分析结果进行混合,以综合判
42、定异常情况.若异常周内只有一个异常邮箱,则不对该异常周排序.当一个邮箱同时出现在多个异常周时,取排名靠前的作为最终结果.实验与结果分析 数据集文中使用的数据集由个不同规模和起止日期的邮箱登录日志组成,在对原始日志进行预处理后,提取登录方式、登录时间、登录I P地址和邮箱账号个基本特征,其中登录方式包括W e b(通过登录W e b m a i l访问邮箱)、P O P、I MA P和S MT P.为了消除DHC P客户端造成的I P地址浮动,尽可能地减少邮箱所有者和攻击者自身I P变化带来的影响,除统计I P地址变化频次外,在其他过程中将I P地址转化为相应的子网进行统计和分析.NUR等 的研
43、究表明,互联网中使用最频繁的是/子网,因此在转化时,将I P地址转化为对应的/子网.数据集的总体情况如表所示.表数据集总体情况数据集日志天数邮箱账户数I P地址数/子网数登录次数W e bS MT PP O P I MA P合计 实验结果与分析在没有其他参考依据或无法向邮箱所有者确定的情况下,使用威胁情报中的I o C s来匹配可疑I P是一种常规做法.匹配时需要考虑到I o C s的滞后性和时效性,如果日志中的某个I P地址的登录时间在相关I o C s发布时间 之 前,且 不 早 于 发 布 时 间个 月 前,则 认 为 该I P地 址 是 恶 意 的.使 用 开 源 威 胁 情 报A l
44、 i e n v a u l t O T X 作为参照,在匹配了个数据集的所有I P地址(共 个)之后,均没有I P地址被标识为恶意.这一结果也反映出仅依赖威胁情报时的局限性.因此,将匹配范围扩大,使用/子网作为匹配范围,即若登录I P地址的同子网I P地址存在匹配结果,就将该/子网视作恶意子网.匹配结果如表所示,其中已对恶意子网进行匿名化处理.在统计恶意子网时,若恶意子网所在地区是邮箱账号常用地,则认为该结果是由于匹配范围不准确造成的,不进行统计.表威胁情报匹配结果数据集恶意子网个数恶意子网内实际I P地址情况失陷邮箱总数被登录邮箱数子网A内有个I P地址子网B内有个I P地址 子网A登录
45、个邮箱子网B登录个邮箱所有子网内均有个I P地址所有子网均只登录个邮箱所有子网内均有个I P地址子网I登录个邮箱子网J登录个邮箱所有子网内均有个I P地址所有子网均只登录个邮箱子网M内有个I P地址 子网M登录 个邮箱西安电子科技大学学报第 卷h t t p:/j o u r n a l x i d i a n e d u c n/x d x b从威胁情报匹配结果来看,数据集和数据集的失陷情况非常符合节 中提到的邮箱失陷模型,因此在验证文中的分析方法时,将重点关注在此两个数据集上的检测结果.时空分析结果在对个数据集分别按照上述时间和空间分析方法进行检测并基于表中的统计进行验证后,空间相似性分析
46、结果如表所示,时间同步性检测结果如表所示.表空间相似性分析结果数据集输出邮箱数总社区个数最大社区内邮箱个数社区内失陷邮箱个数/社区内邮箱总数T O P 社区内T O P 社区内T O P 社区内 /从空间相似性分析结果可以看出,所输出的邮箱个数,已经较原始邮箱数有大幅缩减,并且在各数据集中排名靠前的社区内均包含失陷的邮箱.在排名前的社区中,除数据集外,在其他数据集中的检出率均达到了 及以上,在数据集中更是高达约.数据集中的失陷邮箱未检出是因为关联的恶意I P地址相距较远,不存在空间相似性,被排在了靠后的位置.笔者在对数据集的检出结果进行分析时发现,所检出的异常地均不属于子网B,原因是子网B在其
47、所登录的邮箱中的登录次数较多,在计算空间相似度时,该子网没有被当做异常地子网.表时间同步性分析结果数据集输出邮箱数异常周个数最大异常周异常指数异常周内失陷邮箱个数/异常周内邮箱总数T O P 异常周内T O P 异常周内T O P 异常周内 /在时间同步性的检测结果中,除数据集中的最大异常周指数远高于其他数据集外,在其他数据集上的表现均不理想.为研究其原因,笔者对所有恶意子网的行为进行了分析.在对每个恶意子网的登录次数、登录方式、登录时间等进行分析后发现,在所有的恶意子网中,只有数据集中的子网B在其登录过的每个邮箱中,都具有较多的登录次数且都集中在天内,这足以造成I P地址频次描述序列的改变.
48、因此在时间同步性检测中,能够成功检测出该子网造成的失陷邮箱.在表展示的结果中,排名第一的异常周即为子网B的活跃时间,其登录过的每一个邮箱,均在本周内出现异常.其他恶意子网的登录次数普遍较少,均少于 次,难以造成I P地址频次描述序列的异常,因此未能检出.由于数据集中的子网B和子网A在登录方式、登录频率、目标邮箱上均有不同,因此认为此两个恶意子网对应个攻击者.从上述结果可以看出,当实际失陷情况符合节 中所述邮箱失陷模型时(数据集和数据集),文中提出的时间和空间两个分析角度能够成功检出失陷邮箱并且具有互补性.若攻击者在每个邮箱中的登录次数较少,则虽登录行为不足以引起I P频次变化,但此时登录I P
49、会被判定为异常地,用空间分析方法能够检测出;反之,若登录次数普遍较多,则虽登录I P地址不会被判定为异常地,但邮箱所有者和攻击者的交替登录行为必然会改变I P地址变化频次,此时可使用时间分析方法进行检测.对比分析为验证所提方法的先进性,将与D A S在仅使用登录日志时的表现进行比较.当一次登录事件发生时,D A S使用两个特征:该登录事件之前,从登录I P地址对应城市登录过的用户数;该登录事件之前,第期赵建军等:基于登录行为分析的失陷邮箱检测技术研究h t t p:/j o u r n a l x i d i a n e d u c n/x d x b当前用户从I P地址对应城市登录过的次数.
50、D A S的计分算法是:统计所有事件中,每一个特征值都高于当前事件的事件个数,最终以该事件个数作为得分并按降序排序输出.由于D A S所输出的是可疑的登录事件排名而非邮箱排名,因此对D A S进行了部分修改.首先,将每个数据集中的前/数据作为D A S的启动数据;其次,将I P地址转化为/子网;最后,将同一个邮箱的所有登录事件中最可疑的个登录事件的得分的平均值,作为该邮箱的最终得分.这就相当于对于真实失陷的邮箱,排除了异常不明显的登录行为,即相当于优化了D A S的检测结果,使可能失陷的邮箱排在更靠前的位置.为综合评价所提出的空间和时间的分析结果,将由空间分析和时间分析所输出的两个邮箱列表交替