1、2023年12 月计算机应用文摘第3 9 卷第2 4期钓鱼网站检测研究综述姚清泉,康文杰12,欧阳梓华,曾靖岚(1.湖南警察学院网络侦查技术湖南省重点实验室,长沙410 0 0 0;2.国防科技大学系统工程学院,长沙410 0 7 3)摘要:随着互联网的不断发展,网络钓鱼规模日益扩大,形式多样,手段更加高超。其中,以钓鱼网站为形式的网络钓鱼规模迅速增长,对用户的数据安全和财产安全构成了严重威胁。因此,目前在网络安全领域,针对钓鱼网站的检测成为研究的焦点。文章围绕基于黑名单检测、基于启发式检测以及基于机器学习检测介绍了相关的钓鱼网站检测技术,并分析了目前钓鱼网站识别检测技术的研究现状。关键词:钓
2、鱼网站;检测;诈骗中图法分类号:TP393YAO Qingquan,KANG Wenjiel,2,OUYANG Zihua,ZENG Jinglan!(1.Hunan Provincial Key Laboratory of Network Investigational Technology,Hunan Police Academy,Changsha 41oooo,China;2.College of Systems Engineering,National University of Defense Technology,Changsha 410073,China)Abstract:Wit
3、h the continuous development of the Internet,the scale of phishing is expanding day byday,with various forms and more advanced methods.Among them,the scale of phishing in the formof phishing websites is rapidly increasing,posing a serious threat to the data security and propertysecurity of users.The
4、refore,in the field of network security,the detection of phishing websites hasbecome a focus of research.The article introduces relevant phishing website detection technologiesbased on blacklist detection,heuristic detection,and machine learning detection,and analyzes thecurrent research status of p
5、hishing website recognition and detection technologies.Key words:phishing website,detection,fraud1引言钓鱼网站是指欺骗用户的虚假网站,其页面与真实网站界面基本一致,旨在欺骗消费者或窃取访问者提交的账号和密码信息。这种网络诈骗方式是互联网上最常见的一种,通常伪装成银行或电子商务等网站,以窃取用户的银行账号、密码等私密信息。随着互联网和计算机技术的不断发展,网络安全问题变得愈加重要。网络钓鱼攻击,包括使用虚假网站欺骗用户以获取其私人信息,给互联网用户、金融机构和电子商务公司带来了重大损失。文献标识码:
6、ASurvey of phishing website detection根据CNCERT互联网安全威胁报告2 0 2 2 年7月总第13 9 期,截至2 0 2 2 年7 月,我国境内被篡改网站数量为3 7 13 个,较上月增加1.9%;境内被植人后门的网站数量为19 6 0 个,较上月增加1.1%;针对境内网站的仿冒页面数量为7 7 40 个,涉及域名7 6 2 4个,IP地址40 3 个。2钓鱼网站检测技术2.1基于黑名单的检测技术黑名单是一种用于辨识不良网站的工具,而基于黑名单的检测技术(图1)即通过建立黑名单库,将已基金项目:2 0 2 2 年湖南省法学研究课题青年项目:以信息化手段
7、防范化解湖南社会风险研究(2 2 HNFX-D-004);2 0 2 1年湖南省教育厅大学生创新创业训练计划项目:钓鱼网站与取证系统研究(S202111534018);2 0 2 2 年湖南省教育厅大学生创新创业训练计划项目:派出所智慧派警微信平台设计与实现(S202011534001);2 0 2 0 年湖南省教育厅重点项目:民法典时代网络涉警奥情应对机制研究(2 0 A169);2 0 2 2 年湖南省教育厅优秀青年项目:基于多层复杂网络的泛在智能电网的新型安全机制研究(2 2 B0938);2 0 2 3年湖南省社会科学成果评审委员会课题:“重点场所”风险防范化解机制研究(XSP2023
8、GLC116);2 0 2 1年湖南警察学院高层次人才科研启动基金:智慧物联网未知安全威胁的纵深防御方法研究(2 0 2 1KYQD13)2023 年第 2 4期知的恶意网站储存到该数据库中。当用户浏览新的网络链接时,系统会在已有的黑名单库中对该链接进行比对。一旦确定该网络链接在黑名单库中存在,系统将视其为可疑链接,并向用户发出警报;反之,若该网络链接未在黑名单库中出现,则系统将视其为良性链接。URL是否与黑名单相匹配图1基于黑名单的检测技术黑名单方法提供了快速、即时的访问时间,然而其检测率较低。因此,Azeez等 1 提出了一种自动化白名单方法,用于检测钓鱼攻击,极大地降低了计算时间、内存、
9、带宽和其他计算资源的需求,从而提高了检测效率;Vijay等 2 提出了PageSafe 作为一个反钓鱼工具,维护一个URL白名单,并映射相应的IP,通过URL验证来防止对钓鱼网站的访问,同时检测DNS中毒攻击;Han 等 3 提出了一种优化后的白名单方法,能够实现系统运行时白名单的维护自动化,并通过记录其中登录网站的相关特征来进行钓鱼网站识别。基于黑名单的检测技术实现难度较低,且相较于其他技术具有较高的检测速率。然而,一方面,由于该技术依赖于黑名单的精确匹配,攻击者可以相对轻松地利用算法避开检测。另一方面,该方法存在实时性差、易过期的缺点,难以抵御零日攻击。黑名单库的完善程度和更新速度很大程度
10、上制约了其检测能力,导致该方法的时效性和灵活性稍显不足。因此,尽管基于黑名单的检测技术具有一定的实用性,但考虑到其本身存在的漏洞,最好在基于黑名单的检测技术基础上与其他技术相结合,以提高检测精度与效率。2.2基于启发式的检测技术钓鱼网站的启发式特征是通过挖掘钓鱼网站之间的相似性,从各方面提取出的特征。启发式方法首先从网站中提取多个用于区分合法网站和钓鱼网站的特征,然后通过权重分析法对提取出的特征进行统计分析,从而判断是否为钓鱼网站。虽然不能确保所有的钓鱼网站都会具备这些特征,但一旦识别出一组可泛化的启发式特征,就能实现o-hour钓鱼攻击检测。与黑名单方法相比,基于启发式的检测技术(图2)能够
11、发现之前未曾发现的网络钓鱼活动,但其误检率普遍高于黑名单方法 4。由于启发式方法利用已知的钓鱼网站特征进行计算机应用文摘识别,这些特征通常源自对钓鱼网站和合法网站提取特征的统计分析,因此其规则的更新存在一定的延迟。目前,针对启发式方法误检率高的问题,出现了一种多层(包括数据爬取层、特征提取层、特征选择层、识别和分类层以及综合决策层)启发式识别模型,能够实现9 6%的准确率和9 5%的召回率。同时,为解是决规则更新延后的问题,还提出了一种基于优化规则钓鱼网站匹配和非文本特征提取的钓鱼网站检测和追踪方案,否合法网站131有效提高了检测效率。此外,Almomani等 5 通过提取URL和域名标识特征
12、、异常特征、HTML和JavaScript特征以及域名特征,并将它们作为语义特征来检测钓鱼网站,使分类的过程更加可控和有效。基于启发式的检测技术相较于黑名单方法具有不需要预编译列表的特点,可以实现零日攻击检测。然而,由于启发式规则通常较为简单,网络钓鱼者进行简单更改即可欺骗启发式检测。此外,由于该方法需要对网站特征进行分析和匹配,因而会消耗大量时间和计算资源。目前,启发式方法主要应用于钓鱼网站检测系统中的网站过滤等操作。访问网站特征与提取钓鱼网站特征图2 基于启发式的检测技术2.3基基于机器学习的检测技术基于机器学习的检测技术(图3)利用机器学习算法,通过提取从网站中获取的URL、主机和网页内
13、容等特征,建立相应的检测模型框架来进行识别。通常情况下,钓鱼网站与合法网站之间存在具有一定区分度的特征,机器学习方法能够利用这些特征对钓鱼网站进行检测和识别,因此机器学习被广泛应用于钓鱼网站的识别。测试集特征选择数据集特征选择图3 基于机器学习的检测技术(1)基于 URL的特征。URL的特征可以分为词汇特征和外部特征两种。词汇特征包括URL长度、域名中点数、是否包含IP地址以及是否含有特殊符号(如“”)等。外部特征包括WHOIS查找与DNS解析等。目前,关于利用URL特征进行钓鱼网站识别的方法有几种:基于CNN-BiLSTM的钓鱼URL检测方法,钓鱼网站钓鱼网站特征相或匹配筛选合法网站算法或一
14、钓鱼网站分类合法网站132该方法通过CNN自动提取数据的空间局部特征,并通过BiLSTM自动获取数据的时序特征,有效提升了检测准确率、精准率、召回率以及 F1值;基于 CNN-DT模型的钓鱼网站检测方法,该方法采用深度卷积网络进行特征提取,通过引入代价函数对决策树进行改进,提升了检测精度和效率,并通过迭代拟合了集成学习的思想来提升算法的识别率;此外,Zainab 等 6 通过利用 URL特征,使用 LSTM-CNN、LST M 和 CNN架构进行训练,其中 CNN算法的准确率优于LSTM-CNN 和 LSTM,达到了 9 9.2%。(2)基于主机的特征。Whois是一种可以查询互联网中域名的I
15、P以及其所有者等相关信息的传输协议。此类特征包含域名的注册信息,如域名持有人、管理联系人、技术联系人、付费联系人、域名注册商等信息。DNS 是一个域名和IP地址相互映射的分布式数据库,可以使用户更加便捷地访问互联网。此类特征包含网页提供解析服务的相关信息。Zhou等 7 利用域名特征的对称性,提出了一种基于 LightGBM 的钓鱼网站识别模型。相较于仅使用单一特征进行训练的模型,该方法的准确度等各项评价指标均提高了5%。(3)基于内容的特征。HTML特征包括文档的长度、词汇的个数以及标签属性等;脚本语言特征允许钓鱼者通过将JavaScript等脚本语言代码写人HTML中来绕过用户进行一些操作
16、;视觉特征包括网页中的可视元素,如网页Logo和图片等,钓鱼者在制作钓鱼网站时可能使用类似的图片来迷惑用户。为了解决这些问题,目前提出了一种将决策树和局部搜索方法相结合的最佳特征选择算法,该算法通过基于基尼指数的特征有效性指标f_Value来衡量数据集中特征的重要性,以构造基础神经网络分类器的最佳特征向量。基于机器学习的检测技术具有高准确率和可扩充性的优点。然而,该技术的检测效果受训练数据集的质量和数量影响,当训练集中的网站数据样本不足或分布不均时,模型的效果会受到影响。此外,在机器学习方法中,如果提取的特征过多,可能会导致提取的特征中出现无用特征或者消极特征,对识别性能造成一定影响。3钓鱼网
17、站检测技术对比分析及面临的挑战3.1钅钓鱼网站检测技术对比分析基于黑名单的检测技术具有轻量级、低复杂度、高准确度的优点。该技术通过将请求的URL与数据计算机应用文摘库中的黑白名单进行匹配,有效识别已知的钓鱼网站,适用于对误检率有要求的情况。然而,尽管基于黑名单的检测技术实现方便,但存在数据穴余的问题。该方法需要不断更新黑名单以提高检测正确性,导致数据库中相当一部分URL实际上已被废弃。尽管纯粹的基于黑名单的检测技术存在一些缺点,但可以与其他具有零日攻击检测能力的技术融合使用,从而提高对钓鱼网站的检测识别能力。基于启发式的检测技术通过提取钓鱼网站的相关特征,总结分析规律,并通过判断新网站提取的特
18、征是否与总结分析的规律匹配来预测其是否为钓鱼网站,由于能够在钓鱼攻击发起时进行检测,因此可以实现对零日攻击的检测。然而,启发式方法需要消耗计算资源和训练时间对网站特征进行分析。当钓鱼者学习避开这些规律后,需要重新训练以进行检测。此外,由于启发式规则是通过统计分析得出的,当合法网站出现类似特征时容易产生误检,因此在对误检率有一定要求时,启发式方法不一定实用。基于机器学习的检测技术是目前主流的网络钓鱼检测技术之一。同样,因为不需要预编译列表,该技术可以检测零日攻击。然而,机器学习算法在训练过程中需要大量时间来提高效果,而长时间的训练又导致其无法适应钓鱼网站迅速发展的情况。此外,在机器学习方法中,特
19、征提取具有一定难度。提取特征过多会导致检测时间过长,增加成本;提取特征过少会对检测准确度产生较大影响。因此,基于机器学习的检测技术需要通过增量学习等方式提高检测能力。3.2面临的挑战与展望目前,网络安全领域中钓鱼网站攻击呈现形式多样、数量不断飙升的局面。随着互联网的发展,钓鱼攻击者采用的技术不断演变,需要及时更新技术以适应新出现的攻击形式。另外,现有的大部分检测技术主要基于已知的钓鱼网站特征,使得网络钓鱼者能够通过对这些特征进行学习来规避反钓鱼的检测。在针对钓鱼网站检测的研究现状中,研究人员可以从特征选择和检测技术融合的角度展开研究。钓鱼网站的特征可分为静态特征与动态特征两类。动态特征包括跳转
20、关系、浏览器行为 8 和文件变化 9 等。未来针对钓鱼网站检测的研究方向一方面可以深入探讨针对钓鱼网站的动态特征获取,实现对钓鱼网站动态特征的自动获取,以降低检测复杂度。同时,可以利用人工智能技术从社交网络的特有特征出发,寻找新的有效特征。另一方面,可以在钓鱼网站检测技术的融合使用方面进行研究,通过不同的检测技术结合使用来提高钓鱼网站检测(下转第13 5页)2023年第2 4期2023 年第 2 4 期代的入口。那些具备数据壁垒的场景也是OpenAI难以直接取代的。数据是AI大模型的三大要素之一,也将成为厂商竞争的关键。由于OpenAI不可能收集所有细分领域的数据,拥有数据的公司也将在竞争中占
21、据优势。此外,在某种程度上,OpenAI 降低了普通人进入AI领域创业的门槛。GPT的出现创造了一个新的职业一一不懂代码的开发者。人们无需编写代码,只需有创意、有洞察力、懂市场,就能够创建自己的产品。有人评论说:“GPT Store可能面向的不仅仅是开发者,更是创作者,这是一种深度赋能和去中介化的策略,我认为这是未来的趋势。”王晟认为,如今的OpenAI就像当年的苹果一样,(上接第13 2 页)技术的识别性能。例如,Ding 等 10 提出了一种将搜索、启发式规则和 Logistic 回归相结合的检测方法,该方法的钓鱼网站检测准确率为9 8.9%,具有较高的检测性能。参考文献:1 AZEEZ
22、N A,SANJAY M,IHOTU A,et al.Adopting AutomatedWhitelist Approach for Detecting Phishing Attacks J.Computers&Security,2021,108:1-18.2 VIJAY K,SENGAR P K.Client-Side Defense against Phishingwith PageSafe J.I n t e r n a t i o n a l Jo u r n a l o f Co m p u t e rApplications,2010,4(4):6-10.3 HAN W L,YE
23、 C,BERTINO E,et al.Using automated individualwhite-list to protect web digital identities J.Expert SystemsWith Applications,2012,39(15):11861-11869.4 SHENG S,WARDMAN B,WARNER G,et al.An empiricalanalysis of phishing blacklists C/The 6th Conference onEmail and Anti-Spam(CEAS),2009:11-15.5 ALMOMANI A,
24、MOHAMMAD A,MOHD T S,et al.PhishingWebsite Detection With Semantic Features Based on MachineLearning Classifiers:A Comparative Study J.InternationalJournal on Semantic Web and Information Systems(IJSWIS),计算机应用文摘代表着一种趋势。OpenAI的开发者大会标志着行业从关注“卷”大模型转向关注“卷”大模型应用。“这标志着卷大模型的周期可能已经结束,接下来大家需要进行创新,开发各种应用。”在应用层
25、创业方面,OpenAI不可能涉足所有领域。“就像苹果一样,对于音乐、视频等重要应用,以及一些小工具,OpenAI可能会自行开发,其他的则交给生态系统。”总体来看,OpenAI在消灭了一些机会的同时,也创造了新的需求。那些高度依赖API公司的应用层公司和没有竞争壁垒的平台层公司未来可能面临较大的挑战,唯一的应对之策就是不断迭代,始终适应这个急速变化的AI浪潮。2022,18(1):1-24.6 ZAINAB A,RABEAH A,JALAL A,et al.A Deep Learning-Based Phishing Detection System Using CNN,LSTM,andLSTM
26、-CNNJ.Electronics,2023,12(1):232.7 ZHOU J X,CUI H B,LI X N,et al.A Novel Phishing WebsiteDetection Model Based on LightCBM and Domain NameFeaturesJ.Symmetry,2023,15(1):180.8 WANG R,ZHU Y,TAN J F,et al.Detection of malicious webpages based on hybrid analysis J.Journal of InformationSecurity and Appli
27、cations,2017,35:68-74.9 GURURAJ H L,MITRA P,KONER S,et al.Prediction ofPhishing Websites Using AI Techniques J.InternationalJournal of Information Security and Privacy(IJISP),2022,16(1):1-14.10 DING Y,LUKTARHAN N,LI K Q,et al.A keyword-basedcombination approach for detecting phishing webpagesJ.Computers&Security,2019,84:256-275.作者简介:姚清泉(2 0 0 1一),本科,研究方向:网络安全。康文杰(19 8 7 一),博士,讲师,研究方向:复杂网络、物联网安全、警务大数据(通信作者)。135