资源描述
基于网页身份及行为的钓鱼网页特征向量提取方法
The Method of Extracting the Phishing Web Features Vector Based On the Web Identity and Behavior
司响作者简介:作者 司响(1984- ),女,河北,硕士研究生Email:xiaosilike@
作者 李秋锐(1987- ),男,湖北,硕士研究生Email:qraylee@
作者 宋士超(1985- ),男,河北,硕士研究生Email:songshichao16864@
李秋锐2 宋士超2
(1.中国人民公安大学,北京100038)
(2.中国人民公安大学,北京100038)
(2.中国人民公安大学,北京100038)
摘要:随着电子商务与在线交易的增加,网络钓鱼已经成为最严重的一种网络犯罪形式。本文从网页中包含的超链接这一角度出发,给出了网页的身份特征,并结合网页ICP号,版权所有者以及网页行为等对网页特征进行了提取,得到了钓鱼网页的特征向量,为及时准确检测钓鱼网页提供了依据。
关键词:网页身份 ICP号 版权所有者 网页行为 网页特征向量提取
Abstract:As the Electronic Commerce and On-line Trade expand, phishing has already become one of the severest forms of network crimes. In this paper, the identity features of web-pages are given based on the hyperlinks included in the web-pages, and then web-page features are extracted employing ICP of web-pages, owner of the copyright, web-page behaviors and so on. With the extraction of feature vectors of phishing web-pages, more evidences acquired render the detection of phishing web-pages with more accuracy and shorter time-consumption.
Keywords:web identity ICP number Copyright owner Web behavior Web feature vector extraction
1前言
网络钓鱼是一种企图从电子通信中,通过伪装成信誉卓著的法人媒体以获知如用户名、密码与信用卡明细等个人敏感信息的犯罪诈骗过程。随着互联网交易的兴起,网络钓鱼已经成为最为严重的互联网犯罪形式之一。据中国反钓鱼网站联盟的报告,截至2011年3月底,联盟累计认定并处理了钓鱼网站43842个。其中在3月份,联盟认定并处理钓鱼网站3988个,同比增长271%,环比增长244%[1]。
每一个网页都有一定的身份,网页的行为必然与网页的身份相一致。然而,为了模拟合法网页迷惑用户,钓鱼网页必然会将身份伪造为合法网站的身份。从另一个方面讲,钓鱼网页的目的与合法网页并不相同,因此其行为就会与正常合法网页不同,会与声称的身份不符,存在异常。这种行为上的异常正是区分钓鱼网页与合法网页的基础。本文从网页中的超链接这一角度出发,提取出网页的身份,并结合网页ICP号,网页版权所有者及网页的行为,对钓鱼网页的特征进行了分析。最终以定量的方式,引入了钓鱼网页特征向量VP=<F1,F2,F3,F4,F5,F6,F7,F8,F9,>来表示钓鱼网页特征,为准确判定钓鱼网页提供了依据[3][4]。
2算法流程
对于一个给定的网页P,为了提取其身份与特征向量,首先要通过解析得到网页P的DOM(Document Object Model)树,以使后续数据处理过程更加简单。根据W3C的标准,DOM是一种与浏览器,平台,与语言的接口,解决了语言之间的冲突,提供了一个标准的方法来访问站点中的数据,脚本与表现层对象。假设以下为一个网上银行提交用户名与密码的Html代码的body部分[2]。图1给出的就是其对应的DOM树。
<html>
<head>
<title>网银系统</title>
<meta name=“Description”content=“全面的银行金融服务介绍,丰富的投资理财信息,方便快捷的在线交易”/>
<head>
<body>
<table>
<form action=“a.jsp”>
<td>用户名:</td>
<td><input type=“text” name=“username” ></td>
<td>密 码:</td>
<td><input type=“password” name=“password”></td>
<td><input type=“submit” value=“登录”>
<input type=“reset” value=“取消”></td>
</form>
………………
………………
<a herf=“b.jsp”>链接B</a>
</table>
</body>
<html>
图1给定网页的DOM树
大多数钓鱼网页都会要求用户输入银行卡用户名,口令值等敏感信息,因此,对于给定的网页,首先要检查网页中是否含有文本输入的部分。如果有,就进行后续操作;如果没有,就认定这个网页是合法的,提取下一个网页。本文方法通过检查网页DOM树中的以下部分来判断:
(1)Text类型,例如<input name“user name” type=“text”/>
(2)未明确类型(默认类型是text),例如<input name=“username”/>
(3)Password类型,例如<input name=“password”type=“password”/>
如果网页中至少有一个文本输入部分,则对网页进行身份特征提取过程。提取出网页的身份之后,基于网页的身份以及网页的行为提取网页的特征向量。其算法流程图2所示:
图2网页特征向量提取流程
3网页URL身份提取
本文的算法是从网页中所含超链接这一角度出发对网页身份特征进行提取的,为此本文给出一个新的定义,将网页中超链接指向最多的域名称为网页的URL身份。例如,网页中的超链接都是指向的,因此,这个网页的URL身份就是。为了模拟正常网页的行为,钓鱼页面也会模拟正常网页所包含的超链接,显然,这些链接所指向的域名与钓鱼网页的域名不同,都是指向正常网页的。因此,一个钓鱼网页的URL身份通常都是外部域名,也就是所模拟的那个正常网站的域名。
提取网页URL身份时,主要是分析网页中包含的锚链接。由于<a>与<area>标签的“href”属性给出了链接的地址属性,本文的方法就是分析网页中的<a>与<area>标签的“href”属性。对于锚链接的每一个URL,从其中提取出基础域名的部分,例如,对于
4网页特征向量提取
提取出网页的URL身份之后,要基于网页URL身份以及对网页行为的分析产生出网页的特征向量。本文选取能够区分钓鱼网页与正常合法网页的8个特征来定义网页P的特征向量VP=<F1,F2,F3,F4,F5,F6,F7,F8,F9>。下面分别介绍每个特征Fi(i=1,2,3,4,5,6,7,8,9)是如何具体定义及如何求值的。
4.1特征1:网页的ICP证号
正规网站的网页会在网页底部声明ICP证号,ICP证是指各地通信管理部门核发的《中华人民共与国电信与信息服务业务经营许可证》,是网站经营的许可证,根据国家《互联网信息服务管理办法》规定,经营性网站必须办理ICP证,否则就属于非法经营。ICP证号可以用来唯一的标识网站身份。如图3所示是中国工商银行的登录网页,在网页底部表示的就是网页的ICP证。而钓鱼网站为了迷惑用户,通常也会在这个位置声明自己是其仿冒的网站,在自己的网页上出具与仿冒网站相同的ICP号。
图3中国工商银行的ICP证
本系统使用F1表征这一特征,若给定网页的ICP号与某合法网页的ICP号相同,但域名却不相同,则表示此网页是钓鱼网页,令F1=1;否则,F1=-1。
4.2特征2:网站的版权所有者
与网页的ICP号相同,每一个网页也会在页面底部显示表明自己身份的版权所有者。同样,网页的版权所有者也能唯一地标识网页。本系统使用F2表征这一特征,若给定网页的版权所有者与某合法网页的版权所有者相同,但域名却不相同,则表示此网页是钓鱼网页,令F2=1;否则,F2=-1。
4.3特征3:可疑的网页地址
为了达到迷惑用户,引诱用户给出敏感信息的目的,钓鱼者通常会采取一些欺骗手段来伪装钓鱼网页的URL地址。这些手段包括:
(1)使用IP地址代替网站域名。例如,访问淘宝网首页的URL地址可以表示为:http://110.75.2.128。
(2)使用@符号。URL地址中的@符号表示此符号前的内容为用户名与口令,用于验证用户的身份,而此符号后面的内容才是真正的地址。例如,@,这个地址指向的真正的网站并不是淘宝网,而是。
(3)对域名中的字符进行UNICODE编码。例如,上例URL地址的编码形式是:@%77%77%77%2E%70%68%69%73%68%2E%63%6F%6D。
本文用F3表征网页地址的可疑性,若网页的URL地址中出现IP形式的地址,@符号或UNICODE编码,则判定该网页可疑,令F3=-1;否则,令F3=1。
4.4特征4:网页域名与网页URL身份的一致性
基于前文关于网页URL身份的分析可知,正常网页的URL身份就是本地域名,而钓鱼网页的URL身份往往是其所模拟的那个网站的域名。例如,一个冒充淘宝网的钓鱼网页的URL身份是。因此,可以把网页的URL身份与网页的域名是否一致作为判断钓鱼网站的一个特征。本系统使用F4表征这一特征,若网页的URL身份与网页基础域名一致,则表示网页正常,F4=1;否则,F4=-1。
4.5特征5:空连接
空连接指的是指向为空的连接,例如:<a href=“javascrip::void(0)”>,<a href=“#”>等。通过对大量钓鱼网页的分析可知,网页中含有的空链接数越多,网页越可疑。本文用F5表征一个网页中所含有的空链接的这一特性。F5的值由下面的公式计算得到:
F5=anil/aa
这里,anil是网页中所含空链接的数量,aa是网页中所有连接的数量。
4.6特征6:指向网页URL身份的外部链接
网页的外部链接指的是指向外部域的超链接。如前所述,为了达到欺骗用户的目的,钓鱼网页与其所攻击的网页都极其相似,其URl身份就是其所模拟的网页的基础域名。所以,钓鱼网页中必然包含大量指向其URL身份的外部链接。本文用F6来表征网页的这一特征,其值由下面的式子得到:
F6= aid/af,如果af>0;F6=0,如果af=0
这里,aid指的是网页中所包含的指向网页URL身份的外部链接的数量,af指的是网页中所包含的外部链接的数量。
4.7特征7:外部链接
对于任何一个网页,存在指向外部域名(foreign domain)的链接都是正常的,但是如果网页中指向外部域的链接过多,这个网页就是可疑的。F7用来表征网页所包含外部链接这一特征,F7的值由下面的公式计算得到:
F7= af/aa,如果aa>0;F7=0,如果aa=0
这里,af指的是网页中所包含的外部链接的数量,aa指的是网页中所包含的所有链接的数量。
4.8特征8:指向网页URL身份的外部请求
为了模拟真正的网页,钓鱼网页可能会从真正的网页请求图片(image),Java脚本,CSS文件以及其他一些客体。表明这种请求的URL链接通常包含在以下这些域中:
(1)IMG,SCRIPT,FRAME,IFRAME,INPUT标签的“src”属性。
(2)OBJECT的“codebase”属性。
(3)APPLET标签的“codebase”与“code”属性。
(4)BODY标签的“background”属性。
(5)LINK标签的“href”属性。
本文用F8来表示网页中所包含的指向网页URL身份的外部请求这一特征,其值由下面的式子计算得到:
F8=rid/rf 如果rf>0;F8=0 如果rf=0,
这里,rid表示网页所包含的指向网页URL身份的外部请求的数量,rf表示网页中所包含的外部请求的数量。
4.9网页中外部请求
与网页中含有外部链接的情况相似,网页中含有的外部请求的数量越多,网页的可疑性就越大。本文用F9来表征网页中多包含的外部请求这一特征。F9的值就等于网页中所包含的外部请求的数量。
得到网页的各个特征值之后,就可以得到网页的特征向量VP=<F1,F2,F3,F4,F5,F6,F7,F8,F9>。
5结论
本文通过对钓鱼网页身份特征及网页行为特征的深入分析,从网页中所包含的超链接这一重要特性出发,引入了网页URL身份这一新的概念,并在此基础上,结合网页行为特征提取出了网页的特征向量,为准确判定钓鱼网页提供了有效的依据。
参考文献:
[1] 中国反钓鱼网站联盟 2011年4月钓鱼网站处理简报[R] 2011年4月
[2] 王文博,基于网页特征提取的反钓鱼技术研究[D],2010年6月。
[3] 李文峰,基于网页相似比对的反钓鱼技术研究[D],2010年6月。
[4] Mingxing He,An efficient phishing webpage detector[J],Expert Systems with Applications,2011年2月 。
展开阅读全文