CN103530367B - 一种钓鱼网站鉴别系统和方法 - Google Patents
一种钓鱼网站鉴别系统和方法 Download PDFInfo
- Publication number
- CN103530367B CN103530367B CN201310477313.1A CN201310477313A CN103530367B CN 103530367 B CN103530367 B CN 103530367B CN 201310477313 A CN201310477313 A CN 201310477313A CN 103530367 B CN103530367 B CN 103530367B
- Authority
- CN
- China
- Prior art keywords
- website
- module
- feature vector
- feature
- phishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 110
- 230000009467 reduction Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 239000000284 extract Substances 0.000 claims description 11
- 238000012847 principal component analysis method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000011160 research Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种钓鱼网站鉴别系统,其包括特征提取模块、特征向量降维模块、分类训练模块及鉴别模块。特征提取模块用于提取网站的页面信息及排名信息,并获得特征向量;特征向量降维模块和特征提取模块相连,用于对特征向量进行降维,获得降维后的特征向量;分类训练模块和特征向量降维模块相连,用于对已知网站的降维后的特征向量进行分类训练,获得分类模型;鉴别模块和分类训练模块及特征向量降维模块分别相连,用于保存分类模型,并利用分类模型对未知网站的降维后的特征向量进行鉴别,判断是否为钓鱼网站。所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法同时将网站排名和网站内容作为网站的特征向量,可以提高网站鉴别的精度。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种钓鱼网站鉴别系统和方法。
背景技术
随着电子商务和在线交易的普及,网络钓鱼已经成为最为严重的一种网络犯罪形式。所谓“钓鱼网站”,是指不法分子利用各种手段,仿冒真实网站的地址以及页面内容,或者利用真实网站服务器程序上的漏洞,在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。由于欺骗手段的隐蔽性及欺骗方式的多样性,钓鱼网站往往令网民难以识别,导致严重损失。据中国互联网络信息中心统计,钓鱼网站数量在过去一年新增87.3万家,360安全中心对其拦截量则高达81亿次,相当于平均每秒就有256个网民访问钓鱼网站。用户在上网过程中面临的钓鱼欺诈已经成为最严重的网络安全威胁之一。
为了应对网络钓鱼的威胁,减少钓鱼网站的数量,国内外展开了多种反钓鱼的研究工作,目前主要有以下四类方法与技术:
(1)基于黑名单的检测技术。
黑名单是一种广泛使用的用于检测钓鱼网站的方法。黑名单技术是指将所有已经发现的钓鱼站点和可信网站的URL记录到一个列表(即黑名单)中,据此判断用户所访问的网站是否为钓鱼/安全网站。黑名单随着存活的钓鱼网站的增加而增加到反钓鱼网站数据库中。由于新创建的钓鱼网站的垃圾邮件活动一般会持续4-6个小时,因此在列出黑名单和禁用钓鱼网站的时候,钓鱼网站可能已经移动到了新的URL上面。因此黑名单技术仍具有一定的局限性,它无法预测新的钓鱼攻击,并且如果通过DNS劫持,将用户输入的网站重新定向到钓鱼网站,黑名单技术将无法解决这种重定向的问题(Stamm,S.,Ramzan,Z.,&Jakobsson,M.(2007).Drive-by Pharming.Information and CommunicationSecurity.Zhengzhou,China)。
(2)基于URL的检测技术。
基于URL的检测技术主要使用URL本身的信息来确定其是否为恶意链接,钓鱼网站使用多种技术使受害者相信链接是合法的,例如使用比较长的字符,如www.bankofamerica.com.X.Y.Z.org。这些长的主机名之所以能够欺骗受害者,主要是因为他们看到了地址中有他们预期的域名(BRADLEY WARDMAN.AA SERIES OF METHODS FOR THESYSTEMATIC REDUCTION OF PHISHING[D].BIRMINGHAM,ALABAMA,2011.)。基于URL的反钓鱼技术主要是通过URL地址相似度、域名概率评估、网站排名、注册信息、网址类型、页面的外链数目、IP及端口号等信息进行钓鱼检测识别,但是,基于URL的检测技术也无法解决DNS劫持问题。
(3)基于视觉的检测技术。
基于视觉的检测技术主要是通过网页图像或者空间布局进行检测。但该方法只能用于某个网站的检测,同时数学特性十分复杂,计算复杂度高,目前仅停留在学术研究,还未应用到实际检测中。
(4)基于内容的检测技术。
基于内容的检测技术需要使用软件工具,主要是指网络网虫,用来下载网站的内容,从网站内容中提取出能够识别网络钓鱼的特征,这些技术一般利用强大的搜索技术,以确保能够全面检索网站内容,然后使用不同的机器学习方法来对网站进行鉴别,但是目前基于内容的检测技术仍具有较高的误报率,还难于满足实际应用的需求。
综上可知,目前检测钓鱼网站的研究方法与技术主要存在的问题包括:1)以URL地址、域名注册信息、网站排名等信息作为网站特征进行钓鱼网站的识别技术,识别率较低;2)以网页内容等信息作为特征进行智能钓鱼网站识别的技术,相关研究大多复杂度高、误报率高,难于满足数目快速增长的钓鱼网站的检测防御需要。此外,当前反钓鱼研究基本都集中在对英文钓鱼网站的识别,对中文钓鱼网站检测研究较少,因此需要对中文钓鱼网站进行全面研究,提取出适合中文钓鱼网站的特征表征与特征提取方法,进而对中文钓鱼网站进行分析,采取合理的分类方法进行鉴别,提高检测的准确率。
发明内容
针对上述问题,本发明的目的是提供一种可解决上述技术问题的钓钓鱼网站鉴别系统和方法。
一种钓鱼网站鉴别系统,其包括:
特征提取模块,用于提取网站的页面信息及排名信息,并获得特征向量;
特征向量降维模块,其和所述特征提取模块相连接,用于对所述特征向量进行降维,获得降维后的特征向量;
分类训练模块,其和所述特征向量降维模块相连接,用于对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;及
鉴别模块,其和所述分类训练模块及所述特征向量降维模块分别相连接,用于保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别,判断是否为钓鱼网站。
本发明一较佳实施例中,所述特征向量包括网站内容的特征向量和网站排名信息的特征向量。
本发明一较佳实施例中,所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中,并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词。
本发明一较佳实施例中,所述特征提取模块采用互信息法从所述一级特征词中选取特征词,作为网站内容的特征向量。
本发明一较佳实施例中,所述特征向量降维模块采用主成分分析方法对所述特征向量进行降维。
本发明一较佳实施例中,所述分类训练模块采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练,得到所述分类模型。
本发明一较佳实施例中,所述特征向量降维模块和所述特征提取模块之间、所述分类训练模块和所述特征向量降维模块之间、所述鉴别模块和所述分类训练模块之间以及所述鉴别模块和所述特征向量降维模块之间为电性连接、数据连接或通信连接。
本发明一较佳实施例中,所述网站包括所述已知网站和所述未知网站。
本发明另外提供一种钓鱼网站鉴别方法,其包括如下步骤:
S11、利用特征提取模块提取网站的页面信息及排名信息,获得特征向量;
S13、利用特征向量降维模块对所述特征向量进行降维,获得降维后的特征向量;
S15、利用分类训练模块对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;
S17、利用鉴别模块保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别。
本发明一较佳实施例中,步骤S11中,所述网站包括已知网站和未知网站。
相对于现有技术,所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法同时将网站排名和网站内容作为网站的特征向量,可以提高网站鉴别的精度。
本发明实施例中,所述特征向量降维模块采用主成分分析方法对网站的特征向量进行降维,可以有效地提高鉴别效率。
本发明实施例中,所述分类训练模块对使用主成分分析方法降维后的网站特征向量使用BP神经网络进行分类,鉴别效率显著提高。
此外,本发明实施例中,所述特征提取模块提取网站的页面信息时,只保存中文汉字到文本中,并提取出适合中文钓鱼网站的特征表征与特征提取方法,进而对中文钓鱼网站进行分析,且采取合理的分类方法进行鉴别,可提高中文网站的鉴别检测的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举实施例,并配合附图,详细说明如下。
附图说明
图1为本发明第一实施例提供的钓鱼网站鉴别系统的组成示意图;
图2为图1所示钓鱼网站鉴别系统的工作示意图;
图3为本发明第二实施例提供的钓鱼网站鉴别方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
请参阅图1,本发明第一实施例提供一种钓鱼网站鉴别系统100,其包括特征提取模块10、特征向量降维模块20、分类训练模块30及鉴别模块40;所述特征提取模块10用于提取网站的页面信息及排名信息,并获得特征向量;所述特征向量降维模块20和所述特征提取模块10相连接,用于对所述特征向量进行降维,获得降维后的特征向量;所述分类训练模块30和所述特征向量降维模块20相连接,用于对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;所述鉴别模块40和所述分类训练模块30及所述特征向量降维模块20分别相连接,用于保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别,判断是否为钓鱼网站。
可以理解的是,所述网站包括已知网站和未知网站,所述特征向量包括网站内容的特征向量和网站排名信息的特征向量,即本实施例中,所述特征提取模块10分别针对已知网站和未知网站进行页面信息及排名信息的提取,并分别获得已知网站的特征向量和未知网站的特征向量。
所述特征提取模块10提取网站的页面信息及排名信息时,具体包括:
1)网站内容特征提取
首先提取网站的页面信息,本实施例中,只保存中文汉字到文本中;然后对文本进行分词,本实施例中,使用中科院的ICTCLAS分词系统(详见:http://www.ictclas.org/index.html);其后提取文本中的名词和动词,作为文本的一级特征词,本实施例中,采用互信息法(MI,Mutual Information)从所述一级特征词中选取特征词,作为网站内容的特征向量。
互信息法用来度量一个消息中两个信号之间的相互依赖程度,衡量特征和类别之间的统计关联程度。本实施例中,对于文本类别C和特征项T,其互信息记为MI(C,T),如式(1):
其中,P(T)为T在整个训练集中出现的概率,P(Ci)为Ci类文档在整个训练集中出现的概率,P(T|Ci)为T在Ci类文档中出现的条件概率。
为了对式(1)进行计算,将T和C进行关联,经整理后得到其近似公式,如式(2)。
其中,A表示包含T而属于C的文本数,B表示包含T而不属于C的文本数,C表示不包含T而属于C的文本数,N为文档总数。
2)网站排名特征提取
将网站的排名信息作为网页的一个特征向量,本实施例中,使用http://alexa.chinaz.com/查询网站的排名信息,并将排名信息表示为{yes,no},yes表示能够通过http://alexa.chinaz.com/查询到网站的排名信息,no表示不能通过http://alexa.chinaz.com/查询到网站的排名信息。可以理解的是,网站的排名信息的查询并不局限于本实施例,也可以采用其他方式来查询,只要能获取网站的排名信息即可。
本实施例中,将所述特征提取模块10所提取的网站内容的特征向量和网站排名信息的特征向量作为网站(包括已知网站和位置网站)的特征向量,并在此基础在进行后续处理。
本实施例中,所述特征向量降维模块20采用主成分分析方法对所述特征向量进行降维。
主成分分析方法的基本思路是把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析方法用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。本实施例中,主成分分析方法的基本原理如下:
设有已知网站的样本为X1,X2,…Xp,样本标准差记为S1,S2,…Sp,首先作标准化变换:
Cj=aj1x1+aj2x2+…ajpxp,j=1,2,…p (3)
本实施例中,有如下的定义:
1)若C1=a11x1+a12x2+…a1pxp,且使Var(C1)最大,则称C1为第一主成分;
2)若C2=a21x1+a22x2+…a2pxp,a21,a22…a2p垂直于a11,a12…a1p,且使Var(C2)最大,则称C2为第二主成分;
3)类似地,可有第三、四、五…主成分,至多有p个。
本实施例中,所述分类训练模块30采用BP(Back-Propagation,前馈)神经网络方法,对已知网站的所述降维的特征向量(即已知网站降维后的特征向量)进行训练,得到所述分类模型,具体地,包括以下两个部分:
第一,将已知网站的所述降维的特征向量作为训练数据通过隐含层节点作用于输出层节点,经过非线形变换,产生输出节点的输出值Yk。
Yk=f(∑Tj,kOj)-θk (4)
Oj=f(∑wi,jDi)-θi (5)
其中,Oj为隐含层节点的输出值;f为非线性作用函数,本实施例采用Sigmoid函数,即f(x)=1/(1+e-x);wi,j为连接输入层与隐含层节点的权值,其初始值由系统随机给定;θi为阈值,其初始值由系统随机给定;Yk为输出节点的输出值;Tj,k为连接输出层与隐含层节点的权值,其初始值由系统随机给定;θk为阈值,其初始值由系统随机给定。
第二,输出节点的输出值Yk与期望输出值tk之间的偏差,通过调整权值wi,j、Tj,k以及阈值θi、θk,使误差沿梯度方向下降。并经过反复学习训练,确定与最小误差相对应的权值和阈值,训练即停止。
误差的计算公式如下:
调整的权值wi,j计算公式如下:
wi,j(n+1)=ηδi,j+wi,j(n) (7)
其中,η为学习因子,为任意值,η取值越大,则权值wi,j每次的改变越剧烈,本实施例中,η设定为0.1;n为学习次数,本实施例中,n设定为5000;δi,j表示误差对权值wi,j的负梯度。
权值Tj,k的计算公式如下:
Tj,k(n+1)=ηφj,k+Tj,k(n) (8)
其中,η为学习因子,为任意值,本实施例中,η设定为0.1;n为学习次数,本实施例中,n设定为2000;φj,k表示误差对Tj,k的负梯度。
阈值θi的计算公式如下:
θi(n+1)=ηδi+θi(n) (9)
其中,η为学习因子,为任意值,本实施例中,η设定为0.1;n为学习次数,本实施例中,n设定为2000;δi表示误差对阈值θi的负梯度。
阈值θk的计算公式如下:
θk(n+1)=ηδk+θk(n) (10)
其中,η为学习因子,为任意值,本实施例中,η设定为0.1;n为学习次数,本实施例中,n设定为2000;δk表示误差对阈值θk的负梯度。
本实施例中,所述鉴别模块40保存所述分类模型,即保存所述分类训练模块30对已知网站的所述降维的特征向量进行分类训练所确定的权值(wi,j,Tj,k)和阈值(θi,θk);然后即可使用式(4)和式(5)对未知网站的所述降维后的特征向量进行鉴别,得到分类结果。
可以理解的是,所述特征向量降维模块20和所述特征提取模块10之间、所述分类训练模块30和所述特征向量降维模块20之间、所述鉴别模块40和所述分类训练模块30之间以及所述鉴别模块40和所述特征向量降维模块20之间为电性连接、数据连接或通信连接(包括无线连接和有线连接)。
请参阅图2,对于待鉴别的一个未知网站,利用所述钓鱼网站鉴别系统100时,首先利用所述特征提取模块10提取所述未知网站的页面信息及排名信息,获得特征向量;然后利用特征向量降维模块20对所述特征向量(即所述未知网站的特征向量)进行降维,获得所述位置网络的降维后的特征向量;其后即可使用所述鉴别模块40进行鉴别,得到所述未知网站的分类结果。
请参阅图3,本发明第二实施例提供一种钓鱼网站鉴别方法,其包括如下步骤:
S11、利用所述特征提取模块10提取网站的页面信息及排名信息,获得特征向量。
可以理解的是,所述网站包括已知网站和未知网站,所述特征向量包括网站内容的特征向量和网站排名信息的特征向量,即本实施例中,所述特征提取模块10分别针对已知网站和未知网站进行页面信息及排名信息的提取,并分别获得已知网站的特征向量和未知网站的特征向量。
所述特征提取模块10提取网站的页面信息及排名信息时,包括网站内容特征提取及网站排名特征提取,具体请参阅前述第一实施例,此处不再赘述。
S13、利用所述特征向量降维模块20对所述特征向量进行降维,获得降维后的特征向量。
本实施例中,所述特征向量降维模块20采用主成分分析方法对所述特征向量进行降维,具体请参阅前述第一实施例,此处不再赘述。
S15、利用分类训练模块30对已知网站的所述降维后的特征向量进行分类训练,获得分类模型。
本实施例中,所述分类训练模块30采用BP神经网络方法,对已知网站的所述降维的特征向量(即已知网站降维后的特征向量)进行训练,得到所述分类模型,具体请参阅前述第一实施例,此处不再赘述。
S17、利用鉴别模块40保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别。
本实施例中,所述鉴别模块40保存所述分类模型,即保存所述分类训练模块30对已知网站的所述降维的特征向量进行训练所确定的权值(wi,j,Tj,k)和阈值(θi,θk);然后即可使用式(4)和式(5)对未知网站的所述降维后的特征向量进行鉴别,得到分类结果。
相对于现有技术,所述钓鱼网站鉴别系统100和所述钓鱼网站鉴别方法同时将网站排名和网站内容作为网站的特征向量,以此来提高网站鉴别的精度。本发明实施例中,所述特征向量降维模块20采用主成分分析方法对网站的特征向量进行降维,可以有效地提高鉴别效率。本发明实施例中,所述分类训练模块30对使用主成分分析方法降维后的网站特征向量使用BP神经网络进行分类,鉴别效率显著提高。此外,本发明实施例中,所述特征提取模块10提取网站的页面信息时,只保存中文汉字到文本中,并提取出适合中文钓鱼网站的特征表征与特征提取方法,进而对中文钓鱼网站进行分析,且采取合理的分类方法进行鉴别,可提高中文网站的鉴别检测的准确率。
以上所述,仅是本发明的实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种钓鱼网站鉴别系统,其特征在于,包括:
特征提取模块,用于提取网站的页面信息及排名信息,并获得特征向量;
特征向量降维模块,其和所述特征提取模块相连接,用于对所述特征向量进行降维,获得降维后的特征向量;
分类训练模块,其和所述特征向量降维模块相连接,用于对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;及
鉴别模块,其和所述分类训练模块及所述特征向量降维模块分别相连接,用于保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别,判断是否为钓鱼网站;
其中,将所述特征提取模块所提取的网站内容的特征向量和网站排名信息的特征向量作为网站的特征向量进行后续处理;所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中,并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词;
所述分类训练模块具体采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练,得到所述分类模型:将已知网站的所述降维的特征向量作为训练数据通过隐含层节点作用于输出层节点,经过非线形变换,产生输出节点的输出值Yk;输出节点的输出值Yk与期望输出值tk之间的偏差,通过调整权值wi,j、Tj,k以及阈值θi、θk,使误差沿梯度方向下降,并经过反复学习训练,确定与最小误差相对应的权值和阈值,训练即停止。
2.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量包括网站内容的特征向量和网站排名信息的特征向量。
3.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块采用互信息法从所述一级特征词中选取特征词,作为网站内容的特征向量。
4.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量降维模块采用主成分分析方法对所述特征向量进行降维。
5.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征向量降维模块和所述特征提取模块之间、所述分类训练模块和所述特征向量降维模块之间、所述鉴别模块和所述分类训练模块之间以及所述鉴别模块和所述特征向量降维模块之间为电性连接、数据连接或通信连接。
6.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述网站包括所述已知网站和所述未知网站。
7.一种钓鱼网站鉴别方法,其特征在于,包括如下步骤:
S11、利用特征提取模块提取网站的页面信息及排名信息,获得特征向量;
S13、利用特征向量降维模块对所述特征向量进行降维,获得降维后的特征向量;
S15、利用分类训练模块对已知网站的所述降维后的特征向量进行分类训练,获得分类模型;
S17、利用鉴别模块保存所述分类模型,并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别;
其中,将所述特征提取模块所提取的网站内容的特征向量和网站排名信息的特征向量作为网站的特征向量进行后续处理;所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中,并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词;
所述分类训练模块具体采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练,得到所述分类模型:将已知网站的所述降维的特征向量作为训练数据通过隐含层节点作用于输出层节点,经过非线形变换,产生输出节点的输出值Yk;输出节点的输出值Yk与期望输出值tk之间的偏差,通过调整权值wi,j、Tj,k以及阈值θi、θk,使误差沿梯度方向下降,并经过反复学习训练,确定与最小误差相对应的权值和阈值,训练即停止。
8.如权利要求7所述的钓鱼网站鉴别方法,其特征在于,步骤S11中,所述网站包括所述已知网站和所述未知网站。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310477313.1A CN103530367B (zh) | 2013-10-12 | 2013-10-12 | 一种钓鱼网站鉴别系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310477313.1A CN103530367B (zh) | 2013-10-12 | 2013-10-12 | 一种钓鱼网站鉴别系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103530367A CN103530367A (zh) | 2014-01-22 |
CN103530367B true CN103530367B (zh) | 2017-07-18 |
Family
ID=49932376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310477313.1A Active CN103530367B (zh) | 2013-10-12 | 2013-10-12 | 一种钓鱼网站鉴别系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103530367B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933055B (zh) * | 2014-03-18 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 网页识别方法及网页识别装置 |
CN104166725B (zh) * | 2014-08-26 | 2018-01-12 | 哈尔滨工业大学(威海) | 一种钓鱼网站检测方法 |
EP3125147B1 (en) * | 2015-07-27 | 2020-06-03 | Swisscom AG | System and method for identifying a phishing website |
CN105049301A (zh) * | 2015-08-31 | 2015-11-11 | 北京奇虎科技有限公司 | 一种提供网站综合评价服务的方法和装置 |
CN105975852A (zh) * | 2015-12-31 | 2016-09-28 | 武汉安天信息技术有限责任公司 | 一种基于标签传播的样本关联性检测方法及系统 |
CN107204956B (zh) * | 2016-03-16 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 网站识别方法及装置 |
CN107292412A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种问题预测方法及预测系统 |
CN105956472B (zh) * | 2016-05-12 | 2019-10-18 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和系统 |
CN106354836A (zh) * | 2016-08-31 | 2017-01-25 | 南威软件股份有限公司 | 一种广告页面的预测方法和装置 |
CN106777234A (zh) * | 2016-12-27 | 2017-05-31 | 南京安讯科技有限责任公司 | 一种自反馈式网络社交平台分类方法 |
CN109039875B (zh) * | 2018-09-17 | 2021-06-22 | 杭州安恒信息技术股份有限公司 | 一种基于链接特征分析的钓鱼邮件检测方法及系统 |
CN109376244A (zh) * | 2018-10-25 | 2019-02-22 | 山东省通信管理局 | 一种基于特征分类的诈骗网站识别方法 |
CN109617909B (zh) * | 2019-01-07 | 2021-04-27 | 福州大学 | 一种基于smote和bi-lstm网络的恶意域名检测方法 |
CN110825941A (zh) * | 2019-10-17 | 2020-02-21 | 北京天融信网络安全技术有限公司 | 一种内容管理系统识别方法、装置和存储介质 |
CN111091019B (zh) * | 2019-12-23 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 一种信息提示方法、装置及设备 |
CN111556065A (zh) * | 2020-05-08 | 2020-08-18 | 鹏城实验室 | 钓鱼网站检测方法、装置及计算机可读存储介质 |
CN115600040B (zh) * | 2022-11-25 | 2023-05-26 | 清华大学 | 一种钓鱼网站识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708186A (zh) * | 2012-05-11 | 2012-10-03 | 上海交通大学 | 一种钓鱼网站的识别方法 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN102957664A (zh) * | 2011-08-17 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种识别钓鱼网站的方法及装置 |
CN103179095A (zh) * | 2011-12-22 | 2013-06-26 | 阿里巴巴集团控股有限公司 | 一种检测钓鱼网站的方法及客户端装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7958555B1 (en) * | 2007-09-28 | 2011-06-07 | Trend Micro Incorporated | Protecting computer users from online frauds |
CN102279875B (zh) * | 2011-06-24 | 2013-04-24 | 华为数字技术(成都)有限公司 | 钓鱼网站的识别方法和装置 |
-
2013
- 2013-10-12 CN CN201310477313.1A patent/CN103530367B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102957664A (zh) * | 2011-08-17 | 2013-03-06 | 阿里巴巴集团控股有限公司 | 一种识别钓鱼网站的方法及装置 |
CN103179095A (zh) * | 2011-12-22 | 2013-06-26 | 阿里巴巴集团控股有限公司 | 一种检测钓鱼网站的方法及客户端装置 |
CN102708186A (zh) * | 2012-05-11 | 2012-10-03 | 上海交通大学 | 一种钓鱼网站的识别方法 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于RFE-SVM的钓鱼网页识别技术的研究;王婷;《中国优秀硕士学位论文全文库信息科技辑》;20130715(第7期);摘要,第6,17-19,23,25,28,34-35,42-43页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103530367A (zh) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103530367B (zh) | 一种钓鱼网站鉴别系统和方法 | |
Wang et al. | PDRCNN: Precise phishing detection with recurrent convolutional neural networks | |
CN103544436B (zh) | 一种钓鱼网站鉴别系统和方法 | |
Xiao et al. | Phishing websites detection via CNN and multi-head self-attention on imbalanced datasets | |
CN106789888B (zh) | 一种多特征融合的钓鱼网页检测方法 | |
CN104217160B (zh) | 一种中文钓鱼网站检测方法及系统 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
Zhang et al. | Boosting the phishing detection performance by semantic analysis | |
CN104954372B (zh) | 一种钓鱼网站的取证与验证方法及系统 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN102932348A (zh) | 一种钓鱼网站的实时检测方法及系统 | |
CN110784462B (zh) | 基于混合方法的三层钓鱼网站检测系统 | |
CN109873810A (zh) | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 | |
Zhu et al. | An effective neural network phishing detection model based on optimal feature selection | |
Khan et al. | Detection of phishing websites using deep learning techniques | |
Alkawaz et al. | Identification and analysis of phishing website based on machine learning methods | |
Kasim | Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model | |
CN110855716B (zh) | 一种面向仿冒域名的自适应安全威胁分析方法及系统 | |
Sharma et al. | An improved anti‐phishing model utilizing TF‐IDF and AdaBoost | |
Sonowal et al. | Masphid: a model to assist screen reader users for detecting phishing sites using aural and visual similarity measures | |
Valiyaveedu et al. | Survey and analysis on AI based phishing detection techniques | |
Zhu et al. | Effective phishing website detection based on improved BP neural network and dual feature evaluation | |
CN105653941A (zh) | 一种启发式检测钓鱼网站的方法及系统 | |
Noh et al. | Phishing website detection using random forest and support vector machine: a comparison | |
Yazhmozhi et al. | Natural language processing and Machine learning based phishing website detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |