CN114118398A - 目标类型网站的检测方法、系统、电子设备及存储介质 - Google Patents
目标类型网站的检测方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114118398A CN114118398A CN202010895955.3A CN202010895955A CN114118398A CN 114118398 A CN114118398 A CN 114118398A CN 202010895955 A CN202010895955 A CN 202010895955A CN 114118398 A CN114118398 A CN 114118398A
- Authority
- CN
- China
- Prior art keywords
- website
- detected
- information
- target type
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims description 11
- 238000001514 detection method Methods 0.000 claims abstract description 227
- 238000013136 deep learning model Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 61
- 238000013527 convolutional neural network Methods 0.000 claims description 32
- 238000003062 neural network model Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 230000010365 information processing Effects 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000011176 pooling Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000004140 cleaning Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 235000013305 food Nutrition 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000008162 cooking oil Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 235000013312 flour Nutrition 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 229910052711 selenium Inorganic materials 0.000 description 2
- 239000011669 selenium Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/565—Static detection by checking file integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请的技术方案提供了一种目标类型网站的检测方法,包括:获取待检测网站的不同检测维度的网站信息;利用深度学习模型依据不同检测维度的所述网站信息,对所述待检测网站进行检测,获得多个检测结果;根据多个所述检测结果,确定所述待检测网站是否为目标类型网站。通过该技术方案提高了检测待检测网站是否为目标类型网站的准确率。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种目标类型网站的检测方法、系统、电子设备及存储介质。
背景技术
随着互联网技术的发展,其在日常生活中的各种应用也越来越多。通过互联网技术建立各种网站,当然通过互联网也可以浏览到各种网站,当根据业务需求对某些网站进行检测或者判断网站是否为业务需求的网站时,可以根据这些网站的信息对这些网站进行检测。例如,违反相关规定的网站随着计算机和互联网技术的发展而大量出现,并且传播途径较广,为了维护网络的安全、用户的相关信息安全以及保持良好的上网环境,需要对违反相关规定的网站进行检测。
现有技术中,检测网站是否为业务需求的网站的准确率和效率较低。
发明内容
本发明实施例提供一种目标类型网站的检测方法、系统、电子设备及存储介质。
本发明的技术方案是这样实现的:
一种目标类型网站的检测方法,包括:获取待检测网站的不同检测维度的网站信息;利用深度学习模型依据不同检测维度的所述网站信息,对所述待检测网站进行检测,获得多个检测结果;根据多个所述检测结果,确定所述待检测网站是否为目标类型网站。
在一个实施例中,所述获取待检测网站的不同检测维度的网站信息,包括:获取所述待检测网站的文本信息、图像信息及所述待检测网站的资源地址信息。
在一个实施例中,所述利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,包括:根据字符级卷积神经网络模型的字符表,对所述文本信息进行编码,得到所述文本信息中各个字符对应的编码信息;将所述编码信息输入到所述字符级卷积神经网络,确定所述待检测网站是否为目标类型网站。
在一个实施例中,所述利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,还包括:通过图像处理神经网络对所述图像信息进行逐点卷积及深度卷积,得到图像特征;根据所述图像特征,确定所述待检测网站是否为目标类型网站。
在一个实施例中,所述利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,还包括:根据所述资源网址信息中的域名信息,确定所述待检测网站域名的重定向次数以及指向所述待检测网站的外部链接数量;根据所述资源网址信息中的源代码信息,确定所述待检测网站的状态栏中的网址是否被修改;获取所述网站的页面级别PR;根据所述重定向次数、所述外部链接数量、所述待检测网站的状态栏是否被修改的结果以及所述页面级别PR,确定所述待检测网站是否为目标类型网站。
在一个实施例中,获取所述待检测网站中的图像信息,包括:采集所述待检测网站中的图像信息;根据所述图像信息中图像的数据量,按照数据量从大到小的顺序获取预设数量的图像。
在一个实施例中,所述获取所述待检测网站中的图像信息,还包括:在获取所述图像信息失败时,确定所述待检测网站是否为有效网站;当所述待检测网站为有效网站时,使用网页应用程序测试工具打开所述待检测网站,对所述待检测网站进行截屏并将所述截屏作为所述待检测网站中的图像信息。
在一个实施例中,所述根据多个所述检测结果,确定所述待检测网站是否为目标类型网站,包括:根据多个所述检测结果的加权平均,确定综合检测结果;根据所述综合检测结果,确定所述待检测网站是否为目标类型网站。
在一个实施例中,所述根据多个所述检测结果,确定所述待检测网站是否为目标类型网站,包括:通过神经网络模型依据多个所述检测结果,确定所述待检测网站是否为目标类型网站;其中,所述神经网络模型为第一模型;所述第一模型训练采用的训练数据包括:第一样本数据和所述样本数据的第一标签;所述第一标签为:第二模型对所述第一样本数据预测得到的标签。
一种目标类型网站的检测系统,包括:
获取模块,用于获取待检测网站的不同检测维度的网站信息;
检测模块,用于利用深度学习模型依据不同检测维度的所述网站信息,对所述待检测网站进行检测,获得多个检测结果;
确定模块,用于根据多个所述检测结果,确定所述待检测网站是否为目标类型网站。
一种电子设备,包括:
处理器;
存储器,其存储有程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行上述任一项所述的方法。
一种存储介质,其存储有程序,当所述程序由处理器运行时,执行上述任一项所述的方法。
本发明实施例的技术方案通过利用深度学习模型,根据待检测网站的不同检测维度的网站信息,对待检测网站进行是否为目标类型网站的检测,获得多个检测结果。从多维度的网站信息对待检测网站进行检测,参考了待检测网站的更多不同维度的信息量,可以更准确的根据这些不同维度的网站信息对应的检测结果进一步判断待检测网站是否为目标类型网站。根据得到的多个检测结果,确定待检测网站是否为目标类型网站,结合不同维度的网站信息对应的多个不同的检测结果,对待检测网站进行综合判断,确定该待检测网站是否为目标类型网站。通过该技术方案提高了检测待检测网站是否为目标类型网站的准确率和效率。
附图说明
图1为本发明实施例提供的一种目标类型网站的检测方法的流程示意图;
图2为本发明实施例提供的一种字符级卷积神经网络模型的结构示意图;
图3为本发明实施例提供的一种利用字符级卷积神经网络模型的对文本信息进行处理的流程示意图;
图4为本发明实施例提供的一种利用图像处理神经网络模型的对图像信息进行处理的流程示意图;
图5为本发明实施例提供的一种深度可分离卷积的分解结构示意图;
图6为本发明实施例提供的一种标准卷积的过程示意图;
图7为本发明实施例提供的一种深度卷积的示意图;
图8为本发明实施例提供的一种逐点卷积的示意图;
图9为本发明实施例提供的一种MobileNetv2神经网络模型的结构示意图;
图10为本发明实施例提供的一种利用深度学习模型根据待检测网站的资源网址信息,进行待检测网站是否为目标类型网站的检测流程示意图;
图11为本发明实施例提供的一种Mean Teacher模型的结构示意图;
图12为本发明实施例提供的一种目标类型网站的检测系统的结构示意图;
图13为本发明实施例提供的一种多维度的违规网站检测系统的结构示意图;
图14为本发明实施例提供的一种随机梯度下降法SGD的过程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
在实际的互联网业务应用中会有各种各样的需求,当根据业务需求对某些网站(这里称为待检测网站)进行检测,以便确定这些待检测网站是否为业务需求的网站(这里将业务需求的网站称为目标类型网站)时,可以根据这些待检测网站的信息对其进行检测。
在先的技术中,主要是通过黑名单或白名单过滤技术、启发式特征检测技术以及基于传统机器学习的检测技术对待检测的网站进行检测,以确定待检测的网站是否为目标类型网站。黑名单或白名单过滤技术主要是通过不断对黑名单或白名单进行更新,将检测到的目标类型网站添加进黑名单或白名单,从而通过黑名单或白名单确定待检测的网站是否为目标类型网站。启发式特征检测技术主要是通过将网站的链接、文本内容及域名等信息的预设特征作为目标类型网站判定的标准,根据该判定标准确定待检测的网站是否为目标类型网站。基于传统机器学习的检测技术主要是利用有监督的传统机器学习方法,通过对大量的目标类型网站提取相关或无关特征向量生产及训练判别模型,利用判别模型对待检测的网站进行检测。
在实际检测目标类型网站中,黑名单或白名单过滤技术主要是依靠用户提供的信息对可疑的网站进行检测,该方法中用户提供的信息中多为已经发生的事件的信息,存在一定的滞后性,且黑名单或白名单技术受限于名单数量,所以还需要人工对黑名单或白名单进行更新。启发式特征检测技术对目标类型网站检测的过程复杂,需要人工制定大量的规则,且需要不断对该规则进行更新,还有可能会发生误报的情况。基于传统机器学习的检测方法存在识别率低,模型泛化性不好的缺点,特别是现今有些目标类型网站存在活动周期短,更新快等特点,该方法不能很好的对目标类型网站进行判别。基于上述几种在先技术的方法存在的问题,尽早地、准确地、高效地确定和发现目标类型网站成为对目标类型网站检测的重点。
参考图1,为本发明实施例提供的一种目标类型网站的检测方法,该方法主要包括以下步骤:
步骤S100,获取待检测网站的不同检测维度的网站信息。该不同检测维度的网站信息包括多种检测维度的网站信息。
例如,网站信息为包含能够反应待检测网站是否为目标类型网站的多种信息,例如,该网站信息包括描述该待检测网站的网站属性的属性信息和/或该待检测网站的网站参数。其中,属性信息包括表示该待检测网站是否为目标类型网站的文本信息和/或图像信息等。网站参数可以包括网站的重定向次数、外部链接数量以及页面级别PR等等。这些不同的属性信息和网站参数表示不同维度的待检测网站的网站信息。
各个网站中都包括与该网站关联的各种信息,在本实施例中利用的是网站的不同检测维度的网站信息,当需要对待检测网站进行检测时,需要获取待检测网站的不同检测维度的网站信息。该步骤中的可以通过各种不同的获取方式获取待检测网站的不同检测维度的网站信息,具体的获取方式这里不做具体限定。待检测网站的不同检测维度的网站信息,可以是指该待检测网站的不同类型的网站信息,例如文本信息、图像信息和音频信息等,这些网站信息从不同的维度反应了待检测网站的信息,这些不同维度的信息可以表示该待检测网站的特征。
由于确定待检测网站是否为目标类型网站不能完全基于某一维度的信息,例如完全基于文本信息或者图像信息等,所以需要通过获取待检测网站的不同检测维度的网站信息,可以便于从不同检测维度对待检测网站进行检测,进而确定该待检测网站是否为目标类型网站。这样可以在当单纯基于文本信息或者图像信息对待检测网站进行检测,并采用一些规避文本信息或者图像信息特征检测/识别的技术而导致不能通过文本信息或者图像信息对待检测网站进行检测的情况下,获取更多的待检测网站信息,即可以获取待检测网站的其他检测维度的信息。获取多维度的网站信息为更准确的确定待检测网站是否为目标类型网站提供了基础。
步骤S200,在获取待检测网站的不同检测维度的网站信息后,利用深度学习模型依据不同检测维度的网站信息,对待检测网站进行检测,获得多个检测结果。例如,进行待检测网站是否为目标类型网站的检测等,获得多个检测结果。
该步骤通过深度学习模型对获取的不同检测维度的网站信息进行处理,根据不同检测维度的网站信息从不同的检测维度对该待检测网站进行检测,得到各个检测维度对应的检测结果。
步骤S200具体可以包括利用不同的深度学习模型对待检测网站的不同检测维度的网站信息分别进行检测,得到各个检测维度对应的检测结果,每个检测维度的网站信息对应一种与其相匹配的深度学习模型,以获得更准确的检测结果。
例如,当不同检测维度的网站信息包括文本信息和图像信息时,通过利用与文本信息对应的深度学习模型对文本信息进行检测,与文本信息对应的深度学习模型可以包括各种处理文本信息的深度学习模型,这里并不做具体限定。通过利用与图像信息对应的深度学习模型对图像信息进行检测,与图像信息对应的深度学习模型可以包括各种处理图像信息的深度学习模型,这里同样不做具体限定。
通过分别对获取的多个不同检测维度的网站信息进行检测,得到了多个不同维度的检测结果,这些不同维度的检测结果从不同维度反应了该待检测网站是否为目标类型网站。该步骤相当于从不同检测维度对待检测网站进行第一次是否为目标类型网站的检测,以便后续根据得到的多个不同检测维度的检测结果确定待检测网站是否为目标类型网站。
步骤S300,在得到多个不同检测维度的检测结果后,根据多个检测结果,确定待检测网站是否为目标类型网站。该步骤相当于综合多个检测结果对待检测网站进行第二次是否为目标类型网站的检测,该检测的结果即为待检测网站是否为目标类型网站的结果。具体可以利用深度神经网络模型,根据多个检测,确定待检测网站是否为目标类型网站,具体的深度神经网络模型在这里不再进行限定。还可以通过根据多个检测结果的加权平均值等方式确定待检测网站是否为目标类型网站等。
该目标类型网站可以包括根据业务需求设置的某种类型的网站,例如合法网站中有关医疗领域类的网站、有关体育内容这一类型的网站、有关农业类的网站、有关电子产品类的网站或者有关食品类的网站等等,还可以是违规网站等,这里不再一一例举,均在本方案的保护范围之内。
具体地,有关医疗领域类的网站可以是包括医疗器械网站、医疗药品网站、医院网站等有关医疗信息的网站,这些有关医疗领域类的网站中包含关于医疗器械、医疗药品或医院等信息的图像或文本等信息。有关体育内容这一类型的网站可以是包括与各种体育信息有关的网站,例如与有关足球信息、篮球信息、田径信息和/或网球信息等体育信息相关的网站,该类网站中包含关于上述体育信息的图像信息和/或文字信息等。有关农业类的网站可以是包括与各种农产品、各种农业种植等信息有关的网站,该类网站中包含关于上述各种农业信息的图像或者文本等信息。有关电子产品列的网站可以是包括与各种电子产品有关的网站,例如有关手机、电脑和/或数码相机等电子产品信息的网站,该类网站中包括关于手机、电脑和/或数码相机等电子产品信息的图像和/或文本等信息。有关食品类的网站可以是包括与各种食品有关的网站,例如与米、面、蛋和/或食用油等食品相关的网站,这类网站中包含有关米、面、蛋和/或食用油等食品的图像和/或文本等信息。违规网站可以是包括赌博网站、涉黄网站、涉恐涉暴网站或邪教组织网站等违相关法律规定的网站,这些违规网站中包括含有违反相关规定内容的图像和/或文本等信息。违规网站的文本信息中含有反政府、反社会、有关邪教组织或者严重侵害他人隐私信息等违反相关规定的信息,图像信息中含有涉黄、涉恐涉暴等违反相关规定的信息。
本发明的技术方案根据多个不同检测维度的检测结果确定待检测网站是否为目标类型网站,相比于从单一维度确定待检测网站是否为目标类型网站,该方法得到的检测结果更加准确、更加全面,可以更好的确定待检测网站是否为目标类型网站。
上述实施例提供的方法可以更好的确定待检测网站是否为目标类型网站,作为对上述实施例的补充或者优化,本说明书还提供了其他实施例。
在另一实施例中,步骤S100,获取待检测网站的不同检测维度的网站信息,包括:
获取待检测网站的文本信息、图像信息及待检测网站的资源地址信息。
在该实施例中获取包括待检测网站中的文本信息、图像信息以及资源地址信息,网站中含有大量的文本信息和图像信息,每个网站均有资源地址信息,这些不同检测维度的检测信息从不同维度反映了待检测网站的特征。
其中,资源地址信息可以为包括网站地址(URL)的信息,网站地址中包括网站的域名信息。根据网站地址可以获取网站的源代码信息,具体可以通过源代码获取工具获取,例如站长之家等。
在另一实施例中,当获取的待检测网站的不同检测维度的网站信息包括待检测网站的文本信息、图像信息及待检测网站的资源地址信息时,步骤S200,利用深度学习模型依据不同检测维度的网站信息,对待检测网站进行检测,包括从上述三个不同的检测维度分别进行待检测网站是否为目标类型网站的检测。该实施例中只是以上述三种检测维度的网站信息为例进行说明,还可以包括其他检测维度的网站信息,均在不呢方案的保护范围之内,不再一一例举。该步骤S200具体包括如下三个部分:
利用深度学习模型根据待检测网站的文本信息,从文本信息这一检测维度进行待检测网站是否为目标类型网站的检测。
利用深度学习模型根据待检测网站的图像信息,从图像信息这一检测维度进行待检测网站是否为目标类型网站的检测。以及
利用深度学习模型根据待检测网站的资源地址信息,从资源地址信息这一检测维度进行待检测网站是否为目标类型网站的检测。上述对三种不同检测维度的网站信息的处理操作之间并不存在固定的先后顺序的关系,可以按照任意顺序执行这个三种操作。
其中,利用深度学习模型根据待检测网站的文本信息,从文本信息这一检测维度进行待检测网站是否为目标类型网站的检测,具体可以利用字符级卷积神经网络模型根据待检测网站的文本信息,从文本信息这一检测维度进行待检测网站是否为目标类型网站的检测。参考图2,为字符级卷积神经网络模型的结构示意图,图3为利用字符级卷积神经网络模型的对文本信息进行处理的流程示意图,请同时参考图2和图3。
该步骤主要包括:
步骤S2011,根据字符级卷积神经网络模型的字符表,对获取的待检测网站的文本信息进行编码,得到文本信息中各个字符对应的编码信息。
该字符级卷积神经网络模型为已经经过训练的模型,可以根据文本信息进行待检测网站是否为目标类型网站的检测。该字符级卷积神经网络模型包括已经构建完成的字符表,该字符表为包括中文、英文、数字和特殊字符的共3970 个字符的字符表,当然还可以是包括其他字符的字符表,这里不再进行限定。将获取的待检测网站的文本信息中的各个字符作为编码对象输入至字符表中,根据字符表对各个字符进行编码,得到各个字符对应的编码信息,该编码信息可以为编码向量,也可以为由编码向量组成的编码矩阵等。该步骤中的编码方式可以为one-hot编码,也可以是其他可以实现相同功能的编码方式,具体编码过程不再详细说明。
通过对文本信息进行编码,将文本信息转化为数字表示,使得文本信息向量化或者矩阵化,以便可以进行后续特征的提取等操作。
步骤S2012,在得到编码信息后,将编码信息输入到字符级卷积神经网络,确定待检测网站是否为目标类型网站。字符级卷积神经网络还包括输入层、多个卷积层、多个池化层(该池化层可以为最大池化层)、和多个全连接层,将编码信息输入至字符级卷积神经网络,编码信息经过字符级卷积神经网络中的卷积层和池化层,卷积层和池化层对编码信息进行卷积和池化操作,然后将卷积和池化的结果输入至全连接层。经过全连接层中dropout层正则化处理,防止了过拟合,提升了模型泛化能力,然后再通过全连接层将结果输出,得到待检测网站是否为目标类型网站的检测结果。该步骤中具体的卷积和池化操作,以及正则化处理的具体过程不是本方案的重点,这里不再详细说明。
值得说明的是,在对文本信息进行编码之前,还包括对所述文本信息进行清洗。通过对文本信息进行清洗去除了文本信息中的脏数据。
对文本信息的清洗可包括:检查数据一致性、处理无效值和缺失值等,进行数据清洗后的文本信息更便于后续的处理。获取的文本信息中通常都存在一定的脏数据,例如文本数据缺失或文本数据错误等,进行文本信息的清洗可以将文本信息中存在的这些脏数据去除,这些脏数据的存在会对后续的处理中的检测准确度存在一定影响,将这些脏数据去除后进一步提高了对文本信息处理的准确度。
利用字符级卷积神经网络对文本信息进行处理时,并不需要考虑单词层面的意义,也不需要语言的语法、句法、结构等层面的意义,针对的文本信息中字符层面的处理。而且该神经网络可以运用在包含多种不同的语言的语料中,由于该神经网络针对的字符级别的文本信息,文本信息最基本的组成单位即为字符,所以针对某一语言构成的语料进行处理时不需要预处理。通常的对于文本信息的处理算法针对的词组、句子等层面的文本信息,所以需要对某一语言构成的语料进行处理前需要进行预处理、分词、分句等操作。
例如,对中文语料的文本信息进行处理之前需要去除英文、数字、特殊符号等,然后在进行分词或者分句等操作,对文本信息进行预处理、分词、分句等操作后会损失较多的文本信息的特征,导致处理效果不佳。由此可以得知,本方案采用的字符级卷积神经网络从字符级别对文本信息进行处理可以取得更好的效果。
利用深度学习模型根据待检测网站的图像信息,从图像信息这一检测维度进行待检测网站是否为目标类型网站的检测,具体可以是利用图像处理神经网络模型根据待检测网站的图像信息,从图像信息这一检测维度进行待检测网站是否为目标类型网站的检测。
在图像处理中,图像信息可以通过包括图像信息的信息矩阵表示,可以是 RGB矩阵或者灰度矩阵等。例如,输入的图像为一个大小为64×64像素、三通道的彩色图片,则矩阵中每个元素为当前通道的色度值,深度学习模型通过卷积操作从该信息矩阵中提取特征对图像进行处理。
参考图4,该步骤具体包括:
步骤S2021,通过图像处理神经网络对图像信息进行逐点卷积及深度卷积,得到图像特征。本实施例中采用的图像处理神经网络模型包括MobileNetv2神经网络模型,该模型为基于深度可分离卷积的轻量级图像识别模型,深度可分离卷积将标准卷积分为深度卷积和逐点卷积,其原理是利用深度卷积和逐点卷积配合计算的方式对图像信息进行特征的提取,减少了卷积的复杂度。
参考图5为深度可分离卷积的分解结构示意图。图9为MobileNetv2神经网络模型的结构示意图,包括扩展层、卷积层和映射层。扩展层主要用于对图像信息进行逐点卷积等操作,扩展图像信息的通道数量,以便可以提取更多的特征。卷积层主要用于对扩展层对图像信息进行逐点卷积等操作的结果进行深度卷积等操作,得到图像特征。映射层主要用于对卷基层的输出的图像特征进行降维等操作,得到对图像信息的处理结果。
通过MobileNetv2神经网络模型对图像信息先进行逐点卷积,然后再将逐点卷积的结果进行深度卷积,得到图像特征。通过对图像信息进行逐点卷积提升了图像信息的通道数量,以便获取图像信息更多的特征,该处理层可以记为扩展层,将图像信息的通道数量进行数据扩张。该数据扩张的扩展倍数可以为 6倍等取值,可以根据实际需要进行调整。
在扩展层通过逐点卷积的方式提升图像的通道数量之后,再通过卷积层通过深度卷积的方式对逐点卷积的结果进行深度卷积,得到图像信息的图像特征。其中,在进行深度卷积之前,扩展层还对进行逐点卷积的卷积结果进行批量标准化处理和非线性处理(ReLU),非线性处理可以由激励层进行。在通过深度卷积对逐点卷积/批量标准化处理/ReLU的结果进行深度卷积之后,还包括对深度卷积的结果再次进行批量标准化处理和ReLU。
步骤S2022,根据对图像信息进行逐点卷积以及深度卷积之后得到的图像特征,确定待检测网站是否为目标类型网站。
MobileNetv2神经网络模型可以根据图像特征确定待检测网站是否为目标类型网站。包括MobileNetv2在内的图像处理神经网络模型为已经训练完成的、可以直接根据图像信息对待检测网站进行检测的神经网络模型。
MobileNetv2神经网络模型采用深度卷积和逐点卷积配合的方式提取图像信息的特征,可以在牺牲非常小的精度下成倍的减少卷积层的时间复杂度和空间复杂度。
进一步地,步骤S2022,根据对图像信息进行逐点卷积以及深度卷积之后得到的图像特征,确定待检测网站是否为目标类型网站,包括:
在得到图像特征之后,对该图像特征进行处理,包括降低该图像特征的维度。
由于步骤S2021中利用扩展层通过逐点卷积对图像信息进行了逐点卷积,提升了图像信息的通道,相当于升高了图像特征的维度,为了在获取图像信息更多的特征之后降低后续的计算量,所以需要降低该图像特征的维度。通过映射层对图像特征进行降维,通过该方式对图像特征进行“压缩”,保留有效的特征,然后在进行批量标准化处理,输出降维后的图像特征。然后根据维度降低后的图像特征,确定待检测网站是否为目标类型网站。值得说明的是,在将图像特征进行“压缩”之后,并不需要对“压缩”后的特征进行ReLU,由于图像特征已经被“压缩”,以及ReLU将负的输入全部输出为零,所以为了减少进一步图像特征的损失,这里不再进行ReLU操作。
通过对图像信息进行上述处理,保证神经网络模型对图像信息检测的准确率,同时检测过程的效率也很高,可以在损失精度不多的情况下大幅度降低参数量和计算量。例如,在实际的业务应用场景中大多数情况下没有图像处理单元(GPU)只有中央处理器(CPU),一般的图像处理算法对图像进行识别、判断等处理平均需500ms,而本方案中的MobileNetv2神经网络模型只需要60ms,检测效率有很大的提升。MobileNetv2神经网络模型的结构中不同层对图像信息的处理对于处理精度的损失很小,不影响检测结果。
利用深度学习模型根据待检测网站的资源网址信息,从资源网址信息这一检测维度进行待检测网站是否为目标类型网站的检测,具体可以是利用资源网址信息处理神经网络模型根据待检测网站的资源网址信息,从资源网址信息这一检测维度进行待检测网站是否为目标类型网站的检测,资源网站信息中包括网站的多种信息,例如网站地址URL等,这里并不限定资源网站信息中参考指标的数量,该实施例中至少例举了其中的一部分进行说明。
参考图10,该步骤包括:
步骤S2031,根据资源网址信息中的域名信息,确定待检测网站域名的重定向次数以及指向待检测网站的外部链接数量。
以网站地址URL为例进行说明,URL中包括网站的域名信息,根据域名信息可以确定待检测网站域名的重定向次数,通常根据一个网站被重定向的次数也可以检测该网站是否是一个目标类型网站,即重定向次数是检测网站是否为目标类型网站的一个参考指标。例如,目标类型网站为违规网站,通常情况下合法网站的的重定向次数较小,违规网站的重定向次数较大,也就是说违规网站的重定向次数大于合法网站的重定向次数。例如,在一个公开数据集中,合法网站被重定向的次数最多为一次,反之,违规网站的重定向次数可能为4 次,也就是说该违规网站至少被重定向了4次。
同样,根据域名信息还可以确定指向待检测网站的外部链接数量,根据网站的域名信息可以确定指向该网站的外部链接数量,具体可以通过外部链接查询工具进行查询,例如站长之家等,将域名信息输入至外部链接查询工具即可查询。指向一个网站的外部链接数量也能表现该网站的是否为目标类型网站的水平,指向待检测网站的外部链接数量也是检测待检测网站是否为目标类型网站的一个指标。例如对于将目标类型网站设置为违规网站,违规网站的生存周期较短,几乎没有指向违规网站的外部链接。反之,正常的网站通常都有多个指向其自身的外部链接。
例如,某一网站的网址为https://www.jd.com/,其包含的域名信息为www.jd.com,则该域名即为京东的IP地址的域名信息,根据外部链接查询工具可以确定指向该网站的外部链接数量,具体可以通过将这个域名信息输入至外部链接查询工具即可查询得到结果。
步骤S2032,根据资源网址信息中的源代码信息,确定待检测网站的状态栏中的网址是否被修改。
待检测网站的状态栏中的网址是否被修改的结果也是检测网站是否为目标类型网站的一个参考指标。状态栏可以显示网站地址,可以根据源代码信息确定网站的状态栏中的网址是否被改变。根据网站地址可以获取网站的源代码信息,具体可以通过源代码获取工具获取,可以通过站长之家等获取。
例如,当目标类型网站为违规网站时,有些网站会通过使用JavaScript编程语言对网站进行源代码的修改,使得网站在状态栏中向用户显示一个假的网址,对此可以通过提取网站的源代码信息,确定网站的状态栏中的网址是否被修改,例如通过“on MouseOver”事件,然后检测网站是否对状态栏中的网址做出更改。
步骤S2033,获取网站的页面级别(PageRank,PR)。PR用于衡量网站在互联网上的“重要性”,网站的页面级别PR也是检测网站是否为目标类型网站的参考指标之一。通常来说PR值越大,网站的重要性越高,PR值的范围为从 0到1。例如,目标类型网站为违规网站时,通常情况下大约95%的违规网站没有PR,其余5%的违规网站的PR值最多只能达到“0.2”。
步骤S2034,根据重定向次数、外部链接数量、待检测网站的状态栏中的网址是否被修改的结果以及页面级别PR,确定待检测网站是否为目标类型网站。
通过对上述几个检测待检测网站是否为目标类型网站的参考指标,确定待检测网站是否为目标类型网站,具体可以是通过根据上述几个检测待检测网站是否为目标类型网站的参考指标训练得到的深度神经网络模型根据上述几个检测指标进行确定的。这里用到的深度神经网络模型可以是监督学习模型,例如支持向量机、决策树或随机森林算法等。
当然还可以根据其他参考指标对待检测网站进行检测,这里不再一一例举,其中,步骤S2031、步骤S2032和步骤S2033并没有执行顺序先后的限制。
在该实施例中,例如目标类型网站为违规网站,违规网站的文本信息中含有反政府、反社会、有关邪教组织或者严重侵害他人隐私信息等违反相关规定的信息,图像信息中含有涉黄、涉恐涉暴等违反相关规定的信息。违规网站的重定向次数较大,指向该违规网站的外部链接数量几乎为0,违规网站的状态栏中的网址被修改过。当待检测网站的文本信息、图像信息和资源网站信息等检测维度的信息与违规网站的上述检测维度的信息相匹配时,将该待检测网站视为违规网站。
在另一实施例中,获取的待检测网站的不同检测维度的网站信息包括待检测网站的图像信息时,获取图像信息的步骤包括:
网站中存在多种图像信息,需要先采集待检测网站的图像信息。
在获取图像信息后,根据图像信息中图像的数据量,按照数据量从大到小的顺序获取预设数量的图像。图像的数据量的大小反应了图像包含的特征的多少,获取的数据量越大的图像,其包含的特征会越多,对于确定待检测网站是否为目标类型网站的准确度越高。
在获取所述图像信息失败后,还包括:确定待检测网站是否为有效网站,当待检测网站为有效网站时,使用网页应用程序测试工具打开待检测网站,对待检测网站进行截屏并将截屏作为待检测网站中的图像信息。网页应用程序测试工具可以是包括selenium在内的自动化工具模拟浏览器打开待检测网站进行截屏操作。通过该方法可以在有些网站设置反爬等机制后对这些网站进行截屏操作,并作为获取的这些网站的图像信息。
在另一实施例中,步骤S300,根据多个所述检测结果,确定待检测网站是否为目标类型网站,包括:
根据多个检测结果的加权平均,确定综合检测结果。
在通过步骤S200得到多个不同检测维度的检测结果后,根据多个检测结果确定网站的综合检测结果,根据该综合检测结果确定待检测网址是否为目标类型网站。具体可以是根据多个检测结果的加权平均数确定综合检测结果。例如,通过投票的方法确定综合检测结果,按照少数服从多数确定结果,该方法中多个检测结果所占的权重相同。还可以通过预设各个检测结果所占的比重,然后再随着反馈结果调节该比重,可以得到越来越准确的结果。
在得到综合检测结果后,根据该综合检测结果,确定待检测网站是否为目标类型网站。可以通过将该综合检测结果与阈值进行比较,根据综合检测结果与阈值的大小等信息确定待检测网站是否为目标类型网站。
例如,检测结果包括文本信息、图像信息和资源网站信息三个不同的检测维度的检测结果,文本信息、图像信息和资源网站信息分别对应的检测结果所占的权重相同,分别为三分之一,根据三者的检测结果各自所占的权重确定综合检测结果。由于三者的检测结果所占的权重相同,所以按照少数服从多数确定综合检测结果,即三者中的两者可以确定待检测网站为目标类型网站时即可确定综合检测结果。
当三者所占的权重不相同时,如文本信息的检测结果和图像信息的检测结果所占初始权重均为40%,资源网站信息的检测结果所占的初始权重为20%。在该种情况下,根据当前三种检测维度的信息各自所占的权重确定综合检测结果,之后根据确定的综合检测结果的准确率调节三种检测信息对应的检测结果的权重,进而可以得到检测准确率更高的综合检测结果。
在另一实施例中,步骤S300,根据多个检测结果,确定待检测网站是否为目标类型网站,还可以包括:
通过神经网络模型依据多个检测结果,确定待检测网站是否为目标类型网站。
该实施例中的神经网络模型可以是已经训练完成的模型,该模型包括半监督学习模型等。该实施例中以半监督学习模型(如Mean Teacher模型)为例,这里的神经网络模型为第一模型,该第一模型训练采用的训练数据包括:第一样本数据和样本数据的第一标签。其中,第一标签为:第二模型对第一样本数据预测得到的标签。第一模型可以是MeanTeacher模型中的学生(student)网络,第二模型可以是Mean Teacher模型中的老师(teacher)网络。student网络训练时采用的训练数据包括第一样本数据和第一样本数据的第一标签,该第一标签可以为teacher网络对第一样本数据进行预测得到的标签。这样,Mean Teacher模型可以仅依赖于少量的人工标记数据就可以完成神经网络模型的训练,而且其支持在线更新的功能。参考图11,为Mean Teacher模型的结构示意图。
当然,该神经网络模型还可以包括监督学习模型。
综上所述,本申请的方案通过利用待检测网站的多个不同检测维度的检测信息对待检测网站进行是否为目标类型网站的检测,实现了对待检测网站多方位、深度立体地检测,更好地实现了对目标类型网站的识别,并且在实际测试中取得了较好的效果。相比于现有的识别方法,本方案提高了检测的准确率,并且检测性能可以迅速迭更新。其中字符级卷积神经网络模型的特点在于很好的适配了网页文本,MobileNetv2神经网络模型在保证准确率的同时相较于一般的图像算法极大的提升了运行效率,可以更快地对图像信息做出识别。
本申请的技术方案还提供了一种目标类型网站的检测系统,该系统为上述方法的实现载体,可以解决上述方法解决的技术问题,达到上述方法可以达到的技术效果。参考图12,该系统包括:
获取模块,用于获取待检测网站的不同检测维度的网站信息。
检测模块,用于利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,获得多个检测结果。
确定模块,用于根据多个所述检测结果,确定所述待检测网站是否为目标类型网站。
在另一实施例中,获取模块包括:
文本信息获取子模块,用于获取待检测网站的文本信息。
图像信息获取子模块,用于获取待检测网站的图像信息。
资源地址信息获取子模块,用于获取待检测网站的资源地址信息。
在另一实施例中,检测模块包括:文本信息检测子模块、图像信息检测子模块和资源地址信息检测子模块。
其中,文本信息检测子模块包括:
编码单元,用于根据字符级卷积神经网络模型的字符表,对文本信息进行编码,得到文本信息中各个字符对应的编码信息。
第一确定单元,用于将编码信息输入到字符级卷积神经网络,确定待检测网站是否为目标类型网站。
检测模块还包括清洗单元,用于在对文本信息进行编码之前,对文本信息进行清洗。
在另一实施例中,图像信息检测子模块包括:
卷积单元,用于通过图像处理神经网络对图像信息进行逐点卷积及深度卷积,得到图像特征。
第二确定单元,用于根据图像特征,确定待检测网站是否为目标类型网站。
进一步地,第二确定单元包括:
降维子单元,用于降低图像特征的维度。
确定子单元,用于根据维度降低后的图像特征,确定待检测网站是否为目标类型网站。
在另一实施例中,资源地址信息检测子模块包括:
重定向次数单元,用于根据资源网址信息中的域名信息,确定待检测网站域名的重定向次数。
外部链接数量单元,用于根据资源网址信息中的域名信息,确定指向待检测网站的外部链接数量。
网址修改确定单元,用于根据资源网址信息中的源代码信息,确定待检测网站的状态栏中的网址是否被修改。
页面级别PR获取单元,用于获取网站的页面级别PR。
第三确定单元,用于根据重定向次数、外部链接数量、待检测网站的状态栏中的网址是否被修改的结果以及页面级别PR,确定待检测网站是否为目标类型网站。
在另一实施例中,图像信息获取子模块包括:
采集单元,用于采集所述待检测网站中的图像信息。
图像获取单元,根据所述图像信息中图像的数据量,按照数据量从大到小的顺序获取预设数量的图像。
进一步地,图像信息获取子模块还包括:
截图单元,用于在获取图像信息失败后,确定待检测网站是否为有效网站,以及当待检测网站为有效网站时,使用网页应用程序测试工具打开待检测网站,对待检测网站进行截屏并将截屏作为待检测网站中的图像信息。
在另一实施例中,确定模块包括:
第一综合检测结果确定单元,用于根据多个检测结果的加权平均,确定综合检测结果。
第一目标类型网站确定模块,用于根据综合检测结果,确定待检测网站是否为目标类型网站。
在另一实施例中,确定模块还包括:
第二目标类型网站确定模块,用于通过神经网络模型依据多个所述检测结果,确定待检测网站是否为目标类型网站。
在另一实施例中,以检测违规网站为例进行说明,提供了一种违规网站检测系统。
违反相关规定的网站(即违规网站)通常指含有反对宪法所确定的基本原则的;危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;损害国家荣誉和利益的;煽动民族仇恨、民族歧视,破坏民族团结的;破坏国家宗教政策,宣扬邪教和封建迷信的;散布谣言,扰乱社会秩序,破坏社会稳定的;散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的;侮辱或者诽谤他人,侵害他人合法权益的;含有法律、行政法规禁止的等其他内容的网站。近年来,随着计算机和移动互联网技术的快速发展,通过短期搭建的违规网站进行违法诈骗等活动的行为日趋增多,这类违规网站传播途径广,通常存在于伪基站发送的短信和彩信,微信等各类社交软件,以及其他可以传播网站信息的媒介当中。
在先的技术中,主要是通过黑名单过滤技术、启发式特征检测技术以及基于传统机器学习的检测技术对违规网站进行检测。黑名单过滤技术主要是通过不断对黑名单进行更新,将检测到的违规网站添加进黑名单,从而通过黑名单检测违规网站。启发式特征检测技术主要是通过将网站的链接、文本内容及域名等信息的异常特征作为违规网站判定的标准,根据该判定标准检测网站是否为违规网站。基于传统机器学习的检测技术主要是利用有监督的传统机器学习方法,通过对大量的违规网站提取相关或无关特征向量生产及训练判别模型,利用判别模型对违规网站进行检测。
在实际检测和防治违规网站以及不良信息的传播中,黑名单过滤技术主要是依靠用户提供的举报信息对可疑的违规网站进行检测,该方法多为在用户已经遭受违规网站侵害后才能发挥作用,存在一定的滞后性。且黑名单技术受限于名单数量,所以还需要人工对黑名单进行更新。由于违规网站的生存周期通常较短,所以该方法不能及时发现违规网站。启发式特征检测技术对违规网站检测的过程复杂,需要人工制定大量的规则,且需要不断对该规则进行更新,还有可能会发生误报的情况。基于传统机器学习的检测方法存在识别率低,模型泛化性不好的缺点,特别是现今违规网站存在活动周期短,更新快等特点,该方法不能很好的对违规网站进行判别。基于上述几种在先技术的方法存在的问题,尽早地、准确地、高效地发现违规网站成为对违规网站检测的重点。
对违规网站进行检测和防治的难点主要在于如何获取网站的有效信息,通常一个网站中最有效的信息是网站中的文本信息和图片信息,其次是包括网站域名信息和根据网页源码获得的信息的资源地址信息。对于获取到的网站的文本通常都含有噪声,并不能直接使用。而面对许多违规网站的反爬机制,如何顺利的获取网站的图片信息也是一个问题。
获取的违规网站的文本信息并不规范,含有多种特殊字符,句子原有的句法信息以及单词信息存在错误。现有技术中通常对文本信息进行处理的方式为先进行预处理,然后对预处理后的文本信息进行分词,再通过相关算法进行检测,由于分词等操作容易丢失很多特征信息,会造成算法检测的准确率较低。针对网站的图像信息的检测,需要使用图像处理算法,然而现有技术中的图像算法模型在处理过程中的参数量过于庞大,在实际使用过程中会造成整个系统的运行效率低下。
该实施例提出了一种多维度的违规网站检测系统,通过采集待检测网站的多维度的检测信息,然后分别根据多个不同维度的检测信息对网站进行是否为违规网站的检测,得到多个检测结果。最后综合多个检测结果确定待检测网站是否为违规网站。该违规网站检测系统包括信息采集模块、预处理模块、文本信息处理模块、图像信息处理模块、URL信息处理模块以及综合分析模块。如图13所示。
其中,
信息采集模块,主要采集待检测网站的文本信息、图像信息、包括域名信息和网站源代码信息的URL信息,域名信息可以是通过whois数据库查询得到的。
预处理模块,在获取文本信息后先对文本信息进行预处理工作,该预处理包括先从待检测网站中获取文本信息,然后再进行数据清洗,数据清洗用于去除文本信息中的噪声,以便提高文本信息处理模块的准确度。例如,先从待检测网站中分离提取文本信息“祺排新平台上1OO分得158【837210.com】镫得秒提”,在对文本信息进行清洗。
文本信息处理模块,在对经过预处理后的文本信息进行处理时,利用字符级卷积神经网络对文本信息进行处理,也即Char-CNN文本分类算法。
Char-CNN是字符级文本分类算法,该算法虽然也是运用卷积网络对文本信息进行序列化预测处理,但是和其他的深度学习文本分类算法相比,该算法不需要对单词层面的信息进行处理,也不需要语言的语法和句法结构等信息即可实现非常好的效果。除此之外,该算法可以运用在包含多种不同语言的语料中,例如,在对由中文构成的语料进行处理时,不需要去除英文、数字以及特殊字符等操作,因为各种文本信息都是由基本的字符组成。其他算法在对由中文构成的语料进行处理前都需要将去除其中的英文、数字以及特殊字符等,然后再进行分词,最后再进行预测等处理。
参考图2,Char-CNN文本分类算法对文本信息进行处理的过程如下:
该字符级卷积神经网络模型为已经经过训练的模型,可以根据文本信息进行待检测网站是否为目标类型网站的检测。该字符级卷积神经网络模型包括已经构建完成的字符表,该字符表为包括中文、英文、数字和特殊字符的共3970 个字符的字符表,当然还可以是包括其他字符的字符表,这里不再进行限定。将获取的待检测网站的文本信息中的各个字符作为编码对象输入至字符表中,根据字符表对各个字符进行编码,得到各个字符对应的编码信息,该编码信息可以为编码向量,也可以为由编码向量组成的编码矩阵等。该步骤中的编码方式可以为one-hot编码,也可以是其他可以实现相同功能的编码方式,具体编码过程不再详细说明。
在得到编码信息后,将编码信息输入到字符级卷积神经网络,确定待检测网站是否为目标类型网站。字符级卷积神经网络还包括输入层、多个卷积层、多个池化层(该池化层可以为最大池化层)、和多个全连接层,将编码信息输入至字符级卷积神经网络,编码信息经过字符级卷积神经网络中的卷积层和池化层,卷积层和池化层对编码信息进行卷积和池化操作,然后将卷积和池化的结果输入至全连接层。经过全连接层中dropout层正则化处理,防止了过拟合,提升了模型泛化能力,然后再通过全连接层将结果输出,得到待检测网站是否为违规网站的检测结果。该步骤中具体的卷积和池化操作,以及正则化处理的具体过程不是本方案的重点,这里不再详细说明。
图像信息处理模块,可以基于图像特征识别技术,检测一些为了躲避文本信息特征检测识别技术的违规网站。但是图像处理算法也通常伴随着算法复杂,计算量大以及占用空间大等缺点,例如在实际的业务应用场景中,图像处理算法通常需要图像处理器(GPU)的计算资源,同时为了保证识别或检测的准确率也需要非常复杂的网络模型。但是在实际业务处理过程中,通常只有中央处理器(CPU)可供选择,导致处理效果不佳,并且大多数图像处理算法的训练非常耗时,在CPU上进行识别或检测的效率较低。
对于信息采集模型采集图像信息而言,根据待检测网站中包含的图像的数据量,按照数据量由大到小的顺序获取图像信息。当获取图像信息失败后,确定该待检测网站是否为有效网站,当确认待检测网站是有效网站时,通过类 selenium的网页应用程序测试的自动化工具模拟浏览器打开该待检测网站,对待检测网站进行截屏操作,将截取的网站屏幕作为该待检测网站的图像信息。这样可以在一些网站设置反爬等机制后获取网站的图像信息。
该图像信息处理模块采用的是MobileNetv2网络模型对图像信息进行处理,得到待检测网站是否为违规网站的检测结果。该MobileNetv2网络模型是一个轻量级的图像识别模型,在保证准确率的同时,其训练过程和预测过程的效率都较高。MobileNetv2参考了ResNet网络,但采用的是深度卷积(Depth-wise, DW)搭配逐点卷积(Point-wise,PW)的方式对图像信息进行处理,进而提取图像信息的特征。可以在牺牲非常小的精度下成倍的减少卷积层的时间复杂度和空间复杂度。
参考图5,图5的(a)部分为标准卷积拆示意图,(b)部分为深度卷积示意图,(c)部分为逐点卷积示意图。MobileNetv2网络模型将标准卷积拆分为两个分卷积:第一层称为深度卷积,对每个输入通道应用单通道的轻量级滤波器。第二层称为逐点卷积,负责计算输入通道的线性组合构建新的特征。图中M、 Dk为卷积核的维度参数,N为卷积核的数量。
参考图6,为标准卷积的过程,假设输入层输入的为一个大小为64×64像素、三通道彩色图片,经过一个包含4个过滤器(Filter)的卷积层进行卷积后,输出4个特征图(Feature Map),特征图的尺寸大小与输入层输入的图像的尺寸大小相同。
参考图7,为深度卷积的示意图。同样以大小为64×64像素、三通道彩色图片为例,首先经过深度卷积层进行深度卷积,此次的卷积完全是在二维平面内进行,而且卷积核或过滤器(Filter)的数量与上一层的深度相同。所以一个三通道的图像经过深度卷积运算后生成3个特征图。
深度卷积完成后的特征图数量与输入层的深度相同,但是深度卷积运算只对输入层的每个通道独立进行卷积运算,没有有效的利用不同特征图在相同空间位置上的信息。因此需要增加另外一步操作来将这些特征图进行组合生成新的特征图。
参考图8,为逐点卷积的示意图,逐点卷积对图7所示的深度卷积的结果进行卷积。逐点卷积的运算与标准卷积运算非常相似,不同之处在于卷积核或过滤器的尺寸为1×1×M,M为上一层的深度。所以这里的卷积运算会将上一步的特征图在深度方向上进行加权组合,生成新的特征图。新的特征图的数量与过滤器的数量相同。经过逐点卷积之后,同样输出了4张特征图,与标准卷积的输出相同。
标准卷积hi×wi×di,应用标准卷积核K∈Rk×k×di×dj产生的输出为 hi×wi×dj。
标准卷积的计算消耗为:hi·wi·di·dj·k·k。
拆分后的深度分离卷积计算消耗为:hi·wi·di(k2+dj),
MobileNetv2中使用的卷积核大小k=3,与标准卷积相比计算量减少了8~9 倍,精度上有略微的损失。
参考图9,除了深度可分离卷积的堆叠以外在MobileNetv2的网络设计中,还使用了扩展层(Expansion layer)和映射层(Projection layer)。扩展层用于将低维空间映射到高维空间,例如将图像信息的通道数量进行数据扩展。扩展层有一个表示维度扩展倍数的超参数,该超参数可以根据实际需要进行调整,默认值设置为6倍。映射层可以把高维的特征映射到低维特征中,即将高维的图像特征进行降维,该将高维特征映射到低维特征的结构也可以称之为瓶颈层 (Bottleneck layer)。
在实际业务场景中一般只设置有中央处理器(CPU),其他的图像处理算法对图像信息进行检测一般比较耗时,例如,其他图像处理算法对一张图片进行检测平均需要500ms,而MobileNetv2模型仅仅只需要60ms,由此可见, MobileNetv2模型成倍的减少了对图像检测的时间。在实际识别的准确率上面, MobileNetv2通过优化网络结构,不同层对图像信息的处理对于处理精度的损失很小,不影响检测结果的准确率。
除了对网站的文本信息和图像信息检测以外,通过综合分析网站的URL信息,包括源代码和域名、PR等信息,同样可以判别待检测网站是否是违规网站。
URL信息处理模块通过对根据域名信息确定待检测网站的重定向次数。通常也可以根据一个网站被重定向的次数判别其是否是一个正常网站。通常情况下合法网站的的重定向次数较小,违规网站的重定向次数较大,也就是说违规网站的重定向次数大于合法网站的重定向次数。例如,在一个公开数据集中,合法网站被重定向的次数最多为一次,反之,违规网站的重定向次数可能为4 次,也就是说该违规网站至少被重定向了4次。
由于JavaScript编程语言可以实现隐藏真实信息的功能,许多违规网站会使用JavaScript编程语言对网站的源代码进行修改,使得在网站状态栏中向用户显示一个假的网址。URL信息处理模块还可以通过提取网站的源代码信息,确定网站的状态栏中的网址是否被修改,例如通过“on Mouse Over”事件,然后检测网站是否对状态栏中的网址做出更改。
URL信息处理模块还可以根据PR值检测网站是否为违规网站,PR的值范围从0到额,PR用于俄网站莪,PR值越大,网站的重要性越高。例如。在公开的数据集中,大约95%的违规网站没有PR,其余5%的违规网站的PR值最多只能达到“0.2”。
URL信息处理模块还可以根据指向待检测网站的外部链接数量确定待检测网站是否为违规网站。具体可以根据域名信息确定指向待检测网站的外部链接数量,根据网站的域名信息可以确定指向该网站的外部链接数量,具体可以通过外部链接查询工具进行查询,例如站长之家等,将域名信息输入至外部链接查询工具即可查询。指向一个网站的外部链接数量也能表现该网站的是否为目标类型网站的水平,指向待检测网站的外部链接数量也是检测待检测网站是否为目标类型网站的一个指标。例如对于将目标类型网站设置为违规网站,违规网站的生存周期较短,几乎没有指向违规网站的外部链接。反之,正常的网站通常都有多个指向其自身的外部链接。
URL信息处理模块还可以根据重定向次数、外部链接数量、待检测网站的状态栏中的网址是否被修改的结果以及页面级别PR,确定待检测网站是否为违规网站,该检测结果与文本信息处理模块和图像信息处理模块得到的结果并列作为综合分析模块确定待检测网站是否为违规网站的参考因素。
综合分析模块将分别根据文本信息、图像信息和URL信息确定待检测网站是否为违规网站的三种检测结果综合分析,确定待检测网站是否为违规网站。
综合分析模块进行综合分析的方法可以包括:
方法一:根据三个信息处理模块得到的检测结果,投票法是最简单的一种方式,在投票法中各个信息处理模块的检测结果所占的权重被视为相同,按照少数服从多数确定综合分析结果。
方法二:根据经验,先设定各个信息处理模块的检测结果所占的比重,三个信息处理模块的检测结果在综合分析中所占的权重在后续的检测过程中,随着综合分析结果的分析不断的调整各个信息处理模块的检测结果所占的权重,综合分析的结果会越来越高。
方法三:使用根据神经网络训练的分析结果判别器对三种信息处理模块的检测结果进行综合分析,得到综合分析结果,确定待检测网站是否为违规网站。该综合分析结果判别器是预先根据样本数据训练完成的模型。
参考图11,本实施例中使用的是利用半监督学习的Mean Teacher使神经网络模型。该模型包括两个网络:teacher网络以及student网络,这两个网络结构是相同的,teacher网络是通过student网络计算得到的。在实际训练模型时,用两份数据集其中包含标签的样本Xl=(x1,...,xl)和标签Yl=(y1,...,yl),无标签的样本训练。但是两个网络的更新方式不同,两个网络参数的更新过程如下:
Teacher网络参数的更新:
整个训练过程中teacher网络的参数是通过student网络参数进行指数移动平均值(Exponential Moving Average)更新得到。
Student网络的更新:
通过损失函数梯度下降法更新参数得到,其中的损失函数包含两个部分,一部分是有监督的损失函数,其主要保证的是有标签训练数据的拟合。第二部分则是无监督损失函数,其主要保证的是teacher网络的预测结果和student网络的预测标签尽量的相似。由于teacher网络参数是student网络参数的指数移动平均值,因此不管什么样的样本,预测标签都不应该有太大波动。
student模型权重θ,输入噪声η;teacher模型权重θ′,输入噪声η′,首先定义两个模型的一致性(consistency cost)为公式如下:
构建损失函数L1,teacher模型的参数更新通过指数移动平均值EMA得到,θt=αθt′-1+(1-α)θt,α为参数。
对于有标签的样本构造分类损失函数L2(Z1,Y1)。
最终损失函数L=L1+L2并根据随机梯度下降法SGD更新student模型的参数,如图14所示,为随机梯度下降法SGD的过程示意图。
Mean Teacher模型仅依赖于少量的人工标记数据就可以完成综合分析模块的的建模,而且其支持在线更新的功能,提高了模型的迭代能力。
该实施例的方案通过对网站进行多方位、深度立体地评判分析,很好地完成了对违规网站的识别,并且在实际测试中取得了较好的效果。相比较现有技术中的检测方法,该系统提高了检测的准确率,并且整个系统是高性能、可迅速迭代的。
将目标类型网站设置为违规网站,通过本申请的上述不同实施例中的方法或系统,可以更好的对违规网站进行检测,达到上述技术效果,这里不再详细说明。处理违规网站这种应用场景还可以是其他适用的应用环境。
本申请的技术方案还提供了一种电子设备,包括:
处理器;
存储器,其存储有程序指令,当程序指令被处理器执行时,使得电子设备执行上述任一项实施例中的方法。
本申请的技术方案还提供了一种存储介质,其存储有程序,当程序由处理器运行时,执行上述任一项实施例中的方法。该存储介质包括非瞬间存储介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的方法技术方案。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的设备技术方案。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种目标类型网站的检测方法,其特征在于,包括:
获取待检测网站的不同检测维度的网站信息;
利用深度学习模型依据不同检测维度的所述网站信息,对所述待检测网站进行检测,获得多个检测结果;
根据多个所述检测结果,确定所述待检测网站是否为目标类型网站。
2.根据权利要求1所述的检测方法,其特征在于,所述获取待检测网站的不同检测维度的网站信息,包括:
获取所述待检测网站的文本信息、图像信息及所述待检测网站的资源地址信息。
3.根据权利要求2所述的检测方法,其特征在于,所述利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,包括:
根据字符级卷积神经网络模型的字符表,对所述文本信息进行编码,得到所述文本信息中各个字符对应的编码信息;
将所述编码信息输入到所述字符级卷积神经网络,确定所述待检测网站是否为目标类型网站。
4.根据权利要求2所述的检测方法,其特征在于,所述利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,还包括:
通过图像处理神经网络对所述图像信息进行逐点卷积及深度卷积,得到图像特征;
根据所述图像特征,确定所述待检测网站是否为目标类型网站。
5.根据权利要求2所述的检测方法,其特征在于,所述利用深度学习模型依据不同检测维度的所述网站信息,进行所述待检测网站是否为目标类型网站的检测,还包括:
根据所述资源网址信息中的域名信息,确定所述待检测网站域名的重定向次数以及指向所述待检测网站的外部链接数量;
根据所述资源网址信息中的源代码信息,确定所述待检测网站的状态栏中的网址是否被修改;
获取所述网站的页面级别PR;
根据所述重定向次数、所述外部链接数量、所述待检测网站的状态栏中的网址是否被修改的结果以及所述页面级别PR,确定所述待检测网站是否为目标类型网站。
6.根据权利要求2所述的检测方法,其特征在于,获取所述待检测网站中的图像信息,包括:
采集所述待检测网站中的图像信息;
根据所述图像信息中图像的数据量,按照数据量从大到小的顺序获取预设数量的图像。
7.根据权利要求6所述的检测方法,其特征在于,所述获取所述待检测网站中的图像信息,还包括:
在获取所述图像信息失败时,确定所述待检测网站是否为有效网站;
当所述待检测网站为有效网站时,使用网页应用程序测试工具打开所述待检测网站,对所述待检测网站进行截屏并将所述截屏作为所述待检测网站中的图像信息。
8.根据权利要求1所述的检测方法,其特征在于,所述根据多个所述检测结果,确定所述待检测网站是否为目标类型网站,包括:
根据多个所述检测结果的加权平均,确定综合检测结果;
根据所述综合检测结果,确定所述待检测网站是否为目标类型网站。
9.根据权利要求1所述的检测方法,其特征在于,所述根据多个所述检测结果,确定所述待检测网站是否为目标类型网站,包括:
通过神经网络模型依据多个所述检测结果,确定所述待检测网站是否为目标类型网站;其中,所述神经网络模型为第一模型;所述第一模型训练采用的训练数据包括:第一样本数据和所述样本数据的第一标签;所述第一标签为:第二模型对所述第一样本数据预测得到的标签。
10.一种目标类型网站的检测系统,其特征在于,包括:
获取模块,用于获取待检测网站的不同检测维度的网站信息;
检测模块,用于利用深度学习模型依据不同检测维度的所述网站信息,对所述待检测网站进行检测,获得多个检测结果;
确定模块,用于根据多个所述检测结果,确定所述待检测网站是否为目标类型网站。
11.一种电子设备,包括:
处理器;
存储器,其存储有程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行如权利要求1~9任一项所述的方法。
12.一种存储介质,其存储有程序,当所述程序由处理器运行时,执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895955.3A CN114118398A (zh) | 2020-08-31 | 2020-08-31 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895955.3A CN114118398A (zh) | 2020-08-31 | 2020-08-31 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114118398A true CN114118398A (zh) | 2022-03-01 |
Family
ID=80359824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010895955.3A Pending CN114118398A (zh) | 2020-08-31 | 2020-08-31 | 目标类型网站的检测方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118398A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450634A (zh) * | 2023-06-15 | 2023-07-18 | 中新宽维传媒科技有限公司 | 一种数据源权重评估方法及其相关装置 |
CN116595336A (zh) * | 2023-07-07 | 2023-08-15 | 中国电子科技集团公司第十五研究所 | 一种数据纠偏方法、装置和设备 |
-
2020
- 2020-08-31 CN CN202010895955.3A patent/CN114118398A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450634A (zh) * | 2023-06-15 | 2023-07-18 | 中新宽维传媒科技有限公司 | 一种数据源权重评估方法及其相关装置 |
CN116450634B (zh) * | 2023-06-15 | 2023-09-29 | 中新宽维传媒科技有限公司 | 一种数据源权重评估方法及其相关装置 |
CN116595336A (zh) * | 2023-07-07 | 2023-08-15 | 中国电子科技集团公司第十五研究所 | 一种数据纠偏方法、装置和设备 |
CN116595336B (zh) * | 2023-07-07 | 2023-09-08 | 中国电子科技集团公司第十五研究所 | 一种数据纠偏方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Detecting fake news for reducing misinformation risks using analytics approaches | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN109284371B (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN111597803B (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
Derczynski et al. | Helping crisis responders find the informative needle in the tweet haystack | |
Akhter et al. | Cyber bullying detection and classification using multinomial Naïve Bayes and fuzzy logic | |
CN107077640A (zh) | 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理 | |
CN114155529A (zh) | 结合文字视觉特征和文字内容特征的违规广告识别方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN112258254A (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
Schofield et al. | Identifying hate speech in social media | |
CN114118398A (zh) | 目标类型网站的检测方法、系统、电子设备及存储介质 | |
Rajesh et al. | Fraudulent news detection using machine learning approaches | |
Ray et al. | Prediction and Analysis of Sentiments of Reddit Users towards the Climate Change Crisis | |
CN113822521A (zh) | 题库题目的质量检测方法、装置及存储介质 | |
CN117033626A (zh) | 一种文本审核方法、装置、设备及存储介质 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
US11748573B2 (en) | System and method to quantify subject-specific sentiment | |
Ullah et al. | Classification of cybercrime indicators in open social data | |
CN113868417A (zh) | 一种敏感评论识别方法、装置、终端设备和存储介质 | |
Cui et al. | Multi-modality frequency-aware cross attention network for fake news detection | |
Hettiarachchi et al. | Next generation data classification and linkage: Role of probabilistic models and artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |