CN117152565A - 模型训练方法、相关装置及存储介质 - Google Patents
模型训练方法、相关装置及存储介质 Download PDFInfo
- Publication number
- CN117152565A CN117152565A CN202311340648.9A CN202311340648A CN117152565A CN 117152565 A CN117152565 A CN 117152565A CN 202311340648 A CN202311340648 A CN 202311340648A CN 117152565 A CN117152565 A CN 117152565A
- Authority
- CN
- China
- Prior art keywords
- model
- attack
- category
- sample
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012549 training Methods 0.000 title claims abstract description 80
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 238000006467 substitution reaction Methods 0.000 claims abstract description 31
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 44
- 238000013507 mapping Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002068 genetic effect Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 17
- 230000006854 communication Effects 0.000 description 17
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/70—Game security or game management aspects
- A63F13/79—Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,公开了一种模型训练方法、相关装置及存储介质,包括:选定攻击类别和攻击逻辑;根据攻击逻辑构建待训练模型;将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;根据样本图片和候选对抗扰动,得到对抗样本;利用对抗样本输入至少一个替代模型,得到目标损失值;在目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至目标损失值满足预设条件,将当前生成候选对抗扰动的待训练模型作为训练后模型。本申请基于符合实际应用要求的对抗样本生成模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确。
Description
技术领域
本申请涉及人工智能模型训练技术领域,更具体地涉及一种模型训练方法、相关装置及存储介质。
背景技术
现有的模型攻击方法根据攻击的结果可以分为两大类:第一类为定向攻击,其攻击样本可以令模型在预测时,所有的识别结果均为目标类别。第二类为非定向攻击,即攻击样本可以令模型在预测时,所有的识别结果均为错误类别。
定向攻击主要用于评估基于深度学习的目标检测模型,定向攻击需要非常多的对抗样本去对目标检测模型进行鲁棒性评估。
目前,目标检测模型在对抗样本攻击下,通过加入微小扰动构造的对抗样本很容易使模型预测出错,无法得到足够符合要求的对抗样本,使得目标检测模型的评估效率低且模型评估不够准确。
发明内容
本申请实施例提供一种模型训练方法、相关装置及存储介质,可以得到符合实际应用要求的对抗样本生成模型,基于符合实际应用要求的对抗样本生成模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确。
第一方面,本申请实施例提供一种模型训练方法,包括:
选定攻击类别和攻击逻辑;
根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;
将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;
根据所述样本图片和所述候选对抗扰动,得到对抗样本;
利用所述对抗样本输入至少一个替代模型,得到目标损失值;
在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
在本申请的一种实施方式中,所述选定攻击类别和攻击逻辑,包括:
选定攻击类别;
获取针对所述待训练模型的初始攻击逻辑;
通过遗传算法和所述初始攻击逻辑,求解最优攻击逻辑,得到针对所述待训练模型的攻击逻辑。
在本申请的一种实施方式中,所述初始攻击逻辑还包括与所述攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集;
所述获取针对所述待训练模型的初始攻击逻辑,包括:
通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别;
通过预设的语义信息提取网络,计算属于辅助语义引导类别的类别样本约束集;
根据所述攻击类别、辅助语义引导类别和所述类别样本约束集,确定针对所述待训练模型的初始攻击逻辑。
在本申请的一种实施方式中,所述根据所述攻击逻辑构建待训练模型,包括:
将所述攻击类别嵌入类别映射网络进行类别映射,以将所述攻击类别嵌入到待训练模型;
所述通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别,包括:
将所述样本图片输入所述类别映射网络进行类别映射,输出预设特定目标的隐式向量;
将所述样本图片输入初始的待训练模型,得到样本向量;
在所述类别映射网络中将所述隐式向量和所述样本向量沿高度和宽度方向展开,以将所述隐式向量和所述样本向量的特征图在通道维度进行拼接,得到与所述攻击类别语义信息强相关的辅助语义引导类别。
在本申请的一种实施方式中,所述利用所述对抗样本输入至少一个替代模型,得到目标损失值,包括:
将所述对抗样本输入至少一个替代模型,得到所述至少一个替代模型的损失;
将所述对抗样本和所述类别样本约束集输入所述语义特征提取网络,输出第一语义特征和第二语义特征;
计算所述第一语义特征和所述第二语义特征之间的距离,并将所述距离作为样本约束之间的损失;
根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值。
在本申请的一种实施方式中,所述根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值,包括:
获取所述至少一个替代模型中各替代模型预设的第一损失参数;
获取所述语义特征提取网络预设的第二损失参数;
根据所述第一损失参数、所述第二损失参数、所述至少一个替代模型的损失和所述样本约束之间的损失,计算目标损失值。
第二方面,本申请实施例提供一种对抗样本的生成方法,所述方法利用如第一方面所述的模型训练方法训练得到的模型,生成对抗样本。
第三方面,本申请实施例提供一种模型评估方法,所述方法利用如第二方面所述的对方样本生成方法生成多个对抗样本,评估目标检测模型的鲁棒性。
第四方面,本申请实施例提供一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的模型训练方法、如第二方面所述的对抗样本生成方法、如第三方面所述的模型评估方法。
第五方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的模型训练方法、如第二方面所述的对抗样本生成方法、如第三方面所述的模型评估方法。
第六方面,本申请实施例提供一种包含指令的计算机程序产品,所述计算机程序产品包括程序指令,当所述程序指令在计算机或处理器上运行时,使得所述计算机或所述处理器执行如第一方面中任意一项所述的模型训练方法。
第七方面,本申请实施例提供一种芯片系统,该芯片系统包括:
通信接口,用于输入和/或输出信息;
处理器,用于执行计算机可执行程序,使得安装有所述芯片系统的设备执行如第一方面所述的模型训练方法、如第二方面所述的对抗样本生成方法、如第三方面所述的模型评估方法。
在一种可能的设计中,上述芯片系统还包括存储器,该存储器用于保存终端必需的程序指令和数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
第八方面,本申请实施例提供一种模型训练装置,具有实现对应于上述第一方面提供的模型训练方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
在本申请的一种实施方式中,所述模型训练装置包括:
选定模块,用于选定攻击类别和攻击逻辑;
构建模块,用于根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;
第一生成模块,用于将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;
第二生成模块,用于根据所述样本图片和所述候选对抗扰动,得到对抗样本;
计算损失模块,用于利用所述对抗样本输入至少一个替代模型,得到目标损失值;
确定模块,用于在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
在本申请的一种实施方式中,所述选定模块具体用于:
选定攻击类别;
获取针对所述待训练模型的初始攻击逻辑;通过遗传算法和所述初始攻击逻辑,求解最优攻击逻辑,得到针对所述待训练模型的攻击逻辑。
在本申请的一种实施方式中,所述初始攻击逻辑还包括与所述攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集;
所述选定模块具体用于:
通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别;
通过预设的语义信息提取网络,计算属于辅助语义引导类别的类别样本约束集;
根据所述攻击类别、辅助语义引导类别和所述类别样本约束集,确定针对所述待训练模型的初始攻击逻辑。
在本申请的一种实施方式中,所述构建模块具体用于:
将所述攻击类别嵌入类别映射网络进行类别映射,以将所述攻击类别嵌入到待训练模型;
所述选定模块具体用于:
将所述样本图片输入所述类别映射网络进行类别映射,输出预设特定目标的隐式向量;
将所述样本图片输入初始的待训练模型,得到样本向量;
在所述类别映射网络中将所述隐式向量和所述样本向量沿高度和宽度方向展开,以将所述隐式向量和所述样本向量的特征图在通道维度进行拼接,得到与所述攻击类别语义信息强相关的辅助语义引导类别。
在本申请的一种实施方式中,所述计算损失模块具体用于:
将所述对抗样本输入至少一个替代模型,得到所述至少一个替代模型的损失;
将所述对抗样本和所述类别样本约束集输入所述语义特征提取网络,输出第一语义特征和第二语义特征;
计算所述第一语义特征和所述第二语义特征之间的距离,并将所述距离作为样本约束之间的损失;
所述计算损失模块具体用于:
根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值。
在本申请的一种实施方式中,所述计算损失模块还用于:
获取所述至少一个替代模型中各替代模型预设的第一损失参数;
获取所述语义特征提取网络预设的第二损失参数;
根据所述第一损失参数、所述第二损失参数、所述至少一个替代模型的损失和所述样本约束之间的损失,计算目标损失值。
相较于现有技术,本申请实施例中基于至少一个替代模型计算目标损失值,基于目标损失值去校验当前对抗样本是否达到要求,如未达到要求则更新候选对抗扰动,在对抗样本达到要求后,将当前生成对抗样本的模型即为训练后模型,因此,本申请实施例引入第三方的至少一个替代模型去校验对抗样本是否要求,从而间接检测当前生成对抗样本的模型是否已训练到能生成符合要求对抗样本的程度,可以得到符合实际应用要求的对抗样本生成模型,进一步的,基于符合实际应用要求的对抗样本生成模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的模型训练系统的场景示意图;
图2是本申请实施例中提供的模型训练方法的一个实施例流程示意图;
图3是本申请实施例中提供的模型训练方法的一个算法示意图;
图4为本申请实施例的模型训练装置的结构示意图;
图5为本申请实施例的模型训练计算设备的一种结构示意图;
图6为本申请实施例中手机的一种结构示意图;
图7为本申请实施例中服务器的一种结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有说明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”或“单元”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例提供一种模型训练方法、相关装置及存储介质。
请参阅图1,图1为本申请实施例所提供的模型训练系统的场景示意图,该模型训练系统可以包括计算设备100,计算设备100通过网络连接,计算设备100中集成有模型训练装置。本申请实施例中,计算设备100可以是终端设备或者服务器。
本申请实施例中,在计算设备100为服务器的情况下,该服务器可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本申请的实施例中,服务器与客户端之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(Worldwide Interoperability forMicrowave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)协议的计算机网络通信等。
可以理解的是,当本申请实施例中所使用的计算设备100为终端设备时,终端设备可以是既包括接收硬件和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种终端设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的计算设备100具体可以是台式终端或移动终端,计算设备100具体可以手机、平板电脑、笔记本电脑等中的一种。
本申请实施例涉及的终端设备,还可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算设备,或者计算设备网络连接关系,例如图1中仅示出1个计算设备,可以理解的,该模型训练系统还可以包括一个或多个其他计算设备,或/且一个或多个与计算设备100网络连接的其他计算设备,具体此处不作限定。
另外,如图1所示,该模型训练系统还可以包括存储器300,用于存储数据,如存储样本图片、对抗扰动数据、对抗样本数据。
需要说明的是,图1所示的模型训练系统的场景示意图仅仅是一个示例,本申请实施例描述的模型训练系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着模型训练系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、计算机视觉技术(Computer Vision,CV)、机器学习(Machine Learning,ML)等技术,具体通过如下实施例进行说明:
其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
目前,AI技术被广泛用在人机交互,安全防护等多个领域。而由于机器学习算法的输入形式是一种数值型向量,攻击者可以通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这就是对抗性攻击的过程。
攻击方法根据攻击的结果可以分为两大类:第一类为定向攻击,其攻击样本可以令模型在预测时,所有的识别结果均为目标类别。第二类为非定向攻击,即攻击样本可以令模型在预测时,所有的识别结果均为错误类别。
相比而言定向攻击则更具有挑战性,需要令检测器将目标物识别为特定的攻击类别,这种攻击更具有针对性。目标检测是一个多任务的学习问题,多个任务包括前景背景区分,多个目标物区分,以及目标物位置识别,目标检测已经展现了它解决实际问题的能力。目前对于目标检测情景的对抗样本研究尽管已有很多,但大多数仍然集中在非定向领域。
一个相关技术中,现有的有向无环图(Directed Acyclic Graph,DAG)是最早提出的攻击检测模型算法,它通过操纵候选区域提取网络(Region Proposal Network,RPN)生成大量错误建议区域,以此来攻击模型。对于一个两阶段的目标检测模型,该算法采取了一种两阶段的攻击策略。在第一阶段,利用RPN网络生成可能包含目标的候选区域。在第二阶段,利用第一阶段得到的候选区域集合训练生成对抗扰动。该方法为每个候选区域分配一个随机选择的标签,然后执行迭代梯度攻击。
上述算法时间成本高,消耗资源大,并且使用梯度优化攻击的算法会严重依赖替代模型,并且算法中均忽略了对于集成方式的考虑与设计,导致迁移能力较差,攻击能力不足。
本申请实施例基于符合实际应用要求的对抗样本生成模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确,以解决现有技术中攻击能力不足的问题。
下面结合具体实施例进行详细说明。
在本实施例中,将从模型训练方法的角度进行描述,该模型训练方法具体可以集成在计算设备100中。
本申请提供一种模型训练方法,该模型训练方法包括:选定攻击类别和攻击逻辑;根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;根据所述样本图片和所述候选对抗扰动,得到对抗样本;利用所述对抗样本输入至少一个替代模型,得到目标损失值;在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
请参阅图2,为本申请实施例中本申请实施例中模型训练方法的一个实施例流程示意图,该模型训练方法包括如下步骤201~206:
201、选定攻击类别和攻击逻辑。
其中,攻击类别可以是模型被攻击的目标物识别为定向攻击的类别,例如将红灯类别攻击为绿灯类别,则绿灯类别为选定的攻击类别。
具体的,攻击类别可以是按照样本图片类别、实际需求选定的。例如:该方法应用于视频监控系统时,则为了干扰监控,样本图片是人类别时,攻击类别可以是猫类别。
其中,攻击逻辑是根据攻击类别选定的,攻击逻辑是攻击待训练模型的攻击计划,攻击逻辑可以包括攻击类别,还可以包括与攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集。
202、根据所述攻击逻辑构建待训练模型。
其中,待训练模型是生成对抗样本的模型,待训练模型可以是生成网络。
203、将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动。
其中,样本图片可以用像素集成的向量表示。具体的,样本图片可以来自于视频帧,例如:样本图片可以是视频监控中的人像图片,此处不对样本图片的具体来源加以限定。
其中,将所述对抗扰动添加到所述样本图片后,神经网络会将所述样本图片识别为攻击类别,攻击类别和样本图片本该所属类别为不同的类别,即将对抗扰动添加到样本图片中,会使神经网络产生误判。
具体的,对抗扰动可以是添加到样本图片的每个像素单元上,也可以是添加到样本图片的其中几个像素单元上,此处不对对抗扰动的具体添加方式加以限定。另外,候选的对抗扰动不是最终的对抗扰动。
204、根据所述样本图片和所述候选对抗扰动,得到对抗样本。
具体的,对抗样本是利用文本-图像预训练模型(Contrastive Language–ImagePre-training,CLIP)和映射网络得到的。其中,利用CLIP对类别映射网络处理有助于剔除对抗扰动中的非法值,提高对抗样本攻击的成功率。
205、利用所述对抗样本输入至少一个替代模型,得到目标损失值。
其中,替代模型可以是一个或多个,在一个具体实施例中,替代模型可以包括模型M1、模型M2和/或模型M3,其中,M1=YOLOv3、M2=FasterRCNN、M3=DETR,其中的一个或者多个,或者是它们的组合,此处不做限定。
206、在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
具体的,计算出目标损失值时,将目标损失值与预设损失值进行比对,当目标损失值未满足预设条件时,继续输入样本图片和攻击类别,迭代更新候选对抗扰动,根据所述更新后的候选对抗扰动重新计算目标损失值,再将所述更新后的目标损失值与预设损失值进行比对,直到目标损失值满足预设条件时,就将当前生成候选对抗扰动的待训练模型作为训练后模型。
本申请实施例中基于至少一个替代模型计算目标损失值,基于目标损失值去校验当前对抗样本是否达到要求,如未达到要求则更新候选对抗扰动,在对抗样本达到要求后,将当前生成对抗样本的模型即为训练后模型,因此,本申请实施例引入第三方的至少一个替代模型去校验对抗样本是否要求,从而间接检测当前生成对抗样本的模型是否已训练到能生成符合要求对抗样本的程度,可以得到符合实际应用要求的对抗样本生成模型,进一步的,基于符合实际应用要求的对抗样本生成模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确。
本申请实施例基于符合实际应用要求的对抗样本生成模型,通过不断迭代更新候选对抗扰动,可以更新生成符合预设标准的对抗样本,获取能生成符合要求的对抗样本的训练模型,该训练模型可以提高对抗样本的攻击成功率,从而评估模型的鲁棒性。
在本申请的一种实施方式中,所述步骤201选定攻击类别和攻击逻辑,包括:
选定攻击类别,获取针对所述待训练模型的初始攻击逻辑,通过遗传算法和所述初始攻击逻辑,求解最优攻击逻辑,得到针对所述待训练模型的攻击逻辑。其中,所述初始攻击逻辑是根据攻击类别确定的,攻击逻辑包括攻击类别。
遗传算法,又称为Genetic algorithm(GA)。其主要思想就是模拟生物的遗传与变异。它的用途非常广泛,可以用于加速某些求最大或者最小值的算法。
本申请实施例通过遗传算法和初始攻击逻辑求解最优攻击逻辑,能够获取到针对训练模型的最优攻击逻辑,增强攻击性。
在本申请的一种实施方式中,所述初始攻击逻辑还包括与所述攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集。
具体的,所述初始攻击逻辑包括攻击类别、与所述攻击类别语义信息强相关的辅助语义引导类别、属于辅助语义引导类别的类别样本约束集。
此时,所述获取针对所述待训练模型的初始攻击逻辑,包括:
通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别。通过预设的语义信息提取网络,计算属于辅助语义引导类别的类别样本约束集;根据所述攻击类别、辅助语义引导类别和所述类别样本约束集,确定针对所述待训练模型的初始攻击逻辑。
其中,语义先验知识是指从广义数据集以及人类的先验信息所整合得到的,利用所述语义先验知识引导对抗扰动能够攻击语义层面的信息。
具体的,所述与攻击类别语义信息强相关的辅助语义引导类别是通过分析攻击类别出现的场景以及场景类别信息获得的。即通过分析攻击类别出现的场景,结合预设的语义先验知识来获取与攻击类别语义信息强相关的辅助语义引导类别。例如:当攻击类别是树木类别时,通过语义先验知识,分析树木类别出现的场景,树木通常扎根在土壤里,则与攻击类别语义信息强相关的辅助语义引导类别可以是土壤类别。
其中,所述辅助语义引导类别和所述类别样本约束集是一种不同维度的知识互补,所述辅助语义引导类别和所述类别样本约束集共同提供类别层引导和语义层引导。
本申请实施例中,会先初始化一个攻击计划,例如攻击计划P中包含预定义的攻击类别和辅助语义引导类别以及类别样本约束集
在攻击之前,首先需要定义攻击的类别过攻击类别将攻击类别作为构建语义先验信息引导算法的输入,算法会输出语义信息强相关的三个类别 故为攻击类别,的辅助语义引导类别,此时通过一个预先设定的高级语义信息提取网络计算属于类别的高置信度样本集 和和是一种不同维度的知识互补,而且相互约束。和共同提供类别层引导和语义层引导。
本申请实施例通过语义先验知识以及与攻击类别语义信息强相关的辅助语义引导类别,利用语义信息提高语义方面的攻击性。
在本申请的一种实施方式中,所述步骤202根据所述攻击逻辑构建待训练模型,包括:将所述攻击类别嵌入类别映射网络进行类别映射,以将所述攻击类别嵌入到待训练模型。其中,所述类别映射网络是嵌入在所述训练方法中的。
进一步的,所述通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别,包括:将所述样本图片输入所述类别映射网络进行类别映射,输出预设特定目标的隐式向量。
具体的,所述类别映射网络在样本图片由编码端流向解码端之前,在编码端通过引入定向攻击的攻击类别,通过类别映射网络将攻击类别信息嵌入样本图片中。将所述样本图片输入初始的待训练模型,得到样本向量;在所述类别映射网络中将所述隐式向量和所述样本向量沿高度和宽度方向展开,以将所述隐式向量和所述样本向量的特征图在通道维度进行拼接,得到与所述攻击类别语义信息强相关的辅助语义引导类别。
具体的,利用高级卷积操作类别映射网络,在小幅度内移动图像。
本申请实施例通过类别嵌入,将语义信息输入到后续特征图中,可以提升攻击的成功率。
在本申请的一种实施方式中,所述步骤205利用所述对抗样本输入至少一个替代模型,得到目标损失值,包括:将所述对抗样本输入至少一个替代模型,得到所述至少一个替代模型的损失。
所属替代模型是用于输出预测结果的模型,即输入对抗样本后,替代模型输出预测类别,例如将攻击类别选定为猫类别,样本图片为人类别,则对抗样本应当是会使目标检测模型输出为猫类别的样本,将对抗样本输入到替代模型中,替代模型输出目标检测结果,通过获取替代模型的预测结果,计算预测结果和预设的输出结果之间的差值,得到的这个差值即为损失值。计算损失值后,可以通过迭代、梯度下降等方式来尽可能使得损失值取得最小值从而不断优化攻击逻辑。
其中,所述替代模型的预测结果包括对抗样本的类别以及坐标。
将所述对抗样本和所述类别样本约束集输入所述语义特征提取网络,输出第一语义特征和第二语义特征;计算所述第一语义特征和所述第二语义特征之间的距离,并将所述距离作为样本约束之间的损失;根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值。
其中,将所述对抗样本输入语义特征提取网络输出的语义特征为第一语义特征,将所述类别样本约束集输入语义特征提取网络输出的语义特征为第二语义特征。
具体的,例如替代模型可以分别是M1=YOLOv3、M2=FasterRCNN、M3=DETR,则替代模型整体的损失值计算公式为:
其中,所有αi的值均大于0,其中,α1为模型M1的权重,α2为模型M2的权重,α3为模型M3的权重,δ为定向攻击的扰动, 分别为模型M1、模型M2、模型M3和语义特征提取网络的损失值。
本申请实施例通过约束替代模型损失值,通过计算语义层面的损失值对所述语义层面的损失值进行约束,可以攻击语义层面的信息,约束损失值使损失值尽可能小,可以提升攻击成功率,增强攻击。
在本申请的一种实施方式中,所述根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值,包括:获取所述至少一个替代模型中各替代模型预设的第一损失参数;获取所述语义特征提取网络预设的第二损失参数;根据所述第一损失参数、所述第二损失参数、所述至少一个替代模型的损失和所述样本约束之间的损失,计算目标损失值。其中,获取的第一损失参数,第二损失参数可以用于获取对抗样本生成的公式参数。
本申请实施例通过获取损失参数,可以获取对抗样本生成的公式参数,从而获取对抗样本的具体生成公式,提升对抗样本生成的效率。
本申请实施例中利用了语义先验信息的目标检测定向攻击方法,该方法借助了从广义数据集以及人类的先验信息所整合的语义先验知识,利用该知识引导扰动能够攻击语义层面的信息。该攻击方法采用以定向攻击目标类别为主,其他符合场景类别为辅的方法,根据场景信息进行定向攻击,攻击方法并没有采用简单的生成式对抗方法,而是考虑到了不同类别的攻击扰动,并利用一个条件嵌入多类别向量的生成式对抗网络生成定向的扰动,使受害模型将被攻击的目标物识别为定向攻击的类别。该种方法可以极大的提升攻击的类别,并提升攻击的速度和效率,使用类别嵌入的方法,可以使攻击者能够选择不同的类别进行攻击。而在训练时,通过多个模型的集成训练方法,也能够增加扰动在多个模型之间的迁移能力。
本申请实施例中重点在于如何寻找最优的攻击计划,由于目前的检测模型更加注重整体的语义组合,所以如果要将数据集中的类别为的目标物攻击为类别就需要分析类别出现的场景以及场景类别信息。通过分析场景的信息,便可以构建扰动攻击的类别组合。攻击的类别包括定向攻击的类别,以及涉及场景的助力攻击类别。此时需要通过语义先验信息指定攻击计划,通过不同的攻击计划,寻找类别样本约束集,该约束集可以提供一个高级的语义信息引导,能够约束生成的扰动贴近定向攻击类别语义。这种语义引导的方法通过一个语义提取网络,约束对抗样本和攻击类别辅助攻击类别的语义差异。
在本申请实施例中,确定最终的攻击计划P之前,不会进行语义信息的约束,只有在确定最优的攻击计划后,才会进行语义层面的样本约束。输入原始的图像定向攻击类别攻击计划P。原始图像从生成网络的编码端流向解码端。定向攻击类别先进入嵌入的类别映射网络W进行类别映射,该网络可以将嵌入到生成网络。在编码端首先通过引入定向攻击的目标类别使用映射网络W输出特定目标的隐式向量在映射网络W中会将向量沿高度和宽度方向展开,将的特征图在通道维度进行拼接,便可得到带有强相关的类别信息。该方法可以通过拼接图片特征向量和目标标签的特征向量将类别信息嵌入特征图中。此时将带有类别信息的特征图输入到后续的网络中生成网络利用解码端恢复特征图的分辨率,并利用对生成网络输出进行一个操作,该操作有助于剔除扰动中的非法值。使用高斯卷积操作,在小幅度内移动图像,提升攻击的成功率:
其中,为输出结果,n和m表示像素行列数,∈为预设数值,mij为第i行,第j列像素值,为高斯卷积操作。
通过上述过程,生成网络生成的对抗样本表示如下:
将得到对抗样本输入替代模型M,替代模型会输出预测结果,包括每个前景目标的类别及坐标信息此时计算该计划中替代模型的损失函数,通过遗传算法求出最优的攻击计划。
通过多次迭代可以获得使替代模型的损失函数最低的攻击计划攻击计划P,得到的对抗样本输入语义特征提取网络输出语义特征(如上第一语义特征)。将攻击计划P中定义的样本约束集输入语义特征提取网络输出语义特征(如上第二语义特征)。算法约束语义特征和语义特征之间的距离,由此进行语义层面的引导,增强攻击。
本申请通过解决如下优化问题以求解生成模型的参数:
其中代表定向攻击类别的集合,代表替代模型预测的类别信息。在生成网络推理时,输入图像和定向攻击类别网络输出定向攻击的扰动δ,与相加可得期望的定向攻击结果
具体的,请参阅图3,图3是所述模型训练方法的具体算法流程图。
本申请实施例还提供一种基于上述模型训练方法的对抗样本生成方法,所述方法包括:利用上述任一种实施方式中的模型训练方法训练得到的模型,生成对抗样本。
本申请实施例通过训练后的模型生成基于符合实际应用要求的对抗样本,可以提高对抗样本的实际应用率,提高所述对抗样本的攻击性。
本申请实施例还提供一种模型评估方法,所述方法包括利用如上述对抗样本的生成方法生成的多个对抗样本,评估目标检测模型的鲁棒性。
本申请实施例通过训练后的模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确,从而提升模型的鲁棒性。
为便于更好的实施本申请实施例提供的模型训练方法,本申请实施例还提供一种基于上述模型训练方法的装置。其中名词的含义与上述模型训练方法中相同,具体实现细节可以参考模型训练方法实施例中的说明。
本申请实施例中的模型训练装置,具有实现对应于上述实施例中提供的模型训练方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
请参阅图4,图4为本申请实施例提供的模型训练装置的结构示意图,该模型训练装置可应用于需要进行模型训练场景下的计算设备中,具体的,该模型训练装置400可以包括选定模块401、构建模块402、第一生成模块403、第二生成模块404、计算损失模块405、确定模块406,具体如下:
选定模块401,用于选定攻击类别和攻击逻辑。
构建模块402,用于根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别。
第一生成模块403,用于将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动。
第二生成模块404,用于根据所述样本图片和所述候选对抗扰动,得到对抗样本。
计算损失模块405,用于利用所述对抗样本输入至少一个替代模型,得到目标损失值。
确定模块406,用于在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
在本申请的一种实施方式中,所述选定模块401具体用于:
选定攻击类别;
获取针对所述待训练模型的初始攻击逻辑;通过遗传算法和所述初始攻击逻辑,求解最优攻击逻辑,得到针对所述待训练模型的攻击逻辑。
在本申请的一种实施方式中,所述初始攻击逻辑还包括与所述攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集;
所述选定模块401具体用于:
通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别;
通过预设的语义信息提取网络,计算属于辅助语义引导类别的类别样本约束集;
根据所述攻击类别、辅助语义引导类别和所述类别样本约束集,确定针对所述待训练模型的初始攻击逻辑。
在本申请的一种实施方式中,所述构建模块402具体用于:
将所述攻击类别嵌入类别映射网络进行类别映射,以将所述攻击类别嵌入到待训练模型;
所述选定模块401具体用于:
将所述样本图片输入所述类别映射网络进行类别映射,输出预设特定目标的隐式向量;
将所述样本图片输入初始的待训练模型,得到样本向量;
在所述类别映射网络中将所述隐式向量和所述样本向量沿高度和宽度方向展开,以将所述隐式向量和所述样本向量的特征图在通道维度进行拼接,得到与所述攻击类别语义信息强相关的辅助语义引导类别。
在本申请的一种实施方式中,所述计算损失模块405具体用于:
将所述对抗样本输入至少一个替代模型,得到所述至少一个替代模型的损失;
将所述对抗样本和所述类别样本约束集输入所述语义特征提取网络,输出第一语义特征和第二语义特征;
计算所述第一语义特征和所述第二语义特征之间的距离,并将所述距离作为样本约束之间的损失;
所述计算损失模块405具体用于:
根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值。
在本申请的一种实施方式中,所述计算损失模块405还用于:
获取所述至少一个替代模型中各替代模型预设的第一损失参数;
获取所述语义特征提取网络预设的第二损失参数;
根据所述第一损失参数、所述第二损失参数、所述至少一个替代模型的损失和所述样本约束之间的损失,计算目标损失值。
本申请实施例中,通过选定模块401选定攻击类别和攻击逻辑;通过构建模块402根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;通过第一生成模块403将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;通过第二生成模块404根据所述样本图片和所述候选对抗扰动,得到对抗样本;通过计算损失模块405利用所述对抗样本输入至少一个替代模型,得到目标损失值,通过确定模块406在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。由于本申请实施例中基于至少一个替代模型计算目标损失值,基于目标损失值去校验当前对抗样本是否达到要求,如未达到要求则更新候选对抗扰动,在对抗样本达到要求后,将当前生成对抗样本的模型即为训练后模型,因此,本申请实施例引入第三方的至少一个替代模型去校验对抗样本是否要求,从而间接检测当前生成对抗样本的模型是否已训练到能生成符合要求对抗样本的程度,可以得到符合实际应用要求的对抗样本生成模型,进一步的,基于符合实际应用要求的对抗样本生成模型,可以生成大量符合要求的对抗样本去进行目标检测模型的评估,使得目标检测模型的评估效率更高且模型评估更准确。
上面从模块化功能实体的角度对本申请实施例中的模型训练装置进行了描述,下面从硬件处理的角度分别对本申请实施例中的模型训练装置进行描述。
需要说明的是,图4所示的第一生成模块403、第二生成模块404对应的实体设备可以为收发器、射频电路、通信模块和输入/输出(I/O)接口等,确定模块406对应的实体设备可以为处理器。
图4所示的装置均可以具有如图5所示的结构,当图5所示的模型训练装置具有如图5所示的结构时,图5中的处理器和收发器能够实现前述对应该装置的装置实施例提供的确定模块406和第一生成模块403、第二生成模块404相同或相似的功能,图5中的存储器存储处理器执行上述模型训练方法时需要调用的计算机程序。
当本申请实施例中计算设备为终端设备时,本申请实施例还提供了一种终端设备,如图6所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图6示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General PacketRadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图6中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
Wi-Fi属于短距离无线传输技术,手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了Wi-Fi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有控制执行以上由模型训练装置执行的模型训练方法流程。
本申请实施例还提供了一种服务器,请参阅图7,图7是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processing units,英文简称:CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中模型训练方法中的步骤可以基于该图7所示的服务器1100的结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
选定攻击类别和攻击逻辑;根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;将预设的样本图片和所述攻击类别通过输入输出接口1158输入待训练模型,生成候选对抗扰动;根据所述样本图片和所述候选对抗扰动,得到对抗样本;利用所述对抗样本输入至少一个替代模型,得到目标损失值;在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
在一个实施方式中,所述选定攻击类别和攻击逻辑,还可以通过中央处理器1122选定攻击类别;获取针对所述待训练模型的初始攻击逻辑;通过遗传算法和所述初始攻击逻辑,求解最优攻击逻辑,得到针对所述待训练模型的攻击逻辑。
在一个实施方式中,所述初始攻击逻辑还包括与所述攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集;所述获取针对所述待训练模型的初始攻击逻辑,还可以通过中央处理器1122通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别;通过预设的语义信息提取网络,计算属于辅助语义引导类别的类别样本约束集;根据所述攻击类别、辅助语义引导类别和所述类别样本约束集,确定针对所述待训练模型的初始攻击逻辑。
在一个实施方式中,所述根据所述攻击逻辑构建待训练模型,还可以通过中央处理器1122将所述攻击类别嵌入类别映射网络进行类别映射,以将所述攻击类别嵌入到待训练模型;所述通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别,还可以通过输入输出接口1158将所述样本图片输入所述类别映射网络进行类别映射,输出预设特定目标的隐式向量;将所述样本图片输入初始的待训练模型,得到样本向量;在所述类别映射网络中将所述隐式向量和所述样本向量沿高度和宽度方向展开,以将所述隐式向量和所述样本向量的特征图在通道维度进行拼接,得到与所述攻击类别语义信息强相关的辅助语义引导类别。
在一个实施方式中,所述利用所述对抗样本输入至少一个替代模型,得到目标损失值,还可以通过输入输出接口1158将所述对抗样本输入至少一个替代模型,得到所述至少一个替代模型的损失;将所述对抗样本和所述类别样本约束集输入所述语义特征提取网络,输出第一语义特征和第二语义特征;计算所述第一语义特征和所述第二语义特征之间的距离,并将所述距离作为样本约束之间的损失;根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值。
在一个实施方式中,所述根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值,还可以通过输入输出接口1158获取所述至少一个替代模型中各替代模型预设的第一损失参数;获取所述语义特征提取网络预设的第二损失参数;根据所述第一损失参数、所述第二损失参数、所述至少一个替代模型的损失和所述样本约束之间的损失,计算目标损失值。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。
Claims (10)
1.一种模型训练方法,其特征在于,所述方法包括:
选定攻击类别和攻击逻辑;
根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;
将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;
根据所述样本图片和所述候选对抗扰动,得到对抗样本;
利用所述对抗样本输入至少一个替代模型,得到目标损失值;
在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述选定攻击类别和攻击逻辑,包括:
选定攻击类别;
获取针对所述待训练模型的初始攻击逻辑;
通过遗传算法和所述初始攻击逻辑,求解最优攻击逻辑,得到针对所述待训练模型的攻击逻辑。
3.根据权利要求2中所述的模型训练方法,其特征在于,所述初始攻击逻辑还包括与所述攻击类别语义信息强相关的辅助语义引导类别,以及属于辅助语义引导类别的类别样本约束集;
所述获取针对所述待训练模型的初始攻击逻辑,包括:
通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别;
通过预设的语义信息提取网络,计算属于辅助语义引导类别的类别样本约束集;
根据所述攻击类别、辅助语义引导类别和所述类别样本约束集,确定针对所述待训练模型的初始攻击逻辑。
4.根据权利要求3所述的模型训练方法,其特征在于,所述根据所述攻击逻辑构建待训练模型,包括:
将所述攻击类别嵌入类别映射网络进行类别映射,以将所述攻击类别嵌入到待训练模型;
所述通过预设的语义先验知识,确定与所述攻击类别语义信息强相关的辅助语义引导类别,包括:
将所述样本图片输入所述类别映射网络进行类别映射,输出预设特定目标的隐式向量;
将所述样本图片输入初始的待训练模型,得到样本向量;
在所述类别映射网络中将所述隐式向量和所述样本向量沿高度和宽度方向展开,以将所述隐式向量和所述样本向量的特征图在通道维度进行拼接,得到与所述攻击类别语义信息强相关的辅助语义引导类别。
5.根据权利要求1所述的模型训练方法,其特征在于,所述利用所述对抗样本输入至少一个替代模型,得到目标损失值,包括:
将所述对抗样本输入至少一个替代模型,得到所述至少一个替代模型的损失;
将所述对抗样本和所述类别样本约束集输入所述语义特征提取网络,输出第一语义特征和第二语义特征;
计算所述第一语义特征和所述第二语义特征之间的距离,并将所述距离作为样本约束之间的损失;
根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值。
6.根据权利要求5所述的模型训练方法,其特征在于,所述根据所述至少一个替代模型的损失和所述样本约束之间的损失,确定目标损失值,包括:
获取所述至少一个替代模型中各替代模型预设的第一损失参数;
获取所述语义特征提取网络预设的第二损失参数;
根据所述第一损失参数、所述第二损失参数、所述至少一个替代模型的损失和所述样本约束之间的损失,计算目标损失值。
7.一种对抗样本的生成方法,其特征在于,所述方法包括:
利用如权利要求1至6中任一项所述模型训练方法训练得到的模型,生成对抗样本。
8.一种模型评估方法,其特征在于,所述方法包括:
利用如权利要求7中所述对抗样本的生成方法生成的多个对抗样本,评估目标检测模型的鲁棒性。
9.一种模型训练装置,其特征在于,所述装置包括:
选定模块,用于选定攻击类别和攻击逻辑;
构建模块,用于根据所述攻击逻辑构建待训练模型,所述攻击逻辑包括所述攻击类别;
第一生成模块,用于将预设的样本图片和所述攻击类别输入待训练模型,生成候选对抗扰动;
第二生成模块,用于根据所述样本图片和所述候选对抗扰动,得到对抗样本;
计算损失模块,用于利用所述对抗样本输入至少一个替代模型,得到目标损失值;
确定模块,用于在所述目标损失值不满足预设条件时,更新候选对抗扰动,根据候选对抗扰动重新确定目标损失值,直至所述目标损失值满足预设条件时,将当前生成候选对抗扰动的待训练模型作为训练后模型。
10.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311340648.9A CN117152565A (zh) | 2023-10-16 | 2023-10-16 | 模型训练方法、相关装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311340648.9A CN117152565A (zh) | 2023-10-16 | 2023-10-16 | 模型训练方法、相关装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117152565A true CN117152565A (zh) | 2023-12-01 |
Family
ID=88887043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311340648.9A Pending CN117152565A (zh) | 2023-10-16 | 2023-10-16 | 模型训练方法、相关装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152565A (zh) |
-
2023
- 2023-10-16 CN CN202311340648.9A patent/CN117152565A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280458B (zh) | 群体关系类型识别方法及装置 | |
CN109947650B (zh) | 脚本步骤处理方法、装置和系统 | |
CN114444579B (zh) | 通用扰动获取方法、装置、存储介质及计算机设备 | |
CN115859220B (zh) | 数据处理方法、相关装置及存储介质 | |
CN109495616B (zh) | 一种拍照方法及终端设备 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN113190646B (zh) | 一种用户名样本的标注方法、装置、电子设备及存储介质 | |
WO2017088434A1 (zh) | 人脸模型矩阵训练方法、装置及存储介质 | |
CN116310745B (zh) | 图像处理方法、数据处理方法、相关装置及存储介质 | |
CN115239941B (zh) | 对抗图像生成方法、相关装置及存储介质 | |
CN117332844A (zh) | 对抗样本生成方法、相关装置及存储介质 | |
CN110390102B (zh) | 一种情感分析的方法和相关装置 | |
CN117726003A (zh) | 基于大模型推理的应答防御方法、装置、设备及存储介质 | |
CN111638843A (zh) | 信息处理方法、装置及电子设备 | |
CN117152565A (zh) | 模型训练方法、相关装置及存储介质 | |
CN117831089A (zh) | 人脸图像处理方法、相关装置及存储介质 | |
CN116580268B (zh) | 图像目标定位模型的训练方法、图像处理方法及相关产品 | |
CN114743081B (zh) | 模型训练方法、相关装置及存储介质 | |
CN111797391A (zh) | 高风险进程的处理方法、装置、存储介质及电子设备 | |
CN116308978B (zh) | 视频处理方法、相关装置及存储介质 | |
CN110942085B (zh) | 一种图像分类方法、图像分类装置及终端设备 | |
CN117079356A (zh) | 一种对象鉴伪模型构建方法、虚假对象检测方法及装置 | |
CN117765349A (zh) | 对抗样本的生成方法、相关装置及存储介质 | |
CN118709743A (zh) | 对抗攻击方法、相关装置及存储介质 | |
CN118803995A (zh) | 一种乒乓切换问题的用户预测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |