CN113362096A

CN113362096A - 一种基于深度学习的框架广告图像匹配方法

Info

Publication number: CN113362096A
Application number: CN202010149359.0A
Authority: CN
Inventors: 陈岩; 刘杨; 王金海
Original assignee: CHIZHONG INFORMATION TECHNOLOGY (SHANGHAI) CO LTD
Current assignee: CHIZHONG INFORMATION TECHNOLOGY (SHANGHAI) CO LTD
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2021-09-07

Abstract

本发明公开了一种基于深度学习的框架广告图像匹配方法，包括：S1、建立图片数据集；S2、用深度卷积神经网络为图片数据集中的每张图片算得低维空间的嵌入向量作为深度广告特征，深度广告特征中包含广告内容的区分信息；S3、随机挑选两张广告图片并算得深度广告特征，计算这两个深度广告特征的余弦相似度，根据预先定义的阈值，判断两个广告是否匹配；S4、另选两张新广告图片，重复上述步骤S3。本发明技术方案的有益效果是：提高图像匹配识别的准确率：从98.2％提高到99％；降低人工识别照片量：从198w张/年降低到110w/年。

Description

一种基于深度学习的框架广告图像匹配方法

技术领域

本发明属于将图像识别匹配技术应用于信息传播领域，具体涉及一种基于深度学习的框架广告图像匹配方法。

背景技术

由于广告传媒业务的发展，每周都有大量的广告方案在小区电梯内投放，而且投放周期不断缩短，如何正确识别和分类这些版位的广告方案面临巨大挑战。传统方法中广告方案识别全是由人工来操作，花费了大量的人力。而且因为照片更换周期短，就需要在很短的时间内完成大量的照片识别分类任务，往往准确率得不到保障。在此基础上，如果能研制出一种能准确的对工人拍摄的照片进行自动识别和匹配的系统，那将会是一件非常有意义的工作，并将极大地提高工作效率。

近些年,计算机视觉技术的日趋成熟，为传统的识别方法带来重大转变。先进的计算机视觉技术，不但可以将人力从繁琐的人工识别匹配中解放出来，而且能够大大提高精确度，广告识别系统就是在这样的背景下开发的。广告识别系统基于深度学习方法来自动进行图像匹配，不但降低了人工带来的误差，还能解放部分人力，更大发挥其价值。传统的自动匹配系统基于特征点(SIFT)匹配，用SIFT提取特征，根据特征点进行匹配，若匹配到特征点对数量满足特定阈值，则认为匹配成功；若不满足，认为匹配失败(参见附图1)。作为类似参考，CN 106066887B公开了一种广告序列图像快速检索和分析方法，该方法为：利用图像复杂度特征和决策分类树的方法，对广告图像数据库分为LOGO和场景图像；其次，对广告数据库中图像提取和存储HOG特征和SIFT特征；提取待匹配图像的HOG特征和SIFT特征，计算待匹配图像与广告数据库中所有与其相同类型图像的HOG特征向量的欧氏距离，并对其欧氏距离由小到大进行排序，筛选出其前S张候选图像；计算其与待匹配图像的SIFT特征匹配点对数并将对数最多的图像作为待匹配图像所对应的图像；针对广告序列的待匹配图像，计算每段广告的时长，获得广告播放信息。上述方法主要有两点不足：1、当不同广告方案内容大部分相同时匹配准确度低。例如附图2中的“我爱我家”广告，不同的方案只有业务员信息有差异，传统方法出现匹配到的特征点数量高于阈值，从而错误地判断为成功匹配的情况(实际是不同的方案)；2、无法准确检测倒置的广告内容。在上刊倒置的情况下，因为是同一张图，传统方法仍然可以匹配到大量特征点对，导致匹配特征点对的数量超过阈值，返回错误的匹配结果(参见附图3)。

发明内容

有鉴于此，本发明的目的是提供一种基于深度学习的框架广告图像匹配方法，把拍摄的照片与其对应的广告方案进行匹配，从而确保广告被精准地投放到指定位置，以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

提供一种基于深度学习的框架广告图像匹配方法，其中，包括：

S1、建立图片数据集；

S2、用深度卷积神经网络为图片数据集中的每张图片算得低维空间的嵌入向量作为深度广告特征，深度广告特征中包含广告内容的区分信息；

S3、随机挑选两张广告图片并算得深度广告特征，计算这两个深度广告特征的余弦相似度，根据预先定义的阈值，判断两个广告是否匹配；

S4、另选两张新广告图片，重复上述步骤S3。

上述基于深度学习的框架广告图像匹配方法，其中，采用Softmax作为损失函数训练深度卷积神经网络，得到图片的特征向量，同时采用Large-Margin Softmax Loss方法减小权值向量和特征向量之间的夹角。

上述基于深度学习的框架广告图像匹配方法，其中，在Softmax的w*x基础上，将特征向量x做归一化，并乘以尺度因子进行放大：

其中，w为权值向量，α为尺度因子。

z＝α·y

本发明技术方案的有益效果是：

--提高图像匹配识别的准确率：从98.2％提高到99％(准确度提高了0.8％，错误率降低了44.4％)；

--降低人工识别照片量：从198w张/年降低到110w/年。

附图说明

图1为传统的特征点匹配技术示意图；

图2为只存在局部细微变化的待识别广告示意图；

图3为倒置图片特征点匹配示意图；

图4为本发明匹配方法流程示意图；

图5为本发明匹配与不匹配图片对夹角分布图；

图6为MNIST上10个数字图片的特征区分度示意图；

图7为Large-Margin Softmax Loss算法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

参看图4所示，本发明基于深度学习的框架广告图像匹配方法，包括下列步骤：

S1、建立图片数据集。可以收集过去一年的框架小样图和上刊照，共计9935个方案，373471张照片。随机抽取5000组匹配照片和5000组不匹配照片经人工勘误后作为验证集，其他作为训练集。

S2、用深度卷积神经网络(CNN)为图片数据集中的每张图片算得低维空间(512维)的嵌入向量(Embedding)作为深度广告特征，深度广告特征中包含广告内容的区分信息。

S3、随机挑选两张广告图片并算得深度广告特征，计算这两个深度广告特征的余弦相似度，根据预先定义的阈值，判断两个广告是否匹配。把广告图片验证集随机选择匹配(1)和不匹配(0)的等量的广告图片对，每对图片计算特征，然后算得向量内积，再用反余弦函数得到夹角θ。可以得到如图5所示的匹配与不匹配图片对夹角分布图，呈现拟合正态分布曲线，同时显示与算法对应的均值μ和标准差σ。具体数值如下表1：

表1

阈值(度)	mu_0	sigma_0	mu_1	sigma_1
					23.0420	42.4932	6.7359	9.6546	3.5097

影响匹配准备度的核心，在于深度卷积神经网络是否可以得到高区分度广告特征。此处以“超多分类”这样一种比较难的任务训练卷积神经网络(CNN)，强迫网络在第一个全连接层(FC层)形成比较紧凑的，判别力很强的深度广告特征，用于之后的广告识别。

使用Softmax作为损失函数训练CNN，可以得到图片的特征向量。MNIST上10分类的2维特征映射可视化如图6，不同类别明显分开了，但这种情况并不满足广告识别中特征向量对比的需求。特征向量相似度计算常用余弦距离(cosine distance)，余弦越大，余弦距离(夹角)越小，向量相似度越高。对于广告识别的特征映射(feature embedding)来说，Softmax鼓励不同类别的特征分开，但并不鼓励特征分离很多。

Softmax训练的深度特征会把整个超空间或者超球，按照分类个数进行划分，保证类别是可分的，这一点对多分类任务如MNIST和ImageNet非常合适，因为测试类别必定在训练类别中。但Softmax并不要求类内紧凑和类间分离，这一点非常不适合广告识别任务，因为训练集的1W广告数，相对测试集大量的广告来说，非常微不足道，而不可能拿到所有广告的训练样本。特别的，一般还要求训练集和测试集不重叠。所以需要改造Softmax，除了保证可分性外，还要做到特征向量类内尽可能紧凑，类间尽可能分离。

因此，采用了大边距(Large Margin)的方法，让权值向量W和特征向量f之间的夹角更小。具体讲，使用了如下方法：

在Softmax的w*x基础上，将特征向量x做归一化，并乘尺度因子进行放大：

z＝α·y

尺度因子α使用固定值64。权值和特征归一化使得CNN更加集中在优化夹角上，得到的深度广告特征更加分离。

特征归一化后，特征向量都固定映射到半径为1的超球上，便于理解和优化。但这样也压缩了特征表达的空间；乘以尺度因子α，相当于将超球的半径放大到α，超球变大，特征表达的空间也更大了(半径越大球的表面积越大)。另外特征归一化后，广告识别计算特征向量的相似度，L2距离和余弦距离意义等价，计算量相同，更加便利。

在此基础上，使用了加性边距(Additive Margin)。比如广告特征xi与对应权值W的夹角为θ，在它基础上加一个固定值m(0.5)。如图7所示，这么做的结果把特征从权值处“推远”了，从而加大了分类任务的难度，让得到的特征更加内聚。

S4、另选两张新广告图片，重复上述步骤S3。基于特征夹角θ，和上述参数，就可以算出这对图片匹配的概率，具体代码参考如下：

def get_prob(theta):

prob_0＝norm.pdf(theta,mu_0,sigma_0)

prob_1＝norm.pdf(theta,mu_1,sigma_1)

total＝prob_0+prob_1

return prob_1/total

本发明技术方案提高了图像匹配识别的准确率：从98.2％提高到99％(准确度提高了0.8％，错误率降低了44.4％)，同时降低了人工识别照片量：从198w张/年降低到110w/年。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于深度学习的框架广告图像匹配方法，其特征在于，包括：

S1、建立图片数据集；

S4、另选两张新广告图片，重复上述步骤S3。

2.如权利要求1所述基于深度学习的框架广告图像匹配方法，其特征在于，采用Softmax作为损失函数训练深度卷积神经网络，得到图片的特征向量，同时采用Large-Margin Softmax Loss方法减小权值向量和特征向量之间的夹角。

3.如权利要求2所述基于深度学习的框架广告图像匹配方法，其特征在于，在Softmax的w*x基础上，将特征向量x做归一化，并乘以尺度因子进行放大：

z＝α·y

其中，w为权值向量，α为尺度因子。