CN108564122A - 基于卷积-循环混合网络的图像描述模型的一体化训练方法 - Google Patents
基于卷积-循环混合网络的图像描述模型的一体化训练方法 Download PDFInfo
- Publication number
- CN108564122A CN108564122A CN201810314897.3A CN201810314897A CN108564122A CN 108564122 A CN108564122 A CN 108564122A CN 201810314897 A CN201810314897 A CN 201810314897A CN 108564122 A CN108564122 A CN 108564122A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural networks
- image
- short
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了基于卷积‑循环混合网络的图像描述模型的一体化训练生成方法,该方法主要是把卷积神经网络与循环神经网络联合起来进行一体化训练,分别对卷积神经网络与循环神经网络进行构建,然后使用TensorFlow框架对两者进行联合训练,该方法的使用大大优化了训练过程,只需要在准备原始图片与相应文本作为输入,即可完成整体训练,并且达到了两个网络参数同时进行更新的效果,使结果得到更好的效果。
Description
技术领域
本发明属于人工智能深度学习领域,主要实现了对输入图像生成英文文本描述的一体化训练的方法。
背景技术
现阶段的社会,互联网已经站在了主流地位上,而人工智能更是主流中的主流。人们已经慢慢接受并且渐渐离不开人工智能,现阶段越来越多的人工智能技术走入人们的生活,自动翻译、物体识别、人脸识别等,图像的文本描述也逐渐被人们重视,该技术的实现对图像识别、图像检测,以及游人旅游、盲人导航等方面都有着至关重要的作用。
该技术的前提条件是需要了解深度学习中的卷积神经网络与循环神经网络的技术细节,卷积神经网络是提取图像特征从而用来表示图像的网络模型,该模型内部主要由若干卷积层、池化层和全连接层组成,经过训练后的卷积神经网络模型可以对输入的图像经过一系列的卷积、池化的操作,最后经过全连接层生成一个可以用来表示图像向量。循环神经网络中的长短时记忆网络(LSTM)被广泛认可,该网络具有时序性,含有”cell”模块,可以记住并结合之前的信息生成之后的信息,训练过后长短时记忆网络模型(LSTM)会根据输入的图像生产相应的文本描述。
现阶段的图像描述技术大都分为两个单独的步骤去实现,首先单独使用已经训练好的卷积神经网络模型对图像进行特征提取,把图片特征单独存储起来,把文本的单词也都存在相应的文件中,然后再使用长短时记忆网络(LSTM)对图片与文本进行训练,生成模型。但是该方法的操作周期较长,而且实行训练的过程复杂,使得目前的方法很难被大家所采用。
发明内容
本发明采用的技术方案为一种基于卷积-循环混合网络的图像描述模型的一体化训练生成方法,该方法根据输入的图像,经过模型产生对于该图像内容描述的句子,其特征在于以下步骤:
步骤1:选择数据集(例如:COCO等),其中数据集的数据主要包括图像和与图像相对应的文本描述,一张图像分别对应五个句子;
步骤2:对图像进行预处理,根据不同网络的输入要求对图像进行调整;
步骤3:对图像进行特征提取,具体步骤如下:
步骤3.1:选择卷积神经网络(例如:VGG),对卷积神经网络进行参数设置,使用该卷积神经网络在ImageNet数据集上经过训练学习到的参数作为网络的初始化参数;
步骤3.2:对卷积神经网络的结构进行调整,使卷积神经网络截至于全连接层,对输入的图像通过卷积神经网络后以向量的形式表示;
步骤4:对文本进行预处理,对其进行关键词提取,提取次数大于30的单词作为关键词制作一个字典,把关键词均以向量的形式进行表示;
步骤5:构建长短时记忆网络;
步骤6:联合卷积神经网络和长短时记忆网络进行一体化训练;
步骤6.1:选择深度学习框架(例如:TensorFlow),为了方便卷积神经网络与长短时记忆网络的联合操作需要在同一框架中使用统一的格式来进行构建;
步骤6.2:输入一张图像,通过卷积神经网络对其特征进行提取,卷积神经网络的输出则是表示图像特征的向量,该向量被用于初始化长短时记忆网络的隐含层参数,确立卷积神经网络与长短时记忆网络之间的连接关系;
步骤6.3:把图像所对应的文本进行关键词提取,使文本中的单词转化为向量格式来作为长短时记忆网络的输入;
步骤7:选择损失函数、优化函数对卷积神经网络和长短时记忆网络进行反向传播运算,同时更新卷积神经网络和长短时记忆网络的内部参数值,设置迭代次数等超参数对卷积神经网络与长短时记忆网络进行一体化训练,保存模型用于测试。
附图说明
图1:整体架构图。
图2:卷积神经网络(VGG16)模型结构图。
图3:长短时记忆网络模型结构图。
图4:图像生成文本结果对比图。
图5:结果对比图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
本发明是在卷积神经网络和循环神经网络两者模型的基础上,对两者进行一体化联合训练,采用的框架是TensorFlow深度学习框架,数据集是COCO2014,通过对两个框架的改进,一体化训练,完成图像生成文本描述的任务。
步骤1:根据对卷积神经网络与长短时记忆网络的理解与改进,完成整体架构图的构思,见附图1。
步骤2:根据架构图,在TensorFlow框架的基础上,对卷积神经网络与长短时记忆网络结构进行搭建,该步骤是整个发明的关键部分,需要细分为以下几个小步骤:
步骤2.1:首先在进行卷积神经网络和长短时记忆网络搭建之前,需要对数据进行处理,把数据集中的图片文本都进行相应的处理,删除图片中损坏的图片,并且把符合要求的图片变换大小来符合卷积神经网络的输入要求,而且把文本进行单词提取操作,留待作为后续长短时记忆网络的输入。
步骤2.2:构建卷积神经网络,选择的是VGG16,见附图2,VGG16由16层组成,由于网络深度很深,若想对该网络进行从头的参数训练会很麻烦,所以本发明采用了迁移学习的方法,把在ImageNet数据集上训练好的参数拿来使用,ImageNet是用于做图像分类的数据集,涉及到1000类的图片,数据量大,使用训练好的参数来做迁移学习对本发明的卷积神经网络有非常有利,在做迁移学习的过程中,为了使效果更好,并不是直接使用训练好的参数,而是用该参数作为初始化,固定卷积神经网络前面的基础层使其参数不发生改变,放开后几层的参数,这样在训练过程中后面的网络参数即可根据本发明所使用的数据进行进一步的更新。
步骤2.3:修改卷积神经网络结构与循环神经网络进行联合,由于需要两个神经网络的联合,所以卷积神经网络的输出需要进行调整,把卷积神经网络VGG16最后一层用于分类的Softmax层删除,保留最后的全连接层,把全连接层的输出进行维度转换用来初始化循环神经网络的隐含层参数,循环神经网络的搭建选择了一种特殊的网络,长短时记忆网络—LSTM,见附图3,该网络对于文本序列有着独特的处理方式,可以解决循环神经网络原有的问题。于此同时,把与图片相对应的文本中的单词按要求进行处理,转化为向量作为长短时记忆网络的输入。
步骤2.4:卷积神经网络与长短时记忆网络构建完成后,需要进行输出结果的处理,使用softmax交叉熵函数作为损失函数,并且使用Adam优化方法对损失进行最小化处理,降低损失值来进行反向传播从而进一步更新卷积神经网络与长短时记忆网络的参数。编写训练代码设置迭代次数,对整体进行训练,并且在训练过程中对网络模型进行定期保存。
步骤3:编写测试代码,通过训练过程中保存的模型,对图片进行文本生成实验,选择图片作为输入,输出为一句文本描述,见附图4,上面一句为本发明所得到的结果,下面一句为对比方法所得到的结果。然后为了进行对比实验,引入BLEU得分算法,对生成的文本描述与原有句子进行评分。对比实验的方法是未一体化联合训练的方法,把卷积神经网络与长短时记忆神经网络分开进行处理,对比方法中的卷积神经网络就变成了对图像的一种预处理方法,把图像变为矩阵格式,主要训练过程在长短时记忆网络阶段,使用该方法得到的文本描述同样使用BLEU得分算法进行评分,并把所得分数以可视化的方式表现出来完成实验对比,见附图5,本发明得分要高于对比方法。
以上实例仅用于描述本发明,而非限制本发明所描述的技术方案。因此,一切不脱离本发明精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围中。
Claims (1)
1.基于卷积-循环混合网络的图像描述模型的一体化训练生成方法,该方法根据输入的图像,经过模型产生对于该图像内容描述的句子,其特征在于:以下步骤,
步骤1:选择数据集,其中数据集的数据主要包括图像和与图像相对应的文本描述,一张图像分别对应五个句子;
步骤2:对图像进行预处理,根据不同网络的输入要求对图像进行调整;
步骤3:对图像进行特征提取,具体步骤如下:
步骤3.1:选择卷积神经网络,对卷积神经网络进行参数设置,使用该卷积神经网络在ImageNet数据集上经过训练学习到的参数作为网络的初始化参数;
步骤3.2:对卷积神经网络的结构进行调整,使卷积神经网络截至于全连接层,对输入的图像通过卷积神经网络后以向量的形式表示;
步骤4:对文本进行预处理,对其进行关键词提取,提取次数大于30的单词作为关键词制作一个字典,把关键词均以向量的形式进行表示;
步骤5:构建长短时记忆网络;
步骤6:联合卷积神经网络和长短时记忆网络进行一体化训练;
步骤6.1:选择深度学习框架,为了方便卷积神经网络与长短时记忆网络的联合操作需要在同一框架中使用统一的格式来进行构建;
步骤6.2:输入一张图像,通过卷积神经网络对其特征进行提取,卷积神经网络的输出则是表示图像特征的向量,该向量被用于初始化长短时记忆网络的隐含层参数,确立卷积神经网络与长短时记忆网络之间的连接关系;
步骤6.3:把图像所对应的文本进行关键词提取,使文本中的单词转化为向量格式来作为长短时记忆网络的输入;
步骤7:选择损失函数、优化函数对卷积神经网络和长短时记忆网络进行反向传播运算,同时更新卷积神经网络和长短时记忆网络的内部参数值,设置迭代次数超参数对卷积神经网络与长短时记忆网络进行一体化训练,保存模型用于测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810314897.3A CN108564122A (zh) | 2018-04-10 | 2018-04-10 | 基于卷积-循环混合网络的图像描述模型的一体化训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810314897.3A CN108564122A (zh) | 2018-04-10 | 2018-04-10 | 基于卷积-循环混合网络的图像描述模型的一体化训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108564122A true CN108564122A (zh) | 2018-09-21 |
Family
ID=63534554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810314897.3A Pending CN108564122A (zh) | 2018-04-10 | 2018-04-10 | 基于卷积-循环混合网络的图像描述模型的一体化训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564122A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109303560A (zh) * | 2018-11-01 | 2019-02-05 | 杭州质子科技有限公司 | 一种基于卷积残差网络和迁移学习的短时心电信号房颤识别方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN109766780A (zh) * | 2018-12-20 | 2019-05-17 | 武汉理工大学 | 一种基于深度学习的船舶烟雾排放在线检测和追踪方法 |
CN110110770A (zh) * | 2019-04-24 | 2019-08-09 | 佛山科学技术学院 | 基于神经网络的服装图片导购文字生成方法及装置 |
CN110188775A (zh) * | 2019-05-28 | 2019-08-30 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
CN110210536A (zh) * | 2019-05-22 | 2019-09-06 | 北京邮电大学 | 一种光互连系统的物理损伤诊断方法及装置 |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN111008738A (zh) * | 2019-12-04 | 2020-04-14 | 云南锡业集团(控股)有限责任公司研发中心 | 基于多模态深度学习的Sn-Bi合金延伸率和抗拉强度的预测方法 |
CN111797853A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 特征提取方法、装置、存储介质及电子设备 |
CN111803028A (zh) * | 2020-06-19 | 2020-10-23 | 天津大学 | 一种基于网络参数迁移的个性化癫痫发作检测装置 |
CN112381079A (zh) * | 2019-07-29 | 2021-02-19 | 富士通株式会社 | 图像处理方法和信息处理设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
-
2018
- 2018-04-10 CN CN201810314897.3A patent/CN108564122A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN109303560A (zh) * | 2018-11-01 | 2019-02-05 | 杭州质子科技有限公司 | 一种基于卷积残差网络和迁移学习的短时心电信号房颤识别方法 |
CN109766780A (zh) * | 2018-12-20 | 2019-05-17 | 武汉理工大学 | 一种基于深度学习的船舶烟雾排放在线检测和追踪方法 |
CN111797853A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 特征提取方法、装置、存储介质及电子设备 |
CN110110770A (zh) * | 2019-04-24 | 2019-08-09 | 佛山科学技术学院 | 基于神经网络的服装图片导购文字生成方法及装置 |
CN110210536A (zh) * | 2019-05-22 | 2019-09-06 | 北京邮电大学 | 一种光互连系统的物理损伤诊断方法及装置 |
CN110188775A (zh) * | 2019-05-28 | 2019-08-30 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
CN110188775B (zh) * | 2019-05-28 | 2020-06-26 | 创意信息技术股份有限公司 | 一种基于联合神经网络模型的图像内容描述自动生成方法 |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN112381079A (zh) * | 2019-07-29 | 2021-02-19 | 富士通株式会社 | 图像处理方法和信息处理设备 |
CN111008738A (zh) * | 2019-12-04 | 2020-04-14 | 云南锡业集团(控股)有限责任公司研发中心 | 基于多模态深度学习的Sn-Bi合金延伸率和抗拉强度的预测方法 |
CN111803028A (zh) * | 2020-06-19 | 2020-10-23 | 天津大学 | 一种基于网络参数迁移的个性化癫痫发作检测装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564122A (zh) | 基于卷积-循环混合网络的图像描述模型的一体化训练方法 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN105205448B (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
CN107292333B (zh) | 一种基于深度学习的快速图像分类方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN107239801B (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
CN107025369B (zh) | 一种对医疗图像进行转换学习的方法和装置 | |
CN110532912B (zh) | 一种手语翻译实现方法及装置 | |
CN106844442A (zh) | 基于fcn特征提取的多模态循环神经网络图像描述方法 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN108121975B (zh) | 一种联合原始数据和生成数据的人脸识别方法 | |
CN109544442A (zh) | 基于双重对抗的生成式对抗网络的图像局部风格迁移方法 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN106650789A (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN111242033B (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN109635150A (zh) | 文本生成方法、装置以及存储介质 | |
CN111738251A (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN107832292A (zh) | 一种基于神经网络模型的图像到汉语古诗的转换方法 | |
CN109948714A (zh) | 基于残差卷积和递归神经网络的中文场景文本行识别方法 | |
CN109783641A (zh) | 一种基于双向-gru和改进的注意力机制的实体关系分类方法 | |
CN108898639A (zh) | 一种图像描述方法及系统 | |
CN110837830B (zh) | 一种基于时空卷积神经网络的图像字符识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180921 |
|
RJ01 | Rejection of invention patent application after publication |