CN111444968A - 一种基于注意力融合的图像描述生成方法 - Google Patents
一种基于注意力融合的图像描述生成方法 Download PDFInfo
- Publication number
- CN111444968A CN111444968A CN202010237438.7A CN202010237438A CN111444968A CN 111444968 A CN111444968 A CN 111444968A CN 202010237438 A CN202010237438 A CN 202010237438A CN 111444968 A CN111444968 A CN 111444968A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- target
- input
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 3
- 230000010354 integration Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的是一种基于注意力融合的图像描述生成方法。使用ResNet‑101作为Faster R‑CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R‑CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。本发明克服了直接划分图像得到的空间注意力不能准确地提取图像中目标对应特征的问题,提高图像描述的效果。
Description
技术领域
本发明涉及的是一种语言处理技术和图像描述方法,具体涉及一种基于注意力融合的图像描述生成方法。
背景技术
图像描述是计算机视觉和自然语言处理领域交叉的研究课题,是人工智能中的研究热点,与图像分类、目标检测等图像理解任务不同,图像描述不仅要识别出图像中的目标,而且要理解目标之间的关系,并使用自然语言正确地表达出来,因此图像描述具有很大挑战性。图像描述在图像检索、人机交互以及智能监控等领域具有广阔的应用前景。近年来,图像描述是人工智能领域的一个研究热点,旨在让机器变得更智能,图像描述能够让机器像人一样看懂理解图像,从而实现基于视觉的人机交互,提高人与机器交流的效率。
发明内容
本发明的目的在于提供一种能准确地提取图像中目标对应特征,提高图像描述的准确率的基于注意力融合的图像描述生成方法。
本发明的目的是这样实现的:
使用ResNet-101作为Faster R-CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。
本发明可以用如下步骤进行描述:
步骤1、Faster R-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测,并同时检测出图像中目标物体的位置和名词属性,将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成;
步骤2、使用Faster R-CNN模型对输入图像进行检测,对其输出使用非极大值抑制,并在其中筛选置信度大于0.3的目标作为注意力机制的输入;对于被检测到的目标物体,其空间位置对应在ResNet-101最后一层卷积层的特征图,将经过平均池化处理的图像特征向量作为空间注意机制的输入,其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入;
步骤3、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入,图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成;
步骤4、Faster R-CNN同时检测提供空间注意力和高层语义注意力,在Faster R-CNN算法中,目标的名称属性是通过目标对应的图像特征信息经过推断得到的,目标对应的图像特征隐式地包含目标名称属性信息;
步骤5、使用的注意力模型根据选取目标对应的特征向量{v1,v2,...,vn}、目标对应的名称属性向量{a1,a2,...,aL}和解码器中长短期记忆网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量和名称属性向量的权重αij;
eij=fatt(hi-1,vj,aj) (1)
步骤6、使用区域提议网络训练真实区域边界框生成提议,将多个目标物体和对象区域提议进行集成生成图像描述的区域提议;
步骤7、依据当前时刻输入的视觉上下文信息zi,将图像全局特征V分别通过两个独立的多层感知机计算得到长短期记忆网络的细胞单元状态和隐藏状态的初始值;
c0=finit,c(V) (3)
h0=finit,h(V) (4)
步骤8、根据前一时刻的输出yi-1、前一时刻的隐藏状态hi-1和视觉上下文zi计算得到当前时刻的隐藏状态hi;
hi=LSTM(yi-1,hi-1,zi) (5)
步骤9、由当前时刻的隐藏状态、视觉上下文信息以及前一时刻的输出通过Softmax得到当前输出单词的概率分布;
p(yi|zi,yi-1)=softmax(Eyi-1+Lhhi+Lzzi) (6)
步骤10、使用交叉熵损失函数进行训练,给定人工标注描述y*,使用θ表示模型中的参数,交叉熵损失函数L(θ)的表达式为:
本发明为了解决直接划分图像得到的空间注意力不能准确地提取图像中目标对应的特征,所生成的图像描述准确率较低的问题,提供了一种基于注意力融合的图像描述生成方法。
本发明使用Faster R-CNN作为编码器对空间注意力机制进行改进,提高空间注意力机制的精度。使用融合空间注意力与高层语义注意力的注意力机制,在提取图像特征的同时检测出图像中目标物体的准确位置和名词属性,同时指导单词的生成。使用强化学习方法训练基于注意力融合的图像描述模型,提升模型在评价指标上的得分,提高模型的性能。
本发明使用目标检测网络Faster R-CNN作为图像描述模型的编码器,对空间注意力机制进行改进,提高空间注意力机制的精度。
本发明使用融合空间注意力与高层语义注意力的高层语义注意力机制,在提取图像特征的同时检测出图像中目标的准确位置和名词属性,同时指导单词的生成。
本发明使用强化学习方法训练基于注意力融合的图像描述模型,提升模型在评价指标上的得分,提高模型的性能。
上述基于注意力融合的图像描述生成方法的有益效果体现在:
1、本发明基于注意力融合的图像描述生成方法,提出基于多注意力融合的图像描述模型,使用Faster R-CNN作为图像描述模型的编码器,改进空间注意力机制,与直接划分图像得到的空间注意力相比,基于Faster R-CNN改进的空间注意力更精确,模型的描述效果更好。
2、Faster R-CNN作为图像描述模型的编码器,能够检测出图像中目标位置和名称,分别作为空间注意力和高层语义注意力,同时指导单词的生成,能够显著提升生成图像描述的效果。
3、在交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标以进一步训练图像描述模型,显著提升基于注意融合的图像描述模型的效果。
附图说明
图1是本发明基于注意力融合的图像描述生成方法的原理示意图。
具体实施方式
下面结合附图举例对本发明作进一步详细描述。
参照图1,本实施方式所述的基于注意力融合的图像描述生成方法,主要包括Faster R-CNN物体检测模块、注意力机制模块和LSTM模块。
步骤一、Faster R-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测,并同时检测出图像中目标物体的准确位置和名词属性,将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成。
步骤二、使用Faster R-CNN模型对输入图像进行检测,对其输出使用非极大值抑制,并在其中筛选置信度大于0.3的目标作为注意力机制的输入。对于被检测到的目标物体,其空间位置对应在ResNet-101最后一层卷积层的特征图,经过平均池化处理后将图像特征向量作为空间注意机制的输入,其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入。
步骤三、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入,图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成。
步骤四、Faster R-CNN同时提供检测空间注意力和高层语义注意力,在Faster R-CNN算法中,目标的名称属性是通过目标对应的图像特征信息经过推断得到的,目标对应的图像特征隐式地包含目标名称属性信息。
步骤污、使用的注意力模型根据选取目标对应的特征向量{v1,v2,...,vn}、目标对应的名称属性向量{a1,a2,...,aL}和解码器中长短期记忆网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量和名称属性向量的权重αij。
eij=fatt(hi-1,vj,aj) (1)
步骤六、注意机制模型fatt是一个多层感知机模型,其包含一个隐藏层,对其输出结果使用Softmax进行归一化,可以得到目标对应的特征向量在当前时刻i的权重分布,这些权重就表示描述模型对图像各目标的重视程度。
步骤七、依据当前时刻输入的视觉上下文信息zi,将图像全局特征V分别通过两个独立的多层感知机计算得到长短期记忆网络的细胞单元状态和隐藏状态的初始值。
c0=finit,c(V) (3)
h0=finit,h(V) (4)
步骤八、根据前一时刻的输出yi-1、前一时刻的隐藏状态hi-1和视觉上下文zi可以计算得到当前时刻的隐藏状态hi。
hi=LSTM(yi-1,hi-1,zi) (5)
步骤九、由当前时刻的隐藏状态、视觉上下文信息以及前一时刻的输出通过Softmax可以得到当前输出的单词的概率分布。
p(yi|zi,yi-1)=softmax(Eyi-1+Lhhi+Lzzi) (6)
步骤十、使用交叉熵损失函数进行训练,给定人工标注描述y*,使用θ表示模型中的参数,交叉熵损失函数L(θ)的表达式为:
本发明使用Faster R-CNN作为编码器在提取图像特征的同时可以检测出图像中目标的准确位置和名词属性,将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升基于注意力融合的图像描述模型的准确率。本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下作出的结构变化或方法改进,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
Claims (2)
1.一种基于注意力融合的图像描述生成方法,其特征是:使用ResNet-101作为FasterR-CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用FasterR-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。
2.根据权利要求1所述的基于注意力融合的图像描述生成方法,其特征是:
步骤1、Faster R-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测,并同时检测出图像中目标物体的位置和名词属性,将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成;
步骤2、使用Faster R-CNN模型对输入图像进行检测,对其输出使用非极大值抑制,并在其中筛选置信度大于0.3的目标作为注意力机制的输入;对于被检测到的目标物体,其空间位置对应在ResNet-101最后一层卷积层的特征图,将经过平均池化处理的图像特征向量作为空间注意机制的输入,其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入;
步骤3、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入,图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成;
步骤4、Faster R-CNN同时检测提供空间注意力和高层语义注意力,在Faster R-CNN算法中,目标的名称属性是通过目标对应的图像特征信息经过推断得到的,目标对应的图像特征隐式地包含目标名称属性信息;
步骤5、使用的注意力模型根据选取目标对应的特征向量{v1,v2,...,vn}、目标对应的名称属性向量{a1,a2,...,aL}和解码器中长短期记忆网络上一时刻的隐藏状态hi-1来决定当前时间选取的特征向量和名称属性向量的权重αij;
eij=fatt(hi-1,vj,aj) (1)
步骤6、使用区域提议网络训练真实区域边界框生成提议,将多个目标物体和对象区域提议进行集成生成图像描述的区域提议;
步骤7、依据当前时刻输入的视觉上下文信息zi,将图像全局特征V分别通过两个独立的多层感知机计算得到长短期记忆网络的细胞单元状态和隐藏状态的初始值;
c0=finit,c(V) (3)
h0=finit,h(V) (4)
步骤8、根据前一时刻的输出yi-1、前一时刻的隐藏状态hi-1和视觉上下文zi计算得到当前时刻的隐藏状态hi;
hi=LSTM(yi-1,hi-1,zi) (5)
步骤9、由当前时刻的隐藏状态、视觉上下文信息以及前一时刻的输出通过Softmax得到当前输出单词的概率分布;
p(yi|zi,yi-1)=softmax(Eyi-1+Lhhi+Lzzi) (6)
步骤10、使用交叉熵损失函数进行训练,给定人工标注描述y*,使用θ表示模型中的参数,交叉熵损失函数L(θ)的表达式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237438.7A CN111444968A (zh) | 2020-03-30 | 2020-03-30 | 一种基于注意力融合的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237438.7A CN111444968A (zh) | 2020-03-30 | 2020-03-30 | 一种基于注意力融合的图像描述生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444968A true CN111444968A (zh) | 2020-07-24 |
Family
ID=71651097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010237438.7A Pending CN111444968A (zh) | 2020-03-30 | 2020-03-30 | 一种基于注意力融合的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444968A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329794A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112784848A (zh) * | 2021-02-04 | 2021-05-11 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN113158791A (zh) * | 2021-03-15 | 2021-07-23 | 上海交通大学 | 一种以人为中心的图像描述标注方法、系统、终端及介质 |
CN113221513A (zh) * | 2021-04-19 | 2021-08-06 | 西北工业大学 | 一种跨模态数据融合的个性化产品描述生成方法 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN114359741A (zh) * | 2022-03-19 | 2022-04-15 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
CN114494813A (zh) * | 2021-12-24 | 2022-05-13 | 西北工业大学 | 一种基于密集交叉注意力的指称表达生成方法 |
CN114926835A (zh) * | 2022-05-20 | 2022-08-19 | 京东科技控股股份有限公司 | 文本生成、模型训练方法和装置 |
CN115019142A (zh) * | 2022-06-14 | 2022-09-06 | 辽宁工业大学 | 基于融合特征的图像标题生成方法、系统、电子设备 |
CN115406815A (zh) * | 2022-11-02 | 2022-11-29 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
CN116012685A (zh) * | 2022-12-20 | 2023-04-25 | 中国科学院空天信息创新研究院 | 一种基于关系序列与视觉序列融合的图像描述生成方法 |
WO2023178801A1 (zh) * | 2022-03-22 | 2023-09-28 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN116912629A (zh) * | 2023-09-04 | 2023-10-20 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
US20190149834A1 (en) * | 2017-11-15 | 2019-05-16 | Salesforce.Com, Inc. | Dense Video Captioning |
US20190228269A1 (en) * | 2018-01-04 | 2019-07-25 | IAS Machine, LLC | Procedural language and content generation environment for use in augmented reality/mixed reality systems to support laboratory and related operations |
CN110473267A (zh) * | 2019-07-12 | 2019-11-19 | 北京邮电大学 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
-
2020
- 2020-03-30 CN CN202010237438.7A patent/CN111444968A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
US20190149834A1 (en) * | 2017-11-15 | 2019-05-16 | Salesforce.Com, Inc. | Dense Video Captioning |
US20190228269A1 (en) * | 2018-01-04 | 2019-07-25 | IAS Machine, LLC | Procedural language and content generation environment for use in augmented reality/mixed reality systems to support laboratory and related operations |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN110473267A (zh) * | 2019-07-12 | 2019-11-19 | 北京邮电大学 | 基于注意力特征提取网络的社交网络图像描述生成方法 |
Non-Patent Citations (4)
Title |
---|
PETER ANDERSON 等: "Bottom-up and top-down attention for image captioning and visual question answering", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
QUANZENG YOU 等: "Image Captioning with Semantic Attention", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
朱孟贵: "基于深度学习的图像标注研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
王雷全 等: "基于多层级图像表征的层次化注意力图像描述", 《中国电子科学研究院学报》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329794B (zh) * | 2020-11-06 | 2024-03-12 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112329794A (zh) * | 2020-11-06 | 2021-02-05 | 北京工业大学 | 一种基于双重自注意力机制的图像描述方法 |
CN112784848A (zh) * | 2021-02-04 | 2021-05-11 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN112784848B (zh) * | 2021-02-04 | 2024-02-27 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN113158791A (zh) * | 2021-03-15 | 2021-07-23 | 上海交通大学 | 一种以人为中心的图像描述标注方法、系统、终端及介质 |
CN113221513A (zh) * | 2021-04-19 | 2021-08-06 | 西北工业大学 | 一种跨模态数据融合的个性化产品描述生成方法 |
CN113283248B (zh) * | 2021-04-29 | 2022-06-21 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113283248A (zh) * | 2021-04-29 | 2021-08-20 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN114494813A (zh) * | 2021-12-24 | 2022-05-13 | 西北工业大学 | 一种基于密集交叉注意力的指称表达生成方法 |
CN114494813B (zh) * | 2021-12-24 | 2024-03-05 | 西北工业大学 | 一种基于密集交叉注意力的指称表达生成方法 |
CN114359741B (zh) * | 2022-03-19 | 2022-06-17 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
CN114359741A (zh) * | 2022-03-19 | 2022-04-15 | 江西财经大学 | 基于区域特征的图像描述模型注意力机制评价方法与系统 |
WO2023178801A1 (zh) * | 2022-03-22 | 2023-09-28 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN114926835A (zh) * | 2022-05-20 | 2022-08-19 | 京东科技控股股份有限公司 | 文本生成、模型训练方法和装置 |
CN115019142A (zh) * | 2022-06-14 | 2022-09-06 | 辽宁工业大学 | 基于融合特征的图像标题生成方法、系统、电子设备 |
CN115019142B (zh) * | 2022-06-14 | 2024-03-29 | 辽宁工业大学 | 基于融合特征的图像标题生成方法、系统、电子设备 |
CN115406815A (zh) * | 2022-11-02 | 2022-11-29 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
CN116012685B (zh) * | 2022-12-20 | 2023-06-16 | 中国科学院空天信息创新研究院 | 一种基于关系序列与视觉序列融合的图像描述生成方法 |
CN116012685A (zh) * | 2022-12-20 | 2023-04-25 | 中国科学院空天信息创新研究院 | 一种基于关系序列与视觉序列融合的图像描述生成方法 |
CN116912629A (zh) * | 2023-09-04 | 2023-10-20 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
CN116912629B (zh) * | 2023-09-04 | 2023-12-29 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444968A (zh) | 一种基于注意力融合的图像描述生成方法 | |
CN109389091B (zh) | 基于神经网络和注意力机制结合的文字识别系统及方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
CN110490254B (zh) | 一种基于双重注意力机制层次网络的图像语义生成方法 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN113642431B (zh) | 目标检测模型的训练方法及装置、电子设备和存储介质 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
WO2022206094A1 (zh) | 用于生成字幕器以及输出字幕的方法和装置 | |
US20230222768A1 (en) | Multiscale point cloud classification method and system | |
CN110704665A (zh) | 一种基于视觉注意力机制的图像特征表达方法及系统 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN118038139A (zh) | 一种基于大模型微调的多模态小样本图像分类方法 | |
CN114187506B (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN113095072A (zh) | 文本处理方法及装置 | |
Kung | Research on signal processing technology optimization of contact image sensor based on BP neural network algorithm | |
CN117609536A (zh) | 基于语言引导的指称表达理解推理网络系统及推理方法 | |
CN116185182B (zh) | 一种融合眼动注意力的可控图像描述生成系统及方法 | |
CN117392488A (zh) | 一种数据处理方法、神经网络及相关设备 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |