CN111259197B - 一种基于预编码语义特征的视频描述生成方法 - Google Patents
一种基于预编码语义特征的视频描述生成方法 Download PDFInfo
- Publication number
- CN111259197B CN111259197B CN202010031617.5A CN202010031617A CN111259197B CN 111259197 B CN111259197 B CN 111259197B CN 202010031617 A CN202010031617 A CN 202010031617A CN 111259197 B CN111259197 B CN 111259197B
- Authority
- CN
- China
- Prior art keywords
- video
- features
- network
- coding semantic
- tsn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7328—Query by example, e.g. a complete video frame or video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于预编码语义特征的视频描述生成方法,对视频进行抽帧处理,并生成光流图;利用152层的残差网络抽取视频的全局RGB特征;利用多模态融合网络抽取视频的全局动作特征;利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征;将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述。本发明将视频转化成描述,可辅助人对视频内容的理解,也方便了对视频内容的检索。
Description
技术领域
本发明属于视频描述生成技术领域,特别涉及一种基于预编码语义特征的视频描述生成方法。
背景技术
随着信息与通信技术的快速发展,视频渐渐成为网络上最流行的信息交流载体。视频描述生成是近年来人工智能领域的研究热点,它在计算机视觉社区和自然语言处理社区倍受关注。对于一个给定的视频,该任务的目标是自动生成一个能将视频内容描述清楚并且完整通顺的句子。
视频比图像多了时间维度,因此视频描述生成任务除了需要识别出视频每帧的内容之外,还需要理解帧间关系,进而将内容与描述文字对应起来。目前,视频描述生成技术已应用在机器人和视频检索等领域。
由于这个问题是计算机视觉领域的热点任务,已有学者提出多种方法。例如,直接使用编码器-解码器方法生成句子,即使用卷积神经网络提取视频的每帧特征,再将特征输入长短期记忆网络编码器,然后从解码器生成视频描述。该方法仅使用了用于训练的视频数据集,用到的信息不足,故有一定的局限性。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于预编码语义特征的视频描述生成方法,用于生成一个句子,该句子语句通顺并准确地描述出一段视频包含信息。
为了实现上述目的,本发明采用的技术方案是:
一种基于预编码语义特征的视频描述生成方法,包括以下步骤:
对视频进行抽帧处理,并生成光流图;
利用152层的残差网络抽取视频的全局RGB特征;
利用多模态融合网络抽取视频的全局动作特征;
利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征;
将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述。
所述对视频进行抽帧处理,并生成光流图的具体方法为:
利用ffmpeg对视频进行抽帧处理,然后对相邻的每两帧抽取TVL1和warped TVL1光流图。
所述利用152层的残差网络抽取视频的全局RGB特征的具体方法为:
在公开数据集ImageNet上训练152层残差网络,即ResNet152;
使用ResNet152分别预测视频中抽出的帧,将网络的最后一个卷积层作为特征,具体方法为:
将所有的帧等分成8段;
每段取最中间一帧;
使用ResNet152预测这8帧;
将得到的特征取平均得到视频的全局RGB特征。
所述利用多模态融合网络抽取视频的全局动作特征的具体方法为:
在公开数据集UCF101上训练TSN网络;
在公开数据集UCF101上训练C3D网络;
将抽取好的帧和光流图输入训练好的TSN网络和C3D网络中,分别得到TSN分数特征和C3D分数特征,具体方法为:
将所有的帧分成8段,每段取中间一帧,输入TSN空间网络,得到TSN空间网络分数特征;
将TVL1光流图和warped TVL1光流图分别分成8段,每段取中间5张x方向光流图和y方向光流图,输入TSN时间网络,分别得到TSN时间网络TVL1分数特征和warped TVL1分数特征;
将TSN空间网络分数特征和TSN时间网络分数特征进行线性融合,得到TSN网络分数特征;
将所有的帧每16帧为一段,输入C3D网络,得到C3D分数特征;
将TSN分数特征和C3D分数特征进行线性融合,得到多模态融合网络分数特征,称为全局动作特征。
所述利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征的具体方法为:
在公开数据集COCO上训练快速区域对象识别卷积神经网络,即Faster R-CNN;
使用Faster R-CNN对视频中的帧进行对象识别,建立向量空间模型,将识别出的对象集转为局部对象特征,具体方法为:
将所有的帧分为8段,每段取中间一帧,使用Faster R-CNN识别出分数大于0.8的对象;
由于对象类别数为80,故建立80维特征向量,图像中出现某类别,则在特征向量中对应位置加1;
将8个特征向量求平均,得到局部对象特征。
所述将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述具体为:
将全局RGB特征、全局动作特征和局部对象特征进行拼接,得到预编码语义特征;
构建长短期记忆网络(LSTM);
将预编码语义特征输入长短期记忆网络,进而输出句子,具体方法为:
训练时,利用现有视频数据集的描述,构造<预编码语义特征,视频描述>二元组,将<预编码语义特征,视频描述>二元组中的预编码语义特征作为长短期记忆网络的输入,将视频描述作为正确输出,使用梯度下降法优化目标函数,使用反向传播算法更新权值,进而训练长短期记忆网络;
测试时,将从测试视频中得到的预编码语义特征输入长短期记忆网络,该网络输出的句子即为该测试视频对应的描述。
与现有技术相比,本发明的有益效果是:能够充分利用公开的图像数据集训练分类残差网络;能够充分利用现有的视频数据集训练多模态融合网络;能够充分利用现有的对象识别数据集训练快速区域卷积神经网络。本发明充分利用了除用于生成视频描述的数据集之外大量公开数据集,这使得生成的视频描述更加准确。
附图说明
图1是一种基于预编码语义特征的视频描述生成方法的流程图。
图2是使用152层残差网络抽取全局RGB特征的网络的结构图。
图3是多模态融合网络的结构图。
图4是快速区域对象识别卷积神经网络的结构图。
图5是用于解码预编码语义向量的长短期记忆网络的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例详细说明本发明的实施方式。
本发明通过152层残差网络抽取视频的全局RGB特征,得到视频的场景等基本信息;然后利用多模态融合网络,抽取视频的全局动作特征,得到视频中的动作信息;接着利用快速区域卷积神经网络,识别出视频中的对象,得到视频中的包含的物体信息;最后将三种特征拼接得到预编码语义特征,利用长短期记忆网络将预编码语义特征转成描述。
一种基于预编码语义特征的视频描述生成方法,参见图1,该方法包括以下步骤:
101:对视频进行抽帧处理,并生成光流图;
102:利用152层的残差网络抽取视频的全局RGB特征;
103:利用多模态融合网络抽取视频的全局动作特征;
104:利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征;
105:将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述。
本发明实例通过步骤101至步骤105实现了使用句子对视频中的信息进行描述,从而达到快速理解视频内容和为视频检索提供文本的目的。
步骤101所述对视频进行抽帧处理,并生成光流图,即利用ffmpeg工具将视频进行抽帧处理,然后分别利用TVL1光流算法和warped TVL1光流算法对帧进行光流图计算。
步骤102所述利用152层的残差网络抽取视频的全局RGB特征,该网络的结构图参见图2。本方法使用ImageNet数据集上预训练的上好的ResNet152网络抽取特征,取最后一层卷积层输出的2048维的向量作为图像特征。由于视频是由多帧图像组成的,所以不能直接对视频抽特征。因此先将每个视频平均分成8段,每段取中间一帧,然后将对每帧RGB图抽取ResNet152特征向量,然后再求平均,得到视频的全局RGB特征。
步骤103所述利用多模态融合网络抽取视频的全局动作特征,该网络的结构图参见图3。首先在UCF101数据集上训练TSN网络的空间网络和时间网络,然后分别使用空间网络抽取RGB空间模态分数特征、使用两种时间网络抽取TVL1时间模态分数特征和warpedTVL1时间模态分数特征,再将特征进行线性融合,就得到了视频的TSN网络特征。接着在UCF101数据集上训练C3D网络,然后使用C3D网络抽取视频的时空模态分数特征。最后将TSN网络特征和C3D时空模态分数特征线性融合,得到视频的多模态融合网络特征。
步骤104所述利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征,该网络的结构参见图4。首先将图片输入预先训练好的卷积神经网络ResNet152中,然后将ResNet152的最后一层卷积层中的每个特征图分两路输入感兴趣区域池化层(Region of Interest pooling,RoI pooling)。一路作为区域候选网络(Region Proposal Network,RPN)的输入,进而从RPN网络中得到RoI的位置信息,再输入RoI pooling层;另一路直接输入RoI pooling层。RoI pooling层会根据每个RoI的位置信息在最后一层卷积层上找到RoI的特征,然后通过空间金字塔池化(SpatialPyramid Pooling,SPP)将其转为固定长度的向量;将路信息一同输入分类器,即可得到图像中的所有对象。将视频分成8段,每段取中间一帧,用Faster R-CNN找出该帧中所有分数大于0.8的对象,再根据对象集建立向量空间,将图像的对象集转为特征向量,取8帧的特征向量的平均,即可得到视频的局部对象特征。
步骤105所述将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述,该长短期记忆网络的结构图参见图5。模型的输出分为训练和测试两个阶段,训练的目标输出词和测试时的输出词分别组成原文和译文,以下为了区分,训练时将模型的输出使用符号r来表示,测试时使用符号c来表示。测试时,将语义特征和开始符号分别映射后,输入解码器的第一个LSTM单元,可以得到第一个输出的词;然后将第一个词输入第二个LSTM单元得到第二个词;以此类推,一直到输出结束符号为止。
模型参数的求解采用最大似然估计,其定义如式(1)所示。
其中θ表示模型的参数,v表示输入的视频的特征向量序列,r表示原文,p(r|v;θ)表示当参数为θ输入为v时,输出是r的概率。
p(r|v;θ)可由链式法则对输出的正确单词r0,r1,…,rN的联合概率建模得到,如式(2)所示。
其中n为原文r的长度,t为时刻。
预测时,输出的各单词的概率由此时的LSTM输出单元的值应用softmax函数得到,p(ci|yt)表示当LSTM输出yt时,输出是ci的概率,其定义如式(3)所示,最大概率对应的单词即为此时的输出单词。
其中t表示时刻,ci表示输出的某个单词,yt表示t时刻LSTM单元的输出,Wct表示权重,vob表示词汇表。
本方法使用的损失函数(loss)是模型参数的对数似然之和的相反数,其定义为式(4)中的L(v,r)。训练时,对于模型的参数最小化L(v,r)的值,根据梯度进行反向传播。
其中v是视频的特征向量,r是原文,pt(rt|v;θ)表示视频向量为v参数为θ时,在t时刻输出词rt的概率。
以上对本发明所提供的一种基于预编码语义特征的视频描述生成方法进行了详细介绍,本文对本发明的原理进行了阐述,以上详细步骤的用于帮助理解本发明的方法及核心思想;同时,对于本领域的技术人员,根据本发明的思想,在具体的实现方式上均会有变化和改进之处,这些变化和改进均属于本发明的保护范围之内。
Claims (8)
1.一种基于预编码语义特征的视频描述生成方法,其特征在于,包括以下步骤:
对视频进行抽帧处理,并生成光流图;
利用152层的残差网络抽取视频的全局RGB特征;
利用多模态融合网络抽取视频的全局动作特征;
利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征;
将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述;
其中,所述利用多模态融合网络抽取视频的全局动作特征的具体方法为:
在公开数据集UCF101上训练TSN网络;
在公开数据集UCF101上训练C3D网络;
将抽取好的帧和光流图输入训练好的TSN网络和C3D网络中,分别得到TSN分数特征和C3D分数特征;
将TSN分数特征和C3D分数特征进行线性融合,得到多模态融合网络分数特征,称为全局动作特征;
所述将抽取好的帧和光流图输入训练好的TSN网络和C3D网络中,分别得到TSN分数特征和C3D分数特征的具体方法为:
将所有的帧分成8段,每段取中间一帧,输入TSN空间网络,得到TSN空间网络分数特征;
将TVL1光流图和warped TVL1光流图分别分成8段,每段取中间5张x方向光流图和y方向光流图,输入TSN时间网络,分别得到TSN时间网络TVL1分数特征和warped TVL1分数特征;
将TSN空间网络分数特征和TSN时间网络分数特征进行线性融合,得到TSN网络分数特征;
将所有的帧每16帧为一段,输入C3D网络,得到C3D分数特征。
2.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述对视频进行抽帧处理,并生成光流图的具体方法为:
利用ffmpeg对视频进行抽帧处理,然后对相邻的每两帧抽取TVL1和warped TVL1光流图。
3.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述利用152层的残差网络抽取视频的全局RGB特征的具体方法为:
在公开数据集ImageNet上训练152层残差网络,即ResNet152;
使用ResNet152分别预测视频中抽出的帧,将网络的最后一个卷积层作为特征;
将得到的特征取平均得到视频的全局RGB特征。
4.根据权利要求3所述基于预编码语义特征的视频描述生成方法,其特征在于,所述使用ResNet152分别预测视频中抽出的帧的具体方法为:
将所有的帧等分成8段;
每段取最中间一帧;
使用ResNet152预测这8帧。
5.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述利用快速区域对象识别卷积神经网络识别出视频中的对象集,建立向量空间模型,将对象集转为局部对象特征的具体方法为:
在公开数据集COCO上训练快速区域对象识别卷积神经网络,即Faster R-CNN;
使用Faster R-CNN对视频中的帧进行对象识别,建立向量空间模型,将识别出的对象集转为局部对象特征。
6.根据权利要求5所述基于预编码语义特征的视频描述生成方法,其特征在于,使用Faster R-CNN对视频中的帧进行对象识别,建立向量空间模型,将识别出的对象集转为局部对象特征的具体方法为:
将所有的帧分为8段,每段取中间一帧,使用Faster R-CNN识别出分数大于0.8的对象;
由于对象类别数为80,故建立80维特征向量,图像中出现某类别,则在特征向量中对应位置加1;
将8个特征向量求平均,得到局部对象特征。
7.根据权利要求1所述基于预编码语义特征的视频描述生成方法,其特征在于,所述将三种特征拼接生成预编码语义特征,输入长短期记忆网络进而生成输入视频的描述具体为:
将全局RGB特征、全局动作特征和局部对象特征进行拼接,得到预编码语义特征;
构建长短期记忆网络;
将预编码语义特征输入长短期记忆网络,进而输出句子。
8.根据权利要求7所述基于预编码语义特征的视频描述生成方法,其特征在于,将预编码语义特征输入长短期记忆网络,进而输出句子的具体方法为:
训练时,利用现有视频数据集的描述,构造<预编码语义特征,视频描述>二元组,将<预编码语义特征,视频描述>二元组中的预编码语义特征作为长短期记忆网络的输入,将视频描述作为正确输出,使用梯度下降法优化目标函数,使用反向传播算法更新权值,进而训练长短期记忆网络;
测试时,将从测试视频中得到的预编码语义特征输入长短期记忆网络,该网络输出的句子即为该测试视频对应的描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031617.5A CN111259197B (zh) | 2020-01-13 | 2020-01-13 | 一种基于预编码语义特征的视频描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031617.5A CN111259197B (zh) | 2020-01-13 | 2020-01-13 | 一种基于预编码语义特征的视频描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259197A CN111259197A (zh) | 2020-06-09 |
CN111259197B true CN111259197B (zh) | 2022-07-29 |
Family
ID=70952138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010031617.5A Active CN111259197B (zh) | 2020-01-13 | 2020-01-13 | 一种基于预编码语义特征的视频描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259197B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065014B (zh) * | 2020-07-31 | 2024-08-13 | 北京达佳互联信息技术有限公司 | 一种信息匹配方法、装置、设备及存储介质 |
CN113011334A (zh) * | 2021-03-19 | 2021-06-22 | 北京岐黄中医药文化发展基金会 | 一种基于图卷积神经网络的视频描述方法 |
CN113343015A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 图像查询方法、装置、电子设备及计算机可读存储介质 |
US20240202536A1 (en) * | 2022-12-19 | 2024-06-20 | FindSatoshi Lab Limited | Neural Network-Based Method for Detecting Validity of Human Movement |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7143434B1 (en) * | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
-
2020
- 2020-01-13 CN CN202010031617.5A patent/CN111259197B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7143434B1 (en) * | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111259197A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259197B (zh) | 一种基于预编码语义特征的视频描述生成方法 | |
CN113642634B (zh) | 一种基于混合注意力的阴影检测方法 | |
CN107038221B (zh) | 一种基于语义信息引导的视频内容描述方法 | |
CN107256221B (zh) | 基于多特征融合的视频描述方法 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN109614921B (zh) | 一种基于对抗生成网络的半监督学习的细胞分割方法 | |
CN110334589B (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN110826337A (zh) | 一种短文本语义训练模型获取方法及相似度匹配算法 | |
CN108829677A (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN114998673A (zh) | 一种基于本地自注意力机制的大坝缺陷时序图像描述方法 | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN112800292A (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN114998777B (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
WO2022206094A1 (zh) | 用于生成字幕器以及输出字幕的方法和装置 | |
CN111724400A (zh) | 视频自动抠像方法及系统 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN115187704A (zh) | 虚拟主播生成方法、装置、设备及存储介质 | |
CN113282721A (zh) | 基于网络结构搜索的视觉问答方法 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN117152851B (zh) | 基于大模型预训练的人脸、人体协同聚类方法 | |
CN113255829A (zh) | 基于深度学习的零样本图像目标检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |