CN118037896A

CN118037896A - 基于文本生成图像的方法和装置、电子设备和存储介质

Info

Publication number: CN118037896A
Application number: CN202410282379.3A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Shengshu Technology Co ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-05-14

Abstract

本公开实施例公开了基于文本生成图像的方法和装置、电子设备和存储介质，其中，方法包括：获取待生成图像的初始信息，初始信息包括图像类别信息；将初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，文本描述信息包括图像类别信息和图像效果信息；基于至少一个文本描述信息，确定目标文本信息；将目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像。

Description

基于文本生成图像的方法和装置、电子设备和存储介质

技术领域

本公开涉及文本扩充技术领域、图像生成技术领域，尤其是一种基于文本生成图像的方法和装置、电子设备和存储介质。

背景技术

近些年，由于利用文生图模型生成的图像足以媲美人类作者创作的图像，使得文生图模型在AIGC(Artificial Intelligence Generated Content，人工智能内容生成)技术领域中大放异彩。由于文生图模型可以根据文本直接生成和该文本语义对应的图像，使得文生图模型被广泛应用到多个行业中。例如，在电子商务中，可以利用文生图模型，基于描述产品的相关文本描述，生成产品图像；或者，在虚拟现实中，利用文生图模型，根据描述虚拟环境的文本描述直接生成生动的、具有艺术性的虚拟环境图。

在相关技术中，由于文生图模型是基于文本描述生成相应图像的，因此由文生图模型生成的图像与输入其中的描述图像的文本的准确度、内容丰富度等息息相关。然而在实际应用中，由于用户的专业性等因素，用户通常不能提供准确的用于描述其所需要生成图像的文本表达，这就导致最终生成的图像质量较低，无法满足用户的需求。

发明内容

为了解决上述问题，本公开实施例提供一种基于文本生成图像的方法和装置、电子设备和存储介质。

本公开实施例的一个方面，提供了一种基于文本生成图像的方法，包括：获取待生成图像的初始信息，所述初始信息包括图像类别信息；将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，所述文本描述信息包括所述图像类别信息和图像效果信息；基于所述至少一个文本描述信息，确定目标文本信息；将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像。

本公开实施例的另一个方面，提供了一种基于文本生成图像的装置，包括：第一获取模块，用于获取待生成图像的初始信息，所述初始信息包括图像类别信息；文本生成模块，用于将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，所述文本描述信息包括所述图像类别信息和图像效果信息；文本确定模块，用于基于所述至少一个文本描述信息，确定目标文本信息；图像生成模块，用于将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像。

本公开实施例的又一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现基于文本生成图像的方法。

本公开实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现基于文本生成图像的方法。

本公开实施例中，可以先获取待生成图像的初始信息(包括图像类别信息)，之后将利用文本生成模型对初始信息进行扩充，生成至少一个文本描述信息，各文本描述信息分别包括上述图像类别信息和扩充出的视觉效果信息，之后基于至少一个文本描述信息中确定目标文本信息，然后图像生成模型基于该目标文本信息生成至少一个目标图像。

由此，仅需用户提供待生成图像的初始信息，文本生成模型便可以在该图像类别信息的基础上扩充生成该图像类别信息对应的至少一个专业度高、准确描述待生成图像类别的视觉效果信息，使得图像生成模型可以基于目标文本信息生成相应类别、具有相应视觉效果的至少一个目标图像，通过包括不同视觉效果信息的目标文本信息可以生成具有不同视觉效果、内容丰富的目标图像，以便用户选取其想要的图像，有效提高了生成图像的质量和效率，降低了文生图技术的应用难度。

另外，由于目标文本信息中包括图像类别信息，使得通过文本描述信息生成的图像与用户需求匹配度高，极大的提升了用户的体验度。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开实施例，其中：

图1是本公开一示例性实施例提供的基于文本生成图像的方法的流程示意图；

图2是本公开一示例性实施例提供的步骤S140的流程示意图；

图3是本公开一示例性实施例提供的文本生成模型的结构示意图；

图4是本公开一示例性实施例提供的步骤S120的流程示意图；

图5是本公开另一示例性实施例提供的基于文本生成图像的方法的流程示意图；

图6是本公开一示例性实施例提供的步骤S260的流程示意图；

图7是本公开一示例性实施例提供的通过图像描述文本生成的图像的示意图；

图8是本公开一示例性实施例提供的通过文本描述信息生成的图像的示意图；

图9是本公开一示例性实施例提供的基于文本生成图像的装置的结构示意图；

图10为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本公开的过程中，发明人发现，在利用文生图模型生成图像之前，需要用户先创建用于描述图像的词汇，之后再将描述图像的词汇输入到文生图模型中，文生图模型根据输入的描述图像的词汇生成相应的图像。但是由于受到用户专业度等因素的影响，用户往往无法提供准确的描述图像的词汇，这就导致文生图模型生成的图像内容简单，且与用户需要的图像相差较远。例如，用户想要生成一幅关于飞机的CG(Computer Graphics，计算机图像)图像，其需要向文生图模型输入用于描述图像的主题(飞机)、风格、分辨率、亮度、拍摄视角、光线等的词汇，然而在实际应用中，用户通常只会向文生图模型输入“飞机”，这就导致文生图模型生成的图像内容简单，且与用户需要的图像相差较远。

图1是本公开一示例性实施例提供的基于文本生成图像的方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤S110，获取待生成图像的初始信息。

其中，该初始信息包括：图像类别信息。图像类别信息用于表示待生成图像中所需包括的主体对象。示例性的，图像类别信息可以包括以下至少一项：马、飞机、汽车、狗、猫、船只、鹿、卡车、人物等。例如，假设初始信息包括的图像类别信息为“汽车”，则待生成图像中包括“汽车”这个对象。

在一个具体实现方式中，初始信息还可以包括其他信息，该其他信息可以用于对图像类别信息进行描述或限定等，即其他信息可以描述图像类别信息对应的主体对应(图像类别信息)的相关细节。示例性的，其他信息可以包括图像类别信息的颜色、形状、分类、动作等的信息，还可以包括：图像分辨率、图像风格、图像色调等的信息。示例性的，初始信息可以包括：猫(图像类别信息)、虎斑(其他信息)、黄白相间(其他信息)、奔跑(其他信息)、4K(其他信息)、科幻风(其他信息)等。

在一个具体实现方式中，可以通过如下方式获得初始信息：

可以获取描述待生成图像的原始信息，该原始信息可以为视频信息、语音信息或文本信息等，该原始信息包括图像类别信息；当该原始信息为文本信息时，可以将该原始信息确定为初始信息，当该原始信息为视频信息或文本信息时，对该原始信息进行转换，以将该原始信息转换为文本格式，并将该文本格式的原始信息确定为初始信息。

步骤S120，将初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息。

其中，文本生成模型可以包括但不限于：自回归(Auto-Regressive)语言模型、自编码(Auto-Encoder)语言模型、编码器-解码器(Encoder-Decoder)语言模型。例如，文本生成模型可以是自回归(Auto-Regressive)语言模型中的GPT2模型，或者为编码器-解码器(Encoder-Decoder)语言模型中的序列到序列(Sequence to Sequence，Seq2Seq)模型等。

文本生成模型还可以是其他类型的语言模型，例如，文本生成模型可以为ChatGLM模型、大语言模型AI(Large Language Model Meta AI，LLaMA)模型或BLOOM模型等。该文本描述信息包括：图像类别信息和视觉效果信息。视觉效果信息用于描述待生成图像的视觉效果。即视觉效果信息用于对图像类别信息进行描述或限定等，即其可以描述图像类别信息对应的主体对象(图像类别信息)的相关细节。示例性的，视觉效果信息可以包括：图像的分辨率、风格、尺寸、亮度、表达的环境等的信息。例如，假设图像类别信息为飞机，则视觉效果信息可以包括：4K(分辨率)、科幻(风格)、400cd/m²(亮度)、在银河系中飞行(图像表达的环境)。

步骤S130，基于至少一个文本描述信息，确定目标文本信息。

在一个具体实现方式中，当文本描述信息为一个时，可以将该文本描述信息确定为目标文本信息，当文本描述信息为多个时，可以根据多个文本描述信息的内容，从该多个文本描述信息中选取至少一个文本描述信息作为目标文本描述信息。

在另一具体实现方式中，用户还可以对文本描述信息进行再次改写处理，得到目标文本信息。例如，可以从至少一个文本描述信息中选取一个文本描述信息作为初始文本描述信息，之后可以通过人工或预先训练的文本生成模型再次对初始文本描述信息进行改写，得到目标文本信息。

步骤S140，将该目标文本信息输入预先训练的图像生成模型，得到至少一个目标图像。

其中，该图像生成模型可以为文生图模型。例如，图像生成模型可以采用StableDiffusion(稳定扩散)模型、Diffusion(扩散)模型、GAN(Generative AdversarialNetworks，生成式对抗网络)等实现。

在一个具体实现该方式中，将该目标文本信息输入该图像生成模型，经该图像生成模型生成目标文本信息对应的至少一个目标图像。其中的目标图像的数量可以一个或多个。目标文本信息对应的目标图像符合该目标文本信息的语义。其中的目标图像对应上述待生成图像。

示例性的，假设目标文本信息包括：飞机(图像类别信息)、4K(视觉效果信息)、科幻风格(视觉效果信息)、400cd/m²(视觉效果信息)、在银河系中飞行(视觉效果信息)，相应的，目标文本信息对应的目标图像则可以为分辨率为4K、亮度为400cd/m²的科幻风格的图像，并且该目标图像呈现的内容为飞机在银河系中飞行。

在一些可选实施方式中，本公开实施例中的视觉效果信息包括以下任意一项或多项信息：图像风格，图像颜色，图像的拍摄角度，图像的亮度效果，图像表达的视觉感觉，图像表达的情绪，图像表达的环境，图像视觉属性，图像类别呈姿态，图像类别数量。其中，图像风格可以是对图像画风的描述，例如，图像风格可以是笼统的对图像风格的描述，比如，古风、科幻、梦幻、末世等，也可以是具体的某位画家的绘画风格，比如，毕加索、莫奈、梵高等，还可以是图像质感的风格，比如，电影、漫画、油画、插画、印象派、立体派、抽象派、波普艺术。图像颜色可以是指图像的背景颜色或者是图像的主色调，例如图像的颜色可以暖色调。图像表达的视觉感觉可以是指图像中通过光、影、色彩等呈现出效果。图像表达的情绪可以包括但不限于：悲伤、诙谐、失望、风趣等。图像表达的环境可以包括图像中的背景环境，例如，图像表达的环境可以是宇宙、草原、沙漠、高楼等。图像表达的环境还可以包括与图像类别信息配合的人物或动物的信息，比如，图像类别信息为马，图像表达的环境可以为穿着太空服的人，则生成的目标图像中可以呈现出一个穿着太空服骑在马上的人；再比如，图像类别信息为女孩，图像表达的环境可以为年轻的中国情侣，则生成的目标图像中可以呈现出女孩和其情侣；图像视觉属性可以用于描述图像的相关属性。例如，图像视觉属性可以包括图像的材质、清晰度、色彩饱和度、对比度、噪声等。图像类别呈姿态用于描述或限定图像类别信息的姿态，例如，图像类别信息为女孩(人物)，则图像类别呈姿态可以为站立、斜靠、侧卧、平躺等。图像类别数量用于描述或限定图像类别信息的个数，例如，图像类别信息为飞机，则图像类别数量可以为1、2、3等，比如，当图像类别数量为1时，表示目标图像中的飞机的数量为2个。

在一些可选实施方式中，本公开实施例中的所述图像视觉属性包括以下任意一项或多项信息：图像形状，图像尺寸，图像分辨率，图像方向。

在本公开实施例中，通过视觉效果信息对需要生成图像以及图像类别信息进行了准确细致的描述，不仅使得图像生成模型可以根据包括视觉效果信息的文本描述信息生成高质量的图像，而且由于视觉效果信息包括生成图像所需的多维度的描述信息，使得通过文本描述信息生成的图像可以适配多个应用领域。

在一个可选实施方式中，本公开实施例中的步骤S140还可以包括：将目标文本信息输入到图像生成模型；图像生成模型对目标文本信息中的图像类别信息进行增强，并基于交叉注意力机制对增强图像类别信息后的目标文本信息进行处理，得到至少一个目标图像。

在一个具体实现方式中，将目标文本信息输入到该图像生成模型，在图像生成模型中，可以对目标文本信息中的图像类别信息进行增量处理，例如，可以通过增加目标文本信息中的图像类别信息的权重的方式，对图像类别信息进行增强，之后图像生成模型利用交叉注意力(Cross Attention)机制，基于增强图像类别信息后的目标文本信息生成至少一个目标图像，并输出该至少一个目标图像。

在本公开实施例中，通过对目标文本信息中的图像类别信息进行增强，使图像生成模型基于增强图像类别信息后的目标文本信息生成的目标图像与图像类别信息的语义更加相关，并且结合图像生成模型强大的学习能力对目标文本信息，实现了可以输出专业度高、准确的、符合用户需求的目标图像。

图2是本公开一示例性实施例提供的步骤S140的流程示意图。在一个可选实施方式中，如图2所示，步骤S140可以包括如下步骤：

步骤141，对目标文本信息进行编码处理，得到该目标文本信息的文本特征。

其中，可以通过文本编码器对该目标文本信息进行编码，得到该目标文本信息的文本特征。

例如，可以通过图像生成模型中的CLIP(Contrastive Language-Image Pre-Training，对比语言-图像预训练)中的Text Encoder(文本编码器)等对该目标文本信息进行编码，得到该目标文本信息的嵌入向量矩阵(文本特征)。

步骤S142，基于交叉注意力机制，对该目标文本信息的文本特征与预设噪声进行特征融合，得到融合特征。

其中，图像生成模型可以随机生成一个带噪图的噪声矩阵作为预设噪声，之后利用交叉注意力机制，将该目标文本信息的文本特征与预设噪声进行特征融合，即向文本特征中添加噪声，得到Cross Attention Map(融合特征)。

步骤S143，基于该融合特征生成该目标文本信息对应的至少一个目标图像。

在一个具体实现方式中，在图像生成模型的潜在空间(Lantent Space)中，通过正向扩散(Forward Diffusion)方式，对该融合特征进行迭代去噪，得到图像的信息矩阵，之后将该图像的信息矩阵输入到图像解码器，例如，自动编码解码器(AutoencoderDecoder)，由图像解码器输出该目标文本信息对应的至少一个目标图像。

在本公开实施例中，利用交叉注意力机制，对目标文本信息的文本特征与预设噪声进行特征融合，得到融合特征，之后基于融合特征生成目标文本信息对应的图像，由此实现了基于目标文本信息快速高效的生成高质量的图像。

在一些可选实施方式中，在图像生成模型根据目标文本信息生成对应的图像的过程中，可以通过增强图像类别信息的方式，以使生成的图像更加符合初始信息的语义。

在一个可选实现方式中，可以通过如下第一种增强方式对图像类别信息进行增强，具体包括：

在步骤S141之后可以基于预设增强参数，对该目标文本信息的文本特征中对应于图像类别信息的部分进行特征增强，得到增强后的文本特征。相应的，在该实施例中，步骤S142可以包括：对该增强后的文本特征与预设噪声进行特征融合，得到融合特征。

其中，预设增强参数可以为大于1的超参数。为了便于描述，在本实施例中，将目标文本信息的文本特征中对应于图像类别信息的部分称为第一目标部分。可以通过目标文本信息中的预设格式，在目标文本信息中确定第一目标部分。之后将第一目标部分对应的嵌入向量与预设增强参数相乘，以实现对第一目标部分的增强，得到增强后的文本特征。之后基于交叉注意力机制，将该增强后的文本特征与预设噪声进行特征融合，得到融合特征。

在本公开实施例中，先利用预设增强参数，对文本特征中对应于图像类别信息的部分进行特征增强，以得到增强后的文本特征，之后再将增强后的文本特征与预设噪声进行特征融合，得到融合特征，由此使得融合特征中对应图像类别信息的部分得到了增强，使通过融合特征生成的目标图像与初始信息的语义匹配度更高。

在另一个可选实现方式中，可以通过如下第二种增强方式对图像类别信息进行增强，具体包括：

在步骤S142之后，基于预设增强参数，对融合特征中对应于图像类别信息的部分进行特征增强，得到增强后的融合特征。相应的，在该实施例中，步骤S143包括基于该增强后的融合特征生成该目标文本信息对应的至少一个目标图像。

其中，在本实施例中，为了便于描述，将融合特征中对应图像类别信息的部分称为第二目标部分。融合特征中各特征的幅值大小决定了图像生成模型更倾向于生成哪些内容的图像。

在一个可选实施方式中，可以先将预设增强参数设置成大于1的超参数，例如，预设增强参数可以设置为1.5。之后利用式(1)，对第二目标部分对应的特征的幅值进行增强处理，得到融合特征中对应图像类别信息的增强特征，由融合特征中对应图像类别信息的增强特征和融合特征中的其他特征构成增强后的融合特征，该其他特征为融合特征中除图像类别信息的特征以外的特征；

其中，α为预设增强参数，A为融合特征中对应图像类别信息的特征的幅值，为融合特征中对应图像类别信息的增强特征。

在本公开实施例中，先基于预设增强参数，对融合特征中对应于所述图像类别信息的部分进行特征增强，以得到增强后的融合特征；之后基于增强后的融合特征生成目标文本信息对应的图像。由此通过增强该增强融合特征中对应图像类别信息的部分，使在通过增强后的融合特征生成图像时，图像生成模型更倾向于生成图像类别信息对应的内容，进而使得生成图像更符合初始信息的语义。

在一些可选实施方式中，本公开实施例中的步骤S120可以包括：将初始信息输入到该文本生成模型；该文本生成模型基于不确定建模规则对该初始信息进行处理，得到至少一个文本描述信息。

其中，该至少一个文本描述信息中的任一文本描述信息的图像类别信息和图像效果信息按照预设格式排列。该预设格式可以包括：图像类别信息或视觉效果信息在目标文本信息中的位置。例如，预设格式可以是图像类别信息位于目标文本信息中的头部位置、尾部位置或中间位置等。

在一个具体实现方式中，将待生成图像的初始信息输入到该文本生成模型，该文本生成模型生成文本特征序列，之后利用不确定建模规则对文本特征序列进行不确定性采样，得到至少一个文本描述信息，并输出该至少一个文本描述信息。

在本公开实施例中，利用文本生成模型强大的文本生成能力结合不确定采样，使得可以基于一个初始信息生成内容多样化的多个文本描述信息，提高了用户体验。

图3是本公开一示例性实施例提供的文本生成模型的结构示意图。在一个可选实施方式中，如图3所示，本公开实施例中的文本生成模型包括：自回归语言模型、采样网络和词映射网络。

其中，该自回归语言模型例如可以包括但不限于GPT2模型等；采样网络可以包括：均值子网络和方差子网络，其中的均值子网络和方差子网络均包括：线性层(LinearLayer)和层标准化层(Layer Normalization，LN)；词映射网络可以为全连接层(FullyConnected Layer)。

图4是本公开一示例性实施例提供的步骤S120的流程示意图，如图4所示，步骤S120可以包括如下步骤：

步骤S121，将初始信息输入该自回归语言模型，经自回归语言模型生成文本特征序列并输入至采样网络。

其中，该文本特征序列包括：初始信息的文本特征，以及初始信息对应的基础视觉效果信息的文本特征。初始信息对应的基础视觉效果信息为自回归语言模型根据初始信息预测得到的基础视觉效果信息。

该基础视觉效果信息包括以下任意一项或多项信息：图像风格，图像颜色，图像的拍摄角度，图像的亮度效果，图像表达的视觉感觉，图像表达的情绪，图像表达的环境，图像视觉属性，图像类别呈姿态，图像类别数量。

在一个可选实施方式中，自回归语言模型可以基于初始信息进行多次文本预测生成基础视觉效果信息；在每次文本预测时，自回归语言模型可以根据输入的初始信息和之前基于初始信息预测得到的预测信息预测之后的信息。自回归语言模型对初始信息和基础视觉效果信息进行特征提取，得到初始信息的文本特征和基础视觉效果信息的文本特征。

步骤S122，经采样网络对特征序列进行不确定性采样，得到采样特征序列，并输入至词映射网络。

其中，该采样特征序列包括多个采样特征。

在一个具体实现方式中，自回归语言模型输出的文本特征序列满足高斯分布(Guassian Distribution)，采样网络基于文本特征序列的高斯分布，对文本特征序列中的各文本特征进行不确定性采样，得到每个文本特征对应的采样特征，由各文本特征分别对应的采样特征构成采样特征序列。或者，

采样网络也可以基于贝叶斯神经网络(Bayesian Neural Networks，BNNs)对文本特征序列中的各文本特征进行不确定性采样，得到每个文本特征对应的采样特征。

步骤S123，经词映射网络生成采样特征序列对应的至少一个文本描述信息。

在一个可选实施方式中，通过词映射网络确定各采样特征与预设词表中各词之间的映射概率，并基于各采样特征与预设词表中各词之间的映射概率，确定各采样特征映射的词，由各采样特征映射的词构成文本描述信息。

本公开实施例中，利用自回归语言模型强大的文本生成能力，高效生成包括初始信息的文本特征和基础视觉效果信息的文本特征的文本特征序列，之后通过对文本特征序列中各文本特征进行不确定性采样，得到各文本特征分别对应的采样特征，然后词映射网络基于各采样特征确定出文本描述信息。由于通过对文本特征进行不确定性采样，避免了文本描述信息的内容同质化的情况，使得可以基于同一个初始信息生成内容多样化的文本描述信息，进而实现了可以通过同一初始信息获得多个不同风格的高质量图像，极大的提高了用户体验。

在一个可选实施方式中，本公开实施例中的步骤S122具体可以包括：针对文本特征序列中的各文本特征，将该文本特征分别输入采样网络中的均值子网络和方差子网络，得到该文本特征的均值信息和方差信息；之后基于该文本特征的均值信息和方差信息对该文本特征进行不确定性采样，得到该文本特征对应的采样特征，由文本特征序列中的各文本特征对应的采样特征构成采样特征序列。

其中，每个文本特征的均值信息包括该文本特征均值，每个文本特征的方差信息包括该文本特征的方差值。

通过均值子网络和方差子网络对每个文本特征进行不确定建模，之后通过该不确定建模在文本特征序列的高斯分布中采样，得到各文本特征对应的采样特征。

在一个具体实现方式中，假设文本特征序列为X＝{x₁，…，x_m，…，x_N}，其中，X文本特征序列，x₁、x_m、x_N分别表示文本特征序列中的第1个文本特征、第m个文本特征和第N个文本特征，1＜m＜N。通过均值子网络确定各文本特征的均值序列U(均值信息)，U＝{μ₁(x₁)，…，μ_m(x_m)，…，μ_N(x_N)}，其中μ₁(x₁)、μ_m(x_m)和μ_N(x_N)分别表示x₁、x_m和x_N的均值。通过方差子网络确定各文本特征的方差序列E(方差信息)，E＝{σ₁(x₁)，…，σ_m(x_m)，…，σ_N(x_N)}，其中，σ₁(x₁)、σ_m(x_m)和σ_N(x_N)分别表示x₁、x_m和x_N的方差值。基于各文本特征的方差值和均值，以及预设采样参数序列ε，通过式(2)，计算各文本特征的高斯分布采样特征，并将各文本特征的高斯分布采样特征确定为各文本特征对应的采样特征，由各文本特征对应的采样特征构成采样特征序列

其中，ε＝{∈₁…∈_m，…∈_N}，∈₁、∈_m和∈_N分别表示采样参数，∈_i～M(0，1)，M(0，1)表示通过式(1)构建成的文本特征的高斯文本为均值为0，方差值为1的高斯分布，1≤i≤N。和/>分别表示x₁、x_m和x_N的采样特征。

在本公开实施例中，利用均值子网络和方差子网络的强大计算能力，快速确定出每个文本特征的均值信息和方差信息，之后基于每个文本特征的均值信息和方差信息，对每个文本特征进行不确定性采样，以获得每个文本特征对应的采样特征，实现了高效准确的对文本特征的不确定性采样，为后续通过不确定性采样得到的采样特征序列获得文本描述信息提供了可靠数据支持。

在一个可选实施方式中，本公开实施例中的步骤S123具体可以包括：词映射网络基于预设词搜索策略，在预设词表中搜索各采样特征序列对应的词，并基于各采样特征对应的词生成至少一个文本描述信息。

其中，预设词搜索策略例如可以包括但不限于：束集搜索(Beam Search)、贪心搜索(Greedy Search)、Top-p搜索或Top-k搜索等。预设词搜索策略还可以包括预设文本数量。

示例性的，假设预设词搜索策略包括Beam Search，预设文本数量为3，相应的，词映射网络利用Beam Search，基于各采样特征与预设词表中各词之间的映射概率，搜索出采样特征序列对应的3个文本描述信息。

在本公开实施例中，词映射网络通过预设词搜索策略不仅可以高效快速的搜索出采样特征对应的文本描述信息，而且还可以通常预设词搜索策略中实现通过一个初始信息同时生成多个包括不同视觉效果信息的文本描述信息。

图5是本公开另一示例性实施例提供的基于文本生成图像的方法的流程示意图。在一个可选实施方式中，可以通过如下方式获得文本生成模型，如图5所示，包括如下步骤：

步骤S210，获取训练数据集。

其中，该训练数据集包括多个训练样本。

其中，各训练样本均包括图像类别信息和视觉效果信息。

在一个可选实施方式中，可以从开源的图文数据库中，获取用于描述图像的文本作为训练样本。或者，也可以获取通过Stable Diffusion模型生成的高质量图像对应的图像描述文本作为训练样本。

步骤S220，将各训练文本分别输入待训练模型。

其中，该待训练模型包括：待训练自回归语言模型、待训练采样网络和待训练词映射网络。

待训练自回归语言模型、待训练采样网络和待训练词映射网络的结构分别与文本生成模型中的自回归语言模型、采样网络和练词映射网络的结构相同。待训练模型的结构的具体可以参见图3中所示的文本生成模型的结构。

步骤S230，分别针对各训练样本，待训练自回归语言模型基于该训练文本的图像类型信息生成预测文本特征序列。

其中，该预测特征序列包括该训练文本的图像类型信息的预测文本特征，以及该图像类型信息对应的预测基础视觉效果信息的预测文本特征。

待训练自回归语言模型基于该训练文本的图像类型信息生成预测文本特征序列的方式与自回归语言模型基于初始信息生成文本特征序列的方式相同，此处不再赘述。

步骤S240，经待训练采样网络对预测特征序列进行不确定性采样，得到预测采样特征序列。

其中，该预测采样特征序列包括多个预测采样特征。

在一个可选实施方式中，本公开实施例中的待训练采样网络包括：待训练均值子网络和待训练方差子网络。

相应的，在该实施例中，步骤S240还可以包括：分别针对预测文本特征序列中的各预测文本特征，将该预测文本特征分别输入待训练均值子网络和待训练方差子网络，得到预测文本特征的均值信息和方差信息；之后基于该预测文本特征的均值信息和方差信息对该预测文本特征进行不确定性采样，得到该预测文本特征对应的预测采样特征。

其中，通过待训练均值子网络和待训练方差子网络获得预测文本特征的均值信息和方差信息，以及基于该预测文本特征的均值信息和方差信息对该预测文本特征进行不确定性采样的方式，可以参见步骤S122对应的具体实现方式，此处不再赘述。

步骤S250，经待训练词映射网络生成预测采样特征序列对应的预测文本描述信息。

其中，预测文本描述信息包括预设格式的图像类别信息和视觉效果信息。

待训练词映射网络生成预测采样特征序列对应的预测文本描述信息的方式与词映射网络生成采样特征序列对应的文本描述信息的方式相同，此处不再赘述。

步骤S260，基于各训练样本和预测采样特征序列，对待训练模型进行微调，得到文本生成模型。

其中，可以以预设的损失函数，例如，交叉熵损失函数、均方误差函数等，作为待训练模型的损失函数。可以根据各训练样本和预测采样特征序列中的各预测采样特征，利用预设的损失函数，确定待训练模型的损失函数值。

在一种可选实施方式中，可以采用参数优化器调整待训练模型的各参数。其中，参数优化器可以包括但不限于SGD(Stochastic Gradient Descent，随机梯度下降)，Adagrad(自适应梯度算法)、Adam(Adaptive Moment Estimation，自适应矩估计算法)、AdamW(Adaptive Moment Estimation Weight，自适应矩估计权算法)、RMSprop(Root MeanSquare Prop，均方根)、LBFGS算法(Limited-memory Broyden–Fletcher–Goldfarb–Shanno，有限内存中进行BFGS)等。具体的，可以利用参数优化器计算待训练模型中的各参数的梯度，将各参数沿梯度的方向进行微调，其中的梯度表示损失函数值减小最多的方向，迭代执行上述将训练文本输入待训练自回归语言模型、计算待训练模型的损失函数值、微调待训练模型中的参数的操作，直至待训练模型的损失函数值不再下降，确定对待训练的模型训练完成，由训练后的待训练模型获得文本生成模型。

示例性的，训练数据集可以包括8万～10万个训练样本，每个训练样本包括至少10个词。待训练模型包括：待训练自回归语言模型、待训练采样网络和待训练词映射网络。待训练采样网络可以包括：待训练均值子网络和待训练方差子网络。可以选用GPT2作为待训练自回归语言模型，其参数大小为175M。待训练均值子网络和待训练方差子网络均由一线性层和一层标准化层构成，待训练均值子网络和待训练方差子网络的参数大小均为0.6M，待训练词映射网络由全连接层构成，其参数较少可以忽略不计。

待训练模型的训练配置包括：参数优化器：AdamW，Batch Size(批大小)：20，学习率调整策略：warm up，warm up步数：1000，以学习率为0.0004进行训练。

在GPU3090上基于训练配置对待训练模型进行10个Epoch的训练。其中Epoch是指将整个训练数据集在待训练模型中前向传播和反向传播的次数。

在本公开实施例中，通过将待训练模型的结构设计为包括待训练自回归语言模型、待训练采样网络和待训练词映射网络的结构，并利用包括图像类别信息和视觉效果信息的训练文本训练该待训练模型，得到文本生成模型。由此使待训练模型可以快速学习基于训练文本中的图像类别信息生成多样化的文本描述信息，进而使得训练得到的文本生成模型输出文本描述信息内容更加丰富且多样化，从而提高了利用文本描述信息生成的图像的质量。

图6是本公开一示例性实施例提供的步骤S260的流程示意图。在一个可选实施方式中，如图6所示，步骤S260可以包括如下步骤：

步骤S261，基于各训练样本和预测采样特征序列，确定第一损失函数值。

其中，第一预设损失函数可以为交叉熵损失函数。在一个可选实施方式中，基于各训练样本和预测采样特征序列，利用式(3)，计算得到交叉熵损失函数值，并将该交叉熵损失函数值确定为第一损失函数值；

其中，为第一损失函数值，/>为预测采样特征，/>为/>在训练文本中对应的词y_i在待训练词映射网络中的权重，w_c为/>在预设词表中对应的词c在待训练词映射网络中的权重，C为预设词表中词的数量。

步骤S262，根据各预测文本特征的均值信息和方差信息，确定第二损失函数值。

其中，第二预设损失函数可以为KL(Kullback-Leibler Divergence)散度损失函数。在一个可选实施方式中，基于各预测文本特征的均值信息和方差信息，利用式(4)，计算KL散度损失函数值，并将该KL散度损失函数值确定为第二损失函数值；

其中，为第二损失函数值，σ′_i为预测文本特征的方差值，μ′_i为预测文本特征的均值。

步骤S263，根据第一损失函数值和第二损失函数值对待训练模型的参数进行微调，得到文本生成模型。

其中，可以根据第一损失函数值和第二损失函数值，利用式(5)，计算得到待训练模型的总损失函数值，之后基于该总损失函数值对待训练函数的参数进行微调，得到文本生成模型；

其中，为总损失函数值，λ为超参数，其用于平衡第一损失函数值和第二损失函数值。

在本公开实施例中，通过各训练样本和预测采样特征序列，确定第一损失函数值，基于各预测文本特征的均值信息和方差信息，确定第二损失函数值，之后基于第一损失函数值和第二损失函数值对待训练模型的参数进行微调，得到文本生成模型。同时基于第一损失函数值和第二损失函数值调整待训练模型的参数，可以实现高效的对待训练自回归语言模型和待训练采样网络中的参数进行调整，使训练得到的文本生成模型可以准确的生成文本特征序列和采样特征序列。

在一个可选实施例中，以下为对本公开实施例中的基于文本生成图像的方法的效果验证。

在本实施例中，文本生成模型包括：自回归语言模型、采样网络和词映射网络，采样网络可以包括：均值子网络和方差子网络。自回归语言模型可以选用GPT2模型，均值子网络和方差子网络均包括：线性层和层标准化层；词映射网络可以选用全连接层。图像生成模型为Stable Diffusion模型。

设置10个初始信息，该10个初始信息分别包括图像类别信息为airplane(飞机)、automobile(汽车)、bird(鸟)、cat(猫)、dog(狗)、frog(青蛙)、horse(马)、ship(船)、truck(卡车)。

在本实施例中设置四个图像生成实验组，并在语义匹配度和艺术性两个维度上对该四个图像生成实验组生成的图像进行评价。其中语义匹配度是指图像与初始信息的语义的匹配度，可以通过CLIP模型确定图像与初始文本的语义之间的CLIP分数(CLIP score)，CLIP score越高表示图像与初始文本的语义之间匹配度越高。艺术性可以通过艺术性(aesthetic)模型对图像的艺术性进行打分，得到该图像的艺术性得分(aestheticscore)，当图像的aesthetic score越高表示该图像越美观。aesthetic模型可以利用标注有艺术性打分的训练图像训练神经网络得到，该神经网络可以为CNN(ConvolutionalNeural Network，卷积神经网络)等。其中训练图像可以通过如下方式获得：从开源的图文数据库获得多个初始图像，并通过人工对初始图像的艺术性进行打分并标注，得到多个训练图像。

第一图像生成实验组：将初始信息输入到Stable Diffusion模型中，由StableDiffusion模型输出图像。

第二图像生成实验组：将初始信息输入到GPT2模型中，由GPT2模型输出图像描述文本，将图像描述文本输入到Stable Diffusion模型中，由Stable Diffusion模型输出图像。

第三图像生成实验组：将初始信息输入到GPT2模型中，由GPT2模型输出图像描述文本，将图像描述文本输入到Stable Diffusion模型中，在图像推理过程中对图像类别信息进行增强，Stable Diffusion模型输出图像。

第四图像生成实验组：将初始信息输入到文本生成模型中，由文本生成模型输出文本描述信息，将输出的文本描述信息确定目标文本信息，将目标文本信息输入到StableDiffusion模型中，在图像推理过程中对图像类别信息进行增强，Stable Diffusion模型输出目标图像。

将10个初始信息通过四个实验组所示的方法生成20张图像，并计算各组图像的CLIP score的平均值和aesthetic score的平均值，结果见表1。

表1

	CLIP score的平均值	aesthetic score的平均值
			第一图像生成实验组	0.2646	25.8303
第二图像生成实验组	0.2512	34.2250
			第三图像生成实验组	0.2678	33.7375
第四图像生成实验组	0.2644	33.2335

由表1可以得到，通过第二图像生成实验组所示的方法生成的图像的CLIP score的平均值为0.2512，aesthetic score的平均值为34.2250，虽然aesthetic score的平均值相较于通过第一图像生成实验组生成的图像有所提升，但是图像的CLIP score的平均值相较于第一图像生成实验组生成的图像是下降的，即初始信息的语音与图像的匹配度低。

第三图像生成实验组通过在图像的推理过程中对图像类别信息进行增强，使得在保障了图像的CLIP score的平均值的前提下，提升了图像的aesthetic score的平均值，但是其生成的图像描述文本的多样性较差，使得生成的图像风格单一，存在同质化的情况。例如，初始信息中的图像类别信息为horse。通过第三图像生成实验组所示的方法生成3个图像描述文本，分别为：编号1.horse-like creature with long horns，long tongues，anda long nose appearing from the ground，in the style of beeple and MikeWinkelmann，intricate，epic lighting，cinematic composition，hyper realistic，8kresolution，unreal engine 5。编号2.horse-like creature with long horns，longtongues，and a long nose appearing from the ground，in the style of beeple andMike Winkelman，intricate，epic lighting，cinematic composition，hyper realistic，8k resolution，unreal engine5。编号3.horse-like creature with long horns，longtongues，and a long nose appearing from the ground，in the style of beeple andMike Winkelmann，intricate，epic lighting，cinematic composition，8k resolution，unreal engine 5。图7是本公开一示例性实施例提供的通过图像描述文本生成的图像的示意图。其中图7中的A部分为通过编号1的图像描述文本生成的图像，图7中的B部分为通过编号2的图像描述文本生成的图像，图7中的C部分为通过编号3的图像描述文本生成的图像。通过图7中所示的图像可以得出利用第三图像生成实验组所示的方法生成的3个图像描述文本所生成的图像风格单一，图像存在同质化的情况。

第四图像生成实验组增加了采样网络以增强文本描述信息的多样性。通过表1可以看出通过第四图像生成实验组所示的方法生成的图像具有较高的CLIP score的平均值和aesthetic score的平均值，且生成的文本描述信息的多样性好，相应的生成的图像风格也是多样化的。例如，初始信息中的图像类别信息为horse。通过第四图像生成实验组方法生成的3个图像描述文本分别为：编号4.horse in spacesuit，engineer，boots，intricate，elegant，highly detailed，digital painting，artstation，concept art，smooth,sharp focus，illustration，by gregrutkowski and alphonsemucha。编号5.horse wearing a jacket and white boots，riding a horse，looking at thecamera，standing in a field，wearing glasses，art by gregrutkowski，hyperdetailed，8k，concept art，trending on artstation。编号6.horse with a sword，fantasy，d&d，intricate，rings，smoke，fire，highly detailed，digital painting，artstation，concept art，matte，sharp focus，illustration，hearthstone，Furyblade。将该3个文本描述信息分别确定为目标文本信息。图8是本公开一示例性实施例提供的通过目标文本信息生成的目标图像的示意图。其中图8中的A部分为通过编号4的目标文本信息生成的目标图像，图8中的B部分为通过编号5的目标文本信息生成的目标图像，图8中的C部分为通过编号6的目标文本信息生成的目标图像。通过图8中所示的目标图像可以得出通过第四图像生成实验组方法生成的3个目标文本信息所生成的目标图像不仅风格多样，艺术性高，且与初始信息中的图像类别信息horse的匹配度高。

图9为本公开基于文本生成图像的装置一个实施例的结构示意图。如图9所示，该实施例的装置可以包括：

第一获取模块300，用于获取待生成图像的初始信息，所述初始信息包括图像类别信息；

文本生成模块310，用于将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，所述文本描述信息包括所述图像类别信息和图像效果信息；

文本确定模块320，用于基于所述至少一个文本描述信息，确定目标文本信息

图像生成模块330，用于将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像。

在本公开其中一些可能的实现方式中，本公开实施例中的图像生成模块330具体用于：将所述目标文本信息输入到所述图像生成模型；所述图像生成模型对所述目标文本信息中的图像类别信息进行增强，并基于交叉注意力机制对增强图像类别信息后的目标文本信息进行处理，得到所述至少一个目标图像。

在本公开其中一些可能的实现方式中，本公开实施例中的图像生成模块330包括：

文本编码子模块，用于分别针对各文本描述信息，对所述文本描述信息进行编码处理，得到所述文本描述信息的文本特征；

特征融合子模块，用于基于交叉注意力机制，对所述文本特征与预设噪声进行特征融合，得到融合特征；

图像生成子模块，用于基于所述融合特征生成所述文本描述信息对应的图像。

在本公开其中一些可能的实现方式中，本公开实施例中的图像生成模块330还包括：

第一增强子模块，用于基于预设增强参数，对所述文本特征中对应于所述图像类别信息的部分进行特征增强，得到增强后的文本特征；

特征融合子模块具体用于：对所述增强后的文本特征与所述预设噪声进行特征融合；

或者，

第二增强子模块，用于基于预设增强参数，对融合特征中对应于所述图像类别信息的部分进行特征增强，得到增强后的融合特征；

图像生成子模块具体用于：基于所述增强后的融合特征生成所述文本描述信息对应的图像。

在本公开其中一些可能的实现方式中，本公开实施例中的文本生成模块310具体用于：将所述初始信息输入到所述文本生成模型；所述文本生成模型基于不确定建模规则对所述初始信息进行处理，得到所述至少一个文本描述信息，所述至少一个文本描述信息中的任一文本描述信息的图像类别信息和图像效果信息按照预设格式排列。

在本公开其中一些可能的实现方式中，本公开实施例中的文本生成模型包括：自回归语言模型、采样网络和词映射网络。

在本公开其中一些可能的实现方式中，本公开实施例中的文本生成模块310包括：

文本特征生成子模块，用于将所述初始信息输入所述自回归语言模型，经所述自回归语言模型生成文本特征序列并输入至所述采样网络，所述文本特征序列包括：所述初始信息的文本特征，以及所述初始信息对应的基础视觉效果信息的文本特征；

采样特征生成子模块，用于经所述采样网络对所述特征序列进行不确定性采样，得到采样特征序列，并输入至所述词映射网络，所述采样特征序列包括多个采样特征；

映射子模块，用于经所述词映射网络生成所述采样特征序列对应的至少一个文本描述信息。

在本公开其中一些可能的实现方式中，本公开实施例中的采样网络包括：均值子网络和方差子网络；

在本公开其中一些可能的实现方式中，本公开实施例中的采样特征生成子模块，具体用于：

分别针对所述文本特征序列中的各文本特征，将所述文本特征分别输入所述均值子网络和所述方差子网络，得到所述文本特征的均值信息和方差信息；

基于所述文本特征的均值信息和方差信息对所述文本特征进行不确定性采样，得到所述文本特征对应的采样特征。

在本公开其中一些可能的实现方式中，本公开实施例中的映射子模块具体用于：

所述词映射网络基于预设词搜索策略，在预设词表中搜索各采样特征序列对应的词，并基于各采样特征对应的词生成所述至少一个文本描述信息。

在本公开其中一些可能的实现方式中，本公开实施例中的视觉效果信息包括以下任意一项或多项信息：图像风格，图像颜色，图像的拍摄角度，图像的亮度效果，图像表达的视觉感觉，图像表达的情绪，图像表达的环境，图像视觉属性，图像类别呈姿态，图像类别数量。

在本公开其中一些可能的实现方式中，本公开实施例中的图像视觉属性包括以下任意一项或多项信息：图像形状，图像尺寸，图像分辨率，图像方向。

在本公开其中一些可能的实现方式中，本公开实施例中的基于文本生成图像的装置还包括：

第二获取模块，用于获取训练数据集，所述训练数据集包括多个训练样本，各训练样本均包括图像类别信息和视觉效果信息；

第一训练模块，用于将各所述训练文本分别输入待训练模型，所述待训练模型包括：待训练自回归语言模型、待训练采样网络和待训练词映射网络；

第二训练模块，用于分别针对各所述训练样本，所述待训练自回归语言模型基于所述训练文本的图像类型信息生成预测文本特征序列，所述预测特征序列包括所述图像类型信息的预测文本特征，以及所述图像类型信息对应的预测基础视觉效果信息的预测文本特征；

第三训练模块，用于经所述待训练采样网络对所述预测特征序列进行不确定性采样，得到预测采样特征序列，所述预测采样特征序列包括多个预测采样特征；

第四训练模块，用于经所述待训练词映射网络生成所述预测采样特征序列对应的预测文本描述信息；

第五训练模块，用于基于各所述训练样本和所述预测采样特征序列，对所述待训练模型的参数进行微调，得到所述文本生成模型。

在本公开其中一些可能的实现方式中，本公开实施例中的待训练采样网络包括：待训练均值子网络和待训练方差子网络；

在本公开其中一些可能的实现方式中，本公开实施例中的第三训练模块具体用于：分别针对所述预测文本特征序列中的各预测文本特征，将所述预测文本特征分别输入所述待训练均值子网络和所述待训练方差子网络，得到所述预测文本特征的均值信息和方差信息；

基于所述预测文本特征的均值信息和方差信息对所述预测文本特征进行不确定性采样，得到所述预测文本特征对应的预测采样特征。

在本公开其中一些可能的实现方式中，本公开实施例中的第五训练模块包括：

第一损失值确定子模块，用于基于各所述训练样本和所述预测采样特征序列，确定第一损失函数值；

第二损失值确定子模块，用于根据各预测文本特征的均值信息和方差信息，确定第二损失函数值；

训练子模块，用于根据所述第一损失函数值和所述第二损失函数值对所述待训练模型的参数进行微调，得到所述文本生成模型。

本公开实施例的基于文本生成图像的装置和基于文本生成图像的方法在具体实现上相互对应，对应内容之间可以相互参考，不再赘述。

另外，本公开实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的基于文本生成图像的方法。

图10为本公开电子设备一个应用实施例的结构示意图。下面，参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

如图10所示，电子设备包括一个或多个处理器和存储器。

处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的基于文本生成图像的方法以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入设备还可以包括例如键盘、鼠标等等。

该输出装置可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的基于文本生成图像的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的基于文本生成图像的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于文本生成图像的方法，其特征在于，包括：

获取待生成图像的初始信息，所述初始信息包括图像类别信息；

将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，所述文本描述信息包括所述图像类别信息和图像效果信息；

基于所述至少一个文本描述信息，确定目标文本信息；

将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像，包括：

将所述目标文本信息输入到所述图像生成模型；

所述图像生成模型对所述目标文本信息中的图像类别信息进行增强，并基于交叉注意力机制对增强图像类别信息后的目标文本信息进行处理，得到所述至少一个目标图像。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像，包括：

对所述目标文本信息进行编码处理，得到所述目标文本信息的文本特征；

基于交叉注意力机制，对所述文本特征与预设噪声进行特征融合，得到融合特征；

基于所述融合特征生成所述文本描述信息对应的至少一个目标图像。

4.根据权利要求3所述的方法，其特征在于，得到所述目标文本信息的文本特征之后，还包括：

基于预设增强参数，对所述文本特征中对应于所述图像类别信息的部分进行特征增强，得到增强后的文本特征；

对所述文本特征与预设噪声进行特征融合，包括：对所述增强后的文本特征与所述预设噪声进行特征融合；

或者，

得到融合特征之后，还包括：基于预设增强参数，对融合特征中对应于所述图像类别信息的部分进行特征增强，得到增强后的融合特征；

基于所述融合特征生成所述文本描述信息对应的图像，包括：

基于所述增强后的融合特征生成所述目标文本信息对应的至少一个目标图像。

5.根据权利要求1所述的方法，其特征在于，所述将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，包括：

将所述初始信息输入到所述文本生成模型；

所述文本生成模型基于不确定建模规则对所述初始信息进行处理，得到所述至少一个文本描述信息，所述至少一个文本描述信息中的任一文本描述信息的图像类别信息和图像效果信息按照预设格式排列。

6.根据权利要求5所述的方法，其特征在于，所述文本生成模型包括：自回归语言模型、采样网络和词映射网络；

所述将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，包括：

将所述初始信息输入所述自回归语言模型，经所述自回归语言模型生成文本特征序列并输入至所述采样网络，所述文本特征序列包括：

所述初始信息的文本特征，以及所述初始信息对应的基础视觉效果信息的文本特征；

经所述采样网络对所述特征序列进行不确定性采样，得到采样特征序列，并输入至所述词映射网络，所述采样特征序列包括多个采样特征；

经所述词映射网络生成所述采样特征序列对应的至少一个文本描述信息。

7.根据权利要求6所述的方法，其特征在于，所述采样网络包括：均值子网络和方差子网络；

所述经所述采样网络对所述特征序列进行不确定性采样，得到采样特征序列，包括：

针对所述文本特征序列中的各文本特征，将所述文本特征分别输入所述均值子网络和所述方差子网络，得到所述文本特征的均值信息和方差信息；

基于所述文本特征的均值信息和方差信息对所述文本特征进行不确定性采样，得到所述采样特征序列。

8.根据权利要求6所述的方法，其特征在于，所述经所述词映射网络生成所述采样特征序列对应的至少一个文本描述信息，包括：

9.根据权利要求1所述的方法，其特征在于，所述图像效果信息包括以下任意一项或多项信息：图像风格，图像颜色，图像的拍摄角度，图像的亮度效果，图像表达的视觉感觉，图像表达的情绪，图像表达的环境，图像视觉属性，图像类别呈姿态，图像类别数量。

10.根据权利要求9所述的方法，其特征在于，所述图像视觉属性包括以下任意一项或多项信息：图像形状，图像尺寸，图像分辨率，图像方向。

11.一种基于文本生成图像的装置，其特征在于，包括：

第一获取模块，用于获取待生成图像的初始信息，所述初始信息包括图像类别信息；

文本生成模块，用于将所述初始信息输入到预先训练的文本生成模型，得到至少一个文本描述信息，所述文本描述信息包括所述图像类别信息和图像效果信息；

文本确定模块，用于基于所述至少一个文本描述信息，确定目标文本信息；

图像生成模块，用于将所述目标文本信息输入到预先训练的图像生成模型，得到至少一个目标图像。

12.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-10中任一项所述的基于文本生成图像的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-10中任一项所述的基于文本生成图像的方法。