CN118781225A

CN118781225A - 图像处理方法、装置、电子设备、及计算机可读存储介质

Info

Publication number: CN118781225A
Application number: CN202310399237.0A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2024-10-15
Also published as: WO2024207872A1

Abstract

本申请提供了一种图像处理方法、装置、电子设备及计算机可读存储介质；方法包括：获取待处理提示语；获取待处理提示语的文本特征，将文本特征映射为待处理提示语的可生成性指标和描述类型；响应于可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、且待处理提示语包括多个子句，获取多个子句分别对应的相似图像；确定多个子句分别对应的相似图像之间的图像差异度；响应于图像差异度大于图像差异度阈值，将多个子句分别对应的相似图像作为相应子句的配图。本申请通过在文生图场景中对提示语进行可生成性识别，提升图文整体的相关性。

Description

图像处理方法、装置、电子设备、及计算机可读存储介质

技术领域

本申请涉及图像处理技术，尤其涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

相关技术在一些文生成图的生成任务中，用户给出一段想要描述的文本作为提示语，如剧情文本或是武侠小说文本，基于提示语采用图像生成模型对应生成的多个剧情图像作为提示语的配图。但在这种根据提示语直接生成图像的方法容易导致最终产生配图的效果不佳。

一方面，用户输入的提示语的描述内容可能较为抽象，例如描述的内容可能是种类繁多且复杂的动作，而这些动作却难以在图像中完美体现出来，使得生成图像与提示语匹配度较低。另一方面，用户给出的提示语的语句中可能会包含许多分句，并且这些分句描述的元素和内容也可能不同，由此同一个包含多个分句的提示语可以生成多张内容完全不同的生成图像，这些生成图像的差异性大、还可能存在生成元素缺失，不适合作为提示语的配图，从而影响生成图像的整体生成效果的相关性。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，通过在文生图场景中对提示语进行可生成性识别，提升图文整体的相关性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像处理方法，所述方法包括：

获取待处理提示语；

获取所述待处理提示语的文本特征，将所述文本特征映射为所述待处理提示语的可生成性指标和描述类型；

响应于所述可生成性指标大于指标阈值、所述描述类型表征所述待处理提示语未包括动词、且所述待处理提示语包括多个子句，获取所述多个子句分别对应的相似图像，其中，所述子句与所对应的相似图像之间的图文相似度大于图文相似度阈值；

确定所述多个子句分别对应的相似图像之间的图像差异度；

响应于所述图像差异度小于图像差异度阈值，将所述多个子句分别对应的相似图像作为相应子句的配图。

本申请实施例提供一种图像处理装置，包括：

获取模块，用于获取待处理提示语；

映射模块，用于获取所述待处理提示语的文本特征，将所述文本特征映射为所述待处理提示语的可生成性指标和描述类型；

所述获取模块，还用于响应于所述可生成性指标大于指标阈值、所述描述类型表征所述待处理提示语未包括动词、且所述待处理提示语包括多个子句，获取所述多个子句分别对应的相似图像，其中，所述子句与所对应的相似图像之间的图文相似度大于图文相似度阈值；

确定模块，用于确定所述多个子句分别对应的相似图像之间的图像差异度；

所述确定模块，还用于响应于所述图像差异度小于图像差异度阈值，将所述多个子句分别对应的相似图像作为相应子句的配图。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令或计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或计算机程序时，实现本申请实施例提供的图像处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或计算机程序，用于被处理器执行时，实现本申请实施例提供的图像处理方法。

本申请实施例提供一种计算机程序产品，包括计算机可执行指令或计算机程序，所述计算机可执行指令或计算机程序被处理器执行时，实现本申请实施例提供的图像处理方法。

本申请实施例具有以下有益效果：

通过对提示语进行可生成性评价以及对提示语描述类型进行判定，可以识别出提示语是否为包含动词、是否适合生成配图，以给出相应的处理反馈。接下来分别确定提示语中的子句的相似图像，并对每个子句的最佳相似度图像的图像差异度进行评价，最终筛选出提示语中多个子句的配图。在对提示语进行选图的基础上，实现了对提示语的子句进行更有针对性的细粒度选图，从而提高提示语对应的生成图像的整体相关性。

附图说明

图1是本申请实施例提供的图像处理系统架构的结构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-图3K是本申请实施例提供的图像处理方法的流程示意图；

图4是本申请实施例提供的连续插图生成闭环系统的原理图；

图5是本申请实施例提供的原始语句进行图像生成的示例图；

图6是本申请实施例提供的语句拆解后二次生成图像的序列图；

图7是本申请实施例提供的原始生成图像序列的示意图；

图8是本申请实施例提供的序列关联的生成图像示意图；

图9是本申请实施例提供的图像生成模型架构的一个示例图；

图10是本申请实施例提供的生成图像相关性评价的过程图；

图11是本申请实施例提供的对生成图像进行序列相关性评价的原理图；

图12是本申请实施例提供的识别生成结果不恰当语句的过程图；

图13为本申请实施例提供的确定生成图像差异性的示例图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)单图生成排序：针对某一个提示语，调用图像生成模型对提示语生成多个生成图像，然后对多个生成图像进行评价，确定出每个生成图像的评价指标，根据评价指标对多个生成图像进行排序，以用于筛选出与提示语匹配的最佳生成图像。

2)序列生成排序：针对多个提示语，对首个提示语执行单图生成排序后得到最佳生成图像，再基于首个提示语的最佳生成图像对后续非首个提示语的生成图像进行重排序，得到对应的最佳生成图像，直到所有提示语都得到对应的最佳生成图像，最终得到多个提示语的序列图。

本申请实施例提供一种图像处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品，通过在文生图场景中对提示语进行可生成性识别，提升图文整体的相关性。

参见图1，图1是本申请实施例提供的图像处理系统100的架构示意图，包括终端(示例性示出了终端500-1和终端500-2)、网络300、服务器200，终端(示例性示出了终端500-1和终端500-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端(示例性示出了终端500-1和终端500-2)运行着各种文档编辑应用场景的应用程序(Application，APP)，例如可以是即时通信APP、阅读APP、视频APP、文档编辑器或者其他具有文档编辑功能的软件程序，当用户在APP上编辑的文档中输入的需要生成图像的提示语后，接收输入的提示语并通过网络300发送到服务器200。服务器200接收到终端发送的提示语，先获取这些提示语的多个生成图像以从多个生成图像中确定出提示语的配图，然后提取提示语的文本特征并映射为提示语的可生成性指标和描述类型。当可生成性指标大于指标阈值、描述类型表征提示语未包括动词、且提示语包括多个子句时，获取多个子句分别对应的图文相似度大于图文相似度大于相似度阈值的相似图像，然后确定这些相似图像的图像差异度，将图像差异度小于图像差异度阈值的相似图像作为子句配图。最后将提示语的配图和多个子句的配图一起通过网络300返回到终端(示例性示出了终端500-1和终端500-2)，插入到当前编辑的文档中。

在一些实施例中，用户在终端的文档编辑APP中输入需要生成图像的提示语，终端可以直接对这些输入的提示语进行处理，包括先获取这些提示语的多个生成图像以从多个生成图像中确定出提示语的配图，然后提取提示语的文本特征并映射为提示语的可生成性指标和描述类型。当可生成性指标大于指标阈值、描述类型表征提示语未包括动词、且提示语包括多个子句时，获取多个子句分别对应的图文相似度大于图文相似度大于相似度阈值的相似图像，然后确定这些相似图像的图像差异度，将图像差异度小于图像差异度阈值的相似图像作为子句的配图，然后将提示语的配图和子句的配图直接显示在APP的文档编辑界面中。

示例的，在一些小说或剧本编辑场景中，终端运行的文档编辑器软件会实时接收用户的输入的需要生成对应图像的小说语句，然后基于小说语句快速生成大量的生成图像得到提示语的配图，接下来再对提示语进行处理，确定提示语中多个子句的相似图像作为子句配图，最后将提示语的配图和子句的配图返回到文档编辑器软件的配图界面。

在一些实施例中，图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。图1所示的终端(示例性示出了终端500-1和终端500-2)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

本申请实施例可以借助人工智能(Artificial Intelligence，AI)技术实现，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

以本申请实施例提供的服务器为例，例如可以部署在云端的服务器集群，从而向用户或开发者开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城，所有的用户或开发者都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，云端的服务器封装有本申请实施例提供的图像处理的程序。用户通过终端(终端运行有APP，例如即时通信APP、阅读APP等)调用云服务中的图像处理服务，以使部署在云端的服务器调用封装的图像处理的程序，通过接收用户输入的文本，先获取这些文本的多个生成图像以从多个生成图像中确定出输入文本的配图，然后提取文本的文本特征并映射为提示语的可生成性指标和描述类型。当可生成性指标大于指标阈值、描述类型表征提示语未包括动词、且提示语包括多个子句时，获取多个子句分别对应的图文相似度大于图文相似度大于相似度阈值的相似图像，然后确定这些相似图像的图像差异度，将图像差异度大于图像差异度阈值的相似图像作为子句的配图返回，插入到文档编辑的界面中。

参见图2，图2是本申请实施例提供的电子设备400的结构示意图，电子设备400既可以实施为如图1所示的服务器200，也可以实施为图1所示的终端(示例性示出了终端500-1和终端500-2)，图2所示的电子设备400包括：至少一个处理器410、存储器450、至少一个网络接口420。其中，电子设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(Digital Signal Processor，DSP)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus，USB)等；

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的图像处理装置453，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块4531、确定模块4532、映射模块4533，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，终端或服务器可以通过运行各种计算机可执行指令或计算机程序来实现本申请实施例提供的图像处理方法。举例来说，计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作系统中的原生程序或软件模块，可以是本地(Native)应用程序(Application，APP)，即需要在操作系统中安装才能运行的程序，也可以是能够嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述的计算机可执行指令可以是任意形式的指令，上述计算机程序可以是任意形式的应用程序、模块或插件。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的图像处理方法。

参见图3A，图3A是本申请实施例提供的图像处理方法的流程示意图，执行主体可以是电子设备，将结合图3A示出的步骤进行说明。

在步骤101中，获取待处理提示语。

在一些实施例中，待处理提示语可以是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，可以为某小说或者剧本文章中的语句，也可以是包含多个子句的语句，还可以是多个语句。这些提示语用于描述一些目标题材，其中，目标题材可以是小说或者剧本文章中的一些具有特定主题或风格的题材，比如武侠题材、历史题材、美食题材、旅游题材等。然后调用图像生成模型对待处理提示语生成多个对应的生成图像，其中，这些生成图像与待处理提示语类似，都用于描述同一种目标题材，例如武侠题材、历史题材、美食题材、旅游题材等。

在步骤102中，获取待处理提示语的文本特征，将文本特征映射为待处理提示语的可生成性指标和描述类型。

当对输入的文本中每个待处理提示语选择配图中，考虑到待处理提示语可能包含有多个子句，而每个子句所描述的内容不相同，配图中难以全部体现出待处理提示语中所有子句描述的内容，所以需要对待处理提示语进行进一步处理，通过对待处理提示语进行可生成性识别，以将待处理提示语拆解为多个子句，再对其中每个子句都生成对应的配图。

在一些实施例中，参见图3B，图3A示出的步骤102中的“获取待处理提示语的文本特征”可以通过以下步骤1021A至步骤1022A实现，下面具体说明。

在步骤1021A中，将待处理提示语转换为标记序列。

在一些实施例中，对待处理提示语进行可生成性识别需要通过一个语句可生成性识别模型来对待处理提示语的文本特征进行处理，所以首先需要提取出待处理提示语的文本特征，而提取待处理提示语的文本特征可以调用一个语义理解模型对待处理提示语执行嵌入处理，得到对应待处理提示语的嵌入标记序列，其中语义理解模型可以是基于变换器的双向编码表征(Bidirectional Encoder Representation from Transformers，BERT)模型。

在步骤1022A中，基于标记序列调用语义理解模型进行编码处理，得到待处理提示语的文本特征。

承接上述实施例，当获取到待处理提示语的嵌入标记序列后，再调用语义理解模型对待处理提示语的嵌入标记序列进行编码处理，得到待处理提示语的文本特征。

在一些实施例中，参见图3C，图3A示出的步骤102中的“将文本特征映射为待处理提示语的可生成性指标和描述类型”可以通过以下步骤1021B至步骤1022B实现，下面具体说明。

在步骤1021B中，调用第一文本分类器中的卷积网络对文本特征进行卷积操作，得到第一卷积特征，调用第一文本分类器中的多分类层将第一卷积特征映射为多个候选可生成性指标的第一概率，将最大的第一概率对应的候选可生成性指标作为待处理提示语的可生成性指标。

获取到待处理提示语的文本特征后，即可调用语句可生成性识别模型对文本特征进行预测，其中语句可生成性识别模型用于判定对应的待处理提示语是否适合图像生成模型来生成图像，也即判定待处理提示语是否为生成图像不恰当的语句，具体包括两个文本分类器，分别用于预测待处理提示语对应生成图像的描述内容是否语提示语的描述内容相符、以及待处理提示语是否为动作描述语句。调用第一文本分类器的卷积网络对待处理提示语的文本特征进行卷积操作，得到第一卷积特征，其中卷积网络可以是多个卷积层，例如2个。然后调用第一文本分类器的多分类层将第一卷积特征映射为多个候选可生成性指标的第一概率，将最大的第一概率的候选可生成性指标作为待处理提示语的可生成性指标。

在一些实施例中，候选可生成性指标可以是3个，例如0、1、2，也即第一文本分类器是三分类预测。其中，当候选可生成性指标为0时，表示预测出对应待处理提示语的多个生成图像的描述内容与待处理提示语的描述内容都不相同，说明该待处理提示语不适合生成配图，当候选可生成性指标为1时，表示预测出对应待处理提示语的多个生成图像中有小部分生成图像的描述内容，与待处理提示语的描述内容相同，也说明该提示语不适合生成配图。当候选可生成性指标为2时，表示预测出对应待处理提示语的多个生成图像中有大部分甚至全部生成图像的描述内容，与待处理提示语的描述内容相同，也说明该提示语适合生成配图。而可生成性指标用于表征待处理提示语能够用于生成配图的打分，其中，打分的标准可以是将候选可生成性指标直接作为可生成性指标的打分值。可生成性指标的打分值越高(例如打分值为2)，则说明待处理提示语用于生成配图的参考价值越大。

在步骤1022B中，调用第二文本分类器中的卷积网络对文本特征进行卷积操作，得到第二卷积特征，调用第一文本分类器中的多分类层将第二卷积特征映射为映射多个描述类型的第二概率，将最大的第二概率对应的描述类型作为待处理提示语的描述类型。

在确定待处理提示语的文本特征的可生成性指标的同时，可以调用第二文本分类器中的卷积网络对文本特征进行卷积操作，得到第二卷积特征，其中卷积网络也可以是多个卷积层，例如2个。然后调用第一文本分类器中的多分类层将第二卷积特征映射为多个描述类型的第二概率，将最大的第二概率对应的描述类型作为待处理提示语的描述类型。

在一些实施例中，待处理提示语的描述类型包括：包括动作和不包括动作，用于判定待处理提示语是否为动作描述语句，也即第二文本分类器为二分类。当预测的描述类型为包括动词时，则说明待处理提示语为动作描述语句，而动作描述语句一般难以在图像上完整体现处理，所以生成图像的失败率高，即当待处理提示语包括动词时，说明该待处理提示语不适合生成配图。而预测的描述类型为不包括动词时，说明该待处理提示语不是动作描述语句，可以通过对待处理语句进行进一步拆解，得到多个子句后再分别二次生成图像。

通过本申请实施例，使用一个语句可生成性识别模型来对待处理提示语进行识别，以识别出可生成性差且包括动作的待处理提示语，对待处理提示语进行合理性评价，可以进一步对待处理提示语进行处理反馈，解决了待处理提示语单次生成图像不合理的问题，避免了由于待处理提示语可生成性差、元素缺失，导致的整体图像生成效果差的问题。

继续参见图3A，在步骤103中，响应于可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、且待处理提示语包括多个子句，获取多个子句分别对应的相似图像。

在这里，可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、待处理提示语包括多个子句，能够作为在根据文字生成图像场景中，对提示语进行可生成性识别使用的不恰当语句条件，当满足上述条件时，则说明待处理提示语是不恰当语句，即不是适合生成配图的语句。

对待处理提示语进行语句可生成性识别之后，当预测的可生成性指标大于指标阈值(例如指标阈值为1)、预测的描述类型标准待处理提示语未包括动词、且待处理提示语包含多个子句时，需要对待处理提示语进行拆解，得到待处理提示语的多个子句。然后从待处理提示语的所有生成图像中查找与每个子句最相似的相似图像，具体为针对待处理提示语的每个子句，计算子句与待处理提示语的所有生成图像的图文相似度，例如可以是余弦相似度，然后再从中确定图文相似度最大的一个生成图像作为该子句的候选相似图像，由此每个子句都可以确定出一个对应的候选相似图像，当子句与对应的候选相似图像的图文相似度大于图文相似度阈值时，将对应的候选相似图像作为子句的相似图像。

在一些实施例中，当可生成性指标大于指标阈值(例如指标阈值为1)、且预测的描述类型标准待处理提示语包括动词时，说明对应待处理提示语为动作描述语句，而动作描述语句一般难以在图像上完整体现处理，所以生成图像的失败率高，说明该待处理提示语不适合生成配图，则删除掉待处理提示语。

在一些实施例中，当可生成性指标小于指标阈值(例如指标阈值为1)时，说明待处理提示语不适合生成配图，考虑到不同的待处理提示语是从输入文本中顺序提取的，如将输入的文本以句为单位按照句号分割成多个待处理提示语，所以直接将待处理提示语的配图按照生成的先后顺序存储到文本的插图序列中即可。

参见图3A，在步骤104中，确定多个子句分别对应的相似图像之间的图像差异度。

当待处理提示语的每个子句都确定对应的相似图像后，接下来确定这些相似度图像之间的图像差异度，其中图像差异度可以用图像方差来衡量。

在一些实施例中，参见图3D，图3A示出的步骤104还可以通过以下步骤1041至步骤1042实现，下面具体说明。

在步骤1041中，针对每个相似图像执行以下处理：确定相似图像中每行像素的灰度平均值，将每行像素的灰度平均值组合为相似图像的图像特征。

在一些实施例中，针对每个相似图像，将每个相似图像进行灰度处理，得到对应的灰度图，针对每个相似图像的灰度图分别依次计算相似图像每行像素点的灰度值的平均值，并记录每行像素点的灰度值的平均值，并组合作为相似图像的图像特征。

在步骤1042中，确定多个子句分别对应的相似图像的图像特征的方差，将方差作为多个子句分别对应的相似图像之间的图像差异度。

承接上述实施例，对得到的所有平均值进行方差计算，得到的方差就是相似图像的特征值。每个相似图像都计算一个特征值之后再进行互相比较，确定其中任意两个相似图像的方差之间的差值(简称为方差差值)，将方差差值最大的一个作为多个相似图像的总方差，作为多个子句分别对应的相似图像之间的图像差异度。

继续参见图3A，在步骤105中，响应于图像差异度小于图像差异度阈值，将多个子句分别对应的相似图像作为相应子句的配图。

当多个子句分别对应的相似图像的图像差异度小于图像差异度阈值时，则说明待处理提示语的多个子句差异性小，对应描述的内容较为相似，无需再进行拆解生成，于是直接将多个子句对应的相似图像作为配图，并将配图按照子句在待处理提示语的先后顺序，存储到对应输入的文本对应的插图序列中。

在一些实施例中，当待处理提示语的多个子句分别对应的相似图像的图像差异度大于或等于图像差异度阈值时，则说明待处理提示语的多个子句描述的内容差异性较大，可能描述的内容也各不相同，则将当前待处理提示语判断为不恰当语句，也就是说在待处理提示语中子句对应的相似图像关联性差，则需要进一步对待处理提示语中的子句进行拆解，此时，继续转入执行图3A示出的步骤101，使多个子句对应的待处理提示语重新执行本申请实施例提供的图像处理方法，从而最终确定待处理提示语的配图。

在这里，多个子句分别对应的相似图像的图像差异度大于或等于图像差异度阈值，能够作为在根据文字生成图像场景中，对提示语进行可生成性识别使用的不恰当语句条件，当子句对应的相似图像的图像差异度大于或等于图像差异度阈值时，则说明子句是不恰当语句，即不是适用于生成配图的语句。

在一些实施例中，参见图3E，在执行图3A示出的步骤105之前，还可以执行以下步骤106至步骤109，以获取图像差异度阈值，下面具体说明。

在步骤106中，获取图文对样本集合。

在一些实施例中，在获取多个子句对应的相似图像之前，需要确定出一个图文相似度阈值，以筛选出与子句最相似的生成图像作为子句的相似图像，同时为了提高这些子句的相似图像的序列相关性，后续还需要确定这些相似图像的图像差异性，所以还需要设定一个图像差异性阈值。而确定图文相似度阈值与图像差异性阈值的方法通过收集大量的图文对组成图文对样本集合来搜索获取，其中图文对包括样本提示语与样本相似图像。

在步骤107中，按照多个预设的阈值点从小到大的顺序，确定图文对样本集合在当前阈值点下的召回率。

获取到一定数量(如10000对)图文对，然后按照多个预设的阈值点从小到大的顺序，例如可以从0至1之间以0.1为单位步长设置阈值点，然后分别在不同阈值点下，计算这10000个图文对中每个图文对的样本提示语与样本相似图像的相似度指标，其中相似度指标可以是余弦相似度。具体计算方法将在后文步骤20213叙述。然后这些图文对的相似度指标中大于或等于阈值点的图文对作为召回图文对，并统计召回图文对数量，以确定相似度指标中大于阈值点的召回图文对数量占总图文对数量(10000个图文对)的比例，并将这个比例作为对应阈值点下的召回率。

在步骤108中，响应于当前阈值点下的召回率大于或等于召回率阈值，将当前阈值点确定为图文相似度阈值。

如果当前阈值点下的召回率大于或等于召回率阈值，将当前阈值点确定为图文相似度阈值，其中，召回率阈值可以根据图文对集合的数量而定，例如可以是80％，也即当前阈值点下的召回率大于或等于80％时，将此时的阈值点作为图文相似度阈值。

在步骤109中，确定召回图文对中的样本相似图像的图像特征的方差，将召回图文对中的样本相似图像的图像特征的方差作为图像差异度阈值。

当获取到召回图文对之后，接下来再计算召回图文对中样本相似度图像的图像特征的方差，图像特征的方差用于标准图像的差异性，方差越大则说明图像差异度越大，方差越小则说明图像差异度越小，也即图像的相似度高。确定方差后将召回图文对中的样本相似图像的图像特征的方差作为图像差异度阈值。

示例的，假设有10000个图文对，确定出召回率为80％，则停止搜索，此时说明有8000个图文对的图文相似度大于当前阈值点，将此时的阈值点作为图文相似度阈值，由此得到8000个召回图文对，然后计算这8000个召回图文对对应的样本相似图像的方差，将该方差作为图像差异性阈值。

通过本申请实施例，在初次对提示语生成图像选择配图的基础上，根据提示语描述与生成图像、利用语句可生成性识别模型联合生成图像分布情况、自动识别出那些配图质量不佳的提示语并给出处理反馈，具体通过对提示语进行可生成性评价以及判定提示语的描述类型，可以识别出提示语是否为细节描述动作、是否适合生成配图，以对提示语进行自动化拆解或者删除，然后再对提示语拆解的子句进行处理，实现了对待处理提示语的子句粒度的合理性评价以及更细粒度选图，使得生成图像更加合理，提升了待处理提示语的整体生成结果的相关性。

在一些实施例中，参见图3F，在执行图3A示出的步骤101之后，还可以执行以下步骤201至步骤203，下面具体说明。

在步骤201中，响应于待处理提示语是恰当语句，获取待处理提示语的多个生成图像。

其中，恰当语句是不符合不恰当语句条件的语句；不恰当语句条件包括：可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、且待处理提示语包括多个子句；图像差异度大于或等于图像差异度阈值；可生成性指标大于指标阈值，且描述类型表征待处理提示语包括动词。

在一些实施例中，参见图3G，图3F示出的步骤201中“获取待处理提示语的多个生成图像”还可以通过以下步骤2011至步骤2015实现，下面具体说明。

在步骤2011中，对待处理提示语执行编码处理，得到待处理提示语的文本特征以及与提示语的文本特征对应的图像特征。

在一些实施例中，获取到待处理提示语后，可以调用对比文本-图像预训练模型(Contrastive Language-Image Pre-Training，CLIP)的文本编码器对待处理提示语执行编码处理，从而得到待处理提示语的文本特征，由于CLIP模型是根据图文对样本进行训练的。CLIP模型用于预测时，会根据输入对应的预测样本输出匹配的图文对。而当输入只有文本时，在输出对应的文本特征的同时还可以随机生成一个图像特征，但这个图像特征与文本特征不是对应的，这个图像特征可能具有随机像素特征，也可能不具有任何像素特征。

在步骤2012中，对图像特征执行加噪处理，得到噪声图像特征。

承接上述实施例，调用图像生成模型对随机生成的图像特征执行加噪处理，也即在图像特征逐步地添加随机噪声元素，经过多个时间步后，使图像特征变为一个完全随机的噪声图像特征。

在步骤2013中，将文本特征和噪声图像特征进行融合处理，得到融合特征。

接下来将待处理提示语的文本特征与完全随机噪声图像特征进行融合处理，得到融合特征，由于待处理提示语的文本特征携带有目标题材的元素，能够被图像生成模型所识别，可以在执行降噪过程中用于指导生成具有对应目标题材元素的图像特征。

在步骤2014中，对融合特征执行降噪处理，得到还原图像特征。

将待处理提示语的文本特征融入到图像生成模型后，图像生成模型对融入文本特征的融合特征执行降噪处理，也即逐步地去除融合特征中的噪声元素，并结合文本特征中携带的特定题材或特定风格类型的元素，经过与加噪处理相同时间步的降噪过程，生成与文本特征对应的具有目标题材元素的还原图像特征。

在步骤2015中，对还原图像特征执行解码处理，得到多个生成图像。

经过降噪过程获取还原图像特征后，再对还原图像特征执行解码处理，从而得到生成图像，因为生成图像是对噪声图像特征执行降噪得到的，且图像生成模型对提示语文本特征的识别程度不同，这个过程具有随机性，导致生成图像不唯一。由此可以重复执行上述步骤2011至步骤2015，也即根据待处理提示语可以得到对应多个不同的生成图像，其中每个待处理提示语的生成图像的个数可以指定，例如可以是10个，即每个待处理提示语生成10个生成图像。

继续参考图3F，在步骤202中，从多个生成图像中确定待处理提示语的配图。

在一些实施例中，由于待处理提示语可能是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，可以为某小说或者剧本文章中的语句，也可以是包含多个子句的语句，即待处理提示语包含有多个提示语，最终得到的待处理提示语对应的配图是具有序列一致性的序列图。故针对待处理提示语中的多个提示语，需要在保证生成图像具有序列一致性的情况下分别确定每个提示语对应的生成图像，也即对多个提示语进行序列选图，从而最终得到待处理提示语的配图。

在步骤203中，保存待处理提示语的配图。

通过本申请实施例，当待处理提示语不符合不恰当语句条件时，说明待处理提示语是用于生成配图的恰当语句，通过步骤202和203生成对应的配图；相较于根据文本预先生成配图，再删除不适宜图像的配图的方案，能够节约相关的计算资源；当待处理提示语满足不恰当语句条件时，说明待处理提示语是不适应用于生成配图的不恰当语句，则不执行后续的步骤202和203，能够节约相关的计算资源。

如上所述，上文已经说明了待处理提示语的可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、且所述待处理提示语包括多个子句时的处理方式，也说明了待处理提示语的可生成性指标大于指标阈值，且描述类型表征所述待处理提示语包括动词时的处理方式，同时也说说明了可生成性指标小于或等于指标阈值时的处理方式，当待处理提示语不满足上述任意一种情况时，说明待处理提示语是适合用于生成配图的，则保留待处理提示语以及对应的配图。对于从文本中提取的每条待处理提示语，通过上述方案判断每条待处理提示语是否适合生成配图，并对应进行删除、拆解或保留的处理，删除不适宜生成图像的提示语，通过对过长的提示语的拆解，保证生成图像中的元素的全面性，提升了文本与插图序列的整体的相关性。

在一些实施例中，参见图3H，图3F示出的步骤202可以通过以下步骤2021至步骤2025实现，下面具体说明。

在步骤2021中，确定多个生成图像分别与待处理提示语之间的图文相似度，将大于图文相似度阈值的图文相似度对应的生成图像作为保留图像。

在一些实施例中，当待处理提示语是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，且待处理提示语是从文本中提取的首个提示语时，即该提示语是待处理提示语中的第一个提示语时，首先确定多个生成图像与待处理提示语之间的图文相似度，将最大图文相似度的对应的生成图像作为最佳生成图像，作为首个提示语的配图，也即待处理提示语的配图。

在一些实施例中，当待处理提示语是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，且待处理提示语是从文本中提取的非首个提示语时，例如该提示语是待处理提示语中的第二个提示语时，首先确定多个生成图像与待处理提示语之间的图文相似度，然后将大于图文相似度阈值的图文相似度对应的生成图像作为保留图像。其中图文相似度阈值是预设的，也可以通过大量的图文对进行搜索查询得到。

在一些实施例中，参见图3I，图3H示出的步骤2021中的“确定多个生成图像分别与待处理提示语之间的图文相似度”可以通过以下步骤20211至步骤20213实现，下面具体说明。

在步骤20211中，获取多个生成图像分别对应的图像特征。

在一些实施例中，当待处理提示语是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，且待处理提示语是从文本中提取的非首个提示语时，需要确定多个生成图像与待处理提示语之间的图文相似度，也即计算生成图像的图像特征与待处理提示语的文本特征之间的相似度的。首先需要获取多个生成图像的图像特征，针对多个生成图像，调用CLIP模型图像分支的图像编码器对多个图像进行编码处理，得到对应多个生成图像的图像编码特征。

在步骤20212中，识别出待处理提示语中的名词元素，对名词元素进行编码处理，得到提示语元素特征。

承接上述实施例，待处理提示语中可能包含有多个名词元素，这些名词元素是需要在生成图像甚至是最终得到的序列图中体现出来的，主要类型包括人物、道具、环境等三种类型。由于图文相似度也即是表征提示语中名词元素的语义信息有多少呈现在生成图像上，所以针对每个待处理提示语，需要对待处理提示语中的每个名词元素进行识别，识别方法可以采用预训练的跨模态模型加上多标签分类器来实现。而针对待处理提示语对应的生成图像，也需要识别出每个生成图像是否出现对应待处理提示语的名词元素，并进行记录，并将识别记录结果保存在数据库中，以为后续进行序列选图的标准。

示例的，对其中一个提示语中的名词元素进行识别，识别是否为人物、道具、环境。若是则记录对应的名词元素，以及对应的生成图像是否出现该名词元素，记录格式为[提示语标识(ID)、图标识(ID)、元素类别-元素(ID)-元素名称-元素在图中是否出现]。例如提示语中识别出了名词元素“人、剑、狗”，则记录格式为“第i个提示语、第j个图，道具-元素1-猫-出现、道具-元素2-狗-出现、人物-元素1-人-出现”。

当识别出待处理提示语中的名词元素后，提示语中其他的部分如形容词、副词、介词等直接去除。针对识别出的名词元素，调用CLIP模型文本分支的文本编码器对待处理提示语的多个名词元素进行编码处理，得到对应多个名词元素的提示语元素特征。

在步骤20213中，针对每个生成图像执行以下处理：确定生成图像的图像特征与提示语元素特征之间的余弦相似度，将余弦相似度作为生成图像与待处理提示语之间的图文相似度。

承接上述实施例，当获取到待处理提示语的多个名词元素以及多个生成图像提取对应的图像编码特征、提示语元素特征后，针对多个生成图像中的每个生成图像，计算生成图像的图像编码特征与提示语元素特征之间的相似度，其中相似度可以余弦相似度，具体的计算公式如下：

上述公式(1)中，similarity表示余弦相似度，θ表示余弦相似度的余弦角度，A表示生成图像的图像编码特征，B表示提示语元素特征，A_i表示第i个生成图像的图像特征，B_i表示第i个提示语元素特征。

将每个生成图像的图像编码特征与提示语元素特征之间的余弦相似度，作为多个生成图像与待处理提示语之间的图文相似度。然后根据图文相似度对所有的生成图像进行排序，再根据预设的图文相似度阈值，将大于图文相似度阈值的图文相似度对应的生成图像作为保留图像，其中非首个提示语的保留图像可以是多个，也可以指定保留图像具体的个数，如10个。

继续参见图3H，在步骤2022中，响应于保留图像包括待处理提示语中的名词元素，且数据库中的至少一个历史元素包括名词元素，从数据库中查询名词元素的历史元素特征。

当待处理提示语是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，且待处理提示语是从文本中提取的首个提示语时，将待处理提示语的配图，也即首个提示语的最佳生成图像作为历史配图和首个提示语中的名词元素进行关联后保存在数据库中，则首个提示语的名词元素也称为历史元素，首个提示语也作为历史提示语，而历史提示语中这些名词元素的元素特征，也即用CLIP模型提取的提示语元素特征，会作为历史元素特征按照相应的记录格式保存在数据库中。

示例的，在数据库中，最佳生成图像和首个提示语中的名词元素关联的格式可以为：道具-元素1-猫-[提示语标识-图标识-图特征]，道具-元素2-狗-[提示语标识-图标识-图特征]，人物-元素3-人-[提示语标识-图标识-图特征]。历史元素特征保存格式可以是：元素1-猫-[提示语标识-图标识-猫特征]，而历史配图的保存格式可以是“历史图像--[提示语-图标识-元素类别-图特征]”。

当待处理提示语是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，且待处理提示语是从文本中提取的非首个提示语时，针对非首个提示语的每个保留图像，可以根据数据库中的识别记录结果，查询保留图像是否包括待处理提示语中的名词元素。当保留图像包括待处理提示语中的名词元素时，继续从数据库查询对应名词元素的历史元素特征，也即用CLIP模型提取的历史提示语的名词元素的提示语元素特征。

在一些实施例中，参见图3J，图3H示出的步骤2022中的“从数据库中查询名词元素的历史元素特征”可以通过以下步骤20221至步骤20222实现，下面具体说明。

在步骤20221中，识别出保留图像和名词元素中的共有元素。

针对每个保留图像，当保留图像包括待处理提示语中的名词元素时，继续从数据库查询对应名词元素的历史元素特征。其中，查询的过程先需要识别保留图像和待处理提示语的名词元素的共有元素，也即确定保留图像中的名词元素是否与数据库中保存的历史元素相同，以验证保留图像出现的名词元素在数据库中是否已存在记录。

在步骤20222中，从数据库查询共有元素对应的历史元素特征。

当确定出保留图像的名词元素与数据库中的历史元素存在共有元素，也即确定保留图像的名词元素已在数据库中有记录时，确定并获取这些共有元素对应的历史元素特征，以用于后续计算元素相似度。

示例的，对于待处理提示语的第一个提示语(历史提示语)，其中包括“人、猫、狗”三个名词元素，并与对应的最佳生成图像进行关联保存在数据库中，其对应的名词元素的特征作为历史元素特征也保存在数据库中。此时根据数据库中的识别记录结果，可以确定出第二个提示语的保留图像中也出现了“人、猫、狗”三个名词元素，于是可以判定保留图像和数据库中第一个提示语的名词元素(历史元素)中的共有元素为“人、猫、狗”，也即确定保留图像中出现的名词元素“人、猫、狗”在数据库中已有记录，然后确定并获取“人、猫、狗”的历史元素特征，以用于后续计算元素相似度。

通过本申请实施例，当对文本中提取的非首个待处理提示语进行选图时，都会确定待处理提示语对应的保留图像中是否存在数据库中的历史元素，由此每个待处理提示语在选图过程中都会关联相应的历史元素，以保证每个待处理提示语的配图具有元素关联性，提高了配图之间的相关性。

继续参见图3H，在步骤2023中，确定保留图像与历史元素特征之间的元素相似度，从数据库查询历史提示语的历史配图的图像特征，并基于历史配图的图像特征以及保留图像的图像特征，确定保留图像与历史配图之间的图像相似度。

在一些实施例中，参见图3K，图3H示出的步骤2023中的“确定保留图像与历史元素特征之间的元素相似度”可以通过以下步骤20231至步骤20232实现，下面具体说明。

在步骤20231中，确定保留图像分别与不同类型的历史元素特征之间的元素相似度。

在一些实施例中，当确定出保留图像的名词元素与数据库中的历史元素存在共有元素，并获取这些共有元素对应的历史元素特征后，考虑到这些共有元素具有不同的类型，如人物、道具、环境，可能会对待处理提示语的生成效果造成影响，例如第一个提示语中包括人物、道具、环境等历史元素，下个提示语极大可能仍然包含上个提示语的环境历史元素，而相应的人物元素、道具元素极大可能与上个提示语的人物历史元素、道具历史元素不同，所以计算保留图像与历史元素特征之间的元素相似度时需要确认元素类型的侧重点，由此需要计算保留图像分别与不同类型的历史元素特征之间的元素相似度。其中计算元素相似度的方法可以是，先从数据库中保存的识别记录结果中查询到对应保留图像的图像特征，再计算保留图像的图像特征与对应历史元素特征的余弦相似度，作为保留图像与历史元素特征之间的元素相似度。其中，计算余弦相似度的方法与图3I示出的步骤20213类似，这里不再赘述。

在步骤20232中，对保留图像分别与不同类型的历史元素特征之间的元素相似度进行加权求和，得到保留图像与历史元素特征之间的元素相似度。

承接上述实施例，为了体现出保留图像与不同类型历史元素的元素相似度的侧重点，可以根据对应类型的历史元素更新的频率，为每个类型的历史元素的元素相似度设置相应的权重，然后基于对应的权重，对保留图像分别与不同类型的历史元素特征之间的元素相似度进行加权求和，得到保留图像与历史元素特征之间的元素相似度。

示例的，当保留图像与数据库中的历史元素同时存在环境、人物、道具类型时，如森林、人、猫，先计算保留图像的图像特征分别与“森林”特征、“人”特征、“猫”特征的余弦相似度，分别记为a、b、c。此时再确定历史元素更新的频率，发现“森林”这个环境类型的元素在多个待处理提示语中均有出现，所以可设置较大的权重，如0.5。但是“人”和“猫”元素的变化频率高，可能仅在一两个待处理提示语中出现，故可以设置较小的权重，如分别为0.4、0.1。接下来根据“森林、人、猫”分别设置的权重0.5、0.4、0.1对a、b、c进行加权求和处理，得到保留图像与“森林、人、猫”之间的元素相似度，记为“0.5a+0.4b+0.1c”。

当确定保留图像与历史元素特征之间的元素相似度之后，从数据库中查询历史提示语的历史配图的图像特征，也即数据库中第一个提示语对应的最佳生成图像的图像特征，然后基于历史配图的图像特征以及保留图像的图像特征，计算保留图像与历史配图之间的图像相似度，其中，计算图像相似度可以是计算图像特征之间的余弦相似度，而计算余弦相似度的方法与图3D示出的步骤20213类似，这里不再赘述。

继续参见图3H，在步骤2024中，对元素相似度和图像相似度进行加权求和，得到保留图像的融合总分。

针对每个保留图像，确定出保留图像与历史配图的图文相似度、以及保留图像与数据库中的历史元素的元素相似度之后，再将保留图像的图文相似度和元素相似度取平均值，将平均值作为当前保留图像的序列相似度。

然后针对每个保留图像，已在图3H中示出的步骤2021中确定了对应保留图像与待处理提示语之间的图文相似度，通过分别设定对应的权重，例如可以是相同的权重(如0.5、0.5)对保留图像的图文相似度、序列相似度执行加权求和处理，得到保留图像的融合总分。其中权重可以根据保留图像的数量或是待处理提示语的名词元素个数进行相应的调整，并不限定为相同的权重。

在步骤2025中，将最大的融合总分对应的保留图像，确定为待处理提示语的配图。

当确定待处理提示语对应每个保留图像的融合总分后，根据每个保留图像的融合总分对这些保留图像进行排序，得到最终的排序结果，并将排序结果中融合总分最大的保留图像作为对应待处理提示语的配图。然后将该待处理提示语的配图作为新的历史配图保存在数据库中，继续处理下一个待处理提示语，为下个待处理提示语选择对应的配图，直到输入的文本中包含的所有待处理提示语都生成对应的配图。

在一些实施例中，当待处理提示语是用户或计算机程序(即基于人工智能的文本创作程序)输入的一段文本，且待处理提示语是从文本中提取的非首个提示语时，每对一个提示语选择对应的配图都会把该配图作为新的历史配图保存在数据库中，每一个提示语所包含的名词元素也会不同，对于数据库中保存的“人物、道具、环境”三种类型的历史元素，当为后续待处理提示语选择对应配图时，再次出现与数据库中相同的历史元素，会对数据库中的历史元素对应的历史元素特征进行更新。而对于数据库中的历史配图，每处理一个待处理提示语产生对应的配图后，也会对数据库中的历史配图对于的历史图像特征进行更新。考虑到历史提示语与下个提示语的处理次序是相邻的，所以数据库是基于从输入的文本提取的至少一个历史提示语以及历史提示语的对应生成图像和历史配图动态更新的。在一些实施例中，数据库历史元素特征动态更新的方法为：当为后续待处理提示语选择对应配图时，而对应待处理提示语的保留图像再次出现与数据库中相同的历史元素，通过预设对应的权重，将保留图像中出现的名词元素的元素特征、以及数据库中同名的历史元素的历史元素特征进行加权求和，将得到的更新的历史元素特征替代更新前的历史元素特征。考虑到多个待处理提示语所包含的名词元素变化不大，因为可能很多提示语可能都是描述那么有限的几个环境、人物、道具等名词元素，所以数据库中历史元素特征的更新相对较为缓慢，所以对历史元素特征以及当前保留图像的名词元素特征预设的权重相对会比较平衡，例如可以是0.6、0.4。

示例的，当保留图像中出现了“森林、人、猫”等名词元素，而对应的数据中保存的历史元素特征也包括“森林、人、猫”，则将当前保留图像中名词元素特征以0.4的权重加入到数据库中，即“数据库中“森林、人、猫”的历史元素特征*0.6+保留图像中名词元素“森林、人、猫”的元素特征*0.4＝数据库中“森林、人、猫”的新历史元素特征。

在一些实施例中，数据库历史配图特征动态更新的方法为：当为后续待处理提示语选择对应配图时，每处理一个待处理提示语产生对应的配图后，通过预设对应的权重，将保留图像的图像特征、以及数据库中历史配图的图像特征进行加权求和，将得到的更新的历史配图特征替代更新前的历史配图的图像特征。考虑到每个待处理提示语最终都会选出一张融合总分最高的保留图像作为配图，所以数据库中历史配图的更新非常频繁，所以对数据库中历史配图的图像特征的更新相对较快，所以对数据库中的历史配图的图像特征会赋予较高的权重，而对当前保留图像的图像特征会相应赋予较低的权重，例如可以是0.8、0.2。

示例的，当处理一个待处理提示语后，将融合总分最高的保留图像作为对应待处理提示语的配图后，将当前保留图像的图像特征以0.2的权重加入到数据库中，即“数据库中历史配图特征*0.8+保留图像的图像特征*0.2＝数据库中新历史配图特征”。

通过本申请实施例，对输入的文本中的每个提示语的生成图像进行序列处理，通过构建动态更新的数据库作为参考，来约束提示语对应保留图像的选图，为每个对应的提示语选择最优的配图，从而实现了对生成结果进行相关元素一致性的重排序，得到最终的序列图排序结果。因此可以保证每个提示语生成的对应配图前后具有一致性，从而提高提示语对应的配图的关联性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例可以应用在武侠小说插画生成场景中，用于辅助小说用户对输入的小说文本生成对应的插画。在基于图像生成模型对武侠小说连续语句生成连续插图的任务中，需要对连续多个语句生成图像。连续性插图任务的最大挑战是需要保持上下文图像的一致性，即新生成图像需要与上一张生成图像的内容相关关联。其次，武侠小说中常出现一个语句中有很多分句，而每个分句描述内容不同，导致同一语句可以产生多张内容完全不同的生成图像，输出不恰当的生成图像容易导致最终产生的插图效果不佳。

基于此场景，本申请实施例针对小说连续语句生成插图，基于图像生成模型文生图、以及对图像和文本内容进行挖掘，进而进行自适应小说序列插图生成、调整，形成一套闭环的连续语句插图系统。在初次对语句生成图像的序列下，根据文本描述与生成图、系统通过文本可生成性识别模型联合生成图像分布情况、自动识别出那些插图质量不佳的语句并给出处理反馈，然后通过后续删除、保留、拆解等二次处理可自动进行有效的生成点位增删控制，最终形成连续插图生成闭环系统。

参见图4，图4是本申请实施例提供的连续插图生成闭环系统的原理图，闭环系统先对小说剧本中各语句(如图4中的语句1、2、3)输入到图像生成模型中，每个语句会生成K张图(如10张)，根据生成结果序列处理反馈选取每个语句的最佳生成图像，并执行生成图像的不恰当语句识别，也即根据生成图像以及生成语句，识别出符合上述不恰当语句条件的语句，以作为“生成图像的不恰当语句”，简称为不恰当语句，并针对不恰当语句进行二次处理，具体包括删除、保留、拆解，如语句1保留，语句2拆解为2-1、2-2、2-3，语句3删除，然后对需要二次生成的语句调用图像生成模型执行图像生成，然后执行生成图像序列处理，得到最终序列图。

例如，闭环系统中的识别生成图像的不恰当语句、对语句进行二次拆解后再生成图像、对生成图像序列处理等操作步骤可进行多次循环，例如，从复杂句拆解为子句、再对子句继续拆解为多个主谓结构的下级子句等，直到拆解的语句中没有生成图像不恰当的语句。

在一些示例中，如图4所示，根据闭环系统的原理，对其中一段语句(如语句3)“少年把一块木牌插在土堆前，握拳连敲几下把木牌深深敲进了土里”执行生成图像不当语句识别，从而将该语句识别为简单句不当，则执行删除语句3。而针对另一段语句(如语句2)“山下的小酒店，两个人到的时候已经快天明了，那个少年也不管三七二十一，把老板从被窝里吵醒，扔出一锭大银，要了山鸡蘑菇汤”执行生成图像不当语句识别，从而将该语句识别为复杂句不当，则需要对语句进行拆解，也即将语句2拆解为3个子句，接下来调用图像生成模型对3个子句生成图像，并执行生成图像序列处理，得到最终序列图。

示例的，参见图5，图5是本申请实施例提供的原始语句进行图像生成的示例图，针对图4中所示的语句2“山下的小酒店，两个人到的时候已经快天明了，那个少年也不管三七二十一，把老板从被窝里吵醒，扔出一锭大银，要了山鸡蘑菇汤”，直接根据原始语句调用图像生成模型生成图像，如图5所示，可以明显看出图像上只出现了语句2中描述的元素“山下的小酒店”，其他部分的描述元素则都没有出现。此时，根据图4中所示的闭环系统对原始的语句2执行生成图像不当语句识别，从而将原始的语句2识别为“复杂句不当”，需要对原始的语句2进行二次语句拆解，具体则拆解为以下三个子句：“山下的小酒店”、“两个人到的时候已经快天明”、“那个少年要山鸡蘑菇汤”，再将三个子句分别经过图像生成模型进行二次生成，并对三个子句二次生成的所有生成图像执行生成结果序列处理，获得对应三个生成图像。

参见图6，图6是本申请实施例提供的语句拆解后二次生成图像的序列图，如图6所示，三个图像分别都对应出现了原始语句2拆解的三个子句中所有的描述元素，然后对三个图像执行序列处理，也即将三个生成图像进行融合得到语句拆解后形成的序列图，将序列图作为原始语句2的最终序列图。

此外，闭环系统还能提升每个生成图像的前后帧关系，也即生成图像之间的序列关联性。参见图7，图7是本申请实施例提供的原始生成图像序列的示意图，首先针对第一个描述语句：“小太刀闪着月白的寒芒，大汗淋漓的女孩子吓得大喊一声”，通过执行单图生成排序，也即根据描述语句生成多个生成图像，然后根据评价指标对多个生成图像进行排序，选出最佳的图像，如图7中左边第一张图像。接下来针对第二个描述语句：“藏蓝色剑士服的女孩子回过头来，看着地下破碎的枫叶，满脸落寞”，使用同样的方法生成多个生成图像后，选出最佳的图像，如图7右边第二张图像，可以看出两张图像中出现人物服装不一致，说明两个生成图像之间的前后帧关系较差，不具有关联性。

参见图8，图8是本申请实施例提供的序列关联的生成图像示意图，根据本申请实施例提供的方法，针对第一个描述语句“小太刀闪着月白的寒芒，汗淋漓的女孩子吓得大喊一声”，执行单图生成排序选出最佳生成图像，如图8左边第一张图像。针对第二个描述语句“藏蓝色剑士服的女孩子回过头来，看着地下破碎的枫叶，满脸落寞”，执行单图生成排序得到生成图像后，再执行(图像)序列生成排序，选择与第二个描述语句更相似、同时与第一个描述语句的生成图像中人物、元素相关联的序列最佳图像，具体如图8右边第二张图像。通过对比图7中的两张图像组成的序列图以及图8中的两张图像组成的序列图，相较于前者，后者的前后帧关系较强，也即生成图像之间的序列关联性较高。

下面将继续结合图4来说明连续插图生成闭环系统的具体实现过程。

如图4所示，针对小说的多个描述语句(如语句1、语句2、语句3)，需要调用图像生成模型对描述语句进行处理以生成多图像。考虑到图像生成模型是由特定的图文对训练得到的，故在不同的文字环境下不同语句生成效果差异较大，如稳定扩散模型(Stable-Diffusion)，模型的训练图像包括艺术作品、网站上分享上的照片等。

在一些实施例中，为了满足小说在指定题材类型下生成图像的需要，作为图像生成模型的稳定扩散模型需要经过微调，用于训练图像生成模型根据输入的题材类型的文本内容生成对应题材类型的生成图像。图像生成模型的训练样本可以从影视剧中进行收集，具体为，给定一些题材类型影视剧，例如可以是武侠题材、历史题材等，从这些题材的影视剧中随机进行抽帧得到相关的图像，一共从影视剧中抽取100张图像作为图像生成模型的训练图像。同时，还需收集用于指导图像生成模型微调的提示语文本，这些提示语文本同样也是来自于对应题材类型的影视剧中，如武侠题材或是历史题材。

参见图9，图9是本申请实施例提供的图像生成模型架构的一个示例图，对于提示语文本，采用基于图文对训练的跨模态表征模型对提示语文本进行特征提取，其中跨模态表征模型可以为CLIP模型。CLIP模型的输入为图像和文本组成的样本对，具体架构为文本分支和图像分支，其中文本分支是一个文本编码器，具体可以为变换器编码器(Transformer)结构，用于对输入的文本执行编码处理，得到对应的文本特征。

如图9所示，图像生成模型的主要结构包括三部分，第一部分为像素空间，像素空间包括处于像素空间的变分自编码器(Variational AutoEncoder，VAE)，第二部分为潜在空间，潜在空间包括处于潜在空间的扩散模型(Diffusers)，以及处于潜在空间的降噪的U-Net模型(Denoising U-Net)，第三部分为训练模块，训练样本示例性的输出了语义图、文本、表征、图像。

图像生成模型的初始输入为训练图像，将每一张训练图像x输入到变分自编码器的编码网络ε中执行编码处理，也称为嵌入处理(Embedding)，得到对应的编码特征Z。然后将编码特征Z映射到潜在空间，利用扩散模型执行加噪处理，也即图9所示的扩散过程。在经过T个时间步长的扩散加噪处理最终得到噪声隐空间特征Z_T，其中潜在空间的扩散加噪处理的具体过程为：对于编码特征Z，执行扩散模型的前向扩散处理步骤，随着时间步长T变大，在编码特征Z不断增加随机噪声，最终得到完全随机噪声的隐空间特征Z_T。

接下来将隐空间特征Z_T输入到用于降噪的U-Net模型(即图9中所示的ε_θ)执行降噪处理，希望通过降噪过程还原到图像的特征。针对收集的影视剧图像对应的文本，利用CLIP模型文本分支的文本编码器(如图9中的τ_θ)进行编码处理可以得到对应的文本特征，文本特征经由转换模块输入到U-Net模型，其中转换模块为一个控制器。

在一些实施例中，文本特征作为U-Net模型的输入有两种方法，方法的选择可以通过转换模块实现，其一为将文本特征与隐空间特征Z_T进行拼接(如图9所示的拼接)，得到拼接后的融合特征后再作为U-Net模型的初始输入。其二为先将隐空间特征Z_T作为U-Net模型的初始输入，再将文本特征分别与U-Net模型的每个采样层中的元素输入进行拼接，作为对应采样层的最终输入。本申请实施例以第二种方法来说明U-Net模型的降噪过程，即先将隐空间特征Z_T作为U-Net模型的初始输入，再将文本特征分别与U-Net模型的每个采样层中的元素输入进行拼接，作为对应采样层的最终输入，由此便将文本特征融入到图像特征中。U-Net模型分为下采样部分和上采样层部分，两部分均由若干个采样层组成，且两部分的采样层相对应，每个采样层均为交叉注意力模块(QKV模块)。其中交叉注意力模块之间的输入和输出由跳跃连接模块进行连接。在降噪的过程中利用文本特征注意力的约束，可以使得最终的生成图像包含文本特征的效果，使得生成图像的题材类型与提示语文本的题材类型相同。

示例的，如图9所示，U-Net模型右到左共有4个QKV模块，右边2个为下采样部分，左边2个为上采样部分。由此从右到左，第1个QKV模块与第4个QKV模块对应，第2个QKV模块与第3个QKV模块对应。U-Net模型训练时，第1个QKV模块的输出除了输入到第2个QKV模块，还通过跳跃连接关联到第4个QKV模块的输出。具体操作是将第1个QKV模块的输出与第4个QKV模块的输出首尾拼接作为第4个QKV模块的最终输出。同时，第2个QKV模块的输出既是第3个QKV模块的输入，也通过跳跃连接与第3个QKV模块的输出进行拼接作为第3个QKV模块的最终输出。由此完成U-Net模型一个时间步长的降噪过程。

如图9所示，文本特征与隐空间特征Z_T拼接的融合特征经过U-Net模型的第4个QKV模块输出得到隐空间特征Z_T-1，也即上述过程经过了一个时间步长，随后再重复执行以上降噪过程T-1次，也即图9所示的x(T-1)，其中x表示降噪执行次数。由此总共经过U-Net模型的T次降噪过程，最终得到还原后的编码特征Z，然后将还原后的编码特征Z，输入到变分自编码器的解码网络D中执行解码处理，得到还原图像

图像生成模型微调的目的为了训练与武侠小说插画相关的风格，在图像生成模型的微调过程中，只有第三部分处于潜在空间的用于降噪的U-Net模型的参数需要训练，其他的变分自编码器和对图像、文本进行编码处理的CLIP模型参数都是训练好的，在图像生成模型训练过程不需要更新。在图像生成模型的训练过程中，将所有的微调训练图像作为全量样本都输入到图像生成模型训练，一共进行1000轮迭代(steps)，训练一次称为一轮迭代。

在每一轮迭代中，由于训练机器的显存资源有限，不能把全量样本一次性输入到图像生成模型中进行训练，故对所有样本分批次(batch)训练，每bs个样本做一个批次，输入到图像生成模型进行训练。

在一些实施例中，图像生成模型的微调过程的损失函数采用均方误差(MeanSquare Error，MSE)损失，也即计算还原图像与原加入噪声分布的训练图像的MSE损失，具体表示为输入噪声的微调训练图像和输出噪声预测图像的还原图像的均方误差，公式如下：

上述公式(2)中，y_i表示图像的第i个像素点的像素值，y_i ^p表示图像的第i个像素点的预测像素值，n为全量样本个数。

根据每一轮迭代的损失值，利用随机梯度下降算法回传到图像生成模型中的U-Net模型，更新待训练的U-Net模型参数。

在一些实施例中，图像生成模型训练时，第二部分的扩散模型(Diffusers)的过程可以采用dreambooth微调的过程，其中，dreambooth为扩散模型文生图训练的一个框架。训练时在框架上需要指定“instance_dir”和“instance_prompt”两项，其中，instance_dir为实例数据路径，也即微调训练图像所在目录，instance_prompt为设置为需要训练的题材或风格类别，如武侠风格、或是历史风格，因此instance_prompt项设置为“wuxia style”即可。

当完成所有N/bs个批次训练后，结束一轮迭代。训练过程中初始采用0.0005的学习率，每10轮迭代后学习率变为原来的0.1倍，根据损失函数是否有下降决定是否继续训练，当损失值不再下降或当达到指定迭代轮数时结束训练，例如迭代次数达到1000轮，由此图像生成模型的微调过程介绍完毕。

图像生成模型微调完毕可以用于预测，直接根据输入的具有特定题材类型的文本以及随机噪声图或是随机噪声图的编码特征，生成与文本类型具有相同题材类型的生成图像。

继续参见图4，当向闭环系统中输入小说剧本中的语句1、语句2、语句3后，调用上述经过微调的图像生成模型来生成对应的生成图像。在生成图像的过程中可以指定生成图像的个数，例如每个语句固定生成10张生成图像。然后对每个语句生成的10张生成图像执行生成结果序列处理，并选取每个语句的最佳生成图像。

在一些实施例中，对生成图像执行生成结果序列处理可以先对每个语句生成图像执行相关性评价，也即对图文相似度进行评价，然后再对生成图像执行序列相关性评价，其中，对生成图像进行相关性评价是确定语句与生成图像相似度指标，用于表征语句的语义信息呈现在图像上的程度。

参见图10，图10是本申请实施例提供的生成图像相关性评价的过程图，首先根据输入语句和对应的生成图像，调用CLIP模型对输入语句执行编码处理，得到输入语句的CLIP文本特征以及生成图像的CLIP图像特征，然后计算输入语句的CLIP文本特征与生成图像的CLIP图像特征的相似度，从而对输入语句与生成图像进行相似度评价。

具体的，对输入语句与多个生成图像进行相似度评价的具体过程如下：

(1)针对待处理的提示语(也即输入语句)，提取出提示语中的关键元素，具体是保留提示语的名词元素(如实体名词)，去除其中的形容词和副词。

(2)利用CLIP模型提取每个生成图像的图像特征。

(3)利用CLIP模型提取提示语中各个名词元素的文本特征，例如提示语为“一个人带着一只温和的猫和一条狗”，去除掉其中的形容词“温和的”，则从该提示语提取出“猫狗人”3个关键元素，所以共保留有3个名词元素(特征)，此处称为提示语元素特征。

(4)对某个提示语元素特征，分别计算所有的生成图像特征与提示语元素特征的余弦相似度，并将余弦相似度作为相似度指标返回，其中，计算余弦相似度的公式如下：

上述公式(3)中，similarity表示余弦相似度，θ表示余弦相似度的余弦角度，A表示生成图像的图像特征，B表示提示语元素特征，A_i表示第i个生成图像的图像特征，B_i表示第i个提示语元素特征。

确定输入语句的提示语元素特征与每个生成图像的相似度指标后，就可以根据相似度指标对所有的生成图像进行排序，将相似度指标最高的一个生成图像作为输入语句的最佳图像。

而针对多个输入语句，则需要保证多个输入语句的生成图像的一致性，所以需要对多个输入语句的生成图像进行序列相关性评价，其中序列相关性的具体评价过程可参见图11，图11是本申请实施例提供的对生成图像进行序列相关性评价的原理图，下面将结合图11说明序列相关性评价的具体过程。

(1)针对小说某描述语句，其中包含有多个提示语，可以对其中每个提示语进行拆解，以对其中所包含的名词元素进行识别，识别是否为人物、道具、环境等元素类型，若是则记录该名词元素保存在序列元素库中，序列元素库的记录格式可以为“[提示语标识(ID)、图标识、元素类别-元素标识-元素名称-元素在图中是否出现]”，例如“第i个提示语、第j个图，道具-元素1-猫-出现、道具-元素2-狗-出现、人物-元素1-人-出现”。

记录提示语中的每个名词元素是否出现的目的是为后续提示语进行序列判断提供标准。其中，对人物、道具、环境的识别，可以用业务现成跨模态多标签模型(或已经预训练好的跨模态模型(如CLIP模型)加上多标签分类器)识别，跨模态模型有两个输入分支分别是图像分支和文字分支，模型既可以输入图像、文本的联合特征，也可以只输入图像或文本特征，输出如刀、剑、马等标签。

(2)参见图11，先对小说某描述语句的第一个提示语，调用图像生成模型对提示语进行模型处理，生成多图像，然后对提示语的这些生成图像执行图文相似度评价并确定提示语与每个生成图像的相似度指标，也即对生成图像的图像相关度进行打分。再根据相似度指标从这些生成图像中选择相似度指标最高的1张图像，作为第一个提示语的最佳生成图像，序号为记为j。然后将该最佳生成图像与第一个提示语的名词元素关联也保存在序列元素库中，同时将第一个提示语的名词元素作为历史元素，记录历史元素的特征也保存到序列元素库中。其中，序列元素库中的关联格式可以为：道具-元素1-猫-[提示语标识-图标识-图特征]，道具-元素2-狗-[提示语标识-图标识-图特征]，人物-元素3-人-[提示语标识-图标识-图特征]。而历史元素的特征保存格式可以为：元素1-历史元素-[提示语标识-图标识-历史元素特征]。

对第一个提示语获取到最佳生成图像后，将第一个提示语的最佳生成图像作为历史图像保存在序列元素库中，其中历史图像的记录格式为“历史图像-元-[提示语-图标识-元素类别-图特征]”。

(3)针对第二个提示语，同样调用图像生成模型进行模型处理生成多图像，

然后对第二个提示语的生成图像进行相似度评价后按相似度指标大小进行排序，然后可以预设一个相似度指标阈值进行筛选，若没有相似度指标大于指标阈值的生成图像则说明该提示语不适配图像，当相似度指标大于指标阈值的生成图像确定为保留图像。接下来针对每一个保留图像，执行元素信息查找，也即根据序列元素库中对提示语的名词元素识别结果，确定各保留图像的名词元素出现情况。

参见图11，针对第二个提示语的保留图像执行元素信息查找后，如果确定第二个提示语出现了名词元素,当对应的保留图像出现第二个提示语中的名词元素时，则查询序列元素库中保存的历史元素(第一个提示语的名词元素)中是否有该名词元素。如果有，则基于保留图像对各元素累计相关性打分。当查询到序列元素库中都不存在这些名词元素则跳过。

在一些实施例中，基于保留图像对各元素累计相关性打分的过程为：当序列元素库中存在这些名词元素时，首先获取序列元素库中该历史元素的特征，然后根据历史元素的类型设置对应的权重，分别计算每种元素类型(环境、人物、道具)的历史元素特征与当前图像(保留图像)的图文相似度，再基于权重对每种元素类型的相似度进行加权求和处理，得到保留图像的元素相似度。

示例的，根据历史元素的类型(环境、人物、道具)设置对应的权重为0.5、0.4、0.1，当不存在对应类型的历史元素，则对应类型权重设置为1，此时保留图像与每种类型(环境、人物、道具)历史元素特征的相似度分别为a、b、c，则最终保留图像的元素相似度为“0.5a+0.4b+0.1c”。

(4)确定保留图像的元素相似度后，再根据序列元素库中历史元素与最佳生成图像(历史图像)的关联，查找到对应的最佳生成图像的特征，然后计算当前保留图像与历史图像的相似度，作为历史图相似度。也即计算上一个提示语产生的最佳图像(历史图像)的图像特征与当前图像(第二个提示语的保留图像)的相似度。

(5)参见图11，基于保留图像对各元素累计相关性打分后，针对每个保留图像执行打分融合重排序，首先将保留图像的所有相似度(元素相似度、历史图相似度)求平均得到当前保留图像的序列相似度，由此确定提示语的每个保留图像的序列相似度。

(6)针对每个保留图像，分别设置对应的序列相似度权重和元素相似度权重(如0.5、0.5)对保留图像的图文相似度、序列相似度执行加权求和处理，得到保留图像的融合总分，并计算第二提示语所有的保留图像的融合总分，根据融合总分重排序这些保留图像，得到最终的排序结果返回。然后从保留图像的排序结果中进行选图，也即将排序结果中融合总分最大的保留图像作为对应第一个提示语的配图。然后将第二个提示语的配图作为新的历史图像保存在序列元素库中。

(7)参见图11，每对小说某描述语句中的一个提示语进行选图后，就需要更新序列元素库，以用于处理小说某描述语句中的下一个提示语。之所以更新序列元素库，是因为每次对一个提示语进行选图后，都会可能产生对应新的名词元素或者新的配图，分别作为历史元素特征以及历史图像保存在序列元素库中，所以序列元素库是动态进行更新的。

具体的，序列元素库的更新思路是：对于序列元素库里道具、人物、环境中的每个(名词)元素，当后续再次出现相同的名词元素，则采用动量更新策略更新库存里该名词元素的特征，对于序列元素库里的历史图像，每处理一个提示语产生一个新的最佳图像作为配图，都用动量更新方法把新的最佳图像的信息更新到序列元素库的历史图像特征中。

其中，动量更新序列元素库的具体更新公式可以是：“new_feat＝old_feat*w1+new_image_feat*(1-w1)”，也即“序列元素库中历史元素新特征＝序列元素中历史元素特征*权重+当前新图像特征*(1-权重)”。

通过预设对应的权重，可以将当前最佳图像的名词元素特征或图像特征以对应的权重融入到序列元素库中。考虑到历史图像更新非常频繁而历史元素的更新相对缓慢，针对序列元素库中的历史元素，可以设置较为均衡的权重，例如0.6、0.4，则序列元素库中历史元素特征*0.6+最佳图像中与历史元素特征同名的名词元素特征*0.4＝序列元素库中历史元素新特征。

示例的：序列元素库中(人)历史元素特征*0.6+当前保留图像(最佳图像)中(人)元素特征*0.4＝序列元素库中(人)元素新特征。

针对序列元素库中的历史图像，考虑到每个提示语最终都会选出一张融合总分最高的保留图像(最佳图像)作为配图，所以数据库中历史图像的更新非常频繁，所以对序列元素库中历史图像的图像特征的更新相对较快，所以对序列元素库中的历史图像的图像特征会赋予较高的权重，而对当前保留图像的图像特征会相应赋予较低的权重，例如可以是0.8、0.2。

示例的，当处理一个提示语后，将融合总分最高的保留图像作为对应提示语的配图后，将当前保留图像的图像特征以0.2的权重加入到数据库中，即“序列元素库中历史图像特征*0.8+保留图像的图像特征*0.2＝序列元素库中新历史图像特征”。

(8)对某小说描述语句中的第二个提示语选择对应的配图并更新序列元素库后，继续对某小说描述语句中的第三个提示语执行上述步骤(2)至步骤(7)进行序列选图，直到小说某描述语句中所有的提示语都产生对应的配图，得到描述的序列选图结果。

通过本申请实施例，对用户输入的文本中的每个提示语的生成图像进行序列处理，构建历史生成的序列元素库，对提示语的生成图像执行序列相关性评价再进行重排序选图，避免前后结果不一致。经过零样本去噪构建的序列元素库作为参考，对生成结果进行相关元素一致性的重排序得到最终的排序结果。这种细粒度选图方法更有针对性，有利于小说描述语句中元素的呈现，区分于一般基于嵌入相似度采用图像粗粒度特征选图，本申请实施例设计了元素粒度的细粒度选图算法，实现了提示语中各名词元素、对生成图像进行更细致的评价。

继续参见图4，对分别对语句1、语句2、语句3的对应生成图像执行生成结果序列处理后，即可得到每个语句对应的最佳图像。由于图像与文本的环境差异，故并非所有文本都可正常生成图像，如语句“更夫敲梆子走过”中的描述元素“梆子”、“他手里把玩着两颗红豆”中的描述元素“把玩”等。

针对输入语句中一些不适合生成配图的文本，例如中文环境中，比喻句、排比句、助词等描述手法以及种类繁多的动作是难以在图像画面中完美展现的，本申请实施例通过收集相关数据训练一个语句可生成性识别模型用于对输入语句是否适合生成进行识别。参见图12，图12是本申请实施例提供的识别生成结果不恰当语句的过程图，针对输入语句，先对输入语句的生成图像执行图像评价，其中图像评价的过程也即对输入语句和生成图像的相似度进行评价的过程，具体的评价过程可参见图10，这里不再赘述。接下来调用语句可生成性识别模型用于对输入语句是否适合生成进行识别。

语句可生成性识别模型用于判断某个语句是否适合图像生成模型生成图像，

在一些实施例中，可以训练一个文本分类模型作为语句可生成性识别模型，其中，文本分类模型用于判断某个文本是否适合图像生成模型来生成图像，而判断一个文本是否适合利用图像生成模型生成图像，则需要确定该文本是否可以利用图像生成模型产生可标注数据。

具体的，文本分类模型训练需要准备文本素材作为训练样本，首先收集所有小说文本，对所有小说文本进行句子级别拆分，包括句号级别拆分为S₁个句子，逗号级别拆分为S₂个句子，由此一共可得到S₃个文本，其中S₃为S₁与S₂的加和。针对S₃个文本，将这些文本输入到图像生成模型中生成对应的生成图像，每个文本在不同的随机种子(随机种子用于控制图像生成模型根据文本的题材风格生成对应题材风格图像的生成过程)下生成10张生成图像，由此一共可以得到10*S₃张生成图像。接下来对这些生成图像添加两个标注，其中，标注1用于表征生成图像的描述内容与文本描述内容的相符程度，标注2用于表征文本是否为动作描述文本，下面具体说明。

对于标注1，针对S₃个文本，对每个文本的10张生成图像进行评价。具体为，在对应文本的10张生成图像中，如有3张或者3张以上生成图像的描述内容与文本描述的内容相符，则将该文本标记为2，表示该文本适合图像生成模型来生成图像。如有1至2张生成图像的描述内容与文本描述的内容相符，则将该文本标记为1，如没有与文本描述的内容相符的生成图像，则将该文本标记为0。

在一些实施例中，判断生成图像的描述内容与文本描述的内容是否相符的标准是：文本中描述的具体物体或元素(不包括抽象物体或元素)都有出现，或者当文本描述的具体物体或元素出现超过5个，有90％数量的物体或元素出现。

示例的，如一段文本“衣服漆黑如墨”中的描述元素“墨”为抽象物体，生成图像中出现黑色的衣服即可认为是与文本的描述物体相符。又如一段文本“这个男人拉着箱子走进巷子，在水果摊旁的一辆士边上停下，隔着的士半开的车窗与司机对话”中，出现了“男人、箱子、巷子、水果摊、的士、车窗、司机”一共7个元素，则生成图像中需要出现其中6(即7*90％)个元素才认为是与文本的描述元素相符。

对于标注2，直接判断这S₃个文本中每个文本是否为动作描述文本，如果是动作描述文本则将该文本标记为1，否则标记为0。

在一些实施例中，判断一个文本是否为动作描述文本的判断标准是：该文本(语句)是否是由多个子文本(子句)共同来描述一件事或者一个场景。

示例的，如一段文本“他干枯的左手食指和拇指捏着棉线的一头，对着灯影照耀下小小的针眼，慢慢伸出棉线头，一次没对准、第二次棉线头歪了、第三次棉线头的小分叉挡住了针眼，他试了一次又一次，最后放弃了”，可以看出该文本采用了多个子文本来共同描述一个场景，所以可以判定该文本为动作描述文本。

通过上述过程，针对S₃个文本，每个文本都生成了标注1以及标注2。这些带有标注的文本即可作为训练样本对文本分类模型进行训练，其中，文本分类模型包含两个文本分类器，分别用于识别文本内容是否适合生成配图、是否为动作描述文本。

在一些实施例中，两个文本分类器可以采用卷积神经网络和多分类预测层实现，首先将所有的携带标注1与标注2训练样本输入到BERT模型中进行编码处理，从而得到每个训练样本的文本编码特征，然后将所有训练样本的文本编码特征输入到两层卷积核为1*1的卷积神经网络中执行卷积处理，再将得到的卷积特征输入到多分类预测层进行预测。

两个文本分类器的结构分别如表1、表2所示：

表1

Layer name	Output size	Module
			Input Layer	1x512	1x1 conv layer
Fusion Layer	1x1024	1x1 conv layer
			Class1	1x3	1x1 conv layer

表2

Layer name	Output size	Module
			Input Layer	1x512	1x1 conv layer
Fusion Layer	1x1024	1x1 conv layer
			Class2	1x2	1x1 conv layer

由以上两个表可知，模型的第一层为输入层，具体结构为两个卷积核为1*1的卷积神经网络，将训练样本的文本特征输入到模型的输入层执行卷积处理后，输出两个大小为1*512的卷积文本特征，然后将输出的两个文本特征继续输入到模型的第二层(融合层)执行卷积处理，输出一个大小为1*1024的卷积文本特征，其中融合层的具体结构为一个卷积核为1*1的卷积神经网络。接下来将大小为1*1024的卷积文本特征输入到多分类预测层进行预测，其中预测层的激活函数为softmax函数，并将预测层中softmax函数输出的预测值映射为独热编码(One-hot)形式进行输出，也即输出两个分类预测结果，分别如表中所示的Class1和Class2。

由于识别文本是否适合生成配图是根据该文本生成的图像描述内容与文本描述内容的相符程度来判定的，对应着标注1，而标注1的标注值为“0、1、2”三种，所以文本分类器针对训练样本中标注1的预测值(即上表中的Class1)为三分类，输出大小为1*3的三位独热编码。同样的，识别文本是否为动作描述语句是判定是否是由多个子文本(子句)共同来描述一件事或者一个场景，对应着标注2、而标注2的标注值只有“0、1”两种，所以文本分类器针对训练样本中标注2的预测值(即上表中Class2)为二分类，输出大小为1*2的两位独热编码。

示例的，某个训练样本输出Class1的预测结果为标注值0，则说明输出的Class1中独热编码第一位的预测值大于0.5，而第二位、第三位预测的预测值很小，则预测层softmax函数最终输出的分类结果可以表示为“100”，同样的，当某个训练样本输出Class1的预测结果为标注值1时，则说明输出的Class1中独热编码第二位的预测值大于0.5，而第一位、第三位的预测值很小，则预测层softmax函数最终输出的分类结果可以表示为“010”，当某个训练样本输出Class1的预测结果为标注值2时，则说明输出的Class1中独热编码第三位的预测值大于0.5，而第二位、第三位的预测值很小，则预测层softmax函数最终输出的分类结果可以表示为“001”。与此同时，某个训练样本输出Class2的预测结果为标注0，则预测层softmax函数最终输出的分类结果可以表示为“10”，当某个训练样本输出Class2的预测结果为标注1，则预测层softmax函数最终输出的分类结果可以表示为“01”。

在一些实施例中，将所有的训练样本输入到文本分类器进行训练，训练过程一共进行60次迭代，在每一轮迭代中，由于训练机器的显存资源有限，不能把所有的训练样本一次性输入到文本分类器中进行训练，故对所有训练样本分批次(batch)训练，每bs个样本(batch_size)做一个批次进行输入，以更新文本分类器的参数。具体为每个迭代共进行G/bs(G为训练样本总数)次文本分类器的参数更新，即每次从G个训练样本中不重复采用bs个训练样本进行训练预测，然后计算两个分类交叉熵损失函数(cross entropy)，即对每个训练样本计算分类损失后，再将所有训练样本的分类损失求平均值，即可得到每个batch的分类损失，再将损失函数采用随机梯度下降算法回传到文本分类器的网络中，更新网络的参数。

其中，分类交叉熵损失函数表示如下：

上述公式(4)中，p_ic表示训练样本i的预测结果属于c分类的预测概率，y_ic表示样本i的预测标注值是否为c，如果是c，则y_ic＝1，否则为0，N表示每次模型更新时的样本数据，也即batch_size，M为预测分类数，如果是三分类预测，则M为3。

继续参见图12，语句可生成性识别模型训练完毕后即可用于预测，也即对输入语句进行识别，以判断当前输入语句是否为生成图像不恰当语句，需要删除生成不当语句、生成不当复杂句进行子句拆解等进一步处理操作。其中，调用语句可生成性识别模型对输入语句进行识别的过程包括两次判断过程，即初次判断和进一步判断，下面具体说明。

首先是初步判断，将输入语句输入到语句可生成性识别模型进行识别，由此模型可以对这些输入语句进行三分类，得到每个输入语句的分类预测值(可生成性预测值)，即0、1、2，对应着训练语句可生成性识别模型时的标注1，用于表征输入语句适合生成配图的程度。同时，语句可生成性识别模型还会预测输入语句是否为动作描述语句，得到对应的动作预测值，即0、1，对应着训练语句生成性识别模型的标注2，用于表征输入语句是否为动作描述语句。

在一些实施例中，语句可识别性模型的初步判断标准为：当输入语句的可生成性预测值为0、1时，则判断输入语句不可生成图像，则删除该输入语句。当输入语句的可生成性预测值为2且对应动作预测值为1时，则判断输入语句的生成失败率高，也需要删除该输入语句，当输入语句的可生成性预测值为2、动作预测值为0时，且输入语句中含有多个子句时则判断输入语句需要进行进一步处理，即执行子句拆解。

参见图12，考虑到中文环境中有很多句子都含有多个可经过逗号拆分的子句，故输入语句中将有大量语句需要进行子句拆解，而拆解的句子中有些连续子句描述的内容是相似的不需要拆解，例如语句“松林连绵不绝，大片墨绿的松树延伸向天边”，经过初步判断后，虽然可拆分成2个子句，但是拆分后的两子句所描述的内容相同，即使生成图像也可能是相同的，这样的语句实际上不需要二次拆解。故对于某些输入语句上述初步判断的结果，需要经过进一步判断，也即对输入语句中拆解的子句执行子句可生成性识别。

在一些实施例中，对输入语句中拆解的子句进行进一步判断的具体过程如下：

(1)输入语句经过初步判断后，拆解为多个子句，调用可生成性识别模型对每个拆解的子句进行可生成性识别，从而获取到每个子句的分类预测值(可生成性预测值)，保留可生成性预测值为2的子句，记作可生成性子句。

示例的，对原始输入语句进行初步判断后，拆分为10个子句，然后调用可生成性识别模型分别对这10个拆解的子句进行可生成性识别，获取到每个子句的可生成性预测值，然后保留可生成性预测值为2的子句，记作可生成性子句，如有5个可生成性预测值为2的子句，则确定出5个可生成性子句。

(2)将每个可生成性子句，记作i，然后从输入语句调用图像生成模型中生成的所有生成图像中，计算与可生成性子句i的相似度，其中计算可生成性子句i与每个生成图像的相似度的过程可参见图8，这里不再赘述，由此可得到可生成性子句i与每个生成图像的相似度指标，接下来判断最大的相似度指标是否大于相似度指标阈值(记作thr₁)，当最大的相似度指标大于相似度指标阈值thr₁，将最大相似度指标对应的生成图像保留下来，记作j，与可生成性子句i进行匹配，得到图文对，记作(i，j)。

承接上述示例，对这5个可生成性子句中每个一个子句，分别与输入语句生成的所有生成图像(如10张)计算(余弦)相似度，由此每个可生成性子句可以得到10个相似度指标，然后判断10个相似度指标中最大的是否大于相似度阈值thr₁，如果大于则将最大的相似度指标对应的生成图像与可生成性子句对应起来得到图文对，如果不大于，说明这10个相似度指标都小于相似度度阈值thr₁，则该可生成性子句无法找到对应的生成图像。

(3)根据步骤(2)，所有的可生成性子句i都可以在满足相似度指标阈值thr₁的条件下得到多个图文对(i，j)。

承接上述示例，5个可生成性子句都从输入语句的所有生成图像中寻找对应的图文对后，最终只有4个可生成性子句找到对应的生成图像，对应着4个生成图像，也即共有4个图文对。

(4)对这些图文对(i，j)中对应的生成图像进行方差计算，方差用于表征多个图像的特征相似度，比较生成图像的相似度就是比较生成图像的方差的接近程度，方差差值越小图像越相似，当方差大于方差阈值thr₂，则说明这些生成图像对应的可生成性子句的差异性极大，需要进一步进行拆解生成。

示例的，参见图13，图13为本申请实施例提供的确定生成图像差异性的示例图，针对4个图文对，其中4个可执行性子句具体描述为“两个人走了好久，当到达山下小酒店时已经快清晨，他们摇醒了门边的掌柜，那个红衣少年朝掌柜亮出手中的剑”，对应的4个生成图像如图13所示，通过对这4个图像执行方差计算，发现方差大于方差阈值，且生成图像的表示内容各不相同，则最终确定出该输入语句需要拆解生成。

在一些实施例中，计算多个生成图像的方差的方法可以是先计算每个生成图像的方差，然后再确定多个生成图像的总方差。计算过程具体为：首先对每个生成图像进行灰度处理，得到灰度图，针对每个生成图像的灰度图分别依次计算生成图像每行像素点的灰度值的平均值，并记录每行像素点的灰度值的平均值，然后对得到的所有平均值进行方差计算，得到的方差结果就是生成图像的特征值。每个生成图像都计算一个特征值(方差)之后再进行互相比较，确认其中任意两个生成图像的方差差值，将方差差值最大的一个作为多个生成图像的总方差。

在一些实施例中，计算多个生成图像的方差的方法还可以是直接计算多个图像的方差，具体计算过程为：首先对每个生成图像进行灰度处理，得到灰度图，确定每个灰度图的所有像素点灰度值的加和，然后直接计算这些灰度值加和的方差，作为多个生成图像的方差。

在一些实施例中，相似度指标阈值thr₁的确定方法可以基于大量的图文对计算召回率来进行搜索得到。具体为，收集一定数量(如10000对)图文对，然后从0至1之间以0.1为单位步长设置阈值点，然后分别在不同阈值点下，计算这10000个图文对中每个图文对的相似度指标，其中相似度指标的具体计算方法可参见图8所示的图文相似度计算过程，这里不再赘述。然后统计这些图文对的相似度指标中大于阈值点的图文对数量，以确定相似度指标中大于阈值点的图文对数量占总图文对数量(10000个图文对)的比例，并将这个比例作为对应阈值点下的召回率。当某个阈值点下的召回率到达80％时，停止搜索过程，将此时的阈值点作为相似度指标阈值thr₁。

在一些实施例中，方差阈值thr₂的确定方法可以基于相似度指标阈值thr₁得到，当确定相似度阈值thr₁之后，即可确定10000个图文对中大于相似度阈值thr₁的图文对，并计算这些图文对中对应图像的方差，将该方差作为方差阈值thr₂。

示例的，当设置的阈值点为0.6时，计算10000个图文对中每个图文对的相似度指标，然后统计这些图文对的相似度指标中大于阈值点的图文对数量为8000个，并确定相似度指标中大于阈值点的图文对数量占总图文对数量(10000个图文对)的比例为80％。此时停止搜索，并将0.6作为相似度指标阈值thr₁，然后在相似度指标阈值thr₁的基础上，计算这个8000个图文对中对应图像的方差，也即计算8000个图像的方差，将最终计算的方差结果作为方差阈值thr₁。

继续参见图12，经过对输入语句中拆解的子句进行进一步判断之后，也即执行完子句可生成性识别之后，语句可识别性模型完成了对输入语句执行生成结果不当语句识别，可以确定输入语句中哪些输入语句的生成图像需要保留，哪些输入语句不适合生成配图需要删除以及哪些语句生成图像不恰当需要进一步进行拆解后重新生成图像。

继续参见图4，当调用语句可生成性识别模型对输入语句(语句1、语句2、语句3)执行生成结果不当语句识别后，即可确定出“语句1保留”，“语句2拆分”、“语句3删除”等。而针对“语句2拆分”，则将语句2“山下的小酒店，两个人到的时候已经快天明了，那个少年也不管三七二十一，把老板从被窝里吵醒，扔出一锭大银，要了山鸡蘑菇汤”拆解为3个子句““山下的小酒店”、“两个人到的时候已经快天明”、“那个少年要山鸡蘑菇汤”，再调用图像生成模型对三个子句分别进行二次生成，然后对三个子句对应的生成图像执行生成结果序列处理，获得对应三个生成图像，作为语句2的最终序列图。

从而系统自动驱动图像生成模型进行二次生成。对可拆解语句，调用图像生成模型二次生成图像后，继续判断是否生成不当，直到识别出没有语句生成不当时，再执行生成结果序列处理得到最佳图像，将保留语句的最佳图像和可拆解子句二次生成的最佳图像进行结合，最终得到所有语句的序列图。

通过本申请实施例，根据生成-图文可生成性、识别的可生成性评估、生成语句调节后再生成构建闭环的生成系统，以对小说剧本的描述进行自动化拆解、删除，筛选出不适宜生成图像的语句、长句，并对这些长句进行拆解得到多个子句，接下来再对子句进行更细粒度的二次生成图像，并执行序列处理选出最佳图，从而实现了对提示语进行子句粒度的合理性评价以及细粒度选图，无需每次选图都进行人工交互，可以有效解决提示语单词生成图像不合理且生成图像中存在生成元素缺失等问题，提升图像整体生成效果的相关性。而在选图过程中构建历史生成序列元素库，经过零样本去噪构建的序列元素库作为参考，对生成图像进行名词元素一致性的重排序得到最终的排序结果，避免提示语的序列相关性的生成重排序结果出现前后图像元素不一致的问题。

下面继续说明本申请实施例提供的图像处理装置453的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的图像处理装置453中的软件模块可以包括：获取模块4531，用于获取待处理提示语；映射模块4533，用于获取待处理提示语的文本特征，将文本特征映射为待处理提示语的可生成性指标和描述类型；获取模块4531，还用于响应于可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、且待处理提示语包括多个子句，获取多个子句分别对应的相似图像，其中，子句与所对应的相似图像之间的图文相似度大于图文相似度阈值；确定模块4532，用于确定多个子句分别对应的相似图像之间的图像差异度；确定模块4532，还用于响应于图像差异度小于图像差异度阈值，将多个子句分别对应的相似图像作为相应子句的配图。

在一些实施例中，确定模块4532，还用于响应于图像差异度大于或等于图像差异度阈值，将多个子句继续拆分为多个新的待处理提示语。

在一些实施例中，获取模块4531，还用于将待处理提示语转换为标记序列，基于标记序列调用语义理解模型进行编码处理，得到待处理提示语的文本特征。

在一些实施例中，获取模块4531，还用于调用第一文本分类器中的卷积网络对至少一个名词元素进行卷积操作，得到第一卷积特征，调用第一文本分类器中的多分类层将第一卷积特征映射为多个候选可生成性指标的第一概率，将最大的第一概率候选可生成性指标作为待处理提示语的可生成性指标，其中，可生成性指标用于表征待处理提示语能够用于生成配图的打分；调用第二文本分类器中的卷积网络对至少一个名词元素进行卷积操作，得到第二卷积特征，调用第一文本分类器中的多分类层将第二卷积特征映射为映射多个描述类型的第二概率，将最大的第二概率对应的描述类型作为待处理提示语的描述类型，其中，描述类型包括：包括动词和不包括动词。

在一些实施例中，获取模块4531，还用于响应于可生成性指标大于指标阈值，且描述类型表征待处理提示语包括动词，删除待处理提示语。

在一些实施例中，获取模块4531，还用于响应于可生成性指标小于或等于指标阈值，将待处理提示语的配图按照生成的先后顺序存储到文本的插图序列中，其中，不同的待处理提示语是从文本中顺序提取的。

在一些实施例中，确定模块4532，还用于针对每个相似图像执行以下处理：确定相似图像中每行像素的灰度平均值，将每行像素的灰度平均值组合为相似图像的图像特征；确定多个子句分别对应的相似图像的图形特征的方差，将方差作为多个子句分别对应的相似图像之间的图像差异度。

在一些实施例中，确定模块4532，还用于获取图文对样本集合，其中，图文对样本集合包括多个图文对，图文对包括样本提示语和样本相似图像；按照多个预设的阈值点从小到大的顺序，确定图文对样本集合在当前阈值点下的召回率，其中，召回率为以下两者的比值：召回图文对的数量，多个图文对的总数量；召回图文相似对中的样本提示语和样本相似图像之间的图文相似度大于或等于当前阈值点；响应于当前阈值点下的召回率大于或等于召回率阈值，将当前阈值确定为图文相似度阈值；确定召回图文对中的样本相似图像的图像特征的方差，将召回图文对中的样本相似图像的图像特征的方差作为图像差异度阈值。

在一些实施例中，获取模块4531，还用于响应于待处理提示语是恰当语句，获取待处理提示语的多个生成图像，从多个生成图像中确定待处理提示语的配图，保存待处理提示语的配图，其中，恰当语句是不符合不恰当语句条件的语句，不恰当语句条件包括：可生成性指标大于指标阈值、描述类型表征待处理提示语未包括动词、且待处理提示语包括多个子句；图像差异度大于或等于图像差异度阈值；可生成性指标大于指标阈值，且描述类型表征待处理提示语包括动词。

在一些实施例中，确定模块4532，还用于确定多个生成图像分别与待处理提示语之间的图文相似度，将大于图文相似度阈值的图文相似度对应的生成图像作为保留图像；响应于保留图像包括待处理提示语中的名词元素，且数据库中的至少一个历史元素包括名词元素，从数据库中查询名词元素的历史元素特征；确定保留图像与历史元素特征之间的元素相似度，从数据库查询历史提示语的历史配图的图像特征，并基于历史配图的图像特征以及保留图像的图像特征，确定保留图像与历史配图之间的图像相似度；对元素相似度和图像相似度进行加权求和，得到保留图像的融合总分；将最大的融合总分对应的保留图像，确定为待处理提示语的配图。

在一些实施例中，确定模块4532，还用于获取多个生成图像分别对应的图像特征；识别出待处理提示语中的名词元素，对名词元素进行编码处理，得到提示语元素特征；针对每个生成图像执行以下处理：确定生成图像的图像特征与提示语元素特征之间的余弦相似度，将余弦相似度作为生成图像与待处理提示语之间的图文相似度。

在一些实施例中，确定模块4532，还用于确定多个生成图像分别与待处理提示语之间的图文相似度，将最大的图文相似度对应的生成图像作为待处理提示语的配图。

在一些实施例中，确定模块4532，还用于识别出保留图像和名词元素中的共有元素；从数据库查询共有元素对应的历史元素特征，其中，数据库包括历史提示语的历史元素的特征。

在一些实施例中，确定模块4532，还用于确定保留图像分别与不同类型的历史元素特征之间的元素相似度，其中，历史元素的类型包括：人物、环境和道具；对保留图像分别与不同类型的历史元素特征之间的元素相似度进行加权求和，得到保留图像与历史元素特征之间的元素相似度。

在一些实施例中，确定模块4532，还用于将待处理提示语中的名词元素作为历史元素，将历史元素以及对应的历史元素特征存储到数据库中；将待处理提示语的配图作为历史图像，将历史图像存储到数据库中。

在一些实施例中，确定模块4532，还用于当待处理提示语是从文本中提取的非首个提示语时，通过以下方式更新数据库：将保留图像中出现的名词元素的元素特征、以及数据库中同名的历史元素的历史元素特征进行加权求和，将得到的更新的历史元素特征替代更新前的历史元素特征；将保留图像的图像特征、以及数据库中的历史配图的图像特征进行加权求和，将得到的更新的图像特征替代更新前的图像特征。

在一些实施例中，获取模块4531，还用于对待处理提示语执行编码处理，得到待处理提示语的文本特征以及与待处理提示语的文本特征对应的图像特征；

对图像特征执行加噪处理，得到噪声图像特征；将文本特征和噪声图像特征进行融合处理，得到融合特征；对融合特征执行降噪处理，得到还原图像特征；对还原图像特征执行解码处理，得到多个生成图像。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机可执行指令或计算机程序，该计算机可执行指令或计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令或计算机程序，处理器执行该计算机可执行指令或计算机程序，使得该电子设备执行本申请实施例上述的图像处理方法。

本申请实施例提供一种存储有计算机可执行指令或计算机程序的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的图像处理方法，例如，如图3A-3K示出的图像处理方法。

在一些实施例中，计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，在初次对提示语生成图像选择配图的基础上，根据提示语描述与生成图像、利用语句可生成性识别模型联合生成图像分布情况、自动识别出那些配图质量不佳的提示语并给出处理反馈，具体通过对提示语进行可生成性评价以及判定提示语的描述类型，可以识别出提示语是否为细节描述动作、是否适合生成配图然后对待处理提示语进行自动化拆解、删除，筛选出不适宜生成图像的语句、长句，并对这些长句进行拆解得到多个子句，再对子句进行更细粒度的二次生成图像，并执行序列处理选出最佳图。不仅可以有效解决提示语单次生成图像且生成图像中存在生成元素缺失等问题，还实现了对待处理提示语的子句粒度的合理性评价以及更细粒度选图，使得生成图像更加合理，提升了待处理提示语的整体生成结果的相关性。而在选图过程中构建历史生成序列元素库，经过零样本去噪构建的序列元素库作为参考，对生成图像进行名词元素一致性的重排序得到最终的排序结果，也解决了提示语的序列相关性的生成重排序结果出现前后图像元素不一致的问题。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理提示语；

确定所述多个子句分别对应的相似图像之间的图像差异度；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于所述图像差异度大于或等于所述图像差异度阈值，将所述多个子句继续拆分为多个新的待处理提示语。

3.根据权利要求1所述的方法，其特征在于，

所述获取所述待处理提示语的文本特征，包括：

将所述待处理提示语转换为标记序列；

基于所述标记序列调用语义理解模型进行编码处理，得到所述待处理提示语的文本特征；

所述将所述文本特征映射为所述待处理提示语的可生成性指标和描述类型，包括：

调用第一文本分类器中的卷积网络对所述文本特征进行卷积操作，得到第一卷积特征，调用所述第一文本分类器中的多分类层将所述第一卷积特征映射为多个候选可生成性指标的第一概率，将最大的第一概率对应的候选可生成性指标作为所述待处理提示语的可生成性指标，其中，所述可生成性指标用于表征所述待处理提示语能够用于生成配图的打分；

调用第二文本分类器中的卷积网络对所述文本特征进行卷积操作，得到第二卷积特征，调用所述第一文本分类器中的多分类层将所述第二卷积特征映射为映射多个描述类型的第二概率，将最大的第二概率对应的描述类型作为所述待处理提示语的描述类型，其中，所述描述类型包括：包括动词和不包括动词。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于所述可生成性指标大于所述指标阈值，且所述描述类型表征所述待处理提示语包括动词，删除所述待处理提示语。

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

响应于所述可生成性指标小于或等于所述指标阈值，将所述待处理提示语的配图按照生成的先后顺序存储到文本的插图序列中，其中，不同的所述待处理提示语是从所述文本中顺序提取的。

6.根据权利要求1所述的方法，其特征在于，

所述确定所述多个子句分别对应的相似图像之间的图像差异度，包括：

针对每个所述相似图像执行以下处理：确定所述相似图像中每行像素的灰度平均值，将所述每行像素的灰度平均值组合为所述相似图像的图像特征；

确定所述多个子句分别对应的相似图像的图像特征的方差，将所述方差作为所述多个子句分别对应的相似图像之间的图像差异度。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取图文对样本集合，其中，所述图文对样本集合包括多个图文对，所述图文对包括样本提示语和样本相似图像；

按照多个预设的阈值点从小到大的顺序，确定所述图文对样本集合在当前阈值点下的召回率，其中，所述召回率为以下两者的比值：召回图文对的数量，所述多个图文对的总数量；所述召回图文对中的所述样本提示语和样本相似图像之间的图文相似度大于或等于所述当前阈值点；

响应于所述当前阈值点下的召回率大于或等于召回率阈值，将所述当前阈值点确定为所述图文相似度阈值；

确定所述召回图文对中的所述样本相似图像的图像特征的方差，将所述召回图文对中的所述样本相似图像的图像特征的方差作为所述图像差异度阈值。

8.根据权利要求1至7所述的方法，其特征在于，所述方法还包括：

响应于所述待处理提示语是恰当语句，获取所述待处理提示语的多个生成图像，从所述多个生成图像中确定所述待处理提示语的配图，保存所述待处理提示语的配图，其中，所述恰当语句是不符合不恰当语句条件的语句，所述不恰当语句条件包括：所述可生成性指标大于指标阈值、所述描述类型表征所述待处理提示语未包括动词、且所述待处理提示语包括多个子句；所述图像差异度大于或等于所述图像差异度阈值；所述可生成性指标大于所述指标阈值，且所述描述类型表征所述待处理提示语包括动词。

9.根据权利要求8所述的方法，其特征在于，

当所述待处理提示语是从文本中提取的非首个提示语时，所述从所述多个生成图像中确定所述待处理提示语的配图，包括：

确定所述多个生成图像分别与所述待处理提示语之间的图文相似度，将大于图文相似度阈值的图文相似度对应的所述生成图像作为保留图像；

响应于所述保留图像包括所述待处理提示语中的名词元素，且数据库中的至少一个历史元素包括所述名词元素，从所述数据库查询所述名词元素的历史元素特征；

确定所述保留图像与所述历史元素特征之间的元素相似度，从所述数据库查询所述历史提示语的所述历史配图的图像特征，并基于所述历史配图的图像特征以及所述保留图像的图像特征，确定所述保留图像与所述历史配图之间的图像相似度；

对所述元素相似度和所述图像相似度进行加权求和，得到所述保留图像的融合总分；

将最大的所述融合总分对应的所述保留图像，确定为所述待处理提示语的配图。

10.根据权利要求9所述的方法，其特征在于，所述确定所述多个生成图像分别与所述待处理提示语之间的图文相似度，包括：

获取所述多个生成图像分别对应的图像特征；

识别出所述待处理提示语中的名词元素，对所述名词元素进行编码处理，得到提示语元素特征；

针对每个所述生成图像执行以下处理：确定所述生成图像的图像特征与所述提示语元素特征之间的余弦相似度，将所述余弦相似度作为所述生成图像与所述待处理提示语之间的图文相似度。

11.根据权利要求9所述的方法，其特征在于，

所述当所述待处理提示语是从文本中提取的首个提示语时，所述从所述多个生成图像中确定所述待处理提示语的配图，包括：

确定所述多个生成图像分别与所述待处理提示语之间的图文相似度，将最大的图文相似度对应的所述生成图像，作为所述待处理提示语的配图。

12.根据权利要求9所述的方法，其特征在于，

所述历史元素特征是所述历史提示语中的所述历史元素的特征；

所述从所述数据库查询所述名词元素的历史元素特征，包括：

识别出所述保留图像和所述名词元素中的共有元素；

从所述数据库查询所述共有元素对应的历史元素特征，其中，所述数据库包括所述历史提示语的历史元素的特征。

13.根据权利要求9所述的方法，其特征在于，所述确定所述保留图像与所述历史元素特征之间的元素相似度，包括：

确定所述保留图像分别与不同类型的所述历史元素特征之间的元素相似度，其中，所述历史元素的类型包括：人物、环境和道具；

对所述保留图像分别与不同类型的所述历史元素特征之间的元素相似度进行加权求和，得到所述保留图像与所述历史元素特征之间的元素相似度。

14.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当所述待处理提示语是从文本中提取的首个提示语时，通过以下方式更新所述数据库：

将所述待处理提示语中的名词元素作为所述历史元素，将所述历史元素以及对应的历史元素特征存储到所述数据库中；

将所述待处理提示语的配图作为历史图像，将所述历史图像存储到所述数据库中。

15.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当所述待处理提示语是从文本中提取的非首个提示语时，通过以下方式更新所述数据库：

将所述保留图像中出现的名词元素的元素特征、以及所述数据库中同名的历史元素的历史元素特征进行加权求和，将得到的更新的历史元素特征替代更新前的历史元素特征；

将所述保留图像的图像特征、以及所述数据库中的所述历史配图的图像特征进行加权求和，将得到的更新的图像特征替代更新前的图像特征。

16.根据权利要求1至7所述的方法，其特征在于，所述获取所述待处理提示语的多个生成图像，包括：

对所述待处理提示语执行编码处理，得到所述待处理提示语的文本特征以及与所述待处理提示语的文本特征对应的图像特征；

对所述图像特征执行加噪处理，得到噪声图像特征；

将所述文本特征和所述噪声图像特征进行融合处理，得到融合特征；

对所述融合特征执行降噪处理，得到还原图像特征；

对所述还原图像特征执行解码处理，得到多个生成图像。

17.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理提示语；

18.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或计算机程序时，实现权利要求1至16任一项所述的图像处理方法。

19.一种计算机可读存储介质，存储有计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至16任一项所述的图像处理方法。

20.一种计算机程序产品，包括计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至16任一项所述的图像处理方法。