CN110750193A

CN110750193A - 一种基于人工智能的场景拓扑确定方法和装置

Info

Publication number: CN110750193A
Application number: CN201910989250.5A
Authority: CN
Inventors: 杨丽; 单少波; 岑恩杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-04
Anticipated expiration: 2039-10-17
Also published as: CN110750193B

Abstract

本申请实施例公开了一种基于人工智能的场景拓扑确定方法和装置，至少涉及人工智能中的多种技术，通过采用基于实时分析待测功能服务的显示图像的方式，确定其场景拓扑。针对需要确定场景拓扑的待测功能服务，根据待测功能服务的第一显示图像，确定第一显示图像对应的第一场景信息，并识别第一显示图像中的控件。针对其中识别出的第一控件，生成对应的控制指令，以指示通过待测功能服务触发第一控件，从而得到基于该触发在待测功能服务中生成的第二显示图像，确定第二显示图像的场景信息后，可以根据第一场景信息、第二场景信息和第一控件间的关联关系，确定待测功能服务的场景拓扑。该方法不会影响待测功能服务的正常工作，适应性、兼容性强。

Description

一种基于人工智能的场景拓扑确定方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种基于人工智能的场景拓扑确定方法和装置。

背景技术

智能设备可以为用户提供各类功能服务，例如游戏、网购、电子支付等。一个功能服务可以包括多个场景，不同的场景可以为用户提供不同的细化功能。以游戏为例，登录场景为用户提供选择角色的功能，战斗场景为用户提供与不同对象战斗的功能等。

在运行功能服务的过程中，可以通过功能服务提供的控件在场景间切换，控件属于可操控的模块，例如虚拟按键、物品等。通过控件确定出的场景关系可以称为场景拓扑，若能确定出的功能服务对应的场景拓扑，可以对功能服务实现各类自动化操作，例如自动化测试等。

针对确定场景拓扑的需求，一种相关技术采用了软件开发工具包(SoftwareDevelopment Kit，SDK)，通过SDK调用待测功能服务的接口来获取控件属性，进而分析确定场景拓扑。但这种通过SDK调用接口的方式会影响到待测功能服务的正常工作，且不同功能服务的接口参数常常区别较大，导致针对不同功能服务需要重新配置SDK参数，适用性、兼容性差。

发明内容

为了解决上述技术问题，本申请提供了一种基于人工智能的场景拓扑确定方法和装置，不会像相关技术一样影响到待测功能服务的正常工作，针对不同待测功能服务可以不需要重新配置参数，适应性、兼容性强。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种基于人工智能的场景拓扑确定方法，所述方法包括：

根据待测功能服务的第一显示图像，确定所述第一显示图像对应的第一场景信息；

识别所述第一显示图像中的控件，所述控件为可操控的模块；识别出的所述控件包括第一控件；

通过根据所述第一控件生成的控制指令，获取第二显示图像；所述第一控件生成的控制指令用于指示通过所述待测功能服务触发所述第一控件；

确定所述第二显示图像对应的第二场景信息；

根据所述第一场景信息、所述第二场景信息和所述第一控件间的关联关系，确定所述待测功能服务的场景拓扑。

第二方面，本申请实施例提供了一种基于人工智能的场景拓扑确定装置，所述装置包括确定单元、识别单元和获取单元：

所述确定单元，用于根据待测功能服务的第一显示图像，确定所述第一显示图像对应的第一场景信息；

所述识别单元，用于识别所述第一显示图像中的控件，所述控件为可操控的模块；识别出的所述控件包括第一控件；

所述获取单元，用于通过根据所述第一控件生成的控制指令，获取第二显示图像；所述第一控件生成的控制指令用于指示通过所述待测功能服务触发所述第一控件；

所述确定单元，用于确定所述第二显示图像对应的第二场景信息；

所述确定单元，用于根据所述第一场景信息、所述第二场景信息和所述第一控件间的关联关系，确定所述待测功能服务的场景拓扑。

第三方面，本申请实施例提供了一种用于基于人工智能的场景拓扑确定的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如第一方面任一项所述的基于人工智能的场景拓扑确定方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一项所述的基于人工智能的场景拓扑确定方法。

由上述技术方案可以看出，本申请采用了基于实时分析待测功能服务的显示图像的方式，确定其场景拓扑。针对需要确定场景拓扑的待测功能服务，根据待测功能服务的第一显示图像，确定第一显示图像对应的第一场景信息，并识别第一显示图像中的控件。针对其中识别出的第一控件，生成对应的控制指令，以指示通过待测功能服务触发第一控件，从而得到基于该触发在待测功能服务中生成的第二显示图像，确定第二显示图像的场景信息后，可以根据第一场景信息、第二场景信息和第一控件间的关联关系，确定待测功能服务的场景拓扑。由于实时获取待测功能服务的显示图像并不会像相关技术一样影响到待测功能服务的正常工作，针对不同待测功能服务可以不需要重新配置参数，适应性、兼容性强。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种场景拓扑确定方法的应用场景示意图；

图2为本申请实施例提供的一种场景拓扑确定方法的流程图；

图3为本申请实施例提供的一种场景拓扑的场景树结构示意图；

图4为本申请实施例提供的一种从第一显示图像遍历控件得到的场景树结构示意图；

图5为本申请实施例提供的一种通过自动化遍历算法进行控件遍历的整体流程图；

图6为本申请实施例提供的一种通过自动化遍历算法进行控件遍历的具体流程图；

图7为本申请实施例提供的一种确定第一显示图像中第一控件的场景示意图；

图8为本申请实施例提供的一种对两张历史显示图像获取不变区域的效果展示图；

图9a为本申请实施例提供的一种经文字识别子模型识别后输出的图像示意图；

图9b为本申请实施例提供的一种基于控件图像区域组合后得到的训练样本图像示意图；

图9c为本申请实施例提供的一种控件图像区域组合训练样本对应的输出结果示意图；

图10为本申请实施例提供的一种场景树中的场景节点的创建方法流程图；

图11为本申请实施例提供的一种确定指标参数的流程示意图；

图12a为本申请实施例提供的一种执行场景拓扑确定方法的整体系统架构示意图；

图12b为本申请实施例提供的一种场景拓扑确定方法的流程示意图；

图13a为本申请实施例提供的一种基于人工智能的场景拓扑确定装置结构图；

图13b为本申请实施例提供的一种基于人工智能的场景拓扑确定装置结构图；

图13c为本申请实施例提供的一种基于人工智能的场景拓扑确定装置结构图；

图14为本申请实施例提供的一种用于基于人工智能的场景拓扑确定设备的结构图；

图15为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

目前，针对于需要确定场景拓扑的待测功能服务而言，主要采用SDK调用功能服务接口以获取控件属性的方式确定。由于该种通过SDK调用接口的方式会影响到待测功能服务的正常工作，且不同功能服务的接口参数常常具有较大区别，导致针对不同功能服务需要重新配置SDK参数，适用性、兼容性差。

为此，本申请实施例提供了一种场景拓扑确定方法，以希望通过实时分析待测功能服务的显示图像的方式，来为其确定场景拓扑，以避免调用待测功能服务的接口，从而不影响待测功能服务的正常工作。

本申请实施例所提供的场景拓扑确定方法以及相应的控件识别模型和场景识别模型的训练方法均可以是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、自然语言处理技术和深度学习等方向。

例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、图像语义理解(Image Semantic Understanding，ISU)、视频处理(videoprocessing)、视频语义理解(video semantic understanding，VSU)、三维物体重建(3Dobject reconstruction)、人脸识别(face recognition)等。

例如可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(artificial neural network)。

首先，对本申请实施例的应用场景进行介绍。本申请提供的场景拓扑确定方法可以应用于数据处理设备，如终端设备、服务器。其中，该方法可以应用到部署有待测功能服务的终端设备中，终端设备例如可以是智能终端、计算机、个人数字助理(PersonalDigital Assistant，简称PDA)、平板电脑等设备。

该场景拓扑确定方法还可以应用到服务器中，服务器是向部署有待测功能服务的终端设备提供场景拓扑确定服务的设备，该终端设备可以将待测功能服务的显示图像上传给服务器，服务器利用本申请实施例提供的场景拓扑确定方法，为待测功能服务确定场景拓扑。其中，服务器可以是独立的服务器，也可以是集群中的服务器。

其中，该数据处理设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，数据处理设备通过计算机视觉技术，可以对图像进行文字识别，从而确定出图像中包含文字数据的控件，并基于控件中的文字数据，确定控件对应的控件类型等信息。

该数据处理设备可以具备机器学习(Machine Learning,ML)能力。ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例中，用于实现对图像的场景类别的识别方法、及对图像中控件类型的识别方法主要涉及对各类人工神经网络的应用，例如，通过训练得到卷积神经网络(Convolutional Neural Networks，CNN)模型，以对图像的场景类别进行识别。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的场景拓扑确定方法进行介绍。

参见图1，图1为本申请实施例提供的一种场景拓扑确定方法的应用场景示意图。如图1所示，其中包括一个终端101和一个服务器102。在本申请实施例中，可以在终端101中部署需要确定场景拓扑的待测功能服务，服务器102可以执行本申请实施例提供的场景拓扑确定方法。

其中，功能服务的场景拓扑可以是功能服务的场景间基于切换的关联关系和场景间通过何种控件实现场景切换的关系。例如：针对游戏这一功能服务的场景拓扑可以包括：“登录游戏”场景与“选择角色”场景通过“选择角色”的控件关联。也就是说，在该游戏的对应于“登录游戏”场景的图像中，通过触发其中的“选择角色”控件，可以使得该对应于“登录游戏”场景的图像切换为对应于“选择角色”场景的图像。

基于此，服务器102为终端101中待测功能服务确定场景拓扑的方法可以包括：在终端101运行待测功能服务的过程中，服务器102可以获取待测功能服务当前的显示图像，并将该显示图像记为第一显示图像。需要说明，针对本申请实施例中涉及的第一显示图像或后续的第二显示图像、第三显示图像等，都可以是一张显示图像。

接下来，服务器102可以为第一显示图像确定对应的场景信息，可以将该场景信息记为第一场景信息。其中，显示图像对应的场景信息可以用于标识显示图像所对应的场景。

服务器102还可以从第一显示图像中识别出至少一个控件，并将其中一个控件作为第一控件。然后，根据第一控件生成对应的控制指令，并将该控制指令发送至终端101。

在本申请实施例中，控件可以是可操控的模块，例如可以为虚拟按键、物品等。通过采用控件对应的操控方式对其进行触发，可以实现控件对应的功能，以使得显示图像发生改变，出现场景切换。控件的操控方式比如可以是点击操作、拖动操作等。

终端101在接收控制指令后，通过根据第一控件的控制指令指示，通过待测功能服务来模拟第一控件的操作方式，以对其进行触发，从而实现第一控件对应的功能。在具体实现中，控制指令中可以指示第一控件的位置坐标和对应的操作方式。

从而，触发第一控件后，待测功能服务的显示图像改变为第二显示图像并上传至服务器102。

服务器102可以确定第二显示图像对应的场景信息，记为第二场景信息。从而，服务器102可以根据第一场景信息、第二场景信息和第一控件间的关联关系，确定是通过第一控件将待测功能服务第一显示图像对应的场景切换至第二显示图像对应的场景的。进而，服务器102可以根据该关联关系，确定待测功能服务的场景拓扑中这部分场景间(第一显示图像对应的场景、第二显示图像对应的场景和第一控件间)的拓扑关系。

下面以待测功能服务为游戏为例，对上述场景拓扑确定方法进行说明。

假设终端101运行游戏的过程中，游戏的显示图像为游戏中角色战斗的第一显示图像，服务器102可以根据该第一显示图像确定对应的第一场景信息，该第一场景信息可以标识该第一显示图像对应于游戏战斗的场景。

服务器102通过识别第一显示图像中的控件，并以识别出的“退出游戏”控件作为第一控件。服务器102根据“退出游戏”控件，生成对应的控制指令，并将该控制指令发送至终端101。

终端101在接收到控制指令后，可以使得游戏根据控制指令并通过模拟点击方式对“退出游戏”控件进行触发，使得显示图像改变为游戏登录界面的显示图像(即第二显示图像)，服务器102根据该第二显示图像确定对应的第二场景信息，其中，第二场景信息可以用于标识第二显示图像对应于游戏登录的场景。

服务器102可以根据第一场景信息标识的游戏战斗场景、第二场景信息标识的游戏登录场景和“退出游戏”控件间的关联关系确定出对应的场景拓扑。

通过执行上述方法，将待测功能服务的显示图像作为第一显示图像进行分析，从而可以确定出待测功能服务的完整场景拓扑。

由于实时获取待测功能服务的显示图像并不会像相关技术一样影响到待测功能服务的正常工作，因此，针对不同待测功能服务可以不需要重新配置参数，适应性、兼容性强。

接下来，将以终端作为前述的数据处理设备为例，并结合附图对本申请实施例提供的场景拓扑确定方法进行介绍。其中，该终端中部署有待测功能服务。

参见图2，该图示出了本申请实施例提供的一种场景拓扑确定方法的流程图，应用于终端，并可由终端处理器进行执行，所述方法包括：

S201：根据待测功能服务的第一显示图像，确定第一显示图像对应的第一场景信息。

接下来，将以游戏的功能服务为例，对本申请实施例提供的方法进行说明。

第一显示图像可以是游戏运行过程中的一张显示图像，终端在获取游戏的第一显示图像后，可以基于该第一显示图像，确定其对应的第一场景信息。举例来说，假设第一显示图像中展示有登录游戏的场景，由此，所确定的第一场景信息可以包括关于“登录游戏场景”的信息。

S202：识别所述第一显示图像中的控件，所述控件为可操控的模块。

其中，基于S201中的示例，第一显示图像中的控件比如可以是游戏中的“角色选择”控件、“退出游戏”控件等。

终端在获取第一显示图像后，可以识别出其中的控件，并将其中的一个控件确定为第一控件。例如：假设第一显示图像中包括“角色选择”控件和“退出游戏”控件，终端在将它们识别出来后，可以将其中的一个控件、如“角色选择”控件确定为第一控件。

S203：通过根据所述第一控件生成的控制指令，获取第二显示图像。

针对于本申请实施例中涉及的如第一控件生成的控制指令等控制指令，可以用于指示通过待测功能服务模拟其对应控件的操控方式，以在该待测功能服务的显示画面中对其进行触发。其中，控制指令中可以指示对应控件在显示画面中的位置坐标和操控方式。

举例来说：针对“角色选择”的第一控件，其操控方式可以是点击操作的方式，其在第一显示画面中的位置坐标为M。基于这些信息生成的第一控件对应的控制指令，可以指示通过游戏来在第一显示画面中的坐标为M的位置模拟点击操作，以触发位于该位置的“角色选择”控件。在触发游戏的“角色选择”控件后，游戏的显示图像可以从登录游戏的显示图像(对应第一显示图像)发生改变，变为选择角色的显示图像，可以将该显示图像作为第二显示图像。

S204：确定第二显示图像对应的第二场景信息。

可以了解，该游戏的显示图像的变化过程即为游戏场景切换的过程，游戏场景由登录游戏场景切换为选择角色场景。基于此，终端可以确定第二显示图像、即选择角色的显示图像对应的场景信息，作为第二场景信息。例如：第二场景信息中可以包括关于“选择角色场景”的信息。

S205：根据第一场景信息、第二场景信息和第一控件间的关联关系，确定待测功能服务的场景拓扑。

由此，终端可以确定登录游戏场景(对应第一场景信息)与选择角色场景(对应第二场景信息)间，是由“角色选择”控件实现切换的。然后，基于这种关联关系，终端可以在场景拓扑中生成关于登录游戏场景、选择角色场景与“角色选择”控件间的关联关系。

在具体实现中，终端在为待测功能服务确定场景拓扑时，可以生成对应的场景树结构，以便于场景拓扑的存储。其中，可以应用场景树结构中各个节点间的关联关系来表征场景拓扑中场景间的关联关系。这样，可以将场景树中的节点称为场景节点。在本申请实施例中，可以将待测功能服务的显示图像和对应的场景信息保存在场景树中的场景节点中，以通过显示图像和场景信息来体现场景节点所对应的场景。

举例来说，参见图3，该图示出了本申请实施例提供的一种场景拓扑的场景树结构示意图，在通过S201-S205后，如图3所示，假设可以将第一显示图像和第一场景信息(对应登录游戏场景)保存在场景树中场景节点3的位置，将第二显示图像和第二场景信息(对应选择角色场景)保存在场景树中场景节点x的位置，在该场景树中，场景节点3是通过第一控件(“角色选择”控件)扩展至场景节点x的，场景节点3可以为场景节点x的父节点，场景节点x可以为场景节点3的子节点。如此，通过该场景树结构，可以体现场景节点3对应的场景(对应登录游戏场景)是通过触发第一控件(对应“角色选择”控件)切换至场景节点x对应的场景(对应选择角色场景)的。

可以理解，待测功能服务的一张显示图像中可以包括多个控件，通过采用每个控件对应的操控方式对其进行触发，可以使其在显示图像中实现对应的功能，从而导致显示图像发生改变，出现场景切换。如此，在S202中，可能会出现从第一显示图像中识别出多个控件的情形。该种情形下，为了保证为待测功能服务确定更完整、更全面的场景拓扑，在一种可能的实现方式中，针对于第一显示图像，终端应当遍历其中的全部控件，以确定出完整的场景拓扑。

基于此，在S202、即识别第一显示图像中的控件之后，所述方法还包括：

S301：判断所述第一显示图像中是否包括未触发的控件，若确定第二控件为未触发的控件，执行S302。

终端在识别第一显示图像中的控件后，还可以判断第一显示图像中是否包括未触发的控件。若发现其中还包括控件未被触发，可以将其记为第二控件，并执行S302。

例如：基于前述S201-S205的示例，若确定第一显示图像(对应登录游戏场景)中的“退出游戏”控件还未被触发，终端可以确定该“退出游戏”控件为第二控件。

S302：通过根据所述第二控件生成的控制指令，获取第三显示图像。

相应的，也可以根据第二控件，生成对应的控制指令。其中，第二控件生成的控制指令可以用于指示通过待测功能服务模拟第二控件对应的操控方式，以在该待测功能服务的第一显示画面中对其进行触发。该控制指令可以指示第二控件对应的位置坐标和操控方式。

在具体实现中，待测功能服务当前的显示图像可以不再是第一显示图像，例如：假设在待测功能服务的第一显示图像模拟触发了第一控件，使得当前待测功能服务的显示图像为第二显示图像。如此，终端还应当将待测功能服务的显示图像回溯至第一显示图像，以使得可以在待测功能服务的第一显示图像中模拟触发第二控件。

基于此，在第二控件的控制指令还可以指示待测功能服务将其当前的显示图像返回至第一显示图像的控制指令。

触发第二控件后，使得第二控件实现对应的功能，进而使得待测功能服务的第一显示图像发生改变，出现场景切换。可以获取待测功能服务改变后的显示图像，作为第三显示图像。

举例说明：基于前述示例，终端在确定“退出游戏”控件的第二控件后，假设“退出游戏”的第二控件的操控方式是点击操作方式，其在第一显示画面中的位置坐标为N。若当前游戏的显示图像为第二显示图像(对应选择角色场景)，确定的第二控件的控件指令可以指示，通过游戏将游戏的第二显示图像(对应选择角色场景)回溯至第一显示图像(对应登录游戏场景)中，且通过游戏在第一显示图像中的坐标为N的位置模拟点击操作，以触发位于该位置的第二控件(“退出游戏”控件)。

由此，触发第二控件后，游戏的显示界面可以从第一显示界面(对应登录游戏场景)发生改变，变为退出游戏后游戏所部署主体的显示图像(主界面)，该显示图像可以为第三显示图像，该第三显示图像可以对应于退出游戏的场景。

S303：确定第三显示图像对应的第三场景信息。

基于前述示例，终端可以确定第三显示图像对应的第三场景信息，如确定的第三场景信息可以包括关于“退出游戏场景”的信息。

S304：根据第一场景信息、第三场景信息和第二控件间的关联关系，确定待测功能服务的场景拓扑。

从而，终端可以确定第一场景信息(对应登录游戏场景)、第三场景信息(对应退出游戏场景)和第二控件(“退出游戏”控件)间的关联关系，并以此在场景拓扑中加入这部分场景间的关联关系。

在具体实现中，基于前述图3对应的示例，参见图4，该图示出了本申请实施例提供的一种从第一显示图像遍历控件得到的场景树结构示意图。如图4所示，终端可以将第三显示图像和第三场景信息(对应退出游戏场景)保存在场景树中场景节点y的位置，其中，场景节点3是通过第二控件(“退出游戏”控件)扩展至场景节点y的。场景节点3可以是场景节点y的父节点，场景节点y可以称为场景节点3的子节点。如此，通过该场景树结构，可以体现出场景节点3对应的场景(对应选择角色场景)是通过触发第二控件(对应退出游戏控件)切换至场景节点y对应的场景(对应退出游戏场景)的。

另外，可以了解，在第一显示图像模拟触发第一控件时，待测功能服务可以从第一显示图像对应的场景切换至第二显示图像对应的场景，在第一显示图像中模拟触发第二控件时，待测功能服务可以将第一显示图像对应的场景切换至第三显示图像对应的场景。在场景树结构中，也可以对应该种场景间的关系，即，场景节点3(对应第一显示图像的场景)通过第一控件扩展至场景节点x(对应第二显示图像的场景)，场景节点3(对应第一显示图像的场景)通过第二控件扩展至场景节点y(对应第三显示图像的场景)。

由此，在确定待测功能服务的场景拓扑时，除了确定出第一场景信息与第二场景信息及第一控件间的关联关系外，还确定出第一场景信息与第三场景信息及第二控件间的关联关系，保证了为待测功能服务确定出更为完整和全面的场景拓扑。

简单来说，S301-S304的方法即为对显示图像所对应场景中的控件进行遍历的过程，在具体实现中，可以通过自动化遍历算法对第一显示图像中的控件进行遍历。其中，自动化遍历算法比如可以基于强化学习的算法执行。参见图5，该图示出了本申请实施例提供的一种通过自动化遍历算法进行控件遍历的整体流程图，如图5所示，终端在获取第一显示图像后，可以为第一显示图像在场景树中创建对应的场景节点，并基于其中未触发的控件生成对应的控制指令，通过执行生成的控制指令，以使待测功能服务的场景进行切换，实现场景树结构的扩展(场景拓扑的确定)。

参见图6，该图示出了本申请实施例提供的一种通过自动化遍历算法进行控件遍历的具体流程图，应用于终端。如图6所示，终端在场景拓扑的确定过程中，基于场景树中的场景节点，可以获取场景节点所对应显示图像中的控件，并确定这些控件中是否包括未触发的控件。若具有，可以确定第二控件，比如根据未触发控件的优先级确定第二控件(后续进行详细介绍)，并生成第二控件对应的控制指令。若不具有，可以在场景树结构中确定是否具有包括未触发控件的场景节点，若具有，可以确定待测功能服务返回该场景节点对应的显示图像的控制指令，并基于控件的优先级从该场景节点对应的未触发控件中确定出第二控件，生成第二控件对应的控制指令。若不具有，可以退出此次遍历控件的流程。

通过自动化遍历算法，可以提高场景拓扑的确定效率。

另外，基于S202中从第一显示图像中识别出多个控件的情形，为了缩短场景拓扑的确定时间，提高场景拓扑的确定效率，在一种可能的实现方式，可以为待测功能服务中的控件根据控件类型设置对应的优先级。其中，控件的优先级可以用于标识控件被遍历的顺序。由此，在S202中，可以根据第一显示图像中控件的优先级确定第一控件。

在本申请实施例中，为待测功能服务中的控件设置的控件类型和说明如表1所示。

表1控件类型和说明

控件类型	说明
		文本控件(btn_text)	文字和背景图片组成的控件
文本图标控件(btn_text_icon)	上方图标、下方文字说明组成的控件
		返回图标控件(btn_icon_back)	箭头图标形式的控件
关闭图标控件(btn_icon_close)	“×”图标形式的控件
		其余图标控件(btn_icon)	除箭头和“×”图标外的图标形式的控件
项目控件(btn_item)	矩形框和图标共同组成的控件

如此，可以为控件类型设置对应的优先级，使得控件可以根据其控件类型具有对应的优先级。本申请实施例中为控件类型设置的优先级如表2所示。

表2控件类型对应的优先级

接下来进行举例说明，参见图7，该图示出了本申请实施例提供的一种确定第一显示图像中第一控件的场景示意图，如图7所示，第一显示图像可以为图7示出的游戏功能服务的显示图像。其中，第一显示图像中的控件之间可以具有逻辑关系，这里的逻辑关系可以是触发显示图像中逻辑关系高的控件可以改变显示图像中逻辑关系低的控件，触发显示图像中逻辑关系低的控件可以不会改变显示图像中逻辑关系高的控件。在第一显示图像中，处于一级控件菜单中的控件高于处于二级控件菜单中的控件，处于二级控件菜单中的控件高于处于三级控件菜单中的控件。这样，逻辑关系高的控件通常为文本图标控件的类型，可以为其设置优先遍历对应的优先级，逻辑关系低的控件通常为文本控件的类型，可以为其设置靠后遍历对应的优先级。

通过该种方式，终端对待测功能服务的第一显示图像中的控件进行遍历时，都可以通过控件基于控件类型对应的优先级来遍历，提高了遍历效率，缩短了场景拓扑的确定时间。

在本申请实施例中，为了提高S202中识别第一显示图像中的控件的效率和准确性，在一种可能的实现方式中，S202中识别第一显示图像中的控件的方法可以包括：

S401：通过控件识别模型识别第一显示图像中的控件。

在本申请实施例中，可以预先训练一个控件识别模型，并将该控件设备模型部署于终端中。其中，该控件识别模型至少可以包括神经网络子模型。神经网络子模型可以实现如下功能：根据输入的图像识别出其中包括的控件。在具体实现中，神经网络子模型可以是快速区域-卷积神经网络(Faster Region-Convolutional Neural Networks，Faster R-CNN)模型。

实际场景中，待测功能服务的显示图像中的内容通常较为复杂，例如：游戏这一待测功能服务的显示图像中包括了多种特效和元素，由此增大了控件识别的难度。为了提高神经网络子模型的控件识别率和精确度，本申请实施例提供了三种可以获取更充分且更具多样性的训练样本(数据增强)的方式，分别为：可以通过将不同的控件与图形进行组合生成新的训练样本；根据从历史显示图像中的控件位置剪裁出感兴趣区域生成新的训练样本；以及，根据从至少两张历史显示图像中提取的不变区域生成的训练样本。

在具体实现中，针对于从两张或多张历史显示图像中提取不变区域的方式，可以是通过局部特征提取(Deep Local Feature，DELF)模型实现的。其中，DELF模型可以通过检测两张或多张历史显示图像中的不变性特征，基于掩膜(mask)计算显示界面的不变区域，从而获取控件区域。参见图8，该图示出了本申请实施例提供的一种对两张历史显示图像获取不变区域的效果展示图，如图8所示，可以在两张历史图像中，提取出包括控件的不变区域(由灰色线框框出)。

基于此，在训练神经网络子模型时，可以采用上述三种方式生成的训练样本中的任意一种或多种来训练。通过上述三种数据增强方式，可以为神经网络子模型提供更充分的训练样本，从而保证了神经网络子模型的控件识别可以达到较为理想的效果。同时，通过增加了训练样本的多样性，还可以提高神经网络子模型的鲁棒性。

基于待测功能服务显示图像的控件中通常包括文字信息的情形，为了提高S401中控件识别模型的控件识别率，在一种可能的实现方式中，该控件模型中还可以包括文字识别子模型。其中，文字识别子模型可以实现如下功能：根据输入的图像识别其中的包括文字信息的控件以及确定控件类型。如此，针对S401中通过控件识别模型识别第一显示图像中的控件的方法，可以包括：

S501：通过神经网络子模型确定第一显示图像中包括控件的控件数量和位置区域。

S502：根据控件的位置区域，通过文字识别子模型识别所述控件的名称。

在具体实现中，文字识别子模型可以是文字识别算法(Optical CharacterRecognition，OCR)模型。其中，可以将功能服务的历史显示图像作为文字识别子模型的训练样本。此外，还可以将文字识别子模型从输入的历史显示图像中识别的控件图像区域进行重新组合，以生成新的图像作为该文字识别子模型的训练样本。从而，通过增加训练样本的数量及提高训练样本的多样性，提高了文字识别子模型的识别效率和准确率。

参见图9a，该图示出了本申请实施例提供的一种经文字识别子模型识别后输出的图像示意图，如图9a所示，在该图像中，文字识别子模型从中识别出“一键提取”、“删除已读”等控件和对应的控件类型。这样，可以将从中识别出的控件区域图像进行组合，得到一张新的图像，以作为文字识别子模型的训练样本。参见图9b，该图示出了本申请实施例提供的一种基于控件图像区域组合后得到的训练样本图像示意图，将该图9b示出的图像输入至文字识别子模型，可以得到如9c所示的输出结果。参见图9c，该图示出了本申请实施例提供的一种控件图像区域组合训练样本对应的输出结果示意图，该输出结果中显示有从图9b的图像中识别的文字内容和对应的准确率等。

可见，通过在控件识别模型中加入文字识别子模型进行控件识别，提高了控件识别率和准确性，还可以基于识别结果中控件的文字内容，确定控件对应的控件类型等相关信息。

在本申请实施例中，终端可以对待测功能服务中的场景进行分类，得到相应的场景类别。举例来说，针对游戏的功能服务，可以为其设置8个场景类别，分别为：副本内战斗场景类别、加载场景类别、登录和选角色场景类别、全屏用户界面(User Interface，UI)菜单场景类别、跳出游戏画面场景类别、弹出菜单场景类别、城镇内战斗场景类别、城镇内正常跑图场景类别。

如此，终端在为待测功能服务确定场景拓扑时，可以将显示图像(如第一显示图像、第二显示图像等)对应的场景类别加入显示图像对应的场景信息中，以便后续可以基于场景拓扑中的场景信息，确定属于同一场景类别的场景。进而，方便基于场景拓扑中同一场景类别的拓扑关系，进行功能服务针对某一种场景类别的自动化控制，以对该场景拓扑的定向自动化覆盖。

其中，终端在为待测功能服务的显示图像对应的场景类别的方式可以为，通过预先训练一个场景识别模型，以使其可以实现根据输入的显示图像确定其对应的场景类别的功能，并将该场景识别模型部署于终端中。从而，通过场景识别模型确定显示图像对应的场景类别。在具体实现中，场景识别模型可以是CNN模型。

其中，场景识别模型的训练样本可以是包括场景类别标签的显示图像样本。在实际场景中，可能会出现训练样本中不同场景类别间的显示图像样本数量不平衡的情况，例如：游戏的功能服务中，训练样本中登录和选角色场景类别的显示图像样本数量少于其他场景类别(如副本内战斗场景类别)的显示图像样本数量。

基于此，在确定场景识别模型的训练样本时，应当尽量保证具有同一个场景类别标签的显示图像样本间的数量差小于预设值，其中，可以将具有同一个场景类别标签的显示图像样本理解为，属于同一场景类别的显示图像样本，预设值可以用于标识训练样本中不同场景类别的显示图像样本数量接近。

在具体实现中，保证训练样本中不同场景类别的显示图像样本数量接近的方式可以是，针对于显示图像样本数量较少的场景类别，可以通过合成图像的方式来增加该场景类别的显示图像样本数量。

通过该种平衡不同场景类别的显示图像样本数量的方式，可以保证训练得到的场景识别模型对每种场景类别的图像都具有较高的场景识别的准确性。

需要说明的是，还可以训练用于识别多张显示图像场景类别的序列模型，由此，还可以基于多张显示图像的时序关系识别出功能服务的场景切换的过程等。其中，用于识别多张显示图像场景类别的序列模型比如可以是循环神经网络(Recurrent NeuralNetwork，RNN)模型、长短期记忆网络(Long Short-Term Memory，LSTM)模型(RNN的变形模型)等。

可以理解，本申请实施例确定的场景拓扑是基于控件实现场景切换的，如此，应当保证获取的第一显示图像中具有控件。

基于此，在一种可能的实现方式中，所述方法还可以包括：

S601：判断第一显示图像是否为不具有控件的指定类型图像，若否，执行S602。

S602：执行根据待测功能服务的第一显示图像，确定所述第一显示图像对应的第一场景信息的步骤。

其中，指定类型图像可以是不包括控件的预先指定类型的图像。例如：游戏的功能服务中，指定类型图像可以是内置网页、传送画面、以及在游戏中点击某些道具或按钮时出现的包括弹窗场景的画面等。内置网页比如是营销活动页面、提示页面或者调查问卷页面等；传送画面可以是读条时显示的画面。

当终端通过判断确定第一显示图像为指定类型图像时，可以通过确定第一显示图像所属的指定类型图像的类型，并以此生成对应的指示通过待测功能服务进行返回包括控件的显示界面的控制指令，以实现待测功能服务回归包括控件的显示画面。

针对游戏的功能服务，终端确定第一显示图像是否为内置网页的方法为，可以获取并查询部署了待测功能服务的终端的进程，若查询确定该终端增加了与内置网页相关的进程，确定第一显示图像属于内置网页。可以向终端发送对应的控制指令，以退出内置网页页面，回归正常游戏画面。

终端确定第一显示图像是否为传送画面的方法为，可以采集游戏模板库中的全部传送画面作为模板，并通过图像模板匹配的方式确定第一显示图像是否为传送画面，若是，则可以等待游戏读条结束，回归正常游戏画面。

终端确定第一显示图像是否为包括弹窗场景的画面的方法为，可以获取第一显示图像的前一张显示图像、并生成指示通过游戏在显示图像中点击空白区域的控制指令，获取模拟点击空白区域时第一显示图像的后一张图像。可以理解，若第一显示图像为包括弹窗场景的画面，其上一张显示图像应当不包括弹窗场景的显示图像；第一显示图像中应当包括弹窗场景的显示图像；其后一张显示图像中应当不包括弹窗场景的显示图象，由此，可以通过针对这三张显示图像进行两两图像间的相似度计算，来确定该第一显示图像是否为包括弹窗场景的画面。同时，当前显示的图像(第一显示图像的后一张显示图像)，已经实现了游戏回归正常游戏画面。

当通过判断确定第一显示图像不是指定类型图像时，终端可以执行S602的步骤，即S201中根据待测功能服务的第一显示图像，确定所述第一显示图像对应的第一场景信息的步骤。

通过该种方法，剔除了待测功能服务中不具有控件的显示图像，且使得待测功能服务回归具有控件的显示画面，保证了接下来场景拓扑的确定过程的持续进行。

在本申请实施例中，终端在为待测功能服务确定场景拓扑时，为了避免场景拓扑中包括重复的场景，在一种可能的实现方式中，所述方法还包括：

S701：根据第一场景信息判断第一显示图像对应的场景是否处于场景拓扑中，若否，执行S702。

S702：执行识别第一显示图像中的控件的步骤。

可以理解，场景拓扑中包括通过分析待测功能服务的显示图像得到的场景间的拓扑关系。由此，在为获取的第一显示图像确定对应的第一场景信息后，由于第一场景信息标识了第一显示图像中所显示内容体现的场景，因此，可以根据第一场景信息判断第一显示图像对应的场景是否已经处于场景拓扑中，若确定第一显示图像对应的场景未包括在场景拓扑中，终端可以执行前述S202、即识别第一显示图像中的控件的步骤。

下面对S701-S702的方法进行举例说明，基于前述图3的示例，参见图10，该图示出了本申请实施例提供的一种场景树中的场景节点的创建方法流程图，如图10所示，在为第一显示图像创建对应的场景节点之前，终端首先需要确定第一显示图像对应的场景是否为场景树中的场景，即，是否已经访问过第一显示图像对应的场景，若否，则创建该场景节点，若是，则不为该第一显示图像创建对应的场景节点。其中，在为第一显示图像创建场景节点时，可以同时为第一显示图像中的控件基于控件类型设置对应的优先级，以及获取控件对应的位置坐标。其中，控件对应的位置坐标可以标识控件在显示图像中的位置。

需要说明，本申请实施例中涉及的场景与前述涉及的场景类别并不相同，场景类别是对一种类型的场景的概括，一个场景类别下可以包括多种场景。举例来说，针对于城镇内战斗场景类别，在该场景类别下的场景比如可以是角色在城镇内商店A处的战斗场景，或者可以是角色在城镇内商店B处的战斗场景，这两种场景都属于城镇内战斗场景类别。

可见，通过该种方法，使得为待测功能服务确定的场景拓扑中不包括重复的场景，保证了场景拓扑具有精简的结构。

在本申请实施例中，在为待测功能服务确定完场景拓扑后，在一种可能的实现方式中，终端还可以对该确定的场景拓扑进行测评。基于此，该场景拓扑的确定方法还可以包括：

S801：在确定完所述待测功能服务的场景拓扑后，获取场景识别记录，以及根据控制指令生成的控件触发记录。

其中，场景识别记录中可以包括为待测功能服务确定场景拓扑的过程中识别的场景数据，控件触发记录中可以包括为待测功能服务确定场景拓扑的过程中基于控制指令触发的控件数据。

在具体实现中，场景识别记录和控件触发记录都可以保存在log数据中。

S802：根据场景识别记录和所述控件触发记录确定指标参数。

实际场景中，指标参数可以包括：场景覆盖率(即本次场景拓扑确定过程中的场景覆盖数量)；控件覆盖率(即本次场景拓扑确定过程中的控件覆盖数量)；自动化效率(即在本次场景拓扑确定过程中单位时间内覆盖的场景数量和控件数量)；有效触发数量；模型(场景识别模型和控件识别模型)识别准确率对场景覆盖率的影响；模型(场景识别模型和控件识别模型)识别准确率对控件覆盖率的影响；模型(场景识别模型和控件识别模型)识别准确率对自动化效率的影响；自动化遍历算法对场景覆盖率的影响；自动化遍历算法对控件覆盖率的影响；自动化遍历算法对自动化效率的影响。

终端可以根据场景识别记录和控件触发记录对上述的指标参数进行计算。

在具体实现中，针对根据场景识别记录和控件触发记录确定指标参数的方法，参见图11，该图示出了本申请实施例提供的一种确定指标参数的流程示意图，如图11所示，终端可以每次读取log数据中的一个场景数据和对应的控件触发数据，通过获取该场景数据对应的场景的显示图像、场景ID、场景类别等数据，来确定对应的场景节点，并进行针对前述关于场景的指标参数的记录。另外，通过获取控件触发的数据(如控件的位置坐标、控件对应的操控方式等)，来进行针对前述关于控件的指标参数的记录。通过不断对log数据进行读取，为场景拓扑确定出上述指标参数。

S803：根据指标参数确定场景拓扑的评测指标。

其中，测评指标可以用于标识场景拓扑的测评结果。由此，可以基于确定的指标参数来确定场景拓扑的评测指标。

通过该种方法，可以为本次确定的场景拓扑实现可量化的测评，以及测评指标可重复不变且收敛有限。

接下来，将结合实际应用场景对本申请实施例提供的场景拓扑确定方法进行介绍。

参见图12a，该图示出了本申请实施例提供的一种执行场景拓扑确定方法的整体系统架构示意图。如图12a所示，其中的终端中部署有待测功能服务，服务器中部署有包括场景识别模型和控件识别模型的人工智能(Artificial Intelligence，AI)模块。在终端运行待测功能服务的过程中，由服务器对待测功能服务确定场景拓扑。

参见图12b，该图示出了本申请实施例提供的一种场景拓扑确定方法的流程示意图，如图12b所示，在为待测功能服务确定场景拓扑时，服务器可以从终端获取待测功能服务的第一显示图像，并通过包括有场景识别模型和控件识别模型的人工智能模块，对第一显示画面对应的场景信息和包括的控件信息进行自动识别，并对第一显示画面中的控件进行遍历，从而得到待测功能服务的场景拓扑。其中，可以将场景拓扑以场景树结构的形式进行保存。在生成场景树的过程中，可以通过对第一显示图像的识别以创建场景树中包括的场景节点。

可以看出，本申请实施例提供的该技术方案可以在影响待测功能服务的前提下，实现对功能服务中场景的分类，场景中控件的识别，以及控件的模拟控制。基于目前的自动化操作过程中都包括控件的模拟操作，由此，该方案为多种自动化任务中的基础能力。

基于前述实施例提供的基于人工智能的场景拓扑确定方法，本申请实施例提供一种基于人工智能的场景拓扑确定装置，参见图13a，该图示出了本申请实施例提供的一种基于人工智能的场景拓扑确定装置结构图，所述装置包括确定单元1301、识别单元1302和获取单元1303：

所述确定单元1301，用于根据待测功能服务的第一显示图像，确定所述第一显示图像对应的第一场景信息；

所述识别单元1302，用于识别所述第一显示图像中的控件，所述控件为可操控的模块；识别出的所述控件包括第一控件；

所述获取单元1303，用于通过根据所述第一控件生成的控制指令，获取第二显示图像；所述第一控件生成的控制指令用于指示通过所述待测功能服务触发所述第一控件；

所述确定单元1301，用于确定所述第二显示图像对应的第二场景信息；

所述确定单元1301，用于根据所述第一场景信息、所述第二场景信息和所述第一控件间的关联关系，确定所述待测功能服务的场景拓扑。

可选的，参见图13b，该图示出了本申请实施例提供的一种基于人工智能的场景拓扑确定装置结构图，所述装置还包括判断单元1304：

所述判断单元1304，用于在所述识别所述第一显示图像中的控件之后，判断所述第一显示图像中是否包括未触发的控件；

所述获取单元1303，用于若确定第二控件为未触发的控件，通过根据所述第二控件生成的控制指令，获取第三显示图像；所述第二控件生成的控制指令用于指示通过所述待测功能服务触发所述第二控件；

所述确定单元1301，用于确定所述第三显示图像对应的第三场景信息；

所述确定单元1301，用于根据所述第一场景信息、所述第三场景信息和所述第二控件间的关联关系，确定所述待测功能服务的场景拓扑。

可选的，所述识别单元1302，具体用于：

通过控件识别模型识别所述第一显示图像中的控件；

所述控件识别模型至少包括神经网络子模型，训练所述神经网络子模型的训练样本包括如下训练样本中的一种或多种：

组合不同控件和图像生成的训练样本；

根据从历史显示图像中控件位置剪裁出感兴趣区域生成的训练样本；

根据从至少两张所述历史显示图像中提取的不变区域生成的训练样本。

可选的，所述识别单元1302，还具体用于：

所述控件识别模型还包括文字识别子模型；通过所述神经网络子模型确定所述第一显示图像中包括所述控件的控件数量和位置区域；

根据所述控件的位置区域，通过所述文字识别子模型识别所述控件的名称。

可选的，所述识别单元1302，还具体用于：

所述场景信息包括场景类别，作为显示图像的所述第一显示图像或所述第二显示图像，对应的场景类别通过如下方式确定：

通过场景识别模型确定所述显示图像对应的场景类别；所述场景识别模型是通过包括场景类别标签的显示图像样本训练得到的，其中，具有同一个场景类别标签的显示图像样本间的数量差小于预设值。

可选的，控件具有根据控件类型设置的优先级，所述第一控件是根据所述优先级确定的。

可选的，其特征在于，所述判断单元1304，还具体用于：

判断所述第一显示图像是否为不具有控件的指定类型图像；

若否，执行所述根据待测功能服务的第一显示图像，确定所述第一显示图像对应的第一场景信息的步骤。

可选的，其特征在于，所述判断单元1304，还具体用于：

根据所述第一场景信息判断所述第一显示图像对应的场景是否处于所述场景拓扑中；

若否，执行所述识别所述第一显示图像中的控件的步骤。

可选的，其特征在于，参见图13c，该图示出了本申请实施例提供的一种基于人工智能的场景拓扑确定装置结构图，所述装置还包括测评单元1305，所述测评单元1305，用于：

在确定完所述待测功能服务的场景拓扑后，获取场景识别记录，以及根据控制指令生成的控件触发记录；

根据所述场景识别记录和所述控件触发记录确定指标参数；

根据所述指标参数确定所述场景拓扑的评测指标。

本申请实施例还提供了一种用于基于人工智能的场景拓扑确定设备，下面结合附图对用于基于人工智能的场景拓扑确定设备进行介绍。请参见图14所示，本申请实施例提供了一种用于基于人工智能的场景拓扑确定设备1400，该设备1400还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图14示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图14，手机包括：射频(Radio Frequency，简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity，简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490(比如电池)，优选的，电源可以通过电源管理系统与处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

确定所述第二显示图像对应的第二场景信息；

本申请实施例提供的用于基于人工智能的场景拓扑确定设备可以是服务器，请参见图15所示，图15为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central ProcessingUnits，简称CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

其中，CPU1522用于执行如下步骤：

确定所述第二显示图像对应的第二场景信息；

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于人工智能的场景拓扑确定方法，其特征在于，所述方法包括：

确定所述第二显示图像对应的第二场景信息；

2.根据权利要求1所述的方法，其特征在于，在所述识别所述第一显示图像中的控件之后，所述方法还包括：

判断所述第一显示图像中是否包括未触发的控件；

若确定第二控件为未触发的控件，通过根据所述第二控件生成的控制指令，获取第三显示图像；所述第二控件生成的控制指令用于指示通过所述待测功能服务触发所述第二控件；

确定所述第三显示图像对应的第三场景信息；

根据所述第一场景信息、所述第三场景信息和所述第二控件间的关联关系，确定所述待测功能服务的场景拓扑。

3.根据权利要求1所述的方法，其特征在于，所述识别所述第一显示图像中的控件，包括：

通过控件识别模型识别所述第一显示图像中的控件；

组合不同控件和图像生成的训练样本；

4.根据权利要求3所述的方法，其特征在于，所述控件识别模型还包括文字识别子模型；所述通过控件识别模型识别所述第一显示图像中的控件，包括：

通过所述神经网络子模型确定所述第一显示图像中包括所述控件的控件数量和位置区域；

5.根据权利要求1所述的方法，其特征在于，所述场景信息包括场景类别，作为显示图像的所述第一显示图像或所述第二显示图像，对应的场景类别通过如下方式确定：

6.根据权利要求1所述的方法，其特征在于，控件具有根据控件类型设置的优先级，所述第一控件是根据所述优先级确定的。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述第一显示图像是否为不具有控件的指定类型图像；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若否，执行所述识别所述第一显示图像中的控件的步骤。

9.根据权利要求1-8任意一项所述的方法，其特征在于，所述方法还包括：

根据所述场景识别记录和所述控件触发记录确定指标参数；

根据所述指标参数确定所述场景拓扑的评测指标。

10.一种基于人工智能的场景拓扑确定装置，其特征在于，所述装置包括确定单元、识别单元和获取单元：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括判断单元：

所述判断单元，用于在所述识别所述第一显示图像中的控件之后，判断所述第一显示图像中是否包括未触发的控件；

所述获取单元，用于若确定第二控件为未触发的控件，通过根据所述第二控件生成的控制指令，获取第三显示图像；所述第二控件生成的控制指令用于指示通过所述待测功能服务触发所述第二控件；

所述确定单元，用于确定所述第三显示图像对应的第三场景信息；

所述确定单元，用于根据所述第一场景信息、所述第三场景信息和所述第二控件间的关联关系，确定所述待测功能服务的场景拓扑。

12.根据权利要求10所述的装置，其特征在于，所述识别单元，具体用于：

通过控件识别模型识别所述第一显示图像中的控件；

组合不同控件和图像生成的训练样本；

13.根据权利要求12所述的装置，其特征在于，所述识别单元，还具体用于：

14.一种用于基于人工智能的场景拓扑确定的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-9所述的基于人工智能的场景拓扑确定方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-9所述的基于人工智能的场景拓扑确定方法。