CN111885398B

CN111885398B - 基于三维模型的交互方法、装置、系统、电子设备和存储介质

Info

Publication number: CN111885398B
Application number: CN202010698810.4A
Authority: CN
Inventors: 郑深圳; 白杰; 张蕾
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2021-12-07
Anticipated expiration: 2040-07-20
Also published as: CN111885398A

Abstract

本发明实施例公开了一种基于三维模型的交互方法、装置、系统、电子设备和存储介质，其中，该基于三维模型的交互方法应用于第一用户终端，第一用户终端呈现有用户页面，该基于三维模型的交互方法包括：响应于检测到用户针对用户页面的目标交互操作，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型；接收服务器从第二用户终端获取的流媒体视频；在用户界面上呈现流媒体视频和三维模型。本发明实施例通过在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，有助于满足用户更多元化的交互需求。

Description

基于三维模型的交互方法、装置、系统、电子设备和存储介质

技术领域

本发明涉及流媒体技术，尤其是一种基于三维模型的交互方法、装置、系统、电子设备和存储介质。

背景技术

相对于二维画面，三维模型可以给人以更为强烈的视觉观感。有了物体的三维数据，便可以向用户呈现该物体的任意视图，并且，视图间可以保持正确的投影关系。

现有技术中，在用户终端呈现三维模型的同时，可以支持用户终端间的实时语音同屏交互，也即，在用户终端呈现三维模型的过程中，用户终端的对端用户的语音可以实时传输至该用户终端，并且，用户终端获取的语音也可以实时传输至对端。

然而，现有技术中的上述交互方式较为单一，语音交互通常存在局限性。

发明内容

本发明实施例提供一种基于三维模型的交互方法、装置、系统、电子设备和存储介质，以提高基于三维模型的交互方式的多样性，满足用户更多元化的交互需求。

根据本发明实施例的一个方面，提供的一种基于三维模型的交互方法，所述基于三维模型的交互方法应用于第一用户终端，所述第一用户终端呈现有用户页面，所述方法包括：

响应于检测到用户针对所述用户页面的目标交互操作，向为所述用户页面提供页面数据的服务器发送针对所述目标交互操作的交互请求，其中，所述用户页面用于呈现三维模型，所述三维模型与第二用户终端登录的用户账号预先建立关联关系；

接收所述服务器从所述第二用户终端获取的流媒体视频；

在所述用户界面上呈现所述流媒体视频和所述三维模型。

可选地，在本发明任一实施例的方法中，所述接收所述服务器从所述第二用户终端获取的流媒体视频，包括：

响应于所述服务器接收到所述第二用户终端针对所述交互请求发送的交互确认信息，接收所述服务器从所述第二用户终端获取的流媒体视频。

可选地，在本发明任一实施例的方法中，所述方法还包括：

响应于所述第一用户终端的当前网速值小于或等于预设网速阈值，基于所述流媒体视频中的各帧语音，对目标用户图像进行调整，生成新视频，其中，所述新视频表征所述目标用户图像指示的用户执行所述各帧语音指示的动作；

采用所述新视频替代所述流媒体视频进行呈现。

可选地，在本发明任一实施例的方法中，所述方法还包括：

基于所述流媒体视频中的图像，生成目标用户图像；或者

将与所述用户账号相关联的用户图像确定为目标用户图像。

可选地，在本发明任一实施例的方法中，所述方法还包括：

响应于所述用户页面呈现有所述新视频，向所述服务器发送摄像头关闭确认信息，其中，所述摄像头关闭确认信息用于确定所述第二用户终端是否关闭摄像头。

将所述第一用户终端的当前网速值发送至所述服务器；

接收所述服务器发送的分辨率与所述当前网速值相匹配的、所述第二用户终端获取的流媒体视频。

可选地，在本发明任一实施例的方法中，所述方法还包括：

接收所述服务器发送的模型调整信息，其中，所述模型调整信息指示使用所述第二用户终端的用户对呈现于所述第二用户终端的所述三维模型的调整操作，所述调整操作包括以下至少一项：缩放、旋转、移动、视点切换；

按照所述模型调整信息指示的调整操作，对所述用户界面上呈现的所述三维模型进行相同调整操作。

可选地，在本发明任一实施例的方法中，所述三维模型包括多个子空间场景的三维子模型，所述多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及

所述方法还包括：

对所述流媒体视频中的语音进行语音识别，得到语音识别结果；

响应于确定所述语音识别结果包含所述关键词集合中的关键词，在所述用户界面上呈现与所述语音识别结果包含的关键词相对应的子空间场景的三维子模型。

可选地，在本发明任一实施例的方法中，所述方法还包括：

获取用户针对所述流媒体视频的反馈信息；

将所述反馈信息发送至所述服务器，其中，所述服务器用于将所述反馈信息与所述用户账号建立关联关系。

根据本发明实施例的第二个方面，提供的一种基于三维模型的交互方法，所述基于三维模型的交互方法，应用于第二用户终端，其特征在于，所述第二用户终端登录的用户账号与三维模型预先建立关联关系，所述方法包括：

所述第二用户终端登录的用户账号与三维模型预先建立关联关系，所述方法包括：

响应于接收到服务器发送的交互请求，获取流媒体视频，其中，所述交互请求指示第一用户终端检测到用户针对所述第一用户终端呈现的用户页面的目标交互操作，所述用户页面用于呈现所述三维模型；

向所述服务器发送所述流媒体视频，其中，所述服务器用于将所述流媒体视频发送至所述第一用户终端，以使所述第一用户终端在所述用户界面上呈现所述流媒体视频和所述三维模型。

可选地，在本发明任一实施例的方法中，所述响应于接收到服务器发送的交互请求，获取流媒体视频，包括：

响应于接收到服务器发送的交互请求，确定是否检测到用户针对所述交互请求的确认操作响应于检测到所述确认操作；

响应于检测到所述确认操作，获取流媒体视频。

可选地，在本发明任一实施例的方法中，所述方法还包括：

响应于所述第一用户终端的当前网速值小于或等于预设网速阈值，从所述服务器接收摄像头关闭确认信息，以及呈现所述摄像头关闭确认信息，其中，所述摄像头关闭确认信息用于确定所述第二用户终端是否关闭摄像头。

可选地，在本发明任一实施例的方法中，所述方法还包括：

响应于从所述服务器接收到用户对呈现于所述第一用户终端的所述三维模型的调整操作，按照所述模型调整信息指示的调整操作，对所述第二用户终端呈现的所述三维模型进行相同调整操作，其中，所述调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

可选地，在本发明任一实施例的方法中，所述方法还包括：

响应于检测到用户对呈现于所述第二用户终端的所述三维模型的调整操作，向所述服务器发送指示所述调整操作的模型调整信息，以使所述服务器控制所述第一用户终端按照所述模型调整信息指示的调整操作，对所述用户界面上呈现的所述三维模型进行相同调整操作，其中，所述调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

所述方法还包括：

对所述第一用户终端获取的语音进行语音识别，得到语音识别结果；

可选地，在本发明任一实施例的方法中，所述方法还包括：

响应于接收到所述服务器发送的、使用所述第一用户终端的用户针对所述流媒体视频的反馈信息，执行与所述反馈信息相匹配的操作。

根据本发明实施例的第三个方面，提供的一种基于三维模型的交互装置，该基于三维模型的交互装置设置于第一用户终端，所述第一用户终端呈现有用户页面，所述装置包括：

第一发送单元，被配置成响应于检测到用户针对所述用户页面的目标交互操作，向为所述用户页面提供页面数据的服务器发送针对所述目标交互操作的交互请求，其中，所述用户页面用于呈现三维模型，所述三维模型与第二用户终端登录的用户账号预先建立关联关系；

第一接收单元，被配置成接收所述服务器从所述第二用户终端获取的流媒体视频；

第一呈现单元，被配置成在所述用户界面上呈现所述流媒体视频和所述三维模型。

可选地，在本发明任一实施例的装置中，所述第一接收单元进一步被配置成：

可选地，在本发明任一实施例的装置中，所述装置还包括：

第一调整单元，被配置成响应于所述第一用户终端的当前网速值小于或等于预设网速阈值，基于所述流媒体视频中的各帧语音，对目标用户图像进行调整，生成新视频，其中，所述新视频表征所述目标用户图像指示的用户执行所述各帧语音指示的动作；

第二呈现单元，被配置成采用所述新视频替代所述流媒体视频进行呈现。

可选地，在本发明任一实施例的装置中，所述装置还包括：

第一生成单元，被配置成基于所述流媒体视频中的图像，生成目标用户图像；或者

第一确定单元，被配置成将与所述用户账号相关联的用户图像确定为目标用户图像。

可选地，在本发明任一实施例的装置中，所述装置还包括：

第二发送单元，被配置成响应于所述用户页面呈现有所述新视频，向所述服务器发送摄像头关闭确认信息，其中，所述摄像头关闭确认信息用于确定所述第二用户终端是否关闭摄像头。

将所述第一用户终端的当前网速值发送至所述服务器；

可选地，在本发明任一实施例的装置中，，所述装置还包括：

第二接收单元，被配置成接收所述服务器发送的模型调整信息，其中，所述模型调整信息指示使用所述第二用户终端的用户对呈现于所述第二用户终端的所述三维模型的调整操作，所述调整操作包括以下至少一项：缩放、旋转、移动、视点切换；

第二调整单元，被配置成按照所述模型调整信息指示的调整操作，对所述用户界面上呈现的所述三维模型进行相同调整操作。

可选地，在本发明任一实施例的装置中，所述三维模型包括多个子空间场景的三维子模型，所述多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及

所述装置还包括：

第一识别单元，被配置成对所述流媒体视频中的语音进行语音识别，得到语音识别结果；

第三呈现单元，被配置成响应于确定所述语音识别结果包含所述关键词集合中的关键词，在所述用户界面上呈现与所述语音识别结果包含的关键词相对应的子空间场景的三维子模型。

可选地，在本发明任一实施例的装置中，所述装置还包括：

第一获取单元，被配置成获取用户针对所述流媒体视频的反馈信息；

第三发送单元，被配置成将所述反馈信息发送至所述服务器，其中，所述服务器用于将所述反馈信息与所述用户账号建立关联关系。

根据本发明实施例的第四个方面，提供的一种基于三维模型的交互装置，该基于三维模型的交互装置设置于第二用户终端，所述第二用户终端登录的用户账号与三维模型预先建立关联关系，所述装置包括：

第二确定单元，被配置成响应于接收到服务器发送的交互请求，获取流媒体视频，其中，所述交互请求指示第一用户终端检测到用户针对所述第一用户终端呈现的用户页面的目标交互操作，所述用户页面用于呈现所述三维模型；

第四发送单元，被配置成向所述服务器发送所述流媒体视频，其中，所述服务器用于将所述流媒体视频发送至所述第一用户终端，以使所述第一用户终端在所述用户界面上呈现所述流媒体视频和所述三维模型。

可选地，在本发明任一实施例的装置中，所述第二确定单元进一步被配置成：

响应于接收到服务器发送的交互请求，确定是否检测到用户针对所述交互请求的确认操作；

响应于检测到所述确认操作，获取流媒体视频。

可选地，在本发明任一实施例的装置中，所述装置还包括：

第三接收单元，被配置成响应于所述第一用户终端的当前网速值小于或等于预设网速阈值，从所述服务器接收摄像头关闭确认信息，以及呈现所述摄像头关闭确认信息，其中，所述摄像头关闭确认信息用于确定所述第二用户终端是否关闭摄像头。

可选地，在本发明任一实施例的装置中，所述装置还包括：

第二生成单元，被配置成基于所述流媒体视频中的图像，生成目标用户图像；或者

第三确定单元，被配置成将与所述用户账号相关联的用户图像确定为目标用户图像。

可选地，在本发明任一实施例的装置中，所述装置还包括：

第五发送单元，被配置成响应于检测到用户对呈现于所述第二用户终端的所述三维模型的调整操作，向所述服务器发送指示所述调整操作的模型调整信息，以使所述服务器控制所述第一用户终端按照所述模型调整信息指示的调整操作，对所述用户界面上呈现的所述三维模型进行相同调整操作，其中，所述调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

所述装置还包括：

第二识别单元，被配置成对所述第一用户终端获取的语音进行语音识别，得到语音识别结果；

第四呈现单元，被配置成响应于确定所述语音识别结果包含所述关键词集合中的关键词，在所述用户界面上呈现与所述语音识别结果包含的关键词相对应的子空间场景的三维子模型。

可选地，在本发明任一实施例的装置中，所述装置还包括：

执行单元，被配置成响应于接收到所述服务器发送的、使用所述第一用户终端的用户针对所述流媒体视频的反馈信息，执行与所述反馈信息相匹配的操作。

根据本发明实施例的第五个方面，提供的一种基于三维模型的交互系统，该基于三维模型的交互系统包括第一用户终端、第二用户终端和服务器，其特征在于，所述第一用户终端呈现有用户页面，所述服务器与所述第一用户终端、所述第二用户终端分别通信连接，其中：

所述第一用户终端被配置成：响应于检测到用户针对所述用户页面的目标交互操作，向所述服务器发送针对所述目标交互操作的交互请求，其中，所述用户页面用于呈现三维模型，所述三维模型与第二用户终端登录的用户账号预先建立关联关系；

所述第二用户终端被配置成：获取流媒体视频；向所述服务器发送所述流媒体视频；

所述服务器被配置成：向所述第一用户终端发送所述流媒体视频；

所述第一用户终端被配置成：在所述用户界面上呈现所述流媒体视频和所述三维模型。

根据本发明实施例的第六个方面，提供的一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本发明上述任一实施例所述的方法。

根据本发明实施例的第七个方面，提供的一种计算机可读介质，该计算机程序被处理器执行时，实现如上述任一实施例所述的方法。

本发明上述实施例提供的第一种基于三维模型的交互方法，应用于第一用户终端，第一用户终端呈现有用户页面，该方法包括：在检测到用户针对用户页面的目标交互操作的情况下，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系，之后，接收服务器从第二用户终端获取的流媒体视频，最后，在用户界面上呈现流媒体视频和三维模型。本发明实施例通过在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

本发明的上述实施例提供的第二种基于三维模型的交互方法，应用于第二用户终端，第二用户终端登录的用户账号与三维模型预先建立关联关系。第二用户终端可以在接收到服务器发送的交互请求的情况下，获取流媒体视频，其中，交互请求指示第一用户终端检测到用户针对第一用户终端呈现的用户页面的目标交互操作，用户页面用于呈现三维模型，向服务器发送流媒体视频，其中，服务器用于将流媒体视频发送至第一用户终端，以使第一用户终端在用户界面上呈现流媒体视频和三维模型。本发明实施例通过在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

本发明的上述实施例提供的基于三维模型的交互系统包括第一用户终端、第二用户终端和服务器，第一用户终端呈现有用户页面，服务器与第一用户终端、第二用户终端分别通信连接。其中：第一用户终端被配置成：响应于检测到用户针对用户页面的目标交互操作，向服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系；第二用户终端被配置成：获取流媒体视频；向服务器发送流媒体视频；服务器被配置成：向第一用户终端发送流媒体视频；第一用户终端被配置成：在用户界面上呈现流媒体视频和三维模型。由此，可以在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明的第一个基于三维模型的交互方法的一个实施例的流程图。

图2A-图2C是针对图1的实施例的应用场景示意图。

图3为本发明的第一个基于三维模型的交互方法的另一个实施例的流程图。

图4为本发明的第一个基于三维模型的交互方法的又一个实施例的流程图。

图5为本发明的第二个基于三维模型的交互方法的一个实施例的流程图。

图6为本发明的第二个基于三维模型的交互方法的另一个实施例的流程图。

图7为本发明的第一个基于三维模型的交互装置的一个实施例的流程图。

图8为本发明的第二个基于三维模型的交互装置的一个实施例的流程图。

图9为本发明的基于三维模型的交互系统的一个实施例的交互示意图。

图10为本发明一示例性实施例提供的电子设备的结构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同概念、步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统和服务器中的至少一种电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统和服务器中的至少一种电子设备一起使用的众所周知的计算环境和/或配置的例子包括但不限于：个人计算机服务器计算机瘦客户机、厚客户机、手持或膝上设备、基于微处理器的机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统和服务器中的至少一种电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

请参考图1，示出了根据本发明的第一个基于三维模型的交互方法的一个实施例的流程100。该基于三维模型的交互方法应用于第一用户终端，第一用户终端呈现有用户页面，该基于三维模型的交互方法包括：

步骤101，响应于检测到用户针对用户页面的目标交互操作，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求。

在本实施例中，用户可以使用第一用户终端通过网络与服务器进行交互。第一用户终端可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。第一用户终端可以安装有各种客户端应用，例如房产交易软件等。上述用户页面可以是第一用户终端所安装的应用中的页面。实践中，用户可以通过该用户页面与服务器进行交互，进而实现与其他用户终端(例如第二用户终端)之间的交互。

在本实施例中，在检测到用户针对用户页面的目标交互操作的情况下，第一用户终端可以向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求。

其中，上述用户页面用于呈现三维模型。三维模型与第二用户终端登录的用户账号预先建立关联关系。上述目标交互操作可以是各种用于指示第一用户终端请求与第二用户终端进行交互(信息交互)的操作。作为示例，该目标交互操作可以指示与第二用户终端进行视频通信。上述交互请求可以用于指示第一用户终端的用户请求与第二用户终端进行交互。示例性的，上述交互请求可以用于指示第一用户终端的用户请求与第二用户终端进行视频通信。

在这里，在执行上述步骤101时，第一用户终端的用户页面可以呈现有上述三维模型，也可以未呈现三维模型。

实践中，对于每个三维模型，其可以与一个用户账号预先建立有关联关系。由此，对于一个特定的三维模型，可以通过确定与该三维模型建立有关联关系的用户账号，从而确定登录该用户账号的用户终端，进而确定出用于与第一用户终端进行交互的用户终端(即第二用户终端)。

上述三维模型可以是任意物体的三维模型。示例性的，该三维模型可以是细胞内部的三维模型，也可以是房屋室内三维模型。

步骤102，接收服务器从第二用户终端获取的流媒体视频。

在本实施例中，上述第一用户终端可以接收服务器从第二用户终端获取的流媒体视频。

其中，上述交互确认信息可以用于指示所述第二用户终端的用户确认(同意)与第一用户终端进行上述交互请求指示的交互。例如，上述交互确认信息可以用于指示所述第二用户终端的用户确认(同意)与第一用户终端进行视频通信。

上述流媒体视频可以包含图像和/或语音。实践中，第二用户终端的图像获取装置和/或语音获取装置，可以用于获取上述流媒体视频。

实践中，服务器可以采用流媒体技术，将第二用户终端采集的图像和/或语音(即流媒体视频)，持续发送至第一用户终端。其中，流媒体技术是指采用流式传输技术在网络上连续实时播放的媒体格式。流媒体技术也称流式媒体技术。这里，第二用户终端可以将其所采集的连续的影像和声音信息经过压缩处理后发送至服务器。由服务器向第一用户终端顺序或实时地传送各个压缩包，让使用第一用户终端的用户一边下载一边观看、收听。

可选的，服务器可以将第二用户终端采集的流媒体视频发送至第一用户终端，也可以对第二用户终端采集的流媒体视频进行图像处理(例如美颜)、语音处理(例如去噪)、转码、录制、鉴黄等操作后，将处理后的流媒体视频发送至第一用户终端。

在本实施例的一些可选的实现方式中，可以在服务器接收到第二用户终端针对交互请求发送的交互确认信息的情况下，上述执行主体再执行上述步骤102。

可以理解，上述可选的实现方式中，在第二用户终端针对交互请求发送的交互确认信息的情况下，通过后续步骤第一用户终端可以呈现流媒体视频；而在第二用户终端未发送上述交互确认信息的情况下，第一用户终端则不呈现流媒体视频，由此，可以在获得第二用户终端的用户的允许(例如接通第一用户终端发起的视频通话)后，才在第一用户终端的用户界面上呈现流媒体视频和三维模型，有助于提高对第二用户终端的用户的隐私保护性，为第二用户终端的用户向第一用户终端的用户呈现流媒体视频提供准备时间。

在本实施例的一些可选的实现方式中，在服务器接收到交互请求之后，上述执行主体也可以直接执行上述步骤102(而无需第二用户终端针对交互请求发送的交互确认信息)。

可以理解，上述可选的实现方式中，第二用户终端的用户可以处于向其他用户终端的用户拍摄流媒体视频(例如直播)的状态，由此，在服务器接收到交互请求之后，第一用户终端可以随时接收服务器从第二用户终端获取的流媒体视频，从而提高了流媒体视频呈现的实时性。

在本实施例的一些可选的实现方式中，第一用户终端可以采用如下步骤接收服务器从第二用户终端获取的流媒体视频：

首先，将第一用户终端的当前网速值发送至服务器。

然后，接收服务器发送的分辨率与当前网速值相匹配的、第二用户终端获取的流媒体视频。

在这里，分辨率可以与网速值成正相关。

可以理解，通过接收服务器发送的分辨率与当前网速值相匹配的、第二用户终端获取的流媒体视频，可以在网络较差的情况下，降低第一用户终端接收的流媒体视频的分辨率，以提高流媒体视频传输的实时性。

步骤103，在用户界面上呈现流媒体视频和三维模型。

在本实施例中，第一用户终端可以在用户界面上，同屏呈现流媒体视频和三维模型。

在这里，第一用户终端的上述用户页面可以被划分为两个部分，上述两个部分可以分别呈现流媒体视频和三维模型。可选的，也可以将三维模型作为上述用户页面的背景，在用户页面的一部分页面区域呈现流媒体视频。

请参考图2A-2C，图2A-2C是针对图1的实施例的应用场景示意图。如图2A所示，在第一用户终端检测到用户针对用户页面的目标交互操作201(图示中目标交互操作201指示开启视频实时交互)的情况下，第一用户终端可以向为用户页面提供页面数据的服务器发送针对目标交互操作201的交互请求。其中，图2A中，用户页面呈现有XX家园的房屋室内的三维模型。该三维模型与第二用户终端登录的用户账号预先建立关联关系。在图2B中，第二用户终端接收到上述交互请求之后，第二用户终端的用户执行了开始交互的操作202。之后，第二用户终端向服务器发送针对交互请求的交互确认信息，以及第二用户终端采集的流媒体视频。最后，如图2C所示，第一用户终端在用户界面上呈现了流媒体视频303和三维模型。

本发明的上述实施例提供的基于三维模型的交互方法，可以在检测到用户针对用户页面的目标交互操作的情况下，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系，之后，接收服务器从第二用户终端获取的流媒体视频，最后，在用户界面上呈现流媒体视频和三维模型。本发明实施例通过在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

在本实施例的一些可选的实现方式中，上述第一用户终端还可以执行如下步骤：

首先，接收服务器发送的模型调整信息，其中，模型调整信息指示使用第二用户终端的用户对呈现于第二用户终端的三维模型的调整操作，调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

这里，通常情况下，用户可以对三维模型进行缩放、旋转、移动、视点切换中的至少一项操作。

然后，按照模型调整信息指示的调整操作，对用户界面上呈现的三维模型进行相同调整操作。

可以理解，上述可选的实现方式中，第二用户终端的用户对三维模型所执行的操作，可以同步到第一用户终端。由此，在第二用户终端采集的流媒体视频与三维模型相关(例如，第二用户中终端的用户对三维模型进行讲解、介绍等)时，方便第一用户终端的用户参考与第二用户终端呈现的相同三维模型，对流媒体视频中的信息进行获取，从而提高了信息获取的针对性。

首先，获取用户针对流媒体视频的反馈信息。其中，该反馈信息可以包括但不限于以下至少一项：点赞、评分、评论等等。该反馈信息可以用于表征第一用户终端的用户对第二用户终端的用户的流媒体视频的评价。

然后，将反馈信息发送至服务器，其中，服务器用于将反馈信息与用户账号建立关联关系。例如，可以采用关联存储的方式，将反馈信息与用户账号建立关联关系。

可以理解，将反馈信息与用户账号建立关联关系，可以反映第一用户终端的用户对三维模型指示的物体、对第二用户终端的用户的满意程度，进而可以更具针对性地为第一用户终端推送信息。

进一步参考图3，图3是本发明的第一个基于三维模型的交互方法的又一个实施例的流程300，该基于三维模型的交互方法应用于第一用户终端，第一用户终端呈现有用户页面，该方法包括：

步骤301，响应于检测到用户针对用户页面的目标交互操作，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求。

步骤302：接收服务器从第二用户终端获取的流媒体视频。

步骤303，在用户界面上呈现流媒体视频和三维模型。

在本实施例中，步骤301至步骤303分别与图1对应实施例中的步骤101至步骤103基本一致，这里不再赘述。

步骤304，响应于第一用户终端的当前网速值小于或等于预设网速阈值，基于流媒体视频中的各帧语音，对目标用户图像进行调整，生成新视频。

在本实施例中，在第一用户终端的当前网速值小于或等于预设网速阈值的情况下，上述第一用户终端可以基于流媒体视频中的各帧语音，对目标用户图像进行调整，生成新视频。其中，新视频表征目标用户图像指示的用户执行各帧语音指示的动作。其中，目标用户图像指示的用户可以是使用第二用户终端的用户。可选的，上述新视频可以是基于网络分段发送、即时传输的流媒体视频，也可以是无需基于网络在本地生成的或视频。

具体地，上述第一用户终端可以采用如下方式生成新视频：对于流媒体视频中的每帧语音，将该帧语音输入至预先确定的图像帧生成模型，得到与该帧语音相匹配的、目标用户图像指示的用户的图像。从而将所得到的与流媒体视频中的各帧语音相匹配的各帧图像，以及该各帧语音进行融合，从而得到新视频。其中，与语音相匹配的、目标用户图像指示的用户的图像中用户的动作与该语音相吻合。例如，如果语音为“啊”的音频，并且该音频表征用户处于惊吓状态，那么，与该音频相匹配的目标用户图像指示的用户的图像中的用户的口型可以是发出语音“啊”的口型，动作可以是处于惊吓状态下的动作。

在这里，上述图像帧生成模型可以是采用机器学习算法，基于包括语音帧、目标用户图像和与语音帧相匹配的图像帧的训练样本，训练得到的循环神经网络模型或卷积神经网络模型。其中，针对每个用户可以训练得到一个图像帧生成模型，用以训练该用户的图像帧生成模型的各个训练样本中的目标用户图像可以相同，针对该用户的每个语音帧确定出与该语音帧相匹配的图像帧，进而得到用以训练该用户的图像帧生成模型的训练样本集合。

可选的，上述图像帧生成模型还可以是关联存储有语音帧、目标用户图像和与语音帧相匹配的图像帧的二维表或数据库。其中，在图像帧生成模型还是关联存储有语音帧、目标用户图像和与语音帧相匹配的图像帧的数据库的情况下，该数据库的每条记录可以包括语音帧、目标用户图像和与语音帧相匹配的图像帧。各条记录中的目标用户图像可以相同，针对该用户的每个语音帧确定出与该语音帧相匹配的图像帧，进而得到关联存储有语音帧、目标用户图像和与语音帧相匹配的图像帧的数据库，即图像帧生成模型。

在本实施例的一些可选的实现方式中，第一用户终端还可以通过以下任一方式，确定出目标用户图像：

第一项，基于流媒体视频中的图像，生成目标用户图像。

这里，可以从流媒体视频中的各帧图像中，随机选取一张图像作为目标用户图像，也可以从流媒体视频中的各帧图像中，选取一张面部图像区域与整张图像帧的面积之比大于预设阈值的图像，作为目标用户图像。

第二项，将与用户账号相关联的用户图像确定为目标用户图像。

这里，用户可以通过其所使用的用户账号上传一张图像，作为目标用户图像；也可以在登录其所使用的账号之后，从预先确定的图像集合中选取一张图像，作为目标用户图像。

可以理解，上述可选的实现方式可以实现从流媒体视频中的图像中，自动生成目标用户图像，或者，用户手动设置目标用户图像，从而基于多种目标用户图像的确定方式，使得新视频的生成方式更为多样化。

步骤305，采用新视频替代流媒体视频进行呈现。

在本实施例中，第一用户终端可以采用新视频替代流媒体视频进行呈现。换言之，在第一用户终端呈现新视频时，可以对流媒体视频进行隐藏(即不再呈现)。

需要说明的是，除上面所记载的内容外，本申请实施例还可以包括与图1对应的实施例相同或类似的特征、效果，在此不再赘述。

从图3中可以看出，本实施例中的基于三维模型的交互方法的流程300在第一用户终端的当前网速值较小(小于或等于预设网速阈值)的情况下，上述第一用户终端可以在本地生成用以替代流媒体视频呈现的新视频，由此，第一用户终端只需从服务器持续获取语音，而无需持续获取视频，从而降低了对网络资源的占用，可以在第一用户终端的当前网速值较小的情况下，提高第一用户终端的视频呈现的实时性。

在本实施例的一些可选的实现方式中，在用户页面呈现有新视频(未呈现第二用户终端获取的流媒体视频)的情况下，第一用户终端还可以向上述服务器发送摄像头关闭确认信息。其中，摄像头关闭确认信息用于确定第二用户终端是否关闭摄像头。

可以理解，在服务器接收到摄像头关闭确认信息之后，服务器可以向第二用户终端发送用于确定第二用户终端是否关闭摄像头的信息。由此，第二用户终端的用户可以通过关闭摄像头，来降低第二用户终端对网络资源的占用。

请继续参考图4，图4是本发明的第一个基于三维模型的交互方法的又一个实施例的流程图。该基于三维模型的交互方法应用于第一用户终端，第一用户终端呈现有用户页面。该基于三维模型的交互方法的流程400，包括：

步骤401，响应于检测到用户针对用户页面的目标交互操作，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求。

步骤402，接收服务器从第二用户终端获取的流媒体视频。

步骤403，在用户界面上呈现流媒体视频和三维模型。

在本实施例中，步骤401至步骤403分别与图1对应实施例中的步骤101至步骤103基本一致，这里不再赘述。

但需要说明的是，在本实施例中，三维模型包括多个子空间场景的三维子模型，多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应。

步骤404，对流媒体视频中的语音进行语音识别，得到语音识别结果。

在本实施例中，第一用户终端可以对流媒体视频中的语音进行语音识别，得到语音识别结果。

这里，语音识别结果可以表征流媒体视频中的语音对应的文字。

步骤405，响应于确定语音识别结果包含关键词集合中的关键词，在用户界面上呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

在本实施例中，在确定语音识别结果包含关键词集合中的关键词的情况下，第一用户终端可以在上述用户界面上，呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

作为示例，如果上述三维模型为房屋室内的三维模型。该房屋包括卧室、客厅、厨房、卫生间，共四个子空间场景，也即上述三维模型包括卧室的三维子模型、客厅的三维子模型、厨房的三维子模型、卫生间的三维子模型。关键词集合包括卧室、客厅、厨房、卫生间。由此，与子空间场景卧室相对应的关键词可以是“卧室”；与子空间场景厨房相对应的关键词可以是“厨房”；与子空间场景客厅相对应的关键词可以是“客厅”；与子空间场景卫生间相对应的关键词可以是“卫生间”。进一步地，作为示例，如果语音识别结果包含关键词“卧室”，那么，第一用户终端可以在上述用户界面上，呈现卧室的三维子模型。

在这里，可以通过切换三维模型的视点，实现呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

需要说明的是，除上面所记载的内容外，本申请实施例还可以包括与图1和/或图3对应的实施例相同或类似的特征、效果，在此不再赘述。

从图4中可以看出，本实施例中的基于三维模型的交互方法的流程400中，可以通过语音实现三维模型的视点切换，从而呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。由此，提高了三维模型浏览的便利性，提高了所呈现的三维模型与第二用户终端获取的语音之间的匹配性。

请继续参考图5，示出了根据本发明的第二个基于三维模型的交互方法的一个实施例的流程500。该基于三维模型的交互方法应用于第二用户终端，第二用户终端登录的用户账号与三维模型预先建立关联关系。该基于三维模型的交互方法包括：

步骤501，响应于接收到服务器发送的交互请求，获取流媒体视频。

在本实施例中，用户可以使用第二用户终端通过网络与服务器、第一用户终端进行交互。第二用户终端可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。第二用户终端可以安装有各种客户端应用，例如房产交易软件等。

在本实施例中，在接收到服务器发送的交互请求的情况下，获取流媒体视频。

其中，交互请求指示第一用户终端检测到用户针对第一用户终端呈现的用户页面的目标交互操作。示例性的，上述交互请求可以用于指示第一用户终端的用户请求与第二用户终端进行视频通信。用户页面用于呈现三维模型。上述流媒体视频可以包含图像和/或语音。实践中，第二用户终端的图像获取装置和/或语音获取装置，可以用于获取上述流媒体视频。

实践中，在在检测到第一用户终端的用户针对用户页面的目标交互操作的情况下，第一用户终端可以向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求。其中，上述用户页面用于呈现三维模型。三维模型与第二用户终端登录的用户账号预先建立关联关系。上述目标交互操作可以是各种用于指示第一用户终端请求与第二用户终端进行交互(信息交互)的操作。作为示例，该目标交互操作可以指示与第二用户终端进行视频通信。

在这里，在执行上述步骤501时，第一用户终端的用户页面可以呈现有上述三维模型，也可以未呈现三维模型。

步骤502，向服务器发送流媒体视频。

在本实施例中，第二用户终端可以向服务器发送流媒体视频。其中，服务器用于将流媒体视频发送至第一用户终端，以使第一用户终端在用户界面上呈现流媒体视频和三维模型。

实践中，服务器可以采用流媒体技术，将第二用户终端采集的图像和/或语音(即流媒体将视频)，持续发送至第一用户终端。其中，流媒体技术是指采用流式传输技术在网络上连续实时播放的媒体格式。流媒体技术也称流式媒体技术。这里，第二用户终端可以将其所采集的连续的影像和声音信息经过压缩处理后发送至服务器。由服务器向第一用户终端顺序或实时地传送各个压缩包，让使用第一用户终端的用户一边下载一边观看、收听。

本发明的上述实施例提供的第二种基于三维模型的交互方法，应用于第二用户终端，第二用户终端登录的用户账号与三维模型预先建立关联关系。第二用户终端可以在接收到服务器发送的交互请求的情况下，确定是否检测到用户针对交互请求的确认操作，其中，交互请求指示第一用户终端检测到用户针对第一用户终端呈现的用户页面的目标交互操作，用户页面用于呈现三维模型，之后，在检测到确认操作的情况下，获取流媒体视频，最后向服务器发送流媒体视频，其中，服务器用于将流媒体视频发送至第一用户终端，以使第一用户终端在用户界面上呈现流媒体视频和三维模型。本发明实施例通过在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

在本实施例的一些可选的实现方式中，上述步骤501可以包括以下步骤：

首先，在接收到服务器发送的交互请求的情况下，确定是否检测到用户针对交互请求的确认操作响应于检测到确认操作。其中，确认操作表征第二用户终端的用户确认(同意)与第一用户终端进行交互(例如视频通信)。

然后，在检测到确认操作的情况下，获取流媒体视频。

可以理解，上述可选的实现方式中，在第二用户终端针对交互请求发送的交互确认信息的情况下，第一用户终端可以呈现流媒体视频；而在第二用户终端未发送上述交互确认信息的情况下，第一用户终端则不呈现流媒体视频，由此，可以在获得第二用户终端的用户的允许(例如接通第一用户终端发起的视频通话)后，才在第一用户终端的用户界面上呈现流媒体视频和三维模型，有助于提高对第二用户终端的用户的隐私保护性，为第二用户终端的用户向第一用户终端的用户呈现流媒体视频提供准备时间。

在本实施例的一些可选的实现方式中，在服务器接收到交互请求之后，上述执行主体也可以直接获取流媒体视频，并将流媒体视频通过服务器发送至第一用户终端，而无需第二用户终端的用户针对交互请求发送的交互确认信息。

在本实施例的一些可选的实现方式中，在第一用户终端的当前网速值小于或等于预设网速阈值的情况下，上述第二用户终端可以从服务器接收摄像头关闭确认信息，以及呈现摄像头关闭确认信息。其中，摄像头关闭确认信息用于确定第二用户终端是否关闭摄像头。

可以理解，在服务器接收到第一用户终端的当前网速值小于或等于预设网速阈值的信息之后，服务器可以向第二用户终端发送用于确定第二用户终端是否关闭摄像头的信息。由此，第二用户终端的用户可以通过关闭摄像头，来降低第二用户终端对网络资源的占用。

在本实施例中的一些可选的实现方式中，在检测到用户对呈现于第二用户终端的三维模型的调整操作的情况下，第二用户终端可以向服务器发送指示调整操作的模型调整信息，以使服务器控制第一用户终端按照模型调整信息指示的调整操作，对用户界面上呈现的三维模型进行相同调整操作。其中，调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

在本实施例中的一些可选的实现方式中，在从服务器接收到用户对呈现于第一用户终端的三维模型的调整操作的情况下，第二用户终端可以按照模型调整信息指示的调整操作，对第二用户终端呈现的三维模型进行相同调整操作。其中，调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

可以理解，上述可选的实现方式中，第一用户终端的用户对三维模型所执行的操作，可以同步到第二用户终端。由此，可以方便第一用户终端的用户参考与第二用户终端呈现的相同三维模型，对流媒体视频中的信息进行获取，从而提高了信息获取的针对性。

在本实施例中的一些可选的实现方式中，在接收到服务器发送的、使用第一用户终端的用户针对流媒体视频的反馈信息的情况下，上述第二用户终端可以执行与反馈信息相匹配的操作。其中，该反馈信息可以包括但不限于以下至少一项：点赞、评分、评论等等。该反馈信息可以用于表征第一用户终端的用户对第二用户终端的用户的流媒体视频的评价。

作为示例，如果第一用户终端的用户针对流媒体视频的反馈信息为点赞，那么，第二用户终端可以呈现与该反馈信息相匹配的操作，例如呈现“XX为您点了一赞！”。

可以理解，上述可选的实现方式可以提高互动的真实性、多样性。

进一步参考图6，图6是本发明的第二个基于三维模型的交互方法的又一个实施例的流程600，该基于三维模型的交互方法应用于第一用户终端，第一用户终端呈现有用户页面，该方法包括：

步骤601，响应于接收到服务器发送的交互请求，获取流媒体视频。

步骤602，向服务器发送流媒体视频。

在本实施例中，步骤601至步骤602分别与图5对应实施例中的步骤501至步骤502基本一致，这里不再赘述。

步骤603，对第一用户终端获取的语音进行语音识别，得到语音识别结果。

在本实施例中，第二用户终端可以对第一用户终端获取的语音进行语音识别，得到语音识别结果。

步骤604，响应于确定语音识别结果包含关键词集合中的关键词，在用户界面上呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

在本实施例中，在确定语音识别结果包含关键词集合中的关键词的情况下，上述第二用户终端可以在用户界面上呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

作为示例，如果上述三维模型为房屋室内的三维模型。该房屋包括卧室、客厅、厨房、卫生间，共四个子空间场景，也即上述三维模型包括卧室的三维子模型、客厅的三维子模型、厨房的三维子模型、卫生间的三维子模型。关键词集合包括卧室、客厅、厨房、卫生间。由此，与子空间场景卧室相对应的关键词可以是“卧室”；与子空间场景厨房相对应的关键词可以是“厨房”；与子空间场景客厅相对应的关键词可以是“客厅”；与子空间场景卫生间相对应的关键词可以是“卫生间”。进一步地，作为示例，如果语音识别结果包含关键词“卧室”，那么，第二用户终端可以在上述用户界面上，呈现卧室的三维子模型。

需要说明的是，除上面所记载的内容外，本申请实施例还可以包括与图5对应的实施例相同或类似的特征、效果，在此不再赘述。

从图6中可以看出，本实施例中的基于三维模型的交互方法的流程600中，可以通过语音实现三维模型的视点切换，从而呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。由此，提高了三维模型浏览的便利性，提高了所呈现的三维模型与第二用户终端获取的语音之间的匹配性。

进一步参考图7，作为对上述第一个基于三维模型的交互方法的实现，本发明提供了一种基于三维模型的交互装置的一个实施例，该装置实施例与图1、3、4所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图1、3、4所示的方法实施例相同或相应的特征，以及产生与图1、3、4所示的方法实施例相同或相应的效果。

如图7所示，本实施例的基于三维模型的交互装置700设置于第一用户终端，第一用户终端呈现有用户页面。该装置700包括：第一发送单元701，被配置成响应于检测到用户针对用户页面的目标交互操作，向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系；第一接收单元702，被配置成接收服务器从第二用户终端获取的流媒体视频；第一呈现单元703，被配置成在用户界面上呈现流媒体视频和三维模型。

在本实施例中，在检测到用户针对用户页面的目标交互操作的情况下，基于三维模型的交互装置900的第一发送单元901可以向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求。其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系。

在本实施例中，第一接收单元702可以接收服务器从第二用户终端获取的流媒体视频。

在本实施例中，第一呈现单元703可以在用户界面上呈现流媒体视频和三维模型。

在本实施例的一些可选的实现方式中，第一接收单元进一步被配置成：响应于服务器接收到第二用户终端针对交互请求发送的交互确认信息，接收服务器从第二用户终端获取的流媒体视频。

在本实施例的一些可选的实现方式中，该装置700还包括：第一调整单元(图中未示出)，被配置成响应于第一用户终端的当前网速值小于或等于预设网速阈值，基于流媒体视频中的各帧语音，对目标用户图像进行调整，生成新视频，其中，新视频表征目标用户图像指示的用户执行各帧语音指示的动作；第二呈现单元(图中未示出)，被配置成采用新视频替代流媒体视频进行呈现。

在本实施例的一些可选的实现方式中，该装置700还包括：第一生成单元(图中未示出)，被配置成基于流媒体视频中的图像，生成目标用户图像；或者，第一确定单元(图中未示出)，被配置成将与用户账号相关联的用户图像确定为目标用户图像。

在本实施例的一些可选的实现方式中，该装置700还包括：第二发送单元(图中未示出)，被配置成响应于用户页面呈现有新视频，向服务器发送摄像头关闭确认信息，其中，摄像头关闭确认信息用于确定第二用户终端是否关闭摄像头。

在本实施例的一些可选的实现方式中，第一接收单元进一步被配置成：将第一用户终端的当前网速值发送至服务器；接收服务器发送的分辨率与当前网速值相匹配的、第二用户终端获取的流媒体视频。

在本实施例的一些可选的实现方式中，该装置700还包括：第二接收单元(图中未示出)，被配置成接收服务器发送的模型调整信息，其中，模型调整信息指示使用第二用户终端的用户对呈现于第二用户终端的三维模型的调整操作，调整操作包括以下至少一项：缩放、旋转、移动、视点切换；第二调整单元(图中未示出)，被配置成按照模型调整信息指示的调整操作，对用户界面上呈现的三维模型进行相同调整操作。

在本实施例的一些可选的实现方式中，三维模型包括多个子空间场景的三维子模型，多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及，该装置700还包括：第一识别单元(图中未示出)，被配置成对流媒体视频中的语音进行语音识别，得到语音识别结果；第三呈现单元(图中未示出)，被配置成响应于确定语音识别结果包含关键词集合中的关键词，在用户界面上呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

在本实施例的一些可选的实现方式中，该装置700还包括：第一获取单元(图中未示出)，被配置成获取用户针对流媒体视频的反馈信息；第三发送单元(图中未示出)，被配置成将反馈信息发送至服务器，其中，服务器用于将反馈信息与用户账号建立关联关系。

本发明的上述实施例提供的基于三维模型的交互装置设置于第一用户终端，第一用户终端呈现有用户页面。该装置700中，在检测到用户针对用户页面的目标交互操作的情况下，第一发送单元701可以向为用户页面提供页面数据的服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系，然后，第一接收单元702接收服务器从第二用户终端获取的流媒体视频，最后，第一呈现单元703在用户界面上呈现流媒体视频和三维模型。由此，可以在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

进一步参考图8，作为对上述第二个基于三维模型的交互方法的实现，本发明提供了第二种基于三维模型的交互装置的一个实施例，该装置实施例与图5、6所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图5、6所示的方法实施例相同或相应的特征，以及产生与图5、6所示的方法实施例相同或相应的效果。

如图8所示，本实施例的基于三维模型的交互装置800设置于第二用户终端，第二用户终端登录的用户账号与三维模型预先建立关联关系。该装置800包括：第二确定单元801，被配置成响应于接收到服务器发送的交互请求，获取流媒体视频，其中，交互请求指示第一用户终端检测到用户针对第一用户终端呈现的用户页面的目标交互操作，用户页面用于呈现三维模型；第四发送单元802，被配置成向服务器发送流媒体视频，其中，服务器用于将流媒体视频发送至第一用户终端，以使第一用户终端在用户界面上呈现流媒体视频和三维模型。

在本实施例中，在接收到服务器发送的交互请求的情况下，第二确定单元801可以获取流媒体视频。其中，交互请求指示第一用户终端检测到用户针对第一用户终端呈现的用户页面的目标交互操作，用户页面用于呈现三维模型。

在本实施例中，第四发送单元802可以成向服务器发送流媒体视频，其中，服务器用于将流媒体视频发送至第一用户终端，以使第一用户终端在用户界面上呈现流媒体视频和三维模型。

在本实施例的一些可选的实现方式中，第二确定单元801进一步被配置成：响应于接收到服务器发送的交互请求，确定是否检测到用户针对交互请求的确认操作；响应于检测到确认操作，获取流媒体视频。

在本实施例的一些可选的实现方式中，该装置800还包括：第三接收单元(图中未示出)，被配置成响应于第一用户终端的当前网速值小于或等于预设网速阈值，从服务器接收摄像头关闭确认信息，以及呈现摄像头关闭确认信息，其中，摄像头关闭确认信息用于确定第二用户终端是否关闭摄像头。

在本实施例的一些可选的实现方式中，该装置800还包括：第五发送单元(图中未示出)，被配置成响应于从服务器接收到用户对呈现于第一用户终端的三维模型的调整操作，按照模型调整信息指示的调整操作，对用户界面上呈现的三维模型进行相同调整操作，其中，调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

在本实施例的一些可选的实现方式中，该装置800还包括：第五发送单元(图中未示出)，被配置成响应于检测到用户对呈现于第二用户终端的三维模型的调整操作，向服务器发送指示调整操作的模型调整信息，以使服务器控制第一用户终端按照模型调整信息指示的调整操作，对用户界面上呈现的三维模型进行相同调整操作，其中，调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

在本实施例的一些可选的实现方式中，三维模型包括多个子空间场景的三维子模型，多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及，该装置800还包括：第二识别单元(图中未示出)，被配置成对第一用户终端获取的语音进行语音识别，得到语音识别结果；第四呈现单元(图中未示出)，被配置成响应于确定语音识别结果包含关键词集合中的关键词，在用户界面上呈现与语音识别结果包含的关键词相对应的子空间场景的三维子模型。

在本实施例的一些可选的实现方式中，该装置800还包括：执行单元(图中未示出)，被配置成响应于接收到服务器发送的、使用第一用户终端的用户针对流媒体视频的反馈信息，执行与反馈信息相匹配的操作。

本发明的上述实施例提供的基于三维模型的交互装置设置于第二用户终端，第二用户终端登录的用户账号与三维模型预先建立关联关系，该装置800中，在接收到服务器发送的交互请求的情况下，第二确定单元801可以获取流媒体视频，其中，交互请求指示第一用户终端检测到用户针对第一用户终端呈现的用户页面的目标交互操作，用户页面用于呈现三维模型，之后，第四发送单元802可以向服务器发送流媒体视频，其中，服务器用于将流媒体视频发送至第一用户终端，以使第一用户终端在用户界面上呈现流媒体视频和三维模型。由此，可以在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

请继续参考图9，图9为本发明的基于三维模型的交互系统的一个实施例的交互示意图。该基于三维模型的交互系统包括第一用户终端、第二用户终端和服务器，第一用户终端呈现有用户页面，服务器与第一用户终端、第二用户终端分别通信连接。

图9所示，该基于三维模型的交互系统中的第一用户终端、第二用户终端和服务器可以执行如下步骤：

步骤901，第一用户终端检测到用户针对用户页面的目标交互操作。

在本实施例中，第一用户终端检测到用户针对用户页面的目标交互操作。其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系。

步骤902，第一用户终端向服务器发送针对目标交互操作的交互请求。

在本实施例中，第一用户终端可以向服务器发送针对目标交互操作的交互请求。

步骤903，第二用户终端获取流媒体视频。

在本实施例中，第二用户终端可以获取流媒体视频。

步骤904，第二用户终端向服务器发送流媒体视频。

在本实施例中，第二用户终端可以向服务器发送流媒体视频。

步骤905，服务器向第一用户终端发送流媒体视频。

在本实施例中，服务器可以向第一用户终端发送流媒体视频。

步骤906，第一用户终端在用户界面上呈现流媒体视频和三维模型。

在本实施例中，第一用户终端可以在用户界面上呈现流媒体视频和三维模型。

在本实施例中，在不冲突的前提下，除本实施例中上述记载的内容之外，步骤901至步骤906中的技术特征还可以参考上述第一种基于三维模型的交互方法的各个实施例、第二种基于三维模型的交互方法的各个实施例，以及第三种基于三维模型的交互方法中的各个实施例中的技术特征进行解释。并且，该系统实施例还可以包括与上述基于三维模型的交互方法实施例相同或相应的特征，以及产生与其相同或相应的效果，在此不再赘述。

本发明的上述实施例提供的基于三维模型的交互系统包括第一用户终端、第二用户终端和服务器，第一用户终端呈现有用户页面，服务器与第一用户终端、第二用户终端分别通信连接。其中：第一用户终端被配置成：响应于检测到用户针对用户页面的目标交互操作，向服务器发送针对目标交互操作的交互请求，其中，用户页面用于呈现三维模型，三维模型与第二用户终端登录的用户账号预先建立关联关系；第二用户终端被配置成：获取流媒体视频；向服务器发送流媒体视频；服务器还被配置成：向第一用户终端发送流媒体视频；第一用户终端被配置成：在用户界面上呈现流媒体视频和三维模型。由此，可以在终端设备的同一页面呈现流媒体视频和三维模型，有助于采用流媒体视频向用户呈现三维模型相关的信息，提高了交互方式的多样性，可以通过多维度信息交互，让用户更加沉静的浏览三维模型，提升用户的浏览时长，有助于满足用户更多元化的交互需求。

下面，参考图10来描述根据本发明实施例的电子设备。该电子设备可以是第一用户终端、第二用户终端和服务器中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图10图示了根据本发明实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器1001和存储器1002。

处理器1001可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器1002可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1001可以运行所述程序指令，以实现上文所述的本发明的各个实施例的基于三维模型的交互方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置1003和输出装置1004，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置1003可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置1003可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入装置1003还可以包括例如键盘、鼠标等等。该输出装置1004可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置1004可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的基于三维模型的交互方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的基于三维模型的交互方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于三维模型的交互方法，应用于第一用户终端，其特征在于，所述第一用户终端呈现有用户页面，所述方法包括：

接收所述服务器从所述第二用户终端获取的流媒体视频；

在所述用户界面上呈现所述流媒体视频和所述三维模型。

2.根据权利要求1所述的方法，其特征在于，所述接收所述服务器从所述第二用户终端获取的流媒体视频，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用所述新视频替代所述流媒体视频进行呈现。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述流媒体视频中的图像，生成目标用户图像；或者

将与所述用户账号相关联的用户图像确定为目标用户图像。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5之一所述的方法，其特征在于，所述接收所述服务器从所述第二用户终端获取的流媒体视频，包括：

将所述第一用户终端的当前网速值发送至所述服务器；

7.根据权利要求1-5之一所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1-5之一所述的方法，其特征在于，所述三维模型包括多个子空间场景的三维子模型，所述多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及

所述方法还包括：

9.根据权利要求1-5之一所述的方法，其特征在于，所述方法还包括：

获取用户针对所述流媒体视频的反馈信息；

10.一种基于三维模型的交互方法，应用于第二用户终端，其特征在于，所述第二用户终端登录的用户账号与三维模型预先建立关联关系，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述响应于接收到服务器发送的交互请求，获取流媒体视频，包括：

响应于检测到所述确认操作，获取流媒体视频。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

13.根据权利要求10所述的方法，其特征在于，所述方法还包括：

14.根据权利要求10-13之一所述的方法，其特征在于，所述方法还包括：

15.根据权利要求10-13之一所述的方法，其特征在于，所述三维模型包括多个子空间场景的三维子模型，所述多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及

所述方法还包括：

16.根据权利要求10-13之一所述的方法，其特征在于，所述方法还包括：

17.一种基于三维模型的交互装置，设置于第一用户终端，其特征在于，所述第一用户终端呈现有用户页面，所述装置包括：

18.根据权利要求17所述的装置，其特征在于，所述第一接收单元进一步被配置成：

19.根据权利要求17所述的装置，其特征在于，所述装置还包括：

20.根据权利要求19所述的装置，其特征在于，所述装置还包括：

21.根据权利要求19所述的装置，其特征在于，所述装置还包括：

22.根据权利要求17-21之一所述的装置，其特征在于，所述第一接收单元进一步被配置成：

将所述第一用户终端的当前网速值发送至所述服务器；

23.根据权利要求17-21之一所述的装置，其特征在于，所述装置还包括：

24.根据权利要求17-21之一所述的装置，其特征在于，所述三维模型包括多个子空间场景的三维子模型，所述多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及

所述装置还包括：

25.根据权利要求17-21之一所述的装置，其特征在于，所述装置还包括：

26.一种基于三维模型的交互装置，设置于第二用户终端，其特征在于，所述第二用户终端登录的用户账号与三维模型预先建立关联关系，所述装置包括：

27.根据权利要求26所述的装置，其特征在于，所述第二确定单元进一步被配置成：

响应于检测到所述确认操作，获取流媒体视频。

28.根据权利要求26所述的装置，其特征在于，所述装置还包括：

29.根据权利要求26所述的装置，其特征在于，所述装置还包括：

第五发送单元，被配置成响应于从所述服务器接收到用户对呈现于所述第一用户终端的所述三维模型的调整操作，按照所述模型调整信息指示的调整操作，对所述第二用户终端呈现的所述三维模型进行相同调整操作，其中，所述调整操作包括以下至少一项：缩放、旋转、移动、视点切换。

30.根据权利要求26-29之一所述的装置，其特征在于，所述装置还包括：

31.根据权利要求26-29之一所述的装置，其特征在于，所述三维模型包括多个子空间场景的三维子模型，所述多个子空间场景中的子空间场景与预先确定的关键词集合中的关键词相对应；以及

所述装置还包括：

32.根据权利要求26-29之一所述的装置，其特征在于，所述装置还包括：

33.一种基于三维模型的交互系统，包括第一用户终端、第二用户终端和服务器，其特征在于，所述第一用户终端呈现有用户页面，所述服务器与所述第一用户终端、所述第二用户终端分别通信连接，其中：

34.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-16任一所述的方法。

35.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-16任一所述的方法。