CN113038217A

CN113038217A - 一种显示设备、服务器及应答语生成方法

Info

Publication number: CN113038217A
Application number: CN202110294876.1A
Authority: CN
Inventors: 张爽; 谢芝茂
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-25

Abstract

本申请公开了一种显示设备、服务器及应答语生成方法，显示设备，其特征在于，包括：显示器；麦克风，被配置为接收来自用户输入的语音指令；音频输出接口，被配置为播放语音应答语；控制器，被配置为：识别用户输入的语音指令，判断语音指令中是否包含媒资名称；当语音指令中包含媒资名称时，将媒资名称发送至服务器；接收来自于服务器在服务器中存在媒资名称对应的媒资资源时发送的语音回复文本，语音回复文本中包含媒资资源的作品属性信息、媒资资源的作品关联语句以及媒资名称中的至少一种；将语音回复文本转换为语音应答语并进行播放。语音应答语能够激起用户的视听兴趣，增强用户的体验性。

Description

一种显示设备、服务器及应答语生成方法

技术领域

本申请涉及显示设备技术领域，尤其涉及一种显示设备、服务器及应答语生成方法。

背景技术

随着人工智能技术的飞速发展和人们生活水平的不断提高，人们对智能电视的智能化需求也越来越高。智能电视通过互联网技术，将影音、游戏等功能集于一身。语音识别功能也是智能电视主打功能之一。基于语音识别功能，用户可以直接通过语音控制智能电视的各种功能。

现有的智能电视中一般设有智能语音助手，通过智能语音助手识别出用户的语音指令，从而对用户提供相应的服务，同时智能语音助手在识别出用户的语音指令后，一般会反馈给用户一个应答语，然而本申请的发明人发现智能语音助手反馈给用户的应答语通常为预设的内容。例如，当用户输入语音指令“我想看少年的你”时，智能语音助手会反馈“好的/遵命”之类的预设应答词，这种应答语和语音指令的内容并不相关，可能无法激起用户的视听兴趣，导致用户的体验性较差。

发明内容

本申请提供了一种显示设备、服务器及应答语生成方法。以解决现有显示设备中，智能语音助手反馈给用户的应答语较为机械化，导致用户的体验性较差的问题。

本申请实施例的第一方面，提供了一种显示设备，包括：显示器；麦克风，被配置为接收来自用户输入的语音指令；音频输出接口，被配置为播放语音应答语；控制器，被配置为：

识别用户输入的语音指令，判断所述语音指令中是否包含媒资名称；当所述语音指令中包含媒资名称时，将所述媒资名称发送至服务器；接收来自于所述服务器在所述服务器中存在所述媒资名称对应的媒资资源时发送的语音回复文本，所述语音回复文本中包含所述媒资资源的作品属性信息、所述媒资资源的作品关联语句以及所述媒资名称中的至少一种；将所述语音回复文本转换为语音应答语并进行播放。

在一些实现方式中，所述控制器还被配置为：

控制显示器显示所述语音回复文本且突出显示所述媒资名称。

在一些实现方式中，所述控制器还被配置为：

接收来自于所述服务器在所述服务器中不存在所述媒资名称对应的媒资资源时发送的提示信息，其中，所述提示信息用于提示用户在所述服务器中不存在所述媒资名称对应的媒资资源；将所述提示信息转换为提示语音并进行播放。

本申请实施例的第二方面，提供了一种服务器，所述服务器被配置为：

接收显示设备发送的媒资名称并搜索所述媒资名称对应的媒资资源；当所述服务器中存在所述媒资名称对应的媒资资源时，获取所述媒资资源的作品属性信息和作品关联语句；根据所述作品属性信息和所述作品关联语句获取语音回复文本，所述语音回复文本中包含所述作品属性信息、所述作品关联语句以及所述媒资名称中的至少一种；发送所述语音回复文本至所述显示设备，以使所述显示设备将所述语音回复文本转换为语音应答语并进行播放。

在一些实现方式中，所述服务器在执行获取所述媒资资源的作品属性信息和作品关联语句的步骤时，进一步被配置为：

基于第三方接口获取所述媒资资源的作品属性信息，基于预设的语料库获取所述媒资资源的作品关联语句。

在一些实现方式中，所述服务器在执行根据所述作品属性信息和所述作品关联语句获取语音回复文本的步骤之前，还被配置为：基于所述作品属性信息获取作品属性向量，基于所述作品关联语句获取作品关联语句向量。

在一些实现方式中，当所述媒资名称对应的媒资资源为视频资源时，所述作品属性信息包括以下至少一种：主演、导演、地区、影视类型和上映时间；所述作品关联语句包括作品台词和作品影评中的至少一种。

在一些实现方式中，当所述媒资名称对应的媒资资源为音频资源时，所述作品属性信息包括以下至少一种：演唱者、作词人、作曲人、发行时间和音乐风格；所述作品关联语句包括高潮唱句和音乐鉴赏中的至少一种。

在一些实现方式中，所述服务器在执行根据所述作品属性信息和所述作品关联语句获取语音回复文本的步骤时，进一步被配置为：

选取语音回复模板，所述语音回复模板中包含N个待补充的作品属性信息、一个待补充的作品关联语句以及待补充的媒资名称；将若干个作品属性向量和若干个所述作品关联语句向量输入到预先构建的自然语言生成模型中，得到每个作品属性向量的输出概率和每个作品关联语句向量的输出概率；将输出概率最大的前N个作品属性向量对应的作品属性信息、输出概率最大的作品关联语句向量对应的作品关联语句以及所述媒资名称补充至所述语音回复模板，得到语音回复序列；对所述语音回复序列进行标准化处理，得到语音回复文本。

在一些实现方式中，所述服务器还被配置为：

当所述服务器中不存在所述媒资名称对应的媒资资源时，发送提示信息至所述显示设备，其中，所述提示信息用于提示用户在所述服务器中不存在所述媒资名称对应的媒资资源。

本申请实施例的第三方面，提供了一种应答语生成方法，应用于显示设备，所述方法包括：

本申请实施例的第四方面，提供了一种应答语生成方法，应用于服务器，所述方法包括：

由以上技术方案可以看出，显示设备可以接收用户输入的语音指令，进而可以向服务器发送该语音指令中包含的媒资名称。服务器可以根据媒资名称对应的媒资资源的作品属性信息和作品关联语句获取包含媒资名称的语音回复文本，语音回复文本中也可以包含部分作品属性信息和作品关联语句，并进一步将语音回复文本发送至显示设备，使得显示设备向用户播放相应的语音应答语。语音应答语和语音指令内容的关联性较强，较为生动，能够激起用户的视听兴趣，增强用户的体验性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备200中软件配置图；

图5示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示图；

图6示出了根据一些实施例的显示设备200中显示器显示语音回复文本的示意图；

图7为本申请提供的应答语生成方法的一个实施例的流程示意图；

图8为本申请提供的应答语生成方法的另一个实施例的流程示意图；

图9为本申请提供的应答语生成方法的另一个实施例的流程示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中，显示设备启动后可以直接进入预置的视频点播程序的界面，视频点播程序的界面可以如图5中所示，至少包括导航栏510和位于导航栏510下方的内容显示区，内容显示区中显示的内容会随导航栏中被选中控件的变化而变化。应用程序层中的程序可以被集成在视频点播程序中通过导航栏的一个控件进行展示，也可以在导航栏中的应用控件被选中后进行进一步显示。

在一些实施例中，显示设备启动后可以直接进入上次选择的信号源的显示界面，或者信号源选择界面，其中信号源可以是预置的视频点播程序，还可以是HDMI接口，直播电视接口等中的至少一种，用户选择不同的信号源后，显示器可以显示从不同信号源获得的内容。

随着显示设备的发展，人们对显示设备功能的要求也越来越多。其中，语音识别功能越发受到人们的关注，基于语音识别功能，用户可以直接通过语音控制智能电视的各种功能。智能电视中一般设有智能语音助手，通过智能语音助手识别出用户的语音指令，从而对用户提供相应的服务，同时智能语音助手在识别出用户的语音指令后，一般会反馈给用户一个应答语。然而现有的智能语音助手反馈给用户的应答语通常为预设的内容。例如，当用户输入语音指令“我想看少年的你”时，智能语音助手会反馈“好的/遵命”之类的预设应答词，这种应答语和语音指令的内容并不相关，可能无法激起用户的视听兴趣，导致用户的体验性较差。

为了解决上述技术问题，本申请实施例提供一种显示设备，包括：显示器；麦克风，被配置为接收来自用户输入的语音指令；音频输出接口，被配置为播放语音应答语；以及控制器。本申请示例性示出了一种显示设备，该显示设备能够接收用户输入的语音指令。

在一些实施例中，当显示设备被触发进入语音控制模式后，可接收用户输入的语音指令。

在一些实施例中，用户可以通过操作遥控器的指定按键，控制显示设备进入语音控制模式。在实际应用的过程中预先绑定语音控制模式指令与遥控器按键之间的对应关系。例如，在遥控器上设置一个语音按键，当用户触控该按键时，遥控器发送语音控制模式指令至控制器，此时显示设备进入语音控制模式，并可以顺利接收用户输入的语音指令。

在一些实施例中，也可以预先绑定语音控制模式指令与多个遥控器按键之间的对应关系，当用户触控与语音控制模式指令绑定的多个按键时，遥控器发出语音控制模式指令。在一可行性实施例中，语音控制模式指令绑定的按键为方向键(左、下、左、下)，只有用户在预设时间内连续触控按键(左、下、左、下)的情况下，遥控器才发送语音控制模式指令至控制器。采用上述绑定方法，可以避免语音控制模式指令由于用户的误操作而发出。本申请实施例仅是示例性的提供几种语音控制模式指令与按键之间的绑定关系，在实际应用的过程中可以根据用户的习惯设定语音控制模式指令与按键之间的绑定关系，在此不做过多的限定。

在一些实施例中，用户可以通过语音的方式控制显示设备进入语音控制模式。例如，通过说出远场唤醒词来触发显示设备进入语音控制模式，例如用户通过发出“小聚小聚”的语音后，显示设备可进入语音控制模式，当显示设备被触发进入语音控制模式后，可以实时监测用户输入的语音指令，以使用户进一步说出语音指令。用户可以利用麦克风向显示设备输入语音指令。

在一些实施例中，当显示设备被触发进入语音控制模式后，用户也可以通过手机、遥控器等设备，以文字的形式向显示设备发送指令，以防止当麦克风出现问题后，显示设备无法接收用户的语音指令。

在一些实施例中，当显示设备成功接收到用户输入的语音指令后，控制器可以将接收的语音数据发送至语音识别服务，转换为文本信息。对用户语音指令的识别操作可参考相关技术，本申请实施例对此不再一一赘述。

当获取到语音指令转换的文本信息后，控制器进一步对文本信息进行识别，以判断文本信息中是否具有媒资名称。例如，用户输入语音指令“我想看少年的你”，控制器对语音指令进行识别后，可以得到语音指令中包含媒资名称“少年的你”。

在一些实施例中，当控制器识别到语音指令中包含媒资名称时，进一步将媒资名称发送至服务器。

在一些实施例中，当服务器接收到显示设备发送的媒资名称时，可以搜索媒资名称对应的媒资资源。例如，当服务器接收到“少年的你”时，会搜索当前服务器中是否具有相应的媒资资源“少年的你”。

在一些实施例中，当服务器中存在媒资名称对应的媒资资源时，会获取媒资资源对应的媒资资源特征要素。

在一些实施例中，媒资资源特征要素包括作品属性信息和作品关联语句。其中，作品属性信息指的是媒资资源作品本身的一些属性信息，例如创作者、创作时间等。作品关联语句是指和媒资资源作品相关联的一些语句，例如作品内的具体语句内容以及网上的一些评价等。

需要说明的是，媒资资源分为视频资源和音频资源。其中，视频资源即为各种影视类作品，例如电影、电视剧等。音频资源即为各种音乐类作品。

当媒资资源为视频资源时，作品属性信息可以包括以下至少一种：主演、导演、编剧、地区、影视类型和上映时间等信息。作品关联语句包括以下至少一种：影视作品中的经典台词以及网络中的影评句子等。

当所述媒资名称对应的媒资资源为音频资源时，获取所述音频资源的作品属性信息和作品关联语句；其中，所述作品属性信息包括以下至少一种：演唱者、作词人、作曲人、发行时间和音乐风格等信息。作品关联语句包括以下至少一种：音乐作品中的高潮唱句以及网络中的音乐鉴赏。

在一些实施例中，服务器在获取媒资资源的作品属性信息时，可以通过搜索网站，例如百度百科，也可以通过第三方接口，例如聚好看、爱奇艺等获取相关信息，需要说明的是，媒资资源的作品属性信息是已经确定的固定信息，可以直接在网络上或者第三方接口获取。例如，对于媒资资源“少年的你”，其作品属性信息选取如下：

名称：少年的你

主演：周冬雨、易烊千玺

导演：曾国祥

地区：中国大陆

出品时间：2019-10-25

类型：青春爱情

这些作品属性信息可由服务器直接获取，本申请实施例不做具体限定。

在一些实施例中，服务器在获取媒资资源的作品关联语句时，可以利用爬虫工具爬取对应网站比如豆瓣的数据，从而提取热度排名靠前的若干个影评句子以及经典台词，或者高潮唱句以及音乐鉴赏。例如，对于媒资资源“少年的你”，其作品关联语句选取如下：

影评句子1：年少无畏的爱情：愿我们成为彼此生命中的光。

影评句子2：就算世界荒芜，总有一个人，他会是你的信徒。

经典台词：你保护世界，我保护你。

在一些实施例中，服务器可以预先构建语料库，语料库中具有每一个媒资资源以及与其对应的若干个作品关联语句。例如，获取每个媒资资源的热度最高的前5个经典台词以及前5个影评句子，将这10个作品关联语句和媒资资源相关联并存储到语料库中。

还可以让爬虫程序定期爬取相关数据，定时更新语料库，保证作品关联语句的新鲜度。

在一些实施例中，服务器获取每个媒资资源特征要素对应的向量特征。

服务器基于作品属性信息获取作品属性向量，同时基于作品关联语句获取作品关联语句向量。在将作品属性信息或作品关联语句转换为向量时，向量的维度可由用户自行设定，例如200维，本申请中不做具体限定。

在将作品属性信息或者作品关联语句等文本信息转换为向量时，可以采用预设的向量转换模型。例如，可以采用word2vec模型将作品属性信息转换为词向量属性，得到作品属性向量。可以采用LSTM-RNN将作品关联语句转换为语句向量属性，得到作品关联语句向量。本申请对向量转换方法不做具体限定。

在一些实施例中，服务器根据作品属性信息和作品关联语句获取语音回复文本，语音回复文本中包含作品属性信息、作品关联语句以及媒资名称中的至少一种。

语音回复文本为服务器根据作品属性信息和作品关联语句生成的回复文本，可以包括部分作品属性信息、作品关联语句以及具体的媒资名称。可以让用户获悉媒资资源中的部分信息，以激发用户的视听兴趣。

在一些实施例中，服务器会选取一个语音回复模板。具体的，可以预先设定好若干个语音回复模板，语音回复模板为语音回复文本对应的模板。

在一些实施例中，语音回复模板可以包含N个待补充的作品属性信息、一个待补充的作品关联语句以及待补充的媒资名称。

在一些实施例中，可以设定语音回复模板中具有一个作品属性信息，也可以包含多个作品属性信息，本申请实施例不做限定。

例如，语音回复模板1可以为：欣赏A1的电影《X》，Y。其中，A1表示一个作品属性信息，X表示媒资名称，Y表示作品关联语句。

或者，语音回复模板2：Y，一起来欣赏A1 A2《X》。其中，A1、A2表示作品属性信息，X表示媒资名称，Y表示作品关联语句。

在一些实施例中，当选取好语音回复模板，可以得到语音回复模板中待补充的作品属性信息的数量。

服务器可以获取每个作品属性信息对应的作品属性向量的输出概率，并获取每个作品关联语句对应的作品关联语句向量的输出概率。输出概率用于对所有的作品属性向量进行排序，并对所有的作品关联语句向量进行排序。从而得到按照输出概率大小排序的作品属性向量序列以及作品关联语句向量序列。

在一些实施例中，服务器可以从作品属性向量序列以及作品关联语句向量序列选取作品属性向量和作品关联语句向量，并获取对应的作品属性信息和作品关联语句，补充到语音回复模板中。例如，当语音回复模板中包含N个待补充的作品属性信息和一个待补充的作品关联语句时，可以根据预设的向量选取规则选取N个作品属性向量和一个作品关联语句向量，并将N个作品属性向量对应的N个作品属性信息和作品关联语句向量对应的作品关联语句补充到语音回复模板中。

在一些实施例中，预设的向量选取规则可以为：选取输出概率最大的向量，还可以为选取输出概率最小的向量。具体的向量选取规则可由用户自行设定。

在一些实施例中，可以预先设定获取P个作品属性信息，并从P个作品属性信息选取向量输出概率最大的前N个作品属性信息补充到语音回复模板中。例如，语音回复模板中需要补充2个作品属性信息，则可以预先获取5个作品属性信息，并计算5个作品属性信息对应的5个作品属性向量的输出概率，并选取概率最大的2个作品属性信息补充到语音回复模板中。

在一些实施例中，可以预先设定获取Q个作品关联语句，并从Q个作品关联语句选取向量输出概率最大的作品关联语句补充到语音回复模板中。

在一些实施例中，服务器采用自然语言生成技术获取所有的输出概率，例如，可以采用Data2Text编码-解码模型。

通过将若干个作品属性向量和若干个作品关联语句向量输入到预先构建的Data2Text编码-解码模型中，可以得到每个作品属性向量的输出概率和每个作品关联语句向量的输出概率。

其中，模型处理过程可以如下：

在模型的Encoder阶段，将各个元素转化为多维词向量。每个元素可以是作品属性向量或作品关联语句向量，也可以是作品属性信息或作品关联语句。第一个词向量经过f(x)函数生成对应的HC向量，分别输入到对应的上下文向量Context vector中和作为下一个属性(时间点)的初始向量，依次进行处理，最后生成上下文向量。在Decoder阶段，通过start元素与词表中的元素进行比对，得到词表中计算概率较高的词。最后由上下文向量和解码层的元素向量得到各个特征出现概率的正态分布，选取概率较高的元素生成最后的输出语句，当计算得到的该语句偏差损失较大时，该模型继续上述步骤，直到生成的语句偏差较小，由此也可以得到对应各个元素的输出概率。

以“少年的你”为例，可以得到所有媒资资源特征要素对应向量的输出概率为：

主演的输出概率为0.82，导演的输出概率为0.75，地区的输出概率为0.33，出品时间的输出概率为0.16，影视类型的输出概率为0.78。

影评句子1的输出概率为0.76，影评句子2的输出概率为0.35，经典台词的输出概率为0.68。

在一些实施例中，服务器将输出概率最大的前N个作品属性向量对应的作品属性信息、输出概率最大的作品关联语句向量对应的作品关联语句以及媒资名称补充至语音回复模板，得到语音回复序列。

例如，选定的语音回复模板为：请欣赏A1的电影《X》，Y。则待补充的作品属性信息为输出概率最大的作品属性向量对应的作品属性信息，即“主演”，待补充的作品关联语句为输出概率最大的作品关联语句向量对应的作品关联语句，即“影评句子1”。

在一些实施例中，也可以设定为获取向量输出概率最大的前M个作品关联语句，并从M个作品关联语句中随机选取一个作品关联语句补充到语音回复模板中。

例如，选定的语音回复模板为：Y，一起来欣赏A1 A2《X》。则待补充的作品属性信息应为输出概率最大的作品属性向量对应的作品属性信息，即“主演”和“影视类型”。待补充的作品关联语句可以选取输出概率最大的前M个作品关联语句向量对应的作品关联语句，例如前2个。此时，可以选取“经典台词”和“影评句子1”中的任意一个。

在一些实施例中，服务器对语音回复序列进行标准化处理，得到语音回复文本。标准化处理是指对语音回复序列进行语句完善，从而使得语音回复文本完整通顺，可以提高用户的体验性。

例如，对于选定的语音回复模板为：欣赏A1的电影《X》，Y。待补充的作品属性信息为“主演”，待补充的作品关联语句为“影评句子1”，此时得到的语音回复序列应为：请欣赏周冬雨、易烊千玺的电影《少年的你》，年少无畏的爱情：愿我们成为彼此生命中的光。

此时，对语音回复序列进行标准化处理后，可以为：请欣赏由周冬雨、易烊千玺带来的电影《少年的你》，年少无畏的爱情：愿我们成为彼此生命中的光。从而令语音回复文本更加完善、通顺。

又比如，对于选定的语音回复模板为：Y，一起来欣赏A1 A2《X》。待补充的作品属性信息为“主演”和“影视类型”，待补充的作品关联语句为“经典台词”，此时得到的语音回复序列应为：

你保护世界，我保护你。一起来欣赏周冬雨、易烊千玺青春爱情片《少年的你》。

对语音回复序列进行标准化处理后，可以为：你保护世界，我保护你。一起来欣赏由周冬雨、易烊千玺带来的青春爱情片《少年的你》。

服务器将语音回复文本发送至显示设备。

在一些实施例中，显示设备可以接收来自于服务器发送的语音回复文本。控制器将语音回复文本进行解析并转换为语音应答语，再将语音应答语进行播放。

在一些实施例中，当显示设备接收到来自于服务器发送的语音回复文本时，可以由显示器显示语音回复文本且突出显示对应的媒资名称。具体的，可以由控制器控制显示器显示该语音回复文本，并且视觉上有差别的显示媒资名称，这种视觉差别可以将语音回复文本中的最重要部分提示给用户，提升用户体验。

例如，语音回复文本为：请欣赏周冬雨、易烊千玺的电影《少年的你》，年少无畏的爱情：愿我们成为彼此生命中的光。则如图6所示，显示器可以显示语音回复文本，同时媒资名称“少年的你”可放大、加粗并添加下划线显示。本申请对突出显示的效果不做具体限定。

在一些实施例中，当服务器中不存在媒资名称对应的媒资资源时，会发送预设的提示信息至显示设备。提示信息用于提示用户在服务器中不存在媒资名称对应的媒资资源。

在一些实施例中，提示信息可以采用预设的提示模板。例如，预设的提示信息可以为“抱歉，未搜索到相关资源”。

提示模板中也可以包含相关的媒资名称，例如：抱歉，未搜索到电影《X》，请继续观看其他电影。其中，X表示媒资名称。

参见图7，为本申请实施例提供的一种应答语生成方法的流程示意图，应用于显示设备，具体的，该方法包括：

步骤701、识别用户输入的语音指令，判断所述语音指令中是否包含媒资名称。例如，用户可以输入语音指令“我想看少年的你”。

步骤702、当所述语音指令中包含媒资名称时，将所述媒资名称发送至服务器。由于语音指令中包含媒资名称“少年的你”，因此显示设备会将“少年的你”发送至服务器。

步骤703、接收来自于所述服务器在所述服务器中存在所述媒资名称对应的媒资资源时发送的语音回复文本，语音回复文本中包含媒资资源的作品属性信息、媒资资源的作品关联语句以及媒资名称中的至少一种。

步骤704、将所述语音回复文本转换为语音应答语并进行播放。

参见图8，为本申请实施例提供的一种应答语生成方法的流程示意图，应用于服务器，该方法包括：

步骤801、接收显示设备发送的媒资名称并搜索所述媒资名称对应的媒资资源。例如，当用户输入语音指令“我想看少年的你”，服务器会接收显示设备发送的媒资名称“少年的你”。

步骤802、当所述服务器中存在所述媒资名称对应的媒资资源时，获取所述媒资资源的作品属性信息和作品关联语句。服务器可以获取“少年的你”对应的作品属性信息，例如主演、导演、编剧、地区、影视类型和上映时间等信息。还可以获取一些经典台词以及网络中的影评句子，作为作品关联语句。

步骤803、根据所述作品属性信息和所述作品关联语句获取语音回复文本，语音回复文本中包含作品属性信息、作品关联语句以及媒资名称中的至少一种。例如，可以发送语音回复文本：一起来欣赏周冬雨、易烊千玺青春爱情片《少年的你》。

步骤804、发送所述语音回复文本至所述显示设备，以使所述显示设备将所述语音回复文本转换为语音应答语并进行播放。

本申请实施例还提供一种应答语生成方法，如图9所示，该方法包括：

显示设备通过麦克风接收来自用户输入的语音指令；

显示设备识别用户输入的语音指令，判断语音指令中是否包含媒资名称；

显示设备将媒资名称发送至服务器；

服务器判断是否存在媒资名称对应的媒资资源；

当服务器中不存在媒资资源时，发送提示信息至显示设备，提示信息用于提示用户在所述服务器中不存在所述媒资名称对应的媒资资源；

显示设备将提示信息转换为提示语音并进行播放；

当服务器中存在媒资资源时，获取媒资资源的作品属性信息和作品关联语句；

服务器根据作品属性信息和作品关联语句获取语音回复文本，语音回复文本中包含作品属性信息、作品关联语句以及媒资名称中的至少一种；

服务器发送语音回复文本至显示设备；

显示设备将语音回复文本转换为语音应答语并进行播放。

本说明书中各个实施例之间相同相似的部分互相参照即可，在此不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

麦克风，被配置为接收来自用户输入的语音指令；

音频输出接口，被配置为播放语音应答语；

控制器，被配置为：

识别用户输入的语音指令，判断所述语音指令中是否包含媒资名称；

当所述语音指令中包含媒资名称时，将所述媒资名称发送至服务器；

接收来自于所述服务器在所述服务器中存在所述媒资名称对应的媒资资源时发送的语音回复文本，所述语音回复文本中包含所述媒资资源的作品属性信息、所述媒资资源的作品关联语句以及所述媒资名称中的至少一种；

将所述语音回复文本转换为语音应答语并进行播放。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器还被配置为：

接收来自于所述服务器在所述服务器中不存在所述媒资名称对应的媒资资源时发送的提示信息，其中，所述提示信息用于提示用户在所述服务器中不存在所述媒资名称对应的媒资资源；

将所述提示信息转换为提示语音并进行播放。

4.一种服务器，其特征在于，所述服务器被配置为：

接收显示设备发送的媒资名称并搜索所述媒资名称对应的媒资资源；

当所述服务器中存在所述媒资名称对应的媒资资源时，获取所述媒资资源的作品属性信息和作品关联语句；

根据所述作品属性信息和所述作品关联语句获取语音回复文本，所述语音回复文本中包含所述作品属性信息、所述作品关联语句以及所述媒资名称中的至少一种；

发送所述语音回复文本至所述显示设备，以使所述显示设备将所述语音回复文本转换为语音应答语并进行播放。

5.根据权利要求4所述的服务器，其特征在于，所述服务器在执行获取所述媒资资源的作品属性信息和作品关联语句的步骤时，进一步被配置为：

基于第三方接口获取所述媒资资源的作品属性信息，基于预设的语料库获取所述媒资资源的作品关联语句；

所述服务器在执行根据所述作品属性信息和所述作品关联语句获取语音回复文本的步骤之前，还被配置为：

基于所述作品属性信息获取作品属性向量，基于所述作品关联语句获取作品关联语句向量。

6.根据权利要求4所述的服务器，其特征在于，

当所述媒资名称对应的媒资资源为视频资源时，所述作品属性信息包括以下至少一种：主演、导演、地区、影视类型和上映时间；所述作品关联语句包括作品台词和作品影评中的至少一种；

当所述媒资名称对应的媒资资源为音频资源时，所述作品属性信息包括以下至少一种：演唱者、作词人、作曲人、发行时间和音乐风格；所述作品关联语句包括高潮唱句和音乐鉴赏中的至少一种。

7.根据权利要求5所述的服务器，其特征在于，所述服务器在执行根据所述作品属性信息和所述作品关联语句获取语音回复文本的步骤时，进一步被配置为：

选取语音回复模板，所述语音回复模板中包含N个待补充的作品属性信息、一个待补充的作品关联语句以及待补充的媒资名称；

将若干个作品属性向量和若干个所述作品关联语句向量输入到预先构建的自然语言生成模型中，得到每个作品属性向量的输出概率和每个作品关联语句向量的输出概率；

将输出概率最大的前N个作品属性向量对应的作品属性信息、输出概率最大的作品关联语句向量对应的作品关联语句以及所述媒资名称补充至所述语音回复模板，得到语音回复序列；

对所述语音回复序列进行标准化处理，得到语音回复文本。

8.根据权利要求4所述的服务器，其特征在于，所述服务器还被配置为：

9.一种应答语生成方法，应用于显示设备，其特征在于，所述方法包括：

将所述语音回复文本转换为语音应答语并进行播放。

10.一种应答语生成方法，应用于服务器，其特征在于，所述方法包括：