CN112489619A

CN112489619A - 语音处理方法、终端设备及存储介质

Info

Publication number: CN112489619A
Application number: CN202011334384.2A
Authority: CN
Inventors: 刘沙沙
Original assignee: Shanghai Chuanying Information Technology Co Ltd
Current assignee: Shanghai Chuanying Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-12

Abstract

本申请公开一种语音处理方法、终端设备及存储介质。所述语音处理方法包括：S11、获取用户的预设特征信息；S12、根据预设特征信息确定语音播报时的目标语音风格。本申请不仅能够根据用户当前状态自动切换适应的语音风格，而且能够提供丰富的语音风格，有利于提高语音播放的质量。

Description

语音处理方法、终端设备及存储介质

技术领域

本申请涉及语音处理与合成技术领域，尤其涉及一种语音处理方法、以及基于该语音处理方法的终端设备和可读存储介质。

背景技术

近年来，随着在线音像市场的不断发展，语音处理与语音合成技术已经广泛的应用于人们的日常生活中，例如线儿童读物、在线小说、在线评书、在线新闻等。但是，当前基于语音处理与合成技术的语音播放，大都是机械的、无感情的、平铺直叙的、毫无起伏的朗读文本内容，局限于将文字转换成能让人听懂的语音，缺乏丰富的语音风格，并且无法根据用户的当前状态自动切换适应的语音风格，无法进一步地提高语音播放的质量。

前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

发明内容

鉴于此，本申请提供一种语音处理方法、终端设备及存储介质，以解决无法根据用户状态选取适应的语音风格实现语音播放的问题。

本申请提供的一种语音处理方法，包括：

S11、获取用户的预设特征信息；

S12、根据用户的预设特征信息确定语音播报时的目标语音风格。

可选地，所述预设特征信息包括以下至少一种：作息信息、情境信息、情感特征、性格特征、性别、年龄。

可选地，所述S11步骤包括以下至少一种：

根据选择操作和/或输入操作获取预设特征信息；

根据历史习惯和/或传感器获取预设特征信息；

获取用户的语音数据，并根据语音数据获取预设特征信息。

可选的，所述S12步骤之前，还包括：根据所述目标语音风格选择适配的待播放文档，识别并提取待播放文档中的文本内容，和/或，对所述文本内容进行语音合成，生成具有所述目标语音风格的语音文档；

可选地，所述方法还包括：识别并提取待播放资源的文本内容；

所述S12步骤之后，包括：对文本内容进行语音合成，生成具有目标语音风格的语音文档。

可选地，所述S12步骤之后，还包括：

根据预设特征信息选择适配的待播放文档；

识别并提取待播放文档中的文本内容；和/或，对文本内容进行语音合成，生成具有目标语音风格的语音文档。

可选地，所述S12步骤之前，还包括：获取待播放文档的预设特征信息；

判断待播放文档的预设特征信息与用户的预设特征信息是否冲突；

若否，则执行所述S12步骤；和/或，

若是，则执行预设策略。

可选地，所述获取待播放文档的预设特征信息，包括以下至少一种：

根据待播放文档的预设分类标签获取其预设特征信息；

根据待播放文档的文本内容确定其预设特征信息。

可选地，所述预设策略包括以下至少一种：

执行所述S12步骤；

根据选择指令确定目标语音风格；

根据待播放文档的预设特征信息确定目标语音风格；

将默认语音风格作为语音播放时的目标语音风格。

本申请提供的一种语音处理方法，包括：

S21、获取待播放文档的预设特征信息；

S22、根据待播放文档的预设特征信息确定语音播报时的目标语音风格。

可选地，所述S21步骤包括以下至少一种：

根据待播放文档的预设分类标签获取其预设特征信息；

根据待播放文档的文本内容确定其预设特征信息。

可选地，所述S22步骤之前，还包括：获取用户的预设特征信息；

判断待播放文档与用户的预设特征信息是否冲突；

若否，则执行所述S22步骤；和/或，

若是，则执行预设策略。

可选地，所述预设策略包括以下至少一种：

执行所述S22步骤；

根据选择指令确定目标语音风格；

根据用户的预设特征信息确定目标语音风格；

将默认语音风格作为语音播放时的目标语音风格。

本申请提供的一种终端设备，包括存储器和处理器，存储器存储有语音处理程序，用于被处理器执行时实现上述任一项语音处理方法的步骤。

本申请提供的一种可读存储介质，存储有计算机程序，该计算机程序用于被处理器执行时实现上述任一项语音处理方法的步骤。

如上所述，本申请的语音处理方法、终端设备及存储介质，根据用户的预设特征信息确定语音播报时的目标语音风格，预设特征信息标识用户的当前状态，于此不仅能够根据用户当前状态自动切换适应的语音风格，而且能够提供丰富的语音风格，有利于提高语音播放的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实现本申请各个实施例的一种终端设备的硬件结构示意图；

图2为本申请实施例提供的一种通信网络系统架构图；

图3是本申请第一实施例的语音处理方法的流程示意图；

图4是本申请获取用户的预设特征信息一实施例的操作界面示意图；

图5是本申请获取用户的预设特征信息另一实施例的操作界面示意图；

图6是本申请获取用户的预设特征信息又一实施例的操作界面示意图；

图7是本申请确定目标语音风格一实施例的操作界面示意图；

图8是本申请第二实施例的语音处理方法的流程示意图；

图9是本申请第三实施例的语音处理方法的流程示意图；

图10是本申请第四实施例的语音处理方法的流程示意图；

图11是本申请第五实施例的语音处理方法的流程示意图；

图12是本申请第六实施例的语音处理方法的流程示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，在本文中，采用了诸如S11、S12等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S12后执行S11等，但这些均应在本申请的保护范围之内。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

终端设备可以以各种形式来实施。例如，本申请中描述的终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本申请的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本申请各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，可选地，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。可选地，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，可选地，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，可选地，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本申请实施例，下面对本申请的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本申请实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。可选地，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。可选地，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本申请不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本申请各个实施例。

请参阅图3，是本申请一实施例的语音处理方法的流程示意图。该方法的执行主体可以为前述终端设备100，可包括如下S11和S12步骤。

S11、获取用户的预设特征信息。

预设特征信息可认为是能够用于表明用户状态的信息，该预设特征信息的种类，可以由用户根据实际使用情况予以设定，也可以由终端设备默认设定。用户设定和终端设备默认设定的参照维度包括但不限于为作息信息、情境信息、情感特征、性格特征、性别、年龄中的至少一种。

作息信息可以表明用户执行睡眠、运动、三餐、工作等行为的时间信息。情境信息可以表明用户的当前行为以及发生当前行为所处的环境条件，例如室内、室外、天气、跑步、散步等。情感特征表明用户当前的心情，例如兴奋、沮丧、愤怒等。性格特征表明用户的性格，包括但不限于活跃型、稳重型、幽默型、可爱型、较真型等。人在不同年龄段时的语音风格具有较大差异，因此，可以设置年龄包括婴童、青年、中年和老年这四个阶段。

获取这些预设特征信息的方式包括但不限于以下至少一种：

第一种，根据选择操作和/或输入操作获取预设特征信息。也就是说，终端设备根据用户的手动操作来获取预设特征信息。

一实施方式，终端设备可以提供一操作界面，请参阅图4所示，该操作界面显示有若干维度种类，例如图中所示的情境信息、性格特征和年龄。

对于维度种类的数量多、同一帧无法全部显示的场景，终端设备可以通过多个操作界面显示，每一操作界面显示一个维度种类及其具体选项，请参阅图5所示，作息信息、情境信息、情感特征和性格特征，以及这四个维度种类各自的具体选项各显示于一操作界面，用户在完成每一维度种类的选择操作之后，终端设备切换至下一个维度种类及其具体选项的操作界面。

用户点击选择部分或全部维度种类的具体选项，即可获取到用户的预设特征信息。例如，在图5所示的一具体场景中，用户点击选择作息信息为运动、情境信息为室外、情感特征为兴奋、性格特征为活跃型，则终端设备记录并获取到的预设特征信息为：运动、室外、兴奋、活跃型。

另一实施方式，请参阅图6，终端设备提供的操作界面可以显示有自定义输入选项，用户点击该自定义输入选项之后，终端设备切换至另一界面，该界面显示有输入框，从而根据用户的输入操作来获取预设特征信息。

优选地，输入框中可显示有各个维度种类的文字描述，例如图6所示的“情境信息”、“情感特征”、“性格特征”、“性别”、“年龄”，以提示用户。

用户输入操作的方式，本申请实施例不予限制，例如可以为触控键盘输入(包括但不限于拼音输入、笔画输入)，或者语音输入。

语音输入可以便于视障人士等用户的操作，进一步地，在输入每一维度种类之前，终端设备可以语音播放该维度种类的文字描述。例如，当切换至图6所示的输入框界面时，终端设备播放含有“请输入当前的情境信息”的声音，然后采集用户应答的语音指令，并语音识别其中的信息。

当然，语音播放方式和语音识别方式也可以适用于前述选择操作，例如，在切换至图4或图5所示的操作界面时，终端设备播放含有“请选择当前的情境信息”的声音，然后语音播放该维度种类包括的具体内容，接着采集用户应答的语音指令，并语音识别其所选择的具体内容。

应理解，终端设备也可以结合前述选择操作和输入操作，来获取用户的预设特征信息，具体实现方式可参阅图4至图6所描述。

第二种，根据历史习惯和/或传感器获取预设特征信息。

根据用户的作息历史数据(历史习惯)，采用AI技术得到用户的作息信息。例如每天24小时，执行睡眠、运动、三餐、工作等行为最频繁的时段。

传感器包括但不限于温度传感器、重力传感器、摄像头、3D面部识别传感器、麦克风等中的至少一种，终端设备可以通过一种或多种传感器，采集用户的相应的预设特征信息。例如，通过重力传感器和摄像头识别用户所在环境情况，以此获取用户的情境信息；通过摄像头识别用户的性别和年龄；通过3D面部识别传感器采集用户的面部特征，确定情感特征；通过麦克风采集用户的语音数据，并据此识别情感特征、性格特征、性别和年龄。

终端设备可以结合历史习惯和传感器来获取用户的预设特征信息。当这两种方式的识别结果相冲突时，可以以其中一种方式的识别结果为准，例如优选地以传感器的识别结果为准。所谓冲突表示对同一维度种类的识别结果完全不同，例如若根据历史习惯学习得到当前时段用户正处于睡眠状态，而传感器识别得到用户正在运动，这两种方式对“作息信息”这一维度种类的识别结果是冲突的，则终端设备优选地判定为用户正在运动。

而当这两种方式的识别结果不冲突时，可以综合两种方式的识别结果，例如，根据历史习惯学习得到用户正在吃晚餐，传感器识别结果为一女青年在室内吃饭且心情沮丧，最终得到用户的预设特征信息为：一女青年在室内吃晚餐且心情沮丧。于此能够更准确的反映用户当前状态。

第三种，获取用户的语音数据，并根据语音数据获取预设特征信息。

终端设备获取用户语音数据的方式，包括但不限于如下任一种：通过麦克风等传感器采集、从其他设备接收、从云端下载。

举例而言，终端设备与用户进行人机对话或者采集用户下达语音指令时的声音，并据此获取用户的语音数据，将语音数据输入语音风格预测模型中，对该用户的当前状态进行预测判断，输出用户的预设特征信息。

应当理解的是，终端设备也可以仅提供上述三种方式中的任意两种或全部，当同一维度种类的识别结果相冲突时，可以以其中一种方式的识别结果为准，例如优选地以传感器的识别结果为准；而当这两种方式的识别结果不冲突时，可以综合识别结果，于此能够更准确的反映用户当前状态。

另外，上述三种获取方式仅为示例性说明，本申请其他实施例中可以设置与前述方式不同，和/或种类数量大于三个的获取方式。

语音风格通过语音要素予以体现，换言之，不同的语音风格，语音要素(响调、音调和音色中的至少一种)不相同。终端设备可以调整响调、音调和音色中的至少一种，来得到所述目标语音风格。为便于描述及说明，本申请实施例可以划分语音风格包括如下至少一种：稳重型语音风格、活跃型语音风格、幽默型语音风格、可爱型语音风格、慷慨激昂型语音风格。

在一具体场景中，终端设备可以将根据预设特征信息自动得到的目标语音风格告知于用户，请参阅图7，终端设备弹出对话框，该对话框中显示当前确定的语音风格，例如“稳重型语音风格”，为便于视障人士终端可以语音播报，用户可以语音回复是否将当前确定的语音风格作为目标语音风格，也可以触控点击“是”选项以将其作为目标语音风格，或者点击“否”选项而不将其作为目标语音风格，并重新根据预设特征信息确定语音风格。

预设特征信息表示用户的当前状态，每一种用户状态可对应于一种语音风格。在某一用户状态下，终端设备可以根据预先设置的对应关系，来切换执行相适应的一种语音风格，语音风格丰富，有利于提高语音播放的质量。

例如，对于通过面容特征学习出用户情感特征的场景，终端设备可自动切换个性化的音调与音色来朗读。当用户心情愉悦时，可自动切换轻松欢快的语调与音色，有感情的朗读旅行类等读物；当用户心情沮丧时，可自动切换轻松、舒缓的语调与音色，有感情的朗读轻松、搞笑类读物。

再例如，当识别到用户室外跑步时，终端设备可自动切换慷慨激昂的音调与音色，播放用户感兴趣的有声读物；当识别到用户在海边散步时，可自动切换慵懒的音调与音色，播放用户感兴趣的有声读物。

又例如，当识别到用户入睡时，终端设备可以自动询问用户是否需要播放有声读物，若接收到用户反馈的表示需要的应答指令，则选用舒缓的音调与音色，有感情的播放用户感兴趣的助眠有声读物。这其中，优选地，终端设备可以根据记录到的作息信息来得到用户每日用眼时间，当超过健康用眼时长时，自动询问用户是否需要播放有声读物，以保护视力。

对于语音播放场景，请参阅图8所示，在图3所描述的方法基础上，本申请的语音处理方法还可以包括S13和S14步骤。

S13、识别并提取待播放资源的文本内容。

S14、对文本内容进行语音合成，生成具有目标语音风格的语音文档。

待播放资源包括如下至少一种：书籍、图片、网页、网址。概而言之，待播放资源包括字符文档和图片文档这两类。对于图片文档，可以识别出其中的字符，并按照在图片中的显示顺序先转换为字符文档。

待播放资源的文本内容可以为字符文档、语音文档或者两者组合。

采用语音处理技术将待播放资源的文本内容转换为语音文档(称之为初始语音文档)，再采用语音合成技术生成具有目标语音风格的语音文档(称之为输出语音文档)。于此，语音播放的风格丰富，播放质量高。

以视障人士阅读书籍为例，视障人士以自身状态阅览海量书籍，丰富的语音风格有利于其更有感情、更全面的了解世界，提升自我感受。例如，对于技术专业类读物，目标语音风格可以为稳重型语音风格；对于娱乐类读物，目标语音风格可以为活跃型语音风格；对于搞笑类读物，目标语音风格可以为幽默型语音风格；对于儿童读物，目标语音风格可以为可爱型语音风格。

图9是本申请第三实施例的语音处理方法的流程示意图。请参阅图9，本实施例的语音处理方法可包括如下S11至S14步骤。

S11、获取用户的预设特征信息。

S121、根据目标语音风格选择适配的待播放文档。

S13、识别并提取待播放文档中的文本内容。

前述图3和图8所描述的实施例，可以无需考虑待播放文档与用户当前状态(即预设特征信息)的适配关系，而本实施例在确定目标语音风格之后，根据用户当前状态来选择适配的待播放文档，由于用户当前状态可标识目标语音风格，因此可视为根据目标语音风格来选择适配的待播放文档，然后通过语音合成技术将待播放文档转换为具有目标语音风格的语音文档。

所述S13步骤的实现方式包括以下两种方式中的至少一种：

一种，根据文档的预设分类标签获取其预设特征信息，将与S12步骤获取的目标语音风格相适配的文档确定为待播放文档。

在传统的电子刊物这一具体场景中，电子刊物通常会对其所有文档进行类型划分，并设置分类标签，例如情感类、娱乐类、搞笑类、恐怖类。据此，可以根据分类标签确定相适配的预设特征信息。

对于未设置分类标签的待播放文档，终端设备可以根据文档的文本内容自动确定其预设特征信息，再确定其适配的语音风格，即下述另一种方式。

另一种，根据文档的文本内容确定其预设特征信息，并据此确定适配的语音风格，将与目标语音风格相同的文档确定为待播放文档。

根据文本内容进行分类并生成分类标签的技术，可参阅显示技术。该种方式可视为需要终端设备自动生成分类标签。

图10是本申请第四实施例的语音处理方法的流程示意图。请参阅图10，本实施例的语音处理方法可包括如下S11、S111、S112和S12步骤。

S11、获取用户的预设特征信息。

S111、获取待播放文档的预设特征信息。

S112、判断待播放文档的预设特征信息与用户的预设特征信息是否冲突。

若待播放文档的预设特征信息与用户的预设特征信息未冲突，可视为相适配，则执行所述S12步骤。若冲突，则执行S113步骤。

S113、执行预设策略。

前述图9所描述的实施例根据目标语音风格选定相适配的待翻译文档，与其不同的是，本实施例是根据预设特征信息来选定相适配的待翻译文档。

在S111步骤中，获取待播放文档的预设特征信息包括以下至少一种：

一种，根据文档的预设分类标签获取其预设特征信息，将与S11步骤获取的预设特征信息相同或相似的文档确定为待播放文档。

对于未设置分类标签的待播放文档，终端设备可以根据文档的文本内容自动确定其预设特征信息，即下述另一种方式。

另一种，根据文档的文本内容确定其预设特征信息。

根据预设特征信息进行分类并生成分类标签的技术，可参阅显示技术。该种方式可视为需要终端设备自动生成分类标签。

在所述S113步骤中，所述预设策略包括以下四种的至少一种：

第一种、执行所述S12步骤。

第二种、根据选择指令确定目标语音风格。

在待播放文档的预设特征信息与用户的预设特征信息冲突时，可认为待播放文档的语音风格并不适配用户当前状态，用户可以下达选择指令，用于指示按照待播放文档的语音风格进行语音播放，或者，按照用户当前状态所适配的语音风格(即目标语音风格)来语音播放所述待播放文档，又或者，重新执行S111和S112步骤，即重新选择与目标语音风格相适配的文档，直至所选取的文档的预设特征信息与用户的预设特征信息相同或相似。

第三种、根据待播放文档的预设特征信息确定目标语音风格。

也就是说，将待播放文档自身的语音风格作为语音播放时的目标语音风格。

第四种、将默认语音风格作为语音播放时的目标语音风格。

默认语音风格可认为是终端设备预先默认的语音风格，其与待播放文档自身的语音风格和根据用户当前状态确定的目标语音风格，没有任何关系。

在一实现方式中，默认语音风格可以为传统的语音要素持续不变化的语音风格，也可以是预先设定的但与用户状态无关联的语音风格。

图11是本申请第五实施例的语音处理方法的流程示意图。请参阅图11，本实施例的语音处理方法可包括如下S21和S22步骤。

S21、获取待播放文档的预设特征信息。

预设特征信息可认为是能够表明文档类型的信息，该文档类型可用于标识所适用的用户状态。例如，待播放文档的预设特征信息包括但不限于为作息信息、情境信息、情感特征、性格特征、性别、年龄中的至少一种。

待播放文档的预设特征信息的这些具体内容、以及获取这些预设特征信息的方式，可参阅前述实施例的描述，此处不再赘述。

根据预设特征信息确定目标语音风格的原理及描述，请参阅前述实施例。

与前述实施例的不同之处在于，本实施例是根据待播放文档的预设特征信息来确定目标语音风格，而非根据用户的预设特征信息来确定目标语音风格。用户可以先选取某一或某些文档作为待播放文档，从其文本内容来获取预设特征信息，即终端设备根据待播放文档的文本内容来确定目标语音风格，相比较于根据用户当前状态来确定目标语音风格，本实施例能够更加真实、贴切的反映待播放文档的实际情感表达，语音播放质量更高。

图12是本申请第六实施例的语音处理方法的流程示意图。请参阅图12，本实施例的语音处理方法可包括如下S21至S23步骤。

S21、获取待播放文档的预设特征信息。

S211、获取用户的预设特征信息；

S212、判断待播放文档的预设特征信息与用户的预设特征信息是否冲突。

若待播放文档的预设特征信息与用户的预设特征信息未冲突，可视为相适配，则执行所述S22步骤。若冲突，则执行S23步骤。

S23、执行预设策略。

用户的预设特征信息用于标识用户当前状态、待播放文档的预设特征信息用于标识待播放文档自身所适用的语音风格，于此，本实施例进一步判断待播放文档自身所适用的语音风格是否符合用户当前状态，能够使得语音播放更加真实、贴切的契合用户当前状态，语音播放质量更高。

在所述S23步骤中，所述预设策略包括以下四种的至少一种：

第一种、执行所述S22步骤。

第二种、根据选择指令确定目标语音风格。

在待播放文档的预设特征信息与用户的预设特征信息冲突时，可认为待播放文档的语音风格并不适配用户当前状态，用户可以下达选择指令，用于指示按照待播放文档的语音风格进行语音播放，或者，按照用户当前状态所适配的语音风格(即目标语音风格)来语音播放所述待播放文档，又或者，重新执行S21步骤，即重新选择与用户当前状态相适配的文档，直至所选取的文档的预设特征信息与用户的预设特征信息相同或相似。

第三种、根据用户的预设特征信息确定目标语音风格。

也就是说，将用户的语音风格作为语音播放时的目标语音风格。

第四种、将默认语音风格作为语音播放时的目标语音风格。

默认语音风格可认为是终端设备预先默认的语音风格，其与待播放文档自身的语音风格和根据用户当前状态确定的语音风格，没有任何关系。

本申请还提供一种移动终端设备，移动终端设备包括存储器、处理器以及存储在存储器里并可在处理器上运行的语音处理程序，交互程序被处理器执行时实现上述任一实施例中的方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有语音处理程序，该语音处理程序被处理器执行时实现上述任一实施例中的语音处理方法的步骤。

在本申请提供的移动终端设备和计算机可读存储介质的实施例中，包含了上述方法各实施例的全部技术特征，说明书拓展和解释内容与上述方法的各实施例基本相同，在此不做再赘述。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上各种可能的实施例中所述的方法。

本申请实施例还提供一种芯片，包括存储器和处理器，该存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行如上各种可能的实施例中的方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请中，对于相同或相似的术语概念、技术方案和/或应用场景描述，一般只在第一次出现时进行详细描述，后面再重复出现时，为了简洁，一般未再重复阐述，在理解本申请技术方案等内容时，对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等，可以参考其之前的相关详细描述。

在本申请中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音处理方法，其特征在于，所述语音处理方法包括：

S11、获取用户的预设特征信息；

2.根据权利要求1所述的方法，其特征在于，包括以下至少一种：

所述预设特征信息包括以下至少一种：作息信息、情境信息、情感特征、性格特征、性别、年龄；

所述S11步骤包括以下至少一种：根据选择操作和/或输入操作获取预设特征信息、根据历史习惯和/或传感器获取预设特征信息、获取用户的语音数据，并根据语音数据获取预设特征信息。

3.根据权利要求1所述的方法，其特征在于，包括以下至少一种：

所述S12步骤之前，还包括：根据所述目标语音风格选择适配的待播放文档，识别并提取待播放文档中的文本内容，和/或，对所述文本内容进行语音合成，生成具有所述目标语音风格的语音文档；

所述方法还包括：识别并提取待播放资源的文本内容，所述S12步骤之后，包括：对所述文本内容进行语音合成，生成具有所述目标语音风格的语音文档。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述S12步骤之前，还包括：获取待播放文档的预设特征信息；

判断所述待播放文档的预设特征信息与用户的预设特征信息是否冲突；

若否，则执行所述S12步骤；和/或，若是，则执行预设策略。

5.根据权利要求4所述的方法，其特征在于，包括以下至少一种：

所述获取待播放文档的预设特征信息，包括：根据所述待播放文档的预设分类标签获取其预设特征信息，和/或，根据所述待播放文档的文本内容确定其预设特征信息；

所述预设策略包括以下至少一种：执行所述S12步骤、根据选择指令确定目标语音风格、根据所述待播放文档的预设特征信息确定目标语音风格、将默认语音风格作为语音播放时的目标语音风格。

6.一种语音处理方法，其特征在于，所述语音处理方法包括：

S21、获取待播放文档的预设特征信息；

7.根据权利要求6所述的方法，其特征在于，包括以下至少一种：

所述S21步骤包括：根据待播放文档的预设分类标签获取其预设特征信息，和/或，根据待播放文档的文本内容确定其预设特征信息；

所述S22步骤之前，还包括：获取用户的预设特征信息，判断所述待播放文档与用户的预设特征信息是否冲突，若否，则执行所述S22步骤，和/或，若是，则执行预设策略。

8.根据权利要求7所述的语音处理方法，其特征在于，所述预设策略包括以下至少一种：

执行所述S22步骤；

根据选择指令确定目标语音风格；

根据用户的预设特征信息确定目标语音风格；

将默认语音风格作为语音播放时的目标语音风格。

9.一种终端设备，其特征在于，所述终端设备包括存储器和处理器，所述存储器存储有语音处理程序，所述语音处理程序用于被所述处理器执行时实现如权利要求1至8中任一项所述的语音处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序用于被处理器执行时实现如权利要求1至8中任一项所述的语音处理方法的步骤。