CN112653789A

CN112653789A - 语音模式切换方法、终端及存储介质

Info

Publication number: CN112653789A
Application number: CN202011544069.2A
Authority: CN
Inventors: 洪江力
Original assignee: Shanghai Chuanying Information Technology Co Ltd
Current assignee: Shanghai Chuanying Information Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-13

Abstract

本申请公开一种语音模式切换方法、终端及存储介质，涉及终端技术领域，可以根据当前使用场景智能切换至相应的语音模式，解决现有语音模式的切换不智能，无法满足用户期望的问题。所述语音模式切换方法包括：获取场景信息；根据所述场景信息和决策关系规则，确定第二语音模式作为目标语音模式；切换至所述目标语音模式。可选地，语音模式为包括至少一个语音参数的语音参数组，语音数据库包括至少一个语音模式。

Description

语音模式切换方法、终端及存储介质

技术领域

本申请涉及终端技术领域，具体涉及一种语音模式切换方法、终端及存储介质。

背景技术

随着信息技术的发展，智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段。手机等智能终端设备一般都设置有语音助手，通过智能对话与即时问答的智能交互，帮忙用户解决问题。

一些实现中，语音助手为固定的语音模式或用户可手动设置部分语音模式参数。如图1所示，某些手机可以设置发音人角色，设置方法如下：在语音设置中点击语音播报角色，弹出发音人设置/下载页面，在此页面，用户可以选择中英文普通话、东北话、河南话、湖南话、普通话(晓峰)、普通话(晓燕)等模式。手机下载或调用用户选择的模式，例如东北话模式，在后续的语音交互中使用东北话模式进行播音。

发明人发现上述语音模式比较单一，语音模式的切换也只能手动进行，无法满足用户目前的期望。

发明内容

鉴于此，本申请提供一种语音模式切换方法、终端及存储介质，可以根据当前使用场景智能切换至相应的语音模式，解决上述语音模式的切换不智能，无法满足用户期望的问题。

本申请提供的一种语音模式切换方法，包括：

获取场景信息；

根据所述场景信息和决策关系规则，确定第二语音模式作为目标语音模式；

切换至所述目标语音模式。

本申请提供的语音模式切换方法，根据获取的当前场景信息确定第二语音模式作为目标语音模式，并切换至目标语音模式，根据第二语音模式与用户进行语音交互。第一语音模式为当前使用的语音模式。本申请实施例的方案可以实现根据当前场景动态切换适合的语音模式的工作方式，避免使用不适合当前使用场合或场景的语音模式。

可选地，本方法还包括以下至少一种：所述语音模式包括语音参数，所述语音参数包括：基本语音参数和/或所述基本语音参数随时间变化的语音行为参数；所述决策关系规则包括第一对应关系和第二对应关系。

可选地，本方法还包括以下至少一种：所述第一对应关系为预先设置的所述场景信息与所述语音模式的对应关系；所述第二对应关系为通过机器学习新生成的所述场景信息与所述语音模式的对应关系。

可选地，所述场景信息包括环境数据，所述方法还包括以下至少一种：

当所述环境数据包括环境噪音时，所述第一对应关系包括：当环境噪音大于第一预设值，所述目标语音模式选择高于第一音量的超高音语音模式或者提高当前语音模式中的音量；

当所述环境数据包括位置信息时，所述第一对应关系包括：当所述位置信息识别为工作场所时，所述目标语音模式选择适于处工作状态时对话的工作语音模式；

当所述环境数据包括当前时间时，所述第一对应关系包括：如果当前时间为夜间时，所述目标语音模式选择适于夜间对话的夜间语音模式。

可选地，所述场景信息包括用户输入语音，所述第一对应关系包括以下至少一种：当用户输入的语音识别为老人语音时，所述目标语音模式选择适于与老人对话的陪护语音模式；当用户输入的语音识别为儿童语音时，所述目标语音模式选择适于与儿童对话的儿童语音模式；当用户输入的语音识别为第一方言时，所述目标语音模式选择使用所述第一方言进行对话的第一方言语音模式。

可选地，所述场景信息包括环境数据和用户输入语音，所述根据所述场景信息和决策关系规则，确定第二语音模式，作为目标语音模式，包括：从所述环境数据中提取噪音水平参数，从所述用户输入语音中提取用户语音的所述基本语音参数和/或所述语音行为参数，根据所述决策关系规则，将提取的所述噪音水平参数、所述基本语音参数和/或所述语音行为参数与所述语音数据库中的语音模式进行匹配，以确定目标语音模式。

可选地，在所述切换至所述目标语音模式之后，所述方法还包括：

接收标注反馈；

对所述标注反馈进行机器学习，以修正所述第一对应关系或生成第二对应关系，和/或，修正所述语音模式或生成新的语音模式。

可选地，在所述切换至所述目标语音模式之前，还包括：获取语音模式切换的过渡参数，根据所述过渡参数切换至所述目标语音模式。

本申请提供的一种语音模式切换方法，包括：

获取场景信息，所述场景信息至少包括环境数据和用户输入语音中的一个；

根据所述场景信息和决策关系规则，在语音数据库中选择对应的语音模式或者生成新的语音模式，作为目标语音模式，可选地，所述决策关系规则包括所述场景信息与语音模式的对应关系，所述语音模式为包括至少一个语音参数的语音参数组，所述语音数据库包括至少一个语音模式；

将当前语音模式切换至所述目标语音模式，根据所述目标语音模式与用户进行语音交互。

可选地，所述决策关系规则保存在数据库中，所述决策关系规则包括第一对应关系和第二对应关系，所述第一对应关系为预先设置的所述场景信息与所述语音模式的对应关系；所述第二对应关系为通过机器学习新生成的所述场景信息与所述语音模式的对应关系。

可选地，当所述场景信息包括所述环境数据，所述环境数据包括环境噪音时，所述第一对应关系包括：当环境噪音大于第一预设值，所述目标语音模式选择高于第一音量的超高音语音模式或者提高当前语音模式中的音量；当所述环境数据包括位置信息时，所述第一对应关系包括：当所述位置信息识别为工作场所时，所述目标语音模式选择适于处工作状态时对话的工作语音模式；当所述环境数据包括当前时间时，所述第一对应关系包括如果当前时间为夜间时，所述目标语音模式选择适于夜间对话的夜间语音模式；

当所述场景信息包括用户输入语音时，所述第一对应关系包括：当用户输入的语音识别为老人语音时，所述目标语音模式选择适于与老人对话的陪护语音模式；当用户输入的语音识别为儿童语音时，所述目标语音模式选择适于与儿童对话的儿童语音模式；当用户输入的语音识别为第一方言时，所述目标语音模式选择使用所述第一方言进行对话的第一方言语音模式。

可选地，将当前语音模式切换至所述目标语音模式之后，所述语音模式切换方法还包括：接收用户输入的响应切换正确与否进行的标注反馈；对所述标注反馈用于进行机器学习，以修正所述第一对应关系或生成第二对应关系，以及，修正所述语音模式或生成新的语音模式。

可选地，所述语音参数包括：基本语音参数和所述基本语音参数随时间变化的语音行为参数，所述基本语音参数包括声音的音量、柔和度、声调、音色和音调。

可选地，所述场景信息包括环境数据和用户输入语音；所述根据所述场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式，包括：从所述环境数据和所述用户输入语音中提取噪音水平参数、用户语音的所述基本语音参数和所述语音行为参数，所述噪音水平参数表征环境噪音高低；根据所述决策关系规则，将提取的所述噪音水平参数、用户语音的所述基本语音参数和所述语音行为参数与所述语音数据库中的语音模式进行匹配，以确定目标语音模式。

可选地，所述根据所述决策关系规则，将提取的所述噪音水平参数、用户语音的所述基本语音参数和所述语音行为参数与所述语音数据库中的语音模式进行匹配，以确定目标语音模式，包括：

根据所述噪音水平参数和用户语音的所述语音基本参数、所述语音行为参数，以及所述决策关系规则，确定至少一个初始语音模式；

根据所述决策关系规则，将所述噪音水平参数、用户语音的所述语音基本参数和所述语音行为参数映射成一组语音参数，并对所述至少一个初始语音模式中的每一个进行可信度评分，可选地，所述可信度评分的评分项包括：映射成的一组语音参数与所述初始语音模式的语音参数的匹配程度、所述初始语音模式的优先级及所述初始语音模式选择的限制；

筛选出可信度评分中分数最高的第一初始语音模式，当所述第一初始语音模式的分数大于或等于预设值时，选择所述第一初始语音模式作为目标语音模式；当所述第一初始语音模式的分数小于预设值时，根据决策关系规则对所述第一初始语音模式的语音参数进行修改，并将修改后形成的语音模式作为目标语音模式输出。

可选地，根据所述场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式之后，在将当前语音模式切换至所述目标语音模式之前，所述语音模式切换方法还包括：获取语音模式切换的时机和过渡参数；将当前语音模式切换至所述目标语音模式时，根据所述切换的时机和所述过渡参数进行。

可选地，所述切换的时机和所述过渡参数预先设置，并在执行所述语音模式切换方法的过程中，根据相应的用户标注反馈进行学习修正。

可选地，所述语音数据库包括：预设语音模式、自定义语音模式和第一语音模式；所述第一语音模式为根据收集的所述场景信息和用户标注反馈，通过机器学习生成的新的语音模式。

可选地，还包括：根据用户标注反馈，通过机器学习特定人的语音输入，并把学习到的语音参数更新到所述自定义的语音模式中。

可选地，所述数据库包括以下中的至少一个：

标准模式、静音模式、适用于商务活动中使用的商务语音模式、适用于与老人对话的陪护语音模式、适用于与儿童对话的儿童语音模式、适用于在噪音环境下使用的超高音语音模式、适用于夜间对话的夜间语音模式、幽默滑稽的搞怪语音模式和用户自定发音人模式。

另一方面，本申请还提供一种语音模式切换装置，包括：获取单元，用于获取场景信息，所述场景信息至少包括环境数据和用户输入语音中的一个；决策单元，用于根据所述场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式，可选地，所述决策关系规则包括所述场景信息与语音模式的对应关系，所述语音模式为包括至少一个语音参数的语音参数组，所述语音数据库包括至少一个语音模式；切换单元，用于将当前语音模式切换至所述目标语音模式，根据所述目标语音模式与用户进行语音交互。

另一方面，本申请还提供一种终端，包括存储器和处理器，所述存储器存储有程序，所述程序用于被所述处理器运行以执行上述任一项所述的语音模式切换方法。

另一方面，本申请还提供一种可读存储介质，所述可读存储介质中存储有程序，所述程序用于被处理器运行以执行如上述任一项所述的语音模式切换方法。

本申请的语音模式切换方法根据场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式，或者直接生成新的语音模式作为目标语音模式，然后将当前语音模式切换至所述目标语音模式，根据目标语音模式与用户进行语音交互。从上述场景信息可以获取语音模式切换发生时的使用场景。因此，本申请的语音模式切换方法，可以根据当前使用场景智能切换至相应的语音模式，解决现有语音模式的切换不智能，无法满足用户期望的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有语音助手的语音模式切换页面；

图2为实现本申请各个实施例的一种移动终端的硬件结构示意图；

图3是本申请第一实施例提供的一种语音模式切换方法的流程示意图；

图4是本申请第二实施例提供的一种语音模式切换方法的流程示意图；

图5是本申请第二实施例的经验数据库的示意图；

图6是本申请第二实施例的语音数据库的示意图；

图7是本申请第二实施例提供的又一种语音模式切换方法的流程示意图；

图8是本申请第二实施例提供的确定目标语音模式的流程示意图；

图9是本申请第二实施例提供的另一种语音模式切换方法的流程示意图；

图10是本申请第二实施例提供的另一种语音模式切换方法的流程示意图；

图11是本申请第二实施例提供的语音模式切换装置的示意图；

图12是本申请第二实施例提供的语音模式切换装置的切换流程示意图；

图13是本申请第二实施例提供的一种终端的示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一对应关系也可以被称为第二对应关系，类似地，第二对应关系也可以被称为第一对应关系。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于……确定……”。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的，或意味着任一个或任何组合。例如，“包括以下至少一个：A、B、C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”，再如，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是，在本文中，采用了诸如S201、S202等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S202后执行S201等，但这些均应在本申请的保护范围之内。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。

下面描述中的终端可以是需要身份认证的任何电子设备。一般地，上述描述中的终端可以是移动终端。移动终端可以以各种形式来实施。例如，本申请中描述的移动终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本申请的实施方式的构造也能够应用于固定类型的终端或者其它电子设备。

请参阅图2，其为实现本申请各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图2中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图2对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图2示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，可选地，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别设备姿态的应用(比如手机横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。可选地，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

可选地，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图2中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，可选地，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，可选地，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图2未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

基于上述移动终端硬件结构，提出本申请各个实施例。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。还应当理解，此处所描述移动终端硬件结构以及通信网络系统仅仅用以帮助理解本申请，并不用于限定本申请。

实施例一

如图3所示，本申请的实施例提供的一种语音模式切换方法，包括：

S201、获取场景信息；

S202、根据所述场景信息和决策关系规则，确定第二语音模式作为目标语音模式；

S203、切换至所述目标语音模式。

此处的场景信息指语音模式切换发生时语音对话的使用场景，即语音模式的使用场景。决策关系规则用来确定获取的场景信息应对应到那种语音模式，决策关系规则例如可以为函数等，用来表述场景信息与语音模式的对应关系。第一语音模式一般为当前使用的语音模式。本申请实施例根据获取的当前场景信息确定第二语音模式作为目标语音模式，并切换至目标语音模式，根据第二语音模式与用户进行语音交互。本申请实施例的方案可以实现根据当前场景信息动态切换适合的语音模式的工作方式，避免使用不适合当前使用场合或场景的语音模式。

可选的，语音模式可以包括语音参数，语音参数包括：基本语音参数和/或基本语音参数随时间变化的语音行为参数。

可选的，决策关系规则可以包括第一对应关系和第二对应关系。第一对应关系例如可以是出厂前预先设置的，第二对应关系例如可以是在实际应用中新生成或新下载的，或者通过软件升级新获取的。

在一些实施例中，第一对应关系可以为预先设置的场景信息与语音模式的对应关系；第二对应关系可以为通过机器学习新生成的场景信息与语音模式的对应关系。

可选的，场景信息可以包括环境数据。

可选的，当环境数据包括环境噪音时，第一对应关系可以包括：当环境噪音大于第一预设值，目标语音模式选择高于第一音量的超高音语音模式或者提高当前语音模式中的音量。

可选的，当环境数据包括位置信息时，第一对应关系可以包括：当位置信息识别为工作场所时，目标语音模式选择适于处工作状态时对话的工作语音模式。

可选的，当环境数据包括当前时间时，第一对应关系可以包括：如果当前时间为夜间时，目标语音模式选择适于夜间对话的夜间语音模式。

另外，可选的，场景信息可以包括用户输入语音。

可选的，当场景信息包括用户输入语音，第一对应关系包括以下至少一种：当用户输入的语音识别为老人语音时，目标语音模式选择适于与老人对话的陪护语音模式。

可选的，当用户输入的语音识别为儿童语音时，目标语音模式选择适于与儿童对话的儿童语音模式。

可选的，当用户输入的语音识别为第一方言时，目标语音模式选择使用第一方言进行对话的第一方言语音模式。

本实施例对获取的场景信息不做限定，可以上述描述中一种或多种。本实施例对决策关系规则也不做限定，可以上述描述中一种或多种。

实施例二

如图4所示，本申请的实施例提供的一种语音模式切换方法，包括：

201、获取场景信息，所述场景信息至少包括环境数据和用户输入语音中的一个；

场景信息即语音模式的使用场景。例如，语音助手的当前使用场景，一般包括用户信息(与什么样的用户对话)，环境信息(在什么环境下对话，是嘈杂环境还是安静环境)，对话发生时调用语音助手的APP等等。调用语音助手的APP可以用于推测例如是严肃的工作场合还是休闲娱乐时段。

202、根据所述场景信息和决策关系规则，在语音数据库中选择对应的语音模式或者生成新的语音模式作为目标语音模式，可选地，决策关系规则包括场景信息与语音模式的对应关系，语音模式为包括至少一个语音参数的语音参数组，语音数据库包括至少一个语音模式；

本申请的语音参数指用于区分不同声音的特征参数，示例性地，语音参数包括：基本语音参数和基本语音参数随时间变化的语音行为参数，所述基本语音参数包括声音的音量、柔和度、声调、音色和音调。

本申请的语音模式为若干语音参数共同限定的一种语音模式。示例性地，语音模式可以为：标准模式、静音模式、适用于商务活动中使用的商务语音模式、适用于与老人对话的陪护语音模式、适用于与儿童对话的儿童语音模式、适用于在噪音环境下使用的超高音语音模式、适用于夜间对话的夜间语音模式、幽默滑稽的搞怪语音模式或者用户自定发音人模式。以适用于与儿童对话的儿童语音模式为例，儿童语音模式的各项语音参数向适合与儿童进行对话的方向倾斜，例如其语音音量适当，语速较慢、声音比较柔和，音色甜美或者自然圆润等。

语音数据库中存储有至少一个语音模式。优选地，语音数据库中存储有多个语音模式。示例性地，语音数据库可以包括下述中的至少一种：标准模式、静音模式、适用于商务活动中使用的商务语音模式、适用于与老人对话的陪护语音模式、适用于与儿童对话的儿童语音模式、适用于在噪音环境下使用的超高音语音模式、适用于夜间对话的夜间语音模式、幽默滑稽的搞怪语音模式和用户自定发音人模式。

决策关系规则包括场景信息与语音模式(由一组语音参数限定)的对应关系。决策关系规则可以预先设置。示例性的决策关系规则可以包括：当识别为儿童使用手机的场景，则对声音的音量、柔和度、声调、音色和音调这些语音参数进行合理限定，使其适合儿童的理解力和心理特点，例如其语音音量要适当，语速适中，声音比较柔和等等。

可选地，决策关系规则可以在后续的语音模式切换中收集经验数据和用户标注反馈，通过自主学习进行进化。此处的自主学习指机器学习。

本步骤根据使用场景和决策关系规则确定目标语音模式。本步骤中方，基于接收到场景信息，在语音数据库中依据决策关系规则匹配出对应的语音模式作为目标语音模式，并在匹配不成功时，依据决策关系规则修改语音参数生成新的语音模式作为目标语音模式。

203、将当前语音模式切换至目标语音模式，根据目标语音模式与用户进行语音交互。本步骤将当前语音模式切换至目标语音模式，使用目标语音模式与用户进行对话。

本实施例通过输入的场景信息获取语音模式切换发生时的使用场景，然后根据当前使用场景智能切换至相应的语音模式，解决现有语音模式的切换不智能，无法满足用户期望的问题。

在一些实施例中，如图5所示，决策关系规则保存在数据库中，数据库例如可以是命名为经验数据库20。决策关系规则包括第一对应关系21和第二对应关系22，第一对应关系21为预先设置的场景信息与语音模式的对应关系；第二对应关系22为通过机器学习新生成的场景信息与语音模式的对应关系。可选地，第二对应关系22可以是第一对应关系21通过学习进化生成，也可以是根据收集的场景信息和用户标注反馈通过学习新生成的。

在一些实施例中，根据决策关系规则，如果场景信息与语音数据库的任何一个语音模式的匹配度都小于预设分数，这时可以在最匹配的语音模式(即评分最高的语音模式)基础上进行对该语音模式的语音参数进行适当修改，修改后的语音模式可以在语音数据库中存储为新的语音模式。

如图6所示的示例性语音数据库30包括：预设语音模式31、自定义语音模式32和第一语音数据库33。

预设语音模式31示例性地包括：标准模式、陪护语音模式、儿童语音模式、超高音语音模式、搞怪语音模式和夜间语音模式、第一方言语音模式等。第一方言语音模式例如可以为东北话语音模式、陕西话语音模式、河南话语音模式。还可以通过网上下载增加新的预设语音模式31。

自定义语音模式32中各项语音参数可以由用户自主修改。可选地，在一些其它实施例中，自定义语音模式可以通过机器学习自主进化。本实施例语音模式切换方法，还包括：根据用户标注反馈，通过机器学习特定人的语音输入，并把学习到的语音参数更新到上述自定义的语音模式中。

第一语音模式33为根据收集的场景信息和用户标注反馈，通过机器学习生成的新的语音模式。第一语音模式33可以是基于预设语音模式31和自定义语音模式32通过对收集的场景信息和用户标注反馈进行学习，得到的进化的语音模式，即经修改的预设语音模式；也可以是通过对收集的场景信息和用户标注反馈进行学习，直接生成的新的语音模式。

本文中出现的标注和用户标注反馈，均指用户输入的或经用户确认的操作、语音参数数据或关于语音模式切换的推理结论，例如可以包括用户对语音模式的修改，用户对语音模式切换正确与否的反馈，对语音模式切换时机的修正或反馈等。执行语音模式切换过程中，如果用户发现关于语音模式切换的推理错误，用户一般需要修正标注，如果推理正确，标注不用修正。

在一些实施例，场景信息包括环境数据和用户输入语音，环境数据可以包括环境噪音、位置信息、当前时间等。语音数据库可以包括：超高音语音模式、工作语音模式、夜间语音模式、陪护语音模式、儿童语音模式、第一方言语音模式。

环境数据包括环境噪音时，示例性的第一对应关系包括：当环境噪音大于第一预设值，目标语音模式选择高于第一音量的超高音语音模式或者提高当前语音模式中的音量；当环境数据包括位置信息时，示例性的第一对应关系包括：当位置信息识别为工作场所时，目标语音模式选择适于处工作状态时对话的工作语音模式；当环境数据包括当前时间时，示例性的第一对应关系包括如果当前时间为夜间时，目标语音模式选择适于夜间对话的夜间语音模式。

当场景信息包括用户输入语音时，示例性的第一对应关系包括：当用户输入的语音识别为老人语音时，目标语音模式选择适于与老人对话的陪护语音模式；当用户输入的语音识别为儿童语音时，目标语音模式选择适于与儿童对话的儿童语音模式；当用户输入的语音识别为第一方言时，目标语音模式选择使用第一方言进行对话的第一方言语音模式。

本实施例预设多个决策关系规则和多个语音模式，可以基于环境数据和用户输入语音，在语音数据库中依据决策关系规则匹配出相应的语音模式作为目标语音模式输出，也可以在基于语音模式，依据决策关系规则对各语音参数进行修改，输出目标语音模式。例如，在环境噪音较大时输入儿童语音，本实施例依据上述第一关系，要选择儿童语音模式并将语音音量设置适当提高，例如高于第一音量。

如图7所示，在一些实施例中，场景信息包括环境数据和用户输入语音；步骤202包括：

2021、从环境数据和用户输入语音中提取噪音水平参数、用户语音的基本语音参数和语音行为参数，噪音水平参数表征环境噪音高低；

本步骤通过声音识别技术，从输入的场景信息中提取表征环境噪音高低的噪音水平参数，基本语音参数诸如声音的音量、柔和度、声调、音色和音调，以及表征基本语音参数随时间变化的语音行为参数。可以采用七维向量(噪音水平参数，声音的音量，声音的柔和度，声音的声调，声音的音色，声音的音调，语音行为参数)表征场景信息。

2022、根据决策关系规则，将提取的噪音水平参数、用户语音的基本语音参数和语音行为参数与语音数据库中的语音模式进行匹配，以确定目标语音模式。

本步骤根据决策关系规则，将表征场景信息的七维向量映射成一组语音参数组(包括至少一个语音参数)，然后将该映射生成的语音参数组与语音数据库中的各语音模式进行一一匹配，并根据匹配程度、语音模式的优先级、语音模式的选择的限制因素等，确定目标语音模式。

可选地，如图8所示，本步骤的匹配过程包括：

221、根据噪音水平参数和用户语音的语音基本参数、语音行为参数，以及决策关系规则，确定至少一个初始语音模式；

本步骤根据决策关系规则进行匹配，确定至少一个初始语音模式。由于决策关系规则存在多个，根据不同决策关系规则可能会匹配出一个或多个语音模式，这些匹配出的一个或多个语音模式称为初始语音模式。

222、根据决策关系规则，将噪音水平参数、用户语音的语音基本参数和语音行为参数映射成一组语音参数，并对所述至少一个初始语音模式中的每一个进行可信度评分。可选地，可信度评分的评分项包括：映射成的一组语音参数与初始语音模式的语音参数的匹配程度、初始语音模式的优先级及初始语音模式选择的限制；

本步骤对步骤221得到的至少一个初始语音模式进行可信度评分，评分项包括：表征场景信息的七维向量映射成的语音参数组与至少一个初始语音模式的语音参数的匹配程度；各初始语音模式的优先级；各初始语音模式的限制因素等。初始语音模式的优先级以及选择的限制因素，出厂前内置在设备系统中，后续使用中可以通过用户设置或标注进行修正。

223、筛选出可信度评分中分数最高的第一初始语音模式，当第一初始语音模式的分数大于或等于预设值时，选择第一初始语音模式作为目标语音模式；当第一初始语音模式的分数小于预设值时，根据决策关系规则对第一初始语音模式的语音参数进行修改，并将修改后形成的语音模式作为目标语音模式输出。

本步骤根据可信度评分的分数进行最后的决策，当可信度评分足够高时，选择分数最高的初始语音模式作为目标语音模式。当可信度评分较低时，根据决策关系规则对分数最高的初始语音模式的语音参数进行修改，并将修改后新形成的语音模式作为目标语音模式输出。

如图9所示，在一些实施例中，将当前语音模式切换至目标语音模式之后，语音模式切换方法还包括：

204、接收用户输入的响应切换正确与否进行的标注反馈；

205、对标注反馈进行机器学习，以修正第一对应关系或生成第二对应关系，以及，修正语音模式或生成新的语音模式。

本实施例中，在切换完成后，可以输出提醒用户进行切换正确与否的标注反馈，标注反馈用来进行机器学习，学习结果可以修正决策关系规则或生成新的决策关系规则，还可以用来修正语音模式或生成新的语音模式，使得以后的语音模式匹配更合理，切换更准确。

如图10所示，在一些实施例中，根据场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式之后，在将当前语音模式切换至目标语音模式之前，语音模式切换方法还包括：206、获取语音模式切换的时机和过渡参数。步骤203将当前语音模式切换至目标语音模式时，根据切换的时机和过渡参数进行。

切换的时机指何时开始切换，比如确定为一种语音模式之后若干秒内进行切换。过渡参数从当前语音模式向目标语音模式切换过程中语音参数的设置值。比如，可以将语音模式的每一纬度数值差距按时间平均分段。例如语音模式切换时，语音音量可以从当前音量递增或递减到目标语音模式的音量，按按当前音量-过渡音量参数-目标语音模式的音量逐渐变化。

在一些其他实施例中，切换的时机和过渡参数预先设置，并在执行语音模式切换方法的过程中，根据相应的用户标注反馈进行学习修正。

本申请的语音模式切换方法根据场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式，在以后的执行过程中还可以学习用户标注反馈，对决策关系规则和语音数据库中的语音模式进行修改和增加，使得后续的语音模式切换更智能更准确。

另一方面，如图11所示，本申请还提供一种语音模式切换装置30，包括：获取单元31，用于获取场景信息，场景信息至少包括环境数据和用户输入语音中的一个；决策单元32，用于根据场景信息和决策关系规则，在语音数据库中选择对应的语音模式作为目标语音模式，可选地，决策关系规则包括场景信息与语音模式的对应关系，语音模式为包括至少一个语音参数的语音参数组，语音数据库包括至少一个语音模式；切换单元33，用于将当前语音模式切换至目标语音模式，根据目标语音模式与用户进行语音交互。

下面以手机为例，对本实施例提供的语音模式切换装置30进行进一步的举例说明。

语音模式可以设置为手动模式或自动模式。手动模式即为通过设置固定为一种语音模式，例如用户可以选择系统内置的语音模式，也可以由用户定义的语音模式。自动模式为通过判断场景进行自动匹配，自动匹配是根据收集到的现场的场景的参数，自动组合成新的与之匹配的参数组合并以些作为输出参数。

语音模式包括声音的高低、柔和度、声调、声色等，系统可以根据这些参数组合成常见的区分度明显的几种模式并内置于系统中，称为预设语音模式。用户还可以自定义语音模式。用户自定义语音模式是通过设置一组语音参数，这些语音参数共同组成一种语音模式；通过长期的收集用户行为参数或标准数据，系统也可以自动学习生出几种有区分度的新的语音模式并允许用户选择。

示例性地，语音助手内置一些语音模式，也包含由用户自定义不同的语音模式，这些定义好的语音模式存储到语音数据库，语音模式可以包括陪护模式、儿童模式、超高音模式、标准模式、搞怪模式、用户自定发音人模式等。自定义语音模式可以根据标定，学习特定人的语音输入，并把学习到的语音参数或行为参数更新到自定义的语音模式中，如标定为更高的音量、不同的发音人、不同的声调等。

当用户进行语音交互时，根据用户的输入提取对应的声音参数或行为参数，把参数与内置语音模式或自定义语音模式进行匹配推理，如果匹配到属于一种语音模式就进行切换，并可以根据输入的变化进行动态切换，切换时会根据经验数据选择最佳切换时机和过渡参数。

语音助手需要根据收集到的场景数据和决策关系规则，对语音模式进行切换，使之与现场情景匹配。如当前是一个儿童与语音助手进行对话，语音助手会自动切换为儿童声音并且音调、语速等与儿童相当的语音模式；如果当前用户用非常正式的标准的方式进行对话，则语音助手会切换到商务模式或标准模式；如果当前检测到是与老人对话，则切换到陪护语音模式等，情景模式还包括当前用户所在的环境信息，如现场是否嘈杂或特别安静，及根据时间判断是否为夜间，根据不同的环境自动设定为不同的声音大小。实时情景也是决策模式智能切换的一种因素，当环境比较嘈杂时，需要自动调大音量，而当识别到为比较安静的区域时，可以调小声音。

如图12所示，决策单元33包括语音模式判别模块和决策模块，语音模式判别模块和决策模块是互为一体的，首先根据用户输入和环境数据预先判断出可能的几个初始语音模式，然后把当前参数和选择出的几个初始语音模式输入到决策模块，决策模块根据参数匹配、优先级及其它限制因素等给每一个模式一个可信度的分数；然后把这些结果反输入到语音模式判别模块，语音模式判别模块根据可信度分数等信息进行最后的决策，选择一个最佳语音模式作为目标语音模式。

语音助手能适当地切换语音模式，切换需要有经验数据支持，这些经验数据是根据用户长期输入收集参数不断进行学习和用户反馈得到。所谓适当地切换，是指切换的时机和过渡的参数是否合适。首先应能及时准确的根据情景输入和经验数据判断是否应该切换、切换参数、切换时机等信息，切换后用户反馈和用户行为及时存储并作为经验数据。

语音模式切换后，用户可以根据切换正确与否进行相应的标注反馈，用于语音助手进行决策学习、语音模式的学习，可以提供多种标注参数，根据不同的标注参数优化语音参数。例如，进行决策学习，修正决策关系规则并存入经验数据库。根据用户反馈的语音模式的参数，进行语音模式的学习，修正或生成语音模式，存入语音数据库。

本实施例的语音切换装置根据智能决策和经验数据自动切换为与用户场景或行为匹配的语音模式，提升用户体验；还可以根据收集到的参数或反馈自动学习并作为经验知识，使语音助手能真正不失时机地为用户“着想”。用户标注反馈降低了学习成本，实施性较强。

另一方面，如图13所示，本申请还提供一种终端40，包括存储器401和处理器402，所述存储器401存储有程序，所述程序用于被处理器运行以执行任一项所述的语音模式切换方法。

采用本申请的语音模式切换方法的装置和终端，可以根据当前使用场景智能切换至相应的语音模式，解决现有语音模式的切换不智能，无法满足用户期望的问题；还可以通过机器学习进行进化，不断优化决策功能，丰富语音数据库的语音模式，逐步根据用户习惯学习切换至符合用户预期的参数组合或语音模式。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如上各种可能的实施方式中的方法。

本申请实施例还提供一种芯片，包括存储器和处理器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行如上各种可能的实施方式中的方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请中，对于相同或相似的术语概念、技术方案和/或应用场景描述，一般只在第一次出现时进行详细描述，后面再重复出现时，为了简洁，一般未再重复阐述，在理解本申请技术方案等内容时，对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等，可以参考其之前的相关详细描述。

在本申请中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音模式切换方法，其特征在于，所述方法包括：

获取场景信息；

切换至所述目标语音模式。

2.根据权利要求1所述的方法，其特征在于，还包括以下至少一种：

所述语音模式包括语音参数，所述语音参数包括：基本语音参数和/或所述基本语音参数随时间变化的语音行为参数；

所述决策关系规则包括第一对应关系和第二对应关系。

3.根据权利要求2所述的方法，其特征在于，

所述第一对应关系为预先设置的所述场景信息与所述语音模式的对应关系；

所述第二对应关系为通过机器学习新生成的所述场景信息与所述语音模式的对应关系。

4.根据权利要求2所述的方法，其特征在于，所述场景信息包括环境数据；所述方法还包括以下至少一种：

5.根据权利要求2所述的方法，其特征在于，所述场景信息包括用户输入语音，所述第一对应关系包括以下至少一种：

当用户输入的语音识别为老人语音时，所述目标语音模式选择适于与老人对话的陪护语音模式；

当用户输入的语音识别为儿童语音时，所述目标语音模式选择适于与儿童对话的儿童语音模式；

当用户输入的语音识别为第一方言时，所述目标语音模式选择使用所述第一方言进行对话的第一方言语音模式。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述场景信息包括环境数据和用户输入语音，所述根据所述场景信息和决策关系规则，确定第二语音模式作为目标语音模式，包括：

从所述环境数据中提取噪音水平参数，从所述用户输入语音中提取用户语音的所述基本语音参数和/或所述语音行为参数，根据所述决策关系规则，将提取的所述噪音水平参数、所述基本语音参数和/或所述语音行为参数与所述语音数据库中的语音模式进行匹配，以确定目标语音模式。

7.根据权利要求1至5中任一项所述的方法，其特征在于，在所述切换至所述目标语音模式之后，还包括：

接收标注反馈；

8.根据权利要求1至5中任一项所述的方法，其特征在于，在所述切换至所述目标语音模式之前，还包括：获取语音模式切换的过渡参数，根据所述过渡参数切换至所述目标语音模式。

9.一种终端，其特征在于，包括存储器和处理器，所述存储器存储有程序，所述程序用于被所述处理器运行以执行权利要求1至8中任一项所述的语音模式切换方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有程序，所述程序用于被处理器运行以执行如上述权利要求1至8中任一项所述的语音模式切换方法。