CN109686383A

CN109686383A - 一种语音分析方法、装置及存储介质

Info

Publication number: CN109686383A
Application number: CN201710970591.9A
Authority: CN
Inventors: 李力振; 王万龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2019-04-26
Anticipated expiration: 2037-10-18
Also published as: CN109686383B

Abstract

本发明实施例公开了一种语音分析方法、装置及存储介质；本发明实施例接收语音分析请求，该语音分析请求携带待分析语音；获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；然后根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；最后将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度；该方案能够提高对语音的发音质量进行分析的效率以及准确率。

Description

一种语音分析方法、装置及存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种语音分析方法、装置及存储介质。

背景技术

随着智能移动终端(简称移动终端)的普及，人们越来越多地利用移动终端学习语言，例如英文、日文、韩文、中文、以及德文等等。具体的，比如用户可以利用移动终端学习音标、单词、句子、或者段落等的发音。为了更好地对评估用户的发音质量，例如用户的发音是否标准等，需要对用户的发音质量进行分析。

在现有技术中，通常将用户输入的语音转换成文本，然后计算该文本与预设文本的相似度，通过基于文本的相似度对用户的发音质量进行分析。或者，计算用户输入的语音与参考语音的音频波形的相似度，通过基于音频波形的相似度对用户的发音质量进行分析。

在对现有技术的研究和实践过程中，本发明的发明人发现，在现有方案中，基本文本或者音频波形的相似度对用户的发音质量进行分析，由于受到音频转换成文本的准确度、噪音(例如环境背景音、杂音或静音等)、或者语速等的影响，对发音质量进行分析的效率低且准确率低。

发明内容

本发明实施例提供一种语音分析方法、装置及存储介质，能够提高对语音的发音质量进行分析的效率以及准确率。

本发明实施例提供一种语音分析方法，包括：

接收语音分析请求，所述语音分析请求携带待分析语音；

获取所述待分析语音对应的预设文本以及所述预设文本对应的参考语音；

根据所述预设文本，获取所述待分析语音的第一音素，并生成第一音素概率；

根据所述预设文本，获取所述参考语音的第二音素，并生成第二音素概率；

将根据所述第一音素概率和所述第二音素概率进行对比，生成音素相似度，并且根据所述音素相似度，生成所述待分析语音和所述参考语音的语音相似度。

相应的，本发明实施例还提供一种语音分析装置，包括：

接收单元，用于接收语音分析请求，所述语音分析请求携带待分析语音；

第一获取单元，用于获取所述待分析语音对应的预设文本以及所述预设文本对应的参考语音；

第二获取单元，用于根据所述预设文本，获取所述待分析语音的第一音素，并生成第一音素概率；

第三获取单元，用于根据所述预设文本，获取所述参考语音的第二音素，并生成第二音素概率；

第一生成单元，用于将根据所述第一音素概率和所述第二音素概率进行对比，生成音素相似度，并且根据所述音素相似度，生成所述待分析语音和所述参考语音的语音相似度。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种语音分析方法中的步骤。

本发明实施例首先接收语音分析请求，该语音分析请求携带待分析语音；获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；然后根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；最后将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。由于本发明实施例在音素级别评估待分析语音和参考语音的音素相似度，再根据音素相似度计算待分析语音和参考语音的语音相似度，可以提高对待分析语音的发音质量进行分析的效率以及准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的语音分析系统的场景示意图；

图1b是本发明实施例提供的移动终端的界面示意图；

图2是本发明实施例提供的语音分析方法的流程图；

图3a是本发明实施例提供的语音分析方法的另一流程示意图；

图3b是本发明实施例提供的语音分析方法的框架流程图；

图3c是本发明实施例提供的利用多层感知器MLP网络进行语音相似度计算的示意图；

图4a是本发明实施例提供的语音分析装置的结构示意图；

图4b是本发明实施例提供的语音分析装置的另一结构示意图；

图5是本发明实施例提供的服务器的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

本发明实施例提供一种语音分析方法、装置和存储介质。

本实施例提供一种语音分析系统，包括移动终端和语音分析装置。其中，该语音分析装置具体可以集成在服务器等设备中。移动终端可以是台式电脑、笔记本电脑、平板电脑、手持式电脑、或者智能音箱等等。其中，智能音箱可以包括处理器、存储器以及扬声器。

以该语音分析装置具体集成在服务器为例、以及移动终端为智能音箱为例，参见图1a和图1b，在智能音箱向用户显示一个或多个预设文本，若用户点击预设文本(例如图1b中预设文本末端的图标10)，则智能音箱播放该预设文本对应的参考语音，其中参考语音可以存储在服务器或者智能音箱中，预设文本也可以存储在服务器或者智能音箱中；在智能音箱完成对参考语音的播放之后，用户可以开始进行跟读并且由智能音箱录制待分析语音(例如，如图1b所示，在预设文本下方设置进度条11显示用户跟读的进度)，然后智能音箱将待分析语音发送至服务器；服务器接收到待分析语音时，触发语音分析请求，该语音分析请求携带待分析语音；根据待分析语音请求获取待分析语音对应的预设文本和参考语音；接着服务器对该待分析语音与该参考语音的语音相似度进行分析，获得语音相似度结果，并将该语音相似度结果反馈至智能音箱。可以理解的是，待分析语音与参考语音的语音相似度结果可以以分数的形式反馈至智能音箱，作为对待分析语音的打分结果。

其中，服务器对待分析语音与参考语音的语音相似度进行分析可以包括以下步骤：服务器根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；然后服务器将第一音素概率和第二音素概率进行对比，生成音素相似度；最后服务器根据音素相似度，生成待分析语音和参考语音的语音相似度，并将语音相似度反馈至智能音箱。

需要说明的是，在某些实施方式中，智能音箱也可以不向用户显示预设文本，智能音箱可以直接播放参考语音，在用户完成跟读后，智能音箱将待分析语音发送至服务器；服务器接收到待分析语音时，触发语音分析请求，并根据该语音分析请求，获取待分析语音对应的预设文本以及预设文本对应的参考语音。

在某些实施方式中，用户开始进行跟读时，智能音箱即可将接收到的语音流实时地发送至服务器。

以下将分别进行详细说明。

本实施例将从语音分析装置的角度进行描述，该语音分析装置具体可以集成在服务器等设备中。

一种语音分析方法，包括：接收语音分析请求，该语音分析请求携带待分析语音，获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；然后根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；最后将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。

如图2所示，该语音分析方法的具体流程可以如下：

101、接收语音分析请求，该语音分析请求携带待分析语音。

其中，语音分析请求可以在检测到用户完成待分析语音的录制后自动触发发送。具体的，例如，用户在移动终端录制待分析语音，并实时传送至语音分析装置，当语音分析装置检测到用户完成录音时，触发语音分析请求。

在某些实施方式中，语音分析请求也可以由移动终端触发。具体的，例如，移动终端检测到用户完成待分析语音的录制后自动触发发送语音分析请求。

待分析语音的类型有多种，比如，可以包括音素、单词、句子、或者段落等。

102、获取待分析语音对应的预设文本以及预设文本对应的参考语音。

预设文本指的是提供给用户根据该文本进行发音，以得到待分析语音的文本。例如，预设文本可以包括一个或多个音素、一个或多个单词、一个或多个句子、或者一个或多个段落。预设文本的语种可以是中文、英文、日文、或德文等。需要说明的是，预设文本的语种并不限于上述语种，以上举例并不表示对预设文本的语种的限定。

参考语音指的是基于预设文本预先录制的语音。例如，参考语音可以是由以预设文本的语种为母语的人群进行录音获得，从而可以克服不同语种人群的语音习惯的影响。参考语音可以存储在服务器中，也可以存储在移动终端，或者也可以存储在第三方的数据库中。

可以理解的是，在某些实施方式中，参考语音可以与预设文本一起预先提供给用户，例如，语音分析装置将预设文本和参考语音发送给移动终端，在移动终端为用户提供预设文本以及播放参考语音，由用户进行跟读并录音，形成待分析语音。

在某些实施方式中，移动终端可以预先存储有预设文本和参考语音。进而，移动终端向服务器发送语音分析请求时，该语音分析请求可以携带预设文本、参考语音和待分析语音。进而，服务器可以从语音分析请求获取预设文本和参考语音。

在某些实施方式中，移动终端可以存储有参考语音和预设文本标识，服务器可以存储有预设文本。进而，移动终端向服务器发送语音分析请求时，该语音分析请求可以携带预设文本标识、参考语音和待分析语音。服务器可以从语音分析请求获取预设文本标识和参考语音，并通过预设文本标识查找对应的预设文本。

在某些实施方式中，移动终端可以存储有预设文本标识，服务器可以存储有预设文本和参考语音。进而，移动终端向服务器发送语音分析请求时，该语音分析请求可以携带预设文本标识和待分析语音。服务器可以从语音分析请求获取预设文本标识，并通过预设文本标识查找对应的预设文本和参考语音。

其中，上述的预设文本标识指的是用于表示预设文本的标识，例如可以是数字、字母、或者数字和字母的组合等字符串。

需要说明的是，获取预设文本及参考语音的方式可以有多种，并不限于以上举例。

在某些实施方式中，在步骤“接收语音分析请求”之前，还可以具体包括：

接收语音流，并检测接收到的语音流是否完整；

若是，则将所述语音流确定为待分析语音，并触发语音分析请求。

比如，检测接收到的语音流是否完成针对预设文本的语音输入或者完成针对参考语音的跟读；若是，则将该语音流确定为待分析语音，并触发语音分析请求。

103、根据预设文本，获取待分析语音的第一音素，并生成第一音素概率。

比如，预设文本包括5个音素，根据预设文本获取待分析语音中的5个第一音素，并分别生成每个第一音素的第一音素概率。

其中，音素是语音中的最小的单位，依据音节里的发音动作来分析，一个动作构成一个音素。其中，英语的音素可以分为元音和辅音两大类。例如，英语包括48个音素，其中包括/i：/、/I/、/e/、和等20个元音音素，以及/p/、/t/、/k/、和/f/等28个辅音音素。

第一音素指的是待分析语音所包含的音素。

在某些实施方式中，“根据预设文本，获取待分析语音的第一音素，并生成第一音素概率”的步骤可以具体包括：

(1)基于预设文本对应的目标声学模型，将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果。

其中，将待分析语音与预设文本进行强制对齐，指的是从待分析语音中确定与预设文本中的音素对应的第一音素，即确定待分析语音中的第一音素、以及第一音素与预设文本中的音素的对应关系。

目标声学模型指的是预设文本的所有音素所对应的声学模型。声学模型指的是对声学、语音学、环境的变量、说话人性别、口音等的差异的表示。具体的，声学模型可以是，例如，隐马尔科夫模型(HMM，Hidden Markov Model)、深度神经网络-隐马尔科夫模型(DNN-HMM，Deep Neural Network-Hidden Markov Model)、或者混合高斯模型-隐马尔科夫模型(GMM-HMM，Gaussian Mixture Model-Hidden Markov Model)等等。其中，利用声学模型可以对语音和文本进行强制对齐，即，利用声学模型可以将语音切分为与文本的各个音素对应的语音片段。

在某些实施方式中，“基于预设文本对应的目标声学模型，将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果”的步骤可以具体包括：

对待分析语音进行预处理，提取待分析语音中每个第一语音帧的语音特征，形成第一语音特征序列；基于预设文本对应的目标声学模型，将第一语音特征序列与预设文本进行强制对齐，生成第一强制对齐结果。

具体的，以目标声学模型为HMM模型为例，将待分析语音的第一语音特征序列与预设文本进行强制对齐，也就是假设待分析语音的第一语音特征序列和预设文本包含相同的音素，利用HMM模型可以将第一语音特征序列和预设文本进行强制对齐，从而获得第一语音特征序列中与预设文本的各个音素对应的第一音素、各个第一音素对应的第一语音帧以及各个第一音素对应的第一音素状态。其中，与每个第一音素对应的第一语音帧可以有多个，各个第一音素对应的第一语音帧的个数可以是不同的。并且，利用HMM模型将第一语音特征序列和预设文本进行强制对齐时，可以将第一语音特征序列的停顿音或者环境噪音等进行过滤，仅保留与预设文本中的各个音素对应的第一语音帧。

其中，语音特征可以区分语音的有效信息，例如时域分辨率、或者频域分辨率等。具体的，语音特征可以包括梅尔频率倒普系数(MFCC，Mel Frequency CepstralCoefficient)、或者线性预测倒谱系数(LPCC，Linear Prediction CepstralCoefficient)等等。其中，MFCC特征是基于人耳特性提取出来的语音特征，MFCC特征与频率成非线性对应关系，基于该非线性对应关系，可以计算得到语音的频谱特征。

形成第一语音特征序列可以有多种方法。以提取梅尔频率倒普系数(MFCC，MelFrequency Cepstral Coefficient)作为语音特征为例，提取待分析语音的MFCC特征序列的步骤可以包括：采用预加重(Pre-emphasis)技术平衡待分析语音的高低频分量；对待分析语音进行采样，将待分析语音划分为多个第一语音帧；将每个第一语音帧乘以汉明窗，以增加第一语音帧左端和右端的连续性并将语音帧的时域信号通过离散傅里叶变换(DFT，Discrete Fourier Transform)转换到频域信号；使用梅尔滤波器将频域信号进行平滑化处理并消除谐波的作用；将经过梅尔滤波器滤波后的频域信号的M个能量值取对数之后，生成M维的特征向量；再对M维的特征向量做离散余弦变换(DCT，Discrete CosineTransform)，得到每个第一语音帧的MFCC特征；根据待分析语音的所有第一语音帧的MFCC特征，形成待分析语音的MFCC特征序列，即第一语音特征序列。

需要说明的是，本实施例中也可以采用其他语音特征，例如线性预测倒谱系数(LPCC，Linear Prediction Cepstral Coefficient)等等，提取其他语音特征的方法可采用本领域的通用方法，在此就不再赘述。

获取目标声学模型可以有多种方法，比如，在某些实施方式中，获取预设文本对应的目标声学模型的步骤，具体可以包括：

a、获取预设文本中每个音素对应的音素声学模型。

例如，预先建立所有音素的音素声学模型，并将所有音素的音素声学模型、以及音素声学模型与音素的对应关系存储在服务器中；根据预设文本，从服务器中获取与预设文本中的各音素对应的音素声学模型。

其中，音素声学模型指的是单个音素对应的声学模型。

建立音素声学模型可以有多种方法，例如，可以预设一个音素包括三个音素状态，建立音素的音素声学模型。

其中，音素状态在数学上指的是一个马尔科夫过程的状态。

b、根据每个音素对应的音素声学模型，生成预设文本对应的目标声学模型。

例如，根据预设文本中的音素的序列，将每个音素对应的音素声学模型进行串接，生成预设文本对应的目标声学模型。

(2)根据第一强制对齐结果，获取待分析语音的第一音素、以及第一音素对应的第一音素状态。

例如，预设文本包括5个音素，根据待分析语音与预设文本的第一强制对齐结果，可以获得待分析语音中的5个第一音素、以及每个第一音素对应的第一音素状态。

可以理解的是，若采用一个音素包括三个音素状态，建立音素的音素声学模型，则待分析语音的每个第一音素对应3个第一音素状态。

本实施例根据预设文本对应的目标声学模型对待分析语音与预设文本进行强制对齐，可以从待分析语音中提取与预设文本对应的第一音素，从而可以将待分析语音中的停顿音或者环境噪音等进行过滤，一方面能够减少计算待分析语音与参考语音的相似度的复杂度和计算量，不仅可以减少计算资源的消耗，而且还可以大大减少计算时间，提高分析效率；另一方面由于排除了停顿音或者环境噪音等的干扰，能够提高计算得到的待分析语音与参考语音的相似度的准确性。

(3)根据第一预设公式、第一音素对应的音素声学模型以及第一音素状态，生成第一音素概率。

比如，第一预设公式为：

其中，N为预设文本中的音素的个数，

c_j为待分析语音的第j个第一音素，

T为第一音素c_j对应的第一音素状态的个数，

为第一音素c_j对应的第i个第一音素状态，

为待分析语音在已知第一音素c_j的条件下，第一音素状态出现的概率，

c_n为待分析语音的第n个第一音素，

为第一音素c_n对应的第i个音素状态，

为待分析语音在已知所述第一音素c_n的条件下，第一音素状态出现的概率，

L(c_j)为待分析语音的第j个第一音素的第一音素概率。

其中和可以通过第一音素对应的音素声学模型计算生成。

若采用一个音素包括三个音素状态，建立音素的音素声学模型，则T为3。

104、根据预设文本，获取参考语音的第二音素，并生成第二音素概率。

比如，预设文本包括5个音素，根据预设文本从参考语音中获取5个第二音素，并分别生成每个第二音素的第二音素概率。

第二音素指的是参考语音所包含的音素。

在某些实施方式中，“根据预设文本，获取参考语音的第二音素，并生成第二音素概率”的步骤可以具体包括：

(1)基于预设文本对应的目标声学模型，将参考语音和预设文本进行强制对齐，生成第二强制对齐结果。

其中，将参考语音与预设文本进行强制对齐，指的是从参考语音中确定与预设文本中的音素对应的第二音素，即确定参考语音中的第二音素、以及第二音素与预设文本中的音素的对应关系。

在某些实施方式中，“基于预设文本对应的目标声学模型，将参考语音和预设文本进行强制对齐，生成第二强制对齐结果”的步骤可以具体包括：

对参考语音进行预处理，提取参考语音中每个第二语音帧的语音特征，形成第二语音特征序列；基于预设文本对应的目标声学模型，将第二语音特征序列与预设文本进行强制对齐，生成第二强制对齐结果。

具体的，继续以目标声学模块为HMM模型为例，将参考语音的第二语音特征序列与预设文本进行强制对齐，也就是假设参考语音的第二语音特征序列和预设文本包含相同的音素，利用HMM模型可以将第二语音特征序列和预设文本进行强制对齐，从而获得第二语音特征序列中与预设文本的各个音素对应的第二音素、各个第二音素对应的第二语音帧以及各个第二音素对应的第二音素状态。其中，与每个第二音素对应的第二语音帧可以有多个，各个第二音素对应的第二语音帧的个数可以是不同的。并且，利用HMM模型将第二语音特征序列和预设文本进行强制对齐时，可以将第二语音特征序列的停顿间或者环境噪音等进行过滤，仅保留与预设文本中的各个音素对应的第二语音帧。

其中，第二语音特征序列采用与第一语音特征序列相同的语音特征，例如MFCC特征、LPCC特征等。

(2)根据第二强制对齐结果，获取参考语音的第二音素、以及第二音素对应的第二音素状态和第二语音帧。

例如，预设文本包括5个音素，根据参考语音与预设文本的第二强制对齐结果，可以获得参考语音中的5个第二音素、以及每个第二音素对应的第二音素状态。

可以理解的是，若采用一个音素包括三个音素状态，建立音素的音素声学模型，则参考语音的每个第二音素对应3个第二音素状态。

(3)根据第二预设公式、第二音素对应的音素声学模型、第二音素状态以及第二语音帧，生成第二音素概率。

比如，第二预设公式为：

其中，N为预设文本中的音素的个数，

C_j为参考语音的第j个第二音素，

T为第二音素C_j对应的第二音素状态的个数，

为第二音素C_j对应的第i个第二音素状态，

为第二音素C_j的第i个第二音素状态对应的第二语音帧的个数，

为第二音素C_j的第i个第二音素状态对应的第k个第二语音帧，

为第二音素状态转换到第二音素状态的转移概率，

为第二音素状态和第二语音帧之间的混淆概率，

L'(C_j)为参考语音的第j个第二音素的第二音素概率。

其中转移概率和混淆概率可以通过第二音素对应的音素声学模型计算生成。

需要说明的是，本实施例的语音分析方法不限定步骤102和步骤103的执行步骤，可以先执行步骤102再执行步骤103，也可以先执行步骤103再执行步骤102。在某些实施方式中，还可以预先执行步骤103，并将通过步骤103获得的第二音素及第二音素概率存储在服务器中，从而当接收到语音分析请求时，可以快速地从服务器获得参考语音包含的第二音素以及每个第二音素相应的第二音素概率。

105、将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。

其中，音素相似度指的是音素级别上的发音的相似度。

其中，语音相似度用于指示待分析语音与参考语音的发音的相似度。

在某些实施方式中，“将第一音素概率和第二音素概率进行对比，生成音素相似度”的步骤具体可以包括：

按照第三预设公式对第一音素概率和第二音素概率进行对比，生成音素相似度。其中，第三预设公式为：

其中，1≤j≤N。

其中，N为预设文本中的音素的个数，

L(c_j)为待分析语音的第j个第一音素的第一音素概率，

L'(C_j)为参考语音的第j个第二音素的第二音素概率，

G(j)为待分析语音的第j个第一音素和参考语音的第j个第二音素的音素相似度。

可以理解的，本实施例可以直接将G(j)作为待分析语音的第j个第一音素的分数，也可以采用其他的预设算法将G(j)转换成满分为十分制或百分制的分数、或者预设的多个等级等等。

由于音素是语音的最小单位，是从音质的角度划分形成的最小的语音单位，因此本实施例以音素为语音单位对待分析语音与参考语音的发音进行比较，可以对待分析语音的发音质量做出更加准确的评估。

在某些实施方式中，“根据音素相似度，生成待分析语音和参考语音的语音相似度”的步骤可以具体包括：

获取每一音素相似度的预设权重；

根据音素相似度以及对应的预设权重，生成待分析语音和参考语音的语音相似度。

在本实施例中，可以对预设文本中各音素设置不同的预设权重，作为对应的音素相似度的预设权重，从而根据音素相似度及对应的预设权重，可以更加准确地评估待分析语音和参考语音的语音相似度。

又比如，可以将待分析语音与参考语音在每个音素的音素相似度输入多层感知器(MLP，Multi-layer Perceptron)，计算得到待分析语音与参考语音的语音相似度。其中，MLP是一种前向结构的人工神经网络。

可以理解的，本实施例可以直接将语音相似度作为待分析语音的总分数，也可以采用其他的预设算法将语音相似度转换成为十分制或百分制的分数、或者预设的多个等级等等。

本实施例的语音分析方法，还可以包括步骤：

接收语音指令；

判断该语音指令是否与预设指令相同；

若相同，则触发该预设指令对应的预设操作。

比如，接收用户发出的语音指令；将该语音指令转换成文本指令；判断是否存在与该文本指令相同的预设指令；若存在，则触发该预设指令对应的预设操作。

其中，语音指令可以是用户发出的语音片段，该语音片段可以是单词、或者词组等。具体的，比如语音指令可以预设为“开始录音”、“暂停录音”、“继续录音”、“结束录音”、或者“请打分”等等。

预设操作可以是开始录音、暂停录音、继续录音、结束录音、或者发送语音分析请求等等。

文本指令指的是将语音指令的语音转换而成的文本。

在本实施例中，可以预先设置预设指令以及与预设指令对应的预设操作，并且将预设指令、以及预设指令和预设操作的对应关系存储在服务器中。

由上可知，本实施例首先接收语音分析请求，该语音分析请求携带待分析语音；获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；然后根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；最后将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。由于本实施例在音素级别评估待分析语音和参考语音的音素相似度，再根据音素相似度计算待分析语音和参考语音的语音相似度，可以提高对待分析语音的发音质量进行分析的效率以及准确率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该语音分析装置具体集成在服务器中为例进行说明。其中名词的含义与上一实施例的语音分析方法中相同。

如图3a和图3b所示，一种语音分析方法，具体流程可以如下：

201、服务器接收语音分析请求，该语音分析请求携带待分析语音。

202、服务器获取该待分析语音对应的预设文本以及该预设文本对应的参考语音。

在本实施例中，以预设文本包括N个预设音素为例。

203、服务器基于预设文本对应的目标声学模型，将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果。

比如，服务器获取预设文本中每个音素对应的音素声学模型，其中音素声学模型可以有多种，例如以一个音素包括三个音素状态建立的DNN-HMM模型；按照预设文本的预设音素序列，服务器将每个音素对应的音素声学模型进行串接，生成预设文本对应的目标声学模型；然后服务器将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果。

204、服务器根据第一强制对齐结果，获取待分析语音的第一音素、以及第一音素对应的第一音素状态。

比如，继续以预设文本包含N个音素为例，服务器根据第一强制对齐结果，获取待分析语音的N个第一音素、以及每个第一音素对应的第一音素状态。

在某些实施方式中，步骤202和步骤203可以具体包括：对待分析语音进行预处理，提取待分析语音中每个第一语音帧的语音特征，形成第一语音特征序列；基于预设文本对应的目标声学模型，将第一语音特征序列与预设文本进行强制对齐，生成第一强制对齐结果；根据第一强制对齐结果，从待分析语音中确定与预设文本中的音素对应的第一音素、每个第一音素对应的第一音素状态、以及每个第一音素对应的第一语音帧。

205、服务器根据第一预设公式、第一音素对应的音素声学模型以及第一音素状态，生成第一音素概率。

其中，第一预设公式为：

其中，N为预设文本中的音素的个数，

c_j为待分析语音的第j个第一音素，

T为第一音素c_j对应的第一音素状态的个数，

为第一音素c_j对应的第i个第一音素状态，

c_n为待分析语音的第n个第一音素，

为第一音素c_n对应的第i个音素状态，

L(c_j)为待分析语音的第j个第一音素的第一音素概率。

其中和可以通过第一音素对应的音素声学模型计算生成。

在本实施例中，利用第一预设公式分别计算待分析语音中每个第一音素的第一音素概率。

以一个音素包含三个音素状态、且预设文本包含3个音素为例，则N为3，T为3，1≤j≤3，1≤n≤3,1≤i≤3，根据第一预设公式可以计算第一音素c₁的第一音素概率L(c₁)，第一音素c₂的第一音素概率L(c₂)，以及第一音素c₃的第一音素概率L(c₃)。

206、服务器基于预设文本对应的目标声学模型，将参考语音和预设文本进行强制对齐，生成第二强制对齐结果。

207、服务器根据第二强制对齐结果，获取参考语音的第二音素、以及第二音素对应的第二音素状态和第二语音帧。

比如，继续以预设文本包含N个音素为例，服务器根据第二强制对齐结果，获取参考语音的N个第二音素、以及每个第二音素对应的第二音素状态和第二语音帧。

在某些实施方式中，步骤205和步骤206可以具体包括：对参考语音进行预处理，提取参考语音中每个第二语音帧的语音特征，形成第二语音特征序列；基于预设文本对应的目标声学模型，将第二语音特征序列与预设文本进行强制对齐，生成第二强制对齐结果；根据第二强制对齐结果，从参考语音中确定与预设文本中的音素对应的第二音素、每个第二音素对应的第二音素状态、以及每个第二音素对应的第二语音帧。

208、服务器根据第二预设公式、第二音素对应的音素声学模型、第二音素状态以及第二语音帧，生成第二音素概率。

其中，第二预设公式为：

其中，N为预设文本中的音素的个数，

C_j为参考语音的第j个第二音素，

T为第二音素C_j对应的第二音素状态的个数，

为第二音素C_j对应的第i个第二音素状态，

为第二音素状态转换到第二音素状态的转移概率，

为第二音素状态和第二语音帧之间的混淆概率，

L'(C_j)为参考语音的第j个第二音素的第二音素概率。

继续以一个音素包含三个音素状态、且预设文本包含3个音素为例，则N为3，T为3，1≤j≤3，1≤i≤3，根据第二预设公式可以计算第二音素C₁的第二音素概率L'(C₁)，第二音素C₂的第二音素概率L'(C₂)，以及第二音素C₃的第一音素概率L'(C₃)。

需要说明的是，本实施例不限定步骤203～205和步骤206～208的执行顺序，可以先执行步骤203～205再执行步骤206～208，也可以先执行步骤206～208再执行步骤203～205。在某些实施方式中，还可以预先执行步骤206～208，并将通过步骤206～208获得的第二音素及第二音素概率存储在服务器中，从而当接收到语音分析请求时，可以快速地从服务器获得参考语音包含的第二音素以及每个第二音素相应的第二音素概率。

209、服务器按照第三预设公式对第一音素概率和第二音素概率进行对比，生成音素相似度。

其中，第三预设公式为：

其中，1≤j≤N。

其中，N为预设文本中的音素的个数，

α和β均为常数，

L(c_j)为待分析语音的第j个第一音素的第一音素概率，

L'(C_j)为参考语音的第j个第二音素的第二音素概率，

继续以一个音素包含三个音素状态、且预设文本包含3个音素为例，则N为3，根据公式(3)可以计算出G(1)、G(2)、和G(3)，其中为G(c₁)为第一音素c₁和第二音素C₁的音素相似度，G(c₂)为第一音素c₂和第二音素C₂的音素相似度，G(c₃)为第一音素c₃和第二音素C₃的音素相似度。

210、服务器获取每一音素相似度的预设权重。

继续以一个音素包含三个音素状态、且预设文本包含3个音素为例，服务器获取音素相似度G(1)的预设权重g₁、音素相似度G(2)的预设权重g₂以及音素相似度G(3)的预设权重g₃。

211、服务器根据音素相似度以及对应的预设权重，生成待分析语音和参考语音的语音相似度。

例如，可以将音素相似度以及对应的预设权重代入第四预设公式，生成待分析语音和参考语音的语音相似度，其中第四预设公式为：

其中，N为预设文本中的音素的个数，H_score为待分析语音和参考语音的语音相似度。

继续以一个音素包含三个音素状态、且预设文本包含3个音素为例，待分析语音和参考语音的语音相似度为：

H_score＝g₁*G(1)+g₂*G(2)+g₃*G(3)。

在某些实施方式中，如图3c所示，可以将待分析语音与参考语音在每个音素的音素相似度输入多层感知器(MLP，Multi-layer Perceptron)，计算得到待分析语音与参考语音的语音相似度。其中，MLP是一种前向结构的人工神经网络。

相应地，本发明实施例还提供一种语音分析装置，该语音分析装置具体可以集成在服务器等设备中。其中名词的含义与前述实施例的语音分析方法中相同。

例如，如图4a所示，该语音分析装置可以包括接收单元301、第二获取单元303、第三获取单元304、和第一生成单元305，如下：

(1)接收单元301；

接收单元301，用于接收语音分析请求，该语音分析请求携带待分析语音。

(2)第一获取单元302；

第一获取单元302，用于获取待分析语音对应的预设文本以及预设文本对应的参考语音。

在某些实施方式中，移动终端可以预先存储有预设文本和参考语音。进而，移动终端向服务器发送语音分析请求时，该语音分析请求可以携带预设文本、参考语音和待分析语音。进而，第一获取单元302可以从语音分析请求获取预设文本和参考语音。

在某些实施方式中，移动终端可以存储有参考语音和预设文本标识，服务器可以存储有预设文本。进而，移动终端向服务器发送语音分析请求时，该语音分析请求可以携带预设文本标识、参考语音和待分析语音。第一获取单元302可以从语音分析请求获取预设文本标识和参考语音，并通过预设文本标识查找对应的预设文本。

在某些实施方式中，移动终端可以存储有预设文本标识，服务器可以存储有预设文本和参考语音。进而，移动终端向服务器发送语音分析请求时，该语音分析请求可以携带预设文本标识和待分析语音。第一获取单元302可以从语音分析请求获取预设文本标识，并通过预设文本标识查找对应的预设文本和参考语音。

(3)第二获取单元303；

第二获取单元303，用于根据预设文本，获取待分析语音的第一音素，并生成第一音素概率。

比如，预设文本包括5个音素，根据预设文本获取待分析语音的5个第一音素，并分别生成每个第一音素的第一音素概率。

第一音素指的是待分析语音所包含的音素。

在某些实施方式中，如图4b所示，第二获取单元303可以包括第一生成子单元3031、第一获取子单元3032和第二生成子单元3033，如下：

该第一生成子单元3031，可以用于基于预设文本对应的目标声学模型，将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果。

其中，“基于预设文本对应的目标声学模型，将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果”的步骤可以参见上述的方法实施例，在此不再赘述。

其中，建立目标声学模型的方法具体可参见前面的方法实施例，在此不再赘述。

该第一获取子单元3032，可以用于根据第一强制对齐结果，获取待分析语音的第一音素、以及第一音素对应的第一音素状态。

该第二生成子单元3033，可以用于根据第一预设公式、第一音素对应的音素声学模型以及第一音素状态，生成第一音素概率。

其中，第一预设公式具体可参见前面的方法实施例，在此不再赘述。

(4)第三获取单元304；

第三获取单元304，用于根据预设文本，获取参考语音的第二音素，并生成第二音素概率。

具体的，比如，预设文本包括5个音素，将参考语音切分为多个语音片段，确定各语音片段的时间边界，将参考语音中与预设文本中的音素对应的语音片段确定为第二语音片段，即每个第二语音片段即为一个第二音素。

第二音素指的是参考语音所包含的音素。

在某些实施方式中，如图4b所示，第三获取单元304可以包括第三生成子单元3041、第二获取子单元3042和第四生成子单元3043，如下：

该第三生成子单元3041，可以用于基于预设文本对应的目标声学模型，将参考语音和预设文本进行强制对齐，生成第二强制对齐结果。

其中，“基于预设文本对应的目标声学模型，将参考语音和预设文本进行强制对齐，生成第二强制对齐结果”的步骤可以参见上述的方法实施例，在此不再赘述。

该第二获取子单元3042，可以用于根据第二强制对齐结果，获取参考语音的第二音素、以及第二音素对应的第二音素状态和第二语音帧。

该第四生成子单元3043，可以用于根据第二预设公式、第二音素对应的音素声学模型、第二音素状态以及第二语音帧，生成第二音素概率。

其中，第二预设公式具体可参见前面的方法实施例，在此不再赘述。

(5)第一生成单元305；

第一生成单元305，用于将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。

其中，音素相似度指的是音素级别上的发音的相似度。

在某些实施方式中，第一生成单元305具体可以用于：

按照第三预设公式对第一音素概率和第二音素概率进行对比，生成音素相似度；

获取每一音素相似度的预设权重；

其中，第三预设公式具体可参见前面的方法实施例，在此不再赘述。

由上述可知，本实施例首先由接收单元301接收语音分析请求，该语音分析请求携带待分析语音；由第一获取单元302获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；然后由第二获取单元303根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；由第三获取单元304根据预设文本，获取参考语音的第二音素，并生成第二音素概率；由第一生成单元305将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。由于本实施例在音素级别评估待分析语音和参考语音的音素相似度，再根据音素相似度计算待分析语音和参考语音的语音相似度，可以提高对待分析语音的发音质量进行分析的效率以及准确率。

此外，本发明实施例还提供一种服务器，如图5所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器400可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图5中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器400的控制中心，利用各种接口和线路连接整个服务器400的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器400的各种功能和处理数据，从而对服务器400进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器400还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器400还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器400还可以包括显示单元等，在此不再赘述。

具体在本实施例中，服务器400中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

接收语音分析请求，该语音分析请求携带待分析语音；

获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；

根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；

根据预设文本，获取参考语音的第二音素，并生成第二音素概率；

将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。

可选地，该处理器401还用于执行以下步骤：

基于预设文本对应的目标声学模型，将待分析语音和预设文本进行强制对齐，生成第一强制对齐结果；

根据第一强制对齐结果，获取待分析语音的第一音素、以及第一音素对应的第一音素状态；

根据第一预设公式、第一音素对应的音素声学模型以及第一音素状态，生成第一音素概率。

可选地，该处理器401还用于执行以下步骤：

基于预设文本对应的目标声学模型，将参考语音和预设文本进行强制对齐，生成第二强制对齐结果；

根据第二强制对齐结果，获取参考语音的第二音素、以及第二音素对应的第二音素状态和第二语音帧；

根据第二预设公式、第二音素对应的音素声学模型、第二音素状态以及第二语音帧，生成第二音素概率。

可选地，该处理器401还用于执行以下步骤：

按照第三预设公式对第一音素概率和第二音素概率进行对比，生成音素相似度。

可选地，该处理器401还用于执行以下步骤：

获取每一音素相似度的预设权重；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的服务器首先接收语音分析请求，该语音分析请求携带待分析语音；获取该待分析语音对应的预设文本以及该预设文本对应的参考语音；然后根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；最后将第一音素概率和第二音素概率进行对比，生成音素相似度，并且根据音素相似度，生成待分析语音和参考语音的语音相似度。由于本实施例在音素级别评估待分析语音和参考语音的音素相似度，再根据音素相似度计算待分析语音和参考语音的语音相似度，可以提高对待分析语音的发音质量进行分析的效率以及准确率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种语音分析方法中的步骤。例如，该指令可以执行如下步骤：

接收语音分析请求，该语音分析请求携带待分析语音；获取该待分析语音对应的预设文本以及该预设文本对应有参考语音；然后根据预设文本，获取待分析语音的第一音素，并生成第一音素概率；根据预设文本，获取参考语音的第二音素，并生成第二音素概率；将第一音素概率和第二音素概率进行对比，生成音素相似度；最后根据音素相似度，生成待分析语音和参考语音的语音相似度。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种语音分析方法中的步骤，因此，可以实现本发明实施例所提供的任一种语音分析方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种语音分析方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音分析方法，其特征在于，包括步骤：

接收语音分析请求，所述语音分析请求携带待分析语音；

2.根据权利要求1所述的语音分析方法，其特征在于，所述根据所述预设文本，获取所述待分析语音的第一音素，并生成第一音素概率的步骤，包括：

基于所述预设文本对应的目标声学模型，将所述待分析语音和所述预设文本进行强制对齐，生成第一强制对齐结果；

根据所述第一强制对齐结果，获取所述待分析语音的第一音素、以及所述第一音素对应的第一音素状态；

根据第一预设公式、所述第一音素对应的音素声学模型以及所述第一音素状态，生成所述第一音素概率。

3.根据权利要求1所述的语音分析方法，其特征在于，所述根据所述预设文本，获取所述参考语音的第二音素，并生成第二音素概率的步骤，包括：

基于所述预设文本对应的目标声学模型，将所述参考语音和所述预设文本进行强制对齐，生成第二强制对齐结果；

根据所述第二强制对齐结果，获取所述参考语音的第二音素、以及所述第二音素对应的第二音素状态和第二语音帧；

根据第二预设公式、所述第二音素对应的音素声学模型、所述第二音素状态以及所述第二语音帧，生成所述第二音素概率。

4.根据权利要求1至3任一项所述的语音分析方法，其特征在于，所述将根据所述第一音素概率和所述第二音素概率进行对比，生成音素相似度的步骤，包括：

按照第三预设公式对所述第一音素概率和所述第二音素概率进行对比，生成音素相似度。

5.根据权利要求1至3任一项所述的语音分析方法，其特征在于，所述根据所述音素相似度，生成所述待分析语音和所述参考语音的语音相似度，包括：

获取每一音素相似度的预设权重；

根据所述音素相似度以及对应的预设权重，生成所述待分析语音和所述参考语音的语音相似度。

6.一种语音分析装置，其特征在于，包括：

7.根据权利要求6所述的语音分析装置，其特征在于，所述第二获取单元包括：

第一生成子单元，用于基于所述预设文本对应的目标声学模型，将所述待分析语音和所述预设文本进行强制对齐，生成第一强制对齐结果；

第一获取子单元，用于根据所述第一强制对齐结果，获取所述待分析语音的第一音素、以及所述第一音素对应的第一音素状态；

第二生成子单元，用于根据第一预设公式、所述第一音素对应的音素声学模型以及所述第一音素状态，生成所述第一音素概率。

8.根据权利要求6所述的语音分析装置，其特征在于，所述第三获取单元包括：

第三生成子单元，用于基于所述预设文本对应的目标声学模型，将所述参考语音和所述预设文本进行强制对齐，生成第二强制对齐结果；

第二获取子单元，用于根据所述第二强制对齐结果，获取所述参考语音的第二音素、以及所述第二音素对应的第二音素状态和第二语音帧；

第四生成子单元，用于根据第二预设公式、所述第二音素对应的音素声学模型、所述第二音素状态以及所述第二语音帧，生成所述第二音素概率。

9.根据权利要求6至8任一项所述的语音分析装置，其特征在于，所述第一生成单元具体用于：

10.根据权利要求6至8任一项所述的语音分析装置，其特征在于，所述第一生成单元具体用于：

获取每一音素相似度的预设权重；

11.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至5任一项所述的语音分析方法中的步骤。