CN115700875A

CN115700875A - 音频处理方法、装置、存储介质以及电子设备

Info

Publication number: CN115700875A
Application number: CN202110807962.8A
Authority: CN
Inventors: 陈建磊
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shirui Electronics Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shirui Electronics Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-02-07

Abstract

本发明公开了一种音频处理方法、装置、存储介质以及电子设备。其中，该方法包括：首先采集待处理音频数据，其中，待处理音频数据中至少包括环境噪声数据以及语音数据，然后对待处理音频数据进行特征提取，得到语音特征，并对语音特征进行文本转换，得到语音数据对应的文本数据，进而将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据，其中，目标语音数据为去除环境噪声数据后的数据。本发明解决了现有技术中由于音频文件中包含环境噪声数据导致音频播放效果差的技术问题。

Description

音频处理方法、装置、存储介质以及电子设备

技术领域

本发明涉及通信技术领域，具体而言，涉及一种音频处理方法、装置、存储介质以及电子设备。

背景技术

随着移动智能设备的广泛应用以及互联网技术的不断发展，利用音频设备进行远程教学逐渐成为了一种新的教学模式。通过该模式，老师可以通过语音进行线上教学授课，学生也可以通过远端设备接收到老师的音频数据。由于整个教学过程中涉及到音频数据的采集、处理以及传输等步骤，音频处理的方法会直接影响到教学质量。

其中，图1示出了现有技术中的音频处理方法的处理流程，如图1所示，在现有技术中，音频处理系统首先通过音频采集终端中的麦克风设备采集音频数据，将音频数据进行合成处理并且编码压缩，然后通过网络将压缩后的音频数据传输给音频播放设备，最终音频播放设备对接收到的音频数据进行解码并且播放。

但是实际的教学环境存在非常多的环境噪声，例如，桌椅移动的噪音，还有外部过往车辆产生的噪音，容易注意到的是，现有技术中的音频处理系统在采集音频数据时会采集到环境噪声，并且环境噪声最终在远端的音频播放设备被还原，导致音频播放设备获取的音频数据中混有环境噪声，影响收听者的注意力，带来不好的体验。另外，在现有技术中，为了采集到质量较好的音频数据，通常需要多个具有指向功能的麦克风设备，并且需要对教室做声学改造和静音处理，整体部署方案非常复杂和昂贵。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频处理方法、装置、存储介质以及电子设备，以至少解决现有技术中由于音频文件中包含噪声导致音频播放效果差的技术问题。

根据本发明实施例的一个方面，提供了一种音频处理方法，该方法包括：首先采集待处理音频数据，其中，待处理音频数据中至少包括环境噪声数据以及语音数据，然后对待处理音频数据进行特征提取，得到语音特征，并对语音特征进行文本转换，得到语音数据对应的文本数据，进而将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据，其中，所述目标语音数据为去除所述环境噪声数据后的数据。

进一步地，音频处理方法还包括：将待处理音频数据由模拟信号转换为数字信号，得到第一音频数据，然后去除第一音频数据中的噪声信号，得到第二音频数据，再对第二音频数据进行分帧处理，得到第三音频数据，随后对第三音频数据进行预处理，得到第四音频数据，进而对第四音频数据进行特征提取，得到语音特征。

进一步地，音频处理方法还包括：检测第一音频数据所对应的信号强度，并且根据第一音频数据所对应的信号强度从第一音频数据中过滤掉噪声信号，得到第二音频数据，其中，噪声信号对应的信号强度低于预设信号强度。

进一步地，音频处理方法还包括：对第三音频数据进行预加重处理，得到第五音频数据，然后对第五音频数据进行加窗处理，得到第六音频数据，随后对第六音频数据进行傅里叶变换，得到第七音频数据，进而对第七音频数据进行离散余弦变换，得到第四音频数据。

进一步地，音频处理方法还包括：获取语音特征所对应的音素，并且根据语音特征所对应的音素确定语音特征所对应的初始文本序列，然后基于预设的语言模型确定语音数据转换为初始文本序列的第一概率，并且基于预设的声学模型确定初始文本序列转换为语音数据的第二概率，进而在第一概率与第二概率满足预设条件时，确定初始文本序列为语音数据所对应的文本数据。

进一步地，音频处理方法还包括：获取语音特征所对应的音素序列，并且根据音素序列所对应的上下文确定音素序列所对应的分割点，从而基于分割点将音素序列划分为多个音素。

进一步地，音频处理方法还包括：确定每个音素所对应的文本，得到语音特征所对应的多个文本，并且根据音素序列所对应的上下文对多个文本连接，得到初始文本序列。

进一步地，音频处理方法还包括：对文本数据进行压缩处理，得到压缩后的文本数据，进而将压缩后的文本数据发送至音频播放设备。

根据本发明实施例的另一方面，还提供了一种音频处理装置，该装置包括：采集模块，用于采集待处理音频数据，其中，所述待处理音频数据中至少包括环境噪声数据以及语音数据；提取模块，用于对待处理音频数据进行特征提取，得到语音特征转换模块；转换模块，用于对语音特征进行文本转换，得到语音数据对应的文本数据；发送模块，用于将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据，其中，所述目标语音数据为去除所述环境噪声数据后的数据。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，计算机程序被设置为执行上述的音频处理方法。

根据本发明实施例的另一方面，还提供了一种电子设备，该电子设备包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为执行上述的音频处理方法。

在本发明实施例中，采用对语音特征进行文本转换的方式，通过采集待处理音频数据，其中，待处理音频数据中至少包括环境噪声数据以及语音数据，对待处理音频数据进行特征提取，得到语音特征，然后对语音特征进行文本转换，得到语音数据对应的文本数据，进而将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据，其中，目标语音数据为去除所述环境噪声数据后的数据。

在上述过程中，通过对采集到的待处理音频数据进行特征提取，得到语音特征，去除待处理音频数据中的环境噪声数据，并将不含有环境噪声数据的语音特征进行文本转换，得到待处理音频数据中的语音数据所对应的文本数据，从而以文本的形式传输给音频播放设备，音频播放设备将文本数据转换为目标语音数据并进行播放，由于在特征提取阶段，已经去除了待处理音频数据中的环境噪声数据，因此目标语音数据为只包含语音数据而不包含环境噪声数据的数据，从而避免了传输给音频播放设备的音频数据中含有环境噪声数据的问题，进而实现了提高音频播放设备播放音频时的播放质量的效果。

由此可见，本申请所提供的方案达到了避免传输给音频播放设备的音频数据中包含有环境噪声数据的目的，从而实现了提高音频播放时的播放质量的技术效果，进而解决了现有技术中由于音频文件中包含环境噪声数据导致音频播放效果差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据现有技术的一种音频处理的方法流程图；

图2是根据本发明实施例的一种可选的音频处理的方法流程图；

图3是根据本发明实施例的一种可选的音频处理的方法流程图；

图4是根据本发明实施例的一种可选的音频处理的方法示意图；

图5是根据本发明实施例的一种可选的音频处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种音频处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

需要说明的是，在本实施例中，音频处理系统可以作为本实施例中的音频处理方法的执行主体，其中，音频处理系统至少包括音频采集终端以及音频播放设备。

图2是根据本发明实施例的音频处理方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，采集待处理音频数据。

在步骤S202中，待处理音频数据中至少包括环境噪声数据以及语音数据，例如，语音数据可以是老师上课讲话的声音，环境噪声数据可以是学生窃窃私语的声音以及桌椅移动或者过往车辆产生的声音。

另外，采集待处理音频的设备可以是单个全向麦克风，也可以是具有指向功能的麦克风，采集待处理音频的整体环境保证能够正常拾取到人讲话的声音即可。

需要说明的是，步骤S202在采集待处理音频时，对采集环境的部署上无需太高的要求，也不需要对教室等采集环境进行声学改造或者静音处理，对于麦克风的配置，单个全向麦克风即可满足要求，不需要必须配置为多个具有指向功能的麦克风，从而降低了部署的复杂程度以及经济成本。

步骤S204，对待处理音频数据进行特征提取，得到语音特征。

在步骤S204中，在采集到待处理音频数据后，通过音频数据的前端特征提取语音特征，例如，当采集到一段声音后，识别声音的前端特征，前端特征可以是声音的频率或者音量，根据声音的前端特征处理音频数据，去除掉待处理音频数据中的环境噪声数据，从而得到需要进行文本转换的语音特征。

另外，在根据前端特征提取到语音特征后，可以对语音特征进行统计建模，其中，建模可以使用贝叶斯统计建模框架，即遵循最大后验概率决策准则进行建模，利用建立的模型可以对语音模型进行文本转换。

需要说明的是，通过步骤S204，对待处理的音频数据进行语音特征提取，能够有效识别音频数据中的环境噪声数据，从而将环境噪声数据从音频数据中去除，从而使得后续传输至音频播放设备的目标音频数据中只包含语音数据而不包含环境噪声数据，进而实现了提高音频播放设备播放音频时的播放质量的效果。

步骤S206，对语音特征进行文本转换，得到语音数据对应的文本数据。

可选地，在得到语音特征后，通过预设的语言模型来计算语音数据对应所生成的文字序列的概率，同时通过预设的声学模型再次计算文字序列转化成语音数据的概率，在限定的时间内，得到与语音数据匹配度最高的文本序列，解码完成语音特征的文本转换，得到语音数据对应的文本数据。

另外，在得到语音数据对应的文本数据后，还可对文本数据进行压缩，从而以压缩后的格式传输给音频播放设备。其中，可以通过开源压缩算法压缩文本数据，例如，采用开源压缩算法Brotli算法可以实现将文本数据进行压缩的效果。

通过上述步骤，将语音特征进行文本转换，并将得到的语音数据所对应的文本数据压缩后传输给音频播放设备，此步骤可以极大的降低语音数据的传输带宽，保证语音数据传输的流畅性。而在对语音特征进行文本转换的过程中，采用预设的语言模型和声学模型进行概率计算，实现了准确无误的将语音数据转换为文本数据的效果。

步骤S208，将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据。

在步骤S208中，目标语音数据为去除环境噪声数据后的数据。音频播放设备支持对压缩的文本数据的解压，并且在解压文本数据后可将文本数据转换为目标语音数据，其中，音频播放设备可以是带有音响的计算机设备，例如，笔记本电脑、台式电脑、智能手机以及智能平板等设备。

可选地，在将文本数据发送至音频播放设备时，可以将声音的声纹、音色以及音调等特征信息也发送至音频播放设备，音频播放设备识别声纹等特征信息，从而在播放目标语音数据利用上述特征信息使用原声播放，例如，将老师的声纹、音色以及音调等特征信息连同文本数据一起发送给音频播放设备，音频播放设备在将文本数据转换为目标语音数据并进行播放时，利用老师的声音特征信息原声播放目标语音数据，使得学生清楚地辨别出老师的声音。另外，音频播放设备播放目标语音数据时，也可以采用国家标准的声音库，提供统一清晰的语音数据。

由于步骤S208采用文本解析的方式还原语音数据，可以有效屏蔽音频采集终端的所有环境噪声数据，让整个播放的目标语音数据纯净清晰，而且，步骤S208中支持使用国家标准声音库中的声音或者讲话者本人的声音，对目标语音数据进行播放，有利于提高用户使用体验，满足更多更复杂的播放要求。

基于上述步骤S202至步骤S208所限定的方案，可以获知，在本发明实施例中，采用对语音特征进行文本转换的方式，通过采集待处理音频数据，其中，所述待处理音频数据中至少包括环境噪声数据以及语音数据，对待处理音频数据进行特征提取，得到语音特征，然后对语音特征进行文本转换，得到语音数据对应的文本数据，进而将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据，其中，目标语音数据为去除所述环境噪声数据后的数据。

容易注意到的是，在上述过程中，通过对采集到的待处理音频数据进行特征提取，得到语音特征，去除待处理音频数据中的环境噪声数据，并将不含有环境噪声数据的语音特征进行文本转换，得到待处理音频数据中的语音数据所对应的文本数据，从而以文本的形式传输给音频播放设备，音频播放设备将文本数据转换为目标语音数据并进行播放，由于在特征提取阶段，已经去除了待处理音频数据中的环境噪声数据，因此目标语音数据为只包含语音数据而不包含环境噪声数据的数据，从而避免了传输给音频播放设备的音频数据中含有环境噪声数据的问题，进而实现了提高音频播放设备播放音频时的播放质量的效果。

在一种可选的实施例中，音频处理系统在采集到待处理音频数据后，首先将待处理音频数据由模拟信号转换为数字信号，得到第一音频数据，然后去除第一音频数据中的噪声信号，得到第二音频数据，再对第二音频数据进行分帧处理，得到第三音频数据，随后对第三音频数据进行预处理，得到第四音频数据，进而对第四音频数据进行特征提取，得到语音特征。

可选地，一段待处理音频数据输入到音频处理系统后，由于待处理音频数据本身是模拟信号，音频处理系统首先会对待处理音频数据进行模电转换，即将待处理音频数据由模拟信号转换为数字信号，得到第一音频数据，然后音频处理系统去除掉第一音频数据中的噪声信号，例如，使用静音切除技术，将静音部分等无关噪音去除，去除掉噪声信号后，得到第二音频数据，此时音频处理系统对第二音频数据进行分帧处理，将数字信号形式的音频数据分成多帧信号，其中，每一帧的信号是相互关联的，并非独立存在的。经过分帧处理后，得到第三音频数据。音频处理系统随后对第三音频数据进行一系列的信号预处理，得到第四音频数据。音频处理系统可以通过使用梅尔频率倒谱系数(Mel-Scale FrequencyCepstral Coefficients，简称MFCC)对第四音频数据进行特征提取，得到语音特征。

通过上述过程，将待处理音频数据转换为数字信号的形式，去除掉其中的噪音信号，然后对待处理音频数据的数字信号进行分帧，进而进行预处理以及特征提取，从而去除了待处理音频数据中的环境噪声数据，避免了由于传输给音频播放设备的音频数据中包含有环境噪声数据，导致的音频播放时播放质量差的问题。

在一种可选的实施例中，音频处理系统检测第一音频数据所对应的信号强度，并且根据第一音频数据所对应的信号强度从第一音频数据中过滤掉噪声信号，得到第二音频数据，其中，噪声信号对应的信号强度低于预设信号强度。

可选地，音频处理系统对第一音频数据的信号强度进行检测，音频处理系统可以预先设置一个预设信号强度，噪声信号对应的信号强度会低于预设信号强度，从而音频处理系统可以根据第一音频数据的信号强度和预设信号强度的比较结果，过滤掉噪声信号，例如，教室中的学生窃窃私语的声音属于环境噪声数据，其对应的信号强度不会高于预设信号强度，音频处理系统可对这部分噪声信号进行过滤，以保证第二音频数据中不会包含学生窃窃私语的声音。

在一种可选的实施例中，音频处理系统对第三音频数据进行预加重处理，得到第五音频数据，然后对第五音频数据进行加窗处理，得到第六音频数据，随后对第六音频数据进行傅里叶变换，得到第七音频数据，进而对第七音频数据进行离散余弦变换，得到第四音频数据。

可选地，音频处理系统在得到第三音频数据后，对其进行一系列的信号处理，其中包括，通过预加重处理对第三音频数据的信号进行高频分量的补偿，弥补高频分量在传输过程中的过大衰减，而且预加重处理对于噪声并没有影响，可以有效提高信号的输出信噪比。通过对第三音频数据的信号进行预加重处理后，音频处理系统得到第五音频数据。音频处理系统继续对第五音频数据进行加窗处理。通过对音频数据的加窗处理，可以减少信号在周期上进行后续傅里叶变换时所产生的误差，也可减少信号不连续部分的幅值，得到更加平滑的信号。在对第五音频数据进行加窗处理后，得到第六音频数据。

进一步地，，音频处理系统对第六音频数据进行傅里叶变换。需要说明的是，通过对音频数据进行傅里叶变换，可实现对信号成分的分析，例如，分析信号中的正弦波、方波等。另外，通过对第六音频数据进行傅里叶变换，可将难以处理的时域信号转换为易于分析的频域信号，并得到第七音频数据。

进一步地，音频处理系统对第七音频数据的信号进行Mel(Mel-spacedfilterbank)参数的滤波和取对数以及离散余弦变换。其中，通过对音频数据进行滤波使得音频数据的信号在低频部分分布密集，在高频部分分布稀疏，能够更好得满足人耳听觉特性。通过对滤波后的信号做取对数的处理，则可以实现后续的倒谱分析。在完成对信号的取对数的处理后，音频处理系统对信号进行离散余弦变换，经过变换后的信号会有很好的能量聚集效应，而且离散余弦变换的结果没有虚部，方便信号的后续计算。在完成对信号的离散余弦变换后，音频处理系统可以得到第四音频数据。

在一种可选的实施例中，音频处理系统获取语音特征所对应的音素，并且根据语音特征所对应的音素确定语音特征所对应的初始文本序列，然后基于预设的语言模型确定语音数据转换为初始文本序列的第一概率，并且基于预设的声学模型确定初始文本序列转换为语音数据的第二概率，进而在第一概率与第二概率满足预设条件时，确定初始文本序列为语音数据所对应的文本数据。

可选地，如图3所示，当音频处理系统对待处理音频数据进行特征提取，得到语音特征后，音频处理系统首先获取语音特征对应的音素，根据语音特征所对应的音素确定语音特征所对应的初始文本序列，然后通过预设的语言模型，计算语音数据对应所转换的文字序列的第一概率，同时通过声学模型再次计算文字序列转化成语音数据的第二概率，在限定的时间内，得到与语音数据匹配度最高的文本序列，解码完成语音特征的文本转换，得到语音数据所对应的文本数据。例如，当音频处理系统得到一段语音特征后，音频处理系统首先获取该语音特征对应的音素，根据语音特征所对应的音素确定语音特征所对应的初始文本序列，然后通过预设的语言模型，计算该语言数据对应生成的文字序列可能为：30％的概率为“讲课”，70％的概率为“上课”，同时通过预设的声学模型再次计算文本序列“讲课”转化为所得到的语音数据的概率为20％，文本序列“上课”转化为所得到的语音数据的概率为80％，综合分析，与所得到的语音数据匹配度最高的文本序列为“上课”，从而将这一段语音特征所对应的语音数据转换为文本数据“上课”。

在上述过程中，在对语音特征进行文本转换的过程中，采用预设的语言模型和声学模型进行概率计算，实现了准确无误的将语音数据转换为文本数据的效果。

在一种可选的实施例中，音频处理系统获取语音特征所对应的音素序列，并且根据音素序列所对应的上下文确定音素序列所对应的分割点，从而基于分割点将音素序列划分为多个音素。

可选地，音频处理系统可以通过动态解码网络，编译一个状态网络并构成搜索空间，从而根据音素序列所对应的上下文确定音素序列所对应的分割点，把音素序列转换成一个个的音素。

在一种可选的实施例中，音频处理系统能够确定每个音素所对应的文本，得到语音特征所对应的多个文本，并且根据音素序列所对应的上下文对多个文本连接，得到初始文本序列。

可选地，音频处理系统确定每个音素所对应的文本，从而得到语音特征所对应的多个文本，对音素按照语序拆分成状态序列，进而根据上下文一致性原则将音素的状态序列对应的多个文本进行连接，然后得到所需的文本序列。

通过上述过程，实现了按照上下文一致的原则将语音特征所对应的语音数据转换为文本数据的效果，

在一种可选的实施例中，音频处理系统对文本数据进行压缩处理，得到压缩后的文本数据，进而将压缩后的文本数据发送至音频播放设备。

可选地，音频处理系统可以通过开源压缩算法Brotli算法压缩文本数据。

在上述过程中，将文本数据压缩后传输给音频播放设备，可以极大的降低语音数据的传输带宽，保证语音数据传输的流畅性。

由上述内容可知，在本实施例中，通过对采集到的待处理音频数据进行特征提取，得到语音特征，去除待处理音频数据中的环境噪声数据，并将不含有环境噪声数据的语音特征进行文本转换，得到待处理音频数据中的语音数据所对应的文本数据，从而以文本的形式传输给音频播放设备，音频播放设备将文本数据转换为目标语音数据并进行播放，由于在特征提取阶段，已经去除了待处理音频数据中的环境噪声数据，因此目标语音数据为只包含语音数据而不包含环境噪声数据的数据，从而避免了传输给音频播放设备的音频数据中含有环境噪声数据的问题，进而实现了提高音频播放设备播放音频时的播放质量的效果。

图4是根据本发明实施例的一种音频处理方法的示意图，如图4所示，首先音频处理系统中的音频采集终端通过麦克风等设备采集待处理音频数据，其中，待处理音频数据中至少包括环境噪声数据以及语音数据，然后音频处理系统会对待处理音频数据进行信号转换、去除噪音、分帧、预加重、加窗、傅里叶变换以及离散余弦变换等一系列处理，随后对处理后的音频数据进行语音特征提取，并将提取后的语音特征进行文本转换，得到语音数据对应的文本数据，同时对文本数据进行压缩。音频处理系统将压缩后的文本数据通过网络传输给音频播放设备，音频播放设备对文本数据进行解压后还原成目标音频数据并进行播放，其中目标音频数据为不包含环境噪声数据的数据。

通过上述过程，本申请所提供的方案达到了避免传输给音频播放设备的音频数据中包含有环境噪声数据的目的，从而实现了提高音频播放时的播放质量的技术效果，进而解决了现有技术中由于音频文件中包含环境噪声数据导致音频播放效果差的技术问题。

实施例2

根据本发明实施例，还提供了一种用于实施上述音频处理方法的装置实施例，图5是根据本发明实施例的一种音频处理装置的示意图，如图5所示，上述音频处理装置，包括：采集模块501、提取模块503、转换模块505以及发送模块507。

其中，采集模块501，用于采集待处理音频数据，其中，待处理音频数据中至少包括环境噪声数据以及语音数据；提取模块503，用于对待处理音频数据进行特征提取，得到语音特征；转换模块505，用于对语音特征进行文本转换，得到语音数据对应的文本数据；发送模块507，用于将文本数据发送至音频播放设备，以使音频播放设备将文本数据转换为目标语音数据，并播放目标语音数据，其中，目标语音数据为去除环境噪声数据后的数据。

需要说明的是，上述采集模块501、提取模块503、转换模块505以及发送模块507对应于上述实施例中的步骤S202至步骤S208，四个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，音频处理装置还包括：第一转换模块、去除模块、分帧模块、预处理模块以及提取模块。其中，第一转换模块，用于将待处理音频数据由模拟信号转换为数字信号，得到第一音频数据；去除模块，用于去除第一音频数据中的噪声信号，得到第二音频数据；分帧模块，用于对第二音频数据进行分帧处理，得到第三音频数据；预处理模块，用于对第三音频数据进行预处理，得到第四音频数据；提取模块，用于对第四音频数据进行特征提取，得到语音特征。

可选的，音频处理装置还包括：检测模块以及过滤模块。其中，检测模块，用于检测第一音频数据所对应的信号强度；过滤模块，用于根据第一音频数据所对应的信号强度从第一音频数据中过滤掉噪声信号，得到第二音频数据，其中，噪声信号对应的信号强度低于预设信号强度。

可选的，音频处理装置还包括：第一处理模块、第二处理模块、第一计算模块以及第二计算模块。其中，第一处理模块，用于对第三音频数据进行预加重处理，得到第五音频数据；第二处理模块，用于对第五音频数据进行加窗处理，得到第六音频数据；第一计算模块，用于对第六音频数据进行傅里叶变换，得到第七音频数据；第二计算模块，用于对第七音频数据进行离散余弦变换，得到第四音频数据。

可选的，音频处理装置还包括：获取模块、第一确定模块、第一转换模块、第二转换模块以及第二确定模块。其中，获取模块，用于获取语音特征所对应的音素；第一确定模块，用于根据语音特征所对应的音素确定语音特征所对应的初始文本序列；第一转换模块，用于基于预设的语言模型确定语音数据转换为初始文本序列的第一概率；第二转换模块，用于基于预设的声学模型确定初始文本序列转换为语音数据的第二概率；第二确定模块，用于在第一概率与第二概率满足预设条件时，确定初始文本序列为语音数据所对应的文本数据。

可选的，音频处理装置还包括：第一获取模块、第三确定模块以及划分模块。其中，第一获取模块，用于获取语音特征所对应的音素序列；第三确定模块，用于根据音素序列所对应的上下文确定音素序列所对应的分割点；划分模块，用于基于分割点将音素序列划分为多个音素。

可选的，音频处理装置还包括：第四确定模块以及连接模块。其中，第四确定模块，用于确定每个音素所对应的文本，得到语音特征所对应的多个文本；连接模块，用于根据音素序列所对应的上下文对多个文本连接，得到初始文本序列。

可选的，音频处理装置还包括：压缩模块以及第一发送模块。其中，压缩模块，用于对文本数据进行压缩处理，得到压缩后的文本数据；第一发送模块，用于将压缩后的文本数据发送至音频播放设备。

实施例3

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，计算机程序被设置为执行上述实施例1中的音频处理方法。

实施例4

根据本发明实施例的另一方面，还提供了一种电子设备，该电子设备包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为执行上述实施例1中的音频处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，其特征在于，包括：

采集待处理音频数据，其中，所述待处理音频数据中至少包括环境噪声数据以及语音数据；

对所述待处理音频数据进行特征提取，得到语音特征；

对所述语音特征进行文本转换，得到所述语音数据对应的文本数据；

将所述文本数据发送至音频播放设备，以使所述音频播放设备将所述文本数据转换为目标语音数据，并播放所述目标语音数据，其中，所述目标语音数据为去除所述环境噪声数据后的数据。

2.根据权利要求1所述的方法，其特征在于，对所述待处理音频数据进行特征提取，得到语音特征，包括：

将所述待处理音频数据由模拟信号转换为数字信号，得到第一音频数据；

去除所述第一音频数据中的噪声信号，得到第二音频数据；

对所述第二音频数据进行分帧处理，得到第三音频数据；

对所述第三音频数据进行预处理，得到第四音频数据；

对所述第四音频数据进行特征提取，得到所述语音特征。

3.根据权利要求2所述的方法，其特征在于，去除所述第一音频数据中的噪声信号，得到第二音频数据，包括：

检测所述第一音频数据所对应的信号强度；

根据所述第一音频数据所对应的信号强度从所述第一音频数据中过滤掉所述噪声信号，得到所述第二音频数据，其中，所述噪声信号对应的信号强度低于预设信号强度。

4.根据权利要求2所述的方法，其特征在于，对所述第三音频数据进行预处理，得到第四音频数据，包括：

对所述第三音频数据进行预加重处理，得到第五音频数据；

对所述第五音频数据进行加窗处理，得到第六音频数据；

对所述第六音频数据进行傅里叶变换，得到第七音频数据；

对所述第七音频数据进行离散余弦变换，得到所述第四音频数据。

5.根据权利要求1所述的方法，其特征在于，对所述语音特征进行文本转换，得到所述语音数据对应的文本数据，包括：

获取所述语音特征所对应的音素；

根据所述语音特征所对应的音素确定所述语音特征所对应的初始文本序列；

基于预设的语言模型确定所述语音数据转换为所述初始文本序列的第一概率；

基于预设的声学模型确定所述初始文本序列转换为所述语音数据的第二概率；

在所述第一概率与所述第二概率满足预设条件时，确定所述初始文本序列为所述语音数据所对应的文本数据。

6.根据权利要求5所述的方法，其特征在于，获取所述语音特征所对应的音素，包括：

获取所述语音特征所对应的音素序列；

根据所述音素序列所对应的上下文确定所述音素序列所对应的分割点；

基于所述分割点将所述音素序列划分为多个音素。

7.根据权利要求6所述的方法，其特征在于，根据所述语音特征所对应的音素确定所述语音特征所对应的初始文本序列，包括：

确定每个音素所对应的文本，得到所述语音特征所对应的多个文本；

根据所述音素序列所对应的上下文对所述多个文本连接，得到所述初始文本序列。

8.根据权利要求1所述的方法，其特征在于，将所述文本数据发送至音频播放设备，包括：

对所述文本数据进行压缩处理，得到压缩后的文本数据；

将所述压缩后的文本数据发送至所述音频播放设备。

9.一种音频处理装置，其特征在于，包括：

采集模块，用于采集待处理音频数据，其中，所述待处理音频数据中至少包括环境噪声数据以及语音数据；

提取模块，用于对所述待处理音频数据进行特征提取，得到语音特征；

转换模块，用于对所述语音特征进行文本转换，得到所述语音数据对应的文本数据；

发送模块，用于将所述文本数据发送至音频播放设备，以使所述音频播放设备将所述文本数据转换为目标语音数据，并播放所述目标语音数据，其中，所述目标语音数据为去除所述环境噪声数据后的数据。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的音频处理方法。

11.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至8任一项中所述的音频处理方法。