CN114913837B

CN114913837B - 一种音频处理方法及装置

Info

Publication number: CN114913837B
Application number: CN202210443303.5A
Authority: CN
Inventors: 袁戎
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-11-03
Anticipated expiration: 2042-04-26
Also published as: CN114913837A

Abstract

本发明提供了一种音频处理方法及装置，方法包括对于音频发送端发送的带有节目对照表的TS封包开启适配域，向所述适配域的标识信息内写入不同的音频标记；音频接收端解析所述TS封包，得到基础音频数据，并基于适配域内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述目标音频数据进行选择性输出。本发明在音频串流数据TS包中，开启适配域，并在适配域中添加不同音频的音频标记，音频标记中包括基础音频及音域范围，基于音频接收端的选择，将对应的目标音频数据进行播放输出，且屏蔽掉未选择音频数据，达到降噪效果，保证输出音频质量。

Description

一种音频处理方法及装置

技术领域

本发明涉及音频处理技术领域，尤其是一种音频处理方法及装置。

背景技术

得益于网络相关的应用近年来蓬勃发展，音频通过网络传递已得到普遍应用，以网络媒介为主的流格式也已经大量运用各种场景。串流音讯若没有适当处理会直接影响到用户体验质量，尤其在线会议或现场直播这类实时串流上，会议内吵杂的音频仰赖主持人操作系统来关闭特定的麦克风，否则就是发言者大声讲话或接收者设法听懂。

现有专利文件CN 114333853提供了一种音频数据的处理方法、设备和系统，其公开了会议记录处理装置对音频数据进行语音分段，以第一分段音频为声纹特征，结合视频身份识别结果确定音频数据对应的发言人；音频数据和对应的声源方位信息储存于音频码流的附加域信息中。声纹特征主要用于识别，搭配定位与视频可以达成某种分类的功能，但声纹强调在个体的声音特征，通常必须先采样作为比对基础，这样的技术在多人在线会议或音频去噪没有直接的帮助。

现有的音频处理上有主动降噪技术，可以针对人声做加强并广泛性的去除背景噪音，是一种广域的音频处理。目前这类技术多用于耳机等终端装置上，对于手机和计算机等接收串流的网络设备则需要特殊软件，且多为离线方式处理，以实时性方式如直播情况下对音讯直接分类过滤的技术仍无法普及。

发明内容

本发明提供了一种音频处理方法及装置，用于解决现有实时音频数据在传输时，降噪处理效果差的问题。

为实现上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种音频处理方法，所述方法包括以下步骤：

对于音频发送端发送的带有节目对照表的TS(是一种标准数字封装格式,用来传输和储存视讯、音频与频道、节目信息，应用于数字电视广播系统，如DVB、ATSC、ISDB、IPTV等)封包开启适配域，向所述适配域的标识信息内写入不同的音频标记；

音频接收端解析所述TS封包，得到基础音频数据，并基于适配域内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述目标音频数据进行选择性输出。

进一步地，所述音频标记包括编号、基础音频和音域范围。

进一步地，所述适配域的标识信息包括标签和音频标记。

进一步地，所述音频接收端解析所述TS封包的过程为：

解析节目关联表，得到节目对应表地址，寻址得到节目对应表及基础音频数据；

解析适配域的长度和标识；

在所述适配域长度大于零且存在音频标记时，解析所述音频标记，并从基础音频数据中得到当前音频标记对应的目标音频数据。

进一步地，所述音频标记的判断具体为：

获取适配域中的标识信息，若所述标识信息中标签后首个字节为填充字节，则不存在音频标记，否则存在音频标记。

进一步地，所述填充字节为0xFF。

本发明第二方面提供了一种音频处理装置，包括音频发送端和音频接收端，所述音频发送端发送的带有节目对照表的TS封包中开启适配域，并向所述适配域的标识信息内写入不同的音频标记；

所述音频接收端解析所述TS封包，得到基础音频数据，并基于适配域内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述音频数据进行选择性输出。

进一步地，所述音频标记包括编号、基础音频和音域范围。

进一步地，所述音频接收端包括：

基础解析单元，解析节目关联表，得到节目对应表地址，寻址得到节目对应表及基础音频数据；

适配域解析单元，解析适配域的长度和标识，在所述适配域长度大于零且存在音频标记时，解析所述音频标记，并从基础音频数据中得到当前音频标记对应的目标音频数据；

输出选择单元，设置音频表示的输出选项，并基于用户的选择结果，输出对应的目标音频数据。

本发明第三方面提供了一种计算机存储介质，所述计算机存储介质中存储有计算机指令，所述计算机指令在所述装置上运行时，使所述装置执行所述方法的步骤。

本发明第二方面的所述音频处理装置能够实现第一方面及第一方面的各实现方式中的方法，并取得相同的效果。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明在音频串流数据TS包中，开启适配域，并在适配域中添加不同音频的音频标记，音频标记中包括基础音频及音域范围，基于音频接收端的选择，将对应的目标音频数据进行播放输出，且屏蔽掉未选择音频数据，达到降噪效果，保证输出音频质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述方法实施例的流程示意图；

图2是本发明所述方法实施例中添加音频标记后的TS封包示意图；

图3是本发明所述装置实施例的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

在TS流格式中，原始音频数据先经过PES(acketised Elementary Streams，信息包化的基本数据流)阶段打包，再经过TS阶段打包，最后加上PAT(Program AssociationTable，数字电视系统中节目指示的根节点；终端设备(如机顶盒)搜索节目时最先都是从这张表开始搜索的)和PMT(Program Map Table，节目对映表，包含特定节目相关的信息，音频的ID记录在此，因此可以从PMT找到处里的音频数据)等信息成为一个完整的TS流。音频数据在开始后传输后，每隔一段长度后，会再次被传送。

每个TS封包长度固定为188Bytes，若TS较长(例如开启适配域)或PES存在的情况下，则可以携带的音频数据较少。TS最小为4Bytes，PES不存在的情况下音频数据可放入最多184Bytes。

接收方收到串流音频后解开PAT可以找到对应的PMT ID，接下来解开PMT可以找到需要处理的音频ID，之后收到的TS封包会先确认ID，若ID正确则进一步将视频或音频数据抽出，依照其编码格式开始进行译码拨放。若ID不正确则该封包丢弃不处理。

TS封包可以选择是否开启适配域，若开启的情况下可以指定适配域长度，音频数据放在适配域之后。适配域内的标识若有开启，则继续解析适配域内的数据，若标识功能全关闭，则适配域长度内以0xFF填充。此填充数据在拨放时不会解析，因此该填充空间可以进一步使用于音频标记用。另外，由于接收者在第一笔音频译码前就应该获得标记信息，因此音频标记可以设定于带有PMT的TS封包內，如此不会影响到音频数据的空间，而且每隔一段时间后PMT更新时也可以同时更新音频标记。

如图1所示，本发明实施例提供了一种音频处理方法，所述方法包括以下步骤：

S1,对于音频发送端发送的带有节目对照表的TS封包开启适配域，向所述适配域的标识信息内写入不同的音频标记；

S2,音频接收端解析所述TS封包，得到基础音频数据，并基于适配域内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述目标音频数据进行选择性输出。

步骤S1中，所述音频标记包括编号、基础音频和音域范围。由发送方透过程序自动标记的方式产生，标记所有收到的音频讯息后随TS封包发送出去，接收方收到后可以选择需要拨放的音频。常用的音频可以整理成一个列表，方便使用者以选取方式操作。标记一个音频的容量为编号4bits、基础音频16bits、音域范围12bits，总共4个Bytes。在直播场景下，当发言者开始说话时便将音频开始进行标记，除了讲话声外周围可能包含其他声音，若标记了3种音频从编号1到3，各记录了基础音频及音域范围数值，总共需要12Bytes的储存空间。

把音频标记信息放进带有PMT的TS封包，需要在设定上开启适配域(AdaptationField)。一般情况下带有PMT的TS封包适配域参数设定为01，参考MPEG2-TS规格书可以了解这代表适配域关闭但有负载数据(payload)的情况，要开启适配域的话需要使用11作为设定参数。

当适配域开启后，需要补足适配域长度及标识信息，由于标识信息为1Byte，加上要加入的3个(以3个为例)音频标记12Bytes，因此适配域长度须设定为13，也就是16进位的0x0D。这是标识信息全为0的状况下，若标识内有功能开启，则对应的设定可能也会需要占用空间。音频标记完成TS打包的情况如下图2，加入音频标记占用一些空间，因此原本PMT信息长度相对要减少一些。一般情况下TS包头加上PMT信息约60Bytes左右，剩下约120Bytes的空间可以用于插入音频标记，在使用上应该是非常足够的。当串流持续进行时，若发言者附近有新的声音被标记，则在下一次PMT传输的时候会将新的音频标记带入，传送给接收方。假设发言者讲话标记编号1，基础音频132Hz，音域范围正负50Hz，也就是82～182Hz都算讲话声，则记录为0x10084032。同理，假设周围的其他声音被标记为0x201F4064和0x3005000A，这些标记信息被打包在PMT使用的TS封包里，其中框线的部分为开启适配域后新增加的标记信息，之后接着PMT数据，这个TS封包总长为188Bytes。封包内包含TS头部即TS header＝0x47500030，适配域长度＝0x0D；标签＝0x00，音域标记1＝0x10084032、音域标记2＝0x201F4064；音域标记3＝0x3005000A；PMT＝0x0002B0…FFFF。

所述适配域的标识信息包括标签和音频标记。

步骤S2中，音频接收端接收到串流音频TS包后，解析节目关联表PAT，得到节目对应表地址PMT ID，寻址得到节目对应表PMT及基础音频数据，基础音频数据中为当前TS包中所有的音频数据。

解析适配域的长度和标识；在所述适配域长度大于零且存在音频标记时，解析所述音频标记，并从基础音频数据中得到当前音频标记对应的目标音频数据。若适配域中不存在音频标记，在直接跳过位元数据处理后续数据。

所述音频标记的判断具体为：获取适配域中的标识信息，若所述标识信息中标签后首个字节为填充字节，则不存在音频标记，否则存在音频标记。所述填充字节为0xFF。音频标记若为0xFF开头代表音频标记最小值为0xFF000000，这个编号15音频为61440Hz的频率已超过人类耳朵能听到的范围，应该在音频记录时避免这类无用的标记，因此将0xFF作为识别是否为填充信息的标准。

当获得发送方所送出的音频标记，便可知道接下来的音频数据包含了哪几种声音。若是一场在线会议，接收方自然会以讲话音频为主要聆听内容，若是一场直播音乐会，接收方可能会聆听全部的音频内容。当音频数据被译码拨放时，只有被接收方指定的音频会被拨放出来，未指定的音频则被屏蔽或消除，因此接收方可以专注于指定的声音内容。在此技术下，在线会议中其他麦克风传来的吵杂声或发言者附近突如其来的噪音，都可以运用指定接收的方式不被听到，可以避免对会议造成干扰。使用音频标记的方法可以方便接收方快速的过滤不必要的声音，对于嵌入式或其他小型装置而言不需要强大的AI运算或复杂的程序，也能简单的过滤音频。

音频标记方式可以进一步包含更多信息，如分贝值或过滤阀值等，来支持更复杂或更精准的音频过滤。一般情况下携带PMT的TS封包可以容纳约30个音频标记，若使用较复杂的标记方法会造成可记录的音频数量减少，此时可以使用较宽松的音频分类来减少标记数量，例如用人声来涵盖男声和女声的音频域。另一方面也可以采用标记列表更新的方式，维持一定数量的标记来避免数据溢位(data overflow)。这些更强大的功能不影响本发明的基本架构，未来使用上可依实际情况调整改良。

下面对本发明所述方法的应用进行举例说明。

假设ABC共3个人要进行一场直播讨论，此时A在一个展览会场，B在家里，C在户外咖啡店。当A发起会议并开始说话时，音频开始进行编号与纪录。若编号1为发言者讲话声记录为0x10084032，编号2和3分别代表会场背景声音和附近人员的谈话声，分别记录为0x201F4064和0x3005000A，这3个标记将记录在PMT所在的TS封包内。

音频传送前先产生含有PAT信息的TS封包，里面注明了PMT ID。接下来产生含有PMT信息的TS封包，此时开启适配域将长度信息写入0x0D且标签设为0，接下来把0x10084032、0x201F4064、0x3005000A填入适配域内，然后写入PMT信息完成TS封包。接下来之后的TS封包，依照原本串流的规则打包，不再写入音频标记。若有新的音频被标记下来，则会在下一次PMT产生时更新音频标记。

当B和C收到串流音频后，依程序先解开PAT找到PMT ID，找到PMT后发现适配域开启，从适配域长度知道音频标记的内容，依序解析0x10084032、0x201F4064、0x3005000A后搭配常用选单，即可了解这次传送数据内包含了发言者讲话声、背景声、背景讲话声等3种。之后陆续收到音频数据的TS封包，译码后比对音频，若是指定要拨放的声音则传给喇叭拨放，若不是则进行屏蔽或消除。若B预设仅收听发言者讲话，则只会听到A的讲话声；若C预设全部开启，则听到A传过来的全部声音。

若C开启麦克风但未说话，由于有音频输入因此应用程序打包音频时会把TS包内开启适配域使用。假设编号1和2分别代表户外噪音和刚刚的汽车喇叭声，将0x10082031和0x261A83E8记录在TS适配域中，把音频数据打包后送出。接收者收到后解开音频列表，并照常用选单分类为街道声和喇叭声等2种。B收到后因为预设仅开启发言者讲话，因此听起来C是静音；若A预设全部开启，则听到C传过来的全部声音。

如图3所示，本发明实施例还提供了一种音频处理装置，包括音频发送端1和音频接收端2，所述音频发送端发送的带有节目对照表的TS封包中开启适配域11，并向所述适配域11的标识信息内写入不同的音频标记；

所述音频接收端2解析所述TS封包，得到基础音频数据，并基于适配域11内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述音频数据进行选择性输出。

所述音频标记包括编号、基础音频和音域范围。

所述音频接收端2包括基础解析单元21、适配域解析单元22和输出选择单元23。

基础解析单元21解析节目关联表，得到节目对应表地址，寻址得到节目对应表及基础音频数据；适配域解析单元22解析适配域的长度和标识，在所述适配域长度大于零且存在音频标记时，解析所述音频标记，并从基础音频数据中得到当前音频标记对应的目标音频数据；输出选择单元23设置音频表示的输出选项，并基于用户的选择结果，输出对应的目标音频数据。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机指令，所述计算机指令在所述装置上运行时，使所述装置执行所述方法的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种音频处理方法，其特征是，所述方法包括以下步骤：

对于音频发送端发送的带有节目对照表的TS封包开启适配域，向所述适配域的标识信息内写入不同的音频标记；

音频接收端解析所述TS封包，得到基础音频数据，并基于适配域内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述目标音频数据进行选择性输出；

所述音频标记包括编号、基础音频和音域范围；

所述音频接收端解析所述TS封包的过程为：

解析适配域的长度和标识；

2.根据权利要求1所述音频处理方法，其特征是，所述适配域的标识信息包括标签和音频标记。

3.根据权利要求1所述音频处理方法，其特征是，所述音频标记的判断具体为：

4.根据权利要求3所述音频处理方法，其特征是，所述填充字节为0xFF。

5.一种音频处理装置，包括音频发送端和音频接收端，其特征是，所述音频发送端发送的带有节目对照表的TS封包中开启适配域，并向所述适配域的标识信息内写入不同的音频标记；

所述音频接收端解析所述TS封包，得到基础音频数据，并基于适配域内的音频标记及节目对照表，得到音频标记对应的目标音频数据，并对所述音频数据进行选择性输出；

所述音频标记包括编号、基础音频和音域范围；

所述音频接收端包括：

6.一种计算机存储介质，所述计算机存储介质中存储有计算机指令，其特征是，所述计算机指令在权利要求5所述装置上运行时，使所述装置执行如权利要求1-4任一项所述方法的步骤。